Is Cèrcol based on the Big Five?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP public-domain item pool (Goldberg et al. 2006). The 12 team roles are derived from the AB5C circumplex (Hofstee et al. 1992) and team composition research (Bell 2007; Neuman & Wright 1999).

What makes Cèrcol different from Belbin or DISC?

Cèrcol's roles are grounded in the Big Five (OCEAN) personality model using the IPIP public-domain item pool. The scoring pipeline is fully open source and auditable. Witness Cèrcol uses forced-choice adjective selection — not Likert scales — to eliminate social desirability bias in peer assessment. Unlike Belbin or DISC, all items are public domain and the entire methodology is published and citable.

Is the personality assessment free?

The New Moon Cèrcol (10 items, Big Five snapshot) and First Quarter Cèrcol (60 items, IPIP-NEO-60, 30 facets) are always free — no account required. The Full Moon Cèrcol (120 items, IPIP-NEO-120, Witness peer assessment, cognitive ability measure) requires a one-time payment.

What is Witness Cèrcol?

Witness Cèrcol is a peer personality assessment where someone who knows you well rates you using a forced-choice adjective selection method — picking the best-fit and worst-fit adjective per round from a set covering all five OCEAN dimensions. Forced choice eliminates the social desirability bias that affects standard Likert-scale peer ratings. Dimensions where your self-rating and peer ratings diverge by more than 0.8 standard deviations are flagged as potential blind spots.

How are the 12 team roles derived?

The 12 roles are derived from the AB5C circumplex (Hofstee, De Raad & Goldberg 1992), covering all six intersections of the three team balance dimensions (Presence/Extraversion × Bond/Agreeableness × Vision/Openness) at both poles. The selection of these three dimensions as requiring team-level balance is grounded in Bell (2007) and Neuman & Wright (1999). Discipline (Conscientiousness) and Depth (Neuroticism) modulate role expression but do not define team balance.

No account is required for any instrument. During assessment, no personal data is collected — only anonymous scores are logged. Data is stored on our own servers (Hetzner Online GmbH). No third-party analytics. No data is shared with or sold to third parties.

Is Cèrcol based on the Big Five (OCEAN)?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP — the International Personality Item Pool, a public-domain collection validated in thousands of published studies. The five dimensions are Presence (Extraversion), Bond (Agreeableness), Vision (Openness), Discipline (Conscientiousness), and Depth (Neuroticism). Because the IPIP is public domain there are no licence restrictions: the full item pool and scoring logic are open and citable.

How is Cèrcol different from Belbin, DISC, or StrengthsFinder?

Three things set Cèrcol apart. First, the items come from the Big Five (OCEAN), the most replicated personality model in academic research — not a proprietary framework. Second, the full item pool (IPIP) and scoring pipeline are public domain and auditable; there is no black box. Third, the Witness peer assessment uses forced-choice adjective selection instead of Likert scales, which eliminates the social desirability bias that affects most 360-feedback tools. Belbin and DISC use closed, proprietary methodologies.

What are blind spots in team personality assessment?

A blind spot is a personality dimension where how you see yourself and how others see you diverge significantly — more than 0.8 standard deviations apart. Cèrcol's Witness peer assessment detects blind spots by comparing your self-report with forced-choice adjective ratings from people who know you. Blind spots are neither good nor bad: they show where your self-perception and others' experience of you don't match, which is often more actionable than the score itself.

Por qué 120 ítems es mejor que 10: el compromiso en la longitud de los tests de personalidad

La fórmula de Spearman-Brown: Por qué la longitud del test predice la fiabilidad del Big Five

La relación matemática entre la longitud del test y la fiabilidad fue formalizada hace más de un siglo por Charles Spearman y William Brown trabajando de manera independiente. La fórmula de profecía de Spearman-Brown predice cómo cambia la fiabilidad cuando cambias el número de ítems de un test, asumiendo que los nuevos ítems son de calidad similar a los originales.

La fórmula tiene una implicación específica: los beneficios de fiabilidad por añadir ítems siguen una curva de rendimientos decrecientes. Pasar de 2 ítems a 10 ítems produce un gran beneficio de fiabilidad. Pasar de 80 ítems a 120 ítems produce uno mucho menor. Los primeros ítems hacen la mayor parte del trabajo; cada ítem adicional añade menos que el anterior.

Por eso la elección de la longitud del test es una verdadera decisión de ingeniería en lugar de una conclusión simple de "más siempre es mejor". En algún punto, la carga sobre los participantes supera el beneficio de fiabilidad. La pregunta práctica es dónde se encuentra ese punto para el caso de uso en cuestión. Para un tratamiento completo de cómo se define y mide la fiabilidad, véase qué es la fiabilidad y validez en las pruebas de personalidad.

"La fórmula de Spearman-Brown hace precisa la relación fiabilidad-longitud: para duplicar la fiabilidad de un test, hay que aproximadamente cuadruplicar su longitud."

Qué pierden los tests del Big Five de 10 ítems que capturan instrumentos más largos

Los dos ítems por dimensión del TIPI no pueden, por construcción, capturar la variación a nivel de facetas dentro de cada dimensión del Big Five. Como se describe en qué es una faceta en psicología de la personalidad, cada dimensión del Big Five contiene seis facetas — subrasgo estrechos que pueden apuntar en direcciones diferentes para personas con la misma puntuación global de dimensión.

Una escala de Responsabilidad de dos ítems puede clasificar con éxito si una persona es ampliamente alta o baja en la dimensión. No puede distinguir entre alguien cuya Responsabilidad está impulsada por el Orden y el Deber vs. alguien cuyo perfil está dominado por el Esfuerzo por el Logro y la Autodisciplina — que es precisamente la distinción más relevante para el ajuste de rol y el desarrollo.

La misma limitación se aplica a todas las dimensiones. Una escala de Apertura de dos ítems no puede separar la curiosidad intelectual de la sensibilidad estética. Una escala de Neuroticismo de dos ítems no puede distinguir la reactividad impulsada por la ansiedad de la reactividad impulsada por la ira.

Los tests cortos también muestran una fiabilidad reducida para individuos cerca del centro de la distribución — el rango donde la mayoría de las personas puntúan en la mayoría de las dimensiones. Para los puntadores claramente extremos (muy altos o muy bajos), dos ítems pueden ser suficientes para clasificarlos razonablemente. Para la mayoría que puntúa en el rango moderado, el error de medición de una escala de dos ítems es lo suficientemente grande como para producir clasificaciones diferentes en una nueva evaluación. Para la explicación estadística de por qué esto importa, véase cómo se calculan las puntuaciones de los tests de personalidad.

TIPI vs IPIP-NEO-120: Compromisos de fiabilidad uno al lado del otro

El IPIP-NEO-120 es un instrumento de 120 ítems, disponible gratuitamente, que mide las cinco dimensiones del Big Five y las treinta facetas. Fue desarrollado específicamente como una alternativa de acceso abierto al NEO PI-R propietario, y sus propiedades de validez han sido documentadas en investigaciones revisadas por pares.

La comparación con el TIPI ilustra directamente el compromiso fiabilidad-longitud:

Longitud del test	Instrumento ejemplo	Ítems por dimensión	Medición de facetas	Estimación de fiabilidad (α)	Caso de uso adecuado
10 ítems	TIPI	2	Ninguna	~0.45–0.65 por dimensión	Investigación de población a gran escala; cribado cuando la brevedad es esencial; autoexploración de bajo riesgo
44 ítems	BFI (Big Five Inventory)	~8–9	Ninguna	~0.75–0.85 por dimensión	Investigación académica que requiere equilibrio de brevedad y fiabilidad; estudios a nivel de grupo
60 ítems	IPIP-NEO-60	12	Parcial	~0.80–0.87 por dimensión	Investigación aplicada; contextos de desarrollo de riesgo moderado
100–120 ítems	Cèrcol / IPIP-NEO-120	20–24	Completa (30 facetas)	~0.87–0.93 por dimensión	Desarrollo individual; perfiles de equipo; coaching; evaluación de alto riesgo
240 ítems	NEO PI-R (completo)	48	Completa (30 facetas)	~0.90–0.95 por dimensión	Evaluación clínica; investigación que requiere máxima precisión; selección de alto riesgo

Cuándo un test de personalidad corto es realmente apropiado

El caso de los tests de personalidad cortos es real y no debe descartarse. En ciertos contextos, un instrumento de 10 ítems es la elección correcta.

La investigación de población a gran escala requiere la completación de miles de participantes. Un tiempo de completación de 10 minutos crea un abandono significativamente mayor que uno de 2 minutos, lo que produce muestras sesgadas. Cuando la pregunta de investigación se refiere a tendencias a nivel de población en lugar de perfiles individuales, la fiabilidad más débil del TIPI es aceptable porque se promedia en muestras grandes.

Los contextos de cribado — donde el objetivo es identificar quién podría beneficiarse de una evaluación más exhaustiva — pueden usar apropiadamente instrumentos cortos. Si un cribado de 10 ítems identifica candidatos en el cuartil superior o inferior de una dimensión para una evaluación posterior, la brevedad es un compromiso razonable.

La medición repetida presenta un problema diferente. Si queréis rastrear el cambio de personalidad a lo largo del tiempo — o a través de múltiples intervenciones de desarrollo — administrar un instrumento de 120 ítems cada trimestre es oneroso. Una forma corta validada usada de manera consistente a lo largo del tiempo puede producir datos longitudinales más accionables que una administración de formato largo poco frecuente.

La autoexploración de bajo riesgo — donde el usuario simplemente tiene curiosidad por su personalidad en lugar de usar los datos para una decisión consecuente — puede usar apropiadamente instrumentos más cortos. El costo del error de medición es menor cuando las apuestas son menores. Para una comparación de qué evaluaciones gratuitas son apropiadas para qué apuestas, véase los mejores tests de personalidad gratuitos para equipos en 2026.

Cuándo la longitud del test importa: Desarrollo individual y perfiles de equipo

El caso de los instrumentos más largos se fortalece a medida que aumentan las apuestas y los requisitos de especificidad del caso de uso.

El desarrollo individual requiere datos a nivel de facetas. Un instrumento de 10 ítems no puede decirle a un coach o director por qué la puntuación de Responsabilidad de alguien es la que es — qué facetas lo impulsan y qué intervenciones de desarrollo probablemente serán más efectivas. Un instrumento de 120 ítems con puntuación a nivel de facetas proporciona la especificidad que requieren las conversaciones de desarrollo.

Los perfiles de equipo requieren puntuaciones individuales fiables como entradas para el análisis a nivel de equipo. Si las puntuaciones individuales tienen un alto error de medición, el perfil del equipo hereda ese error. Un mapa de equipo construido sobre puntuaciones TIPI mostrará una mayor variación aleatoria entre perfiles que uno construido sobre instrumentos más largos — lo que reduce la utilidad del mapa para el diseño deliberado del equipo. Véase los 12 roles de equipo de Cèrcol para cómo los perfiles a nivel de facetas se traducen en conocimiento del rol de equipo.

La evaluación entre pares amplifica el argumento. El modelo Testigo de Cèrcol pide a los observadores que evalúen la personalidad de otra persona a través de múltiples dimensiones y facetas. Un instrumento corto colapsaría la señal de las evaluaciones del Testigo hasta el punto donde las discrepancias observador-vs-autoinforme — los datos más informativos del informe — se volverían poco fiables. La metodología Testigo se explica en detalle en qué mide el instrumento Testigo de Cèrcol.

Las decisiones de alto riesgo — evaluación del rendimiento, rediseño de roles, selección para programas de liderazgo — requieren que los datos sean lo suficientemente fiables para actuar sobre ellos. Una medición con α = 0.55 (TIPI típico) significa que el 45% de la varianza de las puntuaciones es ruido aleatorio. Una medición con α = 0.90 significa que solo el 10% es ruido. La diferencia entre actuar sobre el 55% de señal vs el 90% de señal es la diferencia entre datos útiles y decisiones aleatorizadas.

Por qué Cèrcol utiliza 120 ítems para equilibrar fiabilidad y tiempo de completación

El instrumento de Cèrcol utiliza 120 ítems — 24 por cada dimensión del Big Five — proporcionando medición a nivel de facetas mientras se mantiene sustancialmente más corto que el NEO PI-R completo de 240 ítems. El diseño refleja un compromiso deliberado: mantener la resolución de facetas y la fiabilidad por encima de 0.87 por dimensión mientras se mantiene el tiempo de completación en aproximadamente 15 minutos.

Esta longitud está respaldada por la evidencia de fiabilidad y validez para instrumentos basados en IPIP en este recuento de ítems, y por la realidad práctica de que el perfil de equipo y el desarrollo individual requieren datos a nivel de facetas que los instrumentos más cortos estructuralmente no pueden proporcionar. Para la ciencia que hay detrás de por qué esto importa, véase pruebas de personalidad: código abierto vs. comercial y sesgo de deseabilidad social en las pruebas de personalidad — los instrumentos más largos también proporcionan más oportunidades para incluir ítems de codificación inversa que protegen contra la aquiescencia y la inflación de deseabilidad social.

La longitud apropiada para un instrumento de personalidad no la determina la convención ni lo que parece conveniente. La determinan el caso de uso, la fiabilidad requerida y el nivel de especificidad que los datos necesitan proporcionar. Para el desarrollo individual y de equipo, la evidencia respalda consistentemente instrumentos en el rango de 100–120 ítems como el óptimo práctico.

Por qué Cèrcol utiliza 120 ítems en lugar de 10

Un test de personalidad de 10 ítems es mejor que ningún test — pero para los propósitos que la mayoría de los equipos valoran (ajuste de rol, planificación del desarrollo, predicción de conflictos, coaching), 10 ítems por dimensión no es suficiente. Dos ítems no pueden distinguir entre facetas, no pueden clasificar fiablemente a las personas en el centro de la distribución y producen un error de medición lo suficientemente grande como para cambiar las conclusiones en una nueva evaluación.

Cèrcol utiliza 120 ítems porque es la longitud de instrumento más corta que ofrece resolución completa de facetas y fiabilidad test-retest por encima de 0.87 en las cinco dimensiones del Big Five. Los ítems se extraen del banco de ítems IPIP de dominio abierto — la misma fuente científica utilizada en cientos de estudios revisados por pares. La completación dura aproximadamente 15 minutos.

Si queréis ver cómo se ven realmente los datos del Big Five a nivel de facetas para vuestro equipo, la evaluación es gratuita en cercol.team. La evaluación entre pares Testigo añade perfiles valorados por observadores para cada persona — una segunda perspectiva que ningún instrumento de autoinforme, por largo que sea, puede sustituir. Leed la justificación completa de la medición en cercol.team/science.

Lectura adicional: Qué significa fiabilidad y validez en las pruebas de personalidad · La ciencia que hay detrás de Cèrcol

Por qué 120 ítems es mejor que 10: el compromiso en la longitud de los tests de personalidad

La fórmula de Spearman-Brown: Por qué la longitud del test predice la fiabilidad del Big Five

Qué pierden los tests del Big Five de 10 ítems que capturan instrumentos más largos

TIPI vs IPIP-NEO-120: Compromisos de fiabilidad uno al lado del otro

Cuándo un test de personalidad corto es realmente apropiado

Cuándo la longitud del test importa: Desarrollo individual y perfiles de equipo

Por qué Cèrcol utiliza 120 ítems para equilibrar fiabilidad y tiempo de completación

Por qué Cèrcol utiliza 120 ítems en lugar de 10

Lectura adicional

Artículos relacionados

Qué significan la fiabilidad y la validez en los tests de personalidad — explicado con claridad

Qué son las facetas de la personalidad

Cómo se calculan las puntuaciones de los tests de personalidad: de los ítems a las dimensiones