Is Cèrcol based on the Big Five?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP public-domain item pool (Goldberg et al. 2006). The 12 team roles are derived from the AB5C circumplex (Hofstee et al. 1992) and team composition research (Bell 2007; Neuman & Wright 1999).

What makes Cèrcol different from Belbin or DISC?

Cèrcol's roles are grounded in the Big Five (OCEAN) personality model using the IPIP public-domain item pool. The scoring pipeline is fully open source and auditable. Witness Cèrcol uses forced-choice adjective selection — not Likert scales — to eliminate social desirability bias in peer assessment. Unlike Belbin or DISC, all items are public domain and the entire methodology is published and citable.

Is the personality assessment free?

The New Moon Cèrcol (10 items, Big Five snapshot) and First Quarter Cèrcol (60 items, IPIP-NEO-60, 30 facets) are always free — no account required. The Full Moon Cèrcol (120 items, IPIP-NEO-120, Witness peer assessment, cognitive ability measure) requires a one-time payment.

What is Witness Cèrcol?

Witness Cèrcol is a peer personality assessment where someone who knows you well rates you using a forced-choice adjective selection method — picking the best-fit and worst-fit adjective per round from a set covering all five OCEAN dimensions. Forced choice eliminates the social desirability bias that affects standard Likert-scale peer ratings. Dimensions where your self-rating and peer ratings diverge by more than 0.8 standard deviations are flagged as potential blind spots.

How are the 12 team roles derived?

The 12 roles are derived from the AB5C circumplex (Hofstee, De Raad & Goldberg 1992), covering all six intersections of the three team balance dimensions (Presence/Extraversion × Bond/Agreeableness × Vision/Openness) at both poles. The selection of these three dimensions as requiring team-level balance is grounded in Bell (2007) and Neuman & Wright (1999). Discipline (Conscientiousness) and Depth (Neuroticism) modulate role expression but do not define team balance.

No account is required for any instrument. During assessment, no personal data is collected — only anonymous scores are logged. Data is stored on our own servers (Hetzner Online GmbH). No third-party analytics. No data is shared with or sold to third parties.

Is Cèrcol based on the Big Five (OCEAN)?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP — the International Personality Item Pool, a public-domain collection validated in thousands of published studies. The five dimensions are Presence (Extraversion), Bond (Agreeableness), Vision (Openness), Discipline (Conscientiousness), and Depth (Neuroticism). Because the IPIP is public domain there are no licence restrictions: the full item pool and scoring logic are open and citable.

How is Cèrcol different from Belbin, DISC, or StrengthsFinder?

Three things set Cèrcol apart. First, the items come from the Big Five (OCEAN), the most replicated personality model in academic research — not a proprietary framework. Second, the full item pool (IPIP) and scoring pipeline are public domain and auditable; there is no black box. Third, the Witness peer assessment uses forced-choice adjective selection instead of Likert scales, which eliminates the social desirability bias that affects most 360-feedback tools. Belbin and DISC use closed, proprietary methodologies.

What are blind spots in team personality assessment?

A blind spot is a personality dimension where how you see yourself and how others see you diverge significantly — more than 0.8 standard deviations apart. Cèrcol's Witness peer assessment detects blind spots by comparing your self-report with forced-choice adjective ratings from people who know you. Blind spots are neither good nor bad: they show where your self-perception and others' experience of you don't match, which is often more actionable than the score itself.

Qué significan la fiabilidad y la validez en los tests de personalidad

Pasa por cualquier página de marketing de un test de personalidad y encontrarás dos palabras usadas como garantías: fiable y válido. Los vendedores las usan libremente, con una explicación mínima, como señales de que su instrumento es científicamente creíble. Los términos casi nunca se definen para el lector.

Esto importa porque la fiabilidad y la validez no son intercambiables, no son lo mismo y no son sencillas de evaluar en la práctica. Un instrumento puede ser altamente fiable sin ser válido. Un test puede mostrar validez aparente —parece que mide lo que afirma— mientras falla todos los criterios estadísticos de validez rigurosos. Y el MBTI, el instrumento de personalidad comercialmente más popular del mundo, ilustra exactamente cómo un instrumento puede puntuar mal en los mismos criterios que invocan sus publicadores.

Este artículo explica cada concepto con claridad, describe cómo reconocer evidencias fuertes y débiles para cada uno, y proporciona un marco de evaluación práctica para cualquier instrumento de personalidad.

α > 0.80 buen alfa de Cronbach (fiabilidad)

r > 0.30 coeficiente de validez mínimo para uso práctico

0.27 estabilidad test-retest del Big Five a lo largo de 6 años

Fiabilidad vs validez: Un test fiable da resultados consistentes cada vez — pero un test válido mide lo que afirma medir. Ambos son necesarios; ninguno es suficiente por sí solo.

Fiabilidad en los tests de personalidad: Qué significa y qué puntuaciones exigir

La fiabilidad se refiere a la consistencia de una medida. Un test es fiable si produce los mismos resultados, o muy similares, en condiciones donde el rasgo subyacente no ha cambiado. Hay dos tipos principales.

Fiabilidad test-retest

La fiabilidad test-retest pregunta: si la misma persona hace el mismo test dos veces, con unas pocas semanas de diferencia, ¿cuán similares son los resultados? Las puntuaciones pueden diferir entre administraciones por dos razones: cambio genuino en el rasgo subyacente, o error de medida. Un test fiable minimiza el error de medida, de modo que los cambios de puntuación entre administraciones reflejen principalmente un cambio real más que ruido.

El umbral estándar para una fiabilidad test-retest aceptable es una correlación de aproximadamente 0.70 o superior en un intervalo de dos a cuatro semanas. Los instrumentos del Big Five bien validados generalmente alcanzan 0.80 o superior para puntuaciones a nivel de dominio. La fiabilidad test-retest del MBTI es menor: los estudios han encontrado que aproximadamente el 50% de los encuestados reciben una clasificación diferente de cuatro letras cuando se reexaminan cinco semanas después, que es la firma estadística de un error de medida elevado. Véase MBTI vs Big Five para la comparación completa.

Consistencia interna

La fiabilidad de consistencia interna pregunta si los ítems dentro de una escala miden el mismo constructo subyacente. Si una escala de Concienciosidad contiene ítems sobre organización, diligencia y fiabilidad, esos ítems deberían correlacionarse entre sí, porque todos captan la misma disposición subyacente. La estadística estándar es el alfa de Cronbach, donde los valores por encima de 0.70 se consideran generalmente aceptables y por encima de 0.80 son buenos.

Una baja consistencia interna significa que los ítems dentro de una escala miden cosas diferentes, lo que dificulta la interpretación de la puntuación total de la escala. Una puntuación de Concienciosidad derivada de ítems que apenas se correlacionan entre sí no es una medida coherente. Para una explicación de cómo la longitud de la escala interactúa con la consistencia interna, véase por qué 120 ítems es mejor que 10.

Validez en los tests de personalidad: Cuatro tipos que todo comprador debería entender

La validez aborda una pregunta diferente: ¿el test realmente mide lo que pretende medir? Un test puede ser perfectamente consistente (fiable) mientras mide algo completamente equivocado. Las principales formas de evidencia de validez abordan cada una un aspecto diferente de esta pregunta.

Validez convergente

La validez convergente pregunta si el test se correlaciona con otras medidas establecidas del mismo constructo. Una nueva escala de Extraversión debería correlacionarse positivamente con medidas de Extraversión validadas existentes, porque si ambas miden la Extraversión, deberían estar de acuerdo en quién tiene más y menos.

Esto parece obvio pero se descuida sorprendentemente a menudo. Muchos instrumentos propietarios no informan de datos de validez convergente, lo que hace imposible evaluar si miden los mismos constructos que la literatura académica. El banco de ítems IPIP se construyó precisamente para permitir este tipo de comparación pública.

Validez de criterio

La validez de criterio, la forma prácticamente más importante, pregunta si el test predice los resultados que el rasgo debería predecir teóricamente. Si una medida de Concienciosidad es válida, debería predecir el rendimiento laboral, el rendimiento académico y el logro de objetivos, porque la Concienciosidad es el rasgo que más consistentemente se asocia a estos resultados en la literatura. Si un test afirma medir la Concienciosidad pero no muestra ninguna correlación con el rendimiento laboral, algo va mal con la afirmación.

La validez predictiva es un subtipo específico: ¿el test predice resultados futuros? La validez concurrente pregunta si el test se correlaciona con resultados evaluados al mismo tiempo. Ambos importan, pero la validez predictiva es el estándar de oro para los instrumentos utilizados en la selección de personal. Para las implicaciones para la contratación específicamente, véase las pruebas de personalidad en la contratación: lo que es legal y lo que es ético.

Validez discriminante

La validez discriminante pregunta si el test se correlaciona demasiado con medidas de constructos diferentes. Si una escala que pretende medir la Amabilidad se correlaciona tan fuertemente con la Concienciosidad como lo hace con otras medidas de Amabilidad, puede que no esté midiendo la Amabilidad de manera diferenciada. Entender lo que mide de manera única cada faceta del Big Five ayuda aquí; véase qué es una faceta en psicología de la personalidad.

Validez aparente vs validez estadística

La validez aparente es la apariencia de medir lo que un test afirma. Un ítem que dice "Soy una persona organizada" tiene alta validez aparente para la Concienciosidad: parece que mide la organización. Pero la validez aparente no es lo mismo que la validez estadística, y confundirlas es uno de los errores más comunes en la evaluación de tests de personalidad.

Muchos instrumentos populares tienen alta validez aparente y validez estadística modesta a deficiente. El contenido parece relevante; las predicciones son débiles. Para un desglose de qué tests populares caen en esta trampa, véase los mejores tests de personalidad gratuitos para equipos en 2026.

Concepto psicométrico	Qué mide	Buen umbral	Instrumentos del Big Five	MBTI
Fiabilidad test-retest	Consistencia de las puntuaciones a lo largo del tiempo	r ≥ 0.70 durante 4 semanas	Típicamente 0.80–0.90	~0.50 (50% de cambio de tipo en el retest)
Consistencia interna (alfa de Cronbach)	Coherencia de los ítems dentro de una escala	α ≥ 0.70	Típicamente 0.80–0.90	Moderada; varía por escala
Validez convergente	Acuerdo con otras medidas del mismo rasgo	r ≥ 0.50 con medida establecida	Bien documentada en revisión por pares	Datos limitados publicados entre instrumentos
Validez de criterio	Predicción de resultados del mundo real	Varía; d ≥ 0.20 se considera significativo	La Concienciosidad predice el rendimiento laboral de manera robusta	Predicción débil del rendimiento laboral
Validez discriminante	Independencia de medidas de rasgos diferentes	r baja con escalas conceptualmente distintas	Generalmente respaldada	Las dimensiones no son claramente independientes entre sí

Cinco preguntas para evaluar cualquier afirmación de validez de un test de personalidad

Cuando un vendedor o investigador afirma que un instrumento de personalidad es "válido y fiable", las siguientes preguntas producen una evaluación rápida de calidad.

Pregunta 1: ¿La evidencia de validez está publicada en revistas revisadas por pares? Los informes técnicos propietarios, los libros blancos y los textos de sitios web no cuentan. La revisión por pares somete las afirmaciones de validez al escrutinio independiente. Si la única evidencia de validez es la documentación propia del editor, eso es una señal de alarma. Las implicaciones más amplias de cómo la ciencia de la personalidad maneja la replicación se abordan en la crisis de replicación en ciencia de la personalidad.

Pregunta 2: ¿Cuál es la fiabilidad test-retest en un intervalo clínicamente significativo? Cuatro a seis semanas es el estándar. Si este número no se reporta o es inferior a 0.70, la medida es ruidosa.

Pregunta 3: ¿Qué resultados predice el instrumento? La evidencia de validez de criterio debería incluir resultados del mundo real, no solo correlaciones con otras medidas de autoinforme. Para los instrumentos relevantes para el trabajo, el rendimiento laboral es el criterio clave.

Pregunta 4: ¿Grupos de investigación independientes han replicado los resultados de validez? Un único estudio de los propios desarrolladores del instrumento es insuficiente. La replicación por parte de investigadores sin interés comercial en el resultado es el estándar significativo.

Pregunta 5: ¿La puntuación es transparente? Si el algoritmo de puntuación es propietario, las afirmaciones de validez no se pueden verificar de manera independiente. Los instrumentos de ciencia abierta, incluido el IPIP en el que se basa Cèrcol, permiten que cualquiera compruebe las afirmaciones con los datos. Véase pruebas de personalidad: código abierto vs comercial para la comparación completa.

Por qué la evaluación por pares añade validez que el autoinforme no puede proporcionar

Una fuente de validez poco valorada en la evaluación de la personalidad es el uso de valoraciones de observadores junto con el autoinforme. La personalidad medida por personas que conocen al sujeto —colegas, gestores, subordinados directos— típicamente muestra una validez de criterio superior al autoinforme solo, especialmente para predecir el rendimiento laboral.

Esto se debe a que el autoinforme está sujeto a la gestión de la impresión (puntuarse de manera más favorable, consciente o inconscientemente) y al conocimiento limitado de uno mismo (las personas a menudo no saben cómo aparecen ante los demás). Las valoraciones de los observadores no están libres de sesgos, pero están afectadas por sesgos diferentes, lo que significa que combinar datos propios y de observadores produce estimaciones de personalidad más precisas que cualquiera de ellas por separado. Para el argumento completo, véase por qué la autoevaluación sola no es suficiente: feedback de personalidad entre pares.

El modelo Testigo (Witness) de Cèrcol está diseñado alrededor de este principio. La historia del Big Five y la página de ciencia proporcionan más contexto sobre la evidencia de validez que sustenta las decisiones de diseño de Cèrcol.

"La fiabilidad y la validez no son afirmaciones de marketing. Son propiedades estadísticas específicas con umbrales establecidos, medibles a través de métodos estándar y verificables a través de datos publicados. Un instrumento que no puede proporcionar evidencia revisada por pares para ambas debería evaluarse con escepticismo proporcional."

Cómo Cèrcol cumple el nivel de fiabilidad y validez

El instrumento de Cèrcol se basa en el banco de ítems IPIP, los mismos ítems de dominio público cuyas propiedades psicométricas han sido documentadas de manera independiente por Goldberg y colegas a lo largo de décadas de investigación publicada. La fiabilidad test-retest a nivel de dominio para las escalas del Big Five basadas en IPIP generalmente se sitúa por encima de r = 0.80 en intervalos de cuatro semanas. La consistencia interna (alfa de Cronbach) para las escalas de 20 ítems por dimensión que utiliza Cèrcol es consistentemente por encima de 0.87.

La validez de criterio se hereda de la literatura del Big Five más amplia: la Concienciosidad (Disciplina) predice el rendimiento laboral en todas las principales categorías ocupacionales (Barrick & Mount, 1991, doi: 10.1111/j.1744-6570.1991.tb00688.x). El Neuroticismo (Profundidad) predice la respuesta al estrés y los resultados de bienestar. La Apertura (Visión) predice el rendimiento creativo.

La evaluación de pares Testigo añade puntuaciones valoradas por observadores en las mismas cinco dimensiones utilizando un formato de elección forzada que reduce el sesgo de deseabilidad social; véase sesgo de deseabilidad social en tests de personalidad para la metodología completa. Realiza la evaluación gratuita en cercol.team y revisa la documentación de validez completa en cercol.team/science.

Lectura adicional: La historia del Big Five: de Allport a Goldberg · La ciencia detrás de Cèrcol

Qué significan la fiabilidad y la validez en los tests de personalidad — explicado con claridad

Fiabilidad en los tests de personalidad: Qué significa y qué puntuaciones exigir

Fiabilidad test-retest

Consistencia interna

Validez en los tests de personalidad: Cuatro tipos que todo comprador debería entender

Validez convergente

Validez de criterio

Validez discriminante

Validez aparente vs validez estadística

Cinco preguntas para evaluar cualquier afirmación de validez de un test de personalidad

Por qué la evaluación por pares añade validez que el autoinforme no puede proporcionar

Cómo Cèrcol cumple el nivel de fiabilidad y validez

Lectura adicional

Artículos relacionados

La ciencia de la personalidad y la crisis de replicación: ¿qué ha resistido?

¿Qué es una faceta en psicología de la personalidad — y por qué importa?

La historia del Big Five: de Allport a Goldberg