Is Cèrcol based on the Big Five?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP public-domain item pool (Goldberg et al. 2006). The 12 team roles are derived from the AB5C circumplex (Hofstee et al. 1992) and team composition research (Bell 2007; Neuman & Wright 1999).

What makes Cèrcol different from Belbin or DISC?

Cèrcol's roles are grounded in the Big Five (OCEAN) personality model using the IPIP public-domain item pool. The scoring pipeline is fully open source and auditable. Witness Cèrcol uses forced-choice adjective selection — not Likert scales — to eliminate social desirability bias in peer assessment. Unlike Belbin or DISC, all items are public domain and the entire methodology is published and citable.

Is the personality assessment free?

The New Moon Cèrcol (10 items, Big Five snapshot) and First Quarter Cèrcol (60 items, IPIP-NEO-60, 30 facets) are always free — no account required. The Full Moon Cèrcol (120 items, IPIP-NEO-120, Witness peer assessment, cognitive ability measure) requires a one-time payment.

What is Witness Cèrcol?

Witness Cèrcol is a peer personality assessment where someone who knows you well rates you using a forced-choice adjective selection method — picking the best-fit and worst-fit adjective per round from a set covering all five OCEAN dimensions. Forced choice eliminates the social desirability bias that affects standard Likert-scale peer ratings. Dimensions where your self-rating and peer ratings diverge by more than 0.8 standard deviations are flagged as potential blind spots.

How are the 12 team roles derived?

The 12 roles are derived from the AB5C circumplex (Hofstee, De Raad & Goldberg 1992), covering all six intersections of the three team balance dimensions (Presence/Extraversion × Bond/Agreeableness × Vision/Openness) at both poles. The selection of these three dimensions as requiring team-level balance is grounded in Bell (2007) and Neuman & Wright (1999). Discipline (Conscientiousness) and Depth (Neuroticism) modulate role expression but do not define team balance.

No account is required for any instrument. During assessment, no personal data is collected — only anonymous scores are logged. Data is stored on our own servers (Hetzner Online GmbH). No third-party analytics. No data is shared with or sold to third parties.

Is Cèrcol based on the Big Five (OCEAN)?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP — the International Personality Item Pool, a public-domain collection validated in thousands of published studies. The five dimensions are Presence (Extraversion), Bond (Agreeableness), Vision (Openness), Discipline (Conscientiousness), and Depth (Neuroticism). Because the IPIP is public domain there are no licence restrictions: the full item pool and scoring logic are open and citable.

How is Cèrcol different from Belbin, DISC, or StrengthsFinder?

Three things set Cèrcol apart. First, the items come from the Big Five (OCEAN), the most replicated personality model in academic research — not a proprietary framework. Second, the full item pool (IPIP) and scoring pipeline are public domain and auditable; there is no black box. Third, the Witness peer assessment uses forced-choice adjective selection instead of Likert scales, which eliminates the social desirability bias that affects most 360-feedback tools. Belbin and DISC use closed, proprietary methodologies.

What are blind spots in team personality assessment?

A blind spot is a personality dimension where how you see yourself and how others see you diverge significantly — more than 0.8 standard deviations apart. Cèrcol's Witness peer assessment detects blind spots by comparing your self-report with forced-choice adjective ratings from people who know you. Blind spots are neither good nor bad: they show where your self-perception and others' experience of you don't match, which is often more actionable than the score itself.

Cómo se calculan las puntuaciones de los tests de personalidad: de los ítems a las dimensiones

Te sientas con un cuestionario de personalidad. Respondes un centenar de afirmaciones sobre ti mismo, valorando cada una en una escala. Quince minutos después, aparece una puntuación: un percentil, un gráfico de barras, una categoría. El número parece autoritario. Pero entre el momento en que respondes un ítem y el momento en que aparece una puntuación, se ha tomado una serie de decisiones metodológicas —decisiones que afectan lo que significa la puntuación, cómo se puede comparar entre personas y cuánta confianza deberías depositar en ella.

Este artículo explica cada paso en la puntuación de los tests de personalidad: formato de los ítems, codificación inversa, métodos de agregación, bases de datos normativas y la diferencia entre los enfoques utilizados en diferentes instrumentos. Comprender estos pasos te convierte en un mejor consumidor de datos de personalidad.

El pipeline de puntuación en cinco pasos: de las respuestas brutas a los ítems hasta una puntuación percentil.

Paso 1: Cómo los formatos de respuesta a los ítems del Big Five condicionan tu puntuación

La materia prima de una puntuación de personalidad es la respuesta a ítems individuales. El formato más común en la evaluación Big Five es la escala Likert: los participantes valoran su grado de acuerdo con una afirmación —normalmente "Totalmente en desacuerdo / En desacuerdo / Neutral / De acuerdo / Totalmente de acuerdo"— generalmente en una escala de cinco o siete puntos. Véase Escala Likert — Wikipedia para los fundamentos estadísticos completos.

Los formatos Likert presentan varias ventajas psicométricas. Son sensibles a gradaciones de acuerdo en lugar de forzar una respuesta binaria sí/no, lo que aumenta la varianza de la puntuación y, por tanto, la fiabilidad. Son familiares para la mayoría de los participantes, reduciendo la carga cognitiva de la tarea. Y producen datos de tipo intervalo que pueden someterse a análisis estadístico estándar.

Existen formatos alternativos, cada uno con supuestos diferentes:

Los formatos de respuesta forzada presentan pares o grupos de afirmaciones relevantes para un rasgo y piden al participante que elija cuál se parece más a él. Este diseño fue desarrollado para reducir el impacto de la respuesta por deseabilidad social —la tendencia a avalar afirmaciones que parecen valoradas positivamente independientemente de si son precisas. La elección forzada dificulta la presentación de una autoimagen idealizada porque elegir una afirmación positiva implica necesariamente rechazar otra. El coste es la medición ipsativa, que se trata a continuación. Para un tratamiento completo, véase evaluación de personalidad de respuesta forzada: por qué produce datos más honestos.

Los formatos de valoración de adjetivos presentan palabras individuales relevantes para la personalidad ("organizado", "espontáneo", "ansioso") y preguntan hasta qué punto cada una describe al participante. Estos formatos se administran más rápidamente que los ítems de frases completas y muestran una validez razonable, pero tienden a tener una fiabilidad menor que las escalas Likert de frases completas —en parte porque las palabras individuales son más ambiguas que las frases completas.

Paso 2: Por qué los ítems de puntuación inversa protegen la validez de las escalas Big Five

Una escala de personalidad bien diseñada incluye ítems codificados positiva y negativamente —es decir, algunos ítems donde el acuerdo indica el extremo alto del rasgo, y otros donde el acuerdo indica el extremo bajo. Un ítem como "Mantengo mis pertenencias bien organizadas" está codificado positivamente para Responsabilidad; "A menudo dejo las tareas sin terminar" está codificado negativamente.

Los ítems codificados negativamente sirven dos propósitos. Primero, reducen el impacto del sesgo de aquiescencia —la tendencia de algunos participantes a estar de acuerdo con las afirmaciones independientemente de su contenido. Si todos los ítems de una escala de Responsabilidad están redactados en la misma dirección, una persona que diga "de acuerdo" a todo parecerá muy responsable aunque su comportamiento real no lo sea. Los ítems codificados negativamente significan que responder constantemente de forma afirmativa produce una puntuación intermedia en lugar de una falsamente alta. Para una explicación detallada de cómo la aquiescencia y la deseabilidad social distorsionan las puntuaciones, véase sesgo de deseabilidad social en los tests de personalidad.

Antes de agregar los ítems en una puntuación dimensional, los ítems codificados negativamente se puntúan inversamente: una respuesta de 5 en una escala de 1 a 5 se recodifica como 1, un 4 se convierte en 2, un 3 permanece en 3, y así sucesivamente. Después de la puntuación inversa, todos los ítems apuntan en la misma dirección, y la suma o la media simple produce una puntuación de escala coherente.

"La puntuación inversa no es un truco. Es una salvaguarda de medición —una característica de diseño que protege la validez de las puntuaciones de la escala contra los estilos de respuesta sistemáticos que de otro modo producirían resultados engañosos. Un instrumento sin ítems codificados negativamente debería tratarse con precaución."

Paso 3: Puntuación por suma vs Teoría de Respuesta al Ítem en la evaluación Big Five

Una vez que los ítems están puntuados en la misma dirección, deben combinarse en una puntuación dimensional. Los dos enfoques principales son la puntuación por suma de la teoría clásica de tests (TCT) y la teoría de respuesta al ítem (TRI).

La puntuación por suma es exactamente lo que parece: sumar (o calcular la media de) las puntuaciones de los ítems. Si una escala de Responsabilidad contiene 20 ítems valorados de 1 a 5, la suma puede oscilar entre 20 y 100. Esta suma bruta normalmente se estandariza en relación a una muestra normativa para producir un percentil o una puntuación estandarizada. La puntuación por suma es fácil de implementar, fácil de explicar y adecuada para la mayoría de los propósitos.

La Teoría de Respuesta al Ítem (TRI) adopta un enfoque más sofisticado. Los modelos TRI estiman la probabilidad de cada opción de respuesta como función del nivel del rasgo latente del participante. Los ítems no se tratan como equivalentes —algunos ítems son más discriminantes (mejores para distinguir entre personas en diferentes niveles del rasgo), y algunos ítems son más informativos en diferentes puntos de la distribución del rasgo. La puntuación TRI pondera los ítems por su capacidad discriminatoria y puede producir estimaciones más precisas en los extremos de la distribución, donde la puntuación por suma tiende a ser menos fiable.

Para la mayoría de los propósitos aplicados —desarrollo de equipos, coaching individual, autocomprensión— la diferencia práctica entre la puntuación por suma de la TCT y la TRI es pequeña. Donde la TRI ofrece una ventaja clara es en los tests adaptativos (seleccionando qué ítems administrar basándose en respuestas anteriores, lo que permite tests más cortos con precisión equivalente) y en contextos de alto impacto donde la precisión de medición en los extremos de la distribución importa. Para saber más sobre cómo la longitud del test interactúa con estos cálculos, véase por qué 120 ítems es mejor que 10: la longitud del test de personalidad.

Paso 4: Puntuación normativa vs ipsativa —y por qué cambia todo

Esta es quizás la distinción menos entendida en la puntuación de los tests de personalidad —y una de las más consecuentes.

La puntuación normativa compara la puntuación de cada participante con una población de referencia (la muestra normativa). Una suma bruta de 78 en una escala de Responsabilidad no significa nada hasta que sabes que la persona media de la muestra normativa puntúa 65 y la desviación estándar es 12 —lo que significa que una puntuación de 78 es aproximadamente una desviación estándar por encima de la media, o aproximadamente el percentil 84. Las puntuaciones normativas responden a la pregunta: ¿cómo se compara esta persona con los demás?

La puntuación ipsativa produce puntuaciones relativas —comparaciones de la posición del participante en diferentes rasgos entre sí, en lugar de comparaciones con otras personas. Los formatos de respuesta forzada producen datos ipsativos de manera natural: si un participante ha elegido consistentemente afirmaciones relevantes para la Responsabilidad sobre las de Amabilidad, acabará con una puntuación relativamente alta en Responsabilidad y relativamente baja en Amabilidad —pero las puntuaciones están definidas la una en relación a la otra, no en relación a una población.

La literatura psicométrica es clara en que las puntuaciones ipsativas son apropiadas para comprender los ordenamientos de prioridades dentro de una persona, pero son inapropiadas para comparar personas entre sí o para predecir resultados en estudios de validez de criterio. Usar puntuaciones ipsativas para comparar candidatos en una decisión de contratación es un error metodológico —porque un candidato que puntúa alto en Responsabilidad ipsativamente podría tener una Responsabilidad absoluta inferior a la de otro candidato cuya puntuación ipsativa es intermedia. Para las implicaciones específicas de la contratación, véase pruebas de personalidad en la selección: lo que es legal y lo que es ético.

Método de puntuación	Cómo funciona	Ventajas	Desventajas
Suma/media Likert (TCT)	Suma o calcula la media de las puntuaciones de los ítems después de la puntuación inversa	Simple, transparente, bien comprendido	Trata todos los ítems como igualmente informativos
Teoría de Respuesta al Ítem (TRI)	Modela la probabilidad de cada respuesta como función del rasgo latente	Más preciso en los extremos de la distribución; permite tests adaptativos	Más complejo de implementar y de explicar
Puntuación normativa	Compara la puntuación bruta con la población de referencia	Permite la comparación entre individuos; rangos percentiles significativos	La calidad depende en gran medida de la representatividad de la muestra normativa
Puntuación ipsativa	Clasifica los rasgos el uno en relación al otro dentro de una persona	Reduce la respuesta por deseabilidad social; revela las prioridades dentro de la persona	No válida para comparaciones entre personas; no se puede usar en estudios de validez de criterio

Paso 5: Por qué la base de datos normativa condiciona tu percentil Big Five

Una puntuación normativa es tan significativa como la muestra normativa de la que deriva. Si la población de referencia utilizada para producir una puntuación percentil es sistemáticamente diferente de la persona que se evalúa —diferente edad, ocupación, cultura, nivel educativo— el percentil puede ser engañoso.

Una puntuación de Responsabilidad en el percentil 75 de una muestra de población adulta general podría traducirse al percentil 55 de una población profesional altamente educada, donde la Responsabilidad media tiende a ser más alta. Usar una base normativa incorrecta produce puntuaciones que sistemáticamente malrepresentan dónde se encuentra una persona en relación con la población de comparación que realmente importa para la decisión en cuestión.

Las plataformas de evaluación bien diseñadas mantienen muestras normativas separadas para diferentes poblaciones —por ocupación, por país, por grupo de edad— y aplican la norma relevante a cada evaluación. Cèrcol utiliza puntuación normativa derivada de muestras de validación IPIP, con recogida de datos en curso para desarrollar normas relevantes para las poblaciones específicas que utilizan la plataforma. Para la discusión completa sobre lo que significan fiabilidad y validez en este contexto, véase qué es fiabilidad y validez en las pruebas de personalidad.

Cómo Cèrcol puntúa su instrumento Big Five

El instrumento de Cèrcol utiliza ítems en formato Likert con codificación mixta positiva y negativa, puntuación por suma TCT después de la codificación inversa, y comparación normativa con muestras de validación IPIP publicadas. Las puntuaciones dimensionales se estandarizan como equivalentes percentiles, y las puntuaciones facetarias se reportan como puntuaciones estandarizadas dentro de cada dimensión. Para profundizar en lo que las facetas añaden al cuadro que las puntuaciones de dominio solas no pueden proporcionar, véase qué es una faceta en psicología de la personalidad.

La evaluación Testigo aplica el mismo algoritmo de puntuación a las respuestas de los observadores, produciendo puntuaciones comparables de dimensiones y facetas que se pueden superponer directamente con los datos de autoinforme. Las discrepancias de puntuación entre el autoinforme y el Testigo se marcan en los informes como posibles puntos ciegos —áreas donde la autopercepción y la percepción externa divergen significativamente. Para entender por qué esta capa de pares importa, véase por qué la autoevaluación sola no es suficiente: feedback de personalidad de pares.

Comprender el proceso de puntuación no cambia lo que significan las puntuaciones en la práctica. Pero deja claro que las puntuaciones de personalidad no son salidas misteriosas de una máquina opaca. Son el resultado de decisiones metodológicas explícitas y auditables —decisiones que, en el caso de Cèrcol, están fundamentadas en la investigación psicométrica publicada y disponibles para inspección en la documentación científica.

Para el contexto sobre en qué puntuaciones se basan y cómo usarlas bien, véase lo que significa fiabilidad y validez en las pruebas de personalidad y evaluación de personalidad de respuesta forzada y por qué produce datos más honestos.

Cómo Cèrcol calcula tus puntuaciones Big Five

La puntuación de Cèrcol es completamente transparente: ítems en formato Likert, codificación inversa cuando sea necesario, agregación por suma TCT y conversión a percentil normativo usando muestras IPIP publicadas. No hay algoritmos propietarios de caja negra. La capa de evaluación de pares Testigo aplica la misma lógica a los pares de adjetivos valorados por el observador y superpone el resultado a tu perfil de autoinforme —poniendo de relieve los puntos ciegos que ningún instrumento de autoinforme, por muy bien puntuado que esté, puede detectar por sí solo.

Si quieres ver esta metodología en acción, la evaluación completa Big Five es gratuita en cercol.team. El instrumento Testigo añade perspectivas de pares usando un diseño de respuesta forzada que evita la inflación por aquiescencia y deseabilidad social que afecta a las escalas Likert estándar. La documentación científica detalla cada decisión de puntuación con referencias a la literatura psicométrica publicada.

Lectura adicional: Lo que significa fiabilidad y validez en las pruebas de personalidad · Evaluación de personalidad de respuesta forzada: datos más honestos

Cómo se calculan las puntuaciones de los tests de personalidad: de los ítems a las dimensiones

Paso 1: Cómo los formatos de respuesta a los ítems del Big Five condicionan tu puntuación

Paso 2: Por qué los ítems de puntuación inversa protegen la validez de las escalas Big Five

Paso 3: Puntuación por suma vs Teoría de Respuesta al Ítem en la evaluación Big Five

Paso 4: Puntuación normativa vs ipsativa —y por qué cambia todo

Paso 5: Por qué la base de datos normativa condiciona tu percentil Big Five

Cómo Cèrcol puntúa su instrumento Big Five

Cómo Cèrcol calcula tus puntuaciones Big Five

Lectura adicional

Artículos relacionados

Qué significan la fiabilidad y la validez en los tests de personalidad — explicado con claridad

¿Qué es una faceta en psicología de la personalidad — y por qué importa?

Por qué 120 ítems es mejor que 10: el compromiso en la longitud de los tests de personalidad