Lanzamiento beta — quedan 500 licencias gratuitas de Full Moon. Ayúdanos a detectar errores.
Reclama tu acceso gratuito

Por qué 120 ítems es mejor que 10: el compromiso en la longitud de los tests de personalidad

Los tests cortos del Big Five alcanzan una fiabilidad de ~0,55 frente a ~0,90 para las versiones de 120 ítems. Aquí está el compromiso — y cuándo las evaluaciones cortas son suficientemente buenas.

Miquel Matoses·12 min de lectura

El Ten-Item Personality Inventory — más conocido como TIPI — cabe en una sola página. Mide las cinco dimensiones del Big Five usando dos ítems cada una, se puede completar en menos de dos minutos y ha sido utilizado en cientos de estudios de investigación. También es, por la mayoría de los estándares psicométricos, un instrumento significativamente menos fiable que las alternativas más largas.

Este compromiso no es exclusivo de la medición de la personalidad. Atraviesa toda la psicometría: más ítems, medidos de manera más consistente, producen puntuaciones más fiables. La pregunta no es si los tests más largos son mejores — por la mayoría de las métricas de fiabilidad lo son — sino cuándo el beneficio de fiabilidad vale la pena la carga sobre los participantes.


10 ítems 44 ítems 120 ítems α = 0.64 α = 0.81 α = 0.92
La fiabilidad alfa de Cronbach aumenta sustancialmente con la longitud del test.

La fórmula de Spearman-Brown: Por qué la longitud del test predice la fiabilidad del Big Five

La relación matemática entre la longitud del test y la fiabilidad fue formalizada hace más de un siglo por Charles Spearman y William Brown trabajando de manera independiente. La fórmula de profecía de Spearman-Brown predice cómo cambia la fiabilidad cuando cambias el número de ítems de un test, asumiendo que los nuevos ítems son de calidad similar a los originales.

La fórmula tiene una implicación específica: los beneficios de fiabilidad por añadir ítems siguen una curva de rendimientos decrecientes. Pasar de 2 ítems a 10 ítems produce un gran beneficio de fiabilidad. Pasar de 80 ítems a 120 ítems produce uno mucho menor. Los primeros ítems hacen la mayor parte del trabajo; cada ítem adicional añade menos que el anterior.

Por eso la elección de la longitud del test es una verdadera decisión de ingeniería en lugar de una conclusión simple de "más siempre es mejor". En algún punto, la carga sobre los participantes supera el beneficio de fiabilidad. La pregunta práctica es dónde se encuentra ese punto para el caso de uso en cuestión. Para un tratamiento completo de cómo se define y mide la fiabilidad, véase qué es la fiabilidad y validez en las pruebas de personalidad.

"La fórmula de Spearman-Brown hace precisa la relación fiabilidad-longitud: para duplicar la fiabilidad de un test, hay que aproximadamente cuadruplicar su longitud."


Qué pierden los tests del Big Five de 10 ítems que capturan instrumentos más largos

Los dos ítems por dimensión del TIPI no pueden, por construcción, capturar la variación a nivel de facetas dentro de cada dimensión del Big Five. Como se describe en qué es una faceta en psicología de la personalidad, cada dimensión del Big Five contiene seis facetas — subrasgo estrechos que pueden apuntar en direcciones diferentes para personas con la misma puntuación global de dimensión.

Una escala de Responsabilidad de dos ítems puede clasificar con éxito si una persona es ampliamente alta o baja en la dimensión. No puede distinguir entre alguien cuya Responsabilidad está impulsada por el Orden y el Deber vs. alguien cuyo perfil está dominado por el Esfuerzo por el Logro y la Autodisciplina — que es precisamente la distinción más relevante para el ajuste de rol y el desarrollo.

La misma limitación se aplica a todas las dimensiones. Una escala de Apertura de dos ítems no puede separar la curiosidad intelectual de la sensibilidad estética. Una escala de Neuroticismo de dos ítems no puede distinguir la reactividad impulsada por la ansiedad de la reactividad impulsada por la ira.

Los tests cortos también muestran una fiabilidad reducida para individuos cerca del centro de la distribución — el rango donde la mayoría de las personas puntúan en la mayoría de las dimensiones. Para los puntadores claramente extremos (muy altos o muy bajos), dos ítems pueden ser suficientes para clasificarlos razonablemente. Para la mayoría que puntúa en el rango moderado, el error de medición de una escala de dos ítems es lo suficientemente grande como para producir clasificaciones diferentes en una nueva evaluación. Para la explicación estadística de por qué esto importa, véase cómo se calculan las puntuaciones de los tests de personalidad.


TIPI vs IPIP-NEO-120: Compromisos de fiabilidad uno al lado del otro

El IPIP-NEO-120 es un instrumento de 120 ítems, disponible gratuitamente, que mide las cinco dimensiones del Big Five y las treinta facetas. Fue desarrollado específicamente como una alternativa de acceso abierto al NEO PI-R propietario, y sus propiedades de validez han sido documentadas en investigaciones revisadas por pares.

La comparación con el TIPI ilustra directamente el compromiso fiabilidad-longitud:

Longitud del testInstrumento ejemploÍtems por dimensiónMedición de facetasEstimación de fiabilidad (α)Caso de uso adecuado
10 ítemsTIPI2Ninguna~0.45–0.65 por dimensiónInvestigación de población a gran escala; cribado cuando la brevedad es esencial; autoexploración de bajo riesgo
44 ítemsBFI (Big Five Inventory)~8–9Ninguna~0.75–0.85 por dimensiónInvestigación académica que requiere equilibrio de brevedad y fiabilidad; estudios a nivel de grupo
60 ítemsIPIP-NEO-6012Parcial~0.80–0.87 por dimensiónInvestigación aplicada; contextos de desarrollo de riesgo moderado
100–120 ítemsCèrcol / IPIP-NEO-12020–24Completa (30 facetas)~0.87–0.93 por dimensiónDesarrollo individual; perfiles de equipo; coaching; evaluación de alto riesgo
240 ítemsNEO PI-R (completo)48Completa (30 facetas)~0.90–0.95 por dimensiónEvaluación clínica; investigación que requiere máxima precisión; selección de alto riesgo

Cuándo un test de personalidad corto es realmente apropiado

El caso de los tests de personalidad cortos es real y no debe descartarse. En ciertos contextos, un instrumento de 10 ítems es la elección correcta.

La investigación de población a gran escala requiere la completación de miles de participantes. Un tiempo de completación de 10 minutos crea un abandono significativamente mayor que uno de 2 minutos, lo que produce muestras sesgadas. Cuando la pregunta de investigación se refiere a tendencias a nivel de población en lugar de perfiles individuales, la fiabilidad más débil del TIPI es aceptable porque se promedia en muestras grandes.

Los contextos de cribado — donde el objetivo es identificar quién podría beneficiarse de una evaluación más exhaustiva — pueden usar apropiadamente instrumentos cortos. Si un cribado de 10 ítems identifica candidatos en el cuartil superior o inferior de una dimensión para una evaluación posterior, la brevedad es un compromiso razonable.

La medición repetida presenta un problema diferente. Si queréis rastrear el cambio de personalidad a lo largo del tiempo — o a través de múltiples intervenciones de desarrollo — administrar un instrumento de 120 ítems cada trimestre es oneroso. Una forma corta validada usada de manera consistente a lo largo del tiempo puede producir datos longitudinales más accionables que una administración de formato largo poco frecuente.

La autoexploración de bajo riesgo — donde el usuario simplemente tiene curiosidad por su personalidad en lugar de usar los datos para una decisión consecuente — puede usar apropiadamente instrumentos más cortos. El costo del error de medición es menor cuando las apuestas son menores. Para una comparación de qué evaluaciones gratuitas son apropiadas para qué apuestas, véase los mejores tests de personalidad gratuitos para equipos en 2026.


Cuándo la longitud del test importa: Desarrollo individual y perfiles de equipo

El caso de los instrumentos más largos se fortalece a medida que aumentan las apuestas y los requisitos de especificidad del caso de uso.

El desarrollo individual requiere datos a nivel de facetas. Un instrumento de 10 ítems no puede decirle a un coach o director por qué la puntuación de Responsabilidad de alguien es la que es — qué facetas lo impulsan y qué intervenciones de desarrollo probablemente serán más efectivas. Un instrumento de 120 ítems con puntuación a nivel de facetas proporciona la especificidad que requieren las conversaciones de desarrollo.

Los perfiles de equipo requieren puntuaciones individuales fiables como entradas para el análisis a nivel de equipo. Si las puntuaciones individuales tienen un alto error de medición, el perfil del equipo hereda ese error. Un mapa de equipo construido sobre puntuaciones TIPI mostrará una mayor variación aleatoria entre perfiles que uno construido sobre instrumentos más largos — lo que reduce la utilidad del mapa para el diseño deliberado del equipo. Véase los 12 roles de equipo de Cèrcol para cómo los perfiles a nivel de facetas se traducen en conocimiento del rol de equipo.

La evaluación entre pares amplifica el argumento. El modelo Testigo de Cèrcol pide a los observadores que evalúen la personalidad de otra persona a través de múltiples dimensiones y facetas. Un instrumento corto colapsaría la señal de las evaluaciones del Testigo hasta el punto donde las discrepancias observador-vs-autoinforme — los datos más informativos del informe — se volverían poco fiables. La metodología Testigo se explica en detalle en qué mide el instrumento Testigo de Cèrcol.

Las decisiones de alto riesgo — evaluación del rendimiento, rediseño de roles, selección para programas de liderazgo — requieren que los datos sean lo suficientemente fiables para actuar sobre ellos. Una medición con α = 0.55 (TIPI típico) significa que el 45% de la varianza de las puntuaciones es ruido aleatorio. Una medición con α = 0.90 significa que solo el 10% es ruido. La diferencia entre actuar sobre el 55% de señal vs el 90% de señal es la diferencia entre datos útiles y decisiones aleatorizadas.


Por qué Cèrcol utiliza 120 ítems para equilibrar fiabilidad y tiempo de completación

El instrumento de Cèrcol utiliza 120 ítems — 24 por cada dimensión del Big Five — proporcionando medición a nivel de facetas mientras se mantiene sustancialmente más corto que el NEO PI-R completo de 240 ítems. El diseño refleja un compromiso deliberado: mantener la resolución de facetas y la fiabilidad por encima de 0.87 por dimensión mientras se mantiene el tiempo de completación en aproximadamente 15 minutos.

Esta longitud está respaldada por la evidencia de fiabilidad y validez para instrumentos basados en IPIP en este recuento de ítems, y por la realidad práctica de que el perfil de equipo y el desarrollo individual requieren datos a nivel de facetas que los instrumentos más cortos estructuralmente no pueden proporcionar. Para la ciencia que hay detrás de por qué esto importa, véase pruebas de personalidad: código abierto vs. comercial y sesgo de deseabilidad social en las pruebas de personalidad — los instrumentos más largos también proporcionan más oportunidades para incluir ítems de codificación inversa que protegen contra la aquiescencia y la inflación de deseabilidad social.

La longitud apropiada para un instrumento de personalidad no la determina la convención ni lo que parece conveniente. La determinan el caso de uso, la fiabilidad requerida y el nivel de especificidad que los datos necesitan proporcionar. Para el desarrollo individual y de equipo, la evidencia respalda consistentemente instrumentos en el rango de 100–120 ítems como el óptimo práctico.


Por qué Cèrcol utiliza 120 ítems en lugar de 10

Un test de personalidad de 10 ítems es mejor que ningún test — pero para los propósitos que la mayoría de los equipos valoran (ajuste de rol, planificación del desarrollo, predicción de conflictos, coaching), 10 ítems por dimensión no es suficiente. Dos ítems no pueden distinguir entre facetas, no pueden clasificar fiablemente a las personas en el centro de la distribución y producen un error de medición lo suficientemente grande como para cambiar las conclusiones en una nueva evaluación.

Cèrcol utiliza 120 ítems porque es la longitud de instrumento más corta que ofrece resolución completa de facetas y fiabilidad test-retest por encima de 0.87 en las cinco dimensiones del Big Five. Los ítems se extraen del banco de ítems IPIP de dominio abierto — la misma fuente científica utilizada en cientos de estudios revisados por pares. La completación dura aproximadamente 15 minutos.

Si queréis ver cómo se ven realmente los datos del Big Five a nivel de facetas para vuestro equipo, la evaluación es gratuita en cercol.team. La evaluación entre pares Testigo añade perfiles valorados por observadores para cada persona — una segunda perspectiva que ningún instrumento de autoinforme, por largo que sea, puede sustituir. Leed la justificación completa de la medición en cercol.team/science.


Lectura adicional: Qué significa fiabilidad y validez en las pruebas de personalidad · La ciencia que hay detrás de Cèrcol

Lectura adicional

Artículos relacionados

Cèrcol usa solo cookies funcionales — sin analíticas, sin rastreadores publicitarios. Política de privacidad