Pasa por cualquier página de marketing de un test de personalidad y encontrarás dos palabras usadas como garantías: fiable y válido. Los vendedores las usan libremente, con una explicación mínima, como señales de que su instrumento es científicamente creíble. Los términos casi nunca se definen para el lector.
Esto importa porque la fiabilidad y la validez no son intercambiables, no son lo mismo y no son sencillas de evaluar en la práctica. Un instrumento puede ser altamente fiable sin ser válido. Un test puede mostrar validez aparente —parece que mide lo que afirma— mientras falla todos los criterios estadísticos de validez rigurosos. Y el MBTI, el instrumento de personalidad comercialmente más popular del mundo, ilustra exactamente cómo un instrumento puede puntuar mal en los mismos criterios que invocan sus publicadores.
Este artículo explica cada concepto con claridad, describe cómo reconocer evidencias fuertes y débiles para cada uno, y proporciona un marco de evaluación práctica para cualquier instrumento de personalidad.
Fiabilidad en los tests de personalidad: Qué significa y qué puntuaciones exigir
La fiabilidad se refiere a la consistencia de una medida. Un test es fiable si produce los mismos resultados, o muy similares, en condiciones donde el rasgo subyacente no ha cambiado. Hay dos tipos principales.
Fiabilidad test-retest
La fiabilidad test-retest pregunta: si la misma persona hace el mismo test dos veces, con unas pocas semanas de diferencia, ¿cuán similares son los resultados? Las puntuaciones pueden diferir entre administraciones por dos razones: cambio genuino en el rasgo subyacente, o error de medida. Un test fiable minimiza el error de medida, de modo que los cambios de puntuación entre administraciones reflejen principalmente un cambio real más que ruido.
El umbral estándar para una fiabilidad test-retest aceptable es una correlación de aproximadamente 0.70 o superior en un intervalo de dos a cuatro semanas. Los instrumentos del Big Five bien validados generalmente alcanzan 0.80 o superior para puntuaciones a nivel de dominio. La fiabilidad test-retest del MBTI es menor: los estudios han encontrado que aproximadamente el 50% de los encuestados reciben una clasificación diferente de cuatro letras cuando se reexaminan cinco semanas después, que es la firma estadística de un error de medida elevado. Véase MBTI vs Big Five para la comparación completa.
Consistencia interna
La fiabilidad de consistencia interna pregunta si los ítems dentro de una escala miden el mismo constructo subyacente. Si una escala de Concienciosidad contiene ítems sobre organización, diligencia y fiabilidad, esos ítems deberían correlacionarse entre sí, porque todos captan la misma disposición subyacente. La estadística estándar es el alfa de Cronbach, donde los valores por encima de 0.70 se consideran generalmente aceptables y por encima de 0.80 son buenos.
Una baja consistencia interna significa que los ítems dentro de una escala miden cosas diferentes, lo que dificulta la interpretación de la puntuación total de la escala. Una puntuación de Concienciosidad derivada de ítems que apenas se correlacionan entre sí no es una medida coherente. Para una explicación de cómo la longitud de la escala interactúa con la consistencia interna, véase por qué 120 ítems es mejor que 10.
Validez en los tests de personalidad: Cuatro tipos que todo comprador debería entender
La validez aborda una pregunta diferente: ¿el test realmente mide lo que pretende medir? Un test puede ser perfectamente consistente (fiable) mientras mide algo completamente equivocado. Las principales formas de evidencia de validez abordan cada una un aspecto diferente de esta pregunta.
Validez convergente
La validez convergente pregunta si el test se correlaciona con otras medidas establecidas del mismo constructo. Una nueva escala de Extraversión debería correlacionarse positivamente con medidas de Extraversión validadas existentes, porque si ambas miden la Extraversión, deberían estar de acuerdo en quién tiene más y menos.
Esto parece obvio pero se descuida sorprendentemente a menudo. Muchos instrumentos propietarios no informan de datos de validez convergente, lo que hace imposible evaluar si miden los mismos constructos que la literatura académica. El banco de ítems IPIP se construyó precisamente para permitir este tipo de comparación pública.
Validez de criterio
La validez de criterio, la forma prácticamente más importante, pregunta si el test predice los resultados que el rasgo debería predecir teóricamente. Si una medida de Concienciosidad es válida, debería predecir el rendimiento laboral, el rendimiento académico y el logro de objetivos, porque la Concienciosidad es el rasgo que más consistentemente se asocia a estos resultados en la literatura. Si un test afirma medir la Concienciosidad pero no muestra ninguna correlación con el rendimiento laboral, algo va mal con la afirmación.
La validez predictiva es un subtipo específico: ¿el test predice resultados futuros? La validez concurrente pregunta si el test se correlaciona con resultados evaluados al mismo tiempo. Ambos importan, pero la validez predictiva es el estándar de oro para los instrumentos utilizados en la selección de personal. Para las implicaciones para la contratación específicamente, véase las pruebas de personalidad en la contratación: lo que es legal y lo que es ético.
Validez discriminante
La validez discriminante pregunta si el test se correlaciona demasiado con medidas de constructos diferentes. Si una escala que pretende medir la Amabilidad se correlaciona tan fuertemente con la Concienciosidad como lo hace con otras medidas de Amabilidad, puede que no esté midiendo la Amabilidad de manera diferenciada. Entender lo que mide de manera única cada faceta del Big Five ayuda aquí; véase qué es una faceta en psicología de la personalidad.
Validez aparente vs validez estadística
La validez aparente es la apariencia de medir lo que un test afirma. Un ítem que dice "Soy una persona organizada" tiene alta validez aparente para la Concienciosidad: parece que mide la organización. Pero la validez aparente no es lo mismo que la validez estadística, y confundirlas es uno de los errores más comunes en la evaluación de tests de personalidad.
Muchos instrumentos populares tienen alta validez aparente y validez estadística modesta a deficiente. El contenido parece relevante; las predicciones son débiles. Para un desglose de qué tests populares caen en esta trampa, véase los mejores tests de personalidad gratuitos para equipos en 2026.
| Concepto psicométrico | Qué mide | Buen umbral | Instrumentos del Big Five | MBTI |
|---|---|---|---|---|
| Fiabilidad test-retest | Consistencia de las puntuaciones a lo largo del tiempo | r ≥ 0.70 durante 4 semanas | Típicamente 0.80–0.90 | ~0.50 (50% de cambio de tipo en el retest) |
| Consistencia interna (alfa de Cronbach) | Coherencia de los ítems dentro de una escala | α ≥ 0.70 | Típicamente 0.80–0.90 | Moderada; varía por escala |
| Validez convergente | Acuerdo con otras medidas del mismo rasgo | r ≥ 0.50 con medida establecida | Bien documentada en revisión por pares | Datos limitados publicados entre instrumentos |
| Validez de criterio | Predicción de resultados del mundo real | Varía; d ≥ 0.20 se considera significativo | La Concienciosidad predice el rendimiento laboral de manera robusta | Predicción débil del rendimiento laboral |
| Validez discriminante | Independencia de medidas de rasgos diferentes | r baja con escalas conceptualmente distintas | Generalmente respaldada | Las dimensiones no son claramente independientes entre sí |
Cinco preguntas para evaluar cualquier afirmación de validez de un test de personalidad
Cuando un vendedor o investigador afirma que un instrumento de personalidad es "válido y fiable", las siguientes preguntas producen una evaluación rápida de calidad.
Pregunta 1: ¿La evidencia de validez está publicada en revistas revisadas por pares? Los informes técnicos propietarios, los libros blancos y los textos de sitios web no cuentan. La revisión por pares somete las afirmaciones de validez al escrutinio independiente. Si la única evidencia de validez es la documentación propia del editor, eso es una señal de alarma. Las implicaciones más amplias de cómo la ciencia de la personalidad maneja la replicación se abordan en la crisis de replicación en ciencia de la personalidad.
Pregunta 2: ¿Cuál es la fiabilidad test-retest en un intervalo clínicamente significativo? Cuatro a seis semanas es el estándar. Si este número no se reporta o es inferior a 0.70, la medida es ruidosa.
Pregunta 3: ¿Qué resultados predice el instrumento? La evidencia de validez de criterio debería incluir resultados del mundo real, no solo correlaciones con otras medidas de autoinforme. Para los instrumentos relevantes para el trabajo, el rendimiento laboral es el criterio clave.
Pregunta 4: ¿Grupos de investigación independientes han replicado los resultados de validez? Un único estudio de los propios desarrolladores del instrumento es insuficiente. La replicación por parte de investigadores sin interés comercial en el resultado es el estándar significativo.
Pregunta 5: ¿La puntuación es transparente? Si el algoritmo de puntuación es propietario, las afirmaciones de validez no se pueden verificar de manera independiente. Los instrumentos de ciencia abierta, incluido el IPIP en el que se basa Cèrcol, permiten que cualquiera compruebe las afirmaciones con los datos. Véase pruebas de personalidad: código abierto vs comercial para la comparación completa.
Por qué la evaluación por pares añade validez que el autoinforme no puede proporcionar
Una fuente de validez poco valorada en la evaluación de la personalidad es el uso de valoraciones de observadores junto con el autoinforme. La personalidad medida por personas que conocen al sujeto —colegas, gestores, subordinados directos— típicamente muestra una validez de criterio superior al autoinforme solo, especialmente para predecir el rendimiento laboral.
Esto se debe a que el autoinforme está sujeto a la gestión de la impresión (puntuarse de manera más favorable, consciente o inconscientemente) y al conocimiento limitado de uno mismo (las personas a menudo no saben cómo aparecen ante los demás). Las valoraciones de los observadores no están libres de sesgos, pero están afectadas por sesgos diferentes, lo que significa que combinar datos propios y de observadores produce estimaciones de personalidad más precisas que cualquiera de ellas por separado. Para el argumento completo, véase por qué la autoevaluación sola no es suficiente: feedback de personalidad entre pares.
El modelo Testigo (Witness) de Cèrcol está diseñado alrededor de este principio. La historia del Big Five y la página de ciencia proporcionan más contexto sobre la evidencia de validez que sustenta las decisiones de diseño de Cèrcol.
"La fiabilidad y la validez no son afirmaciones de marketing. Son propiedades estadísticas específicas con umbrales establecidos, medibles a través de métodos estándar y verificables a través de datos publicados. Un instrumento que no puede proporcionar evidencia revisada por pares para ambas debería evaluarse con escepticismo proporcional."
Cómo Cèrcol cumple el nivel de fiabilidad y validez
El instrumento de Cèrcol se basa en el banco de ítems IPIP, los mismos ítems de dominio público cuyas propiedades psicométricas han sido documentadas de manera independiente por Goldberg y colegas a lo largo de décadas de investigación publicada. La fiabilidad test-retest a nivel de dominio para las escalas del Big Five basadas en IPIP generalmente se sitúa por encima de r = 0.80 en intervalos de cuatro semanas. La consistencia interna (alfa de Cronbach) para las escalas de 20 ítems por dimensión que utiliza Cèrcol es consistentemente por encima de 0.87.
La validez de criterio se hereda de la literatura del Big Five más amplia: la Concienciosidad (Disciplina) predice el rendimiento laboral en todas las principales categorías ocupacionales (Barrick & Mount, 1991, doi: 10.1111/j.1744-6570.1991.tb00688.x). El Neuroticismo (Profundidad) predice la respuesta al estrés y los resultados de bienestar. La Apertura (Visión) predice el rendimiento creativo.
La evaluación de pares Testigo añade puntuaciones valoradas por observadores en las mismas cinco dimensiones utilizando un formato de elección forzada que reduce el sesgo de deseabilidad social; véase sesgo de deseabilidad social en tests de personalidad para la metodología completa. Realiza la evaluación gratuita en cercol.team y revisa la documentación de validez completa en cercol.team/science.
Lectura adicional: La historia del Big Five: de Allport a Goldberg · La ciencia detrás de Cèrcol
Lectura adicional
- Por qué 120 ítems es mejor que 10: Longitud del test de personalidad
- Cómo se calculan las puntuaciones del test de personalidad
- Sesgo de deseabilidad social en tests de personalidad
- Pruebas de personalidad: Código abierto vs Comercial
- Ciencia de la personalidad: La crisis de replicación
- Big Five vs MBTI: ¿Cuál es más fiable?