En 2015, una colaboración pionera publicó resultados que sacudieron la psicología académica hasta sus cimientos. La Open Science Collaboration reunió a 270 investigadores en más de 100 laboratorios e intentó replicar 100 hallazgos de revistas de psicología social y cognitiva de alto impacto. Los resultados, publicados en Science (doi:10.1126/science.aac4716), fueron decepcionantes: solo entre el 36 y el 39 por ciento de los hallazgos se replicaron en un sentido estadísticamente significativo. Los tamaños de efecto eran sistemáticamente más pequeños en las replicaciones que en los originales. Muchos hallazgos que habían sido ampliamente citados, enseñados en cursos universitarios y aplicados en la práctica no resistieron las pruebas independientes.
La crisis de replicación — de la que hay una visión general disponible en Wikipedia — remodeló la conversación sobre lo que la psicología realmente sabe. Provocó una reflexión sobre los tamaños de muestra pequeños, el sesgo de publicación (la tendencia a publicar solo resultados positivos), los grados de libertad de los investigadores (las muchas opciones no divulgadas que pueden inflar los efectos aparentes) y una cultura que recompensaba la novedad por encima de la reproducibilidad.
¿Dónde se sitúa la ciencia de la personalidad en este panorama? La respuesta es más tranquilizadora de lo que sugiere la tasa de replicación general — pero no es uniformemente tranquilizadora.
Por qué la ciencia del Big Five sobrevivió mejor la crisis de replicación
Los hallazgos que fallaron en replicarse de manera más dramática en la Open Science Collaboration estaban concentrados en la psicología social y cognitiva — efectos llamativos y contraintuitivos que hacían buenos titulares y material de clase. Los estudios de priming (la idea de que exponer brevemente a las personas a una palabra cambia su comportamiento posterior), el agotamiento del ego (la idea de que la fuerza de voluntad es un recurso que se agota con el uso), y varios hallazgos clásicos de influencia social o bien no se replicaron o se replicaron con tamaños de efecto que eran una fracción de los originales.
La ciencia de la personalidad no era inmune a los problemas de replicación, pero estaba estructuralmente mejor posicionada para resistirlos. Las razones son metodológicas.
Los tamaños de muestra tienden a ser más grandes. Los hallazgos del Big Five que anclan el campo — la relación entre Conscientiousness y rendimiento laboral, entre Neuroticism y bienestar psicológico, entre Openness y creatividad — se establecieron en cientos de estudios y meta-análisis que involucran decenas de miles de participantes. Cuando los hallazgos se basan en N muy grande y se han replicado muchas veces en contextos diferentes, la replicación es una cuestión de rutina más que de esperanza.
Las medidas son más estables. Los cuestionarios de personalidad producen puntuaciones altamente fiables — las fiabilidades de consistencia interna típicamente en el rango de .80-.90. Los paradigmas de priming de sesión única, en cambio, miden estados a corto plazo y sensibles al contexto con una fiabilidad mucho menor. Las medidas poco fiables significan efectos ruidosos que fluctúan de manera impredecible en las replicaciones.
Los constructos son más operacionalmente transparentes. La "Conscientiousness" tiene una definición clara y consensuada que se ha operacionalizado de manera consistente a través de instrumentos y estudios durante décadas. Muchos de los hallazgos de psicología social que no se replicaron dependían de operacionalizaciones creativas y teóricamente contestadas de constructos como "poder", "actitud implícita" o "agotamiento autorregulativo". Los constructos más transparentes producen hallazgos más replicables. Los elementos de dominio público del IPIP hacen posible esta transparencia a nivel de medición.
Los hallazgos robustos del Big Five que se han replicado de manera fiable
"Entre los hallazgos más robustos de la psicología de la personalidad está la relación entre Conscientiousness y rendimiento laboral — una conexión documentada en cientos de estudios, múltiples culturas y una gran variedad de dominios ocupacionales." — Roberts et al., 2007 (revisión meta-analítica)
Los siguientes hallazgos de la ciencia de la personalidad han sobrevivido a la replicación repetida y al escrutinio meta-analítico con tamaños de efecto consistentemente moderados a grandes.
Conscientiousness y rendimiento laboral. El meta-análisis de Barrick y Mount (1991) — y sus muchas replicaciones y extensiones — estableció que la Conscientiousness (Disciplina en el marco de Cèrcol) es el predictor Big Five más consistente del rendimiento laboral en todos los tipos ocupacionales. El efecto no es grande en términos absolutos (correlaciones corregidas típicamente alrededor de .20-.28) pero es de los más grandes en la literatura de relaciones personalidad-resultados, y se mantiene en industrias, culturas y tipos de trabajo. Este hallazgo se ha replicado tantas veces que se trata como un punto de referencia con el que se evalúan nuevos predictores. Para un perfil completo de esta dimensión, véase what is Conscientiousness.
Neuroticism y bienestar. La relación negativa entre Neuroticism (Profundidad en la terminología de Cèrcol) y el bienestar subjetivo, la satisfacción vital y el afecto positivo es uno de los hallazgos más replicados de la ciencia de la personalidad. Un meta-análisis de Steel, Schmidt y Shultz (2008) encontró correlaciones entre Neuroticism y medidas de bienestar global alrededor de -.40 a -.50. La relación se mantiene longitudinalmente, transculturalmente y en diversas operacionalizaciones del bienestar. El panorama completo de esta dimensión se trata en what is Neuroticism.
Estabilidad de rasgos a lo largo de la edad adulta. El hallazgo de que los rasgos del Big Five son moderadamente estables a lo largo de la edad adulta — y se vuelven más estables con la edad — se ha replicado en estudios longitudinales en múltiples países. Roberts y DelVecchio (2000) meta-analizaron 152 estudios longitudinales y encontraron correlaciones test-retest aumentando de aproximadamente .54 en la infancia a .74 en la edad adulta. La personalidad no es fija, pero no es tan maleable como los relatos populares a veces sugieren. Este es uno de los hallazgos más importantes de entender antes de leer five personality science myths that won't die.
Extraversion y afecto positivo. La asociación entre Extraversion (Presencia) y la emocionalidad positiva es altamente replicable y aparece tanto en estudios de autoinforme como de evaluación momentánea ecológica. La Extraversion parece reflejar, en parte, una sensibilidad biológica a las señales de recompensa que se manifiesta como una tendencia a experimentar emociones positivas más frecuentes e intensas en contextos sociales.
Openness y creatividad, inteligencia y compromiso estético. El vínculo entre Openness to Experience (Visión) y los resultados en dominios creativos — producción artística, pensamiento divergente, consumo cultural — se replica de manera consistente. Su relación con la inteligencia cristalizada es moderada y robusta.
Qué hallazgos de la ciencia de la personalidad tienen un registro de replicación más débil
No todos los hallazgos de la ciencia de la personalidad han resistido la replicación igual de bien.
Interacciones específicas rasgo × resultado. Si bien los efectos principales de los rasgos Big Five sobre resultados amplios son robustos, las afirmaciones sobre interacciones moderadoras específicas — que la Conscientiousness predice el rendimiento solo en ciertas condiciones de liderazgo, que la Agreeableness importa más para el rendimiento del equipo en roles de alta interdependencia — tienen un registro de replicación más débil. Estos efectos de interacción a menudo se basan en muestras más pequeñas, implican más grados de libertad de los investigadores en el análisis, y tienden a reducirse sustancialmente en replicaciones independientes.
Intervenciones de cambio de personalidad. Los estudios que afirman que las intervenciones dirigidas pueden cambiar de manera significativa los niveles de rasgos Big Five — y que estos cambios persisten a lo largo del tiempo — han mostrado resultados de replicación mixtos. El hallazgo básico de que la personalidad puede cambiar es robusto; la evidencia de cambio fiable, dirigido y duradero a través de intervenciones específicas lo es menos. El campo necesita ensayos pre-registrados más grandes antes de que se justifiquen afirmaciones fuertes sobre el cambio de personalidad.
Interpretaciones basadas en tipos. Los intentos de derivar "tipos" de personalidad significativos a partir de puntuaciones continuas del Big Five — la afirmación de que hay grupos distintos de personas con perfiles significativamente diferentes — han mostrado una replicación deficiente. Un artículo ampliamente citado de 2018 de Gerlach et al. que afirmaba identificar cuatro tipos de personalidad robustos fue rápidamente seguido de análisis independientes que mostraban que la estructura de tipos era muy sensible a las opciones metodológicas. Las puntuaciones continuas de rasgos se replican; los tipos discretos no. Esta es una de las razones por las que Cèrcol evita el marco basado en tipos.
Lo que los equipos deberían confiar — y lo que tratar con precaución
| Hallazgo | Estado de replicación | Nivel de confianza |
|---|---|---|
| Conscientiousness → rendimiento laboral | Altamente replicado | Alto — usar como punto de referencia |
| Neuroticism → menor bienestar | Altamente replicado | Alto — consistente en culturas e instrumentos |
| Estabilidad de rasgos en la edad adulta | Altamente replicado | Alto — el cambio intrapersonal es real pero lento |
| Extraversion → afecto positivo | Altamente replicado | Alto — robusto en muestreo de experiencia y laboratorio |
| Openness → creatividad | Bien replicado | Moderado-alto — los tamaños de efecto varían por dominio |
| Interacciones específicas rasgo × resultado | Mixto | Bajo — tratar con precaución; buscar evidencia N grande |
| Intervenciones de cambio de personalidad | Mixto | Bajo-moderado — prometedor pero no establecido |
| Tipos de personalidad del Big Five | Pobremente replicado | Bajo — evitar asignaciones de tipos binarios |
La implicación práctica para cualquiera que use datos de personalidad es aplicarlos al nivel de tendencias de rasgos amplios, no predicciones de grano fino. La investigación sobre Conscientiousness y rendimiento laboral os da base para esperar que alguien con puntuaciones altas de Disciplina mostrará, de media y a lo largo del tiempo, mayor fiabilidad y seguimiento que alguien con puntuaciones bajas. No os da base para predecir lo que harán en una situación específica, cómo responderán a un gestor particular, o si tendrán éxito en un rol con demandas inusuales. Para un relato más completo de estos límites, véase what personality science cannot predict.
Para Cèrcol, esto significa construir marcos interpretativos al nivel donde la evidencia es más fuerte, y ser explícitos sobre la incertidumbre donde la evidencia es más débil. La página de ciencia en cercol.team/science establece la base de evidencia en detalle.
Cómo el pre-registro mejora la credibilidad de la ciencia de la personalidad
La crisis de replicación ha impulsado un cambio en las prácticas de investigación. El pre-registro — comprometerse con hipótesis, medidas y estrategia analítica antes de la recopilación de datos — impide la flexibilidad no divulgada que infla las tasas de falsos positivos. Los estudios colaborativos grandes agregan datos en muchos laboratorios para producir estimaciones de tamaño de efecto lo suficientemente robustas para generalizar. Las colaboraciones adversariales enfrentan a investigadores con visions opuestas entre sí en estudios conjuntos diseñados para arbitrar entre ellos.
Estas prácticas ya están mejorando la calidad de la literatura de ciencia de la personalidad. Los hallazgos que sobreviven a la replicación pre-registrada con N grande son sustancialmente más creíbles que los hallazgos que solo se han demostrado en estudios de un solo laboratorio. A medida que el campo madure, la relación señal-ruido mejorará — y con ella, la confianza que los profesionales pueden depositar en los datos de personalidad. Para una revisión de las concepciones erróneas persistentes, véase five personality science myths that won't die.
Pon a prueba la ciencia tú mismo con Cèrcol
Los hallazgos del Big Five que se han replicado de manera más robusta — Conscientiousness y rendimiento, Neuroticism y bienestar, estabilidad de rasgos — son exactamente los hallazgos en los que las evaluaciones de personalidad deben basarse. Ese es el estándar que Cèrcol se exige a sí mismo: solo las dimensiones y relaciones con registros de replicación fuertes se usan para generar percepciones, y la página de ciencia documenta la evidencia de apoyo de manera transparente.
Si queréis ver cómo es la ciencia de la personalidad replicada en práctica, Cèrcol es gratuito en cercol.team. La evaluación usa elementos de dominio público IPIP, puntúa las cinco dimensiones cuya evidencia de validez sobrevivió la crisis de replicación, y os da perspectivas tanto de autoinforme como de pares — porque dos señales independientes son más fiables que una.
Lectura adicional: Critiques of the Big Five: what the critics say · The science behind Cèrcol