Passa per qualsevol pàgina de màrqueting d'un test de personalitat i trobaràs dues paraules usades com a garanties: fiable i vàlid. Els venedors les fan servir lliurement, amb una explicació mínima, com a senyals que el seu instrument és científicament creïble. Els termes gairebé mai s'expliquen al lector.
Això importa perquè la fiabilitat i la validesa no són intercanviables, no són el mateix i no són senzilles d'avaluar a la pràctica. Un instrument pot ser altament fiable sense ser vàlid. Un test pot mostrar validesa aparent —sembla que mesura el que afirma— mentre fracassa tots els criteris estadístics de validesa rigorosos. I el MBTI, l'instrument de personalitat comercialment més popular del món, il·lustra exactament com un instrument pot puntuar malament en els mateixos criteris que invoquen els seus publicadors.
Aquest article explica cada concepte clarament, descriu com reconèixer evidències fortes i febles per a cadascun, i proporciona un marc d'avaluació pràctica per a qualsevol instrument de personalitat.
Fiabilitat en els tests de personalitat: Què significa i quines puntuacions exigir
La fiabilitat fa referència a la consistència d'una mesura. Un test és fiable si produeix els mateixos resultats, o molt similars, en condicions on el tret subjacent no ha canviat. Hi ha dos tipus principals.
Fiabilitat test-retest
La fiabilitat test-retest pregunta: si la mateixa persona fa el mateix test dues vegades, amb unes poques setmanes de diferència, com de similars són els resultats? Les puntuacions poden diferir entre administracions per dues raons: canvi genuí en el tret subjacent, o error de mesura. Un test fiable minimitza l'error de mesura, de manera que els canvis de puntuació entre administracions reflecteixin principalment un canvi real més que soroll.
El llindar estàndard per a una fiabilitat test-retest acceptable és una correlació d'aproximadament 0.70 o superior en un interval de dues a quatre setmanes. Els instruments del Big Five ben validats generalment aconsegueixen 0.80 o superior per a puntuacions a nivell de domini. La fiabilitat test-retest del MBTI és menor: els estudis han trobat que aproximadament el 50% dels enquestats reben una classificació diferent de quatre lletres quan es reanalitzen cinc setmanes després, que és la signatura estadística d'un error de mesura elevat. Vegeu MBTI vs Big Five per a la comparació completa.
Consistència interna
La fiabilitat de consistència interna pregunta si els ítems dins d'una escala mesuren el mateix constructe subjacent. Si una escala de Conscienciositat conté ítems sobre organització, diligència i fiabilitat, aquests ítems haurien de correlacionar-se entre si, perquè tots capten la mateixa disposició subjacent. L'estadística estàndard és l'alfa de Cronbach, on els valors per sobre de 0.70 es consideren generalment acceptables i per sobre de 0.80 són bons.
Una baixa consistència interna significa que els ítems dins d'una escala mesuren coses diferents, fet que dificulta la interpretació de la puntuació total de l'escala. Una puntuació de Conscienciositat derivada d'ítems que gairebé no es correlacionen entre si no és una mesura coherent. Per a una explicació de com la longitud de l'escala interactua amb la consistència interna, vegeu per què 120 ítems és millor que 10.
Validesa en els tests de personalitat: Quatre tipus que tot comprador hauria d'entendre
La validesa aborda una pregunta diferent: el test mesura realment el que pretén mesurar? Un test pot ser perfectament consistent (fiable) mentre mesura quelcom completament equivocat. Les principals formes d'evidència de validesa aborden cadascuna un aspecte diferent d'aquesta pregunta.
Validesa convergent
La validesa convergent pregunta si el test es correlaciona amb altres mesures establertes del mateix constructe. Una nova escala d'Extraversió hauria de correlacionar-se positivament amb mesures d'Extraversió validades existents, perquè si tots dos mesuren l'Extraversió, haurien d'estar d'acord en qui en té més i menys.
Això sembla obvi però és sorprenentment freqüent que es descuidi. Molts instruments propietaris no informen de dades de validesa convergent, cosa que fa impossible avaluar si mesuren els mateixos constructes que la literatura acadèmica. El banc d'ítems IPIP es va construir precisament per permetre aquest tipus de comparació pública.
Validesa de criteri
La validesa de criteri, la forma pràcticament més important, pregunta si el test prediu els resultats que el tret hauria de predir teòricament. Si una mesura de Conscienciositat és vàlida, hauria de predir el rendiment laboral, el rendiment acadèmic i l'assoliment d'objectius, perquè la Conscienciositat és el tret que més consistentment s'associa a aquests resultats a la literatura. Si un test afirma mesurar la Conscienciositat però no mostra cap correlació amb el rendiment laboral, quelcom va malament amb l'afirmació.
La validesa predictiva és un subtipus específic: el test prediu resultats futurs? La validesa concurrent pregunta si el test es correlaciona amb resultats avaluats al mateix temps. Tots dos importen, però la validesa predictiva és l'estàndard d'or per als instruments utilitzats en la selecció de personal. Per a les implicacions per a la contractació específicament, vegeu les proves de personalitat a la contractació: el que és legal i el que és ètic.
Validesa discriminant
La validesa discriminant pregunta si el test es correlaciona massa amb mesures de constructes diferents. Si una escala que pretén mesurar l'Amabilitat es correlaciona tan fortament amb la Conscienciositat com ho fa amb altres mesures d'Amabilitat, pot ser que no mesuri l'Amabilitat de manera diferenciada. Entendre el que mesura de manera única cada faceta del Big Five ajuda aquí; vegeu què és una faceta en psicologia de la personalitat.
Validesa aparent vs validesa estadística
La validesa aparent és l'aparença de mesurar el que un test afirma. Un ítem que diu "Soc una persona organitzada" té alta validesa aparent per a la Conscienciositat: sembla que mesura l'organització. Però la validesa aparent no és el mateix que la validesa estadística, i confondre-les és un dels errors més comuns en l'avaluació de tests de personalitat.
Molts instruments populars tenen alta validesa aparent i validesa estadística modesta a deficient. El contingut sembla rellevant; les prediccions són febles. Per a un desglossament de quins tests populars cauen en aquesta trampa, vegeu els millors tests de personalitat gratuïts per a equips el 2026.
| Concepte psicomètric | Què mesura | Bon llindar | Instruments del Big Five | MBTI |
|---|---|---|---|---|
| Fiabilitat test-retest | Consistència de les puntuacions al llarg del temps | r ≥ 0.70 durant 4 setmanes | Típicament 0.80–0.90 | ~0.50 (50% de canvi de tipus en el retest) |
| Consistència interna (alfa de Cronbach) | Coherència dels ítems dins d'una escala | α ≥ 0.70 | Típicament 0.80–0.90 | Moderada; varia per escala |
| Validesa convergent | Acord amb altres mesures del mateix tret | r ≥ 0.50 amb mesura establerta | Ben documentada en revisió per parells | Dades limitades publicades entre instruments |
| Validesa de criteri | Predicció de resultats del món real | Varia; d ≥ 0.20 es considera significatiu | La Conscienciositat prediu el rendiment laboral de manera robusta | Predicció feble del rendiment laboral |
| Validesa discriminant | Independència de mesures de trets diferents | r baixa amb escales conceptualment diferents | Generalment recolzada | Les dimensions no són clarament independents entre si |
Cinc preguntes per avaluar qualsevol afirmació de validesa d'un test de personalitat
Quan un venedor o investigador afirma que un instrument de personalitat és "vàlid i fiable", les preguntes següents produeixen una valoració ràpida de qualitat.
Pregunta 1: L'evidència de validesa està publicada en revistes revisades per parells? Els informes tècnics propietaris, els llibres blancs i els textos de llocs web no compten. La revisió per parells sotmet les afirmacions de validesa a l'escrutini independent. Si l'única evidència de validesa és la documentació pròpia de l'editor, es tracta d'un signe d'alarma. Les implicacions més àmplies de com la ciència de la personalitat gestiona la replicació s'aborden a la crisi de replicació en ciència de la personalitat.
Pregunta 2: Quina és la fiabilitat test-retest en un interval clínicament significatiu? Quatre a sis setmanes és l'estàndard. Si aquest número no es reporta o és inferior a 0.70, la mesura és sorollosa.
Pregunta 3: Quins resultats prediu l'instrument? L'evidència de validesa de criteri hauria d'incloure resultats del món real, no només correlacions amb altres mesures d'autoinforme. Per als instruments rellevants per al treball, el rendiment laboral és el criteri clau.
Pregunta 4: Grups de recerca independents han replicat els resultats de validesa? Un únic estudi dels propis desenvolupadors de l'instrument és insuficient. La replicació per part d'investigadors sense interès comercial en el resultat és l'estàndard significatiu.
Pregunta 5: La puntuació és transparent? Si l'algoritme de puntuació és propietari, les afirmacions de validesa no es poden verificar de manera independent. Els instruments de ciència oberta, inclòs l'IPIP en el qual es basa Cèrcol, permeten que qualsevol comprovi les afirmacions amb les dades. Vegeu proves de personalitat: codi obert vs comercial per a la comparació completa.
Per què l'avaluació per parells afegeix validesa que l'autoinforme no pot proporcionar
Una font de validesa poc valorada en l'avaluació de la personalitat és l'ús de valoracions d'observadors juntament amb l'autoinforme. La personalitat mesurada per persones que coneixen el subjecte —col·legues, gestors, subordinats directes— típicament mostra una validesa de criteri superior a l'autoinforme sol, especialment per predir el rendiment laboral.
Això es deu al fet que l'autoinforme és subjecte a la gestió de la impressió (puntuar-se de manera més favorable, conscientment o inconscientment) i al coneixement limitat d'un mateix (les persones sovint no saben com apareixen davant dels altres). Les valoracions dels observadors no estan lliures de biaixos, però estan afectades per biaixos diferents, cosa que significa que combinar dades pròpies i d'observadors produeix estimacions de personalitat més precises que qualsevol d'elles per separat. Per a l'argument complet, vegeu per què l'autoavaluació sola no és suficient: feedback de personalitat entre parells.
El model Testimoni (Witness) de Cèrcol està dissenyat al voltant d'aquest principi. La història del Big Five i la pàgina de ciència proporcionen més context sobre l'evidència de validesa que sustenta les decisions de disseny de Cèrcol.
"La fiabilitat i la validesa no són afirmacions de màrqueting. Són propietats estadístiques específiques amb llindars establerts, mesurables a través de mètodes estàndard i verificables a través de dades publicades. Un instrument que no pot proporcionar evidència revisada per parells per a tots dos hauria d'avaluar-se amb escepticisme proporcional."
Com Cèrcol compleix el nivell de fiabilitat i validesa
L'instrument de Cèrcol es basa en el banc d'ítems IPIP, els mateixos ítems de domini públic les propietats psicomètriques dels quals han estat documentades de manera independent per Goldberg i col·legues al llarg de dècades d'investigació publicada. La fiabilitat test-retest a nivell de domini per a les escales del Big Five basades en IPIP generalment se situa per sobre de r = 0.80 en intervals de quatre setmanes. La consistència interna (alfa de Cronbach) per a les escales de 20 ítems per dimensió que utilitza Cèrcol és consistentment per sobre de 0.87.
La validesa de criteri s'hereta de la literatura del Big Five més àmplia: la Conscienciositat (Disciplina) prediu el rendiment laboral en totes les principals categories ocupacionals (Barrick & Mount, 1991, doi: 10.1111/j.1744-6570.1991.tb00688.x). El Neuroticisme (Profunditat) prediu la resposta a l'estrès i els resultats de benestar. L'Obertura (Visió) prediu el rendiment creatiu.
L'avaluació de parells Testimoni afegeix puntuacions valorades per observadors en les mateixes cinc dimensions utilitzant un format de tria forçada que redueix el biaix de desitjabilitat social; vegeu biaix de desitjabilitat social en tests de personalitat per a la metodologia completa. Fes l'avaluació gratuïta a cercol.team i revisa la documentació de validesa completa a cercol.team/science.
Lectura addicional: La història del Big Five: d'Allport a Goldberg · La ciència darrere de Cèrcol
Lectura addicional
- Per què 120 ítems és millor que 10: Longitud del test de personalitat
- Com es calculen les puntuacions del test de personalitat
- Biaix de desitjabilitat social en tests de personalitat
- Proves de personalitat: Codi obert vs Comercial
- Ciència de la personalitat: La crisi de replicació
- Big Five vs MBTI: Quin és més fiable?