Llançament beta — queden 500 llicències gratuïtes de Lluna Plena. Ajuda'ns a detectar errors.
Reclama el teu accés gratuït

Què signifiquen la fiabilitat i la validesa en els tests de personalitat — explicat clarament

La fiabilitat i la validesa són estadístiques específiques amb llindars definits. Aquí s'explica el que signifiquen i com aplicar-les a qualsevol instrument de personalitat que facis servir.

Miquel Matoses·11 min de lectura

Passa per qualsevol pàgina de màrqueting d'un test de personalitat i trobaràs dues paraules usades com a garanties: fiable i vàlid. Els venedors les fan servir lliurement, amb una explicació mínima, com a senyals que el seu instrument és científicament creïble. Els termes gairebé mai s'expliquen al lector.

Això importa perquè la fiabilitat i la validesa no són intercanviables, no són el mateix i no són senzilles d'avaluar a la pràctica. Un instrument pot ser altament fiable sense ser vàlid. Un test pot mostrar validesa aparent —sembla que mesura el que afirma— mentre fracassa tots els criteris estadístics de validesa rigorosos. I el MBTI, l'instrument de personalitat comercialment més popular del món, il·lustra exactament com un instrument pot puntuar malament en els mateixos criteris que invoquen els seus publicadors.

Aquest article explica cada concepte clarament, descriu com reconèixer evidències fortes i febles per a cadascun, i proporciona un marc d'avaluació pràctica per a qualsevol instrument de personalitat.


α > 0.80 bon alfa de Cronbach (fiabilitat)
r > 0.30 coeficient de validesa mínim per a ús pràctic
0.27 estabilitat test-retest del Big Five al llarg de 6 anys
Fiabilitat vs validesa: Un test fiable dona resultats consistents cada vegada — però un test vàlid mesura el que afirma mesurar. Tots dos són necessaris; cap és suficient sol.

Fiabilitat en els tests de personalitat: Què significa i quines puntuacions exigir

La fiabilitat fa referència a la consistència d'una mesura. Un test és fiable si produeix els mateixos resultats, o molt similars, en condicions on el tret subjacent no ha canviat. Hi ha dos tipus principals.

Fiabilitat test-retest

La fiabilitat test-retest pregunta: si la mateixa persona fa el mateix test dues vegades, amb unes poques setmanes de diferència, com de similars són els resultats? Les puntuacions poden diferir entre administracions per dues raons: canvi genuí en el tret subjacent, o error de mesura. Un test fiable minimitza l'error de mesura, de manera que els canvis de puntuació entre administracions reflecteixin principalment un canvi real més que soroll.

El llindar estàndard per a una fiabilitat test-retest acceptable és una correlació d'aproximadament 0.70 o superior en un interval de dues a quatre setmanes. Els instruments del Big Five ben validats generalment aconsegueixen 0.80 o superior per a puntuacions a nivell de domini. La fiabilitat test-retest del MBTI és menor: els estudis han trobat que aproximadament el 50% dels enquestats reben una classificació diferent de quatre lletres quan es reanalitzen cinc setmanes després, que és la signatura estadística d'un error de mesura elevat. Vegeu MBTI vs Big Five per a la comparació completa.

Consistència interna

La fiabilitat de consistència interna pregunta si els ítems dins d'una escala mesuren el mateix constructe subjacent. Si una escala de Conscienciositat conté ítems sobre organització, diligència i fiabilitat, aquests ítems haurien de correlacionar-se entre si, perquè tots capten la mateixa disposició subjacent. L'estadística estàndard és l'alfa de Cronbach, on els valors per sobre de 0.70 es consideren generalment acceptables i per sobre de 0.80 són bons.

Una baixa consistència interna significa que els ítems dins d'una escala mesuren coses diferents, fet que dificulta la interpretació de la puntuació total de l'escala. Una puntuació de Conscienciositat derivada d'ítems que gairebé no es correlacionen entre si no és una mesura coherent. Per a una explicació de com la longitud de l'escala interactua amb la consistència interna, vegeu per què 120 ítems és millor que 10.


Validesa en els tests de personalitat: Quatre tipus que tot comprador hauria d'entendre

La validesa aborda una pregunta diferent: el test mesura realment el que pretén mesurar? Un test pot ser perfectament consistent (fiable) mentre mesura quelcom completament equivocat. Les principals formes d'evidència de validesa aborden cadascuna un aspecte diferent d'aquesta pregunta.

Validesa convergent

La validesa convergent pregunta si el test es correlaciona amb altres mesures establertes del mateix constructe. Una nova escala d'Extraversió hauria de correlacionar-se positivament amb mesures d'Extraversió validades existents, perquè si tots dos mesuren l'Extraversió, haurien d'estar d'acord en qui en té més i menys.

Això sembla obvi però és sorprenentment freqüent que es descuidi. Molts instruments propietaris no informen de dades de validesa convergent, cosa que fa impossible avaluar si mesuren els mateixos constructes que la literatura acadèmica. El banc d'ítems IPIP es va construir precisament per permetre aquest tipus de comparació pública.

Validesa de criteri

La validesa de criteri, la forma pràcticament més important, pregunta si el test prediu els resultats que el tret hauria de predir teòricament. Si una mesura de Conscienciositat és vàlida, hauria de predir el rendiment laboral, el rendiment acadèmic i l'assoliment d'objectius, perquè la Conscienciositat és el tret que més consistentment s'associa a aquests resultats a la literatura. Si un test afirma mesurar la Conscienciositat però no mostra cap correlació amb el rendiment laboral, quelcom va malament amb l'afirmació.

La validesa predictiva és un subtipus específic: el test prediu resultats futurs? La validesa concurrent pregunta si el test es correlaciona amb resultats avaluats al mateix temps. Tots dos importen, però la validesa predictiva és l'estàndard d'or per als instruments utilitzats en la selecció de personal. Per a les implicacions per a la contractació específicament, vegeu les proves de personalitat a la contractació: el que és legal i el que és ètic.

Validesa discriminant

La validesa discriminant pregunta si el test es correlaciona massa amb mesures de constructes diferents. Si una escala que pretén mesurar l'Amabilitat es correlaciona tan fortament amb la Conscienciositat com ho fa amb altres mesures d'Amabilitat, pot ser que no mesuri l'Amabilitat de manera diferenciada. Entendre el que mesura de manera única cada faceta del Big Five ajuda aquí; vegeu què és una faceta en psicologia de la personalitat.

Validesa aparent vs validesa estadística

La validesa aparent és l'aparença de mesurar el que un test afirma. Un ítem que diu "Soc una persona organitzada" té alta validesa aparent per a la Conscienciositat: sembla que mesura l'organització. Però la validesa aparent no és el mateix que la validesa estadística, i confondre-les és un dels errors més comuns en l'avaluació de tests de personalitat.

Molts instruments populars tenen alta validesa aparent i validesa estadística modesta a deficient. El contingut sembla rellevant; les prediccions són febles. Per a un desglossament de quins tests populars cauen en aquesta trampa, vegeu els millors tests de personalitat gratuïts per a equips el 2026.

Concepte psicomètricQuè mesuraBon llindarInstruments del Big FiveMBTI
Fiabilitat test-retestConsistència de les puntuacions al llarg del tempsr ≥ 0.70 durant 4 setmanesTípicament 0.80–0.90~0.50 (50% de canvi de tipus en el retest)
Consistència interna (alfa de Cronbach)Coherència dels ítems dins d'una escalaα ≥ 0.70Típicament 0.80–0.90Moderada; varia per escala
Validesa convergentAcord amb altres mesures del mateix tretr ≥ 0.50 amb mesura establertaBen documentada en revisió per parellsDades limitades publicades entre instruments
Validesa de criteriPredicció de resultats del món realVaria; d ≥ 0.20 es considera significatiuLa Conscienciositat prediu el rendiment laboral de manera robustaPredicció feble del rendiment laboral
Validesa discriminantIndependència de mesures de trets diferentsr baixa amb escales conceptualment diferentsGeneralment recolzadaLes dimensions no són clarament independents entre si

Cinc preguntes per avaluar qualsevol afirmació de validesa d'un test de personalitat

Quan un venedor o investigador afirma que un instrument de personalitat és "vàlid i fiable", les preguntes següents produeixen una valoració ràpida de qualitat.

Pregunta 1: L'evidència de validesa està publicada en revistes revisades per parells? Els informes tècnics propietaris, els llibres blancs i els textos de llocs web no compten. La revisió per parells sotmet les afirmacions de validesa a l'escrutini independent. Si l'única evidència de validesa és la documentació pròpia de l'editor, es tracta d'un signe d'alarma. Les implicacions més àmplies de com la ciència de la personalitat gestiona la replicació s'aborden a la crisi de replicació en ciència de la personalitat.

Pregunta 2: Quina és la fiabilitat test-retest en un interval clínicament significatiu? Quatre a sis setmanes és l'estàndard. Si aquest número no es reporta o és inferior a 0.70, la mesura és sorollosa.

Pregunta 3: Quins resultats prediu l'instrument? L'evidència de validesa de criteri hauria d'incloure resultats del món real, no només correlacions amb altres mesures d'autoinforme. Per als instruments rellevants per al treball, el rendiment laboral és el criteri clau.

Pregunta 4: Grups de recerca independents han replicat els resultats de validesa? Un únic estudi dels propis desenvolupadors de l'instrument és insuficient. La replicació per part d'investigadors sense interès comercial en el resultat és l'estàndard significatiu.

Pregunta 5: La puntuació és transparent? Si l'algoritme de puntuació és propietari, les afirmacions de validesa no es poden verificar de manera independent. Els instruments de ciència oberta, inclòs l'IPIP en el qual es basa Cèrcol, permeten que qualsevol comprovi les afirmacions amb les dades. Vegeu proves de personalitat: codi obert vs comercial per a la comparació completa.


Per què l'avaluació per parells afegeix validesa que l'autoinforme no pot proporcionar

Una font de validesa poc valorada en l'avaluació de la personalitat és l'ús de valoracions d'observadors juntament amb l'autoinforme. La personalitat mesurada per persones que coneixen el subjecte —col·legues, gestors, subordinats directes— típicament mostra una validesa de criteri superior a l'autoinforme sol, especialment per predir el rendiment laboral.

Això es deu al fet que l'autoinforme és subjecte a la gestió de la impressió (puntuar-se de manera més favorable, conscientment o inconscientment) i al coneixement limitat d'un mateix (les persones sovint no saben com apareixen davant dels altres). Les valoracions dels observadors no estan lliures de biaixos, però estan afectades per biaixos diferents, cosa que significa que combinar dades pròpies i d'observadors produeix estimacions de personalitat més precises que qualsevol d'elles per separat. Per a l'argument complet, vegeu per què l'autoavaluació sola no és suficient: feedback de personalitat entre parells.

El model Testimoni (Witness) de Cèrcol està dissenyat al voltant d'aquest principi. La història del Big Five i la pàgina de ciència proporcionen més context sobre l'evidència de validesa que sustenta les decisions de disseny de Cèrcol.

"La fiabilitat i la validesa no són afirmacions de màrqueting. Són propietats estadístiques específiques amb llindars establerts, mesurables a través de mètodes estàndard i verificables a través de dades publicades. Un instrument que no pot proporcionar evidència revisada per parells per a tots dos hauria d'avaluar-se amb escepticisme proporcional."


Com Cèrcol compleix el nivell de fiabilitat i validesa

L'instrument de Cèrcol es basa en el banc d'ítems IPIP, els mateixos ítems de domini públic les propietats psicomètriques dels quals han estat documentades de manera independent per Goldberg i col·legues al llarg de dècades d'investigació publicada. La fiabilitat test-retest a nivell de domini per a les escales del Big Five basades en IPIP generalment se situa per sobre de r = 0.80 en intervals de quatre setmanes. La consistència interna (alfa de Cronbach) per a les escales de 20 ítems per dimensió que utilitza Cèrcol és consistentment per sobre de 0.87.

La validesa de criteri s'hereta de la literatura del Big Five més àmplia: la Conscienciositat (Disciplina) prediu el rendiment laboral en totes les principals categories ocupacionals (Barrick & Mount, 1991, doi: 10.1111/j.1744-6570.1991.tb00688.x). El Neuroticisme (Profunditat) prediu la resposta a l'estrès i els resultats de benestar. L'Obertura (Visió) prediu el rendiment creatiu.

L'avaluació de parells Testimoni afegeix puntuacions valorades per observadors en les mateixes cinc dimensions utilitzant un format de tria forçada que redueix el biaix de desitjabilitat social; vegeu biaix de desitjabilitat social en tests de personalitat per a la metodologia completa. Fes l'avaluació gratuïta a cercol.team i revisa la documentació de validesa completa a cercol.team/science.


Lectura addicional: La història del Big Five: d'Allport a Goldberg · La ciència darrere de Cèrcol

Lectura addicional

Articles relacionats

Cèrcol utilitza únicament galetes funcionals — sense analítiques, sense rastreig publicitari. Política de privacitat