El Ten-Item Personality Inventory — més conegut com a TIPI — cap en una sola pàgina. Mesura les cinc dimensions del Big Five utilitzant dos ítems cadascuna, es pot completar en menys de dos minuts i ha estat utilitzat en centenars d'estudis de recerca. També és, per la majoria dels estàndards psicomètrics, un instrument significativament menys fiable que les alternatives més llargues.
Aquest compromís no és exclusiu de la mesura de la personalitat. Travessa tota la psicometria: més ítems, mesurats de manera més consistent, produeixen puntuacions més fiables. La pregunta no és si els tests més llargs són millors — per la majoria de mètriques de fiabilitat ho són — sinó quan el guany de fiabilitat val la pena la càrrega sobre els participants.
La fórmula de Spearman-Brown: Per què la longitud del test prediu la fiabilitat del Big Five
La relació matemàtica entre la longitud del test i la fiabilitat va ser formalitzada fa més d'un segle per Charles Spearman i William Brown treballant de manera independent. La fórmula de profecia de Spearman-Brown prediu com canvia la fiabilitat quan canvieu el nombre d'ítems d'un test, assumint que els nous ítems són de qualitat similar als originals.
La fórmula té una implicació específica: els guanys de fiabilitat per afegir ítems segueixen una corba de rendiments decreixents. Passar de 2 ítems a 10 ítems produeix un gran guany de fiabilitat. Passar de 80 ítems a 120 ítems produeix un molt menor. Els primers ítems fan la major part de la feina; cada ítem addicional afegeix menys que l'anterior.
Per això, l'elecció de la longitud del test és una veritable decisió d'enginyeria en lloc d'una conclusió simple de "més sempre és millor". En algun punt, la càrrega sobre els participants supera el guany de fiabilitat. La pregunta pràctica és on es troba aquest punt per al cas d'ús en qüestió. Per a un tractament complet de com es defineix i mesura la fiabilitat, vegeu què és la fiabilitat i validesa en les proves de personalitat.
"La fórmula de Spearman-Brown fa precisa la relació fiabilitat-longitud: per duplicar la fiabilitat d'un test, heu de quadruplicar aproximadament la seva longitud."
Què perden els tests del Big Five de 10 ítems que capturen instruments més llargs
Els dos ítems per dimensió del TIPI no poden, per construcció, capturar la variació a nivell de facetes dins de cada dimensió del Big Five. Com es descriu a què és una faceta en psicologia de la personalitat, cada dimensió del Big Five conté sis facetes — subtrets estrets que poden apuntar en direccions diferents per a persones amb la mateixa puntuació global de dimensió.
Una escala de Responsabilitat de dos ítems pot classificar amb èxit si una persona és àmpliament alta o baixa en la dimensió. No pot distingir entre algú el Conscientiousness del qual és impulsat per l'Ordre i el Deure vs. algú el perfil del qual està dominat per l'Esforç per Assolir i l'Autodisciplina — que és precisament la distinció més rellevant per a l'ajust de rol i el desenvolupament.
La mateixa limitació s'aplica a totes les dimensions. Una escala d'Obertura de dos ítems no pot separar la curiositat intel·lectual de la sensibilitat estètica. Una escala de Neuroticisme de dos ítems no pot distingir la reactivitat impulsada per l'ansietat de la reactivitat impulsada per la ira.
Els tests curts també mostren una fiabilitat reduïda per a individus a prop del centre de la distribució — el rang on la majoria de les persones puntuen en la majoria de dimensions. Per als puntadors clarament extrems (molt alts o molt baixos), dos ítems poden ser suficients per classificar-los raonablement. Per a la majoria que puntua en el rang moderat, l'error de mesura d'una escala de dos ítems és prou gran per produir classificacions diferents en la reavaluació. Per a l'explicació estadística de per què això importa, vegeu com es calculen les puntuacions dels tests de personalitat.
TIPI vs IPIP-NEO-120: Compromisos de fiabilitat un al costat de l'altre
El IPIP-NEO-120 és un instrument de 120 ítems, disponible lliurement, que mesura les cinc dimensions del Big Five i les trenta facetes. Va ser desenvolupat específicament com una alternativa d'accés obert al NEO PI-R propietari, i les seves propietats de validesa han estat documentades en recerca revisada per parells.
La comparació amb el TIPI il·lustra directament el compromís fiabilitat-longitud:
| Longitud del test | Instrument exemple | Ítems per dimensió | Mesura de facetes | Estimació de fiabilitat (α) | Cas d'ús adequat |
|---|---|---|---|---|---|
| 10 ítems | TIPI | 2 | Cap | ~0.45–0.65 per dimensió | Recerca de població a gran escala; cribratge quan la brevetat és essencial; autoexploració de baix risc |
| 44 ítems | BFI (Big Five Inventory) | ~8–9 | Cap | ~0.75–0.85 per dimensió | Recerca acadèmica que requereix equilibri de brevetat i fiabilitat; estudis a nivell de grup |
| 60 ítems | IPIP-NEO-60 | 12 | Parcial | ~0.80–0.87 per dimensió | Recerca aplicada; contextos de desenvolupament de risc moderat |
| 100–120 ítems | Cèrcol / IPIP-NEO-120 | 20–24 | Completa (30 facetes) | ~0.87–0.93 per dimensió | Desenvolupament individual; perfils d'equip; coaching; avaluació d'alt risc |
| 240 ítems | NEO PI-R (complet) | 48 | Completa (30 facetes) | ~0.90–0.95 per dimensió | Avaluació clínica; recerca que requereix màxima precisió; selecció d'alt risc |
Quan un test de personalitat curt és realment adequat
El cas dels tests de personalitat curts és real i no s'ha de desestimar. En certs contextos, un instrument de 10 ítems és l'elecció correcta.
La recerca de població a gran escala requereix la completació de milers de participants. Un temps de completació de 10 minuts crea una abandonament significativament major que un de 2 minuts, la qual cosa produeix mostres esbiaixades. Quan la pregunta de recerca fa referència a tendències a nivell de població en lloc de perfils individuals, la fiabilitat més feble del TIPI és acceptable perquè es fa una mitjana en mostres grans.
Els contextos de cribratge — on l'objectiu és identificar qui podria beneficiar-se d'una avaluació més exhaustiva — poden usar adequadament instruments curts. Si un cribratge de 10 ítems identifica candidats en el quartil superior o inferior d'una dimensió per a una avaluació posterior, la brevetat és un compromís raonable.
La mesura repetida presenta un problema diferent. Si voleu rastrejar el canvi de personalitat al llarg del temps — o a través de múltiples intervencions de desenvolupament — administrar un instrument de 120 ítems cada trimestre és feixuc. Un formulari curt validat usat de manera consistent al llarg del temps pot produir dades longitudinals més accionables que una administració de llarg format poc freqüent.
L'autoexploració de baix risc — on l'usuari simplement té curiositat per la seva personalitat en lloc d'usar les dades per a una decisió conseqüent — pot usar adequadament instruments més curts. El cost de l'error de mesura és menor quan les apostes són menors. Per a una comparació de quines avaluacions gratuïtes són adequades per a quines apostes, vegeu els millors tests de personalitat gratuïts per a equips el 2026.
Quan la longitud del test importa: Desenvolupament individual i perfils d'equip
El cas dels instruments més llargs s'enforteix a mesura que augmenten les apostes i els requisits d'especificitat del cas d'ús.
El desenvolupament individual requereix dades a nivell de facetes. Un instrument de 10 ítems no pot dir a un coach o director per què la puntuació de Responsabilitat d'algú és la que és — quines facetes ho impulsen i quines intervencions de desenvolupament probablement seran més efectives. Un instrument de 120 ítems amb puntuació a nivell de facetes proporciona l'especificitat que requereixen les converses de desenvolupament.
Els perfils d'equip requereixen puntuacions individuals fiables com a entrades per a l'anàlisi a nivell d'equip. Si les puntuacions individuals tenen un error de mesura alt, el perfil de l'equip hereta aquest error. Un mapa d'equip construït sobre puntuacions TIPI mostrarà una major variació aleatòria entre perfils que un construït sobre instruments més llargs — la qual cosa redueix la utilitat del mapa per al disseny deliberat d'equip. Vegeu els 12 rols d'equip de Cèrcol per a com els perfils a nivell de facetes es tradueixen en coneixement del rol d'equip.
L'avaluació entre iguals amplifica l'argument. El model Testimoni de Cèrcol demana als observadors que avaluïn la personalitat d'algú altre a través de múltiples dimensions i facetes. Un instrument curt col·lapsaria el senyal de les avaluacions del Testimoni fins al punt on les discrepàncies observador-vs-autoinformat — les dades més informatives de l'informe — es tornarien poc fiables. La metodologia Testimoni s'explica en detall a el que mesura l'instrument Testimoni de Cèrcol.
Les decisions d'alt risc — avaluació del rendiment, redisseny de rols, selecció per a programes de lideratge — requereixen que les dades siguin prou fiables per actuar-hi. Una mesura amb α = 0.55 (TIPI típic) significa que el 45% de la variança de les puntuacions és soroll aleatori. Una mesura amb α = 0.90 significa que tan sols el 10% és soroll. La diferència entre actuar sobre el 55% de senyal vs el 90% de senyal és la diferència entre dades útils i decisions aleatòries.
Per què Cèrcol utilitza 120 ítems per equilibrar fiabilitat i temps de completació
L'instrument de Cèrcol utilitza 120 ítems — 24 per cada dimensió del Big Five — proporcionant mesura a nivell de facetes mentre es manté substancialment més curt que el NEO PI-R complet de 240 ítems. El disseny reflecteix un compromís deliberat: mantenir la resolució de facetes i la fiabilitat per sobre de 0.87 per dimensió mentre es manté el temps de completació en aproximadament 15 minuts.
Aquesta longitud és suportada per l'evidència de fiabilitat i validesa per a instruments basats en IPIP en aquest nombre d'ítems, i per la realitat pràctica que el perfil d'equip i el desenvolupament individual requereixen dades a nivell de facetes que els instruments més curts no poden proporcionar estructuralment. Per a la ciència que hi ha darrere de per què això importa, vegeu proves de personalitat: codi obert vs. comercial i biaix de desitjabilitat social en les proves de personalitat — els instruments més llargs també proporcionen més oportunitats per incloure ítems de codificació inversa que protegeixen contra l'aquiescència i la inflació de desitjabilitat social.
La longitud adequada per a un instrument de personalitat no la determina la convenció ni el que sembla convenient. La determinen el cas d'ús, la fiabilitat requerida i el nivell d'especificitat que les dades necessiten proporcionar. Per al desenvolupament individual i d'equip, l'evidència recolza consistentment instruments en el rang de 100–120 ítems com a òptim pràctic.
Per què Cèrcol utilitza 120 ítems en lloc de 10
Un test de personalitat de 10 ítems és millor que cap test — però per als propòsits que la majoria dels equips valoren (ajust de rol, planificació del desenvolupament, predicció de conflictes, coaching), 10 ítems per dimensió no és suficient. Dos ítems no poden distingir entre facetes, no poden classificar fiablement les persones a la meitat de la distribució i produeixen un error de mesura prou gran per canviar les conclusions en la reavaluació.
Cèrcol utilitza 120 ítems perquè és la longitud d'instrument més curta que ofereix resolució completa de facetes i fiabilitat test-retest per sobre de 0.87 en les cinc dimensions del Big Five. Els ítems s'extreuen del banc d'ítems IPIP de domini obert — la mateixa font científica usada en centenars d'estudis revisats per parells. La completació dura aproximadament 15 minuts.
Si voleu veure com es veuen realment les dades del Big Five a nivell de facetes per al vostre equip, l'avaluació és gratuïta a cercol.team. L'avaluació entre iguals Testimoni afegeix perfils valorats per observadors per a cada persona — una segona perspectiva que cap instrument d'autoinforme, per llarg que sigui, pot substituir. Llegiu la justificació completa de la mesura a cercol.team/science.
Lectura addicional: Què significa fiabilitat i validesa en les proves de personalitat · La ciència que hi ha darrere de Cèrcol
Lectura addicional
- Què és la fiabilitat i validesa en les proves de personalitat?
- Com es calculen les puntuacions dels tests de personalitat
- Què és una faceta en psicologia de la personalitat?
- Biaix de desitjabilitat social en les proves de personalitat
- Avaluació de resposta forçada: el que és i per què importa
- Es pot falsificar un test de personalitat?