Llançament beta — queden 500 llicències gratuïtes de Lluna Plena. Ajuda'ns a detectar errors.
Reclama el teu accés gratuït

Com es calculen les puntuacions dels tests de personalitat: dels ítems a les dimensions

Respons 120 preguntes i apareixen les puntuacions Big Five. Aquí s'explica exactament com funciona la puntuació dels tests de personalitat: formats Likert, puntuació inversa, IRT i normalització.

Miquel Matoses·13 min de lectura

Seu davant d'un qüestionari de personalitat. Respons un centenar d'afirmacions sobre tu mateix, valorant cadascuna en una escala. Quinze minuts després, apareix una puntuació: un percentil, un gràfic de barres, una categoria. El número sembla autoritari. Però entre el moment en què respons un ítem i el moment en què apareix una puntuació, s'han pres una sèrie de decisions metodològiques —decisions que afecten el significat de la puntuació, com es pot comparar entre persones i quanta confiança hi hauries de dipositar.

Aquest article explica cada pas de la puntuació dels tests de personalitat: format dels ítems, codificació inversa, mètodes d'agregació, bases de dades normatives i la diferència entre els enfocaments utilitzats en diferents instruments. Entendre aquests passos et converteix en un millor consumidor de dades de personalitat.


Ítems bruts Puntuació inversa Suma / mitjana Normalitzar (z-score) Percentil
El pipeline de puntuació en cinc passos: de les respostes brutes als ítems fins a una puntuació percentil.

Pas 1: Com els formats de resposta als ítems del Big Five condicionen la teva puntuació

La matèria primera d'una puntuació de personalitat és la resposta a ítems individuals. El format més comú en l'avaluació Big Five és l'escala Likert: els participants valoren el seu grau d'acord amb una afirmació —normalment "Totalment en desacord / En desacord / Neutral / D'acord / Totalment d'acord"— generalment en una escala de cinc o set punts. Vegeu Escala Likert — Viquipèdia per als fonaments estadístics complets.

Els formats Likert presenten diversos avantatges psicomètrics. Són sensibles a gradacions d'acord en lloc de forçar una resposta binària sí/no, cosa que augmenta la variància de la puntuació i, per tant, la fiabilitat. Són familiars per a la majoria dels participants, reduint la càrrega cognitiva de la tasca. I produeixen dades de tipus interval que poden ser sotmeses a anàlisi estadística estàndard.

Existeixen formats alternatius, cadascun amb supòsits diferents:

Els formats de resposta forçada presenten parelles o grups d'afirmacions rellevants per a un tret i demanen al participant que triï quina s'assembla més a ell. Aquest disseny es va desenvolupar per reduir l'impacte de la resposta per desitjabilitat social —la tendència a avalar afirmacions que semblen valorades positivament independentment de si són precises. L'elecció forçada dificulta la presentació d'una autoimatge idealitzada perquè triar una afirmació positiva implica necessàriament rebutjar-ne una altra. El preu és la mesura ipsativa, que es tracta a continuació. Per a un tractament complet, vegeu avaluació de personalitat de resposta forçada: per què produeix dades més honestes.

Els formats de valoració d'adjectius presenten paraules individuals rellevants per a la personalitat ("organitzat", "espontani", "ansiós") i pregunten fins a quin punt cadascuna descriu el participant. Aquests formats s'administren més ràpidament que els ítems de frases completes i mostren una validesa raonable, però tendeixen a tenir una fiabilitat menor que les escales Likert de frases completes —en part perquè les paraules individuals són més ambigües que les frases completes.


Pas 2: Per què els ítems de puntuació inversa protegeixen la validesa de les escales Big Five

Una escala de personalitat ben dissenyada inclou ítems codificats positivament i negativament —és a dir, alguns ítems on l'acord indica l'extrem alt del tret, i d'altres on l'acord indica l'extrem baix. Un ítem com "Mantinc les meves pertinences ben ordenades" és codificat positivament per a Conscienciositat; "Sovint deixo les tasques inacabades" és codificat negativament.

Els ítems codificats negativament serveixen dos propòsits. Primer, redueixen l'impacte del biaix d'aquiescència —la tendència d'alguns participants a estar d'acord amb les afirmacions independentment del seu contingut. Si tots els ítems d'una escala de Conscienciositat estan redactats en la mateixa direcció, una persona que digui "d'acord" a tot semblarà molt conscienciosa fins i tot si el seu comportament real no ho és. Els ítems codificats negativament signifiquen que respondre constantment de forma afirmativa produeix una puntuació intermèdia en lloc d'una de falsament alta. Per a una explicació detallada de com l'aquiescència i la desitjabilitat social distorsionen les puntuacions, vegeu biaix de desitjabilitat social en els tests de personalitat.

Abans d'agregar els ítems en una puntuació dimensional, els ítems codificats negativament es puntuen inversament: una resposta de 5 en una escala d'1 a 5 es recodifica com a 1, un 4 es converteix en 2, un 3 es manté en 3, i així successivament. Després de la puntuació inversa, tots els ítems apunten en la mateixa direcció, i la suma o la mitjana simple produeix una puntuació d'escala coherent.

"La puntuació inversa no és un truc. És una salvaguarda de mesura —una característica de disseny que protegeix la validesa de les puntuacions de l'escala contra els estils de resposta sistemàtics que d'altra manera produirien resultats enganyosos. Un instrument sense ítems codificats negativament hauria de ser tractat amb precaució."


Pas 3: Puntuació per suma vs Teoria de Resposta a l'Ítem en l'avaluació Big Five

Una vegada que els ítems estan puntuats en la mateixa direcció, s'han de combinar en una puntuació dimensional. Els dos enfocaments principals són la puntuació per suma de la teoria clàssica de tests (TCT) i la teoria de resposta a l'ítem (TRI).

La puntuació per suma és exactament el que sembla: sumar (o fer la mitjana) les puntuacions dels ítems. Si una escala de Conscienciositat conté 20 ítems valorats de l'1 al 5, la suma pot oscil·lar entre 20 i 100. Aquesta suma bruta normalment es estandarditza en relació a una mostra normativa per produir un percentil o una puntuació estandarditzada. La puntuació per suma és fàcil d'implementar, fàcil d'explicar i adequada per a la majoria de propòsits.

La Teoria de Resposta a l'Ítem (TRI) adopta un enfocament més sofisticat. Els models TRI estimen la probabilitat de cada opció de resposta com a funció del nivell del tret latent del participant. Els ítems no es tracten com a equivalents —alguns ítems són més discriminants (millors per distingir entre persones en diferents nivells del tret), i alguns ítems són més informatius en diferents punts de la distribució del tret. La puntuació TRI pondera els ítems per la seva capacitat discriminatòria i pot produir estimacions més precises als extrems de la distribució, on la puntuació per suma tendeix a ser menys fiable.

Per a la majoria de propòsits aplicats —desenvolupament d'equips, coaching individual, autocomprensió— la diferència pràctica entre la puntuació per suma de la TCT i la TRI és petita. On la TRI ofereix un avantatge clar és en els tests adaptatius (seleccionant quins ítems administrar basant-se en respostes anteriors, la qual cosa permet tests més curts amb precisió equivalent) i en contextos d'alt impacte on la precisió de mesura als extrems de la distribució importa. Per saber més sobre com la longitud del test interactua amb aquests càlculs, vegeu per què 120 ítems és millor que 10: la longitud del test de personalitat.


Pas 4: Puntuació normativa vs ipsativa —i per què ho canvia tot

Aquesta és potser la distinció menys entesa en la puntuació dels tests de personalitat —i una de les més conseqüents.

La puntuació normativa compara la puntuació de cada participant amb una població de referència (la mostra normativa). Una suma bruta de 78 en una escala de Conscienciositat no significa res fins que saps que la persona mitjana de la mostra normativa puntua 65 i la desviació estàndard és 12 —la qual cosa significa que una puntuació de 78 és aproximadament una desviació estàndard per sobre de la mitjana, o aproximadament el percentil 84. Les puntuacions normatives responen a la pregunta: com es compara aquesta persona amb els altres?

La puntuació ipsativa produeix puntuacions relatives —comparacions de la posició del participant en diferents trets entre si, en lloc de comparacions amb altres persones. Els formats de resposta forçada produeixen dades ipsatives de manera natural: si un participant ha triat constantment afirmacions rellevants per a la Conscienciositat sobre les d'Amabilitat, acabarà amb una puntuació relativament alta en Conscienciositat i una relativament baixa en Amabilitat —però les puntuacions estan definides l'una en relació a l'altra, no en relació a una població.

La literatura psicomètrica és clara que les puntuacions ipsatives són adequades per comprendre els ordenaments de prioritats dins d'una persona, però inadequades per comparar persones entre si o per predir resultats en estudis de validesa de criteri. Usar puntuacions ipsatives per comparar candidats en una decisió de contractació és un error metodològic —perquè un candidat que puntua alt en Conscienciositat ipsativament podria tenir una Conscienciositat absoluta inferior a la d'un altre candidat la puntuació ipsativa del qual és intermèdia. Per a les implicacions específiques de la contractació, vegeu proves de personalitat en la selecció: el que és legal i el que és ètic.

Mètode de puntuacióCom funcionaAvantatgesDesavantatges
Suma/mitjana Likert (TCT)Suma o fa la mitjana de les puntuacions dels ítems després de la puntuació inversaSimple, transparent, ben comprèsTracta tots els ítems com a igualment informatius
Teoria de Resposta a l'Ítem (TRI)Modela la probabilitat de cada resposta com a funció del tret latentMés precís als extrems de la distribució; permet tests adaptatiusMés complex d'implementar i d'explicar
Puntuació normativaCompara la puntuació bruta amb la població de referènciaPermet la comparació entre individus; rangs percentils significatiusLa qualitat depèn en gran mesura de la representativitat de la mostra normativa
Puntuació ipsativaClassifica els trets l'un en relació a l'altre dins d'una personaRedueix la resposta per desitjabilitat social; revela les prioritats dins de la personaNo vàlida per a comparacions entre persones; no es pot usar en estudis de validesa de criteri

Pas 5: Per què la base de dades normativa condiciona el teu percentil Big Five

Una puntuació normativa és tan significativa com la mostra normativa de la qual deriva. Si la població de referència utilitzada per produir una puntuació percentil és sistemàticament diferent de la persona que s'avalua —diferent edat, ocupació, cultura, nivell educatiu— el percentil pot ser enganyós.

Una puntuació de Conscienciositat en el percentil 75 d'una mostra de població adulta general podria traduir-se al percentil 55 d'una població professional altament educada, on la Conscienciositat mitjana tendeix a ser més alta. Usar una base normativa incorrecta produeix puntuacions que malrepresenten sistemàticament on es troba una persona en relació amb la població de comparació que realment importa per a la decisió en qüestió.

Les plataformes d'avaluació ben dissenyades mantenen mostres normatives separades per a diferents poblacions —per ocupació, per país, per grup d'edat— i apliquen la norma rellevant a cada avaluació. Cèrcol utilitza puntuació normativa derivada de mostres de validació IPIP, amb recollida de dades en curs per desenvolupar normes rellevants per a les poblacions específiques que utilitzen la plataforma. Per a la discussió completa sobre el que signifiquen fiabilitat i validesa en aquest context, vegeu que és fiabilitat i validesa en les proves de personalitat.


Com Cèrcol puntua el seu instrument Big Five

L'instrument de Cèrcol utilitza ítems en format Likert amb codificació mixta positiva i negativa, puntuació per suma TCT després de la codificació inversa, i comparació normativa amb mostres de validació IPIP publicades. Les puntuacions dimensionals s'estandarditzen com a equivalents percentils, i les puntuacions facetàries es reportarien com a puntuacions estandarditzades dins de cada dimensió. Per aprofundir en el que les facetes afegeixen al quadre que les puntuacions de domini soles no poden proporcionar, vegeu que és una faceta en psicologia de la personalitat.

L'avaluació Testimoni aplica el mateix algorisme de puntuació a les respostes dels observadors, produint puntuacions comparables de dimensions i facetes que es poden superposar directament amb les dades d'autoinforme. Les discrepàncies de puntuació entre l'autoinforme i el Testimoni es marquen als informes com a possibles punts cecs —àrees on l'autopercepció i la percepció externa divergeixen significativament. Per entendre per què aquesta capa de parells importa, vegeu per què l'autoavaluació sola no és suficient: feedback de personalitat de parells.

Entendre el procés de puntuació no canvia el que signifiquen les puntuacions a la pràctica. Però deixa clar que les puntuacions de personalitat no són sortides misterioses d'una màquina opaca. Són el resultat de decisions metodològiques explícites i auditables —decisions que, en el cas de Cèrcol, estan fonamentades en la investigació psicomètrica publicada i disponibles per a la inspecció a la documentació científica.

Per al context sobre en quines puntuacions es basen i com usar-les bé, vegeu el que significa fiabilitat i validesa en les proves de personalitat i avaluació de personalitat de resposta forçada i per què produeix dades més honestes.


Com Cèrcol calcula les teves puntuacions Big Five

La puntuació de Cèrcol és completament transparent: ítems en format Likert, codificació inversa quan cal, agregació per suma TCT i conversió a percentil normatiu usant mostres IPIP publicades. No hi ha algoritmes propietaris de caixa negra. La capa d'avaluació de parells Testimoni aplica la mateixa lògica als parells d'adjectius valorats per l'observador i superposa el resultat al teu perfil d'autoinforme —posant en relleu els punts cecs que cap instrument d'autoinforme, per molt ben puntuat que estigui, pot detectar per si sol.

Si vols veure aquesta metodologia en acció, l'avaluació completa Big Five és gratuïta a cercol.team. L'instrument Testimoni afegeix perspectives de parells usant un disseny de resposta forçada que evita la inflació per aquiescència i desitjabilitat social que afecta les escales Likert estàndard. La documentació científica detalla cada decisió de puntuació amb referències a la literatura psicomètrica publicada.


Lectura addicional: El que significa fiabilitat i validesa en les proves de personalitat · Avaluació de personalitat de resposta forçada: dades més honestes

Lectura addicional

Articles relacionats

Cèrcol utilitza únicament galetes funcionals — sense analítiques, sense rastreig publicitari. Política de privacitat