Beta-lancering — 500 gratis Fuldmåne-licenser tilbage. Hjælp os med at finde fejl.
Få gratis adgang

Hvorfor 120 items er bedre end 10: afvejningen i personlighedstesters længde

Korte Big Five-test når en pålidelighed på ~0,55 mod ~0,90 for 120-items-versioner. Her er afvejningen — og hvornår korte vurderinger er gode nok.

Miquel Matoses·9 min læsning

Ten-Item Personality Inventory — bedre kendt som TIPI — passer på en enkelt side. Det måler alle fem Big Five-dimensioner med to items hver, kan udfyldes på under to minutter og er blevet brugt i hundredvis af forskningsstudier. Det er også, efter de fleste psykometriske standarder, et væsentligt mindre pålideligt instrument end længere alternativer.

Denne afvejning er ikke unik for personlighedsmåling. Den går gennem al psykometri: Flere items, målt mere konsekvent, producerer mere pålidelige scorer. Spørgsmålet er ikke, om længere test er bedre — efter de fleste pålideligheds-metrics er de det — men hvornår pålideligheds-gevinsten er værd at belaste respondenterne med.


10 items 44 items 120 items α = 0.64 α = 0.81 α = 0.92
Cronbachs alpha-pålidelighed stiger væsentligt med testlængden.

Spearman-Brown-formlen: Hvorfor testlængde forudsiger Big Five-pålidelighed

Det matematiske forhold mellem testlængde og pålidelighed blev formaliseret for over et århundrede siden af Charles Spearman og William Brown, der arbejdede uafhængigt. Spearman-Brown-profetiformlen forudsiger, hvordan pålidelighed ændres, når du ændrer antallet af items i en test, forudsat at de nye items er af lignende kvalitet som de originale.

Formlen har en specifik implikation: pålideligheds-gevinster ved at tilføje items følger en kurve med faldende afkast. At gå fra 2 items til 10 items giver en stor pålideligheds-gevinst. At gå fra 80 items til 120 items giver en meget mindre. De første items gør det meste arbejde; hvert yderligere item tilføjer mindre end det forrige.

Derfor er valget af testlængde en ægte ingeniørmæssig beslutning snarere end en simpel "mere er altid bedre"-konklusion. På et tidspunkt overstiger belastningen for respondenter pålideligheds-gevinsten. Det praktiske spørgsmål er, hvor dette punkt ligger for det pågældende brugstilfælde. For en komplet behandling af, hvordan pålidelighed defineres og måles, se hvad er pålidelighed og validitet i personlighedstest.

"Spearman-Brown-formlen gør pålideligheds-længde-forholdet præcist: for at fordoble pålideligheden af en test skal du omtrent firedoble dens længde."


Hvad 10-item Big Five-test mangler, som længere instrumenter fanger

TIPI's to items per dimension kan, konstruktionsmæssigt, ikke fange facetniveauvariationer inden for hver Big Five-dimension. Som beskrevet i hvad er en facet i personlighedspsykologi, indeholder hver Big Five-dimension seks facetter — smalle undertræk, der kan pege i forskellige retninger for folk med den samme overordnede dimensionsscore.

En Samvittighedsfuldhed-skala med to items kan med succes klassificere, om en person er overordnet høj eller lav på dimensionen. Den kan ikke skelne mellem nogen, hvis Samvittighedsfuldhed er drevet af Orden og Pligtfølelse, vs. nogen, hvis profil er domineret af Præstationsstræben og Selvdisciplin — hvilket er præcis den forskel, der er mest relevant for rollematching og udvikling.

Den samme begrænsning gælder for alle dimensioner. En Åbenhed-skala med to items kan ikke adskille intellektuel nysgerrighed fra æstetisk sensitivitet. En Neurotisme-skala med to items kan ikke skelne angstdrevet reaktivitet fra vredesdrevet reaktivitet.

Korte test viser også reduceret pålidelighed for individer nær midten af distributionen — det interval, hvor de fleste folk scorer på de fleste dimensioner. For klart ekstreme scorere (meget høje eller meget lave) kan to items være tilstrækkeligt til at klassificere dem rimeligt. For flertallet, der scorer i det moderate interval, er målefejlen fra en to-item skala stor nok til at producere forskellige klassifikationer ved gentest. For den statistiske forklaring på, hvorfor det betyder noget, se hvordan personlighedstestscorer beregnes.


TIPI vs IPIP-NEO-120: Pålideligheds-afvejninger side om side

IPIP-NEO-120 er et 120-item-instrument, frit tilgængeligt, der måler alle fem Big Five-dimensioner og alle tredive facetter. Det blev udviklet specifikt som et open-access-alternativ til det proprietære NEO PI-R, og dets validitetsegenskaber er dokumenteret i fagfællebedømt forskning.

Sammenligningen med TIPI illustrerer pålideligheds-længde-afvejningen direkte:

TestlængdeEksempelinstrumentItems per dimensionFacetmålingPålidelighedsestimering (α)Passende brugstilfælde
10 itemsTIPI2Ingen~0.45–0.65 per dimensionStorstilet befolkningsforskning; screening, når korthed er afgørende; lav-indsats selvudforskning
44 itemsBFI (Big Five Inventory)~8–9Ingen~0.75–0.85 per dimensionAkademisk forskning, der kræver balance af korthed og pålidelighed; gruppeniveaustudier
60 itemsIPIP-NEO-6012Delvis~0.80–0.87 per dimensionAnvendt forskning; mellemstor-indsats udviklingskontekster
100–120 itemsCèrcol / IPIP-NEO-12020–24Fuld (30 facetter)~0.87–0.93 per dimensionIndividuel udvikling; teamprofiling; coaching; høj-indsats vurdering
240 itemsNEO PI-R (fuld)48Fuld (30 facetter)~0.90–0.95 per dimensionKlinisk vurdering; forskning der kræver maksimal præcision; høj-indsats selektion

Hvornår en kort personlighedstest faktisk er passende

Argumentet for korte personlighedstest er reelt og bør ikke afvises. I visse kontekster er et 10-item-instrument det rigtige valg.

Storstilet befolkningsforskning kræver gennemførelse fra tusindvis af respondenter. En gennemførelsestid på 10 minutter skaber et væsentligt højere frafald end en på 2 minutter, hvilket producerer skæve stikprøver. Når forskningsspørgsmålet vedrører befolkningsniveautendenser snarere end individuelle profiler, er TIPI's svagere pålidelighed acceptabel, fordi den gennemsnitsberegnes over store stikprøver.

Screening-kontekster — hvor målet er at identificere, hvem der måske drager fordel af en mere grundig vurdering — kan passende bruge korte instrumenter. Hvis en 10-item-screen identificerer kandidater i det øverste eller nederste kvartil af en dimension til yderligere vurdering, er korthedet en rimelig afvejning.

Gentagen måling præsenterer et andet problem. Hvis du ønsker at spore personlighedsændringer over tid — eller på tværs af multiple udviklingsinterventioner — er det besværligt at administrere et 120-item-instrument hvert kvartal. En valideret kortform, der bruges konsekvent over tid, kan producere mere handlingsorienterede longitudinale data end en sjælden fuldformatadministration.

Lav-indsats selvudforskning — hvor brugeren blot er nysgerrig på sin personlighed snarere end at bruge dataene til en konsekvensrig beslutning — kan passende bruge kortere instrumenter. Omkostningerne ved målefejl er lavere, når indsatsen er lavere. For en sammenligning af, hvilke gratis vurderinger der er passende til hvilke indsatser, se de bedste gratis personlighedstest til teams i 2026.


Hvornår testlængde betyder noget: Individuel udvikling og teamprofiling

Argumentet for længere instrumenter bliver stærkere, jo højere indsatsen og specificitetskravene til brugstilfældet er.

Individuel udvikling kræver facetniveaudata. Et 10-item-instrument kan ikke fortælle en coach eller leder hvorfor nogens Samvittighedsfuldhed-score er, som den er — hvilke facetter der driver den, og hvilke udviklingsinterventioner der sandsynligvis vil være mest effektive. Et 120-item-instrument med facetniveauscoring giver den specificitet, som udviklingssamtaler kræver.

Teamprofiling kræver pålidelige individuelle scorer som input til teamanalyse på teamniveau. Hvis individuelle scorer har høj målefejl, arver teamprofilen den fejl. Et teamkort bygget på TIPI-scorer vil vise større tilfældig variation mellem profiler end et bygget på længere instrumenter — hvilket reducerer kortets nytte til bevidst teamdesign. Se Cèrcols 12 teamroller for, hvordan facetniveauprofiler oversættes til teamrolleindsigtser.

Peer-vurdering forstærker argumentet. Cèrcols Vidne-model beder observatører om at vurdere en anden persons personlighed på tværs af multiple dimensioner og facetter. Et kort instrument ville kollapse signalet fra Vidne-vurderinger til det punkt, hvor observatør-vs-selv-uoverensstemmelser — de mest informative data i rapporten — ville blive upålidelige. Vidne-metodologien er forklaret i detalje i hvad Cèrcols Vidne-instrument måler.

Høj-indsats beslutninger — præstationsvurdering, rolleomdesign, selektion til ledelsesprogram — kræver, at dataene er pålidelige nok til at handle på. En måling med α = 0.55 (typisk TIPI) betyder, at 45 % af scorevariansen er tilfældig støj. En måling med α = 0.90 betyder, at kun 10 % er støj. Forskellen mellem at handle på 55 % signal vs. 90 % signal er forskellen mellem nyttige data og randomiserede beslutninger.


Hvorfor Cèrcol bruger 120 items for at balancere pålidelighed og gennemførelsestid

Cèrcols instrument bruger 120 items — 24 per Big Five-dimension — og giver facetniveaumåling, mens det forbliver væsentligt kortere end det fulde 240-item NEO PI-R. Designet afspejler en bevidst afvejning: bevar facetopløsning og pålidelighed over 0,87 per dimension, mens gennemførelsestiden holdes på ca. 15 minutter.

Denne længde understøttes af pålideligheds- og validitetsbeviserne for IPIP-baserede instrumenter ved dette itemantal og den praktiske virkelighed, at teamprofiling og individuel udvikling kræver facetniveaudata, som kortere instrumenter strukturelt ikke kan levere. For videnskaben bag, hvorfor det betyder noget, se personlighedstest: open source vs. kommerciel og social ønskvædighedsbias i personlighedstest — længere instrumenter giver også flere muligheder for at inkludere omvendt kodede items, der beskytter mod acquiescence og social ønskvædighedsinflation.

Den passende længde for et personlighedsinstrument bestemmes ikke af konvention eller af, hvad der virker bekvemt. Den bestemmes af brugstilfældet, den krævede pålidelighed og det specificitetsniveau, dataene skal levere. For individuel og teamudvikling understøtter evidensen konsekvent instrumenter i intervallet 100–120 items som det praktiske optimum.


Hvorfor Cèrcol bruger 120 items i stedet for 10

En personlighedstest med 10 items er bedre end ingen test — men til de formål, de fleste teams bekymrer sig om (rollematching, udviklingsplanlægning, konfliktforudsigelse, coaching), er 10 items per dimension ikke nok. To items kan ikke skelne mellem facetter, kan ikke pålideligt klassificere folk i midten af distributionen og producerer målefejl stor nok til at ændre konklusioner ved gentest.

Cèrcol bruger 120 items, fordi det er den korteste instrumentlængde, der leverer fuld facetopløsning og test-retest-pålidelighed over 0,87 på alle fem Big Five-dimensioner. Items er trukket fra det offentlige domæne IPIP-item-bank — den samme videnskabelige kilde brugt i hundredvis af fagfællebedømte studier. Gennemførelse tager ca. 15 minutter.

Hvis du vil se, hvordan Big Five-data på facetniveau faktisk ser ud for dit team, er vurderingen gratis på cercol.team. Vidne peer-vurderingen tilføjer observatørvurderede profiler for hver person — et andet perspektiv, som intet selvrapporteringsinstrument, uanset hvor langt, kan erstatte. Læs den fulde målebegrundelse på cercol.team/science.


Yderligere læsning: Hvad pålidelighed og validitet betyder i personlighedstest · Videnskaben bag Cèrcol

Yderligere læsning

Relaterede artikler

Cèrcol bruger kun funktionelle cookies — ingen analyser, ingen reklame-trackere. Privatlivspolitik