Hvor mange peer-bedømmere har du brug for til pålidelige personlighedsdata?
Peer-personlighedsvurdering har en grundlæggende begrænsning, der er let at overse: enhver enkelt Vidnes vurdering af en anden person er ret støjfyldt. Individuelle mennesker opfatter hinanden ufuldkomment, ser adfærd i begrænsede kontekster, bringer deres egne fordomme og blinde pletter med og påvirkes af, hvor meget de kan lide den person, de bedømmer. En enkelt peer-vurdering er værdifuld — men ikke så værdifuld, som det måske ser ud.
Spørgsmålet om, hvor mange Vidner du har brug for, inden den sammensatte vurdering bliver pålideligt informativ, er et af de praktisk vigtigste spørgsmål i design af personlighedsvurdering. Svaret kommer fra psykometrisk teori og årtiers empirisk forskning i inter-rater reliabilitet. At forstå det vil hjælpe dig med at bruge Cèrcols Vidne-data passende og sætte realistiske forventninger til, hvad forskellige antal Vidner kan fortælle dig.
For kontekst om, hvorfor peer-data overhovedet betyder noget, se hvad Cèrcol Vidne-instrumentet måler — og for det dimension-for-dimension-billede af, hvor self-other-kløfter er størst, se self-other-overensstemmelse efter Big Five-dimension.
Hvorfor en enkelt peer-vurdering er for upålidelig til at stole på
Når forskere undersøger pålideligheden af individuelle peer-vurderinger — enten ved at se på konsistens på tværs af lejligheder eller ved at korrelere to uafhængige peers' vurderinger af det samme mål — finder de konsekvent korrelationer i området .30–.40 for Big Five-dimensioner.
Det er ikke særlig højt. En korrelation på .35 betyder, at kun ca. 12% af variansen i én peers vurdering deles med en anden peers vurdering af den samme person. Det efterlader 88% af variansen uforklaret — noget af det er ægte målefejl, noget afspejler forskellige relationskontekster, og noget afspejler ægte uenighed om målets personlighed.
Med henblik på vurdering på individniveau er en enkelt Vidne-vurdering utilstrækkelig. Den er i bedste fald antydende.
"Inter-rater reliabilitet for personlighedsvurderinger af bekendte falder typisk rundt om .35–.45, hvilket indikerer, at der er behov for væsentlig aggregering for at opnå pålidelige sammensatte estimater."
— Se: Inter-rater reliabilitet; og Connelly, B. S., & Ones, D. S. (2010). An other perspective on personality. Psychological Bulletin, 136(6), 1092–1122.
Spearman-Brown-formlen: Hvordan flere Vidner øger reliabiliteten
Det psykometriske princip, der styrer, hvordan reliabiliteten stiger med antallet af bedømmere, er Spearman-Brown-prædiktionsformlen. Den siger, at hvis du kender reliabiliteten af en enkelt bedømmer, kan du forudsige reliabiliteten af gennemsnittet af k bedømmere:
r_k = (k × r_1) / (1 + (k − 1) × r_1)
Hvor r_1 er inter-rater reliabiliteten med en enkelt bedømmer og k er antallet af bedømmere.
Denne formel forudsiger aftagende afkast: at tilføje dit første ekstra Vidne tilføjer mere reliabilitet end at tilføje dit tiende. Kurven flader ud, efterhånden som du tilføjer flere bedømmere.
Reliabilitet efter antal Vidner: fra 3 til 12+
| Antal Vidner | Forventet sammensat reliabilitet (r) | Praktisk fortolkning |
|---|---|---|
| 1 | .35 | For støjfyldt til individuelle konklusioner; behandl som svagt signal |
| 2 | .52 | Moderat — nyttigt kun til at identificere stærke mønstre |
| 3 | .62 | Acceptabelt — meningsfuldt på niveau med større tendenser |
| 5 | .73 | Godt — pålideligt nok til udviklingsanvendelse |
| 7 | .79 | Godt til meget godt — meningsfuldt til de fleste anvendte formål |
| 10 | .84 | Meget godt — solidt til høj-risiko udviklingssammenhænge |
| 12 | .87 | Fremragende — nærmer sig loftet for nyttig forbedring |
| 15 | .89 | Marginal gevinst over 12; sjældent værd den ekstra indsats |
| 20 | .92 | Aftagende afkast fuldt i kraft |
Den praktiske besked fra denne tabel er klar: tre til fem Vidner producerer et komposit, der er meningsfuldt mere pålideligt end en enkelt vurdering, og fem til tolv Vidner er tilstrækkelige til de fleste udviklings- og coachingapplikationer. Ud over tolv er den marginale gevinst pr. ekstra Vidne lille nok til, at det sjældent retfærdiggør byrden på Vidnerne eller den administrative kompleksitet.
Hvad "pålideligt" faktisk betyder for peer-personlighedsdata
En reliabilitet på .73 (fem Vidner) betyder, at ca. 73% af variansen i den sammensatte peer-vurdering er systematisk — den afspejler noget reelt om målpersonen — mens 27% er støj. For en udviklingssammenhæng er dette tilstrækkeligt.
En reliabilitet på .84 (ti Vidner) nærmer sig reliabiliteten af mange velvaliderede selvrapporteringsmål. Til dette niveau kan du foretage mere raffinerede sammenligninger.
Under tre Vidner skal du fortolke kompositet med betydelig forsigtighed. To Vidner med .52 reliabilitet betyder, at næsten halvdelen af komposit-variansen er støj. Det betyder ikke, at dataene er værdiløse — et stærkt, konsistent mønster på tværs af to Vidner er stadig informativt — men det bør behandles som hypotesegenererende snarere end definitivt.
For en bredere behandling af, hvad reliabilitet og validitet betyder i personlighedstest generelt, se Hvad er reliabilitet og validitet i personlighedstest?
At få det meste ud af blot 2–3 Vidne-vurderinger
I praksis er det ikke altid muligt at indsamle ti eller flere Vidne-vurderinger. Når du har begrænsede Vidner, er den rigtige tilgang at justere din fortolkning i overensstemmelse hermed:
- Fokuser på stærke signaler, ikke på små forskelle. Med to eller tre Vidner er det kun substantielle forskelle i det sammensatte profil, der sandsynligvis er pålidelige.
- Se efter konsistens på tværs af Vidner. Hvis begge (eller alle tre) Vidner uafhængigt scorer dig på samme måde på en dimension, er denne konvergens informativ selv med en lille stikprøve.
- Sammenlign med selvrapport, ikke normer. Med begrænsede Vidner er den mest meningsfulde sammenligning mellem din selvrapporteringsprofil og dit Vidne-komposit.
- Tilføj Vidner over tid. Cèrcol er designet til at understøtte longitudinal brug.
Hvorfor relationsdiversitet hos Vidner betyder ligeså meget som antal
Spearman-Brown-formlen antager, at yderligere bedømmere er uafhængige og nogenlunde ækvivalente i deres perspektiv. I praksis betyder diversiteten af relationer ligeså meget som antallet af Vidner.
Fem nære venner, der alle kender dig i lignende sociale kontekster, vil producere et mere redundant komposit end fem Vidner, der kender dig i forskellige kontekster: en leder, en kollega, en direkte rapport, en nær ven og et familiemedlem.
Cèrcols peer-feedback-ramme opfordrer brugere til at vælge Vidner fra flere relationstyper af denne grund.
Cèrcol Vidne: Praktiske anbefalinger efter sammenhæng
- Minimum for meningsfuld brug: 3 Vidner. Under dette er resultaterne for støjfyldte til sikker fortolkning.
- Mål for standard udviklingsanvendelse: 5–7 Vidner. Dette producerer sammensat reliabilitet på .73–.79, tilstrækkeligt til at identificere ægte mønstre i, hvordan du opfattes.
- Høj-risiko eller coaching-sammenhænge: 8–12 Vidner. For ledelsesudvikling, executive coaching eller enhver sammenhæng, hvor personlighedsdata vil blive brugt til at træffe betydningsfulde udviklingsbeslutninger, producerer ti eller flere Vidner det mest pålidelige komposit.
- Over 12: aftagende afkast. Den trinvise reliabilitetsgevinst fra yderligere Vidner over 12 er lille nok til, at den ekstra byrde på Vidner sjældent er berettiget.
Resumé: det rigtige antal Vidner til dit brugstilfælde
En enkelt peer-personlighedsvurdering har en inter-rater reliabilitet på ca. .35 — for lav til sikker fortolkning på individniveau. Spearman-Brown-aggregeringssætningen forudsiger, hvordan sammensat reliabilitet stiger med yderligere Vidner, og når acceptable niveauer (.73+) ved fem bedømmere og meget gode niveauer (.84+) ved ti. I praksis er tre Vidner minimum for meningsfuld brug; fem til syv er det praktiske mål; ti eller flere er ideelt til høj-risiko applikationer.
Referencer
Connelly, B. S., & Ones, D. S. (2010). An other perspective on personality: Meta-analytic integration of observers' accuracy and predictive validity. Psychological Bulletin, 136(6), 1092–1122.
Shrout, P. E., & Fleiss, J. L. (1979). Intraclass correlations: Uses in assessing rater reliability. Psychological Bulletin, 86(2), 420–428.
Tag Cèrcol-vurderingen nu — gratis
Alt beskrevet i denne artikel gælder for dine egne Vidne-data. Gå til cercol.team, tag den gratis personlighedsvurdering og inviter mindst tre kolleger til at fungere som Vidner. Cèrcol viser konfidensintervaller, der udvider sig med færre Vidner, så du kan se præcis, hvordan reliabiliteten ændrer sig med hver yderligere bedømmer.
Yderligere læsning
- Hvorfor selvvurdering alene ikke er nok: sagen for peer-personlighedsfeedback
- Self-other-overensstemmelse efter Big Five-dimension: hvor kløfterne er størst
- Blinde pletter i teams: når selvopfattelse afviger fra peer-opfattelse
- Anonymitet i personlighedsvurdering: hvorfor det betyder noget for ærlige data
- Hvad er reliabilitet og validitet i personlighedstest?
- Social ønskelighed bias i personlighedstest: hvor stort er problemet?