Is Cèrcol based on the Big Five?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP public-domain item pool (Goldberg et al. 2006). The 12 team roles are derived from the AB5C circumplex (Hofstee et al. 1992) and team composition research (Bell 2007; Neuman & Wright 1999).

What makes Cèrcol different from Belbin or DISC?

Cèrcol's roles are grounded in the Big Five (OCEAN) personality model using the IPIP public-domain item pool. The scoring pipeline is fully open source and auditable. Witness Cèrcol uses forced-choice adjective selection — not Likert scales — to eliminate social desirability bias in peer assessment. Unlike Belbin or DISC, all items are public domain and the entire methodology is published and citable.

Is the personality assessment free?

The New Moon Cèrcol (10 items, Big Five snapshot) and First Quarter Cèrcol (60 items, IPIP-NEO-60, 30 facets) are always free — no account required. The Full Moon Cèrcol (120 items, IPIP-NEO-120, Witness peer assessment, cognitive ability measure) requires a one-time payment.

What is Witness Cèrcol?

Witness Cèrcol is a peer personality assessment where someone who knows you well rates you using a forced-choice adjective selection method — picking the best-fit and worst-fit adjective per round from a set covering all five OCEAN dimensions. Forced choice eliminates the social desirability bias that affects standard Likert-scale peer ratings. Dimensions where your self-rating and peer ratings diverge by more than 0.8 standard deviations are flagged as potential blind spots.

How are the 12 team roles derived?

The 12 roles are derived from the AB5C circumplex (Hofstee, De Raad & Goldberg 1992), covering all six intersections of the three team balance dimensions (Presence/Extraversion × Bond/Agreeableness × Vision/Openness) at both poles. The selection of these three dimensions as requiring team-level balance is grounded in Bell (2007) and Neuman & Wright (1999). Discipline (Conscientiousness) and Depth (Neuroticism) modulate role expression but do not define team balance.

No account is required for any instrument. During assessment, no personal data is collected — only anonymous scores are logged. Data is stored on our own servers (Hetzner Online GmbH). No third-party analytics. No data is shared with or sold to third parties.

Is Cèrcol based on the Big Five (OCEAN)?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP — the International Personality Item Pool, a public-domain collection validated in thousands of published studies. The five dimensions are Presence (Extraversion), Bond (Agreeableness), Vision (Openness), Discipline (Conscientiousness), and Depth (Neuroticism). Because the IPIP is public domain there are no licence restrictions: the full item pool and scoring logic are open and citable.

How is Cèrcol different from Belbin, DISC, or StrengthsFinder?

Three things set Cèrcol apart. First, the items come from the Big Five (OCEAN), the most replicated personality model in academic research — not a proprietary framework. Second, the full item pool (IPIP) and scoring pipeline are public domain and auditable; there is no black box. Third, the Witness peer assessment uses forced-choice adjective selection instead of Likert scales, which eliminates the social desirability bias that affects most 360-feedback tools. Belbin and DISC use closed, proprietary methodologies.

What are blind spots in team personality assessment?

A blind spot is a personality dimension where how you see yourself and how others see you diverge significantly — more than 0.8 standard deviations apart. Cèrcol's Witness peer assessment detects blind spots by comparing your self-report with forced-choice adjective ratings from people who know you. Blind spots are neither good nor bad: they show where your self-perception and others' experience of you don't match, which is often more actionable than the score itself.

Hvorfor 120 items er bedre end 10: afvejningen i personlighedstesters længde

Spearman-Brown-formlen: Hvorfor testlængde forudsiger Big Five-pålidelighed

Det matematiske forhold mellem testlængde og pålidelighed blev formaliseret for over et århundrede siden af Charles Spearman og William Brown, der arbejdede uafhængigt. Spearman-Brown-profetiformlen forudsiger, hvordan pålidelighed ændres, når du ændrer antallet af items i en test, forudsat at de nye items er af lignende kvalitet som de originale.

Formlen har en specifik implikation: pålideligheds-gevinster ved at tilføje items følger en kurve med faldende afkast. At gå fra 2 items til 10 items giver en stor pålideligheds-gevinst. At gå fra 80 items til 120 items giver en meget mindre. De første items gør det meste arbejde; hvert yderligere item tilføjer mindre end det forrige.

Derfor er valget af testlængde en ægte ingeniørmæssig beslutning snarere end en simpel "mere er altid bedre"-konklusion. På et tidspunkt overstiger belastningen for respondenter pålideligheds-gevinsten. Det praktiske spørgsmål er, hvor dette punkt ligger for det pågældende brugstilfælde. For en komplet behandling af, hvordan pålidelighed defineres og måles, se hvad er pålidelighed og validitet i personlighedstest.

"Spearman-Brown-formlen gør pålideligheds-længde-forholdet præcist: for at fordoble pålideligheden af en test skal du omtrent firedoble dens længde."

Hvad 10-item Big Five-test mangler, som længere instrumenter fanger

TIPI's to items per dimension kan, konstruktionsmæssigt, ikke fange facetniveauvariationer inden for hver Big Five-dimension. Som beskrevet i hvad er en facet i personlighedspsykologi, indeholder hver Big Five-dimension seks facetter — smalle undertræk, der kan pege i forskellige retninger for folk med den samme overordnede dimensionsscore.

En Samvittighedsfuldhed-skala med to items kan med succes klassificere, om en person er overordnet høj eller lav på dimensionen. Den kan ikke skelne mellem nogen, hvis Samvittighedsfuldhed er drevet af Orden og Pligtfølelse, vs. nogen, hvis profil er domineret af Præstationsstræben og Selvdisciplin — hvilket er præcis den forskel, der er mest relevant for rollematching og udvikling.

Den samme begrænsning gælder for alle dimensioner. En Åbenhed-skala med to items kan ikke adskille intellektuel nysgerrighed fra æstetisk sensitivitet. En Neurotisme-skala med to items kan ikke skelne angstdrevet reaktivitet fra vredesdrevet reaktivitet.

Korte test viser også reduceret pålidelighed for individer nær midten af distributionen — det interval, hvor de fleste folk scorer på de fleste dimensioner. For klart ekstreme scorere (meget høje eller meget lave) kan to items være tilstrækkeligt til at klassificere dem rimeligt. For flertallet, der scorer i det moderate interval, er målefejlen fra en to-item skala stor nok til at producere forskellige klassifikationer ved gentest. For den statistiske forklaring på, hvorfor det betyder noget, se hvordan personlighedstestscorer beregnes.

TIPI vs IPIP-NEO-120: Pålideligheds-afvejninger side om side

IPIP-NEO-120 er et 120-item-instrument, frit tilgængeligt, der måler alle fem Big Five-dimensioner og alle tredive facetter. Det blev udviklet specifikt som et open-access-alternativ til det proprietære NEO PI-R, og dets validitetsegenskaber er dokumenteret i fagfællebedømt forskning.

Sammenligningen med TIPI illustrerer pålideligheds-længde-afvejningen direkte:

Testlængde	Eksempelinstrument	Items per dimension	Facetmåling	Pålidelighedsestimering (α)	Passende brugstilfælde
10 items	TIPI	2	Ingen	~0.45–0.65 per dimension	Storstilet befolkningsforskning; screening, når korthed er afgørende; lav-indsats selvudforskning
44 items	BFI (Big Five Inventory)	~8–9	Ingen	~0.75–0.85 per dimension	Akademisk forskning, der kræver balance af korthed og pålidelighed; gruppeniveaustudier
60 items	IPIP-NEO-60	12	Delvis	~0.80–0.87 per dimension	Anvendt forskning; mellemstor-indsats udviklingskontekster
100–120 items	Cèrcol / IPIP-NEO-120	20–24	Fuld (30 facetter)	~0.87–0.93 per dimension	Individuel udvikling; teamprofiling; coaching; høj-indsats vurdering
240 items	NEO PI-R (fuld)	48	Fuld (30 facetter)	~0.90–0.95 per dimension	Klinisk vurdering; forskning der kræver maksimal præcision; høj-indsats selektion

Hvornår en kort personlighedstest faktisk er passende

Argumentet for korte personlighedstest er reelt og bør ikke afvises. I visse kontekster er et 10-item-instrument det rigtige valg.

Storstilet befolkningsforskning kræver gennemførelse fra tusindvis af respondenter. En gennemførelsestid på 10 minutter skaber et væsentligt højere frafald end en på 2 minutter, hvilket producerer skæve stikprøver. Når forskningsspørgsmålet vedrører befolkningsniveautendenser snarere end individuelle profiler, er TIPI's svagere pålidelighed acceptabel, fordi den gennemsnitsberegnes over store stikprøver.

Screening-kontekster — hvor målet er at identificere, hvem der måske drager fordel af en mere grundig vurdering — kan passende bruge korte instrumenter. Hvis en 10-item-screen identificerer kandidater i det øverste eller nederste kvartil af en dimension til yderligere vurdering, er korthedet en rimelig afvejning.

Gentagen måling præsenterer et andet problem. Hvis du ønsker at spore personlighedsændringer over tid — eller på tværs af multiple udviklingsinterventioner — er det besværligt at administrere et 120-item-instrument hvert kvartal. En valideret kortform, der bruges konsekvent over tid, kan producere mere handlingsorienterede longitudinale data end en sjælden fuldformatadministration.

Lav-indsats selvudforskning — hvor brugeren blot er nysgerrig på sin personlighed snarere end at bruge dataene til en konsekvensrig beslutning — kan passende bruge kortere instrumenter. Omkostningerne ved målefejl er lavere, når indsatsen er lavere. For en sammenligning af, hvilke gratis vurderinger der er passende til hvilke indsatser, se de bedste gratis personlighedstest til teams i 2026.

Hvornår testlængde betyder noget: Individuel udvikling og teamprofiling

Argumentet for længere instrumenter bliver stærkere, jo højere indsatsen og specificitetskravene til brugstilfældet er.

Individuel udvikling kræver facetniveaudata. Et 10-item-instrument kan ikke fortælle en coach eller leder hvorfor nogens Samvittighedsfuldhed-score er, som den er — hvilke facetter der driver den, og hvilke udviklingsinterventioner der sandsynligvis vil være mest effektive. Et 120-item-instrument med facetniveauscoring giver den specificitet, som udviklingssamtaler kræver.

Teamprofiling kræver pålidelige individuelle scorer som input til teamanalyse på teamniveau. Hvis individuelle scorer har høj målefejl, arver teamprofilen den fejl. Et teamkort bygget på TIPI-scorer vil vise større tilfældig variation mellem profiler end et bygget på længere instrumenter — hvilket reducerer kortets nytte til bevidst teamdesign. Se Cèrcols 12 teamroller for, hvordan facetniveauprofiler oversættes til teamrolleindsigtser.

Peer-vurdering forstærker argumentet. Cèrcols Vidne-model beder observatører om at vurdere en anden persons personlighed på tværs af multiple dimensioner og facetter. Et kort instrument ville kollapse signalet fra Vidne-vurderinger til det punkt, hvor observatør-vs-selv-uoverensstemmelser — de mest informative data i rapporten — ville blive upålidelige. Vidne-metodologien er forklaret i detalje i hvad Cèrcols Vidne-instrument måler.

Høj-indsats beslutninger — præstationsvurdering, rolleomdesign, selektion til ledelsesprogram — kræver, at dataene er pålidelige nok til at handle på. En måling med α = 0.55 (typisk TIPI) betyder, at 45 % af scorevariansen er tilfældig støj. En måling med α = 0.90 betyder, at kun 10 % er støj. Forskellen mellem at handle på 55 % signal vs. 90 % signal er forskellen mellem nyttige data og randomiserede beslutninger.

Hvorfor Cèrcol bruger 120 items for at balancere pålidelighed og gennemførelsestid

Cèrcols instrument bruger 120 items — 24 per Big Five-dimension — og giver facetniveaumåling, mens det forbliver væsentligt kortere end det fulde 240-item NEO PI-R. Designet afspejler en bevidst afvejning: bevar facetopløsning og pålidelighed over 0,87 per dimension, mens gennemførelsestiden holdes på ca. 15 minutter.

Denne længde understøttes af pålideligheds- og validitetsbeviserne for IPIP-baserede instrumenter ved dette itemantal og den praktiske virkelighed, at teamprofiling og individuel udvikling kræver facetniveaudata, som kortere instrumenter strukturelt ikke kan levere. For videnskaben bag, hvorfor det betyder noget, se personlighedstest: open source vs. kommerciel og social ønskvædighedsbias i personlighedstest — længere instrumenter giver også flere muligheder for at inkludere omvendt kodede items, der beskytter mod acquiescence og social ønskvædighedsinflation.

Den passende længde for et personlighedsinstrument bestemmes ikke af konvention eller af, hvad der virker bekvemt. Den bestemmes af brugstilfældet, den krævede pålidelighed og det specificitetsniveau, dataene skal levere. For individuel og teamudvikling understøtter evidensen konsekvent instrumenter i intervallet 100–120 items som det praktiske optimum.

Hvorfor Cèrcol bruger 120 items i stedet for 10

En personlighedstest med 10 items er bedre end ingen test — men til de formål, de fleste teams bekymrer sig om (rollematching, udviklingsplanlægning, konfliktforudsigelse, coaching), er 10 items per dimension ikke nok. To items kan ikke skelne mellem facetter, kan ikke pålideligt klassificere folk i midten af distributionen og producerer målefejl stor nok til at ændre konklusioner ved gentest.

Cèrcol bruger 120 items, fordi det er den korteste instrumentlængde, der leverer fuld facetopløsning og test-retest-pålidelighed over 0,87 på alle fem Big Five-dimensioner. Items er trukket fra det offentlige domæne IPIP-item-bank — den samme videnskabelige kilde brugt i hundredvis af fagfællebedømte studier. Gennemførelse tager ca. 15 minutter.

Hvis du vil se, hvordan Big Five-data på facetniveau faktisk ser ud for dit team, er vurderingen gratis på cercol.team. Vidne peer-vurderingen tilføjer observatørvurderede profiler for hver person — et andet perspektiv, som intet selvrapporteringsinstrument, uanset hvor langt, kan erstatte. Læs den fulde målebegrundelse på cercol.team/science.

Yderligere læsning: Hvad pålidelighed og validitet betyder i personlighedstest · Videnskaben bag Cèrcol

Hvorfor 120 items er bedre end 10: afvejningen i personlighedstesters længde

Spearman-Brown-formlen: Hvorfor testlængde forudsiger Big Five-pålidelighed

Hvad 10-item Big Five-test mangler, som længere instrumenter fanger

TIPI vs IPIP-NEO-120: Pålideligheds-afvejninger side om side

Hvornår en kort personlighedstest faktisk er passende

Hvornår testlængde betyder noget: Individuel udvikling og teamprofiling

Hvorfor Cèrcol bruger 120 items for at balancere pålidelighed og gennemførelsestid

Hvorfor Cèrcol bruger 120 items i stedet for 10

Yderligere læsning

Relaterede artikler

Hvad reliabilitet og validitet betyder i personlighedstest — forklaret tydeligt

Hvad er en facet i personlighedspsykologi — og hvorfor er det vigtigt?

Hvordan personlighedstestscorer beregnes: fra items til dimensioner