Is Cèrcol based on the Big Five?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP public-domain item pool (Goldberg et al. 2006). The 12 team roles are derived from the AB5C circumplex (Hofstee et al. 1992) and team composition research (Bell 2007; Neuman & Wright 1999).

What makes Cèrcol different from Belbin or DISC?

Cèrcol's roles are grounded in the Big Five (OCEAN) personality model using the IPIP public-domain item pool. The scoring pipeline is fully open source and auditable. Witness Cèrcol uses forced-choice adjective selection — not Likert scales — to eliminate social desirability bias in peer assessment. Unlike Belbin or DISC, all items are public domain and the entire methodology is published and citable.

Is the personality assessment free?

The New Moon Cèrcol (10 items, Big Five snapshot) and First Quarter Cèrcol (60 items, IPIP-NEO-60, 30 facets) are always free — no account required. The Full Moon Cèrcol (120 items, IPIP-NEO-120, Witness peer assessment, cognitive ability measure) requires a one-time payment.

What is Witness Cèrcol?

Witness Cèrcol is a peer personality assessment where someone who knows you well rates you using a forced-choice adjective selection method — picking the best-fit and worst-fit adjective per round from a set covering all five OCEAN dimensions. Forced choice eliminates the social desirability bias that affects standard Likert-scale peer ratings. Dimensions where your self-rating and peer ratings diverge by more than 0.8 standard deviations are flagged as potential blind spots.

How are the 12 team roles derived?

The 12 roles are derived from the AB5C circumplex (Hofstee, De Raad & Goldberg 1992), covering all six intersections of the three team balance dimensions (Presence/Extraversion × Bond/Agreeableness × Vision/Openness) at both poles. The selection of these three dimensions as requiring team-level balance is grounded in Bell (2007) and Neuman & Wright (1999). Discipline (Conscientiousness) and Depth (Neuroticism) modulate role expression but do not define team balance.

No account is required for any instrument. During assessment, no personal data is collected — only anonymous scores are logged. Data is stored on our own servers (Hetzner Online GmbH). No third-party analytics. No data is shared with or sold to third parties.

Is Cèrcol based on the Big Five (OCEAN)?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP — the International Personality Item Pool, a public-domain collection validated in thousands of published studies. The five dimensions are Presence (Extraversion), Bond (Agreeableness), Vision (Openness), Discipline (Conscientiousness), and Depth (Neuroticism). Because the IPIP is public domain there are no licence restrictions: the full item pool and scoring logic are open and citable.

How is Cèrcol different from Belbin, DISC, or StrengthsFinder?

Three things set Cèrcol apart. First, the items come from the Big Five (OCEAN), the most replicated personality model in academic research — not a proprietary framework. Second, the full item pool (IPIP) and scoring pipeline are public domain and auditable; there is no black box. Third, the Witness peer assessment uses forced-choice adjective selection instead of Likert scales, which eliminates the social desirability bias that affects most 360-feedback tools. Belbin and DISC use closed, proprietary methodologies.

What are blind spots in team personality assessment?

A blind spot is a personality dimension where how you see yourself and how others see you diverge significantly — more than 0.8 standard deviations apart. Cèrcol's Witness peer assessment detects blind spots by comparing your self-report with forced-choice adjective ratings from people who know you. Blind spots are neither good nor bad: they show where your self-perception and others' experience of you don't match, which is often more actionable than the score itself.

Hvad reliabilitet og validitet betyder i personlighedstest

Reliabilitet i personlighedstest: Hvad det betyder og hvilke scorer man skal kræve

Reliabilitet refererer til konsistensen af en måling. En test er reliabel, hvis den producerer de samme — eller meget lignende — resultater under betingelser, hvor det underliggende træk ikke har ændret sig. Der er to primære typer.

Test-retest reliabilitet

Test-retest reliabilitet spørger: hvis den samme person tager den samme test to gange med et par ugers mellemrum, hvor ens er resultaterne? Scorer kan variere mellem administrationer af to grunde: ægte ændring i det underliggende træk eller målingsfejl. En reliabel test minimerer målingsfejl, så scoringsændringer mellem administrationer primært afspejler reel ændring snarere end støj.

Standardgrænsen for acceptabel test-retest reliabilitet er en korrelation på ca. 0.70 eller derover over et to-til-fire-ugers interval. Velvaliderede Big Five-instrumenter opnår typisk 0.80 eller højere for scorer på domæneniveau. MBTIs test-retest reliabilitet er lavere — studier har fundet, at ca. 50 procent af respondenterne modtager en forskellig fire-bogstavs typeklarification, når de testes igen fem uger senere, hvilket er den statistiske signatur af høj målingsfejl. Se MBTI vs Big Five for den fulde sammenligning.

Intern konsistens

Reliabilitet af intern konsistens spørger, om items inden for en skala måler det samme underliggende konstrukt. Hvis en Samvittighedsfuldhedsskala indeholder items om organisation, flid og pålidelighed, bør disse items korrelere med hinanden — fordi de alle trykker på den samme underliggende disposition. Standardstatistikken er Cronbachs alfa, hvor værdier over 0.70 generelt anses for acceptable og over 0.80 er gode.

Lav intern konsistens betyder, at items inden for en skala måler forskellige ting — hvilket gør den samlede skalescore vanskelig at fortolke. En Samvittighedsfuldhedsscore afledt af items, der næppe korrelerer med hinanden, er ikke en kohærent måling. For en forklaring af, hvordan skalelængde interagerer med intern konsistens, se hvorfor 120 items er bedre end 10.

Validitet i personlighedstest: Fire typer enhver køber bør forstå

Validitet adresserer et andet spørgsmål: måler testen faktisk det, den hævder at måle? En test kan være perfekt konsistent (reliabel) mens den måler noget fuldstændig forkert. De vigtigste former for validitetsevidens adresserer hver et andet aspekt af dette spørgsmål.

Konvergent validitet

Konvergent validitet spørger, om testen korrelerer med andre etablerede mål for det samme konstrukt. En ny Ekstraversionsskala bør korrelere positivt med eksisterende validerede Ekstraversionsmål — fordi hvis begge måler Ekstraversion, bør de enes om, hvem der har mere og mindre af det.

Det lyder indlysende, men er overraskende ofte negligeret. Mange proprietære instrumenter rapporterer ingen konvergent validitetsdata, hvilket gør det umuligt at vurdere, om de måler de samme konstrukter som den akademiske litteratur. IPIP-itembanken blev bygget præcis for at muliggøre denne form for offentlig sammenligning.

Kriterievaliditet

Kriterievaliditet — den praktisk vigtigste form — spørger, om testen forudsiger resultater, som trækket teoretisk burde forudsige. Hvis et Samvittighedsfuldhedsmål er validt, bør det forudsige jobpræstation, akademisk præstation og målopnåelse, fordi Samvittighedsfuldhed er det træk, der mest konsistent er knyttet til disse resultater i litteraturen. Hvis en test hævder at måle Samvittighedsfuldhed, men ikke viser nogen korrelation med jobpræstation, er der noget galt med påstanden.

Prædiktiv validitet er en specifik undertype: forudsiger testen fremtidige resultater? Concurrent validitet spørger, om testen korrelerer med resultater vurderet på samme tidspunkt. Begge er vigtige, men prædiktiv validitet er guldstandarden for instrumenter brugt i personaleudvælgelse. For implikationerne for ansættelse specifikt, se personlighedstest i ansættelse: hvad er lovligt og hvad er etisk.

Diskriminant validitet

Diskriminant validitet spørger, om testen korrelerer for højt med mål for andre konstrukter. Hvis en skala, der hævder at måle Venlighed, korrelerer ligeså stærkt med Samvittighedsfuldhed som med andre Venlighedsmål, måler den måske ikke Venlighed specifikt. At forstå, hvad hver Big Five-facet unikt måler, hjælper her — se hvad er en facet i personlighedspsykologi.

Ansigtsvaliditet vs. statistisk validitet

Ansigtsvaliditet er fremtoningen af at måle det, en test hævder. Et item, der lyder "Jeg er et organiseret menneske", har høj ansigtsvaliditet for Samvittighedsfuldhed — det ser ud til at måle organisation. Men ansigtsvaliditet er ikke det samme som statistisk validitet, og at sammenblande dem er en af de mest almindelige fejl ved evaluering af personlighedstest.

Mange populære instrumenter har høj ansigtsvaliditet og beskeden til dårlig statistisk validitet. Indholdet ser relevant ud; forudsigelserne er svage. For en gennemgang af hvilke populære tests, der falder i denne fælde, se de bedste gratis personlighedstest til teams i 2026.

Psykometrisk begreb	Hvad det måler	God grænse	Big Five-instrumenter	MBTI
Test-retest reliabilitet	Konsistens af scorer over tid	r ≥ 0.70 over 4 uger	Typisk 0.80–0.90	~0.50 (50% typeændring ved retest)
Intern konsistens (Cronbachs α)	Item-kohærens inden for en skala	α ≥ 0.70	Typisk 0.80–0.90	Moderat; varierer efter skala
Konvergent validitet	Overensstemmelse med andre mål for samme træk	r ≥ 0.50 med etableret mål	Veldokumenteret i peer review	Begrænsede offentliggjorte tværinstrumentdata
Kriterievaliditet	Forudsigelse af reelle resultater	Varierer; d ≥ 0.20 anses for meningsfuldt	Samvittighedsfuldhed forudsiger robust jobpræstation	Svag forudsigelse af jobpræstation
Diskriminant validitet	Uafhængighed fra mål for andre træk	Lav r med konceptuelt adskilte skalaer	Generelt understøttet	Dimensioner ikke klart uafhængige af hinanden

Fem spørgsmål til at evaluere enhver validitetspåstand for en personlighedstest

Når en leverandør eller forsker hævder, at et personlighedsinstrument er "validt og reliabelt", producerer følgende spørgsmål en hurtig kvalitetsvurdering.

Spørgsmål 1: Er validitetsevidensen offentliggjort i fagfællebedømte tidsskrifter? Proprietære tekniske rapporter, white papers og websitetekster tæller ikke. Fagfællebedømmelse underkaster validitetspåstande uafhængig prøvelse. Hvis den eneste validitetsevidence er udgiverens egen dokumentation, er det et rødt flag. De bredere implikationer for, hvordan personlighedsvidenskab håndterer replikation, adresseres i personlighedsvidenskabens replikationskrise.

Spørgsmål 2: Hvad er test-retest reliabiliteten over et klinisk meningsfyldt interval? Fire til seks uger er standarden. Hvis dette tal ikke rapporteres eller er under 0.70, er målingen støjfyldt.

Spørgsmål 3: Hvilke resultater forudsiger instrumentet? Kriterievaliditetsevidence bør inkludere reelle resultater, ikke bare korrelationer med andre selvrapportmål. For arbejdsrelevante instrumenter er jobpræstation det nøglekriterie.

Spørgsmål 4: Har uafhængige forskergrupper replikeret validitetsfundene? Et enkelt studie fra instrumentets egne udviklere er utilstrækkeligt. Replikation af forskere uden kommerciel interesse i resultatet er den meningsfulde standard.

Spørgsmål 5: Er scoring-algoritmen transparent? Hvis scoring-algoritmen er proprietær, kan validitetspåstandene ikke verificeres uafhængigt. Open science-instrumenter — herunder IPIP, som Cèrcol er bygget på — giver enhver mulighed for at tjekke påstandene mod dataene. Se personlighedstest: open source vs. kommerciel for den fulde sammenligning.

Hvorfor peer-vurdering tilføjer validitet, som selvrapport ikke kan levere

En undervurderet kilde til validitet i personlighedsvurdering er brugen af observatørvurderinger sideløbende med selvrapport. Personlighed målt af mennesker, der kender subjektet — kolleger, ledere, direkte underordnede — viser typisk højere kriterievaliditet end selvrapport alene, særligt til forudsigelse af jobpræstation.

Det skyldes, at selvrapport er underlagt imponementsstyring (bevidst eller ubevidst at score sig selv mere fordelagtigt) og begrænset selvindsigt (folk er ofte ikke klar over, hvordan de fremstår for andre). Observatørvurderinger er ikke fri for skævheder, men de påvirkes af andre skævheder — hvilket betyder, at kombination af selv- og observatørdata producerer mere præcise personlighedsskøn end enten alene. For det fulde argument, se hvorfor selvevaluering alene ikke er nok: personlighedsfeedback fra kolleger.

Cèrcols Vidne-model (Witness) er designet omkring dette princip. Big Five's historie og videnskabssiden giver yderligere kontekst om validitetsevidensen, der understøtter Cèrcols designvalg.

"Reliabilitet og validitet er ikke marketingpåstande. De er specifikke statistiske egenskaber med etablerede tærskler, målbare gennem standardmetoder og verificerbare gennem offentliggjorte data. Et instrument, der ikke kan levere fagfællebedømt evidens for begge dele, bør evalueres med forholdsmæssig skepsis."

Hvordan Cèrcol opfylder reliabilitets- og validitetskravet

Cèrcols instrument er bygget på IPIP-itembanken — de samme offentlig domain-items, hvis psykometriske egenskaber er blevet uafhængigt dokumenteret af Goldberg og kolleger over årtiers offentliggjort forskning. Test-retest reliabilitet på domæneniveau for IPIP-baserede Big Five-skalaer ligger typisk over r = 0.80 over fire-ugers intervaller. Intern konsistens (Cronbachs α) for de 20-item-per-dimension skalaer, som Cèrcol bruger, er konsistent over 0.87.

Kriterievaliditet arves fra den bredere Big Five-litteratur: Samvittighedsfuldhed (Disciplin) forudsiger jobpræstation på tværs af alle større erhvervskategorier (Barrick & Mount, 1991, doi: 10.1111/j.1744-6570.1991.tb00688.x). Neurotisisme (Dybde) forudsiger stressrespons og velfærdsresultater. Åbenhed (Vision) forudsiger kreativ præstation.

Vidne peer-vurderingen tilføjer observatørvurderede scorer på de samme fem dimensioner ved hjælp af et tvunget-valg format, der reducerer social ønskvædighedsskevhed — se social ønskværdighed i personlighedstest for den fulde metodik. Tag den gratis vurdering på cercol.team og gennemgå den fulde validitetsdokumentation på cercol.team/science.

Yderligere læsning: Big Five's historie: fra Allport til Goldberg · Videnskaben bag Cèrcol

Hvad reliabilitet og validitet betyder i personlighedstest — forklaret tydeligt

Reliabilitet i personlighedstest: Hvad det betyder og hvilke scorer man skal kræve

Test-retest reliabilitet

Intern konsistens

Validitet i personlighedstest: Fire typer enhver køber bør forstå

Konvergent validitet

Kriterievaliditet

Diskriminant validitet

Ansigtsvaliditet vs. statistisk validitet

Fem spørgsmål til at evaluere enhver validitetspåstand for en personlighedstest

Hvorfor peer-vurdering tilføjer validitet, som selvrapport ikke kan levere

Hvordan Cèrcol opfylder reliabilitets- og validitetskravet

Yderligere læsning

Relaterede artikler

Personalitedsvidenskab og replikationskrisen: hvad har holdt stand?

Hvorfor 120 items er bedre end 10: afvejningen i personlighedstesters længde

Big Five's historie: fra Allport til Goldberg