Is Cèrcol based on the Big Five?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP public-domain item pool (Goldberg et al. 2006). The 12 team roles are derived from the AB5C circumplex (Hofstee et al. 1992) and team composition research (Bell 2007; Neuman & Wright 1999).

What makes Cèrcol different from Belbin or DISC?

Cèrcol's roles are grounded in the Big Five (OCEAN) personality model using the IPIP public-domain item pool. The scoring pipeline is fully open source and auditable. Witness Cèrcol uses forced-choice adjective selection — not Likert scales — to eliminate social desirability bias in peer assessment. Unlike Belbin or DISC, all items are public domain and the entire methodology is published and citable.

Is the personality assessment free?

The New Moon Cèrcol (10 items, Big Five snapshot) and First Quarter Cèrcol (60 items, IPIP-NEO-60, 30 facets) are always free — no account required. The Full Moon Cèrcol (120 items, IPIP-NEO-120, Witness peer assessment, cognitive ability measure) requires a one-time payment.

What is Witness Cèrcol?

Witness Cèrcol is a peer personality assessment where someone who knows you well rates you using a forced-choice adjective selection method — picking the best-fit and worst-fit adjective per round from a set covering all five OCEAN dimensions. Forced choice eliminates the social desirability bias that affects standard Likert-scale peer ratings. Dimensions where your self-rating and peer ratings diverge by more than 0.8 standard deviations are flagged as potential blind spots.

How are the 12 team roles derived?

The 12 roles are derived from the AB5C circumplex (Hofstee, De Raad & Goldberg 1992), covering all six intersections of the three team balance dimensions (Presence/Extraversion × Bond/Agreeableness × Vision/Openness) at both poles. The selection of these three dimensions as requiring team-level balance is grounded in Bell (2007) and Neuman & Wright (1999). Discipline (Conscientiousness) and Depth (Neuroticism) modulate role expression but do not define team balance.

No account is required for any instrument. During assessment, no personal data is collected — only anonymous scores are logged. Data is stored on our own servers (Hetzner Online GmbH). No third-party analytics. No data is shared with or sold to third parties.

Is Cèrcol based on the Big Five (OCEAN)?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP — the International Personality Item Pool, a public-domain collection validated in thousands of published studies. The five dimensions are Presence (Extraversion), Bond (Agreeableness), Vision (Openness), Discipline (Conscientiousness), and Depth (Neuroticism). Because the IPIP is public domain there are no licence restrictions: the full item pool and scoring logic are open and citable.

How is Cèrcol different from Belbin, DISC, or StrengthsFinder?

Three things set Cèrcol apart. First, the items come from the Big Five (OCEAN), the most replicated personality model in academic research — not a proprietary framework. Second, the full item pool (IPIP) and scoring pipeline are public domain and auditable; there is no black box. Third, the Witness peer assessment uses forced-choice adjective selection instead of Likert scales, which eliminates the social desirability bias that affects most 360-feedback tools. Belbin and DISC use closed, proprietary methodologies.

What are blind spots in team personality assessment?

A blind spot is a personality dimension where how you see yourself and how others see you diverge significantly — more than 0.8 standard deviations apart. Cèrcol's Witness peer assessment detects blind spots by comparing your self-report with forced-choice adjective ratings from people who know you. Blind spots are neither good nor bad: they show where your self-perception and others' experience of you don't match, which is often more actionable than the score itself.

Hvordan personlighedstestscorer beregnes: fra items til dimensioner

Trin 1: Hvordan Big Five-itemsvarsformater former din score

Råmaterialet til en personlighedsscore er svaret på individuelle items. Det mest almindelige format i Big Five-assessment er Likert-skalaen: respondenter vurderer deres enighed med en udsagn — typisk "Helt uenig / Uenig / Neutral / Enig / Helt enig" — normalt på en fem- eller syvpunktsskala. Se Likert-skala — Wikipedia for den fulde statistiske baggrund.

Likert-formater har flere psykometriske fordele. De er følsomme over for graderinger af enighed frem for at tvinge et binært ja/nej-svar, hvilket øger scorevariansen og dermed reliabiliteten. De er velkendte for de fleste respondenter og reducerer den kognitive belastning af svaret. Og de producerer intervalagtige data, der kan underkastes standard statistisk analyse.

Der findes alternative formater, og hvert gør forskellige antagelser:

Forced-choice-formater præsenterer par eller grupper af traitrelevante udsagn og beder respondenten om at vælge, hvilken der ligner dem mest. Dette design blev udviklet for at reducere effekten af socialt ønskeværdigt svar — tendensen til at tilslutte sig udsagn, der virker positivt vurderede, uanset om de er nøjagtige. Forced choice gør det sværere at præsentere et idealiseret selvbillede, fordi valg af et positivt udsagn nødvendigvis betyder afvisning af et andet. Byttet er ipsativ måling, der er omtalt nedenfor. For en fuld behandling, se forced-choice personlighedsvurdering: hvorfor det producerer mere ærlige data.

Adjektivvurderingsformater præsenterer enkeltord, der er relevante for personlighed ("organiseret", "spontan", "angst"), og spørger, hvor godt hvert beskriver respondenten. Disse er hurtigere at administrere end fulde sætningsitems og viser rimelig validitet, men de har tendens til lavere reliabilitet end fulde sætnings-Likert-skalaer — delvis fordi enkeltord er mere tvetydige end fulde sætninger.

Trin 2: Hvorfor omvendt scorede items beskytter Big Five-skalers validitet

En veldesignet personlighedsskala indeholder både positivt og negativt kodede items — det vil sige, nogle items, hvor enighed angiver den høje ende af traittet, og andre, hvor enighed angiver den lave ende. Et item som "Jeg holder mine ejendele pænt organiserede" er positivt kodet for Samvittighedsfuldhed; "Jeg efterlader ofte opgaver uafsluttede" er negativt kodet.

Negativt kodede items tjener to formål. For det første reducerer de effekten af acquiescensbias — tendensen hos nogle respondenter til at være enige i udsagn uanset deres indhold. Hvis hvert item i en Samvittighedsfuldhedsskala er formuleret i samme retning, vil en person, der siger "enig" til alt, se ud til at have høj samvittighedsfuldhed, selv hvis deres faktiske adfærd ikke er det. Negativt kodede items betyder, at konsekvent bekræftende svar producerer en middelscore frem for en fejlagtigt høj. For en detaljeret forklaring af, hvordan acquiescens og social ønskelighed forvrider scorer, se social ønskelighed i personlighedstests.

Inden items aggregeres til en dimensionsscore, omvendt scores negativt kodede items: et svar på 5 på en 1–5-skala rekodes som 1, et 4 bliver 2, et 3 forbliver ved 3 og så videre. Efter omvendt scoring peger alle items i samme retning, og enkel summering eller gennemsnitsdannelse producerer en kohærent skalescore.

"Omvendt scoring er ikke et trick. Det er en målsikring — et designtræk, der beskytter skarescorers validitet mod systematiske svarmønstre, der ellers ville producere vildledende resultater. Et instrument uden negativt kodede items bør behandles med forsigtighed."

Trin 3: Sumscoring vs. Item Response Theory i Big Five-assessment

Når items er scored i samme retning, skal de kombineres til en dimensionsscore. De to primære tilgange er sumscore fra klassisk testteori (KTT) og item response theory (IRT).

Sumscoring er præcis, hvad det lyder som: læg item-scorerne sammen (eller beregn gennemsnittet). Hvis en Samvittighedsfuldhedsskala indeholder 20 items vurderet 1–5, kan summen variere fra 20 til 100. Denne råsum standardiseres typisk mod en normativ stikprøve for at producere et percentil eller en standardiseret score. Sumscoring er let at implementere, let at forklare og tilstrækkelig til de fleste formål.

Item Response Theory (IRT) anlægger en mere sofistikeret tilgang. IRT-modeller estimerer sandsynligheden for hvert svarmulighed som en funktion af respondentens latente traitniveau. Items behandles ikke som ækvivalente — nogle items er mere diskriminerende (bedre til at skelne mellem personer på forskellige traitniveauer), og nogle items er mere informative på forskellige punkter i traitdistributionen. IRT-scoring vægter items efter deres diskriminationskraft og kan producere mere præcise estimater ved distributionens ekstremer, hvor sumscoring har tendens til at være mindre pålidelig.

For de fleste anvendte formål — teamudvikling, individuel coaching, selvforståelse — er den praktiske forskel mellem KTT-sumscoring og IRT lille. Hvor IRT tilbyder en klar fordel er i adaptiv testning (valg af hvilke items der skal administreres baseret på tidligere svar, hvilket muliggør kortere tests med tilsvarende præcision) og i højrisikokontekster, hvor målepræcision ved distributionens ekstremer er vigtig. For mere om, hvordan testlængde interagerer med disse beregninger, se hvorfor 120 items er bedre end 10: personlighedstestlængde.

Trin 4: Normativ vs. ipsativ scoring — og hvorfor det ændrer alt

Dette er måske den mindst forstårte sondring i scoring af personlighedstests — og en af de mest konsekvente.

Normativ scoring sammenligner hver respondents score med en referencepopulation (den normative stikprøve). En råsum på 78 på en Samvittighedsfuldhedsskala betyder intet, indtil du ved, at den gennemsnitlige person i den normative stikprøve scorer 65, og standardafvigelsen er 12 — hvilket betyder, at en score på 78 er cirka én standardafvigelse over gennemsnittet, eller omtrent det 84. percentil. Normative scorer besvarer spørgsmålet: Hvordan klarer denne person sig sammenlignet med andre?

Ipsativ scoring producerer relative scorer — sammenligninger af respondentens egen position på forskellige traits i forhold til hinanden, snarere end sammenligninger med andre mennesker. Forced-choice-formater producerer naturligt ipsative data: Hvis en respondent konsekvent har valgt samvittighedsfuldhedsrelevante udsagn frem for agreeablenessrelevante, vil de ende med en relativt høj Samvittighedsfuldhedsscore og en relativt lav Agreeablenessscore — men scorerne er defineret i forhold til hinanden, ikke i forhold til en population.

Den psykometriske litteratur er klar på, at ipsative scorer er egnede til at forstå intra-personlige prioritetsordninger, men er uegnede til at sammenligne personer med hinanden eller til at forudsige resultater i kriterievaliditetsstudier. At bruge ipsative scorer til at sammenligne kandidater i en ansættelsesbeslutning er en metodisk fejl — fordi en kandidat, der scorer højt i Samvittighedsfuldhed ipsativt, kan have lavere absolut Samvittighedsfuldhed end en anden kandidat, hvis ipsative score er middelmådig. For de ansættelsesspecifikke implikationer, se personlighedstest i ansættelse: hvad der er lovligt og hvad der er etisk.

Scoringsmetode	Hvordan det virker	Fordele	Ulemper
Likert-sum/gennemsnit (KTT)	Summerer eller beregner gennemsnit af itemscorer efter omvendt scoring	Simpelt, transparent, velforstået	Behandler alle items som lige informative
Item Response Theory (IRT)	Modellerer sandsynligheden for hvert svar som en funktion af det latente trait	Mere præcist ved distributionens ekstremer; muliggør adaptiv testning	Mere komplekst at implementere og forklare
Normativ scoring	Sammenligner råscore med referencepopulation	Muliggør sammenligning på tværs af individer; meningsfulde percentilrangeringer	Kvaliteten afhænger stærkt af normativ stikprøves repræsentativitet
Ipsativ scoring	Rangerer traits i forhold til hinanden inden for en person	Reducerer socialt ønskeværdigt svar; afslører intra-personlige prioriteter	Ugyldig til sammenligninger mellem personer; kan ikke bruges i kriterievaliditetsstudier

Trin 5: Hvorfor den normative database former dit Big Five-percentil

En normativ score er kun så meningsfuld som den normative stikprøve, den er afledt fra. Hvis referencepopulationen, der bruges til at producere en percentilescore, er systematisk forskellig fra den person, der vurderes — forskellig alder, erhverv, kultur, uddannelsesniveau — kan percentilet være vildledende.

En Samvittighedsfuldhedsscore ved det 75. percentil af en generel voksenpopulationsstikprøve kan svare til det 55. percentil af en højtuddannet faglig population, hvor den gennemsnitlige Samvittighedsfuldhed har tendens til at være højere. Brug af den forkerte normative base producerer scorer, der systematisk fejlrepræsenterer, hvor en person befinder sig i forhold til den sammenligningspopulation, der faktisk er relevant for den pågældende beslutning.

Veldesignede vurderingsplatforme opretholder separate normative stikprøver til forskellige populationer — efter erhverv, land, aldersgruppe — og anvender den relevante norm til hvert assessment. Cèrcol bruger normativ scoring afledt af IPIP-valideringsstikprøver med løbende dataindsamling for at udvikle normer, der er relevante for de specifikke populationer, der bruger platformen. For den fulde diskussion om, hvad reliabilitet og validitet betyder i denne sammenhæng, se hvad er reliabilitet og validitet i personlighedstest.

Hvordan Cèrcol scorer sit Big Five-instrument

Cèrcols instrument bruger Likert-format items med blandet positiv og negativ kodning, KTT-sumscore efter omvendt kodning og normativ sammenligning mod publicerede IPIP-valideringsstikprøver. Dimensionsscorer standardiseres som percentilækvivalenter, og facetscorer rapporteres som standardiserede scorer inden for hver dimension. For et dybt dyk ned i, hvad facetter tilføjer til billedet, som domænescorer alene ikke kan levere, se hvad er en facet i personlighedspsykologi.

Vidne-assessmentet anvender den samme scoring-algoritme på observatørresponser og producerer sammenlignelige dimensions- og facetscorer, der direkte kan lægges over selvrapportdata. Scoreafvigelser mellem selvet og Vidnet markeres i rapporter som potentielle blinde vinkler — områder, hvor selvopfattelse og ekstern opfattelse divergerer meningsfuldt. For at forstå, hvorfor dette peer-lag er vigtigt, se hvorfor selvvurdering alene ikke er nok: peer-personligheds-feedback.

At forstå scoring-processen ændrer ikke, hvad scorerne betyder i praksis. Men det gør det klart, at personlighedsscorer ikke er mystiske outputs fra en uigennemsigtig maskine. De er resultatet af eksplicitte, reviderbare metodiske valg — valg, der i Cèrcols tilfælde er forankret i publiceret psykometrisk forskning og tilgængelige til inspektion i videnskabsdokumentationen.

For kontekst om, hvad disse scorer er baseret på, og hvordan man bruger dem godt, se hvad reliabilitet og validitet betyder i personlighedstest og forced-choice personlighedsvurdering og hvorfor det producerer mere ærlige data.

Hvordan Cèrcol beregner dine Big Five-scorer

Cèrcols scoring er fuldstændig transparent: Likert-format items, omvendt kodning, hvor det er nødvendigt, KTT-sumaggregering og normativ percentilkonvertering ved hjælp af publicerede IPIP-stikprøver. Der er ingen proprietære black box-algoritmer. Vidne peer-assessmentlaget anvender den samme logik på observatørvurderede adjektivpar og lægger resultatet over din selvrapportprofil — og afslører de blinde vinkler, som intet selvrapportinstrument, uanset hvor omhyggeligt det er scoret, kan opdage på egen hånd.

Hvis du vil se denne metodologi i aktion, er den fulde Big Five-assessment gratis på cercol.team. Vidne-instrumentet tilføjer peer-perspektiver ved hjælp af et forced-choice-design, der omgår den acquiescens- og social ønskeligheds-inflation, der påvirker standard Likert-skalaer. Videnskabsdokumentationen detaljer hver scoring-beslutning med referencer til den publicerede psykometriske litteratur.

Videre læsning: Hvad reliabilitet og validitet betyder i personlighedstest · Forced-choice personlighedsvurdering: mere ærlige data

Hvordan personlighedstestscorer beregnes: fra items til dimensioner

Trin 1: Hvordan Big Five-itemsvarsformater former din score

Trin 2: Hvorfor omvendt scorede items beskytter Big Five-skalers validitet

Trin 3: Sumscoring vs. Item Response Theory i Big Five-assessment

Trin 4: Normativ vs. ipsativ scoring — og hvorfor det ændrer alt

Trin 5: Hvorfor den normative database former dit Big Five-percentil

Hvordan Cèrcol scorer sit Big Five-instrument

Hvordan Cèrcol beregner dine Big Five-scorer

Videre læsning

Relaterede artikler

Hvad reliabilitet og validitet betyder i personlighedstest — forklaret tydeligt

Hvorfor 120 items er bedre end 10: afvejningen i personlighedstesters længde

Hvad er en facet i personlighedspsykologi — og hvorfor er det vigtigt?