Is Cèrcol based on the Big Five?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP public-domain item pool (Goldberg et al. 2006). The 12 team roles are derived from the AB5C circumplex (Hofstee et al. 1992) and team composition research (Bell 2007; Neuman & Wright 1999).

What makes Cèrcol different from Belbin or DISC?

Cèrcol's roles are grounded in the Big Five (OCEAN) personality model using the IPIP public-domain item pool. The scoring pipeline is fully open source and auditable. Witness Cèrcol uses forced-choice adjective selection — not Likert scales — to eliminate social desirability bias in peer assessment. Unlike Belbin or DISC, all items are public domain and the entire methodology is published and citable.

Is the personality assessment free?

The New Moon Cèrcol (10 items, Big Five snapshot) and First Quarter Cèrcol (60 items, IPIP-NEO-60, 30 facets) are always free — no account required. The Full Moon Cèrcol (120 items, IPIP-NEO-120, Witness peer assessment, cognitive ability measure) requires a one-time payment.

What is Witness Cèrcol?

Witness Cèrcol is a peer personality assessment where someone who knows you well rates you using a forced-choice adjective selection method — picking the best-fit and worst-fit adjective per round from a set covering all five OCEAN dimensions. Forced choice eliminates the social desirability bias that affects standard Likert-scale peer ratings. Dimensions where your self-rating and peer ratings diverge by more than 0.8 standard deviations are flagged as potential blind spots.

How are the 12 team roles derived?

The 12 roles are derived from the AB5C circumplex (Hofstee, De Raad & Goldberg 1992), covering all six intersections of the three team balance dimensions (Presence/Extraversion × Bond/Agreeableness × Vision/Openness) at both poles. The selection of these three dimensions as requiring team-level balance is grounded in Bell (2007) and Neuman & Wright (1999). Discipline (Conscientiousness) and Depth (Neuroticism) modulate role expression but do not define team balance.

No account is required for any instrument. During assessment, no personal data is collected — only anonymous scores are logged. Data is stored on our own servers (Hetzner Online GmbH). No third-party analytics. No data is shared with or sold to third parties.

Is Cèrcol based on the Big Five (OCEAN)?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP — the International Personality Item Pool, a public-domain collection validated in thousands of published studies. The five dimensions are Presence (Extraversion), Bond (Agreeableness), Vision (Openness), Discipline (Conscientiousness), and Depth (Neuroticism). Because the IPIP is public domain there are no licence restrictions: the full item pool and scoring logic are open and citable.

How is Cèrcol different from Belbin, DISC, or StrengthsFinder?

Three things set Cèrcol apart. First, the items come from the Big Five (OCEAN), the most replicated personality model in academic research — not a proprietary framework. Second, the full item pool (IPIP) and scoring pipeline are public domain and auditable; there is no black box. Third, the Witness peer assessment uses forced-choice adjective selection instead of Likert scales, which eliminates the social desirability bias that affects most 360-feedback tools. Belbin and DISC use closed, proprietary methodologies.

What are blind spots in team personality assessment?

A blind spot is a personality dimension where how you see yourself and how others see you diverge significantly — more than 0.8 standard deviations apart. Cèrcol's Witness peer assessment detects blind spots by comparing your self-report with forced-choice adjective ratings from people who know you. Blind spots are neither good nor bad: they show where your self-perception and others' experience of you don't match, which is often more actionable than the score itself.

Wie Persönlichkeitstestwerte berechnet werden: von Items zu Dimensionen

Sie setzen sich mit einem Persönlichkeitsfragebogen hin. Sie beantworten hundert Aussagen über sich selbst und bewerten jede auf einer Skala. Fünfzehn Minuten später erscheint ein Wert — ein Perzentil, ein Balkendiagramm, eine Kategorie. Die Zahl wirkt autoritativ. Aber zwischen dem Moment, in dem Sie auf ein Item antworten, und dem Moment, in dem ein Score erscheint, wurden eine Reihe methodischer Entscheidungen getroffen — Entscheidungen, die beeinflussen, was der Score bedeutet, wie vergleichbar er zwischen Personen ist, und wie viel Vertrauen Sie ihm schenken sollten.

Dieser Artikel erklärt jeden Schritt der Persönlichkeitstestwertung: Itemformat, umgekehrte Kodierung, Aggregationsmethoden, normative Datenbanken und den Unterschied zwischen den Ansätzen verschiedener Instrumente. Das Verständnis dieser Schritte macht Sie zu einem besseren Nutzer von Persönlichkeitsdaten.

Die fünfstufige Scoring-Pipeline von rohen Item-Antworten bis zu einem Perzentilwert.

Schritt 1: Wie Big Five-Item-Antwortformate Ihren Score beeinflussen

Das Rohmaterial eines Persönlichkeitsscores ist die Antwort auf einzelne Items. Das häufigste Format in der Big Five-Diagnostik ist die Likert-Skala: Befragte bewerten ihre Zustimmung zu einer Aussage — typischerweise „Stimme überhaupt nicht zu / Stimme nicht zu / Neutral / Stimme zu / Stimme voll und ganz zu" — meist auf einer fünf- oder siebenstufigen Skala. Siehe Likert-Skala — Wikipedia für die vollständigen statistischen Grundlagen.

Likert-Formate haben mehrere psychometrische Vorteile. Sie sind sensibel gegenüber Zustimmungsabstufungen, anstatt eine binäre Ja/Nein-Antwort zu erzwingen, was die Scorevarianz und damit die Reliabilität erhöht. Sie sind den meisten Befragten vertraut und reduzieren den kognitiven Aufwand der Antwortaufgabe. Und sie produzieren intervallskalenähnliche Daten, die einer standardmäßigen statistischen Analyse unterzogen werden können.

Es gibt alternative Formate, die jeweils andere Annahmen treffen:

Forced-Choice-Formate präsentieren Paare oder Gruppen eigenschaftsrelevanter Aussagen und fordern den Befragten auf, zu wählen, welche am meisten auf ihn zutrifft. Dieses Design wurde entwickelt, um den Einfluss sozial erwünschten Antwortverhaltens zu reduzieren — die Tendenz, Aussagen zu befürworten, die positiv bewertet erscheinen, unabhängig davon, ob sie zutreffend sind. Forced Choice erschwert die Darstellung eines idealisierten Selbstbildes, weil die Wahl einer positiven Aussage notwendigerweise die Ablehnung einer anderen bedeutet. Der Preis ist die ipsative Messung, die unten besprochen wird. Für eine vollständige Darstellung siehe Forced-Choice-Persönlichkeitsbewertung: warum sie ehrlichere Daten liefert.

Adjektivbewertungsformate präsentieren einzelne persönlichkeitsrelevante Wörter („organisiert", „spontan", „ängstlich") und fragen, wie gut jedes den Befragten beschreibt. Diese Formate werden schneller durchgeführt als vollständige Satzitems und zeigen eine angemessene Validität, neigen jedoch zu einer geringeren Reliabilität als Likert-Skalen mit vollständigen Sätzen — teilweise weil einzelne Wörter mehrdeutiger sind als vollständige Sätze.

Schritt 2: Warum umgekehrt kodierte Items die Validität von Big Five-Skalen schützen

Eine gut konzipierte Persönlichkeitsskala enthält sowohl positiv als auch negativ kodierte Items — das heißt, einige Items, bei denen Zustimmung das hohe Ende des Merkmals anzeigt, und andere, bei denen Zustimmung das niedrige Ende anzeigt. Ein Item wie „Ich halte meine Besitztümer ordentlich sortiert" ist positiv kodiert für Gewissenhaftigkeit; „Ich lasse Aufgaben häufig unfertig" ist negativ kodiert.

Negativ kodierte Items erfüllen zwei Zwecke. Erstens reduzieren sie den Einfluss des Akquieszenzbias — die Tendenz einiger Befragter, Aussagen unabhängig von deren Inhalt zuzustimmen. Wenn alle Items einer Gewissenhaftigkeitsskala in dieselbe Richtung formuliert sind, wird eine Person, die allem „zustimmt", als sehr gewissenhaft erscheinen, auch wenn ihr tatsächliches Verhalten dies nicht ist. Negativ kodierte Items bedeuten, dass konsistent zustimmendes Antworten einen mittleren Wert statt eines fälschlicherweise hohen ergibt. Für eine detaillierte Erklärung, wie Akquieszenz und soziale Erwünschtheit Scores verzerren, siehe Soziale Erwünschtheit in Persönlichkeitstests.

Bevor Items zu einem Dimensionsscore aggregiert werden, werden negativ kodierte Items umgekehrt bewertet: Eine Antwort von 5 auf einer 1–5-Skala wird als 1 rekodiert, eine 4 wird zu 2, eine 3 bleibt bei 3 usw. Nach der Umkehrkodierung zeigen alle Items in dieselbe Richtung, und einfache Summierung oder Mittelwertbildung ergibt einen kohärenten Skalenwert.

„Umgekehrtes Scoring ist kein Trick. Es ist eine Messschutzmaßnahme — ein Designmerkmal, das die Validität von Skalenwerten gegen systematische Antworttendenzen schützt, die sonst irreführende Ergebnisse produzieren würden. Ein Instrument ohne negativ kodierte Items sollte mit Vorsicht behandelt werden."

Schritt 3: Summenscore vs. Item-Response-Theorie in der Big Five-Diagnostik

Sobald Items in dieselbe Richtung gewertet sind, müssen sie zu einem Dimensionsscore kombiniert werden. Die beiden Hauptansätze sind der Summenscore der klassischen Testtheorie (KTT) und die Item-Response-Theorie (IRT).

Der Summenscore ist genau das, was er klingt: die Itemscores addieren (oder mitteln). Wenn eine Gewissenhaftigkeitsskala 20 Items enthält, die mit 1–5 bewertet werden, kann die Summe zwischen 20 und 100 liegen. Diese Rohsumme wird dann typischerweise an einer normativen Stichprobe standardisiert, um ein Perzentil oder einen standardisierten Score zu erzeugen. Summenscore ist einfach zu implementieren, leicht zu erklären und für die meisten Zwecke ausreichend.

Die Item-Response-Theorie (IRT) verfolgt einen anspruchsvolleren Ansatz. IRT-Modelle schätzen die Wahrscheinlichkeit jeder Antwortoption als Funktion des latenten Merkmalsniveaus des Befragten. Items werden nicht als gleichwertig behandelt — einige Items sind trennschärfer (besser darin, zwischen Personen auf verschiedenen Merkmalsniveaus zu unterscheiden), und einige Items sind an verschiedenen Punkten der Merkmalsverteilung informativer. IRT-Scoring gewichtet Items nach ihrer Diskriminationskraft und kann an den Extremen der Verteilung, wo Summenscore weniger zuverlässig ist, genauere Schätzungen liefern.

Für die meisten angewandten Zwecke — Teamentwicklung, individuelles Coaching, Selbstverständnis — ist der praktische Unterschied zwischen KTT-Summenscore und IRT gering. Wo IRT einen klaren Vorteil bietet, ist beim adaptiven Testen (Auswahl der zu verabreichenden Items basierend auf früheren Antworten, was kürzere Tests mit gleichwertiger Präzision ermöglicht) und in hochrangigen Kontexten, wo die Messpräzision an den Extremen der Verteilung wichtig ist. Für mehr über die Interaktion von Testlänge mit diesen Berechnungen siehe warum 120 Items besser sind als 10: Persönlichkeitstestlänge.

Schritt 4: Normative vs. ipsative Bewertung — und warum das alles verändert

Dies ist vielleicht die am wenigsten verstandene Unterscheidung in der Persönlichkeitstestwertung — und eine der folgenreichsten.

Normative Bewertung vergleicht den Score jedes Befragten mit einer Referenzpopulation (der normativen Stichprobe). Eine Rohsumme von 78 auf einer Gewissenhaftigkeitsskala bedeutet nichts, bis Sie wissen, dass die durchschnittliche Person in der normativen Stichprobe 65 Punkte erreicht und die Standardabweichung 12 beträgt — was bedeutet, dass ein Score von 78 etwa eine Standardabweichung über dem Mittelwert liegt, oder ungefähr dem 84. Perzentil entspricht. Normative Scores beantworten die Frage: Wie schneidet diese Person im Vergleich zu anderen ab?

Ipsative Bewertung produziert relative Scores — Vergleiche der eigenen Merkmalsausprägungen des Befragten miteinander, nicht Vergleiche mit anderen Personen. Forced-Choice-Formate produzieren natürlich ipsative Daten: Wenn ein Befragter konstant gewissenhaftigkeitsrelevante Aussagen gegenüber verträglichkeitsrelevanten bevorzugt, wird er mit einem relativ hohen Gewissenhaftigkeitsscore und einem relativ niedrigen Verträglichkeitsscore enden — aber die Scores sind relativ zueinander definiert, nicht relativ zu einer Population.

Die psychometrische Literatur ist klar, dass ipsative Scores für das Verständnis von Prioritätsordnungen innerhalb einer Person geeignet sind, aber für den Vergleich von Personen untereinander oder für die Vorhersage von Ergebnissen in Kriteriumsvaliditätsstudien ungeeignet sind. Die Verwendung ipsativer Scores zum Vergleich von Kandidaten in einer Einstellungsentscheidung ist ein methodischer Fehler — weil ein Kandidat, der ipsativ hoch in Gewissenhaftigkeit abschneidet, möglicherweise eine niedrigere absolute Gewissenhaftigkeit hat als ein anderer Kandidat, dessen ipsativer Score mittelmäßig ist. Für die spezifischen Einstellungsimplikationen siehe Persönlichkeitstests bei der Einstellung: was legal und was ethisch ist.

Bewertungsmethode	Wie es funktioniert	Vorteile	Nachteile
Likert-Summe/Mittelwert (KTT)	Summiert oder mittelt Itemscores nach Umkehrkodierung	Einfach, transparent, gut verstanden	Behandelt alle Items als gleichwertig informativ
Item-Response-Theorie (IRT)	Modelliert die Wahrscheinlichkeit jeder Antwort als Funktion des latenten Merkmals	Präziser an den Extremen der Verteilung; ermöglicht adaptives Testen	Komplexer zu implementieren und zu erklären
Normative Bewertung	Vergleicht Rohscore mit Referenzpopulation	Ermöglicht Vergleiche zwischen Individuen; bedeutsame Perzentilränge	Qualität hängt stark von der Repräsentativität der normativen Stichprobe ab
Ipsative Bewertung	Rangordnet Merkmale relativ zueinander innerhalb einer Person	Reduziert sozial erwünschtes Antworten; zeigt intraindividuelle Prioritäten	Ungültig für Vergleiche zwischen Personen; kann nicht in Kriteriumsvaliditätsstudien verwendet werden

Schritt 5: Warum die normative Datenbank Ihren Big Five-Perzentilwert beeinflusst

Ein normativer Score ist nur so bedeutsam wie die normative Stichprobe, aus der er abgeleitet wird. Wenn die Referenzpopulation, die zur Erstellung eines Perzentilscores verwendet wird, sich systematisch von der beurteilten Person unterscheidet — unterschiedliches Alter, Beruf, Kultur, Bildungsniveau — kann der Perzentilwert irreführend sein.

Ein Gewissenhaftigkeitsscore beim 75. Perzentil einer allgemeinen Erwachsenenpopulationsstichprobe könnte dem 55. Perzentil einer hochgebildeten Berufspopulation entsprechen, wo die mittlere Gewissenhaftigkeit tendenziell höher ist. Die Verwendung einer falschen normativen Basis produziert Scores, die systematisch falsch darstellen, wo eine Person im Verhältnis zur Vergleichspopulation steht, die für die jeweilige Entscheidung tatsächlich relevant ist.

Gut konzipierte Bewertungsplattformen führen separate normative Stichproben für verschiedene Populationen — nach Beruf, Land, Altersgruppe — und wenden die relevante Norm auf jede Bewertung an. Cèrcol verwendet normative Bewertung, die aus IPIP-Validierungsstichproben abgeleitet ist, mit laufender Datenerhebung zur Entwicklung von Normen, die für die spezifischen Populationen relevant sind, die die Plattform nutzen. Für die vollständige Diskussion darüber, was Reliabilität und Validität in diesem Kontext bedeuten, siehe was ist Reliabilität und Validität in Persönlichkeitstests.

Wie Cèrcol sein Big Five-Instrument bewertet

Cèrcols Instrument verwendet Likert-Format-Items mit gemischter positiver und negativer Kodierung, KTT-Summenbewertung nach Umkehrkodierung und normativem Vergleich mit veröffentlichten IPIP-Validierungsstichproben. Dimensionsscores werden als Perzentil-Äquivalente standardisiert, und Facettenscores werden als standardisierte Scores innerhalb jeder Dimension berichtet. Für einen tiefen Einblick in das, was Facetten zum Bild beitragen, das Domänenscores allein nicht liefern können, siehe was ist eine Facette in der Persönlichkeitspsychologie.

Die Zeuge-Bewertung wendet denselben Scoring-Algorithmus auf Beobachterantworten an und erzeugt vergleichbare Dimensions- und Facettenscores, die direkt mit Selbstberichtsdaten überlagert werden können. Scorediskrepanzen zwischen Selbstbericht und Zeuge werden in Berichten als potenzielle blinde Flecken markiert — Bereiche, in denen Selbst- und Fremdwahrnehmung bedeutsam abweichen. Um zu verstehen, warum diese Peer-Schicht wichtig ist, siehe warum Selbstbeurteilung allein nicht ausreicht: Persönlichkeits-Feedback von Peers.

Das Verständnis des Scoring-Prozesses ändert nicht, was die Scores in der Praxis bedeuten. Es macht aber deutlich, dass Persönlichkeitsscores keine mysteriösen Ausgaben einer undurchsichtigen Maschine sind. Sie sind das Ergebnis expliziter, nachprüfbarer methodischer Entscheidungen — Entscheidungen, die im Fall von Cèrcol in veröffentlichter psychometrischer Forschung verankert und zur Einsicht in der Wissenschaftsdokumentation verfügbar sind.

Für den Kontext darüber, worauf diese Scores basieren und wie man sie gut nutzt, siehe was Reliabilität und Validität in Persönlichkeitstests bedeuten und Forced-Choice-Persönlichkeitsbewertung und warum sie ehrlichere Daten liefert.

Wie Cèrcol Ihre Big Five-Scores berechnet

Cèrcols Scoring ist vollständig transparent: Likert-Format-Items, Umkehrkodierung wo nötig, KTT-Summenaggregation und normative Perzentilumrechnung unter Verwendung veröffentlichter IPIP-Stichproben. Es gibt keine proprietären Black-Box-Algorithmen. Die Zeuge-Peer-Bewertungsschicht wendet dieselbe Logik auf beobachterbeurteilte Adjektivpaare an und überlagert das Ergebnis auf Ihr Selbstberichtsprofil — und bringt die blinden Flecken zum Vorschein, die kein Selbstberichtsinstrument, egal wie sorgfältig bewertet, alleine erkennen kann.

Wenn Sie diese Methodik in Aktion sehen möchten, ist die vollständige Big Five-Bewertung kostenlos unter cercol.team. Das Zeuge-Instrument fügt Peer-Perspektiven mit einem Forced-Choice-Design hinzu, das die Akquieszenz- und soziale Erwünschtheitsverzerrung umgeht, die Standard-Likert-Skalen betrifft. Die Wissenschaftsdokumentation beschreibt jede Scoring-Entscheidung detailliert mit Verweisen auf die veröffentlichte psychometrische Literatur.

Weiterführende Lektüre: Was Reliabilität und Validität in Persönlichkeitstests bedeuten · Forced-Choice-Persönlichkeitsbewertung: ehrlichere Daten

Wie Persönlichkeitstestwerte berechnet werden: von Items zu Dimensionen

Schritt 1: Wie Big Five-Item-Antwortformate Ihren Score beeinflussen

Schritt 2: Warum umgekehrt kodierte Items die Validität von Big Five-Skalen schützen

Schritt 3: Summenscore vs. Item-Response-Theorie in der Big Five-Diagnostik

Schritt 4: Normative vs. ipsative Bewertung — und warum das alles verändert

Schritt 5: Warum die normative Datenbank Ihren Big Five-Perzentilwert beeinflusst

Wie Cèrcol sein Big Five-Instrument bewertet

Wie Cèrcol Ihre Big Five-Scores berechnet

Weiterführende Lektüre

Verwandte Artikel

Was Reliabilität und Validität bei Persönlichkeitstests bedeuten — klar erklärt

Was ist eine Facette in der Persönlichkeitspsychologie — und warum ist sie wichtig?

Warum 120 Items besser als 10 sind: der Kompromiss bei der Länge von Persönlichkeitstests