Is Cèrcol based on the Big Five?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP public-domain item pool (Goldberg et al. 2006). The 12 team roles are derived from the AB5C circumplex (Hofstee et al. 1992) and team composition research (Bell 2007; Neuman & Wright 1999).

What makes Cèrcol different from Belbin or DISC?

Cèrcol's roles are grounded in the Big Five (OCEAN) personality model using the IPIP public-domain item pool. The scoring pipeline is fully open source and auditable. Witness Cèrcol uses forced-choice adjective selection — not Likert scales — to eliminate social desirability bias in peer assessment. Unlike Belbin or DISC, all items are public domain and the entire methodology is published and citable.

Is the personality assessment free?

The New Moon Cèrcol (10 items, Big Five snapshot) and First Quarter Cèrcol (60 items, IPIP-NEO-60, 30 facets) are always free — no account required. The Full Moon Cèrcol (120 items, IPIP-NEO-120, Witness peer assessment, cognitive ability measure) requires a one-time payment.

What is Witness Cèrcol?

Witness Cèrcol is a peer personality assessment where someone who knows you well rates you using a forced-choice adjective selection method — picking the best-fit and worst-fit adjective per round from a set covering all five OCEAN dimensions. Forced choice eliminates the social desirability bias that affects standard Likert-scale peer ratings. Dimensions where your self-rating and peer ratings diverge by more than 0.8 standard deviations are flagged as potential blind spots.

How are the 12 team roles derived?

The 12 roles are derived from the AB5C circumplex (Hofstee, De Raad & Goldberg 1992), covering all six intersections of the three team balance dimensions (Presence/Extraversion × Bond/Agreeableness × Vision/Openness) at both poles. The selection of these three dimensions as requiring team-level balance is grounded in Bell (2007) and Neuman & Wright (1999). Discipline (Conscientiousness) and Depth (Neuroticism) modulate role expression but do not define team balance.

No account is required for any instrument. During assessment, no personal data is collected — only anonymous scores are logged. Data is stored on our own servers (Hetzner Online GmbH). No third-party analytics. No data is shared with or sold to third parties.

Is Cèrcol based on the Big Five (OCEAN)?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP — the International Personality Item Pool, a public-domain collection validated in thousands of published studies. The five dimensions are Presence (Extraversion), Bond (Agreeableness), Vision (Openness), Discipline (Conscientiousness), and Depth (Neuroticism). Because the IPIP is public domain there are no licence restrictions: the full item pool and scoring logic are open and citable.

How is Cèrcol different from Belbin, DISC, or StrengthsFinder?

Three things set Cèrcol apart. First, the items come from the Big Five (OCEAN), the most replicated personality model in academic research — not a proprietary framework. Second, the full item pool (IPIP) and scoring pipeline are public domain and auditable; there is no black box. Third, the Witness peer assessment uses forced-choice adjective selection instead of Likert scales, which eliminates the social desirability bias that affects most 360-feedback tools. Belbin and DISC use closed, proprietary methodologies.

What are blind spots in team personality assessment?

A blind spot is a personality dimension where how you see yourself and how others see you diverge significantly — more than 0.8 standard deviations apart. Cèrcol's Witness peer assessment detects blind spots by comparing your self-report with forced-choice adjective ratings from people who know you. Blind spots are neither good nor bad: they show where your self-perception and others' experience of you don't match, which is often more actionable than the score itself.

Warum 120 Items besser als 10 sind: der Kompromiss bei der Länge von Persönlichkeitstests

Die Spearman-Brown-Formel: Warum Testlänge Big Five-Reliabilität vorhersagt

Die mathematische Beziehung zwischen Testlänge und Reliabilität wurde vor über einem Jahrhundert von Charles Spearman und William Brown unabhängig voneinander formalisiert. Die Spearman-Brown-Prophezieformel sagt voraus, wie sich die Reliabilität verändert, wenn Sie die Anzahl der Items in einem Test ändern, vorausgesetzt, die neuen Items sind von ähnlicher Qualität wie die ursprünglichen.

Die Formel hat eine spezifische Implikation: Reliabilitätsgewinne durch Hinzufügen von Items folgen einer Kurve abnehmender Erträge. Von 2 Items auf 10 Items zu gehen, erzeugt einen großen Reliabilitätsgewinn. Von 80 Items auf 120 Items zu gehen, erzeugt einen viel kleineren. Die ersten Items leisten die meiste Arbeit; jedes zusätzliche Item fügt weniger hinzu als das vorherige.

Deshalb ist die Wahl der Testlänge eine echte Ingenieursentscheidung und keine einfache „Mehr ist immer besser"-Schlussfolgerung. An einem bestimmten Punkt übersteigt die Belastung der Befragten den Reliabilitätsgewinn. Die praktische Frage ist, wo dieser Punkt für den jeweiligen Anwendungsfall liegt. Für eine vollständige Behandlung, wie Reliabilität definiert und gemessen wird, siehe Was ist Reliabilität und Validität in Persönlichkeitstests.

"Die Spearman-Brown-Formel macht die Reliabilität-Länge-Beziehung präzise: Um die Reliabilität eines Tests zu verdoppeln, muss man seine Länge ungefähr vervierfachen."

Was 10-Item-Big Five-Tests verpassen, das längere Instrumente erfassen

Die zwei Items pro Dimension des TIPI können, konstruktionsbedingt, keine Facettenvariationen innerhalb jeder Big Five-Dimension erfassen. Wie in Was ist eine Facette in der Persönlichkeitspsychologie beschrieben, enthält jede Big Five-Dimension sechs Facetten — enge Untermerkmale, die für Menschen mit demselben Dimensionsgesamtscore in verschiedene Richtungen zeigen können.

Eine Gewissenhaftigkeitsskala mit zwei Items kann erfolgreich klassifizieren, ob eine Person auf der Dimension insgesamt hoch oder niedrig ist. Sie kann nicht zwischen jemandem unterscheiden, dessen Gewissenhaftigkeit durch Ordnung und Pflichtgefühl angetrieben wird, vs. jemandem, dessen Profil von Leistungsstreben und Selbstdisziplin dominiert wird — was genau der für Rollenpassung und Entwicklung relevanteste Unterschied ist.

Die gleiche Einschränkung gilt für alle Dimensionen. Eine Offenheitsskala mit zwei Items kann intellektuelle Neugier nicht von ästhetischer Sensibilität trennen. Eine Neurotizismusskala mit zwei Items kann angstgetriebene Reaktivität nicht von wutgetriebener Reaktivität unterscheiden.

Kurze Tests zeigen auch reduzierte Reliabilität für Individuen nahe der Mitte der Verteilung — dem Bereich, in dem die meisten Menschen auf den meisten Dimensionen Scores erzielen. Für klar extreme Scorer (sehr hoch oder sehr niedrig) können zwei Items ausreichen, um sie vernünftig zu klassifizieren. Für die Mehrheit, die im moderaten Bereich scored, ist der Messfehler einer Zwei-Item-Skala groß genug, um bei einem erneuten Test andere Klassifizierungen zu erzeugen. Für die statistische Erklärung, warum das wichtig ist, siehe Wie Persönlichkeitstest-Scores berechnet werden.

TIPI vs IPIP-NEO-120: Reliabilitätskompromisse Seite an Seite

Das IPIP-NEO-120 ist ein 120-Item-Instrument, frei verfügbar, das alle fünf Big Five-Dimensionen und alle dreißig Facetten misst. Es wurde speziell als Open-Access-Alternative zum proprietären NEO PI-R entwickelt, und seine Validitätseigenschaften wurden in peer-begutachteter Forschung dokumentiert.

Der Vergleich mit dem TIPI illustriert den Reliabilität-Länge-Kompromiss direkt:

Testlänge	Beispielinstrument	Items pro Dimension	Facettenmessung	Reliabilitätsschätzung (α)	Geeigneter Anwendungsfall
10 Items	TIPI	2	Keine	~0.45–0.65 pro Dimension	Großangelegte Bevölkerungsforschung; Screening, wenn Kürze wesentlich ist; Niedrig-Einsatz-Selbsterkundung
44 Items	BFI (Big Five Inventory)	~8–9	Keine	~0.75–0.85 pro Dimension	Akademische Forschung mit ausgewogenem Kürze-Reliabilität-Gleichgewicht; Gruppenstudien
60 Items	IPIP-NEO-60	12	Teilweise	~0.80–0.87 pro Dimension	Angewandte Forschung; mittlere Einsatz-Entwicklungskontexte
100–120 Items	Cèrcol / IPIP-NEO-120	20–24	Vollständig (30 Facetten)	~0.87–0.93 pro Dimension	Individuelle Entwicklung; Teamprofiling; Coaching; Hoch-Einsatz-Assessment
240 Items	NEO PI-R (vollständig)	48	Vollständig (30 Facetten)	~0.90–0.95 pro Dimension	Klinische Bewertung; Forschung mit maximaler Präzision; Hoch-Einsatz-Selektion

Wann ein kurzer Persönlichkeitstest tatsächlich angemessen ist

Das Argument für kurze Persönlichkeitstests ist real und sollte nicht abgetan werden. In bestimmten Kontexten ist ein 10-Item-Instrument die richtige Wahl.

Großangelegte Bevölkerungsforschung erfordert die Teilnahme von Tausenden von Befragten. Eine Bearbeitungszeit von 10 Minuten erzeugt einen erheblich höheren Abbruch als eine von 2 Minuten, was verzerrte Stichproben produziert. Wenn sich die Forschungsfrage auf bevölkerungsweite Trends statt auf individuelle Profile bezieht, ist die schwächere Reliabilität des TIPI akzeptabel, da sie über große Stichproben gemittelt wird.

Screening-Kontexte — wo das Ziel ist, zu identifizieren, wer von einem gründlicheren Assessment profitieren könnte — können kurze Instrumente angemessen einsetzen. Wenn ein 10-Item-Screen Kandidaten im oberen oder unteren Quartil einer Dimension für eine weitere Bewertung identifiziert, ist die Kürze ein vernünftiger Kompromiss.

Wiederholte Messung stellt ein anderes Problem dar. Wenn Sie Persönlichkeitsveränderungen im Laufe der Zeit verfolgen möchten — oder über mehrere Entwicklungsinterventionen — ist die Verwaltung eines 120-Item-Instruments jedes Quartal beschwerlich. Eine validierte Kurzform, die konsistent über die Zeit angewendet wird, kann handlungsfähigere Längsschnittdaten produzieren als eine seltene Vollformat-Administration.

Niedrig-Einsatz-Selbsterkundung — wo der Benutzer einfach neugierig auf seine Persönlichkeit ist, anstatt die Daten für eine folgenreiche Entscheidung zu verwenden — kann angemessen kürzere Instrumente verwenden. Die Kosten des Messfehlers sind geringer, wenn die Einsätze geringer sind. Für einen Vergleich, welche kostenlosen Assessments für welche Einsätze angemessen sind, siehe die besten kostenlosen Persönlichkeitstests für Teams in 2026.

Wann Testlänge wichtig ist: Individuelle Entwicklung und Teamprofiling

Das Argument für längere Instrumente wird stärker, je höher die Einsätze und die Spezifitätsanforderungen des Anwendungsfalls sind.

Individuelle Entwicklung erfordert Facettenebenen-Daten. Ein 10-Item-Instrument kann einem Coach oder Manager nicht sagen, warum der Gewissenhaftigkeitsscore von jemandem das ist, was er ist — welche Facetten ihn antreiben und welche Entwicklungsinterventionen am wahrscheinlichsten wirksam sind. Ein 120-Item-Instrument mit Facettenebenen-Scoring liefert die Spezifität, die Entwicklungsgespräche erfordern.

Teamprofiling erfordert zuverlässige individuelle Scores als Eingaben für die Teamebenen-Analyse. Wenn individuelle Scores einen hohen Messfehler haben, erbt das Teamprofil diesen Fehler. Eine Teamkarte, die auf TIPI-Scores aufgebaut ist, zeigt eine größere zufällige Variation zwischen Profilen als eine, die auf längeren Instrumenten aufgebaut ist — was den Nutzen der Karte für deliberates Teamdesign reduziert. Siehe Cèrcols 12 Teamrollen dafür, wie Facettenebenen-Profile in Teamrollenerkenntnisse übersetzt werden.

Peer-Assessment verstärkt das Argument. Cèrcols Zeuge-Modell bittet Beobachter, die Persönlichkeit einer anderen Person über mehrere Dimensionen und Facetten hinweg zu bewerten. Ein kurzes Instrument würde das Signal aus Zeuge-Bewertungen so weit kollabieren, dass Beobachter-vs-Selbst-Diskrepanzen — die informativsten Daten im Bericht — unzuverlässig werden. Die Zeuge-Methodik wird ausführlich in Was das Zeuge-Instrument von Cèrcol misst erklärt.

Hocheinsatz-Entscheidungen — Leistungsbeurteilung, Rollenneuestaltung, Selektion für Führungsprogramme — erfordern, dass die Daten zuverlässig genug sind, um darauf zu handeln. Eine Messung mit α = 0.55 (typisches TIPI) bedeutet, dass 45 % der Score-Varianz zufälliges Rauschen ist. Eine Messung mit α = 0.90 bedeutet, dass nur 10 % Rauschen ist. Der Unterschied zwischen dem Handeln auf 55 % Signal vs. 90 % Signal ist der Unterschied zwischen nützlichen Daten und randomisierten Entscheidungen.

Warum Cèrcol 120 Items verwendet, um Reliabilität und Ausfüllzeit zu balancieren

Cèrcols Instrument verwendet 120 Items — 24 pro Big Five-Dimension — und bietet Facettenebenen-Messung, während es wesentlich kürzer als das vollständige 240-Item NEO PI-R bleibt. Das Design spiegelt einen bewussten Kompromiss wider: Facettenauflösung und Reliabilität über 0.87 pro Dimension beibehalten, während die Ausfüllzeit auf etwa 15 Minuten begrenzt wird.

Diese Länge wird durch Reliabilitäts- und Validitätsnachweise für IPIP-basierte Instrumente bei dieser Item-Anzahl und die praktische Realität unterstützt, dass Teamprofiling und individuelle Entwicklung Facettenebenen-Daten erfordern, die kürzere Instrumente strukturell nicht liefern können. Für die Wissenschaft dahinter, warum das wichtig ist, siehe Persönlichkeitstests: Open Source vs. kommerziell und Soziale Erwünschtheit in Persönlichkeitstests — längere Instrumente bieten auch mehr Möglichkeiten, umgekehrt codierte Items einzubeziehen, die vor Akquieszenz und sozialer Erwünschtheit schützen.

Die angemessene Länge für ein Persönlichkeitsinstrument wird nicht durch Konvention oder das, was bequem erscheint, bestimmt. Sie wird durch den Anwendungsfall, die erforderliche Reliabilität und das Spezifitätsniveau bestimmt, das die Daten liefern müssen. Für individuelle und Teamentwicklung unterstützt die Evidenz konsistent Instrumente im Bereich von 100–120 Items als praktisches Optimum.

Warum Cèrcol 120 Items statt 10 verwendet

Ein Persönlichkeitstest mit 10 Items ist besser als kein Test — aber für die Zwecke, die den meisten Teams wichtig sind (Rollenpassung, Entwicklungsplanung, Konfliktvorhersage, Coaching), sind 10 Items pro Dimension nicht genug. Zwei Items können keine Facetten unterscheiden, können Personen in der Mitte der Verteilung nicht zuverlässig klassifizieren und erzeugen einen Messfehler, der groß genug ist, um bei einem erneuten Test Schlussfolgerungen zu ändern.

Cèrcol verwendet 120 Items, weil das die kürzeste Instrumentlänge ist, die vollständige Facettenauflösung und Test-Retest-Reliabilität über 0.87 auf allen fünf Big Five-Dimensionen liefert. Die Items werden aus dem Open-Domain-IPIP-Item-Pool gezogen — derselben wissenschaftlichen Quelle, die in Hunderten von peer-begutachteten Studien verwendet wird. Das Ausfüllen dauert etwa 15 Minuten.

Wenn Sie sehen möchten, wie Facettenebenen-Big Five-Daten für Ihr Team tatsächlich aussehen, ist das Assessment kostenlos unter cercol.team. Das Zeuge-Peer-Assessment fügt observierungsbasierte Profile für jede Person hinzu — eine zweite Perspektive, die kein Selbstauskunft-Instrument, egal wie lang, ersetzen kann. Lesen Sie die vollständige Messbegründung unter cercol.team/science.

Weiterführende Lektüre: Was Reliabilität und Validität in Persönlichkeitstests bedeuten · Die Wissenschaft hinter Cèrcol

Warum 120 Items besser als 10 sind: der Kompromiss bei der Länge von Persönlichkeitstests

Die Spearman-Brown-Formel: Warum Testlänge Big Five-Reliabilität vorhersagt

Was 10-Item-Big Five-Tests verpassen, das längere Instrumente erfassen

TIPI vs IPIP-NEO-120: Reliabilitätskompromisse Seite an Seite

Wann ein kurzer Persönlichkeitstest tatsächlich angemessen ist

Wann Testlänge wichtig ist: Individuelle Entwicklung und Teamprofiling

Warum Cèrcol 120 Items verwendet, um Reliabilität und Ausfüllzeit zu balancieren

Warum Cèrcol 120 Items statt 10 verwendet

Weiterführende Lektüre

Verwandte Artikel

Was Reliabilität und Validität bei Persönlichkeitstests bedeuten — klar erklärt

Was ist eine Facette in der Persönlichkeitspsychologie — und warum ist sie wichtig?

Wie Persönlichkeitstestwerte berechnet werden: von Items zu Dimensionen