Is Cèrcol based on the Big Five?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP public-domain item pool (Goldberg et al. 2006). The 12 team roles are derived from the AB5C circumplex (Hofstee et al. 1992) and team composition research (Bell 2007; Neuman & Wright 1999).

What makes Cèrcol different from Belbin or DISC?

Cèrcol's roles are grounded in the Big Five (OCEAN) personality model using the IPIP public-domain item pool. The scoring pipeline is fully open source and auditable. Witness Cèrcol uses forced-choice adjective selection — not Likert scales — to eliminate social desirability bias in peer assessment. Unlike Belbin or DISC, all items are public domain and the entire methodology is published and citable.

Is the personality assessment free?

The New Moon Cèrcol (10 items, Big Five snapshot) and First Quarter Cèrcol (60 items, IPIP-NEO-60, 30 facets) are always free — no account required. The Full Moon Cèrcol (120 items, IPIP-NEO-120, Witness peer assessment, cognitive ability measure) requires a one-time payment.

What is Witness Cèrcol?

Witness Cèrcol is a peer personality assessment where someone who knows you well rates you using a forced-choice adjective selection method — picking the best-fit and worst-fit adjective per round from a set covering all five OCEAN dimensions. Forced choice eliminates the social desirability bias that affects standard Likert-scale peer ratings. Dimensions where your self-rating and peer ratings diverge by more than 0.8 standard deviations are flagged as potential blind spots.

How are the 12 team roles derived?

The 12 roles are derived from the AB5C circumplex (Hofstee, De Raad & Goldberg 1992), covering all six intersections of the three team balance dimensions (Presence/Extraversion × Bond/Agreeableness × Vision/Openness) at both poles. The selection of these three dimensions as requiring team-level balance is grounded in Bell (2007) and Neuman & Wright (1999). Discipline (Conscientiousness) and Depth (Neuroticism) modulate role expression but do not define team balance.

No account is required for any instrument. During assessment, no personal data is collected — only anonymous scores are logged. Data is stored on our own servers (Hetzner Online GmbH). No third-party analytics. No data is shared with or sold to third parties.

Is Cèrcol based on the Big Five (OCEAN)?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP — the International Personality Item Pool, a public-domain collection validated in thousands of published studies. The five dimensions are Presence (Extraversion), Bond (Agreeableness), Vision (Openness), Discipline (Conscientiousness), and Depth (Neuroticism). Because the IPIP is public domain there are no licence restrictions: the full item pool and scoring logic are open and citable.

How is Cèrcol different from Belbin, DISC, or StrengthsFinder?

Three things set Cèrcol apart. First, the items come from the Big Five (OCEAN), the most replicated personality model in academic research — not a proprietary framework. Second, the full item pool (IPIP) and scoring pipeline are public domain and auditable; there is no black box. Third, the Witness peer assessment uses forced-choice adjective selection instead of Likert scales, which eliminates the social desirability bias that affects most 360-feedback tools. Belbin and DISC use closed, proprietary methodologies.

What are blind spots in team personality assessment?

A blind spot is a personality dimension where how you see yourself and how others see you diverge significantly — more than 0.8 standard deviations apart. Cèrcol's Witness peer assessment detects blind spots by comparing your self-report with forced-choice adjective ratings from people who know you. Blind spots are neither good nor bad: they show where your self-perception and others' experience of you don't match, which is often more actionable than the score itself.

Was Reliabilität und Validität bei Persönlichkeitstests bedeuten

Durchblättern Sie eine beliebige Marketing-Seite für Persönlichkeitstests und Sie finden zwei Wörter, die als Beruhigung eingesetzt werden: reliabel und valide. Anbieter verwenden sie frei, mit minimaler Erklärung, als Signale, dass ihr Instrument wissenschaftlich glaubwürdig ist. Die Begriffe werden dem Leser fast nie definiert.

Das ist wichtig, weil Reliabilität und Validität nicht austauschbar sind, nicht dasselbe bedeuten und in der Praxis nicht einfach zu bewerten sind. Ein Instrument kann hoch reliabel sein, ohne valide zu sein. Ein Test kann Augenscheinvalidität zeigen — er sieht aus, als würde er das messen, was er behauptet —, während er jeden rigorosen statistischen Validitätskriterium nicht standhält. Und der MBTI, das weltweit kommerziell beliebteste Persönlichkeitsinstrument, illustriert genau, wie ein Instrument bei den Kriterien schlecht abschneiden kann, die seine Herausgeber selbst anführen.

Dieser Artikel erklärt jedes Konzept klar, beschreibt, wie man starke und schwache Belege für jedes erkennt, und bietet einen praktischen Bewertungsrahmen für jedes Persönlichkeitsinstrument.

α > 0.80 gutes Cronbachs Alpha (Reliabilität)

r > 0.30 Mindest-Validitätskoeffizient für praktischen Einsatz

0.27 Test-Retest-Stabilität des Big Five über 6 Jahre

Reliabilität vs. Validität: Ein reliabler Test liefert jedes Mal konsistente Ergebnisse — aber ein valider Test misst, was er zu messen behauptet. Beides ist notwendig; keines allein ist ausreichend.

Reliabilität bei Persönlichkeitstests: Was es bedeutet und welche Werte zu fordern sind

Reliabilität bezieht sich auf die Konsistenz einer Messung. Ein Test ist reliabel, wenn er unter Bedingungen, wo sich das zugrundeliegende Merkmal nicht verändert hat, dieselben — oder sehr ähnliche — Ergebnisse liefert. Es gibt zwei Haupttypen.

Test-Retest-Reliabilität

Test-Retest-Reliabilität fragt: Wenn dieselbe Person denselben Test zweimal mit ein paar Wochen Abstand macht, wie ähnlich sind die Ergebnisse? Scores können zwischen Testdurchführungen aus zwei Gründen variieren: echter Wandel im zugrundeliegenden Merkmal oder Messfehler. Ein reliabler Test minimiert Messfehler, sodass Score-Veränderungen zwischen Testdurchführungen hauptsächlich echten Wandel widerspiegeln und nicht Rauschen.

Der Standardschwellenwert für akzeptable Test-Retest-Reliabilität ist eine Korrelation von etwa 0.70 oder höher über ein Zwei-bis-Vier-Wochen-Intervall. Gut validierte Big-Five-Instrumente erreichen typischerweise 0.80 oder höher für Scores auf Domänenebene. Die Test-Retest-Reliabilität des MBTI ist geringer — Studien haben gefunden, dass etwa 50 Prozent der Befragten beim Retest nach fünf Wochen eine andere Vier-Buchstaben-Typklassifikation erhalten, was die statistische Signatur hoher Messfehler ist. Siehe MBTI vs Big Five für den vollständigen Vergleich.

Interne Konsistenz

Reliabilität der internen Konsistenz fragt, ob die Items innerhalb einer Skala dasselbe zugrundeliegende Konstrukt messen. Wenn eine Gewissenhaftigkeitsskala Items über Organisation, Fleiß und Zuverlässigkeit enthält, sollten diese Items miteinander korrelieren — weil sie alle dieselbe zugrundeliegende Disposition erfassen. Die Standardstatistik ist Cronbachs Alpha, wo Werte über 0.70 allgemein als akzeptabel und über 0.80 als gut angesehen werden.

Geringe interne Konsistenz bedeutet, dass Items innerhalb einer Skala verschiedene Dinge messen — was die Interpretation des Gesamtskalenwerts schwierig macht. Ein Gewissenhaftigkeitsscore, der aus Items abgeleitet wird, die kaum miteinander korrelieren, ist keine kohärente Messung. Für eine Erklärung, wie Skalenlänge mit interner Konsistenz interagiert, siehe warum 120 Items besser sind als 10.

Validität bei Persönlichkeitstests: Vier Typen, die jeder Käufer verstehen sollte

Validität adressiert eine andere Frage: Misst der Test wirklich, was er zu messen behauptet? Ein Test kann perfekt konsistent (reliabel) sein, während er etwas völlig Falsches misst. Die wichtigsten Formen von Validitätsnachweisen adressieren jeweils einen anderen Aspekt dieser Frage.

Konvergente Validität

Konvergente Validität fragt, ob der Test mit anderen etablierten Maßen desselben Konstrukts korreliert. Eine neue Extraversions-Skala sollte positiv mit bestehenden validierten Extraversions-Maßen korrelieren — denn wenn beide Extraversion messen, sollten sie sich einig sein, wer mehr und wer weniger davon hat.

Das klingt offensichtlich, wird aber überraschend oft vernachlässigt. Viele proprietäre Instrumente berichten keine Daten zur konvergenten Validität, was es unmöglich macht zu beurteilen, ob sie dieselben Konstrukte wie die akademische Literatur messen. Die IPIP-Itembank wurde genau gebaut, um diese Art öffentlichen Vergleichs zu ermöglichen.

Kriteriumsvalidität

Kriteriumsvalidität — die praktisch wichtigste Form — fragt, ob der Test Ergebnisse vorhersagt, die das Merkmal theoretisch vorhersagen sollte. Wenn ein Gewissenhaftigkeitsmaß valide ist, sollte es Arbeitsleistung, akademische Leistung und Zielerreichung vorhersagen, weil Gewissenhaftigkeit das Merkmal ist, das in der Literatur am konsistentesten mit diesen Ergebnissen verbunden ist. Wenn ein Test behauptet, Gewissenhaftigkeit zu messen, aber keine Korrelation mit Arbeitsleistung zeigt, stimmt etwas mit der Behauptung nicht.

Prädiktive Validität ist ein spezifischer Untertyp: Sagt der Test zukünftige Ergebnisse voraus? Concurrent-Validität fragt, ob der Test mit gleichzeitig bewerteten Ergebnissen korreliert. Beides ist wichtig, aber prädiktive Validität ist der Goldstandard für Instrumente, die in der Personalauswahl eingesetzt werden. Für die Implikationen für Einstellungen speziell, siehe Persönlichkeitstests bei der Einstellung: was ist legal und was ist ethisch.

Diskriminante Validität

Diskriminante Validität fragt, ob der Test zu hoch mit Maßen anderer Konstrukte korreliert. Wenn eine Skala, die Verträglichkeit messen soll, so stark mit Gewissenhaftigkeit korreliert wie mit anderen Verträglichkeitsmaßen, misst sie möglicherweise Verträglichkeit nicht eigenständig. Zu verstehen, was jede Big-Five-Facette einzigartig misst, hilft hier — siehe Was ist eine Facette in der Persönlichkeitspsychologie.

Augenscheinvalidität vs. statistische Validität

Augenscheinvalidität ist das Erscheinungsbild, das Messung zu sein, was ein Test behauptet. Ein Item, das lautet „Ich bin ein organisierter Mensch", hat hohe Augenscheinvalidität für Gewissenhaftigkeit — es sieht aus, als würde es Organisation messen. Aber Augenscheinvalidität ist nicht dasselbe wie statistische Validität, und sie zu verwechseln ist einer der häufigsten Fehler bei der Bewertung von Persönlichkeitstests.

Viele populäre Instrumente haben hohe Augenscheinvalidität und bescheidene bis schlechte statistische Validität. Der Inhalt sieht relevant aus; die Vorhersagen sind schwach. Für eine Aufschlüsselung, welche populären Tests in diese Falle tappen, siehe die besten kostenlosen Persönlichkeitstests für Teams 2026.

Psychometrisches Konzept	Was es misst	Guter Schwellenwert	Big-Five-Instrumente	MBTI
Test-Retest-Reliabilität	Konsistenz der Scores über die Zeit	r ≥ 0.70 über 4 Wochen	Typisch 0.80–0.90	~0.50 (50% Typwechsel beim Retest)
Interne Konsistenz (Cronbachs α)	Item-Kohärenz innerhalb einer Skala	α ≥ 0.70	Typisch 0.80–0.90	Moderat; variiert nach Skala
Konvergente Validität	Übereinstimmung mit anderen Maßen desselben Merkmals	r ≥ 0.50 mit etabliertem Maß	Gut dokumentiert in Peer Review	Begrenzte veröffentlichte Querschnittsdaten
Kriteriumsvalidität	Vorhersage realer Ergebnisse	Variiert; d ≥ 0.20 gilt als bedeutsam	Gewissenhaftigkeit sagt Arbeitsleistung robust voraus	Schwache Vorhersage der Arbeitsleistung
Diskriminante Validität	Unabhängigkeit von Maßen anderer Merkmale	Niedriges r mit konzeptuell verschiedenen Skalen	Generell unterstützt	Dimensionen nicht klar unabhängig voneinander

Fünf Fragen zur Bewertung jedes Validitätsanspruchs eines Persönlichkeitstests

Wenn ein Anbieter oder Forscher behauptet, ein Persönlichkeitsinstrument sei „valide und reliabel", liefern folgende Fragen eine schnelle Qualitätsbewertung.

Frage 1: Sind die Validitätsnachweise in begutachteten Zeitschriften veröffentlicht? Proprietäre technische Berichte, White Papers und Website-Texte zählen nicht. Peer Review unterwirft Validitätsansprüche unabhängiger Überprüfung. Wenn der einzige Validitätsnachweis die eigene Dokumentation des Herausgebers ist, ist das ein Warnsignal. Die weiterreichenden Implikationen dafür, wie Persönlichkeitswissenschaft mit Replikation umgeht, werden in Persönlichkeitswissenschaft: die Replikationskrise behandelt.

Frage 2: Wie ist die Test-Retest-Reliabilität über ein klinisch bedeutsames Intervall? Vier bis sechs Wochen ist der Standard. Wenn diese Zahl nicht berichtet wird oder unter 0.70 liegt, ist die Messung verrauscht.

Frage 3: Welche Ergebnisse sagt das Instrument voraus? Kriteriumsvaliditätsnachweise sollten reale Ergebnisse einschließen, nicht nur Korrelationen mit anderen Selbstberichtsmaßen. Für arbeitsrelevante Instrumente ist Arbeitsleistung das Schlüsselkriterium.

Frage 4: Haben unabhängige Forschungsgruppen die Validitätsbefunde repliziert? Eine einzelne Studie der eigenen Entwickler des Instruments ist unzureichend. Replikation durch Forscher ohne kommerzielles Interesse am Ergebnis ist der bedeutsame Standard.

Frage 5: Ist die Auswertung transparent? Wenn der Auswertungsalgorithmus proprietär ist, können die Validitätsansprüche nicht unabhängig verifiziert werden. Open-Science-Instrumente — einschließlich des IPIP, auf dem Cèrcol aufgebaut ist — erlauben es jedem, die Ansprüche gegen die Daten zu prüfen. Siehe Persönlichkeitstests: Open Source vs. kommerziell für den vollständigen Vergleich.

Warum Peer-Bewertung Validität hinzufügt, die Selbstbericht nicht liefern kann

Eine unterschätzte Quelle von Validität in der Persönlichkeitsbeurteilung ist die Verwendung von Beobachterbewertungen neben dem Selbstbericht. Persönlichkeit, gemessen durch Personen, die das Subjekt kennen — Kollegen, Manager, direkte Berichte —, zeigt typischerweise höhere Kriteriumsvalidität als Selbstbericht allein, besonders für die Vorhersage von Arbeitsleistung.

Das liegt daran, dass Selbstbericht der Eindruckssteuerung unterliegt (sich bewusst oder unbewusst günstiger einzuschätzen) und begrenztem Selbstwissen (Menschen sind sich oft nicht bewusst, wie sie auf andere wirken). Beobachterbewertungen sind nicht frei von Verzerrungen, aber sie sind von anderen Verzerrungen betroffen — was bedeutet, dass die Kombination von Selbst- und Beobachterdaten genauere Persönlichkeitsschätzungen liefert als jede für sich allein. Für das vollständige Argument, siehe warum Selbsteinschätzung allein nicht ausreicht: Persönlichkeitsfeedback durch Kollegen.

Cèrcols Zeuge-Modell (Witness) ist um dieses Prinzip herum konzipiert. Die Geschichte des Big Five und die Wissenschaftsseite bieten weiteren Kontext zu den Validitätsnachweisen, die Cèrcols Designentscheidungen untermauern.

„Reliabilität und Validität sind keine Marketing-Behauptungen. Es sind spezifische statistische Eigenschaften mit festgelegten Schwellenwerten, messbar durch Standardmethoden und verifizierbar durch veröffentlichte Daten. Ein Instrument, das keine begutachteten Belege für beides liefern kann, sollte mit proportionalem Skeptizismus bewertet werden."

Wie Cèrcol die Reliabilitäts- und Validitätsanforderungen erfüllt

Cèrcols Instrument basiert auf der IPIP-Itembank — denselben gemeinfreien Items, deren psychometrische Eigenschaften unabhängig von Goldberg und Kollegen über Jahrzehnte veröffentlichter Forschung dokumentiert wurden. Test-Retest-Reliabilität auf Domänenebene für IPIP-basierte Big-Five-Skalen liegt typischerweise über r = 0.80 über Vier-Wochen-Intervalle. Interne Konsistenz (Cronbachs α) für die 20-Item-pro-Dimension-Skalen, die Cèrcol verwendet, liegt konsistent über 0.87.

Kriteriumsvalidität wird aus der breiteren Big-Five-Literatur übernommen: Gewissenhaftigkeit (Disziplin) sagt Arbeitsleistung in allen wichtigen Berufsgruppen voraus (Barrick & Mount, 1991, doi: 10.1111/j.1744-6570.1991.tb00688.x). Neurotizismus (Tiefe) sagt Stressreaktion und Wohlbefindensergebnisse voraus. Offenheit (Vision) sagt kreative Leistung voraus.

Die Zeuge-Peer-Bewertung fügt beobachterbeurteilte Scores auf denselben fünf Dimensionen hinzu unter Verwendung eines Forced-Choice-Formats, das Soziale-Erwünschtheit-Verzerrung reduziert — siehe Soziale-Erwünschtheit-Verzerrung in Persönlichkeitstests für die vollständige Methodik. Machen Sie die kostenlose Bewertung auf cercol.team und prüfen Sie die vollständige Validitätsdokumentation auf cercol.team/science.

Weiterführende Literatur: Die Geschichte des Big Five: von Allport zu Goldberg · Die Wissenschaft hinter Cèrcol

Was Reliabilität und Validität bei Persönlichkeitstests bedeuten — klar erklärt

Reliabilität bei Persönlichkeitstests: Was es bedeutet und welche Werte zu fordern sind

Test-Retest-Reliabilität

Interne Konsistenz

Validität bei Persönlichkeitstests: Vier Typen, die jeder Käufer verstehen sollte

Konvergente Validität

Kriteriumsvalidität

Diskriminante Validität

Augenscheinvalidität vs. statistische Validität

Fünf Fragen zur Bewertung jedes Validitätsanspruchs eines Persönlichkeitstests

Warum Peer-Bewertung Validität hinzufügt, die Selbstbericht nicht liefern kann

Wie Cèrcol die Reliabilitäts- und Validitätsanforderungen erfüllt

Weiterführende Literatur

Verwandte Artikel

Persönlichkeitswissenschaft und die Replikationskrise: Was hat standgehalten?

Was ist eine Facette in der Persönlichkeitspsychologie — und warum ist sie wichtig?

Die Geschichte des Big Five: von Allport bis Goldberg