Durchblättern Sie eine beliebige Marketing-Seite für Persönlichkeitstests und Sie finden zwei Wörter, die als Beruhigung eingesetzt werden: reliabel und valide. Anbieter verwenden sie frei, mit minimaler Erklärung, als Signale, dass ihr Instrument wissenschaftlich glaubwürdig ist. Die Begriffe werden dem Leser fast nie definiert.
Das ist wichtig, weil Reliabilität und Validität nicht austauschbar sind, nicht dasselbe bedeuten und in der Praxis nicht einfach zu bewerten sind. Ein Instrument kann hoch reliabel sein, ohne valide zu sein. Ein Test kann Augenscheinvalidität zeigen — er sieht aus, als würde er das messen, was er behauptet —, während er jeden rigorosen statistischen Validitätskriterium nicht standhält. Und der MBTI, das weltweit kommerziell beliebteste Persönlichkeitsinstrument, illustriert genau, wie ein Instrument bei den Kriterien schlecht abschneiden kann, die seine Herausgeber selbst anführen.
Dieser Artikel erklärt jedes Konzept klar, beschreibt, wie man starke und schwache Belege für jedes erkennt, und bietet einen praktischen Bewertungsrahmen für jedes Persönlichkeitsinstrument.
Reliabilität bei Persönlichkeitstests: Was es bedeutet und welche Werte zu fordern sind
Reliabilität bezieht sich auf die Konsistenz einer Messung. Ein Test ist reliabel, wenn er unter Bedingungen, wo sich das zugrundeliegende Merkmal nicht verändert hat, dieselben — oder sehr ähnliche — Ergebnisse liefert. Es gibt zwei Haupttypen.
Test-Retest-Reliabilität
Test-Retest-Reliabilität fragt: Wenn dieselbe Person denselben Test zweimal mit ein paar Wochen Abstand macht, wie ähnlich sind die Ergebnisse? Scores können zwischen Testdurchführungen aus zwei Gründen variieren: echter Wandel im zugrundeliegenden Merkmal oder Messfehler. Ein reliabler Test minimiert Messfehler, sodass Score-Veränderungen zwischen Testdurchführungen hauptsächlich echten Wandel widerspiegeln und nicht Rauschen.
Der Standardschwellenwert für akzeptable Test-Retest-Reliabilität ist eine Korrelation von etwa 0.70 oder höher über ein Zwei-bis-Vier-Wochen-Intervall. Gut validierte Big-Five-Instrumente erreichen typischerweise 0.80 oder höher für Scores auf Domänenebene. Die Test-Retest-Reliabilität des MBTI ist geringer — Studien haben gefunden, dass etwa 50 Prozent der Befragten beim Retest nach fünf Wochen eine andere Vier-Buchstaben-Typklassifikation erhalten, was die statistische Signatur hoher Messfehler ist. Siehe MBTI vs Big Five für den vollständigen Vergleich.
Interne Konsistenz
Reliabilität der internen Konsistenz fragt, ob die Items innerhalb einer Skala dasselbe zugrundeliegende Konstrukt messen. Wenn eine Gewissenhaftigkeitsskala Items über Organisation, Fleiß und Zuverlässigkeit enthält, sollten diese Items miteinander korrelieren — weil sie alle dieselbe zugrundeliegende Disposition erfassen. Die Standardstatistik ist Cronbachs Alpha, wo Werte über 0.70 allgemein als akzeptabel und über 0.80 als gut angesehen werden.
Geringe interne Konsistenz bedeutet, dass Items innerhalb einer Skala verschiedene Dinge messen — was die Interpretation des Gesamtskalenwerts schwierig macht. Ein Gewissenhaftigkeitsscore, der aus Items abgeleitet wird, die kaum miteinander korrelieren, ist keine kohärente Messung. Für eine Erklärung, wie Skalenlänge mit interner Konsistenz interagiert, siehe warum 120 Items besser sind als 10.
Validität bei Persönlichkeitstests: Vier Typen, die jeder Käufer verstehen sollte
Validität adressiert eine andere Frage: Misst der Test wirklich, was er zu messen behauptet? Ein Test kann perfekt konsistent (reliabel) sein, während er etwas völlig Falsches misst. Die wichtigsten Formen von Validitätsnachweisen adressieren jeweils einen anderen Aspekt dieser Frage.
Konvergente Validität
Konvergente Validität fragt, ob der Test mit anderen etablierten Maßen desselben Konstrukts korreliert. Eine neue Extraversions-Skala sollte positiv mit bestehenden validierten Extraversions-Maßen korrelieren — denn wenn beide Extraversion messen, sollten sie sich einig sein, wer mehr und wer weniger davon hat.
Das klingt offensichtlich, wird aber überraschend oft vernachlässigt. Viele proprietäre Instrumente berichten keine Daten zur konvergenten Validität, was es unmöglich macht zu beurteilen, ob sie dieselben Konstrukte wie die akademische Literatur messen. Die IPIP-Itembank wurde genau gebaut, um diese Art öffentlichen Vergleichs zu ermöglichen.
Kriteriumsvalidität
Kriteriumsvalidität — die praktisch wichtigste Form — fragt, ob der Test Ergebnisse vorhersagt, die das Merkmal theoretisch vorhersagen sollte. Wenn ein Gewissenhaftigkeitsmaß valide ist, sollte es Arbeitsleistung, akademische Leistung und Zielerreichung vorhersagen, weil Gewissenhaftigkeit das Merkmal ist, das in der Literatur am konsistentesten mit diesen Ergebnissen verbunden ist. Wenn ein Test behauptet, Gewissenhaftigkeit zu messen, aber keine Korrelation mit Arbeitsleistung zeigt, stimmt etwas mit der Behauptung nicht.
Prädiktive Validität ist ein spezifischer Untertyp: Sagt der Test zukünftige Ergebnisse voraus? Concurrent-Validität fragt, ob der Test mit gleichzeitig bewerteten Ergebnissen korreliert. Beides ist wichtig, aber prädiktive Validität ist der Goldstandard für Instrumente, die in der Personalauswahl eingesetzt werden. Für die Implikationen für Einstellungen speziell, siehe Persönlichkeitstests bei der Einstellung: was ist legal und was ist ethisch.
Diskriminante Validität
Diskriminante Validität fragt, ob der Test zu hoch mit Maßen anderer Konstrukte korreliert. Wenn eine Skala, die Verträglichkeit messen soll, so stark mit Gewissenhaftigkeit korreliert wie mit anderen Verträglichkeitsmaßen, misst sie möglicherweise Verträglichkeit nicht eigenständig. Zu verstehen, was jede Big-Five-Facette einzigartig misst, hilft hier — siehe Was ist eine Facette in der Persönlichkeitspsychologie.
Augenscheinvalidität vs. statistische Validität
Augenscheinvalidität ist das Erscheinungsbild, das Messung zu sein, was ein Test behauptet. Ein Item, das lautet „Ich bin ein organisierter Mensch", hat hohe Augenscheinvalidität für Gewissenhaftigkeit — es sieht aus, als würde es Organisation messen. Aber Augenscheinvalidität ist nicht dasselbe wie statistische Validität, und sie zu verwechseln ist einer der häufigsten Fehler bei der Bewertung von Persönlichkeitstests.
Viele populäre Instrumente haben hohe Augenscheinvalidität und bescheidene bis schlechte statistische Validität. Der Inhalt sieht relevant aus; die Vorhersagen sind schwach. Für eine Aufschlüsselung, welche populären Tests in diese Falle tappen, siehe die besten kostenlosen Persönlichkeitstests für Teams 2026.
| Psychometrisches Konzept | Was es misst | Guter Schwellenwert | Big-Five-Instrumente | MBTI |
|---|---|---|---|---|
| Test-Retest-Reliabilität | Konsistenz der Scores über die Zeit | r ≥ 0.70 über 4 Wochen | Typisch 0.80–0.90 | ~0.50 (50% Typwechsel beim Retest) |
| Interne Konsistenz (Cronbachs α) | Item-Kohärenz innerhalb einer Skala | α ≥ 0.70 | Typisch 0.80–0.90 | Moderat; variiert nach Skala |
| Konvergente Validität | Übereinstimmung mit anderen Maßen desselben Merkmals | r ≥ 0.50 mit etabliertem Maß | Gut dokumentiert in Peer Review | Begrenzte veröffentlichte Querschnittsdaten |
| Kriteriumsvalidität | Vorhersage realer Ergebnisse | Variiert; d ≥ 0.20 gilt als bedeutsam | Gewissenhaftigkeit sagt Arbeitsleistung robust voraus | Schwache Vorhersage der Arbeitsleistung |
| Diskriminante Validität | Unabhängigkeit von Maßen anderer Merkmale | Niedriges r mit konzeptuell verschiedenen Skalen | Generell unterstützt | Dimensionen nicht klar unabhängig voneinander |
Fünf Fragen zur Bewertung jedes Validitätsanspruchs eines Persönlichkeitstests
Wenn ein Anbieter oder Forscher behauptet, ein Persönlichkeitsinstrument sei „valide und reliabel", liefern folgende Fragen eine schnelle Qualitätsbewertung.
Frage 1: Sind die Validitätsnachweise in begutachteten Zeitschriften veröffentlicht? Proprietäre technische Berichte, White Papers und Website-Texte zählen nicht. Peer Review unterwirft Validitätsansprüche unabhängiger Überprüfung. Wenn der einzige Validitätsnachweis die eigene Dokumentation des Herausgebers ist, ist das ein Warnsignal. Die weiterreichenden Implikationen dafür, wie Persönlichkeitswissenschaft mit Replikation umgeht, werden in Persönlichkeitswissenschaft: die Replikationskrise behandelt.
Frage 2: Wie ist die Test-Retest-Reliabilität über ein klinisch bedeutsames Intervall? Vier bis sechs Wochen ist der Standard. Wenn diese Zahl nicht berichtet wird oder unter 0.70 liegt, ist die Messung verrauscht.
Frage 3: Welche Ergebnisse sagt das Instrument voraus? Kriteriumsvaliditätsnachweise sollten reale Ergebnisse einschließen, nicht nur Korrelationen mit anderen Selbstberichtsmaßen. Für arbeitsrelevante Instrumente ist Arbeitsleistung das Schlüsselkriterium.
Frage 4: Haben unabhängige Forschungsgruppen die Validitätsbefunde repliziert? Eine einzelne Studie der eigenen Entwickler des Instruments ist unzureichend. Replikation durch Forscher ohne kommerzielles Interesse am Ergebnis ist der bedeutsame Standard.
Frage 5: Ist die Auswertung transparent? Wenn der Auswertungsalgorithmus proprietär ist, können die Validitätsansprüche nicht unabhängig verifiziert werden. Open-Science-Instrumente — einschließlich des IPIP, auf dem Cèrcol aufgebaut ist — erlauben es jedem, die Ansprüche gegen die Daten zu prüfen. Siehe Persönlichkeitstests: Open Source vs. kommerziell für den vollständigen Vergleich.
Warum Peer-Bewertung Validität hinzufügt, die Selbstbericht nicht liefern kann
Eine unterschätzte Quelle von Validität in der Persönlichkeitsbeurteilung ist die Verwendung von Beobachterbewertungen neben dem Selbstbericht. Persönlichkeit, gemessen durch Personen, die das Subjekt kennen — Kollegen, Manager, direkte Berichte —, zeigt typischerweise höhere Kriteriumsvalidität als Selbstbericht allein, besonders für die Vorhersage von Arbeitsleistung.
Das liegt daran, dass Selbstbericht der Eindruckssteuerung unterliegt (sich bewusst oder unbewusst günstiger einzuschätzen) und begrenztem Selbstwissen (Menschen sind sich oft nicht bewusst, wie sie auf andere wirken). Beobachterbewertungen sind nicht frei von Verzerrungen, aber sie sind von anderen Verzerrungen betroffen — was bedeutet, dass die Kombination von Selbst- und Beobachterdaten genauere Persönlichkeitsschätzungen liefert als jede für sich allein. Für das vollständige Argument, siehe warum Selbsteinschätzung allein nicht ausreicht: Persönlichkeitsfeedback durch Kollegen.
Cèrcols Zeuge-Modell (Witness) ist um dieses Prinzip herum konzipiert. Die Geschichte des Big Five und die Wissenschaftsseite bieten weiteren Kontext zu den Validitätsnachweisen, die Cèrcols Designentscheidungen untermauern.
„Reliabilität und Validität sind keine Marketing-Behauptungen. Es sind spezifische statistische Eigenschaften mit festgelegten Schwellenwerten, messbar durch Standardmethoden und verifizierbar durch veröffentlichte Daten. Ein Instrument, das keine begutachteten Belege für beides liefern kann, sollte mit proportionalem Skeptizismus bewertet werden."
Wie Cèrcol die Reliabilitäts- und Validitätsanforderungen erfüllt
Cèrcols Instrument basiert auf der IPIP-Itembank — denselben gemeinfreien Items, deren psychometrische Eigenschaften unabhängig von Goldberg und Kollegen über Jahrzehnte veröffentlichter Forschung dokumentiert wurden. Test-Retest-Reliabilität auf Domänenebene für IPIP-basierte Big-Five-Skalen liegt typischerweise über r = 0.80 über Vier-Wochen-Intervalle. Interne Konsistenz (Cronbachs α) für die 20-Item-pro-Dimension-Skalen, die Cèrcol verwendet, liegt konsistent über 0.87.
Kriteriumsvalidität wird aus der breiteren Big-Five-Literatur übernommen: Gewissenhaftigkeit (Disziplin) sagt Arbeitsleistung in allen wichtigen Berufsgruppen voraus (Barrick & Mount, 1991, doi: 10.1111/j.1744-6570.1991.tb00688.x). Neurotizismus (Tiefe) sagt Stressreaktion und Wohlbefindensergebnisse voraus. Offenheit (Vision) sagt kreative Leistung voraus.
Die Zeuge-Peer-Bewertung fügt beobachterbeurteilte Scores auf denselben fünf Dimensionen hinzu unter Verwendung eines Forced-Choice-Formats, das Soziale-Erwünschtheit-Verzerrung reduziert — siehe Soziale-Erwünschtheit-Verzerrung in Persönlichkeitstests für die vollständige Methodik. Machen Sie die kostenlose Bewertung auf cercol.team und prüfen Sie die vollständige Validitätsdokumentation auf cercol.team/science.
Weiterführende Literatur: Die Geschichte des Big Five: von Allport zu Goldberg · Die Wissenschaft hinter Cèrcol
Weiterführende Literatur
- Warum 120 Items besser sind als 10: Länge von Persönlichkeitstests
- Wie Persönlichkeitstest-Scores berechnet werden
- Soziale Erwünschtheit in Persönlichkeitstests
- Persönlichkeitstests: Open Source vs. kommerziell
- Persönlichkeitswissenschaft: Die Replikationskrise
- Big Five vs MBTI: Welches ist zuverlässiger?