Beta-Launch — noch 500 kostenlose Vollmond-Lizenzen verfügbar. Hilf uns, Fehler zu finden.
Kostenlosen Zugang sichern

Warum 120 Items besser als 10 sind: der Kompromiss bei der Länge von Persönlichkeitstests

Kurze Big Five-Tests erreichen eine Reliabilität von ~0,55 gegenüber ~0,90 für 120-Item-Versionen. Hier ist der Kompromiss — und wann kurze Assessments gut genug sind.

Miquel Matoses·9 Min. Lesezeit

Das Ten-Item Personality Inventory — besser bekannt als TIPI — passt auf eine einzige Seite. Es misst alle fünf Big Five-Dimensionen mit jeweils zwei Items, lässt sich in unter zwei Minuten ausfüllen und wurde in Hunderten von Forschungsstudien verwendet. Es ist nach den meisten psychometrischen Standards auch ein erheblich weniger reliables Instrument als längere Alternativen.

Dieser Kompromiss ist nicht einzigartig für die Persönlichkeitsmessung. Er zieht sich durch die gesamte Psychometrie: Mehr Items, konsistenter gemessen, produzieren zuverlässigere Scores. Die Frage ist nicht, ob längere Tests besser sind — nach den meisten Reliabilitätsmetriken sind sie das — sondern wann der Reliabilitätsgewinn die Belastung der Befragten wert ist.


10 Items 44 Items 120 Items α = 0.64 α = 0.81 α = 0.92
Cronbachs Alpha-Reliabilität steigt mit der Testlänge substantiell an.

Die Spearman-Brown-Formel: Warum Testlänge Big Five-Reliabilität vorhersagt

Die mathematische Beziehung zwischen Testlänge und Reliabilität wurde vor über einem Jahrhundert von Charles Spearman und William Brown unabhängig voneinander formalisiert. Die Spearman-Brown-Prophezieformel sagt voraus, wie sich die Reliabilität verändert, wenn Sie die Anzahl der Items in einem Test ändern, vorausgesetzt, die neuen Items sind von ähnlicher Qualität wie die ursprünglichen.

Die Formel hat eine spezifische Implikation: Reliabilitätsgewinne durch Hinzufügen von Items folgen einer Kurve abnehmender Erträge. Von 2 Items auf 10 Items zu gehen, erzeugt einen großen Reliabilitätsgewinn. Von 80 Items auf 120 Items zu gehen, erzeugt einen viel kleineren. Die ersten Items leisten die meiste Arbeit; jedes zusätzliche Item fügt weniger hinzu als das vorherige.

Deshalb ist die Wahl der Testlänge eine echte Ingenieursentscheidung und keine einfache „Mehr ist immer besser"-Schlussfolgerung. An einem bestimmten Punkt übersteigt die Belastung der Befragten den Reliabilitätsgewinn. Die praktische Frage ist, wo dieser Punkt für den jeweiligen Anwendungsfall liegt. Für eine vollständige Behandlung, wie Reliabilität definiert und gemessen wird, siehe Was ist Reliabilität und Validität in Persönlichkeitstests.

"Die Spearman-Brown-Formel macht die Reliabilität-Länge-Beziehung präzise: Um die Reliabilität eines Tests zu verdoppeln, muss man seine Länge ungefähr vervierfachen."


Was 10-Item-Big Five-Tests verpassen, das längere Instrumente erfassen

Die zwei Items pro Dimension des TIPI können, konstruktionsbedingt, keine Facettenvariationen innerhalb jeder Big Five-Dimension erfassen. Wie in Was ist eine Facette in der Persönlichkeitspsychologie beschrieben, enthält jede Big Five-Dimension sechs Facetten — enge Untermerkmale, die für Menschen mit demselben Dimensionsgesamtscore in verschiedene Richtungen zeigen können.

Eine Gewissenhaftigkeitsskala mit zwei Items kann erfolgreich klassifizieren, ob eine Person auf der Dimension insgesamt hoch oder niedrig ist. Sie kann nicht zwischen jemandem unterscheiden, dessen Gewissenhaftigkeit durch Ordnung und Pflichtgefühl angetrieben wird, vs. jemandem, dessen Profil von Leistungsstreben und Selbstdisziplin dominiert wird — was genau der für Rollenpassung und Entwicklung relevanteste Unterschied ist.

Die gleiche Einschränkung gilt für alle Dimensionen. Eine Offenheitsskala mit zwei Items kann intellektuelle Neugier nicht von ästhetischer Sensibilität trennen. Eine Neurotizismusskala mit zwei Items kann angstgetriebene Reaktivität nicht von wutgetriebener Reaktivität unterscheiden.

Kurze Tests zeigen auch reduzierte Reliabilität für Individuen nahe der Mitte der Verteilung — dem Bereich, in dem die meisten Menschen auf den meisten Dimensionen Scores erzielen. Für klar extreme Scorer (sehr hoch oder sehr niedrig) können zwei Items ausreichen, um sie vernünftig zu klassifizieren. Für die Mehrheit, die im moderaten Bereich scored, ist der Messfehler einer Zwei-Item-Skala groß genug, um bei einem erneuten Test andere Klassifizierungen zu erzeugen. Für die statistische Erklärung, warum das wichtig ist, siehe Wie Persönlichkeitstest-Scores berechnet werden.


TIPI vs IPIP-NEO-120: Reliabilitätskompromisse Seite an Seite

Das IPIP-NEO-120 ist ein 120-Item-Instrument, frei verfügbar, das alle fünf Big Five-Dimensionen und alle dreißig Facetten misst. Es wurde speziell als Open-Access-Alternative zum proprietären NEO PI-R entwickelt, und seine Validitätseigenschaften wurden in peer-begutachteter Forschung dokumentiert.

Der Vergleich mit dem TIPI illustriert den Reliabilität-Länge-Kompromiss direkt:

TestlängeBeispielinstrumentItems pro DimensionFacettenmessungReliabilitätsschätzung (α)Geeigneter Anwendungsfall
10 ItemsTIPI2Keine~0.45–0.65 pro DimensionGroßangelegte Bevölkerungsforschung; Screening, wenn Kürze wesentlich ist; Niedrig-Einsatz-Selbsterkundung
44 ItemsBFI (Big Five Inventory)~8–9Keine~0.75–0.85 pro DimensionAkademische Forschung mit ausgewogenem Kürze-Reliabilität-Gleichgewicht; Gruppenstudien
60 ItemsIPIP-NEO-6012Teilweise~0.80–0.87 pro DimensionAngewandte Forschung; mittlere Einsatz-Entwicklungskontexte
100–120 ItemsCèrcol / IPIP-NEO-12020–24Vollständig (30 Facetten)~0.87–0.93 pro DimensionIndividuelle Entwicklung; Teamprofiling; Coaching; Hoch-Einsatz-Assessment
240 ItemsNEO PI-R (vollständig)48Vollständig (30 Facetten)~0.90–0.95 pro DimensionKlinische Bewertung; Forschung mit maximaler Präzision; Hoch-Einsatz-Selektion

Wann ein kurzer Persönlichkeitstest tatsächlich angemessen ist

Das Argument für kurze Persönlichkeitstests ist real und sollte nicht abgetan werden. In bestimmten Kontexten ist ein 10-Item-Instrument die richtige Wahl.

Großangelegte Bevölkerungsforschung erfordert die Teilnahme von Tausenden von Befragten. Eine Bearbeitungszeit von 10 Minuten erzeugt einen erheblich höheren Abbruch als eine von 2 Minuten, was verzerrte Stichproben produziert. Wenn sich die Forschungsfrage auf bevölkerungsweite Trends statt auf individuelle Profile bezieht, ist die schwächere Reliabilität des TIPI akzeptabel, da sie über große Stichproben gemittelt wird.

Screening-Kontexte — wo das Ziel ist, zu identifizieren, wer von einem gründlicheren Assessment profitieren könnte — können kurze Instrumente angemessen einsetzen. Wenn ein 10-Item-Screen Kandidaten im oberen oder unteren Quartil einer Dimension für eine weitere Bewertung identifiziert, ist die Kürze ein vernünftiger Kompromiss.

Wiederholte Messung stellt ein anderes Problem dar. Wenn Sie Persönlichkeitsveränderungen im Laufe der Zeit verfolgen möchten — oder über mehrere Entwicklungsinterventionen — ist die Verwaltung eines 120-Item-Instruments jedes Quartal beschwerlich. Eine validierte Kurzform, die konsistent über die Zeit angewendet wird, kann handlungsfähigere Längsschnittdaten produzieren als eine seltene Vollformat-Administration.

Niedrig-Einsatz-Selbsterkundung — wo der Benutzer einfach neugierig auf seine Persönlichkeit ist, anstatt die Daten für eine folgenreiche Entscheidung zu verwenden — kann angemessen kürzere Instrumente verwenden. Die Kosten des Messfehlers sind geringer, wenn die Einsätze geringer sind. Für einen Vergleich, welche kostenlosen Assessments für welche Einsätze angemessen sind, siehe die besten kostenlosen Persönlichkeitstests für Teams in 2026.


Wann Testlänge wichtig ist: Individuelle Entwicklung und Teamprofiling

Das Argument für längere Instrumente wird stärker, je höher die Einsätze und die Spezifitätsanforderungen des Anwendungsfalls sind.

Individuelle Entwicklung erfordert Facettenebenen-Daten. Ein 10-Item-Instrument kann einem Coach oder Manager nicht sagen, warum der Gewissenhaftigkeitsscore von jemandem das ist, was er ist — welche Facetten ihn antreiben und welche Entwicklungsinterventionen am wahrscheinlichsten wirksam sind. Ein 120-Item-Instrument mit Facettenebenen-Scoring liefert die Spezifität, die Entwicklungsgespräche erfordern.

Teamprofiling erfordert zuverlässige individuelle Scores als Eingaben für die Teamebenen-Analyse. Wenn individuelle Scores einen hohen Messfehler haben, erbt das Teamprofil diesen Fehler. Eine Teamkarte, die auf TIPI-Scores aufgebaut ist, zeigt eine größere zufällige Variation zwischen Profilen als eine, die auf längeren Instrumenten aufgebaut ist — was den Nutzen der Karte für deliberates Teamdesign reduziert. Siehe Cèrcols 12 Teamrollen dafür, wie Facettenebenen-Profile in Teamrollenerkenntnisse übersetzt werden.

Peer-Assessment verstärkt das Argument. Cèrcols Zeuge-Modell bittet Beobachter, die Persönlichkeit einer anderen Person über mehrere Dimensionen und Facetten hinweg zu bewerten. Ein kurzes Instrument würde das Signal aus Zeuge-Bewertungen so weit kollabieren, dass Beobachter-vs-Selbst-Diskrepanzen — die informativsten Daten im Bericht — unzuverlässig werden. Die Zeuge-Methodik wird ausführlich in Was das Zeuge-Instrument von Cèrcol misst erklärt.

Hocheinsatz-Entscheidungen — Leistungsbeurteilung, Rollenneuestaltung, Selektion für Führungsprogramme — erfordern, dass die Daten zuverlässig genug sind, um darauf zu handeln. Eine Messung mit α = 0.55 (typisches TIPI) bedeutet, dass 45 % der Score-Varianz zufälliges Rauschen ist. Eine Messung mit α = 0.90 bedeutet, dass nur 10 % Rauschen ist. Der Unterschied zwischen dem Handeln auf 55 % Signal vs. 90 % Signal ist der Unterschied zwischen nützlichen Daten und randomisierten Entscheidungen.


Warum Cèrcol 120 Items verwendet, um Reliabilität und Ausfüllzeit zu balancieren

Cèrcols Instrument verwendet 120 Items — 24 pro Big Five-Dimension — und bietet Facettenebenen-Messung, während es wesentlich kürzer als das vollständige 240-Item NEO PI-R bleibt. Das Design spiegelt einen bewussten Kompromiss wider: Facettenauflösung und Reliabilität über 0.87 pro Dimension beibehalten, während die Ausfüllzeit auf etwa 15 Minuten begrenzt wird.

Diese Länge wird durch Reliabilitäts- und Validitätsnachweise für IPIP-basierte Instrumente bei dieser Item-Anzahl und die praktische Realität unterstützt, dass Teamprofiling und individuelle Entwicklung Facettenebenen-Daten erfordern, die kürzere Instrumente strukturell nicht liefern können. Für die Wissenschaft dahinter, warum das wichtig ist, siehe Persönlichkeitstests: Open Source vs. kommerziell und Soziale Erwünschtheit in Persönlichkeitstests — längere Instrumente bieten auch mehr Möglichkeiten, umgekehrt codierte Items einzubeziehen, die vor Akquieszenz und sozialer Erwünschtheit schützen.

Die angemessene Länge für ein Persönlichkeitsinstrument wird nicht durch Konvention oder das, was bequem erscheint, bestimmt. Sie wird durch den Anwendungsfall, die erforderliche Reliabilität und das Spezifitätsniveau bestimmt, das die Daten liefern müssen. Für individuelle und Teamentwicklung unterstützt die Evidenz konsistent Instrumente im Bereich von 100–120 Items als praktisches Optimum.


Warum Cèrcol 120 Items statt 10 verwendet

Ein Persönlichkeitstest mit 10 Items ist besser als kein Test — aber für die Zwecke, die den meisten Teams wichtig sind (Rollenpassung, Entwicklungsplanung, Konfliktvorhersage, Coaching), sind 10 Items pro Dimension nicht genug. Zwei Items können keine Facetten unterscheiden, können Personen in der Mitte der Verteilung nicht zuverlässig klassifizieren und erzeugen einen Messfehler, der groß genug ist, um bei einem erneuten Test Schlussfolgerungen zu ändern.

Cèrcol verwendet 120 Items, weil das die kürzeste Instrumentlänge ist, die vollständige Facettenauflösung und Test-Retest-Reliabilität über 0.87 auf allen fünf Big Five-Dimensionen liefert. Die Items werden aus dem Open-Domain-IPIP-Item-Pool gezogen — derselben wissenschaftlichen Quelle, die in Hunderten von peer-begutachteten Studien verwendet wird. Das Ausfüllen dauert etwa 15 Minuten.

Wenn Sie sehen möchten, wie Facettenebenen-Big Five-Daten für Ihr Team tatsächlich aussehen, ist das Assessment kostenlos unter cercol.team. Das Zeuge-Peer-Assessment fügt observierungsbasierte Profile für jede Person hinzu — eine zweite Perspektive, die kein Selbstauskunft-Instrument, egal wie lang, ersetzen kann. Lesen Sie die vollständige Messbegründung unter cercol.team/science.


Weiterführende Lektüre: Was Reliabilität und Validität in Persönlichkeitstests bedeuten · Die Wissenschaft hinter Cèrcol

Weiterführende Lektüre

Verwandte Artikel

Cèrcol verwendet nur funktionale Cookies — keine Analyse-Cookies, keine Werbe-Tracker. Datenschutzrichtlinie