Beta-Launch — noch 500 kostenlose Vollmond-Lizenzen verfügbar. Hilf uns, Fehler zu finden.
Kostenlosen Zugang sichern

Forced-Choice-Persönlichkeitsbewertung: Warum sie ehrlichere Daten liefert

Forced-Choice-Persönlichkeitstests blockieren den in Likert-Skalen eingebauten Tendenz zur Zustimmung zu allem. Hier erklärt, wie das Design funktioniert und warum es wichtig ist.

Miquel Matoses·10 Min. Lesezeit

Die große Mehrheit der Persönlichkeitstests verwendet Likert-Skalen. Sie lesen eine Aussage — «Ich stehe gern im Mittelpunkt der Aufmerksamkeit» — und bewerten Ihre Zustimmung von 1 (stimme überhaupt nicht zu) bis 5 (stimme voll zu). Dieses Format ist intuitiv, schnell und verfügt über Jahrzehnte psychometrischer Forschung im Hintergrund.

Es hat auch ein bekanntes Problem: Es ist leicht zu manipulieren. Mehr noch, selbst Menschen, die wirklich ehrlich zu sein versuchen, neigen dazu, systematisch verzerrt zu antworten. Die Forced-Choice-Persönlichkeitsbewertung ist ein alternatives Format, das entwickelt wurde, um diese Probleme zu beheben. Zu verstehen, was es ist, wie es funktioniert und warum es genauere Daten liefert, ist wesentlich für die Bewertung jedes Persönlichkeitsinstruments — einschließlich des Zeuge/Zeugin-Instruments von Cèrcol.

Warum herkömmliche Persönlichkeitstests mit Likert-Skala ein Verzerrungsproblem haben

Persönlichkeitstests mit Likert-Skala dominieren sowohl die Forschung als auch die angewandte Bewertung. Das Big Five-Inventar, das NEO-PI-R, die IPIP-Skalen und Hunderte proprietärer Instrumente verwenden Variationen desselben Formats: Selbstbewertung auf einer Reihe von Aussagen von «nicht einverstanden» bis «einverstanden».

Die Stärken dieses Formats sind real. Es ist für Befragte intuitiv, einfach zu bewerten und liefert normative Daten — d.h. Scores können zwischen Individuen auf einer absoluten Skala verglichen werden. Ein Score von 4,2 bei Gewissenhaftigkeit ist direkt zwischen verschiedenen Personen vergleichbar, die denselben Test gemacht haben.

Aber Likert-Skalen haben zwei strukturelle Schwächen, die sich nicht vollständig durch sorgfältige Itemformulierung oder Anweisungen, «ehrlich zu antworten», beheben lassen.

Die erste ist der Akquieszenzbias: die Tendenz, zuzustimmen statt abzulehnen, unabhängig vom Inhalt. In allen Kulturen und Bevölkerungsgruppen neigen Menschen dazu, Aussagen häufiger zu befürworten als durch Zufall — «Einverstanden» zu sagen ist der Weg des geringsten Widerstands. Das bläht alle Eigenschaftsscores gleichmäßig auf.

Die zweite ist der Bias sozialer Erwünschtheit: die Tendenz, Aussagen zu befürworten, die ein vorteilhaftes Selbstbild darstellen. Wenn die sozial erwünschte Antwort offensichtlich ist (und bei den meisten Persönlichkeitsitems ist sie das), können motivierte Selbstpräsentierer ihre Scores auf gewünschten Dimensionen ohne jede Einschränkung maximieren. Für eine vollständige Erklärung, wie sehr das Big Five-Profile verzerrt, siehe Bias sozialer Erwünschtheit in Persönlichkeitstests.

Diese beiden Biases kombinieren sich zu Scores, die eine Mischung aus echten Eigenschaftsniveaus und Antwortstil sind — und diese Mischung ist nachträglich schwer zu entwirren. Für Teams, die sich fragen, ob ihre DISC- oder 16Personalities-Scores durch diesen Effekt aufgebläht sind, ist die Antwort fast sicher ja. Siehe DISC vs Big Five: Warum vier Stile nicht ausreichen für eine breitere Diskussion darüber, was verloren geht, wenn das Messdesign keine Verzerrung adressiert.

Was Forced-Choice-Persönlichkeitsbewertung wirklich ist

Forced-Choice-Persönlichkeitsbewertung — siehe Forced Choice — präsentiert Items anders. Anstatt jede Aussage unabhängig zu bewerten, werden Befragten Paare (oder Tripel) von Aussagen oder Adjektiven präsentiert, und sie werden gebeten zu wählen, welche sie besser beschreibt.

Zum Beispiel, anstatt «Ich bin gesprächig» und «Ich bin gründlich» separat zu bewerten, könnte ein Forced-Choice-Item beide zusammen präsentieren und fragen: «Welches dieser Wörter beschreibt Sie besser?» Der Befragte muss eines wählen. Er kann nicht beide gleichzeitig auf hohem Niveau befürworten.

Diese einfache strukturelle Änderung hat wichtige Konsequenzen:

  • Akquieszenz wird unmöglich: Sie können nicht beiden Optionen zustimmen. Jede Wahl offenbart eine Präferenz zwischen zwei Eigenschaften.
  • Soziale Erwünschtheit wird reduziert: Wenn beide Optionen positiv bewertet sind (wie in gut gestalteten Forced-Choice-Instrumenten), gibt es keine offensichtlich «gute» Antwort. «Warm» statt «präzise» zu wählen lässt Sie nicht besser oder schlechter aussehen — es offenbart nur relative Prioritäten.

«Forced-Choice-Formate eliminieren Akquieszenz-Antworten und reduzieren die Inflation sozialer Erwünschtheit erheblich, indem sie von Befragten verlangen, feste Zustimmungsmengen zwischen konkurrierenden Eigenschaftsbeschreibungen zuzuweisen.»
— Angepasst von Stark, S., Chernyshenko, O. S., & Drasgow, F. (2005). An IRT approach to constructing and scoring pairwise preference items. Applied Psychological Measurement, 29(3), 184–201. Siehe auch doi:10.1037/0022-3514.63.1.146

Warum Forced-Choice funktioniert: Standard-Likert-Skalen erlauben Befragten, sich bei jedem Merkmal «hoch» zu bewerten. Forced-Choice-Formate erfordern Kompromisse zwischen gleich wünschenswerten Optionen — sie zwingen Befragte dazu, relative Prioritäten zu offenbaren, anstatt absolute Ideale. Die Forschung zeigt, dass Forced-Choice den Bias sozialer Erwünschtheit im Vergleich zu Likert-Skalen um 40–60 % reduziert.

Ipsative Bewertung: Was das für die Interpretation von Big Five-Scores bedeutet

Forced-Choice-Instrumente liefern sogenannte ipsative Daten. Ein ipsativer Score stellt die Position einer Person bei einem Merkmal relativ zu ihren anderen eigenen Merkmalen dar — nicht relativ zu einer Populationsnorm. Wenn Ihr Profil hohe Präsenz und niedrige Tiefe zeigt, bedeutet das, dass Sie in relativen Begriffen extravertierter als neurotisch sind. Es sagt Ihnen nicht unbedingt, ob Sie extravertierter als der Durchschnittsmensch sind.

Das ist eine echte Einschränkung. Ipsative Daten können nicht für alle dieselben Zwecke wie normative Daten verwendet werden. Insbesondere ist der direkte Vergleich zweier Personenprofile (Präsenzwert von Person A vs Person B) mit ipsativen Daten methodisch kompliziert, da beide Profile intern referenziert sind. Für eine vollständige Behandlung von normativ vs ipsativer Bewertung, siehe wie Persönlichkeitstestwerte berechnet werden. Die Forschung über den angemessenen Umgang mit ipsativen Daten und Ansätze, die normativere Schätzungen aus Forced-Choice-Designs liefern (wie IRT-basierte Bewertung), ist fortlaufend.

Der Ansatz von Cèrcol erkennt diese Einschränkung an. Das Zeuge/Zeugin-Instrument ist hauptsächlich darauf ausgelegt, relative Prioritäten und blinde Flecken zu enthüllen — wo wird diese Person relativ zu ihrem eigenen Gesamtprofil als stärker oder schwächer wahrgenommen, und wie verhält sich das zu ihrer Selbstwahrnehmung? Das ist eine valide und wertvolle Verwendung ipsativer Daten, auch wenn absolute personenübergreifende Vergleiche zusätzliche methodische Sorgfalt erfordern.

Das AB5C-Zirkumplex: Wie Adjektive auf Big Five-Schnittpunkte abgebildet werden

Das Zeuge/Zeugin-Instrument von Cèrcol basiert auf dem Abgekürzten Big Five-Zirkumplex (AB5C), entwickelt von Hofstee, de Raad und Goldberg (1992). Das AB5C ist ein systematisches Rahmenwerk zur Abbildung von Persönlichkeitsadjektiven auf die Big Five-Dimensionen — nicht als reine Einzelfaktor-Indikatoren, sondern als gewichtete Kombinationen zweier Faktoren.

Im AB5C-Rahmenwerk ist ein Wort wie «durchsetzungsfähig» nicht einfach ein Extraversions-Adjektiv — es lädt sowohl auf Extraversion als auch auf (niedrige) Verträglichkeit. Ein Wort wie «kreativ» lädt sowohl auf Offenheit als auch auf (niedrige) Gewissenhaftigkeit. Durch die Abbildung von Adjektiven auf diese Schnittpunkte erfasst das AB5C die reiche, überlappende Struktur der Persönlichkeitssprache präziser als ein einfacher Faktor-für-Faktor-Ansatz. Für den breiteren Kontext, wie die Persönlichkeitssprache systematisch analysiert wurde, um das Big Five zu entwickeln, siehe die Geschichte des Big Five von Allport bis Goldberg.

Das ist wichtig für das Forced-Choice-Design, weil es ermöglicht, Paare zu konstruieren, die genuín psychometrisch informativ sind — jede Wahl zwischen einem Adjektivpaar liefert Informationen über die Position eines Befragten auf den relevanten Big Five-Dimensionen. Die Paare sind nicht willkürlich; sie sind prinzipienbasiert.

Im Zeuge/Zeugin-Instrument von Cèrcol werden Adjektivpaare ausgewählt, um die diskriminative Information über die fünf Dimensionen (Präsenz, Verbundenheit, Vision, Disziplin, Tiefe) zu maximieren, während die sozialen Erwünschtheitswerte innerhalb jedes Paares so gleich wie möglich gehalten werden. Dies stellt sicher, dass Entscheidungen echte Persönlichkeitsdifferenzierung statt unterschiedlicher sozialer Erwünschtheit offenbaren.

Wie das Zeuge/Zeugin-Instrument von Cèrcol Forced-Choice auf Peer-Bewertung anwendet

Das Zeuge/Zeugin-Instrument ist die Peer-Bewertungskomponente von Cèrcol. Anstatt Zeugen/Zeuginnen (Peer-Bewerter) zu bitten, die Zielperson auf Verhaltensaussagen zu bewerten, werden ihnen Adjektivpaare präsentiert, und sie werden gebeten zu wählen, welches Wort die Person, die sie kennen, besser beschreibt.

Das Instrument basiert auf der IPIP-Tradition — der Open-Science-Alternative zu kommerziell kontrollierten Persönlichkeitsinstrumenten. Die gesamte Itementwicklung ist transparent und dokumentiert. Der Quellcode, der Bewertungsalgorithmus und die psychometrische Dokumentation sind unter einer Open-Source-Lizenz auf cercol.team/science verfügbar.

Eine typische Zeuge/Zeugin-Sitzung dauert 8–12 Minuten. Das resultierende Profil zeigt die Scores der Zielperson auf jeder der fünf Cèrcol-Dimensionen, wie dieser Zeuge/diese Zeugin sie wahrnimmt, und das Aggregat aller Zeugen/Zeuginnen liefert das Peer-Komposit. Dieses Komposit wird dann mit dem Selbstbericht der Zielperson verglichen, um Ausrichtung und Lücken zu identifizieren. Für die vollständige Begründung, warum diese Peer-Schicht wichtig ist, siehe warum Selbstbewertung allein nicht ausreicht: Peer-Persönlichkeits-Feedback. Die Frage der Anonymität bei Peer-Bewertungen wird in Anonymität bei der Persönlichkeitsbewertung: warum sie wichtig ist behandelt.

Likert-Skala vs. Forced-Choice: Vollständiger Methodenvergleich

DimensionLikert-SkalaForced-Choice (Zeuge/Zeugin von Cèrcol)
AkquieszenzbiasHohes strukturelles RisikoDurch Design eliminiert
Soziale ErwünschtheitHoch, besonders bei geschätzten EigenschaftenSubstanziell reduziert (valenzabgeglichene Paare)
Score-InterpretationNormativ (absolutes Niveau)Ipsativ (relative Prioritäten)
Personenübergreifender VergleichUnkompliziertErfordert methodische Sorgfalt
FälschungsresistenzNiedrig bei transparenten ItemsHöher — beide Optionen typischerweise positiv
Theoretische VerankerungFaktor für FaktorAB5C-Zirkumplex
Kognitive AnforderungNiedrigModerat — echte Überlegung erforderlich

Ehrliche Einschränkungen der Forced-Choice-Persönlichkeitsbewertung

Forced-Choice ist kein Allheilmittel. Mehrere Einschränkungen verdienen ehrliche Anerkennung.

Erstens das oben beschriebene ipsative Bewertungsproblem. Während IRT-basierte Ansätze (Thurstonian IRT, entwickelt von Brown und Maydeu-Olivares) normativere Schätzungen aus Forced-Choice-Daten gewinnen können, sind diese Methoden rechenintensiv und erfordern beträchtliche Stichprobengrößen zur genauen Kalibrierung. Einfachere Forced-Choice-Bewertung bleibt eher ipsativ.

Zweitens sind Forced-Choice-Bewertungen kognitiv anspruchsvoller. Befragte müssen zwei Optionen wirklich vergleichen und entscheiden, welche besser passt, anstatt einfach jeden Item unabhängig zu bewerten. Das kann Abschlusszeiten verlangsamen und Befragte frustrieren, die das Gefühl haben, dass «beides gleichermaßen zutrifft». Die Unmöglichkeit zu sagen «beides» ist absichtlich, kann aber unnatürlich wirken.

Drittens eliminiert Forced-Choice nicht alle strategischen Antworten. Ein entschlossener Selbstdarsteller, der weiß, welche Adjektive welchen geschätzten Dimensionen zugeordnet sind, kann noch systematisch die «richtigen» Adjektive wählen. Für die vollständige Literatur darüber, was motiviertes Fälschen wirklich mit Persönlichkeitstestwerten macht, siehe Kann man einen Persönlichkeitstest fälschen?. Forced-Choice erhöht die kognitiven Kosten strategischer Antworten, macht sie aber nicht unmöglich — besonders für Befragte mit vorheriger Exposition gegenüber der Persönlichkeitstheorie.

Trotz dieser Einschränkungen ist das Gewicht der psychometrischen Evidenz klar: Forced-Choice-Instrumente liefern weniger verzerrte, differenziertere Daten als Likert-Skalen in Hocheinsatz-Bewertungskontexten. Für den Zeuge/Zeugin-Anwendungsfall — Peer-Bewertung, bei der soziale Anreize für wohlwollende Bewertungen real sind — ist das Forced-Choice-Design die methodisch überlegene Wahl. Und wenn Sie das im breiteren Landschaftsbereich verfügbarer Tools bewerten, siehe die besten kostenlosen Persönlichkeitstests für Teams 2026.

Forced-Choice vs. Likert: Welches liefert ehrlichere Big Five-Daten?

Forced-Choice-Persönlichkeitsbewertung eliminiert Akquieszenzbias durch Konstruktion und reduziert Bias sozialer Erwünschtheit durch valenzabgeglichene Itempaare erheblich. Das AB5C-Zirkumplex bietet die theoretische Grundlage für die psychometrisch prinzipienbasierte Adjektivpaarauswahl. Das Zeuge/Zeugin-Instrument von Cèrcol wendet diese Prinzipien in einem Open-Source-, IPIP-verankerten Peer-Bewertungstool an, das darauf ausgelegt ist, die ehrlichsten, differenziertesten verfügbaren Peer-Persönlichkeitsdaten zu liefern. Die Einschränkung — ipsative Bewertung — ist real und anerkannt, und die Interpretation ist entsprechend gestaltet.


Probieren Sie eine Forced-Choice Big Five-Bewertung: das Zeuge/Zeugin-Instrument von Cèrcol

Die meisten Persönlichkeitsbewertungen — DISC, 16Personalities, selbst Likert-skalenbasierte Big Five-Tools — sind demselben strukturellen Problem ausgesetzt: Wenn die sozial erwünschte Antwort sichtbar ist, werden motivierte Befragte (und selbst ehrliche, die genau sein wollen) ihre Antworten in diese Richtung verzerren. Das Forced-Choice-Design ist die am stärksten evidenzgestützte verfügbare Lösung.

Die Zeuge/Zeugin-Peer-Bewertung von Cèrcol ist ein Forced-Choice-Instrument, das auf dem AB5C-Zirkumplex-Rahmen aufgebaut und in der gemeinfreien IPIP-Itemtradition verankert ist. Zeugen/Zeuginnen wählen zwischen für soziale Erwünschtheit abgeglichenen Adjektivpaaren — was es strukturell schwer macht, gegenüber der Person, die sie bewerten, einheitlich positiv zu sein. Das Ergebnis sind Peer-Persönlichkeitsdaten, die widerspiegeln, wie die Person genuín erlebt wird, nicht nur, wie sehr der Zeuge/die Zeugin sie mag.

Die Selbstbewertung auf cercol.team ist kostenlos. Zeuge/Zeugin-Bewertungen hinzuzufügen dauert für jeden Peer 8–12 Minuten. Lesen Sie die vollständige wissenschaftliche Begründung, um zu verstehen, wie das Forced-Choice-Design und die AB5C-Verankerung zusammenarbeiten, um ehrlichere Big Five-Daten zu liefern.


Referenzen
Hofstee, W. K. B., de Raad, B., & Goldberg, L. R. (1992). Integration of the Big Five and circumplex approaches to trait structure. Journal of Personality and Social Psychology, 63(1), 146–163. doi:10.1037/0022-3514.63.1.146
Brown, A., & Maydeu-Olivares, A. (2011). Item response modeling of forced-choice questionnaires. Educational and Psychological Measurement, 71(3), 460–502.

Weiterführende Literatur

Verwandte Artikel

Cèrcol verwendet nur funktionale Cookies — keine Analyse-Cookies, keine Werbe-Tracker. Datenschutzrichtlinie