Wenn Sie jemals einen Persönlichkeitstest gemacht haben und sich gefragt haben, ob Sie so antworten sollen, wie Sie wirklich sind, oder wie Sie gerne sein würden, haben Sie den Effekt sozialer Erwünschtheit am eigenen Leib erfahren. Diese Tendenz — sich in Fragebögen vorteilhaft darzustellen — ist eines der am besten dokumentierten Probleme in der Persönlichkeitsdiagnostik und eines der hartnäckigsten.
Zu verstehen, was soziale Erwünschtheit ist, wie stark sie Persönlichkeitstestergebnisse tatsächlich verzerrt und welche methodischen Ansätze sie reduzieren können, ist für jeden unverzichtbar, der Persönlichkeitsdaten ernst nimmt.
Was soziale Erwünschtheit ist und wie sie Big Five-Werte verzerrt
Soziale Erwünschtheit ist die Tendenz, Antworten zu geben, die von anderen — oder von einem selbst — positiv bewertet werden, anstatt Antworten, die die Realität genau widerspiegeln.
Im Kontext der Persönlichkeitsbewertung wirkt sie auf zwei Ebenen. Die erste ist das Impression Management: das bewusste Anpassen von Antworten, um ein besseres Bild zu vermitteln. Ein Bewerber, der gewissenhaft wirken möchte, bewertet sich bei Organisation und Zuverlässigkeit hoch, auch wenn dies seine tatsächlichen Tendenzen übertreibt. Die zweite ist die selbsttäuschende Verbesserung: der aufrichtige Glaube an eine positivere Version von sich selbst, ohne sich der Verzerrung bewusst zu sein. Diese zweite Form ist heimtückischer, weil sie nicht einfach dadurch beseitigt werden kann, dass man die Teilnehmer bittet, ehrlich zu sein.
Beide Formen wurden seit den 1950er Jahren umfassend untersucht. Die grundlegende Arbeit von Edwards (1957) stellte fest, dass die soziale Erwünschtheit einer Aussage einer der stärksten Prädiktoren für die Zustimmungsrate ist — Menschen stimmen sozial erwünschten Aussagen nicht nur zu, weil sie wahr sind, sondern weil sie wünschenswert sind. Jahrzehnte weiterer Forschung haben diesen Befund über Kulturen, Kontexte und Bewertungsinstrumente hinweg bestätigt.
Akquieszenzbias: Warum Menschen bei Persönlichkeitstests allem zustimmen
Soziale Erwünschtheit hat einen engen Verwandten, der ihre Auswirkungen bei Likert-Skala-Bewertungen verstärkt: den Akquieszenzbias. Akquieszenz ist die Tendenz, Aussagen unabhängig vom Inhalt zuzustimmen — häufiger „Ja" als „Nein" zu sagen, häufiger „stimme zu" oder „stimme voll zu" anzukreuzen, als der Inhalt rechtfertigt.
Bei Persönlichkeitsfragebögen, die Likert-Skalen verwenden (stimme überhaupt nicht zu → stimme voll zu), bläht Akquieszenz systematisch alle Werte auf. Wenn Sie dazu neigen, Aussagen zuzustimmen, erzielen Sie bei jeder bewerteten Dimension höhere Werte. Dadurch erscheinen Profile positiver extremer als sie tatsächlich sind, und es werden scheinbare Ähnlichkeiten zwischen Personen aufgebläht, die sich tatsächlich wesentlich unterscheiden können.
Akquieszenz und soziale Erwünschtheit interagieren: Beide schieben Antworten bei positiv formulierten Items in Richtung des oberen Skalenendes und verstärken so die Verzerrung. Eine Erklärung der Schutzmaßnahmen auf Bewertungsebene — umgekehrte Kodierung, negative Items — die dies teilweise abmildern, finden Sie unter wie Persönlichkeitstestwerte berechnet werden.
„Soziale Erwünschtheit ist nicht nur eine lästige Variable — sie erklärt einen wesentlichen und systematischen Anteil der Varianz in Selbstbericht-Persönlichkeitsmaßen, insbesondere bei Dimensionen, die als sozial wertgeschätzt wahrgenommen werden."
— Paulhus, D. L. (1991). Measurement and control of response bias. In J. P. Robinson et al. (Eds.), Measures of personality and social psychological attitudes.
Wie stark verzerrt soziale Erwünschtheit Big Five-Werte tatsächlich?
Die Frage, wie stark soziale Erwünschtheit Persönlichkeitswerte verzerrt, wurde untersucht, indem Werte auf Skalen zur sozialen Erwünschtheit (Instrumente zur Messung der Tendenz, sozial erwünscht zu antworten) mit Werten auf Standard-Persönlichkeitsmaßen korreliert wurden.
Die Ergebnisse sind erheblich. Korrelationen zwischen sozialer Erwünschtheit und Verträglichkeit liegen typischerweise zwischen ,30 und ,50 — was bedeutet, dass ein erheblicher Anteil der Varianz bei Verträglichkeitswerten den Wunsch widerspiegelt, verträglich zu wirken, nicht die tatsächliche Verträglichkeit. Gewissenhaftigkeit zeigt ähnliche Effekte mit Korrelationen von ,25 bis ,45. Neurotizismus (Tiefe) ist umgekehrt betroffen: Menschen unterschätzen systematisch ihre emotionale Instabilität, weil das Eingestehen sozial unerwünscht ist, was negative Korrelationen ähnlicher Größenordnung erzeugt.
Das sind keine trivialen Effekte. Sie bedeuten, dass in einer Standard-Likert-Skala-Persönlichkeitsbewertung die sichtbaren Werte eine Mischung aus dem zu messenden Merkmal und der allgemeinen Selbstdarstellungstendenz der Person sind. Diese zu trennen ist schwierig — und in Hochrisiko-Kontexten (Einstellung, Auswahl, hochprofilierte Entwicklungsprogramme) ist die Motivation, sich gut darzustellen, am höchsten und die Verzerrung am stärksten. Für den spezifischen Einstellungskontext siehe Persönlichkeitstests im Einstellungsverfahren: Was ist legal und was ist ethisch?.
Welche Big Five-Dimensionen werden am stärksten durch soziale Erwünschtheit verzerrt
Nicht alle Dimensionen sind gleich anfällig. Das Muster ist über Studien hinweg konsistent:
Bond (Verträglichkeit) und Discipline (Gewissenhaftigkeit) werden durch soziale Erwünschtheit am stärksten aufgebläht. Beide beinhalten weithin geschätzte Merkmale: freundlich, kooperativ, zuverlässig, organisiert sein. Menschen bewerten sich bei diesen Dimensionen nicht unbedingt höher, weil sie es tatsächlich sind, sondern weil die Bewertungen soziale Implikationen tragen, denen sie zustimmen wollen.
Depth (Neurotizismus) wird am stärksten abgewertet: Menschen bewerten sich systematisch als weniger ängstlich, weniger reizbar und weniger emotional reaktiv als ihre tatsächliche Erfahrung rechtfertigt, weil das Eingestehen emotionaler Instabilität soziale Kosten hat.
Presence (Extraversion) zeigt moderate Effekte. Extraversion wird in vielen beruflichen Kontexten geschätzt, was eine leichte Aufblähung erzeugt, aber die beobachtbare Natur der Dimension macht eine grobe Verzerrung schwer aufrechtzuerhalten.
Vision (Offenheit) zeigt ebenfalls moderate Effekte, besonders für Facetten der intellektuellen Neugier — Menschen sehen sich gerne als neugierig und aufgeschlossen.
Dieses Muster hat direkte Implikationen dafür, wie DISC, 16Personalities und andere Likert-Skala-Bewertungen interpretiert werden sollten, die Teams häufig verwenden. Siehe DISC vs. Big Five: Warum vier Stile nicht ausreichen und 16Personalities vs. Big Five: Der virale Test, der halb richtig liegt für die spezifischen Verzerrungen in jedem Rahmen.
Likert-Skala vs. Forced-Choice: Vergleich der Biasgefälligkeit
| Merkmal | Likert-Skala | Forced-Choice |
|---|---|---|
| Antwortformat | Jeden Item von 1–5 oder 1–7 bewerten | Eines aus jedem Paar auswählen |
| Akquieszenzbias | Hoch — man kann allem zustimmen | Keiner — die Wahl ist erzwungen |
| Soziale Erwünschtheit | Hoch — leicht, Optionen mit hoher Valenz zu wählen | Reduziert — Paare nach Valenz abgeglichen |
| Typ des Wertes | Normativ — absolutes Niveau pro Merkmal | Ipsativ — relative Prioritäten zwischen Merkmalen |
| Leichtigkeit des Fälschens | Hoch bei transparenten Items | Geringer — Valenzparität macht die „richtige Antwort" unklar |
| Kognitive Anforderung | Gering | Moderat — echte Wahl erforderlich |
| Beste Verwendung | Forschung, risikoarme Entwicklung | Auswahl, Hochrisiko-Assessment, Peer-Bewertungen |
Wie Forced-Choice-Design soziale Erwünschtheit reduziert
Die effektivste methodische Antwort auf soziale Erwünschtheit in der Persönlichkeitsbewertung ist das Forced-Choice-Design. Anstatt jeden Item unabhängig auf einer Skala zu bewerten, werden den Befragten Paare (oder Tripel) von Items vorgelegt, und sie werden gebeten zu wählen, welches sie am besten beschreibt.
Forced-Choice funktioniert, weil es soziale Erwünschtheit schwieriger zu handeln macht. Wenn beide Items eines Paares positiv sind — „warmherzig und einfühlsam" versus „präzise und gründlich" — gibt es keine offensichtlich sozial erwünschte Antwort. Sie sind gezwungen zu offenbaren, welches der beiden geschätzten Merkmale Sie genauer beschreibt. Die Wahl offenbart relative Prioritäten zwischen Dimensionen, anstatt absolute Niveaus auf jeder Dimension isoliert.
Die psychometrische Literatur zu Forced-Choice-Methoden, überprüft von Stark et al. (2005) und zuletzt von Brown und Maydeu-Olivares (2011), bestätigt, dass Forced-Choice-Bewertungen die Aufblähung durch soziale Erwünschtheit wesentlich reduzieren. Für die vollständige technische Erklärung, wie dies im Zeuge-Instrument von Cèrcol funktioniert, siehe Forced-Choice-Persönlichkeitsbewertung: Warum sie ehrlichere Daten liefert.
Wie das Zeuge-Instrument von Cèrcol soziale Erwünschtheit in Peer-Bewertungen minimiert
Das Zeuge-Instrument von Cèrcol verwendet ein Forced-Choice-Format, das speziell entwickelt wurde, um soziale Erwünschtheit in Peer-Bewertungen zu reduzieren. Zeugen (Peer-Bewerter) erhalten Paare von Persönlichkeitsadjektiven — entnommen aus dem AB5C-Zirkumplex, der Adjektive auf Big Five-Schnittmengen abbildet — und werden gebeten zu wählen, welches Wort die Person, die sie bewerten, besser beschreibt.
Da der Zeuge eine andere Person bewertet, sind Selbstdarstellungsmotive weniger direkt wirksam als bei der Selbstauskunft. Aber Zeugen haben immer noch soziale Anreize, die Zielperson positiv zu bewerten (Freundschaft, Kollegialität, Wunsch nach positivem Feedback). Das Forced-Choice-Format reduziert diese Tendenz, indem es die Maximierung von Positivität genuine schwierig macht: Wenn beide Optionen positiv sind, können Sie nicht einfach die „nettere" Antwort wählen, ohne zu enthüllen, welches Merkmal Sie tatsächlich in ihnen wahrnehmen.
Das Ergebnis sind Zeugendaten, die die tatsächlich wahrgenommene Persönlichkeit genauer widerspiegeln als einen allgemeinen positiven Eindruck. Für den vollständigen Fall, warum Peer-Daten eine notwendige Ergänzung zur Selbstauskunft sind, siehe warum Selbsteinschätzung allein nicht ausreicht: Peer-Persönlichkeits-Feedback. Anonymität bei Peer-Bewertungen spielt ebenfalls eine Rolle — siehe Anonymität in der Persönlichkeitsbewertung: Warum sie wichtig ist für die Beweise.
Ehrliche Einschränkungen: Was Forced-Choice-Design nicht vollständig beheben kann
Forced-Choice-Design ist keine vollständige Lösung. Die Haupteinschränkung besteht darin, dass Forced-Choice-Daten ipsativ sind: Werte spiegeln relative Prioritäten zwischen Dimensionen wider, nicht absolute Niveaus. Das macht bestimmte Arten von Vergleichen — zum Beispiel den absoluten Verträglichkeitswert einer Person mit dem einer anderen zu vergleichen — methodisch komplex. Die Forschung zum angemessenen Umgang mit ipsativen Daten ist im Gange, und Cèrcols Interpretationsrahmen trägt dem Rechnung.
Zusätzlich eliminiert Forced-Choice-Design nicht die motivierte Verzerrung durch sehr entschlossene Teilnehmer. Jemand, der sich unbedingt als gewissenhaft darstellen möchte, kann immer noch systematisch Discipline-bezogene Adjektive gegenüber Alternativen wählen. Für die vollständige Forschung dazu, wie Fälschung in der Praxis aussieht, siehe Kann man einen Persönlichkeitstest fälschen?. Forced-Choice erhöht die kognitive Kosten strategischer Antworten, macht sie aber nicht unmöglich.
Die ehrliche Position ist, dass kein Bewertungsdesign Antwortverzerrungen vollständig eliminiert. Was Forced-Choice tut, ist, die häufigsten und wirkungsvollsten Verzerrungen — Akquieszenz und soziale Erwünschtheit — auf ein Niveau zu reduzieren, bei dem das Signal-Rausch-Verhältnis der resultierenden Daten wesentlich besser ist als bei Standard-Likert-Skala-Ansätzen.
Soziale Erwünschtheit: Wichtigste Erkenntnisse für Nutzer von Persönlichkeitstests
Soziale Erwünschtheit bläht systematisch Werte bei geschätzten Merkmalen (Bond, Discipline) auf und senkt Werte bei stigmatisierten Merkmalen (Depth) in Standard-Likert-Skala-Persönlichkeitsbewertungen. Akquieszenzbias verschlimmert dies, indem er alle Werte in Richtung Zustimmung schiebt. Das sind keine geringfügigen technischen Probleme — sie reduzieren die Validität von Selbstbericht-Persönlichkeitsdaten wesentlich, besonders in Hochrisiko-Kontexten.
Das Forced-Choice-Design, wie es im Zeuge-Instrument von Cèrcol verwendet wird, adressiert diese Verzerrungen, indem es strukturell schwierig gemacht wird, die soziale Erwünschtheit über alle Dimensionen gleichzeitig zu maximieren. Das Ergebnis sind ehrlichere, differenziertere und nützlichere Persönlichkeitsdaten. Für einen Rangvergleich, welche kostenlosen Bewertungstools Verzerrungen am besten handhaben, siehe die besten kostenlosen Persönlichkeitstests für Teams in 2026.
Wie Cèrcol soziale Erwünschtheit handhabt
Soziale Erwünschtheit ist keine geringfügige Unannehmlichkeit — sie bläht systematisch Bond- und Discipline-Werte auf und senkt Depth-Werte in jeder Standard-Likert-Skala-Bewertung. Keine noch so vielen Anweisungen wie „bitte seien Sie ehrlich" ändern die strukturellen Anreize.
Cèrcol adressiert dies auf Instrumentenebene, nicht auf Anweisungsebene. Die Zeuge-Peer-Bewertung verwendet ein Forced-Choice-Format, bei dem Adjektivpaare nach ihrem sozialen Erwünschtheitswert abgeglichen werden — was es strukturell schwierig macht, ein idealisiertes Bild zu präsentieren, ohne genuine Persönlichkeitsentscheidungen zu treffen. Das Forced-Choice-Design basiert auf dem AB5C-Zirkumplex (Hofstee, de Raad & Goldberg, 1992) und wurde gegen die IPIP-Itembank kalibriert.
Die Selbstbericht-Big Five-Bewertung verwendet Likert-Skalen — mit umgekehrt kodierten Items und Schutzmaßnahmen auf Skalenebene — und ist kostenlos unter cercol.team. Das Hinzufügen von Zeugenbewertungen durch Peers ergibt das Mehrperspektivenbild, das zeigt, wo soziale Erwünschtheit wahrscheinlich die Selbstauskunft verzerrt. Lesen Sie das vollständige wissenschaftliche Design, um genau zu sehen, wie beide Instrumente Verzerrungen handhaben.
Literatur
Edwards, A. L. (1957). The social desirability variable in personality assessment and research. Dryden Press.
Paulhus, D. L. (1991). Measurement and control of response bias. In J. P. Robinson et al. (Eds.), Measures of personality and social psychological attitudes (pp. 17–59). Academic Press.
Weiterführende Lektüre
- Kann man einen Persönlichkeitstest fälschen? Was die Forschung wirklich zeigt
- Forced-Choice-Persönlichkeitsbewertung: Warum Einschränkungen ehrlichere Daten erzeugen
- Anonymität in der Persönlichkeitsbewertung: Warum sie für ehrliche Daten wichtig ist
- Warum Selbsteinschätzung allein nicht ausreicht: Der Fall für Peer-Persönlichkeits-Feedback
- Was sind Reliabilität und Validität in Persönlichkeitstests?
- Persönlichkeitstests im Einstellungsverfahren: Was ist legal, was ist ethisch?