Beta-Launch — noch 500 kostenlose Vollmond-Lizenzen verfügbar. Hilf uns, Fehler zu finden.
Kostenlosen Zugang sichern

Persönlichkeitswissenschaft und die Replikationskrise: Was hat standgehalten?

Nur 39 % der psychologischen Befunde wurden 2015 repliziert. Die Big Five-Wissenschaft schnitt weit besser ab — und die Gründe erklären, welchen Befunden Teams tatsächlich vertrauen können.

Miquel Matoses·9 Min. Lesezeit

Im Jahr 2015 veröffentlichte eine wegweisende Zusammenarbeit Ergebnisse, die die akademische Psychologie bis in ihre Grundfesten erschütterten. Die Open Science Collaboration versammelte 270 Forscher aus mehr als 100 Laboren und versuchte, 100 Befunde aus hochrangigen sozial- und kognitionspsychologischen Zeitschriften zu replizieren. Die Ergebnisse, in Science veröffentlicht (doi:10.1126/science.aac4716), waren ernüchternd: Nur 36 bis 39 Prozent der Befunde replizierten sich in einem statistisch bedeutsamen Sinne. Die Effektgrößen waren in Replikationen systematisch kleiner als in Originalen. Viele Befunde, die weitgehend zitiert, in Grundkursen gelehrt und in der Praxis angewendet worden waren, hielten unabhängigen Tests nicht stand.

Die Replikationskrise — eine Übersicht ist auf Wikipedia verfügbar — hat die Diskussion darüber neu gestaltet, was die Psychologie tatsächlich weiß. Sie löste Selbstreflexion über kleine Stichprobengrößen, Publikationsbias (die Tendenz, nur positive Ergebnisse zu veröffentlichen), Forscherfreiheitsgrade (die vielen nicht offengelegten Entscheidungen, die scheinbare Effekte aufblähen können) und eine Kultur aus, die Neuheit über Reproduzierbarkeit stellte.

Wo steht die Persönlichkeitswissenschaft in diesem Bild? Die Antwort ist beruhigender, als die allgemeine Replikationsrate vermuten lässt — aber sie ist nicht durchgängig beruhigend.


Warum die Big Five-Wissenschaft die Replikationskrise besser überstand

Die Befunde, die in der Open Science Collaboration am dramatischsten nicht replizierten, konzentrierten sich auf Sozial- und Kognitionspsychologie — auffällige, kontraintuitive Effekte, die gute Schlagzeilen und Lehrermaterial lieferten. Priming-Studien (die Idee, dass die kurze Exposition gegenüber einem Wort das nachfolgende Verhalten verändert), Ego-Depletion (die Idee, dass Willenskraft eine Ressource ist, die sich mit dem Gebrauch erschöpft) und mehrere klassische Befunde zur sozialen Beeinflussung replizierten sich entweder nicht oder mit Effektgrößen, die einen Bruchteil der Originale darstellten.

Die Persönlichkeitswissenschaft war nicht immun gegen Replikationsprobleme, war aber strukturell besser positioniert, um ihnen zu widerstehen. Die Gründe sind methodisch.

Stichprobengrößen tendieren dazu, größer zu sein. Die Big Five-Befunde, die das Feld verankern — die Beziehung zwischen Conscientiousness und Arbeitsleistung, zwischen Neuroticism und psychischem Wohlbefinden, zwischen Openness und Kreativität — wurden in Hunderten von Studien und Meta-Analysen mit Zehntausenden von Teilnehmern etabliert. Wenn Befunde auf sehr großem N basieren und viele Male in verschiedenen Kontexten repliziert wurden, ist Replikation eine Selbstverständlichkeit und keine Hoffnung.

Die Messinstrumente sind stabiler. Persönlichkeitsfragebögen liefern hoch zuverlässige Scores — interne Konsistenz-Reliabilitäten typischerweise im .80-.90-Bereich. Einzel-Sitzungs-Priming-Paradigmen hingegen messen kurzfristige, kontextsensitive Zustände mit weit geringerer Zuverlässigkeit. Unzuverlässige Messungen bedeuten rauschende Effekte, die über Replikationen unvorhersehbar schwanken.

Die Konstrukte sind operationell transparenter. „Conscientiousness" hat eine klare, konsensuelle Definition, die seit Jahrzehnten konsistent über Instrumente und Studien hinweg operationalisiert wurde. Viele der nicht replizierenden Befunde aus der Sozialpsychologie stützten sich auf kreative, theoretisch umstrittene Operationalisierungen von Konstrukten wie „Macht", „implizite Einstellung" oder „selbstregulativer Abbau". Transparentere Konstrukte produzieren replizierbarer Befunde. Die gemeinfreien Items des IPIP machen diese Transparenz auf Messebene möglich.

~50%
der sozialpsychologischen Studien replizierten nicht (OSC-Studie 2015)
Hoch
Big Five-Struktur-Replikationsrate über Labore hinweg
r = 0.22
Conscientiousness → Arbeitsleistung: hält in Replikationen stand
IPIP
Open-Source-Items: unabhängig überprüfbar, keine proprietäre Black Box

Die robusten Big Five-Befunde, die sich zuverlässig repliziert haben

„Zu den robustesten Befunden in der Persönlichkeitspsychologie gehört die Beziehung zwischen Conscientiousness und Arbeitsleistung — eine Verbindung, die in Hunderten von Studien, mehreren Kulturen und einer Vielzahl beruflicher Bereiche dokumentiert wurde." — Roberts et al., 2007 (meta-analytische Übersicht)

Die folgenden Befunde aus der Persönlichkeitswissenschaft haben wiederholte Replikation und meta-analytische Prüfung mit durchgängig moderaten bis großen Effektgrößen überstanden.

Conscientiousness und Arbeitsleistung. Die Meta-Analyse von Barrick und Mount (1991) — und ihre vielen Replikationen und Erweiterungen — stellte fest, dass Conscientiousness (Disziplin in Cèrcols Framework) der konsistenteste Big Five-Prädiktor für Arbeitsleistung über alle Berufsgruppen hinweg ist. Der Effekt ist in absoluten Zahlen nicht groß (korrigierte Korrelationen typischerweise um .20-.28), aber er ist einer der größten in der Persönlichkeits-Ergebnis-Literatur und hält sich über Branchen, Kulturen und Jobtypen hinweg. Dieser Befund wurde so oft repliziert, dass er als Referenzmaßstab behandelt wird, an dem neue Prädiktoren gemessen werden. Für ein vollständiges Profil dieser Dimension, siehe what is Conscientiousness.

Neuroticism und Wohlbefinden. Die negative Beziehung zwischen Neuroticism (Tiefe in Cèrcols Terminologie) und subjektivem Wohlbefinden, Lebenszufriedenheit und positivem Affekt ist einer der am häufigsten replizierten Befunde in der Persönlichkeitswissenschaft. Eine Meta-Analyse von Steel, Schmidt und Shultz (2008) fand Korrelationen zwischen Neuroticism und globalen Wohlbefindensmaßen von etwa -.40 bis -.50. Die Beziehung hält longitudinal, kulturübergreifend und über verschiedene Wohlbefindensoperationalisierungen hinweg stand. Das vollständige Bild dieser Dimension wird in what is Neuroticism behandelt.

Merkmalsstabilität über das Erwachsenenalter hinweg. Der Befund, dass Big Five-Merkmale über das Erwachsenenalter hinweg mäßig stabil sind — und mit dem Alter stabiler werden — wurde in Längsschnittstudien in mehreren Ländern repliziert. Roberts und DelVecchio (2000) meta-analysierten 152 Längsschnittstudien und fanden Test-Retest-Korrelationen, die von etwa .54 in der Kindheit auf .74 im Erwachsenenalter anstiegen. Persönlichkeit ist nicht festgelegt, aber sie ist nicht so formbar, wie populäre Darstellungen manchmal nahelegen. Dies ist einer der wichtigsten Befunde, die man verstehen sollte, bevor man five personality science myths that won't die liest.

Extraversion und positiver Affekt. Die Assoziation zwischen Extraversion (Präsenz) und positiver Emotionalität ist hoch replizierbar und erscheint sowohl in Selbstbericht- als auch in ökologischen Momentanbewertungsstudien. Extraversion scheint teilweise eine biologische Sensitivität gegenüber Belohnungssignalen widerzuspiegeln, die sich als Tendenz manifestiert, in sozialen Kontexten häufigere und intensivere positive Emotionen zu erleben.

Openness und Kreativität, Intelligenz und ästhetisches Engagement. Der Zusammenhang zwischen Openness to Experience (Vision) und Ergebnissen in kreativen Bereichen — künstlerische Produktion, divergentes Denken, kultureller Konsum — wird konsistent repliziert. Ihre Beziehung zur kristallisierten Intelligenz ist moderat und robust.


Welche Befunde der Persönlichkeitswissenschaft eine schwächere Replikationsbilanz haben

Nicht alle Befunde der Persönlichkeitswissenschaft haben die Replikation gleich gut überstanden.

Spezifische Merkmal × Ergebnis-Interaktionen. Während Haupteffekte von Big Five-Merkmalen auf breite Ergebnisse robust sind, haben Behauptungen über spezifische moderierende Interaktionen — dass Conscientiousness Leistung nur unter bestimmten Führungsbedingungen vorhersagt, dass Agreeableness für die Teamleistung in Rollen mit hoher Interdependenz wichtiger ist — eine schwächere Replikationsbilanz. Diese Interaktionseffekte basieren oft auf kleineren Stichproben, beinhalten mehr Forscherfreiheitsgrade in der Analyse und neigen dazu, in unabhängigen Replikationen substanziell zu schrumpfen.

Persönlichkeitsveränderungsinterventionen. Studien, die behaupten, dass gezielte Interventionen die Big Five-Merkmalsniveaus bedeutsam verschieben können — und dass diese Verschiebungen über die Zeit bestehen bleiben — haben gemischte Replikationsergebnisse gezeigt. Der Grundbefund, dass Persönlichkeit sich verändern kann, ist robust; die Evidenz für zuverlässige, gezielte, dauerhafte Veränderung durch spezifische Interventionen ist es weniger. Das Feld benötigt größere, präregistrierte Studien, bevor starke Behauptungen über Persönlichkeitsveränderung gerechtfertigt sind.

Typbasierte Interpretationen. Versuche, bedeutsame Persönlichkeits-„Typen" aus kontinuierlichen Big Five-Scores abzuleiten — die Behauptung, dass es unterschiedliche Gruppen von Menschen mit bedeutsam unterschiedlichen Profilen gibt — haben schlechte Replikation gezeigt. Ein viel zitierter Artikel aus dem Jahr 2018 von Gerlach et al., der behauptete, vier robuste Persönlichkeitstypen zu identifizieren, wurde schnell von unabhängigen Analysen gefolgt, die zeigten, dass die Typstruktur sehr empfindlich gegenüber methodischen Entscheidungen war. Kontinuierliche Merkmal-Scores replizieren sich; diskrete Typen nicht. Das ist einer der Gründe, warum Cèrcol typbasiertes Framing vermeidet.


Was Teams vertrauen sollten — und was sie mit Vorsicht behandeln sollten

BefundReplikationsstatusVertrauensniveau
Conscientiousness → ArbeitsleistungSehr häufig repliziertHoch — als Referenzmaßstab verwenden
Neuroticism → niedrigeres WohlbefindenSehr häufig repliziertHoch — konsistent über Kulturen und Instrumente
Merkmalsstabilität im ErwachsenenalterSehr häufig repliziertHoch — intrapersonale Veränderung ist real, aber langsam
Extraversion → positiver AffektSehr häufig repliziertHoch — robust in Erfahrungssampling und Labor
Openness → KreativitätGut repliziertModerat-hoch — Effektgrößen variieren je nach Bereich
Spezifische Merkmal × Ergebnis-InteraktionenGemischtNiedrig — mit Vorsicht behandeln; nach großem N suchen
PersönlichkeitsveränderungsinterventionenGemischtNiedrig-moderat — vielversprechend, aber noch nicht etabliert
Persönlichkeitstypen aus Big FiveSchlecht repliziertNiedrig — binäre Typzuweisungen vermeiden

Die praktische Implikation für jeden, der Persönlichkeitsdaten verwendet, ist, sie auf der Ebene breiter Merkmalstendenzen anzuwenden, nicht auf der Ebene feinkörniger Vorhersagen. Die Forschung zu Conscientiousness und Arbeitsleistung gibt Ihnen Anlass zu erwarten, dass jemand mit hohen Disziplin-Scores im Durchschnitt und über die Zeit hinweg mehr Verlässlichkeit und Follow-through zeigen wird als jemand mit niedrigen Scores. Sie gibt Ihnen keine Grundlage, vorherzusagen, was sie in einer spezifischen Situation tun werden, wie sie auf einen bestimmten Manager reagieren werden oder ob sie in einer Rolle mit ungewöhnlichen Anforderungen erfolgreich sein werden. Für eine vollständigere Darstellung dieser Grenzen, siehe what personality science cannot predict.

Für Cèrcol bedeutet das, interpretative Frameworks auf der Ebene aufzubauen, wo die Evidenz am stärksten ist, und explizit auf Unsicherheiten hinzuweisen, wo die Evidenz schwächer ist. Die Wissenschaftsseite auf cercol.team/science stellt die Evidenzbasis im Detail dar.


Wie Präregistrierung die Glaubwürdigkeit der Persönlichkeitswissenschaft verbessert

Die Replikationskrise hat einen Wandel in den Forschungspraktiken angestoßen. Präregistrierung — die Festlegung auf Hypothesen, Messungen und Analysestrategie vor der Datenerhebung — verhindert die nicht offengelegte Flexibilität, die Falsch-Positiv-Raten aufbläht. Große kollaborative Studien aggregieren Daten über viele Labore hinweg, um Effektgrößenschätzungen zu erzeugen, die robust genug sind, um zu generalisieren. Adversarielle Kollaborationen stellen Forscher mit entgegengesetzten Ansichten in gemeinsamen Studien gegeneinander, die entscheiden sollen, welche Ansicht zutrifft.

Diese Praktiken verbessern bereits die Qualität der Persönlichkeitswissenschaftsliteratur. Befunde, die präregistrierte Replikation mit großem N überstehen, sind substanziell glaubwürdiger als Befunde, die nur in Einzellabor-Studien demonstriert wurden. Wenn das Feld reift, wird das Signal-Rausch-Verhältnis besser — und damit das Vertrauen, das Praktiker in Persönlichkeitsdaten setzen können. Für eine Übersicht über anhaltende Missverständnisse, siehe five personality science myths that won't die.


Testen Sie die Wissenschaft selbst mit Cèrcol

Die Big Five-Befunde, die sich am robustesten repliziert haben — Conscientiousness und Leistung, Neuroticism und Wohlbefinden, Merkmalsstabilität — sind genau die Befunde, auf denen Persönlichkeitsbewertungen basieren sollten. Das ist der Standard, den Cèrcol an sich selbst anlegt: Nur Dimensionen und Beziehungen mit starken Replikationsnachweisen werden verwendet, um Erkenntnisse zu generieren, und die Wissenschaftsseite dokumentiert die unterstützenden Beweise transparent.

Wenn Sie sehen möchten, wie replizierte Persönlichkeitswissenschaft in der Praxis aussieht, ist Cèrcol kostenlos auf cercol.team. Die Bewertung verwendet gemeinfreie IPIP-Items, bewertet die fünf Dimensionen, deren Validitätsnachweis die Replikationskrise überstanden hat, und gibt Ihnen sowohl Selbstbericht- als auch Peer-Perspektiven — weil zwei unabhängige Signale zuverlässiger sind als eines.


Weiterführende Literatur: Critiques of the Big Five: what the critics say · The science behind Cèrcol

Weiterführende Literatur

Verwandte Artikel

Cèrcol verwendet nur funktionale Cookies — keine Analyse-Cookies, keine Werbe-Tracker. Datenschutzrichtlinie