Beta-Launch — noch 500 kostenlose Vollmond-Lizenzen verfügbar. Hilf uns, Fehler zu finden.
Kostenlosen Zugang sichern

Persönlichkeitstests bei der Einstellung: Was ist legal, was ist ethisch?

Persönlichkeitstests bei der Einstellung bergen rechtliche Risiken nach Title VII und ADA, wenn sie falsch eingesetzt werden. Forschung zu Validität, nachteiliger Wirkung und Best Practices zeigt, wo sie helfen.

Miquel Matoses·9 Min. Lesezeit

Persönlichkeitsbewertung hat einen dauerhaften Platz in der Unternehmensrekrutierung gefunden. Umfragen zeigen konsistent, dass eine Mehrheit der Fortune 500-Unternehmen irgendeine Form von Vorbeschäftigungstests verwendet, und Persönlichkeitsinstrumente machen einen erheblichen Anteil dieser Aktivität aus. Der Reiz liegt auf der Hand: Wenn Sie vorhersagen können, wie sich ein Kandidat verhalten wird, bevor er Ihr Gebäude betritt, können Sie bessere Einstellungsentscheidungen zu geringeren Kosten treffen.

Die Realität ist erheblich komplizierter. Die Rechtslage in den Vereinigten Staaten schafft echte Einschränkungen, wie Persönlichkeitsdaten bei der Auswahl verwendet werden können. Die ethische Literatur wirft Fragen auf, die der rechtliche Rahmen nicht vollständig beantwortet. Und die Validitätsnachweis, obwohl real, ist schwächer als die meisten Anbieter zugeben.

Dieser Artikel behandelt die wichtigsten rechtlichen und ethischen Überlegungen, stützt sich auf die peer-reviewed Forschung und bietet ein Framework, um darüber nachzudenken, wo Persönlichkeitsbewertung wirklich hilft und wo sie inakzeptable Risiken einführt.

Der rechtliche Rahmen: Title VII, ADA und Persönlichkeitstests bei der Einstellung

Rechtliche rote Linien: In den meisten Rechtssystemen ist die Verwendung von Persönlichkeitstest-Ergebnissen als alleinige Grundlage für eine Ablehnung ein illegales Diskriminierungsrisiko, wenn der Test nachteilige Auswirkungen auf geschützte Gruppen hat. Beste Praxis: Persönlichkeit als einen von mehreren Inputs verwenden, sicherstellen, dass der Test arbeitsrelevant ist, den Validierungsprozess dokumentieren.

Zwei Rechtsbereiche sind am direktesten relevant: der Americans with Disabilities Act (ADA) von 1990 und die Doktrin des disparaten Impacts, die nach Title VII des Civil Rights Act von 1964 etabliert wurde, wie sie von der Equal Employment Opportunity Commission (EEOC) durchgesetzt wird.

Die ADA und medizinische Untersuchungen. Die ADA verbietet Arbeitgebern, medizinische Untersuchungen durchzuführen, bevor ein bedingtes Stellenangebot gemacht wurde. Die EEOC hat lange vertreten, dass psychologische Tests, die darauf ausgelegt sind, psychische Störungen oder Beeinträchtigungen zu erkennen, als medizinische Untersuchungen im Sinne dieser Definition gelten können. Ein Persönlichkeitstest ist nicht automatisch eine medizinische Untersuchung — Tests, die typische Persönlichkeitsmerkmale messen (wie Big Five-Instrumente), gelten im Allgemeinen nicht als medizinische Untersuchungen. Aber Tests, die behaupten, klinische Zustände zu screenen, Psychopathologie zu identifizieren oder Zustände wie Depressionen oder PTSD zu erkennen, sind es fast sicher. Arbeitgeber, die Instrumente verwenden, die vor einem bedingten Angebot in klinisches Terrain abdriften, gehen erhebliche rechtliche Risiken ein.

Disparater Impact unter Title VII. Selbst ein Test, der nichts mit Behinderung zu tun hat, kann gegen das Gesetz verstoßen, wenn er nachteilige Auswirkungen erzeugt — das heißt, wenn er Mitglieder einer geschützten Klasse zu einer substantiell höheren Rate ausschließt als andere, und dieses Differenzial nicht durch geschäftliche Notwendigkeit gerechtfertigt werden kann. Die einheitlichen Richtlinien der EEOC über Mitarbeitauswahlverfahren (1978) legen die Vier-Fünftel-Regel als grobe Referenz fest: Wenn die Auswahlrate für eine geschützte Gruppe weniger als vier Fünftel der Rate für die am höchsten punktende Gruppe beträgt, wird ein nachteiliger Impact vermutet.

Persönlichkeitstests variieren erheblich in dem Maße, in dem sie Gruppenunterschiede erzeugen. Die meta-analytische Literatur zu Untergruppendifferenzen bei der Persönlichkeit (von Hough und Kollegen überprüft) legt nahe, dass die Big Five-Dimensionen relativ kleine Mittelwertunterschiede zwischen Schwarzen und Weißen im Vergleich zu kognitiven Fähigkeitstests zeigen, die typischerweise Unterschiede von etwa einer Standardabweichung zeigen. Allerdings können kleine durchschnittliche Unterschiede je nach Grenzwert und Auswahlquote zu bedeutsamen nachteiligen Auswirkungen akkumulieren. Openness to Experience und einige Facetten der Extraversion zeigen etwas größere Gruppenunterschiede als Conscientiousness oder Agreeableness, obwohl keine Big Five-Dimension völlig frei von dieser Bedenken ist.

Für Hinweise darauf, wie HR-Fachleute Beschäftigungstests angehen sollten, bietet die Society for Human Resource Management (SHRM) praktische Frameworks, die sowohl rechtlichen Anforderungen als auch evidenzbasierten Praktiken entsprechen.

Das Validitätsproblem: Was Persönlichkeitstests bei der Einstellung tatsächlich vorhersagen

Rechtliche Compliance ist notwendig, aber nicht ausreichend. Die tiefere Frage ist, ob Persönlichkeitstests tatsächlich die Ergebnisse vorhersagen, die Arbeitgeber interessieren.

Der meta-analytische Befund ist gut etabliert und weitgehend konsistent. Barrick und Mounts wegweisende Meta-Analyse von 1991 — immer noch eine der meistzitierten Studien in der Industrie- und Organisationspsychologie — stellte fest, dass Conscientiousness Arbeitsleistung in allen Berufsgruppen mit einem korrigierten Validitätskoeffizient von etwa .22 vorhersagte (https://doi.org/10.1111/j.1744-6570.1991.tb00688.x). Andere Big Five-Dimensionen zeigten je nach Jobtyp eine variablere Validität. Die vollständige Evidenzbasis, warum Conscientiousness ein so konsistenter Prädiktor ist, wird in What is Conscientiousness? The most consistent predictor of job performance untersucht.

„Conscientiousness zeigte konsistente Beziehungen zu allen Arbeitsleistungskriterien für alle untersuchten Berufsgruppen… Die Ergebnisse unterstützen die Konstruktvalidität dieser Persönlichkeitsdimension."
— Barrick & Mount (1991), Personnel Psychology

Ein Validitätskoeffizient von .22 ist statistisch bedeutsam, aber praktisch bescheiden. Das bedeutet, dass Persönlichkeit etwa 4–5 Prozent der Varianz in der Arbeitsleistung erklärt. Kognitive Fähigkeitstests zeigen dagegen typischerweise Validitätskoeffizienten im .40–.50-Bereich für viele Jobs. Strukturierte Interviews zeigen eine Validität von etwa .50. Arbeitsproben können .54 erreichen.

Das bedeutet nicht, dass Persönlichkeitsdaten wertlos sind. Selbst kleine Prädiktionseffekte kumulieren über Tausende von Einstellungen. Aber es bedeutet, dass Persönlichkeitstests als primäres oder definitives Auswahlhindernis zu verwenden — Kandidaten ausschließlich aufgrund der Persönlichkeit zu bestehen oder zu versagen — wissenschaftlich nicht zu rechtfertigen ist. Das Signal ist real, aber schwach.

Der breitere wissenschaftliche Kontext, wie Persönlichkeitsinstrumente konzipiert und validiert werden, wird in Personality science and evidence-based HR: why it matters behandelt.

Nachteiliger Impact: Welche Big Five-Dimensionen tragen das größte rechtliche Risiko

Aus der Perspektive des disparaten Impacts tragen nicht alle Big Five-Dimensionen das gleiche Risiko. Die Forschung zu Untergruppendifferenzen legt nahe:

Persönlichkeitsdimension (Cèrcol-Name)Typische Größenordnung der GruppenunterschiedeRisiko nachteiliger Auswirkungen
Disziplin (Conscientiousness)KleinGeringer
Verbindung (Agreeableness)KleinGeringer
Präsenz (Extraversion)Klein bis moderatModerat
Vision (Openness)Klein bis moderatModerat
Tiefe (Neuroticism)KleinGeringer, aber ethische Bedenken wegen Stigmatisierung

Die geringeren Gruppenunterschiede für Conscientiousness sind einer der Gründe, warum sie tendenziell die Dimension ist, die Arbeitgeber am legitimsten für Vorhersagen einsetzen. Aber selbst hier schafft die Verwendung eines Grenzwerts für die Auswahl anstelle einer kontinuierlichen Bewertung für die Entwicklung Risiken.

Warum der Anwendungsfall bestimmt, ob Persönlichkeitstests vertretbar sind

Ein Großteil der rechtlichen und ethischen Debatte löst sich auf, wenn man erkennt, dass der Anwendungsfall genauso wichtig ist wie das Instrument. Dasselbe Persönlichkeitsprofil, das Haftung erzeugt, wenn es verwendet wird, um Kandidaten auszuschließen, erzeugt praktisch kein rechtliches Risiko, wenn es zur Unterstützung von Onboarding, Coaching oder Teamentwicklung verwendet wird.

AnwendungsfallRechtlich sicherVorsicht geboten
Entwicklungscoaching für aktuelle MitarbeiterJaKeine
TeamzusammensetzungsanalyseJaMinimal
Onboarding und Manager-BriefingsJaMinimal
Strukturierte EntwicklungsgesprächeJaKeine
Ergänzender Input bei Einstellungen (kombiniert mit anderen Daten)Mit EinschränkungenBerufsrelevanz dokumentieren; nachteilige Auswirkungen überwachen
Primäres Auswahlhindernis (bestanden/nicht bestanden aufgrund Persönlichkeit)NeinHoch — Validität zu schwach; Risiko nachteiliger Auswirkungen
Vorabbewerbungs-Screening ohne JobanalyseNeinSehr hoch

Siehe auch: Does personality composition predict team performance? und The science behind Cèrcol.

Für eine fundierte Perspektive darauf, wie Persönlichkeits-Job-Passung tatsächlich funktioniert und wann es angemessen ist, sie in Einstellungskontexten zu besprechen, siehe Personality and job fit: how to think about person-environment fit.

Beurteilung vs. Screening: Die entscheidende Unterscheidung bei persönlichkeitsbasierten Einstellungen

Die wichtigste praktische Unterscheidung ist die zwischen Beurteilung und Screening. Screening ist ein binäres Tor: man besteht oder besteht nicht. Beurteilung ist ein Profil: So tendiert diese Person zu verhalten, welche Umgebungen ihr geeignet sind, wo sie möglicherweise Unterstützung benötigt. Dieselben Persönlichkeitsdaten erhalten eine völlig andere rechtliche und ethische Bedeutung, je nachdem welches dieser Frameworks angewendet wird.

Wenn Persönlichkeitsdaten für das Screening verwendet werden, trägt der Arbeitgeber die Beweislast, Berufsrelevanz (Inhaltsvalidität) nachzuweisen und auf nachteilige Auswirkungen zu überwachen. Die einheitlichen Richtlinien der EEOC verlangen dies. Die meisten Arbeitgeber führen diese Arbeit nicht rigorös durch, was sowohl rechtliche Exposition als auch das Risiko schafft, systematisch qualifizierte Kandidaten auszuschließen.

Wenn Persönlichkeitsdaten für die Beurteilung verwendet werden — für die Entwicklung, für das Onboarding, für den Teamdialog — muss das Instrument zuverlässig und wissenschaftlich fundiert sein, aber die rechtliche Last ist weit geringer und die ethische Rechtfertigung ist klarer. Sie helfen Menschen, sich selbst und einander zu verstehen, nicht den Zugang zu wirtschaftlichen Möglichkeiten auf der Grundlage eines Tests zu rationieren.

Zwei weitere Fragen betreffen den ethischen Einsatz jedes Persönlichkeitsinstruments in einem beruflichen Kontext: in welchem Ausmaß Kandidaten die Ergebnisse manipulieren können, und die Rolle der sozialen Erwünschtheit. Dies wird in Can you fake a personality test? und Social desirability bias in personality tests untersucht.

Wie Cèrcol Persönlichkeitsbewertung ohne Screening-Risiko angeht

Cèrcol basiert auf dem Big Five / IPIP-Framework und verwendet Peer-Bewertung („Zeuginnen") neben der Selbstauskunft. Dieses Dual-Source-Design hat sowohl wissenschaftliche als auch ethische Vorteile: Multi-Rater-Daten sind zuverlässiger als Selbstauskunft allein, und die Entwicklungsorientierung bedeutet, dass Daten in Richtung Verständnis statt Auswahl fließen.

Für Organisationen, die Cèrcol verwenden, ist der angemessene Standardwert, Persönlichkeitsprofile vollständig aus Einstellungsprozessen herauszuhalten und sie ausschließlich für die Entwicklung zu verwenden. Wenn eine Organisation sich entscheidet, Persönlichkeitsdaten für Einstellungsverantwortliche verfügbar zu machen, sollte sie die Berufsrelevanz dokumentieren, Grenzwerte vermeiden und die Daten als ein schwaches Signal unter vielen behandeln, nicht als endgültige Antwort.

Die Literatur zu Beschäftigungstests dokumentiert eine lange Geschichte gut gemeinter Werkzeuge, die falsch angewendet wurden und echten Schaden anrichteten. Persönlichkeitsbewertung ist von dieser Geschichte nicht ausgenommen. Sorgfältig eingesetzt, mit angemessenem Umfang, fügt sie echten Wert hinzu. Leichtfertig als Auswahltor eingesetzt, führt sie rechtliche Risiken und ethische Schäden ein, die die bescheidene Validitätsnachweise nicht rechtfertigen.

Die ehrliche Antwort auf „Sollten wir Persönlichkeitstests bei der Einstellung verwenden?" ist: nicht als Filter, und nicht allein. Die ehrliche Antwort auf „Können uns Persönlichkeitsdaten helfen, bessere Teams aufzubauen?" ist: ja, mit dem richtigen Rahmen.


Persönlichkeitsdaten richtig verwenden

Die rechtliche und ethische Rechtfertigung für Persönlichkeitsbewertung bei Einstellungen hängt vollständig davon ab, wie sie eingesetzt wird. Cèrcol ist von Grund auf für den vertretbaren Anwendungsfall konzipiert: Teamentwicklung, Onboarding und Coaching — nicht Kandidatenscreening. Die Peer-Bewertungsmethodik Zeugin fügt eine zweite Datenquelle hinzu, die Selbstauskunftsinstrumente allein nicht liefern können, während alle Daten in einem entwicklungsorientierten Rahmen gehalten werden.

Wenn Ihre Organisation darüber nachdenkt, wie Persönlichkeitsdaten verantwortungsvoll eingesetzt werden können — und die rechtliche Exposition zu vermeiden, die mit Missbrauch einhergeht — ist die Überprüfung der Cèrcol-Methodik der richtige Ausgangspunkt. Für Teams, die bereits Persönlichkeitswerkzeuge verwenden, bieten die 12 Teamrollen ein praktisches Framework, um Big Five-Daten in umsetzbare Teamgespräche zu übersetzen.

Weiterführende Literatur

Verwandte Artikel

Cèrcol verwendet nur funktionale Cookies — keine Analyse-Cookies, keine Werbe-Tracker. Datenschutzrichtlinie