Beta-Launch — noch 500 kostenlose Vollmond-Lizenzen verfügbar. Hilf uns, Fehler zu finden.
Kostenlosen Zugang sichern

Wie viele Peer-Bewerter brauchen Sie für zuverlässige Persönlichkeitsdaten?

Drei Zeuge-Bewerter erreichen eine Reliabilität von .62; fünf erreichen .73. Die Spearman-Brown-Formel zeigt genau, wann das Hinzufügen weiterer Zeugen Ihre Daten nicht mehr verbessert.

Miquel Matoses·8 Min. Lesezeit

Wie viele Peer-Bewerter brauchen Sie für zuverlässige Persönlichkeitsdaten?

Die Peer-Persönlichkeitsbewertung hat eine grundlegende Einschränkung, die leicht zu übersehen ist: Die Bewertung einer einzelnen Person durch einen Zeugen ist ziemlich verrauscht. Individuelle Personen nehmen sich gegenseitig unvollkommen wahr, beobachten Verhalten in begrenzten Kontexten, bringen ihre eigenen Vorurteile und blinde Flecken mit und werden davon beeinflusst, wie sehr sie die Person mögen, die sie bewerten. Eine einzelne Peer-Bewertung ist wertvoll — aber nicht so wertvoll, wie es scheinen mag.

Die Frage, wie viele Zeugen Sie benötigen, bevor die Komposit-Bewertung zuverlässig informativ wird, ist eine der praktisch wichtigsten Fragen im Design der Persönlichkeitsbewertung. Die Antwort kommt aus der psychometrischen Theorie und aus Jahrzehnten empirischer Forschung zur Interrater-Reliabilität. Sie zu verstehen wird Ihnen helfen, Cèrcols Zeuge-Daten angemessen zu nutzen und realistische Erwartungen darüber zu setzen, was verschiedene Zahlen von Zeugen Ihnen sagen können.

Für den Kontext, warum Peer-Daten überhaupt wichtig sind, siehe was das Cèrcol Zeuge-Instrument misst — und für das dimensionsspezifische Bild, wo Selbst-Fremd-Lücken am größten sind, siehe Selbst-Fremd-Übereinstimmung nach Big Five-Dimension.

Warum eine einzelne Peer-Bewertung zu unzuverlässig ist, um ihr zu vertrauen

Wenn Forscher die Zuverlässigkeit individueller Peer-Bewertungen untersuchen — entweder indem sie die Konsistenz über Gelegenheiten hinweg betrachten oder indem sie die Bewertungen zweier unabhängiger Peers desselben Ziels korrelieren — finden sie konsistent Korrelationen im Bereich von .30–.40 für Big Five-Dimensionen.

Das ist nicht besonders hoch. Eine Korrelation von .35 bedeutet, dass nur etwa 12% der Varianz in der Bewertung eines Peers mit der Bewertung eines anderen Peers derselben Person geteilt wird. Das lässt 88% der Varianz unerklärt — ein Teil davon ist echter Messfehler, ein Teil reflektiert verschiedene Beziehungskontexte, und ein Teil reflektiert echte Uneinigkeit über die Persönlichkeit der Zielperson.

Für die Zwecke der individuellen Bewertung ist eine einzelne Zeuge-Bewertung unzureichend. Sie ist bestenfalls hinweisend.

"Die Interrater-Reliabilität für Persönlichkeitsbewertungen durch Bekannte liegt typischerweise bei etwa .35–.45, was darauf hinweist, dass eine substanzielle Aggregation erforderlich ist, um zuverlässige Komposit-Schätzungen zu erzielen."
— Siehe: Interrater-Reliabilität; und Connelly, B. S., & Ones, D. S. (2010). An other perspective on personality. Psychological Bulletin, 136(6), 1092–1122.

Die Spearman-Brown-Formel: Wie mehr Zeugen die Reliabilität erhöhen

Das psychometrische Prinzip, das regelt, wie die Reliabilität mit der Anzahl der Bewerter zunimmt, ist die Spearman-Brown-Vorhersageformel. Sie besagt, dass wenn Sie die Reliabilität eines einzelnen Bewerters kennen, Sie die Reliabilität des Durchschnitts von k Bewertern vorhersagen können:

r_k = (k × r_1) / (1 + (k − 1) × r_1)

Wobei r_1 die Interrater-Reliabilität mit einem einzelnen Bewerter ist und k die Anzahl der Bewerter ist.

Diese Formel sagt abnehmende Erträge vorher: Das Hinzufügen Ihres ersten zusätzlichen Zeugen fügt mehr Reliabilität hinzu als das Hinzufügen Ihres zehnten. Die Kurve flacht ab, wenn Sie mehr Bewerter hinzufügen, und ab einem bestimmten Punkt tragen zusätzliche Zeugen vernachlässigbar zur Reliabilität des Komposits bei.

Reliabilität (r) Anzahl der Bewerter 0.0 0.3 0.6 0.9 r=0.30 r=0.62 r=0.75 r=0.83 Mindest- schwelle 1 2 3 4 5 6 7 8
Komposit-Reliabilität (Spearman-Brown) vs. Anzahl der Peer-Bewerter, ausgehend von einer Einzel-Bewerter-Reliabilität r = 0.30. Die Kurve steigt steil von 1 auf 3 Bewerter an, dann flacht sie ab. Die gestrichelte rote Linie markiert 3 Bewerter — die praktische Mindestschwelle für sinnvolle Interpretation.

Reliabilität nach Anzahl der Zeugen: von 3 bis 12+

Anzahl der Zeugen Erwartete Komposit-Reliabilität (r) Praktische Interpretation
1.35Zu verrauscht für individuelle Schlussfolgerungen; als schwaches Signal behandeln
2.52Moderat — nützlich nur für die Identifizierung starker Muster
3.62Akzeptabel — bedeutsam auf der Ebene der Haupttendenzen
5.73Gut — zuverlässig genug für Entwicklungsanwendungen
7.79Gut bis sehr gut — bedeutsam für die meisten angewandten Zwecke
10.84Sehr gut — solide für risikoreiche Entwicklungskontexte
12.87Ausgezeichnet — nähert sich der Grenze des nützlichen Verbesserungspotenzials
15.89Marginaler Gewinn gegenüber 12; selten den zusätzlichen Aufwand wert
20.92Abnehmende Erträge vollständig wirksam

Die praktische Botschaft dieser Tabelle ist klar: Drei bis fünf Zeugen produzieren ein Komposit, das deutlich zuverlässiger als eine einzelne Bewertung ist, und fünf bis zwölf Zeugen sind für die meisten Entwicklungs- und Coaching-Anwendungen ausreichend. Über zwölf hinaus ist der marginale Gewinn pro zusätzlichem Zeugen klein genug, dass er selten die Belastung der Zeugen oder die administrative Komplexität rechtfertigt.

Was "zuverlässig" für Peer-Persönlichkeitsdaten wirklich bedeutet

Eine Reliabilität von .73 (fünf Zeugen) bedeutet, dass etwa 73% der Varianz in der Komposit-Peer-Bewertung systematisch ist — sie spiegelt etwas Echtes über die Zielperson wider — während 27% Rauschen sind. Für einen Entwicklungskontext ist dies ausreichend.

Eine Reliabilität von .84 (zehn Zeugen) nähert sich der Reliabilität vieler gut validierter Selbstberichtmaßnahmen. Auf diesem Niveau können Sie verfeinertere Vergleiche anstellen.

Unterhalb von drei Zeugen interpretieren Sie das Komposit mit erheblicher Vorsicht. Zwei Zeugen mit .52 Reliabilität bedeutet, dass fast die Hälfte der Komposit-Varianz Rauschen ist. Das bedeutet nicht, dass die Daten wertlos sind — ein starkes, konsistentes Muster bei zwei Zeugen ist immer noch informativ — aber es sollte als hypothesengenerierend behandelt werden.

Für eine umfassendere Behandlung von Reliabilität und Validität in Persönlichkeitstests, siehe Was ist Reliabilität und Validität bei Persönlichkeitstests?

Das Beste aus nur 2–3 Zeuge-Bewertungen herausholen

In der Praxis ist das Sammeln von zehn oder mehr Zeuge-Bewertungen nicht immer machbar. Wenn Sie begrenzte Zeugen haben, ist der richtige Ansatz, Ihre Interpretation entsprechend anzupassen:

  • Konzentrieren Sie sich auf starke Signale, nicht auf kleine Unterschiede. Mit zwei oder drei Zeugen sind nur substantielle Unterschiede im Komposit-Profil wahrscheinlich zuverlässig.
  • Suchen Sie nach Konsistenz unter Zeugen. Wenn beide (oder alle drei) Zeugen Sie auf einer Dimension unabhängig voneinander ähnlich bewerten, ist diese Konvergenz auch bei einer kleinen Stichprobe informativ.
  • Vergleichen Sie mit dem Selbstbericht, nicht mit Normen. Mit begrenzten Zeugen ist der aussagekräftigste Vergleich zwischen Ihrem Selbstbericht-Profil und Ihrem Zeuge-Komposit.
  • Fügen Sie Zeugen im Laufe der Zeit hinzu. Cèrcol ist für die längsschnittliche Nutzung konzipiert.

Warum die Beziehungsdiversität der Zeugen genauso wichtig ist wie die Anzahl

Die Spearman-Brown-Formel setzt voraus, dass zusätzliche Bewerter unabhängig und in ihrer Perspektive ungefähr gleichwertig sind. In der Praxis ist die Diversität der Beziehungen genauso wichtig wie die Anzahl der Zeugen.

Fünf enge Freunde, die Sie alle in ähnlichen sozialen Kontexten kennen, produzieren ein redundanteres Komposit als fünf Zeugen, die Sie in verschiedenen Kontexten kennen: ein Vorgesetzter, ein Peer, ein direkter Mitarbeiter, ein enger Freund und ein Familienmitglied.

Cèrcols Peer-Feedback-Framework ermutigt Benutzer, Zeugen aus mehreren Beziehungstypen auszuwählen.

Cèrcol Zeuge: Praktische Empfehlungen nach Kontext

  • Minimum für sinnvolle Nutzung: 3 Zeugen. Darunter sind die Ergebnisse zu verrauscht für eine sichere Interpretation.
  • Ziel für Standard-Entwicklungsnutzung: 5–7 Zeugen. Dies produziert eine Komposit-Reliabilität von .73–.79.
  • Risikoreiche oder Coaching-Kontexte: 8–12 Zeugen. Für Führungskräfteentwicklung oder Executive Coaching produzieren zehn oder mehr Zeugen das zuverlässigste Komposit.
  • Über 12: abnehmende Erträge. Der inkrementelle Reliabilitätsgewinn von zusätzlichen Zeugen über 12 ist klein genug, dass die zusätzliche Belastung für Zeugen selten gerechtfertigt ist.

Zusammenfassung: Die richtige Anzahl von Zeugen für Ihren Anwendungsfall

Eine einzelne Peer-Persönlichkeitsbewertung hat eine Interrater-Reliabilität von ungefähr .35 — zu niedrig für eine sichere Interpretation auf individueller Ebene. Das Spearman-Brown-Aggregationstheorem sagt vorher, wie die Komposit-Reliabilität mit zusätzlichen Zeugen zunimmt, wobei akzeptable Niveaus (.73+) bei fünf Bewertern und sehr gute Niveaus (.84+) bei zehn erreicht werden. In der Praxis sind drei Zeugen das Minimum für sinnvolle Nutzung; fünf bis sieben ist das praktische Ziel; zehn oder mehr ist ideal für risikoreiche Anwendungen.


Referenzen
Connelly, B. S., & Ones, D. S. (2010). An other perspective on personality: Meta-analytic integration of observers' accuracy and predictive validity. Psychological Bulletin, 136(6), 1092–1122.
Shrout, P. E., & Fleiss, J. L. (1979). Intraclass correlations: Uses in assessing rater reliability. Psychological Bulletin, 86(2), 420–428.

Machen Sie jetzt die Cèrcol-Bewertung — kostenlos

Alles in diesem Artikel Beschriebene gilt für Ihre eigenen Zeuge-Daten. Gehen Sie zu cercol.team, machen Sie die kostenlose Persönlichkeitsbewertung und laden Sie mindestens drei Kollegen ein, als Zeugen zu fungieren.

Weitere Lektüre

Verwandte Artikel

Cèrcol verwendet nur funktionale Cookies — keine Analyse-Cookies, keine Werbe-Tracker. Datenschutzrichtlinie