Lanzamiento beta — quedan 500 licencias gratuitas de Full Moon. Ayúdanos a detectar errores.
Reclama tu acceso gratuito

¿Cuántos evaluadores de compañeros necesitáis para obtener datos de personalidad fiables?

Tres evaluadores Testigo alcanzan una fiabilidad de .62; cinco alcanzan .73. La fórmula de Spearman-Brown muestra exactamente cuándo añadir más Testigos deja de mejorar vuestros datos.

Miquel Matoses·12 min de lectura

¿Cuántos evaluadores de compañeros necesitáis para obtener datos de personalidad fiables?

La evaluación de personalidad por compañeros tiene una limitación fundamental que es fácil de pasar por alto: la valoración de cualquier Testigo individual de otra persona es bastante ruidosa. Las personas individuales se perciben mutuamente de manera imperfecta, ven el comportamiento en contextos limitados, traen sus propios sesgos y puntos ciegos, y se ven influenciadas por cuánto les gusta la persona que están valorando. Una valoración individual de compañeros es valiosa —pero no tan valiosa como podría parecer.

La pregunta de cuántos Testigos necesitáis antes de que la valoración compuesta se convierta en fiablemente informativa es una de las preguntas prácticamente más importantes en el diseño de la evaluación de personalidad. La respuesta proviene de la teoría psicométrica y de décadas de investigación empírica sobre la fiabilidad entre evaluadores. Entenderla os ayudará a utilizar los datos de Testigo de Cèrcol de manera apropiada y a establecer expectativas realistas sobre lo que pueden deciros diferentes números de Testigos.

Para el contexto sobre por qué los datos de compañeros importan en absoluto, véase lo que mide el instrumento Testigo de Cèrcol —y para la imagen dimensión por dimensión específica donde las brechas self-other son más grandes, véase el acuerdo self-other por dimensión del Big Five.

Por qué una sola valoración de compañeros es demasiado poco fiable para confiar en ella

Cuando los investigadores examinan la fiabilidad de las valoraciones de compañeros individuales —ya sea mirando la consistencia entre ocasiones, o correlacionando las valoraciones de dos compañeros independientes de la misma persona objetivo— encuentran consistentemente correlaciones en el rango de .30–.40 para las dimensiones del Big Five.

Esto no es particularmente alto. Una correlación de .35 significa que aproximadamente el 12% de la varianza en la valoración de un compañero se comparte con la valoración de otro compañero de la misma persona. Eso deja el 88% de la varianza sin explicar —parte de la cual es error de medición genuino, parte de la cual refleja diferentes contextos relacionales (un compañero de trabajo ve comportamientos diferentes que un amigo cercano), y parte de la cual refleja desacuerdo genuino sobre la personalidad de la persona objetivo.

Para los propósitos de la evaluación a nivel individual —hacer afirmaciones significativas sobre la personalidad de una persona específica basándose en datos de compañeros— una sola valoración de Testigo es insuficiente. Es sugerente en el mejor de los casos.

"La fiabilidad entre evaluadores para valoraciones de personalidad por conocidos típicamente cae alrededor de .35–.45, indicando que se necesita una agregación sustancial para lograr estimaciones compuestas fiables."
— Véase: Fiabilidad entre evaluadores; y Connelly, B. S., & Ones, D. S. (2010). An other perspective on personality. Psychological Bulletin, 136(6), 1092–1122.

La fórmula de Spearman-Brown: cómo más Testigos aumentan la fiabilidad

El principio psicométrico que rige cómo la fiabilidad aumenta con el número de evaluadores es la fórmula de predicción de Spearman-Brown. Establece que si conocéis la fiabilidad de un solo evaluador, podéis predecir la fiabilidad de la media de k evaluadores:

r_k = (k × r_1) / (1 + (k − 1) × r_1)

Donde r_1 es la fiabilidad entre evaluadores con un solo evaluador y k es el número de evaluadores.

Esta fórmula predice rendimientos decrecientes: añadir el primer Testigo adicional añade más fiabilidad que añadir el décimo. La curva se aplana a medida que se añaden más evaluadores, y más allá de un cierto punto, los Testigos adicionales contribuyen de manera negligible a la fiabilidad del compuesto.

Partiendo de una fiabilidad típica de un solo evaluador de r = .35, la fórmula de Spearman-Brown nos da las siguientes predicciones:

Fiabilidad (r) Número de evaluadores 0.0 0.3 0.6 0.9 r=0.30 r=0.62 r=0.75 r=0.83 umbral mínimo 1 2 3 4 5 6 7 8
Fiabilidad compuesta (Spearman-Brown) vs número de evaluadores de compañeros, partiendo de una fiabilidad de un solo evaluador r = 0.30. La curva sube abruptamente de 1 a 3 evaluadores y luego se aplana. La línea roja discontinua marca 3 evaluadores — el umbral mínimo práctico para una interpretación significativa.

Fiabilidad por número de Testigos: de 3 a 12+

Número de Testigos Fiabilidad compuesta esperada (r) Interpretación práctica
1.35Demasiado ruidoso para conclusiones individuales; tratar como señal débil
2.52Moderado — útil solo para identificar patrones fuertes
3.62Aceptable — significativo a nivel de tendencias mayores
5.73Bueno — suficientemente fiable para uso de desarrollo
7.79Bueno a muy bueno — significativo para la mayoría de propósitos aplicados
10.84Muy bueno — sólido para contextos de desarrollo de alto riesgo
12.87Excelente — cercano al techo de mejora útil
15.89Ganancia marginal sobre 12; raramente vale el esfuerzo adicional
20.92Rendimientos decrecientes completamente en vigor

El mensaje práctico de esta tabla es claro: de tres a cinco Testigos producen un compuesto que es significativamente más fiable que una sola valoración, y de cinco a doce Testigos son suficientes para la mayoría de aplicaciones de desarrollo y coaching. Más de doce, la ganancia marginal por Testigo adicional es lo suficientemente pequeña que raramente justifica la carga sobre los Testigos o la complejidad administrativa.

Qué significa realmente "fiable" para los datos de personalidad de compañeros

Una fiabilidad de .73 (cinco Testigos) significa que aproximadamente el 73% de la varianza en la valoración compuesta de compañeros es sistemática —refleja algo real sobre la persona objetivo— mientras que el 27% es ruido. Para un contexto de desarrollo, donde el objetivo es identificar patrones amplios y áreas de reflexión en lugar de tomar decisiones de selección de alto riesgo, esto es suficiente.

Una fiabilidad de .84 (diez Testigos) se aproxima a la fiabilidad de muchas medidas de autoinforme bien validadas. A este nivel, podéis hacer comparaciones más refinadas —por ejemplo, una pequeña brecha entre Vinculación y Disciplina tiene más probabilidades de ser significativa que con cinco Testigos, donde diferencias tan pequeñas podrían ser ruido.

Por debajo de tres Testigos, interpretad el compuesto con precaución significativa. Dos Testigos con fiabilidad de .52 significa que casi la mitad de la varianza del compuesto es ruido. Esto no significa que los datos sean inútiles —un patrón fuerte y consistente entre dos Testigos sigue siendo informativo— pero debe tratarse como generador de hipótesis en lugar de definitivo.

Para un tratamiento más amplio de lo que significan la fiabilidad y la validez en las pruebas de personalidad en general, véase ¿Qué es la fiabilidad y la validez en las pruebas de personalidad?

Obtener el máximo de solo 2–3 evaluaciones de Testigos

En la práctica, recoger diez o más valoraciones de Testigos no siempre es factible. Las personas tienen redes limitadas de colegas cercanos, las normas sociales en torno a la solicitud de feedback de compañeros varían, y muchos usuarios de Cèrcol realizarán su evaluación /first-quarter con solo dos o tres Testigos disponibles.

Cuando tenéis Testigos limitados, el enfoque correcto es ajustar vuestra interpretación en consecuencia:

  • Centraos en señales fuertes, no en pequeñas diferencias. Con dos o tres Testigos, solo las diferencias sustanciales en el perfil compuesto —una desviación estándar completa o más entre dimensiones— probablemente sean fiables. Las pequeñas brechas entre dimensiones deben tratarse como ruido.
  • Buscad consistencia entre Testigos. Si ambos (o los tres) Testigos os puntúan de manera similar de manera independiente en una dimensión, esa convergencia es informativa incluso con una muestra pequeña. La divergencia entre Testigos —uno os puntúa alto en Presencia, otro os puntúa bajo— es una señal para explorar, no para promediar.
  • Comparad con el autoinforme, no con las normas. Con Testigos limitados, la comparación más significativa es entre vuestro perfil de autoinforme y vuestro compuesto de Testigos. ¿Dónde coinciden? ¿Dónde divergen? Incluso con datos de Testigos ruidosos, las divergencias consistentes respecto a las valoraciones propias vale la pena explorarlas.
  • Añadid Testigos con el tiempo. Cèrcol está diseñado para apoyar el uso longitudinal. Una evaluación de primer trimestre con tres Testigos, repetida con tres Testigos diferentes seis meses después, os da una imagen más rica que una sola instantánea.

Por qué la diversidad de relación de los Testigos importa tanto como el recuento

La fórmula de Spearman-Brown asume que los evaluadores adicionales son independientes y aproximadamente equivalentes en su perspectiva. En la práctica, la diversidad de relaciones importa tanto como el número de Testigos.

Cinco amigos cercanos que os conocen todos en contextos sociales similares producirán un compuesto más redundante que cinco Testigos que os conocen en diferentes contextos: un directivo, un compañero, un subordinado directo, un amigo cercano y un miembro de la familia. La diversidad contextual añade información que la simple agregación de relaciones similares no captura.

El marco de feedback de compañeros de Cèrcol anima a los usuarios a seleccionar Testigos de múltiples tipos de relación por esta razón. Una vez que tengáis los datos de Testigo a mano, el uso de Cèrcol para el desarrollo de equipos: una guía práctica explica cómo utilizarlos en un contexto de equipo facilitado.

Testigo de Cèrcol: recomendaciones prácticas por contexto

Basándonos en la literatura psicométrica y las limitaciones prácticas de los usuarios típicos de Cèrcol, se aplica la siguiente guía:

  • Mínimo para un uso significativo: 3 Testigos. Por debajo de esto, los resultados son demasiado ruidosos para una interpretación segura.
  • Objetivo para uso de desarrollo estándar: 5–7 Testigos. Esto produce una fiabilidad compuesta de .73–.79, suficiente para identificar patrones genuinos en cómo sois percibidos.
  • Contextos de alto riesgo o coaching: 8–12 Testigos. Para el desarrollo del liderazgo, el coaching ejecutivo, o cualquier contexto donde los datos de personalidad se utilizarán para tomar decisiones de desarrollo significativas, diez o más Testigos producen el compuesto más fiable.
  • Más de 12: rendimientos decrecientes. La ganancia de fiabilidad incremental de los Testigos adicionales más de 12 es lo suficientemente pequeña que la carga adicional sobre los Testigos raramente está justificada.

Resumen: el número correcto de Testigos para vuestro caso de uso

Una sola valoración de personalidad por compañeros tiene una fiabilidad entre evaluadores de aproximadamente .35 —demasiado baja para una interpretación segura a nivel individual. El teorema de agregación de Spearman-Brown predice cómo aumenta la fiabilidad compuesta con Testigos adicionales, alcanzando niveles aceptables (.73+) con cinco evaluadores y niveles muy buenos (.84+) con diez. Más de doce Testigos, los rendimientos disminuyen marcadamente. En la práctica, tres Testigos es el mínimo para un uso significativo; cinco a siete es el objetivo práctico; diez o más es ideal para aplicaciones de alto riesgo. Cuando el número de Testigos es limitado, centraos en señales fuertes, buscad consistencia entre Testigos, y usad la comparación self-other como lente interpretativa principal.


Referencias
Connelly, B. S., & Ones, D. S. (2010). An other perspective on personality: Meta-analytic integration of observers' accuracy and predictive validity. Psychological Bulletin, 136(6), 1092–1122.
Shrout, P. E., & Fleiss, J. L. (1979). Intraclass correlations: Uses in assessing rater reliability. Psychological Bulletin, 86(2), 420–428.

Haced la evaluación de Cèrcol ahora — gratuita

Todo lo descrito en este artículo se aplica a vuestros propios datos de Testigo. Id a cercol.team, haced la evaluación de personalidad gratuita e invitad al menos a tres colegas a actuar como Testigos. Cèrcol muestra intervalos de confianza que se amplían con menos Testigos, de modo que podéis ver exactamente cómo cambia la fiabilidad con cada evaluador adicional. El instrumento Testigo es gratuito, tarda menos de cinco minutos a los colegas en completar, y el compuesto está disponible tan pronto como responde vuestro tercer Testigo.

Lectura adicional

Artículos relacionados

Cèrcol usa solo cookies funcionales — sin analíticas, sin rastreadores publicitarios. Política de privacidad