Is Cèrcol based on the Big Five?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP public-domain item pool (Goldberg et al. 2006). The 12 team roles are derived from the AB5C circumplex (Hofstee et al. 1992) and team composition research (Bell 2007; Neuman & Wright 1999).

What makes Cèrcol different from Belbin or DISC?

Cèrcol's roles are grounded in the Big Five (OCEAN) personality model using the IPIP public-domain item pool. The scoring pipeline is fully open source and auditable. Witness Cèrcol uses forced-choice adjective selection — not Likert scales — to eliminate social desirability bias in peer assessment. Unlike Belbin or DISC, all items are public domain and the entire methodology is published and citable.

Is the personality assessment free?

The New Moon Cèrcol (10 items, Big Five snapshot) and First Quarter Cèrcol (60 items, IPIP-NEO-60, 30 facets) are always free — no account required. The Full Moon Cèrcol (120 items, IPIP-NEO-120, Witness peer assessment, cognitive ability measure) requires a one-time payment.

What is Witness Cèrcol?

Witness Cèrcol is a peer personality assessment where someone who knows you well rates you using a forced-choice adjective selection method — picking the best-fit and worst-fit adjective per round from a set covering all five OCEAN dimensions. Forced choice eliminates the social desirability bias that affects standard Likert-scale peer ratings. Dimensions where your self-rating and peer ratings diverge by more than 0.8 standard deviations are flagged as potential blind spots.

How are the 12 team roles derived?

The 12 roles are derived from the AB5C circumplex (Hofstee, De Raad & Goldberg 1992), covering all six intersections of the three team balance dimensions (Presence/Extraversion × Bond/Agreeableness × Vision/Openness) at both poles. The selection of these three dimensions as requiring team-level balance is grounded in Bell (2007) and Neuman & Wright (1999). Discipline (Conscientiousness) and Depth (Neuroticism) modulate role expression but do not define team balance.

No account is required for any instrument. During assessment, no personal data is collected — only anonymous scores are logged. Data is stored on our own servers (Hetzner Online GmbH). No third-party analytics. No data is shared with or sold to third parties.

Is Cèrcol based on the Big Five (OCEAN)?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP — the International Personality Item Pool, a public-domain collection validated in thousands of published studies. The five dimensions are Presence (Extraversion), Bond (Agreeableness), Vision (Openness), Discipline (Conscientiousness), and Depth (Neuroticism). Because the IPIP is public domain there are no licence restrictions: the full item pool and scoring logic are open and citable.

How is Cèrcol different from Belbin, DISC, or StrengthsFinder?

Three things set Cèrcol apart. First, the items come from the Big Five (OCEAN), the most replicated personality model in academic research — not a proprietary framework. Second, the full item pool (IPIP) and scoring pipeline are public domain and auditable; there is no black box. Third, the Witness peer assessment uses forced-choice adjective selection instead of Likert scales, which eliminates the social desirability bias that affects most 360-feedback tools. Belbin and DISC use closed, proprietary methodologies.

What are blind spots in team personality assessment?

A blind spot is a personality dimension where how you see yourself and how others see you diverge significantly — more than 0.8 standard deviations apart. Cèrcol's Witness peer assessment detects blind spots by comparing your self-report with forced-choice adjective ratings from people who know you. Blind spots are neither good nor bad: they show where your self-perception and others' experience of you don't match, which is often more actionable than the score itself.

Comment les scores des tests de personnalité sont calculés : des items aux dimensions

Vous vous installez avec un questionnaire de personnalité. Vous répondez à une centaine d'affirmations sur vous-même, en les évaluant sur une échelle. Quinze minutes plus tard, un score apparaît — un percentile, un graphique en barres, une catégorie. Le chiffre semble faire autorité. Mais entre le moment où vous répondez à un item et le moment où un score apparaît, une série de choix méthodologiques ont été opérés — des choix qui affectent ce que signifie le score, dans quelle mesure il est comparable d'une personne à l'autre, et quelle confiance vous devriez lui accorder.

Cet article explique chaque étape de la notation des tests de personnalité : le format des items, le codage inversé, les méthodes d'agrégation, les bases de données normatives et la différence entre les approches utilisées dans différents instruments. Comprendre ces étapes fait de vous un meilleur consommateur de données de personnalité.

Le pipeline de notation en cinq étapes : des réponses brutes aux items jusqu'à un score percentile.

Étape 1 : Comment les formats de réponse aux items du Big Five conditionnent votre score

La matière première d'un score de personnalité est la réponse à des items individuels. Le format le plus courant dans l'évaluation Big Five est l'échelle de Likert : les répondants évaluent leur accord avec une affirmation — généralement « Tout à fait en désaccord / En désaccord / Neutre / D'accord / Tout à fait d'accord » — habituellement sur une échelle de cinq ou sept points. Voir Échelle de Likert — Wikipédia pour les fondements statistiques complets.

Les formats Likert présentent plusieurs avantages psychométriques. Ils sont sensibles aux gradations d'accord plutôt que de forcer une réponse binaire oui/non, ce qui augmente la variance des scores et donc la fiabilité. Ils sont familiers à la plupart des répondants, réduisant la charge cognitive de la tâche de réponse. Et ils produisent des données de type intervalle pouvant être soumises à une analyse statistique standard.

Des formats alternatifs existent, chacun reposant sur des hypothèses différentes :

Les formats à choix forcé présentent des paires ou des groupes d'affirmations pertinentes pour un trait et demandent au répondant de choisir laquelle lui ressemble le plus. Ce dispositif a été conçu pour réduire l'impact de la réponse par désirabilité sociale — la tendance à avaliser des affirmations qui semblent valorisées positivement indépendamment de leur exactitude. Le choix forcé rend plus difficile la présentation d'une image de soi idéalisée car choisir une affirmation positive implique nécessairement d'en rejeter une autre. La contrepartie est la mesure ipsative, abordée ci-dessous. Pour un traitement complet, voir évaluation de la personnalité à choix forcé : pourquoi elle produit des données plus honnêtes.

Les formats d'évaluation d'adjectifs présentent des mots individuels pertinents pour la personnalité (« organisé », « spontané », « anxieux ») et demandent dans quelle mesure chacun décrit le répondant. Ces formats s'administrent plus rapidement que les items à phrases complètes et présentent une validité raisonnable, mais ils tendent à avoir une fiabilité inférieure aux échelles de Likert à phrases complètes — en partie parce que les mots isolés sont plus ambigus que les phrases complètes.

Étape 2 : Pourquoi les items à score inversé protègent la validité des échelles Big Five

Une échelle de personnalité bien conçue comprend à la fois des items codés positivement et négativement — c'est-à-dire des items où l'accord indique l'extrémité haute du trait, et d'autres où l'accord indique l'extrémité basse. Un item comme « Je range soigneusement mes affaires » est codé positivement pour la Conscience ; « Je laisse souvent des tâches inachevées » est codé négativement.

Les items codés négativement servent deux objectifs. Premièrement, ils réduisent l'impact du biais d'acquiescement — la tendance de certains répondants à approuver des affirmations indépendamment de leur contenu. Si tous les items d'une échelle de Conscience sont formulés dans la même direction, une personne qui dit « d'accord » à tout semblera très consciencieuse même si son comportement réel ne l'est pas. Les items codés négativement signifient qu'une réponse constamment affirmative produit un score intermédiaire plutôt qu'un score faussement élevé. Pour une explication détaillée de la façon dont l'acquiescement et la désirabilité sociale faussent les scores, voir biais de désirabilité sociale dans les tests de personnalité.

Avant d'agréger les items en un score dimensionnel, les items codés négativement sont inversés : une réponse de 5 sur une échelle de 1 à 5 est recodée en 1, un 4 devient un 2, un 3 reste à 3, et ainsi de suite. Après l'inversion, tous les items pointent dans la même direction, et la simple sommation ou la moyenne produit un score d'échelle cohérent.

« L'inversion des scores n'est pas un artifice. C'est une mesure de sauvegarde — un dispositif de conception qui protège la validité des scores d'échelle contre les styles de réponse systématiques qui produiraient autrement des résultats trompeurs. Un instrument sans items codés négativement devrait être traité avec prudence. »

Étape 3 : Score par sommation vs Théorie de Réponse à l'Item dans l'évaluation Big Five

Une fois les items scorés dans la même direction, ils doivent être combinés en un score dimensionnel. Les deux principales approches sont le score par sommation de la théorie classique des tests (TCT) et la théorie de réponse à l'item (TRI).

Le score par sommation est exactement ce qu'il semble : additionner (ou faire la moyenne des) scores des items. Si une échelle de Conscience contient 20 items notés de 1 à 5, la somme peut aller de 20 à 100. Cette somme brute est ensuite généralement standardisée par rapport à un échantillon normatif pour produire un percentile ou un score standardisé. Le score par sommation est facile à mettre en œuvre, facile à expliquer et adéquat pour la plupart des usages.

La Théorie de Réponse à l'Item (TRI) adopte une approche plus sophistiquée. Les modèles TRI modélisent la probabilité de chaque option de réponse en fonction du niveau de trait latent du répondant. Les items ne sont pas traités comme équivalents — certains items sont plus discriminants (meilleurs pour distinguer entre des personnes à différents niveaux de trait), et certains items sont plus informatifs à différents points de la distribution du trait. Le scoring TRI pondère les items par leur pouvoir discriminant et peut produire des estimations plus précises aux extrémités de la distribution, où le score par sommation tend à être moins fiable.

Pour la plupart des usages appliqués — développement d'équipes, coaching individuel, connaissance de soi — la différence pratique entre le score par sommation de la TCT et la TRI est faible. Là où la TRI offre un avantage clair, c'est dans les tests adaptatifs (sélectionner les items à administrer en fonction des réponses précédentes, ce qui permet des tests plus courts avec une précision équivalente) et dans les contextes à enjeux élevés où la précision de mesure aux extrémités de la distribution est importante. Pour en savoir plus sur la façon dont la longueur du test interagit avec ces calculs, voir pourquoi 120 items vaut mieux que 10 : la longueur des tests de personnalité.

Étape 4 : Score normatif vs ipsatif — et pourquoi cela change tout

C'est peut-être la distinction la moins bien comprise dans la notation des tests de personnalité — et l'une des plus importantes.

Le score normatif compare le score de chaque répondant à une population de référence (l'échantillon normatif). Une somme brute de 78 sur une échelle de Conscience ne signifie rien jusqu'à ce que vous sachiez que la personne moyenne de l'échantillon normatif obtient 65 et que l'écart-type est de 12 — ce qui signifie qu'un score de 78 se situe environ un écart-type au-dessus de la moyenne, soit approximativement le 84e percentile. Les scores normatifs répondent à la question : comment cette personne se compare-t-elle aux autres ?

Le score ipsatif produit des scores relatifs — des comparaisons de la position du répondant sur différents traits les uns par rapport aux autres, plutôt que des comparaisons avec d'autres personnes. Les formats à choix forcé produisent naturellement des données ipsatives : si un répondant a systématiquement choisi des affirmations liées à la Conscience plutôt qu'à l'Agréabilité, il finira avec un score relativement élevé en Conscience et relativement bas en Agréabilité — mais les scores sont définis les uns par rapport aux autres, pas par rapport à une population.

La littérature psychométrique est claire sur le fait que les scores ipsatifs sont appropriés pour comprendre les ordres de priorité au sein d'une personne, mais qu'ils sont inappropriés pour comparer des personnes entre elles ou pour prédire des résultats dans des études de validité de critère. Utiliser des scores ipsatifs pour comparer des candidats lors d'une décision d'embauche est une erreur méthodologique — car un candidat qui obtient un score ipsatif élevé en Conscience pourrait avoir une Conscience absolue inférieure à celle d'un autre candidat dont le score ipsatif est intermédiaire. Pour les implications spécifiques au recrutement, voir tests de personnalité lors de l'embauche : ce qui est légal et ce qui est éthique.

Méthode de notation	Comment ça fonctionne	Avantages	Inconvénients
Sommation/moyenne Likert (TCT)	Additionne ou fait la moyenne des scores des items après inversion	Simple, transparent, bien compris	Traite tous les items comme également informatifs
Théorie de Réponse à l'Item (TRI)	Modélise la probabilité de chaque réponse en fonction du trait latent	Plus précis aux extrémités de la distribution ; permet les tests adaptatifs	Plus complexe à mettre en œuvre et à expliquer
Score normatif	Compare le score brut à la population de référence	Permet la comparaison entre individus ; rangs percentiles significatifs	La qualité dépend fortement de la représentativité de l'échantillon normatif
Score ipsatif	Classe les traits les uns par rapport aux autres au sein d'une personne	Réduit les réponses par désirabilité sociale ; révèle les priorités intra-individuelles	Non valable pour les comparaisons entre personnes ; ne peut pas être utilisé dans les études de validité de critère

Étape 5 : Pourquoi la base de données normative conditionne votre percentile Big Five

Un score normatif n'est significatif que dans la mesure où l'échantillon normatif dont il est dérivé l'est. Si la population de référence utilisée pour produire un score percentile est systématiquement différente de la personne évaluée — âge, profession, culture, niveau d'éducation différents — le percentile peut être trompeur.

Un score de Conscience au 75e percentile d'un échantillon de population adulte générale pourrait se traduire par le 55e percentile d'une population professionnelle très éduquée, où la Conscience moyenne tend à être plus élevée. Utiliser une base normative incorrecte produit des scores qui représentent systématiquement mal la position d'une personne par rapport à la population de comparaison qui compte réellement pour la décision en jeu.

Les plateformes d'évaluation bien conçues maintiennent des échantillons normatifs distincts pour différentes populations — par profession, par pays, par groupe d'âge — et appliquent la norme pertinente à chaque évaluation. Cèrcol utilise un score normatif dérivé des échantillons de validation IPIP, avec une collecte de données en cours pour développer des normes pertinentes pour les populations spécifiques utilisant la plateforme. Pour la discussion complète sur ce que signifient fiabilité et validité dans ce contexte, voir qu'est-ce que la fiabilité et la validité dans les tests de personnalité.

Comment Cèrcol note son instrument Big Five

L'instrument de Cèrcol utilise des items au format Likert avec un codage mixte positif et négatif, un score par sommation TCT après codage inversé, et une comparaison normative avec des échantillons de validation IPIP publiés. Les scores dimensionnels sont standardisés en équivalents percentiles, et les scores facettaires sont rapportés en tant que scores standardisés au sein de chaque dimension. Pour approfondir ce que les facettes apportent au tableau que les scores de domaine seuls ne peuvent pas fournir, voir qu'est-ce qu'une facette en psychologie de la personnalité.

L'évaluation Témoin applique le même algorithme de notation aux réponses des observateurs, produisant des scores comparables de dimensions et de facettes qui peuvent être directement superposés aux données d'auto-évaluation. Les écarts de scores entre l'auto-évaluation et le Témoin sont signalés dans les rapports comme des angles morts potentiels — des domaines où la perception de soi et la perception externe divergent de manière significative. Pour comprendre pourquoi cette couche de pairs est importante, voir pourquoi l'auto-évaluation seule ne suffit pas : le retour de personnalité par les pairs.

Comprendre le processus de notation ne change pas ce que les scores signifient en pratique. Mais il rend clair que les scores de personnalité ne sont pas des sorties mystérieuses d'une machine opaque. Ils sont le résultat de choix méthodologiques explicites et vérifiables — des choix qui, dans le cas de Cèrcol, sont fondés sur la recherche psychométrique publiée et disponibles pour inspection dans la documentation scientifique.

Pour le contexte sur ce que ces scores reposent et comment les utiliser correctement, voir ce que signifient fiabilité et validité dans les tests de personnalité et évaluation de personnalité à choix forcé et pourquoi elle produit des données plus honnêtes.

Comment Cèrcol calcule vos scores Big Five

La notation de Cèrcol est entièrement transparente : items au format Likert, codage inversé si nécessaire, agrégation par sommation TCT et conversion en percentile normatif à l'aide d'échantillons IPIP publiés. Il n'y a pas d'algorithmes propriétaires en boîte noire. La couche d'évaluation par les pairs Témoin applique la même logique aux paires d'adjectifs évalués par l'observateur et superpose le résultat à votre profil d'auto-évaluation — mettant en évidence les angles morts qu'aucun instrument d'auto-évaluation, aussi bien noté soit-il, ne peut détecter par lui-même.

Si vous souhaitez voir cette méthodologie en action, l'évaluation complète Big Five est gratuite sur cercol.team. L'instrument Témoin ajoute des perspectives de pairs en utilisant un dispositif à choix forcé qui contourne l'inflation due à l'acquiescement et à la désirabilité sociale qui affecte les échelles de Likert standard. La documentation scientifique détaille chaque décision de notation avec des références à la littérature psychométrique publiée.

Pour aller plus loin : Ce que signifient fiabilité et validité dans les tests de personnalité · Évaluation de personnalité à choix forcé : des données plus honnêtes

Comment les scores des tests de personnalité sont calculés : des items aux dimensions

Étape 1 : Comment les formats de réponse aux items du Big Five conditionnent votre score

Étape 2 : Pourquoi les items à score inversé protègent la validité des échelles Big Five

Étape 3 : Score par sommation vs Théorie de Réponse à l'Item dans l'évaluation Big Five

Étape 4 : Score normatif vs ipsatif — et pourquoi cela change tout

Étape 5 : Pourquoi la base de données normative conditionne votre percentile Big Five

Comment Cèrcol note son instrument Big Five

Comment Cèrcol calcule vos scores Big Five

Pour aller plus loin

Articles liés

Ce que signifient la fiabilité et la validité dans les tests de personnalité — expliqué clairement

Qu'est-ce qu'une facette en psychologie de la personnalité — et pourquoi est-ce important ?

Pourquoi 120 items vaut mieux que 10 : le compromis dans la longueur des tests de personnalité