Is Cèrcol based on the Big Five?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP public-domain item pool (Goldberg et al. 2006). The 12 team roles are derived from the AB5C circumplex (Hofstee et al. 1992) and team composition research (Bell 2007; Neuman & Wright 1999).

What makes Cèrcol different from Belbin or DISC?

Cèrcol's roles are grounded in the Big Five (OCEAN) personality model using the IPIP public-domain item pool. The scoring pipeline is fully open source and auditable. Witness Cèrcol uses forced-choice adjective selection — not Likert scales — to eliminate social desirability bias in peer assessment. Unlike Belbin or DISC, all items are public domain and the entire methodology is published and citable.

Is the personality assessment free?

The New Moon Cèrcol (10 items, Big Five snapshot) and First Quarter Cèrcol (60 items, IPIP-NEO-60, 30 facets) are always free — no account required. The Full Moon Cèrcol (120 items, IPIP-NEO-120, Witness peer assessment, cognitive ability measure) requires a one-time payment.

What is Witness Cèrcol?

Witness Cèrcol is a peer personality assessment where someone who knows you well rates you using a forced-choice adjective selection method — picking the best-fit and worst-fit adjective per round from a set covering all five OCEAN dimensions. Forced choice eliminates the social desirability bias that affects standard Likert-scale peer ratings. Dimensions where your self-rating and peer ratings diverge by more than 0.8 standard deviations are flagged as potential blind spots.

How are the 12 team roles derived?

The 12 roles are derived from the AB5C circumplex (Hofstee, De Raad & Goldberg 1992), covering all six intersections of the three team balance dimensions (Presence/Extraversion × Bond/Agreeableness × Vision/Openness) at both poles. The selection of these three dimensions as requiring team-level balance is grounded in Bell (2007) and Neuman & Wright (1999). Discipline (Conscientiousness) and Depth (Neuroticism) modulate role expression but do not define team balance.

No account is required for any instrument. During assessment, no personal data is collected — only anonymous scores are logged. Data is stored on our own servers (Hetzner Online GmbH). No third-party analytics. No data is shared with or sold to third parties.

Is Cèrcol based on the Big Five (OCEAN)?

Yes. Cèrcol measures personality using the OCEAN model (Big Five) via the IPIP — the International Personality Item Pool, a public-domain collection validated in thousands of published studies. The five dimensions are Presence (Extraversion), Bond (Agreeableness), Vision (Openness), Discipline (Conscientiousness), and Depth (Neuroticism). Because the IPIP is public domain there are no licence restrictions: the full item pool and scoring logic are open and citable.

How is Cèrcol different from Belbin, DISC, or StrengthsFinder?

Three things set Cèrcol apart. First, the items come from the Big Five (OCEAN), the most replicated personality model in academic research — not a proprietary framework. Second, the full item pool (IPIP) and scoring pipeline are public domain and auditable; there is no black box. Third, the Witness peer assessment uses forced-choice adjective selection instead of Likert scales, which eliminates the social desirability bias that affects most 360-feedback tools. Belbin and DISC use closed, proprietary methodologies.

What are blind spots in team personality assessment?

A blind spot is a personality dimension where how you see yourself and how others see you diverge significantly — more than 0.8 standard deviations apart. Cèrcol's Witness peer assessment detects blind spots by comparing your self-report with forced-choice adjective ratings from people who know you. Blind spots are neither good nor bad: they show where your self-perception and others' experience of you don't match, which is often more actionable than the score itself.

Pourquoi 120 items vaut mieux que 10 : le compromis dans la longueur des tests de personnalité

La formule de Spearman-Brown : Pourquoi la longueur du test prédit la fiabilité du Big Five

La relation mathématique entre la longueur du test et la fiabilité a été formalisée il y a plus d'un siècle par Charles Spearman et William Brown travaillant indépendamment. La formule de prophétie de Spearman-Brown prédit comment la fiabilité change lorsque vous changez le nombre d'items dans un test, en supposant que les nouveaux items sont de qualité similaire aux originaux.

La formule a une implication spécifique : les gains de fiabilité en ajoutant des items suivent une courbe de rendements décroissants. Passer de 2 items à 10 items produit un grand gain de fiabilité. Passer de 80 items à 120 items en produit un beaucoup plus petit. Les premiers items font le plus gros du travail ; chaque item supplémentaire ajoute moins que le précédent.

C'est pourquoi le choix de la longueur du test est une véritable décision d'ingénierie plutôt qu'une simple conclusion de "plus c'est toujours mieux". À un moment donné, la charge imposée aux répondants dépasse le gain de fiabilité. La question pratique est de savoir où se situe ce point pour le cas d'utilisation en question. Pour un traitement complet de la façon dont la fiabilité est définie et mesurée, voir qu'est-ce que la fiabilité et la validité dans les tests de personnalité.

"La formule de Spearman-Brown rend précise la relation fiabilité-longueur : pour doubler la fiabilité d'un test, vous devez environ quadrupler sa longueur."

Ce que les tests Big Five de 10 items manquent et que capturent les instruments plus longs

Les deux items par dimension du TIPI ne peuvent pas, par construction, capturer la variation au niveau des facettes au sein de chaque dimension du Big Five. Comme décrit dans qu'est-ce qu'une facette en psychologie de la personnalité, chaque dimension du Big Five contient six facettes — des sous-traits étroits qui peuvent pointer dans des directions différentes pour des personnes avec le même score global de dimension.

Une échelle de Conscienciosité à deux items peut réussir à classer si une personne est globalement haute ou basse sur la dimension. Elle ne peut pas distinguer entre quelqu'un dont la Conscienciosité est tirée par l'Ordre et le Devoir vs. quelqu'un dont le profil est dominé par l'Effort pour la Réalisation et l'Autodiscipline — qui est précisément la distinction la plus pertinente pour l'adéquation au rôle et le développement.

La même limitation s'applique à toutes les dimensions. Une échelle d'Ouverture à deux items ne peut pas séparer la curiosité intellectuelle de la sensibilité esthétique. Une échelle de Névrosisme à deux items ne peut pas distinguer la réactivité guidée par l'anxiété de la réactivité guidée par la colère.

Les tests courts montrent également une fiabilité réduite pour les individus près du milieu de la distribution — la plage où la plupart des gens scorent sur la plupart des dimensions. Pour les scoreurs clairement extrêmes (très hauts ou très bas), deux items peuvent être suffisants pour les classer raisonnablement. Pour la majorité qui score dans la plage modérée, l'erreur de mesure d'une échelle à deux items est assez grande pour produire des classifications différentes lors d'un nouveau test. Pour l'explication statistique de pourquoi cela importe, voir comment les scores des tests de personnalité sont calculés.

TIPI vs IPIP-NEO-120 : Compromis de fiabilité côte à côte

Le IPIP-NEO-120 est un instrument de 120 items, disponible gratuitement, qui mesure les cinq dimensions du Big Five et les trente facettes. Il a été développé spécifiquement comme une alternative en accès libre au NEO PI-R propriétaire, et ses propriétés de validité ont été documentées dans des recherches évaluées par les pairs.

La comparaison avec le TIPI illustre directement le compromis fiabilité-longueur :

Longueur du test	Instrument exemple	Items par dimension	Mesure des facettes	Estimation de fiabilité (α)	Cas d'utilisation approprié
10 items	TIPI	2	Aucune	~0.45–0.65 par dimension	Recherche de population à grande échelle ; filtrage quand la brièveté est essentielle ; auto-exploration à faible enjeu
44 items	BFI (Big Five Inventory)	~8–9	Aucune	~0.75–0.85 par dimension	Recherche académique nécessitant un équilibre brièveté-fiabilité ; études au niveau du groupe
60 items	IPIP-NEO-60	12	Partielle	~0.80–0.87 par dimension	Recherche appliquée ; contextes de développement à enjeu modéré
100–120 items	Cèrcol / IPIP-NEO-120	20–24	Complète (30 facettes)	~0.87–0.93 par dimension	Développement individuel ; profilage d'équipe ; coaching ; évaluation à enjeu élevé
240 items	NEO PI-R (complet)	48	Complète (30 facettes)	~0.90–0.95 par dimension	Évaluation clinique ; recherche nécessitant une précision maximale ; sélection à enjeu élevé

Quand un test de personnalité court est réellement approprié

Le cas des tests de personnalité courts est réel et ne doit pas être rejeté. Dans certains contextes, un instrument de 10 items est le bon choix.

La recherche de population à grande échelle nécessite la completion de milliers de répondants. Un temps de completion de 10 minutes crée un abandon significativement plus élevé qu'un de 2 minutes, ce qui produit des échantillons biaisés. Lorsque la question de recherche porte sur des tendances au niveau de la population plutôt que sur des profils individuels, la fiabilité plus faible du TIPI est acceptable car elle est moyennée sur de grands échantillons.

Les contextes de filtrage — où l'objectif est d'identifier qui pourrait bénéficier d'une évaluation plus approfondie — peuvent utiliser de manière appropriée des instruments courts. Si un filtrage de 10 items identifie des candidats dans le quartile supérieur ou inférieur d'une dimension pour une évaluation ultérieure, la brièveté est un compromis raisonnable.

La mesure répétée présente un problème différent. Si vous souhaitez suivre l'évolution de la personnalité au fil du temps — ou à travers plusieurs interventions de développement — administrer un instrument de 120 items chaque trimestre est contraignant. Une forme courte validée utilisée de façon cohérente au fil du temps peut produire des données longitudinales plus exploitables qu'une administration de format long peu fréquente.

L'auto-exploration à faible enjeu — où l'utilisateur est simplement curieux de sa personnalité plutôt que d'utiliser les données pour une décision conséquente — peut de façon appropriée utiliser des instruments plus courts. Le coût de l'erreur de mesure est plus faible lorsque les enjeux sont plus faibles. Pour une comparaison des évaluations gratuites appropriées pour quels enjeux, voir les meilleurs tests de personnalité gratuits pour les équipes en 2026.

Quand la longueur du test compte : Développement individuel et profilage d'équipe

Le cas des instruments plus longs se renforce à mesure que les enjeux et les exigences de spécificité du cas d'utilisation augmentent.

Le développement individuel nécessite des données au niveau des facettes. Un instrument de 10 items ne peut pas dire à un coach ou un manager pourquoi le score de Conscienciosité de quelqu'un est ce qu'il est — quelles facettes le poussent, et quelles interventions de développement sont les plus susceptibles d'être efficaces. Un instrument de 120 items avec notation au niveau des facettes fournit la spécificité que requièrent les conversations de développement.

Le profilage d'équipe nécessite des scores individuels fiables comme entrées pour l'analyse au niveau de l'équipe. Si les scores individuels présentent une erreur de mesure élevée, le profil de l'équipe hérite de cette erreur. Une carte d'équipe construite sur des scores TIPI montrera une plus grande variation aléatoire entre les profils qu'une construite sur des instruments plus longs — ce qui réduit l'utilité de la carte pour la conception délibérée de l'équipe. Voir les 12 rôles d'équipe de Cèrcol pour la façon dont les profils au niveau des facettes se traduisent en insights sur les rôles d'équipe.

L'évaluation par les pairs amplifie l'argument. Le modèle Témoin de Cèrcol demande aux observateurs d'évaluer la personnalité de quelqu'un d'autre sur plusieurs dimensions et facettes. Un instrument court effondrerait le signal des évaluations du Témoin jusqu'au point où les divergences observateur-vs-autoévaluation — les données les plus informatives du rapport — deviendraient peu fiables. La méthodologie Témoin est expliquée en détail dans ce que mesure l'instrument Témoin de Cèrcol.

Les décisions à enjeu élevé — évaluation des performances, reconception des rôles, sélection pour des programmes de leadership — exigent que les données soient suffisamment fiables pour agir dessus. Une mesure avec α = 0.55 (TIPI typique) signifie que 45 % de la variance des scores est du bruit aléatoire. Une mesure avec α = 0.90 signifie que seulement 10 % est du bruit. La différence entre agir sur 55 % de signal vs 90 % de signal est la différence entre des données utiles et des décisions aléatoires.

Pourquoi Cèrcol utilise 120 items pour équilibrer fiabilité et temps de completion

L'instrument de Cèrcol utilise 120 items — 24 par dimension du Big Five — fournissant une mesure au niveau des facettes tout en restant substantiellement plus court que le NEO PI-R complet de 240 items. La conception reflète un compromis délibéré : maintenir la résolution des facettes et la fiabilité au-dessus de 0.87 par dimension tout en maintenant le temps de completion à environ 15 minutes.

Cette longueur est soutenue par les preuves de fiabilité et de validité pour les instruments basés sur IPIP à ce nombre d'items, et par la réalité pratique que le profilage d'équipe et le développement individuel nécessitent des données au niveau des facettes que les instruments plus courts ne peuvent structurellement pas fournir. Pour la science derrière pourquoi cela importe, voir tests de personnalité : open source vs. commercial et biais de désirabilité sociale dans les tests de personnalité — les instruments plus longs offrent également plus d'opportunités d'inclure des items à codage inversé qui protègent contre l'acquiescement et l'inflation de désirabilité sociale.

La longueur appropriée pour un instrument de personnalité n'est pas déterminée par la convention ou par ce qui semble commode. Elle est déterminée par le cas d'utilisation, la fiabilité requise et le niveau de spécificité que les données doivent fournir. Pour le développement individuel et d'équipe, les preuves soutiennent systématiquement des instruments dans la plage de 100–120 items comme l'optimum pratique.

Pourquoi Cèrcol utilise 120 items plutôt que 10

Un test de personnalité à 10 items vaut mieux que pas de test — mais pour les objectifs qui importent à la plupart des équipes (adéquation au rôle, planification du développement, prédiction des conflits, coaching), 10 items par dimension ne suffit pas. Deux items ne peuvent pas distinguer les facettes, ne peuvent pas classer de façon fiable les personnes au milieu de la distribution, et produisent une erreur de mesure assez grande pour changer les conclusions lors d'un nouveau test.

Cèrcol utilise 120 items parce que c'est la longueur d'instrument la plus courte qui offre une résolution complète des facettes et une fiabilité test-retest supérieure à 0.87 sur toutes les cinq dimensions du Big Five. Les items sont tirés de la banque d'items IPIP du domaine public — la même source scientifique utilisée dans des centaines d'études évaluées par les pairs. La completion prend environ 15 minutes.

Si vous voulez voir à quoi ressemblent réellement les données Big Five au niveau des facettes pour votre équipe, l'évaluation est gratuite sur cercol.team. L'évaluation par les pairs Témoin ajoute des profils évalués par des observateurs pour chaque personne — une seconde perspective qu'aucun instrument d'autoévaluation, aussi long soit-il, ne peut remplacer. Lisez la justification complète de la mesure sur cercol.team/science.

Lectures complémentaires : Ce que signifient fiabilité et validité dans les tests de personnalité · La science derrière Cèrcol

Pourquoi 120 items vaut mieux que 10 : le compromis dans la longueur des tests de personnalité

La formule de Spearman-Brown : Pourquoi la longueur du test prédit la fiabilité du Big Five

Ce que les tests Big Five de 10 items manquent et que capturent les instruments plus longs

TIPI vs IPIP-NEO-120 : Compromis de fiabilité côte à côte

Quand un test de personnalité court est réellement approprié

Quand la longueur du test compte : Développement individuel et profilage d'équipe

Pourquoi Cèrcol utilise 120 items pour équilibrer fiabilité et temps de completion

Pourquoi Cèrcol utilise 120 items plutôt que 10

Lectures complémentaires

Articles liés

Ce que signifient la fiabilité et la validité dans les tests de personnalité — expliqué clairement

Qu'est-ce qu'une facette en psychologie de la personnalité — et pourquoi est-ce important ?

Comment les scores des tests de personnalité sont calculés : des items aux dimensions