Des résultats trop précis pour être honnêtes
L’actualité scientifique nous abreuve quotidiennement de chiffres, d’estimations et de pourcentages : « consommer tel produit augmenter le risque de cancer de tant de % ». « Si l’on prend telle mesure, on sauve « tant » de vies »… Ah, c’est sûr, ils en imposent, ces chiffres, parfois présentés à la virgule près… Prenons deux exemples presque au hasard. Le premier est tiré d’un communiqué de l’Inserm en 2016, le second extrait d’un communiqué d’une université nord-américaine en 2015.
- « Les cancers du sein sont attribuables à 39,9 % au comportement » (c’est-à-dire ce qu’on mange, ce qu’on fume)
- « Suivre les recommandations d’activité sportive diminue de 31% le risque de mortalité à 14 ans »
Ces résultats ne sont-ils pas un tout petit peu trop précis pour être honnête ? Répondre à cette question est l’enjeu de ce petit billet, présenté ce 23 février dans une version allégée dans le Magazine de la santé sur France 5 ▶. Vous retrouverez une version revue, corrigée et augmentée de ce texte, courant novembre 2017, au chapitre ❼ d’un indispensable ouvrage que vous ne manquerez pas de glisser, le mois suivant, sous le sapin de tous vos amis [1].
Qui dit estimation dit incertitude
Avant tout, rappelons ceci : qu’il s’agisse d’une étude sur des animaux, ou d’un essai clinique sur l’être humain, les expériences à l’origine de ces chiffres concernent toujours un nombre réduit d’individus. On ne teste pas un médicament sur les 67 millions de Français, mais plutôt sur 10, 100 individus. Si vous me permettez une analogie de saison, on ne fait pas un référendum, on se contente d’un sondage…
Bien sûr, bien sûr, cette démarche permet de recueillir beaucoup d’informations, et est tout à fait légitime. Elle est au cœur de la plupart des recherches scientifiques ! Mais : quand on fait des mesures sur un PETIT nombre de sujets, on ne peut PAS s’attendre à avoir des estimations PRÉCISES. Je vous propose une expérience très simple (à réaliser en vrai, ou en pensée) dans un immense sac, j’ai déversé des centaines de balles blanches et AUTANT de balles orange. On a bien secoué. Si vous sortiez 10 balles au hasard, que vous attendriez-vous à trouver ?
« À peu près cinq balles de chaque, plus ou moins », répondriez-vous avec assurance. (oui, je fais les questions et les réponses). Et bien vous auriez mis dans le mille. Tout étant dans le : « PLUS ou MOINS ». A chaque fois, vous avez grosso-modo [2] une chance sur deux de tomber sur une balle orange. Regardons ce que ça implique. La première fois, vous pouvez tomber sur une blanche, ou une orange. La deuxième, sur une blanche, ou une orange, et ainsi de suite. 10 fois !
Combinaisons de baballes
C’est fait ? Pendant que vous étiez occupé à jouer, il y en a qui bossent. En l’occurrence, ma calculatrice.
Voyons ce qu’elle nous dit, cette bonne vieille calculette.
Il n’y a que DEUX situations dans laquelle vous pourriez piocher par hasard, d’affilée, 10 fois une balle de la même couleur (avoir pioché dix fois des balles oranges, ou dix fois des balles blanches). Mais il y a VINGT situations dans laquelle vous pourriez piocher 9 balles de la même couleur (une balle orange étant tiré dans l’un des dix tirages, des blanches dans les neuf autres situations, et inversement). Et ainsi de suite.
Si on fait le calcul, on s’aperçoit que plus de 95% des combinaisons sont comprises entre les valeurs « 2 et 8 balles blanches ». Cela signifie que si l’on refait l’expérience plusieurs fois, on s’attend à tomber 95% des fois, sur 5 balles de chaque couleur ou 6, 7 ou 8 balles blanches ou, 6, 7 ou 8 balles orange.
Donc, alors qu’il y a autant de balles orange que de blanches dans le sac, vous pouvez très fréquemment en tirer 1, 2 ou 3 de plus (ou de moins) que la valeur moyenne. Si l’objectif c’est d’estimer la proportion de chaque couleur, ce test est super imprécis.
Mais voyons maintenant si nous gagnerions en précision en tirant 1000 balles, dans notre gigantesque sac. Déjà, il y aurait eu beaucoup, beaucoup plus de combinaisons possibles. De très nombreuses dans lesquelles vous auriez trouvé 500 orange, 500 blanches ; énormément avec 499 orange, 501 blanches, etc.… En fait, si on demande à des centaines de gens de faire ces 1000 tirages, et bien 95 fois sur 100, ils risquent de tomber sur des combinaisons se répartissent entre 468 et 531 « balles de la même couleur ».
Oui : même avec 1000 prélèvements, il y a une incertitude. Même si vous sortirez 530 balles de la même couleur, ce serait dans la fluctuation normale de ce que l’on peut s’attendre, 95% des fois, alors même qu’il y a autant de orange que de blanches.
On le voit ci-dessus, c’est quand même BEAUCOUP plus précis qu’avec 10 balles, mais il y a TOUJOURS une incertitude. Même avec 1000 balles. Ça tourne autour de 3% de PLUS ou de MOINS que la valeur moyenne réelle, de 50% (en faisant et refaisant l’expérience avec les balles, on obtiendra 19 fois sur 20 une proportion de balles blanches comprise entre 47% et 53%.
Un sondage idiot
Et ça sera pareil dans un sondage sur 1000 personnes. Je vais reprendre l’exemple volontairement trivial que j’ai mis en avant dans le Magazine de la santé ce 23 février pour présenter cette problématique : « qui porte le mieux la barbe, Michel Cymes, ou Benoît Thevenet ? » Dans un sondage sur 1000 personnes, les résultats obtenus ont 19 chances sur 20 d’être exacts… à grosso-modo PLUS ou MOINS 3% (ça va légèrement diminuer si les opinions sont très tranchées, mais la marge d’erreur n’atteindra jamais zéro avec un nombre).
Dans les graphiques, l’incertitude se représente souvent par un segment situé au-dessus et au-dessous de la valeur identifiée. Dans l’exemple du sondage idiot évoqué plus haut : en obtenant 51 pour Michel Cymes et 49 pour Benoit Thevenet, on ne pouvait pas répondre à la question « lequel des deux est le plus populaire aux yeux des utilisateurs de réseaux sociaux, du point de vue de la pilosité faciale ». Et pour cause, la vraie valeur se trouve très probablement comprise « le long de la barre ». MAIS ON NE SAIT PAS OÙ ! Il est tout à fait plausible qu’en interrogeant toute la population des réseaux, on finisse avec Michel Cymes à 48%, et Benoît Thevenet à 52%. Le doute aurait encore été tout à fait légitime si l’on avait un résultat de 53/47 sur notre échantillon de 1000 personnes.
Le rat, le patient, l’électeur, la boule : même combat
Résumons-nous : Le résultat de tout sondage, de tout test, de toute estimation réalisé sur un échantillon de personnes, est TOUJOURS assorti d’une incertitude. Quand on donne un chiffre brut et que l’on ne précise pas cette incertitude, il y a tromperie sur la marchandise.
La notion de « marge d’erreur » attachée aux sondages électoraux est fréquemment médiatisée. Mais il est important de bien comprendre que, lorsque l’on rend compte d’expériences scientifiques réalisées un nombre limité d’individu, on est DANS LA MÊME SITUATION.
D’autant que, rappelons-le, elles sont souvent menées sur moins de 1000 souris ou 1000 humains. Et donc, on l’a dit, la marge d’erreur PEUT VITE DEVENIR IMPORTANTE, 10%, 20, 30%, voire plus… surtout si on ajoute à ça des incertitudes liées à la précision de nos mesures…
Soyons clair, TOUTES LES ESTIMATIONS qui découlent de RESULTATS SCIENTIFIQUES, elles aussi, devraient être annoncés en précisant la marge d’erreur. En fait, toutes les études sérieuses le font ! Mais dès lors qu’un service de communication s’en mêle, cette information, presque toujours, disparaît. Et c’est dévastateur.
Le pire et le meilleur
Reprenons l’un des deux exemples proposés en début de billet… Cette annonce de l’Inserm, comme quoi « Les cancers du sein sont attribuables à 39,9 % au comportement ». C’est précis, hein, et ça a été reproduit partout, tel quel. Or, DANS CETTE ÉTUDE, les valeurs sont assorties d’une marge d’erreur de plus de 50%. La vraie valeur était comprise entre –71% et +93,9%.
Dans une étude scientifique, l’information est généralement adossée à la valeur brute, et précédée de la mention CI 95 (pour confidence interval, intervalle de confiance, c’est-à-dire « l’intervalle dans lequel on pense que la vraie valeur se trouve, à 95%). Or, dire que la vraie valeur est comprise entre –71% et +94%, ça revient à dire, c’est « entre les deux »… autrement dit « bah en fait on ne sait pas » ! L’incertitude totale règne, ce qui n’a pas empêché le service de com’ de l’Inserm de dire : les facteurs de risque comportementaux (ce qu’on mange, ce qu’on fume si on fume) ne sont pas prépondérants et voilà, on est précis à la virgule près. Ce que CETTE étude ne prouvait PAS. Je m’étais agacé de cette affaire sur les réseaux en découvrant le fameux communiqué…
Les communicants de l’@Inserm et les marges d’erreur, ce foutage de gueule permanent. Repris partout sans recul… pic.twitter.com/dmlxiIReUF
— Florian Gouthière (@Curiolog) 8 février 2016
Tenez-vous le pour dit : je n’ai pas eu grand mal à dénicher cet exemple effarant. Car le cas n’est pas isolé.
Mais, disons-le également : parfois, l’incertitude est faible. Avec de très nombreuses études, ou avec un très grand nombre de participants, on se rapproche de plus en plus de la vraie valeur. Lorsque l’on fait des synthèses d’études ou des analyses groupées d’études (« méta-analyses »), les marges d’erreurs sont comparées, et ça permet de réduire le doute. Pour reprendre le deuxième exemple donné au début, concernant les bénéfices du sport : l’info rendait compte d’une synthèse de six études, impliquant au total 660,000 personnes. La marge d’erreur était inférieure à 2% ! Mais on ne médiatise pas uniquement de telles synthèses [3]…
Voilà pourquoi VOUS avez le droit de demander, d’exiger même, qu’on vous précise quelle est l’incertitude lorsqu’on vous balance un chiffre, un pourcentage, vu qu’il y a TOUJOURS une incertitude… et que, parfois, cela change sérieusement le message.
@curiolog
Ressources complémentaires
De très nombreuses ressources en ligne vous permettront de mieux comprendre comment bien interpréter les « intervalles de confiance » et autres « intervalles de fluctuation ». Comme toujours, j’augmenterais la section suivante au long cours. N’hésitez pas à proposer vos propres trouvailles en commentaires !
- Interpréter un intervalle de confiance, de A. Dupuy & J.-C. Guillaume, publié dans les Annales de Dermatologie et de Vénéréologie (fév. 2004) doi : AD-02-2004-131-2-0151-9638-101019-ART20 http://www.em-consulte.com/en/article/154955
Remerciements
Un très grand merci à Nicolas Gauvrit d’avoir jeté un œil au texte de la version « chronique TV » de ce billet (et confirmé que je n’y disais pas de bêtises !). Grand merci également à Jérôme Hornberger, qui a su transformer mes schémas griffonnés sur un coin de table en illustrations splendides ; à Marie Anton pour nos fructueux échanges critiques sur les écueils de vulgarisation possibles dans cette chronique ; à Alain, David et Thierry, du service éducation de la ville de Vitry, pour leur mise à disposition (dans des conditions vraiment compliquées) le matériel pédagogique du festival Vitry sur Science ; et à mon indéfectible répétitrice, Claire… sans qui je serais bien incapable de retenir un traitre mot de ma propre prose.
Notes
[1] Ce n’est pas parce que ce blog n’est pas financé pour un sou par la publicité que je n’ai pas le droit de faire un peu d’auto-promo par anticipation.
[2] Si la balle n’est pas remise à chaque fois dans le sac, la probabilité évolue très légèrement, mais franchement, vu la taille du sac (immense, on vous dit), c’est négligeable.
[3] Attention : toutes les synthèses d’études et méta-analyses ne sont pas menées avec la même rigueur, et sont dépendantes de la qualité et de l’exhaustivité des études initialement publiées… Une méta-analyse de qualité prend toutefois en compte divers biais pour dresser un bilan honnête de l’état des connaissances… et de l’incertitude !
Bonjour,
C’est peut-être un peu chipoter, mais est-ce qu’il ne serait pas plus exact de parler de marge d’erreurs de 50 « points » et non « pour cent » dans l’avant-dernier exemple ? Littéralement, 40 % avec une marge d’erreur de 50 %, cela fait une plage de 20 à 60 % (40 – 50 % de 40 fait 20, 40 + 50 % de 40 fait 60). Je crois que c’est d’ailleurs le terme utilisé dans les sondages, « grimper de 6 points » quand on passe de 27 à 33 % par exemple.
Je me pose aussi la question de la signification des valeurs inférieures à 0 % dans ce même exemple (de 0 à -71 %), est-ce à dire que le comportement aurait une influence négative (c’est-à-dire en diminuerait la probabilité) sur le développement des cancers du sein ?
Cordialement
Ce n’est pas du tout chipoter ! Ce serait clairement plus correct… Je vais peut-être changer la chose, d’ailleurs ! Merci 🙂
Pour ce qui est des valeurs négatives, c’est exactement ça que cela signifierait. Je n’ai pas voulu enfoncer le clou, mais oui, c’est exactement ça… L’exemple proposé est merveilleux, n’est-il pas ?
Ce qui m apparaît particulièrement gênant dans ce type d études purement statistiques c est que l affinité ne fait pas causalité.
C’est un point à mettre en perspective, en effet ; mais le problème soulevé ici précède cette question, selon le principe du « avant de chercher à expliquer une corrélation, il faut s’assurer qu’il y a corrélation ». Or, avec nos marges d’erreurs, le soupçon statistique d’une corrélation disparait parfois purement et simplement… Ces questions sont abordées plus en détail dans le livre que je finalise pour la rentrée, ce qui me donnera l’occasion de revenir sur ce sujet dans de futurs billets du blog ! 🙂
[+ 1 UOB]
Juste un petit lien vers une chaine youtube qui traite de ce genre de problème : https://www.youtube.com/channel/UCJ7_Ld2cIVY5MM3NcKW3D8A
(orienté épidémiologie)