Des découvertes impossibles à reproduire ?
Chaque année, des milliers d’études scientifiques sont publiées, qui rendent compte de manière détaillée de recherches très pointues en biologie cellulaire, notamment concernant les cancers. Certaines identifient une mutation génétique particulière dans certaines tumeurs, d’autres vont décrire comment telle molécule favorise l’action d’un agent thérapeutique sur les cellules malades… Et, on le comprend, nombre de ces publications suscitent énormément d’enthousiasme – de la part du monde scientifique, de l’industrie pharmaceutique, des journalistes et, bien sûr, des malades. Mais voilà… il y a une phrase qu’omettent d’écrire beaucoup de rédacteurs de presse et sur laquelle, si elle est finalement rédigée, les yeux des lecteurs glissent trop souvent. Cette phrase, c’est : « ces résultats doivent encore être reproduits par des équipes indépendantes ».
Et pourtant, cette phrase est au cœur de l’édification des connaissances scientifiques. En effet, de telles connaissances décrivent « dans quelles conditions expérimentales on obtient un résultat donné ». N’importe qui, en refaisant exactement la même chose, doit pouvoir aboutir à des résultats extrêmement proches [1]. Alors en biologie (ou en sciences humaines) on ne s’attend pas nécessairement à ce que le phénomène étudié soit scrupuleusement identique dans 100% des cas, mais plutôt que la tendance observée soit la même si l’on répète l’expérience. Dans un laboratoire, si un traitement fait diminuer les tumeurs du foie chez 30% des rats, on s’attend à ce que dans un autre laboratoire, le même traitement ait un résultat comparable. S’il soigne 28%, 33% des rats, on est dans l’ordre de grandeur de ce qu’on attend. Mais s’il n’en soigne aucun… c’est qu’il y a un truc qui cloche !
Chic, ça cloche !
Mais insistons dessus, ça n’est pas grave, bien au contraire : si en suivant une recette on n’arrive pas au même résultat, c’est très instructif ! On peut découvrir que les auteurs de la première expérience ont oublié de prendre en compte et décrire quelque chose d’important pour son succès : la température de la pièce, peut-être ? Cela permet de préciser dans quelles conditions l’événement décrit se produit, c’est comme ça que se construit un « savoir scientifique ».
Mais, en dépit de nombreux ajustement, il arrive parfois que l’on ne puisse tout simplement jamais reproduire le résultat original. Ce fait peut révéler plusieurs choses : en premier lieu, divers degrés de fraudes [2] ; mais aussi (et peut-être plus fréquemment encore) ce que l’on a appelé un « faux positif ». Beaucoup de situations existent, aussi proposons un cas particulier parlant : peut-être que, par hasard, quand les chercheurs ont constitué les deux groupes de souris pour tester et comparer notre traitement, ils ont mis beaucoup de souris très bien portantes dans un groupe, des mal portantes dans l’autre, et leur super résultat est vraiment un coup de bol. Et puis, des résultats merveilleux ont déjà été obtenus parce qu’on avait mal lavé des tubes à essais… L’erreur est humaine, les chercheurs sont humains, donc il faut vérifier, avant de s’emballer.
On s’attendrait à ce que pour une étude scientifique publiée, il y ait au minimum une autre publication d’une équipe qui confirme, ou qui commente les résultats. Mais voilà, selon certaines estimations (relatives à la publication en psychologie [2bis]), les articles scientifiques dont l’objet est une réplication d’étude, c’est plutôt 1% de ce qui est publié. Ce qui signifie qu’on prend plus de 99% de ce qui est publié pour argent comptant, et que ce qui est décrit sert de base, de point de départ théorique, à des chercheurs, sans avoir été vérifié, confirmé.
Peut-être vous direz-vous: les chercheurs sont des gens scrupuleux, ils ont de la méthode, et les prestigieuses revues qui publient leur travaux prennent des précautions pour ne pas publier n’importe quoi. Donc que la plupart de ce qui est publié fonctionne… Mais en 2011, deux très grandes industries pharmaceutiques, Amgen et Bayer, ont révélé que leurs tentatives de reproduire des études biomédicales publiées dans de grandes revues se soldaient par des échecs respectivement dans 75% et 89% des cas [3]. En 2013, un centre de cancérologie de Houston a annoncé que le taux d’insuccès avoisinait les 50% [3 bis]. Rien qu’aux États-Unis, des chercheurs ont estimé que 28 milliards de dollars sont dépensés pour mener des études précliniques sur le cancer qui, in fine, ne sont pas reproductibles [4].
C’est une perte d’argent, mais aussi de temps, pour des chercheurs qui pourraient étudier des molécules ou des thérapies plus prometteuses !
RP:CB
Pour toutes ces raisons, la réplication constitue un sujet de préoccupation majeur au sein la communauté scientifique.
En 2013, des chercheurs membre du Center for Open Science [5], basé en Virginie, ont initié un très grand projet de reproduction d’études scientifiques en cancérologie, le Reproducibility Project : Cancer Biology (RP:CB).
La méthodologie employée s’inspire d’une expérience analogue réalisée quelques années auparavant [6], portant sur 100 études récentes en psychologie (dont seulement 36 avaient pu être correctement reproduites, parmi lesquelles des travaux régulièrement cités depuis, dans la presse ou dans des ouvrages de vulgarisation, comme avérés…).
Tout d’abord, l’équipe du RP:CB a sélectionné, dans des très grandes revues, 50 études très récentes portant sur de la biologie des cancers. Le chiffre a été un peu revu à la baisse en 2015, car reproduire quatre expériences présentées dans un article scientifique, ça coûte quand même 40.000 $ [7]… Ensuite, ils sont rentrés en contact avec les auteurs des travaux initiaux, et leur ont demandé TOUS les détails possibles et imaginables. C’est-à-dire qu’ils ont travaillé main dans la main avec eux pour être sûr qu’ils allaient reproduire les travaux au plus près de l’initial. Un rapport détaillant les conditions expérimentales et les protocoles proposés pour les réplications est soumis à la relecture de chercheurs tiers, et a été pré-publié sur le site de la revue scientifique eLife, avant le début des expériences. Les travaux ont commencé il y a plus de deux ans, et les premières expériences ont été achevées il y a plus d’un an et demi.
Ne pas jeter l’opprobre sur les auteurs des travaux initiaux
Ces premiers résultats n’ont pas été immédiatement publiés, car l’objectif du RP:CB n’est absolument pas une « chasse » aux études non reproductibles, ou une distribution de mauvais points. Le RP:CB ambitionne de comprendre les causes des échecs des réplications ; et la plus grande crainte de ses initiateurs est que l’on interprète leurs résultats comme une attaque contre les chercheurs qui ont mené les études initiales. Or, ils ne cessent de mettre des garde-fous. Et ils n’écartent pas l’hypothèse selon laquelle l’une ou l’autre de leurs réplications puisse être un faux négatif.
Si la réplication fonctionne, c’est une bonne nouvelle, car il est peu probable que l’on ait deux faux positifs de suite. À l’inverse, un échec de réplication ne réfute pas le travail initial, mais génère à son égard des doutes très légitimes. Une méta-analyse de ces deux études peut être faite (elle est proposée par le RP:CB), qui donne une idée plus juste de l’état des connaissances sur l’hypothèse testée initialement.
Les résultats qui seront rendus publics ce 18 janvier concernent cinq études de haut niveau. Sans entrer dans leur détail [8], une donnée peut déjà être dévoilée, et débattue : dans quatre cas, les résultats obtenus sont à l’opposé de ceux initialement publiés. Pas seulement un peu différents, ça on l’a dit c’est normal, ça permet d’ailleurs de préciser les résultats. Non : si l’expérience « bis » avait été menée en premier, les chercheurs auraient conclu que les résultats qu’ils observaient s’expliquaient sans avoir à postuler l’efficacité d’une molécule, ou sans avoir à postuler à l’effet d’un gène. Bref, ils auraient conclu : « il n’y a rien de notable ».
Des faux positifs comme s’il en pleuvait ?
Si l’on ne peut, bien sûr, pas faire de statistiques sérieuses sur seulement cinq études, ces premiers résultats confirment un dysfonctionnement réel dans le monde de la recherche.
Jusqu’à présent, on imputait les problèmes de reproductibilité au manque de précision dans les protocoles expérimentaux [9], mais dans le RP:CB les échanges entre chercheurs pour coller au mieux à l’étude initiale suggèrent une autre piste. Quand les chercheurs testent des hypothèses, en faisant des expériences, ils ont beaucoup de fois « où il ne se passe rien ». Mais ils ne publient pas ces données. Ils ne publient que les fois où il se passe quelque chose. Comprenez, s’il y a 5% de chance qu’une expérience soit un faux positif, il n’y a pas que 5% des études publiées qui sont des faux positifs. 100% des faux positifs seront publiés… mais pas les vrais négatifs !
Les travaux du RP:CB suggèrent qu’une (très) importante partie de ce qui est publié, tout du moins en biologie fondamentale, pourrait être des « faux positifs » (ces inévitables cas où les « souris mal regroupées »…).
Un problème, plusieurs solutions ?
Rassurons-nous, il existe (au moins en théorie) plusieurs moyens d’empêcher ça.
Tout abord, allouer plus de fonds pour re-tester avant de publier. Ensuite, il faut créer des incitations beaucoup plus fortes à la publication de TOUS les résultats [10]. Aujourd’hui, pour les chercheurs, il n’y a pas de prestige à rédiger et publier des « ça ne marche pas ». Alors que la science, c’est dire ce qui marche, mais également informer sur les culs-de-sac ! Une récente initiative française en ce sens est à saluer : la création d’un Journal of Negative Results, ouvert – comme son nom l’indique – à la présentation des culs-de-sac.
Enfin, il faut valoriser la réplication : les chercheurs devraient gagner en galon s’ils passent du temps à faire ça, et pas uniquement s’ils font de la publication originale. Aujourd’hui, rien de moins glorieux que de répliquer les travaux des autres, alors que sans cela, la science est au point mort…
Un mot de conclusion
Pour les lecteurs d’information scientifique que nous sommes tous, ces résultats nous rappellent qu’une étude isolée ne signifie rien. La petite phrase « ces résultats doivent encore être reproduits par des équipes indépendantes » n’est pas une astuce de rédacteur de presse pour gagner quelques caractères sur un article payé au feuillet : c’est un rappel de ce qu’est la science, et du fait que toutes les recherches ne correspondent pas nécessairement au même « niveau de preuve ».
Florian Gouthière
Ce billet dérive des dernières pages du huitième chapitre de notre ouvrage sur l’information scientifique à paraître en novembre 2017 aux éditions Belin ! Il constitue également la trame d’une chronique présentée le 17 janvier 2017 dans Le Magazine de la Santé sur France 5 (à 14h03).
[1] Toute mesure et tout calcul statistique possède des limites de précisions. Il y a toujours une marge d’erreur, une incertitude, attachée au résultat. Ce dernier est donc très fréquemment une « intervalle », une « fourchette » de valeurs, dans laquelle le résultat d’une expérience sur des phénomènes physiques macroscopiques tel qu’il serait obtenu « avec un niveau de précision parfait » est très vraisemblablement compris. Nous reviendrons sur ce point dans un prochain billet sur ce blog (ainsi que dans une chronique pour Le Magazine de la santé).
[2] Nous reviendrons peut-être dans un autre billet (en tout cas, nous en parlerons dans un livre en cours de rédaction, à paraître en fin d’année 2017 aux éditions Belin) sur l’immense variété des grandes fraudes et petites entorses à la méthode scientifique, en faisant une haie d’honneur pour les pratiques de « HARKing », de cherry-picking et de p-hacking (qui a dit de Burger King ? un peu de sérieux, tout de même). Je sens que vous trépignez déjà d’impatience.
[2bis] M.C. Makel et al. « Replications in Psychology Research: How Often Do They Really Occur? » Perspect Psychol Sci. 2012 Nov;7(6):537-42.[3] Science forum: An open investigation of the reproducibility of cancer biology research. Errington, et al. eLife, December 2014.
[3bis] Mobley, A., S. K. Linder, et al. (2013). « A survey on data reproducibility in cancer research provides insights into our limited ability to translate findings from the laboratory to the clinic. » PLoS ONE 8(5): e63221.[4] Study claims $28 billion a year spent on irreproducible biomedical research. J. Kaise. Science Magazine News. 9 juin 2015.
[5] Le RP:CB est financé par la Fondation Laura et John Arnold (http://www.arnoldfoundation.org) – une fondation philanthropique privée. Ce projet a également reçu des soutiens supplémentaire de diverses ressources scientifiques de premier plan. Le Center for Open Science (de même que l’Open Science Framework) a reçu le soutien d’un certain nombre de fondations et de subventions de recherche (LJAF, Sloan, Templeton, NIH, NSF, DARPA, etc.).
[6] En 2013, une équipe de 270 chercheurs ont rendu public les résultats d’une campagne massive de réplication, portant sur 100 expériences de psychologie, en annonçant un taux de 36% de résultats reproductibles.
[7] Voir : Cancer reproducibility project scales bck ambitions (Nature News, 2 décembre 2005). Les ambitions ont encore été revues à la baisse ultérieurement. Dans un échange de courriels, Tim Errington, l’un des responsables du projet, nous précisait ceci : « We aim to conduct these [studies] with as high a quality as possible. This can mean the costs are higher due to increased sample size (we plan our sample size to have 80% power to detect the original effect size), or because materials need to be remade (such as plasmids, etc), or unexpected difficulties are encountered thus increasing the cost to conduct the replication. »
[8] Nous pourrons rentrer dans le détail une fois les données accessibles, mais ce n’est pas le propos de ce billet.
[9] Drug Development: Raise standards for preclinical cancer research. Begley et al. Nature. 28 mars 2012. doi:10.1038/483531a
[10] Stratégie fréquemment évoquée : imposer aux équipes de déclarer par avance, auprès d’une revue/organisme, le fait qu’ils vont réaliser l’expérience, assorti d’un engagement à rendre publics les résultats quels qu’ils s’avèrent être. Le problème est que ces engagements sont rarement contraignants. On le voit avec les essais cliniques, qui doivent être pré-enregistrés dans une base de donnée publique, et dont les conclusions doivent théoriquement être dévoilées dans un délai court (deux ans si je ne m’abuse) ; or, le taux de non-présentation à deux ans est considérable…
Notons (comme le fait remarquer sur les rézosocios Marion HF) qu’enregistrer à l’avance les études a une autre vertu. Si c’est fait correctement (c’est-à-dire en détaillant bien la liste des sous-expériences, ainsi que les critères d’évaluation retenus pour juger du succès ou de l’insuccès de chacune), cela évite « d’omettre » des résultats dans l’étude (on a testé quelque chose, mais comme le résultat n’est pas concluant, on ne l’inclut pas dans la publication). Les mots-clefs « outcome reporting bias » vous en apprendront plus sur le sujet (lire, notamment : The impact of outcome reporting bias in randomised controlled trials on a cohort of systematic reviews. J.J. Kirkham, BMJ , 2010. doi:10.1136/bmj.c365 ).
Ping : Santé, science : repérer le faux dans les rouages de l'info - Spokus