La reproductibilité d'une expérience scientifique est l'une des conditions nécessaires pour que des observations faites lors de cette expérience puissent entrer dans le processus d'amélioration perpétuelle des connaissances scientifiques.
Cette condition part du principe que pour être sûrs que ce qu'on découvre en science est vrai, il faut au moins pouvoir refaire la même expérience plusieurs fois, par des personnes différentes, en obtenant le même résultat. Ceci permet de fortement diminuer le risque de biais ou d'effets aléatoires venant fausser les résultats. Ceci permet aussi de détecter ou d'éviter des erreurs de jugement, ou des manipulations de la part des scientifiques ou de producteurs de données.
Le critère de reproductibilité est une des conditions sur lesquelles le philosophe Karl Popper distingue le caractère scientifique d'une étude.
Différents niveaux de reproductibilité sont cités dans la littérature[1] :
Pour toutes les sciences expérimentales, les probabilités fournissent des modèles mathématiques décrivant la variabilité des résultats.
Dans les années 2000, des sociétés pharmaceutiques ont alerté sur le taux d'échec élevé qu'elles observaient quand elles cherchaient à reproduire les résultats de certains travaux universitaires. Et des revues d'études, et d'autres alertes, dans le domaine des sciences molles notamment (psychologie par exemple)[2], ont montré que la validité de la littérature scientifique (biomédicale notamment) était réduite par le manque de mesures visant à prévenir certains biais (biais de sélection, biais de détection, biais d'attrition, biais statistiques ou biais de déclaration…).
Ces biais (et d'autres manques en matière de solidité de conception, de valeur et rigueur d'analyse) peuvent empêcher la reproduction des résultats[3]. Button et al., en 2013, dans la revue Nature, insistent notamment sur le manque fréquent de puissance statistique des études jusqu'alors publiées en neurosciences[4], Morisson en 2014[5], et — avec d'autres — Yarborough et al., en 2018 rappellent que les études dont les résultats sont non reproductibles gaspillent des ressources scientifiques et financières, et que dans le domaine médical elles peuvent aussi mettre en danger des patients[6], un phénomène notamment décrit en 2014, par Steward & Balice-Gordon, dans un article intitulé Rigor or Mortis (La rigueur ou la mort)[7]. « Les articles de recherche importants qui ne sont pas fiables peuvent être toxiques – ils gaspillent des ressources et peuvent induire en erreur les scientifiques et le public »[8].
Baker (2016) pose l'hypothèse d'une « crise de réplication » (ou « crise de la reproductibilité »)[9] à laquelle la science se doit de trouver des solutions applicables à elle-même ; Les revues scientifiques et les sociétés savantes, les bailleurs de fonds, les commanditaires d'études, les écoles doctorales, etc. tendent alors à durcir leurs politiques visant à améliorer la qualité de la science qu'ils soutiennent ou publient. Et plusieurs domaines de la science ont promu un effort de réplication systématique.
Dans le domaine de la sociologie de la connaissance scientifique, le besoin de confirmer les résultats par une réplication compétent ne fait pas débat, notamment dans les domaines scientifiques très complexes quand il s'agit de comprendre les conditions permettant à une cause d'avoir un effet[10].
Mais, comme le rappelle Ulrich Dirnagl en 2019, le travail de réplication est moins attrayant pour la recherche, et bien moins valorisé par les systèmes de notations académiques : « malgré son statut de principe fondateur de la science moderne, la réplication est souvent considérée comme banale et peu originale. L'académisme récompense l'explorateur, pas le réplicateur »[1] ; de plus, un échec de réplication, dans le contexte concurrentiel et productiviste de la recherche a une dimension sociopsychologique forte : « l'échec semble stigmatiser ceux dont les résultats n'ont pas pu être confirmés. En même temps, essayer de reproduire les études d'autres personnes porte un autre stigmate : il doit s'agir de scientifiques sans originalité, avec une affinité pour embarrasser leurs collègues chercheurs. »[1].
Bernd Pulverer (2015) appelle à un « changement culturel » car dans le contexte devenu hyper-concurrentiel de la recherche, et en raison la pression à publier dans de grandes revues à comité de lecture, le manque de reproductibilité - qui conduit in fine à une rétractation de l'article original est une perspective intimidante pour les chercheurs. Il plaide pour que l'on distingue clairement 1) le retrait d'un article à l'initiative de l'auteur en raison d'un manque de reproductibilité ou de défauts expérimentaux imprévisibles ; et 2) les cas de retrait justifiés par la preuve d'une fraude scientifique, infamante ; il suggère notamment d'utiliser des mots différents (ex. : withdrawal et retraction en anglais… mais qui se traduisent tous deux par « rétractation » en français).
Si les critères de révocation d'une publication ne sont pas remplis bien que plusieurs essais sérieux de réplication aient échoués, alors des commentaires évalués par des pairs pourraient être publiés, basés sur des preuves concrètes, en permettant une réponse des auteurs originaux[11].
Les structures d'évaluation académique doivent récompenser l'investissement pour reproduire les résultats importants de la recherche et ces données doivent être publiées dans un forum visible[8].
Pulvérer, en 2015, insistait[8] sur l'importance de la précision dans la présentation de la méthode au sein des articles scientifiques ; faute de précision dans une recette de cuisine, une même recette donnera des résultats différents en lien avec le degré d'ambiguïté de sa description, les qualité et quantité d'ingrédients, l'expérience et les préférences des cuisiniers ; dans le domaine de la publication scientifique « les directives éditoriales et les habitudes des auteurs conspirent pour produire un minimum d'informations pour étayer des conclusions élaborées. Les données, leur description et leurs méthodes sont facilement sacrifiées pour respecter les limites de l'espace éditorial et des mots. En conséquence, les sections sur les matériaux et les méthodes vestigiaux abondent qui manquent d'informations importantes ou qui citent des méthodes antérieures avec des détails tout aussi imprécis. L'écriture compacte est importante pour naviguer dans le mur d'information auquel nous sommes confrontés, mais nous ne devrions pas économiser de l'espace aux mauvais endroits : au moins pour la publication en ligne, les revues devraient exclure les sections de méthodes des restrictions de format (et, d'ailleurs, des limites arbitraires pour les références) »[8].
Quand un phénomène est observé de manière documentée, il peut alors être répertorié et classé dans une catégorie de faits observables.
La liste peut être longue de phénomènes prétendument « observés » qui ne se sont pas reproduits : on parle alors d'« apparitions ». Mais la liste des phénomènes observés et de façon reproductible est infiniment plus longue et constitue la base des sciences.
La science s'intéresse surtout aux phénomènes qui se reproduisent et l'idéal est de pouvoir à volonté les reproduire. Un phénomène que l'on peut reproduire à volonté devient un phénomène « reproductible » au sens scientifique.
Même si certains phénomènes (par exemple l'activité interne et émissive des étoiles, l'activité géologique et planétaire, ou des phénomènes neurologiques ou écosystémiques, climatiques, etc. complexes…) ne sont pas contrôlables, donc non reproductibles, leur suivi dans le temps et des efforts de modélisation[12] permet d'en tirer des informations susceptibles d'indiquer des règles d'évolution. La périodicité ou une évolution dans le temps est un phénomène reproductible au sens où on peut prévoir l'évolution dans le temps, il est prévisible au sens de l'évolution temporelle [réf. souhaitée].
La science fonctionne en tirant d'observations reproductibles des « lois » ou « principes » qui ont comme principale propriété d'être vrais tant qu'aucune observation n'a prouvé le contraire.
La reproductibilité d'une mesure est essentielle pour valider scientifiquement la plupart des expériences. En effet, une mesure scientifique convenable doit rester la même lorsque l'expérience est menée par d'autres scientifiques, dans les mêmes conditions. Une expérience répétée qui ne donne pas les mêmes résultats sera considéré n'ayant aucune valeur scientifique. Par contre, il est important de comprendre qu'une expérience répétée plusieurs fois et qui donne toujours les mêmes résultats ne doit pas être considérée comme fiable à 100 %, puisque les conditions restent les mêmes, les erreurs restent les mêmes aussi.
Ainsi, la reproductibilité d'une mesure ne peut garantir la justesse ou l'exactitude de cette mesure, mais elle confirme que l'expérience a été faite dans les mêmes conditions et que les démarches de mesures sont strictes.
Aux très grandes échelles (univers, milliards d'années) et aux très petites échelles (quantiques) des phénomènes rares, aléatoires ou relevant de la physique quantique posent des problèmes spécifiques de mesure.
Dans certains domaines comme par exemple les médicaments, les pesticides, les OGM ou certains produits alimentaires, pour obtenir des autorisations de mise sur le marché européen, les industriels présentent leurs propres études, par exemple à l'Autorité européenne de sécurité des aliments qui les examine et les tient secrètes[13].
Le fait que ces études ne soient pas rendues publiques empêche les chercheurs académiques (et toute autre personne) de contrôler les protocoles et les résultats afin de vérifier qu'ils soient valides et complets[13]. Selon la journaliste Stéphane Horel, cela rend « impossible de respecter le principe scientifique fondamental de la reproductibilité »[13].
Le terme de reproductibilité prend en métrologie un sens analogue à celui utilisé en recherche scientifique, et qualifie la compatibilité de mesurages pouvant être réalisés en des lieux, par des opérateurs et en utilisant des systèmes de mesure (procédures, méthodes) différents. Elle diffère en cela de la répétabilité, qui évalue la compatibilité de mesurages réalisés avec les mêmes personnes, le même système de mesure, en mêmes conditions, et dans un temps relativement court[14].
Dans le domaine de l'analyse du Big data et le l'intelligence artificielle, pour ne pas avoir à travailler sur des données personnelles et/ou sensibles (donnée de santé par exemple) ou sur des données dont l'acquisition pourrait mettre en péril des espèces ou habitats menacés, on commence à travailler sur de la donnée synthétique, ce qui pose des questions nouvelles en matière de fiabilité et reproductibilité.
De manière générale, plus la recherche concerne un champ neuf ou émergent, plus une découverte est nouvelle, plus le risque que ses données et/ou que ses conclusions soient difficilement reproductibles, pas nécessairement en raison de défauts méthodologiques, mais par exemple parce que les données sont nouvelles et difficiles à acquérir, ou parce que des réactifs ou matériaux ou outis utilisés ne sont pas disponibles dans le commerce ou d'autres laboratoires, ou en raison d'une méthode nouvelle ou parce que les résultats ne peuvent pas dans ce « premier » cas s'appuyer sur un ensemble de preuves corroborantes. Dans un domaine complexe et émergeant, la compétence pour reproduire une expérience ou des résultats peut être absente dans le monde à ce moment, ou un matériel expérimental peut être très coûteux. Selon Pulverer (2015), dans ce type de contexte, quand un résultat ne peut pas être rapidement reproduit, « Il ne faut pas jeter le bébé avec l'eau du bain dans la poursuite d'une littérature définitive, mais plutôt assurer les mécanismes d'autocorrection du travail de littérature[8],[11] ».
Certains auteurs tels que Pulverer, en 2015, sans nullement nier l'importance première de la reproductibilité en science, ni le trop grand nombre de « mauvaises études », recommandent à la communauté scientifique de « définir le niveau de reproductibilité réellement visé » et de ne pas « crier au loup pour de mauvaises raisons, ce qui risquerait de miner un environnement de recherche qui produit un taux de découverte sans précédent »[8] ; selon lui, une extension excessive des exigences de reproductibilité pourrait conduire à une moindre prise de risque de la part des chercheurs[8] ; les connaissances scientifiques évoluent, et nous devons considérer la littérature d'une manière plus fluide qui peut être corrigée et inversée ; sinon nous laissons des traces de désinformation qui, à tout le moins, réduisent l'efficacité de la recherche[8].
Attention aussi à ne pas surinterpréter un échec de réplication : « une fois qu’une réplication ayant échoué est incluse dans l’enregistrement de publication, l’hypothèse implicite est souvent que le résultat initial était un faux positif. Mais que se passe-t-il si l’échec de la réplication est faussement négatif ? À l’inverse, une réplication réussie implique-t-elle que le résultat initial était correct, ou les deux peuvent-ils être faussement positifs ? »[1].