Unintentional p-value hacking, ou le risque de faire mentir les données, malgré elles
Publié par Redbran le 06/10/2019 à 14:00
Source: CEA IRIG
Les chercheurs du laboratoire Biologie à Grande Échelle de l'Irig publient un ensemble d'articles destiné à améliorer les bonnes pratiques en science des données pour la protéomique.


Construction graphique permettant d'estimer visuellement la qualité de la calibration des p-values. © IRIG

"Il y a trois types de mensonges: les mensonges, les sacrés mensonges et les statistiques (La statistique est à la fois une science formelle, une méthode et une technique. Elle comprend la collecte, l'analyse, l'interprétation de...)". Cette phrase de Benjamin Disraeli trouve son origine dans un usage (L’usage est l'action de se servir de quelque chose.) inadapté des outils statistiques, dans le but de cautionner une intuition ou une conviction. Bien que décriée, cette pratique a malheureusement son pendant en recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par extension métonymique, la recherche...): le p-value hacking, qui consiste à triturer les données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.) jusqu'à obtenir la significativité désirée pour une hypothèse testée, au détriment de certaines règles statistiques qui s'en trouvent violées. Le plus souvent, cela est fait en toute bonne foi puisque l'objectif est de tirer le meilleur parti possible des données tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) en se conformant aux exigences de publication. Malgré tout, il est indispensable de limiter cette pratique qui engendre de nombreuses fausses découvertes.

Cela est d'autant plus vraie en protéomique, en raison de la complexité (La complexité est une notion utilisée en philosophie, épistémologie (par exemple par Anthony Wilden ou Edgar Morin), en physique, en...) intrinsèque du protéome, mais aussi de l'évolution rapide des technologies analytiques. C'est notamment pour cela que de nombreux outils bioinformatiques et biostatistiques fleurissent régulièrement dans la littérature [1], avec la promesse de pouvoir dépasser la triple limite des big proteomics data: leur grande taille, leur grande dimensionnalité, et leur grande complexité. Cependant, la simplicité qu'offrent ses outils ne saurait masquer la nécessité d'un minimum de compréhension théorique pour une utilisation et des résultats corrects.

C'est avec cet objectif que des chercheurs du laboratoire Biologie (La biologie, appelée couramment la « bio », est la science du vivant. Prise au sens large de science du vivant, elle recouvre une partie des sciences naturelles et de...) à Grande Échelle (La grande échelle, aussi appelée échelle aérienne ou auto échelle, est un véhicule utilisé par les sapeurs-pompiers, et qui...) de l'Irig ont réalisé ces dernières années un effort particulier dans la divulgation de bonnes pratiques en science (La science (latin scientia, « connaissance ») est, d'après le dictionnaire Le Robert, « Ce que l'on sait pour l'avoir appris, ce que l'on tient pour vrai au sens large. L'ensemble de...) des données pour la protéomique [2-4]. Ils ont ainsi publié une introduction à la théorie (Le mot théorie vient du mot grec theorein, qui signifie « contempler, observer, examiner ». Dans le langage courant, une théorie est une idée ou une connaissance spéculative,...) du FDR (False Discovery rate (La rate (en grec ancien σπλήν (splēn), en latin lien, d'où les adjectifs splénique et liénal) est un organe fragile, profond, situé dans l'hypochondre gauche en regard de la 10e...), une mesure de contrôle (Le mot contrôle peut avoir plusieurs sens. Il peut être employé comme synonyme d'examen, de vérification et de maîtrise.) qualité omniprésente), ils ont désambiguïsé un ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une multitude qui peut être comprise comme un...) de termes ayant des significations différentes en intelligence artificielle (L'intelligence artificielle ou informatique cognitive est la « recherche de moyens susceptibles de doter les systèmes informatiques de capacités intellectuelles comparables...) et en chimie (La chimie est une science de la nature divisée en plusieurs spécialités, à l'instar de la physique et de la biologie avec lesquelles elle partage des espaces d'investigations communs ou proches.) analytique, et ont également proposé cinq étapes de contrôle permettant d'améliorer la qualité d'une analyse protéomique différentielle entre plusieurs échantillons.

Références publication:
[1] Jacob L, Combes F and Burger T. PEPA test: Fast and powerful differential analysis from relative quantitative proteomics data using shared peptides. Biostatistics, 2018
[2] Burger T. Gentle introduction to the statistical foundations of false discovery rate in quantitative proteomics. Journal of Proteome Research, 2018
[3] Borges H, Guibert R, Oermiakova O and Burger T. Distinguishing between spectral clustering and cluster analysis of mass spectra. Journal of Proteome Research, 2019
[4] Wieczorek S, Giai Gianetto Q and Burger T. Five simple yet essential steps to correctly estimate the rate of false differentially abundant proteins in mass spectrometry analyses. Journal of Proteomics, 2019
Page générée en 0.149 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique