Googlomics: Le cancer scruté par l'algorithme de Google
Publié par Redbran le 27/06/2018 à 12:00
Source: CNRS-INP
Une méthode dérivée du célèbre algorithme PageRank de Google et empruntant à la théorie quantique de la diffusion a été appliquée à un réseau de protéines et a permis de déceler des relations causales cachées entre certaines protéines. Cette méthode permet de mieux comprendre les liens entre les protéines, notamment comment ceux-ci sont modifiés dans le cas de pathologies


Illustration de réseaux de protéines reliées entre elles par des interactions physiques (liens dirigés gris). Tout en conservant l'information du réseau (Un réseau informatique est un ensemble d'équipements reliés entre eux pour échanger des informations. Par analogie avec un filet (un réseau est un « petit...) global de protéines, la matrice de Google (Google, Inc. est une société fondée le 7 septembre 1998 dans la Silicon Valley en Californie par Larry Page et Sergey Brin, auteurs du moteur de recherche Google. Depuis 2001, Eric Schmidt en est le PDG (CEO). La société compte environ...) réduite permet d'inférer des liens causals cachés (liens bleus) entre les protéines d'un sous-réseau (Le mot sous-réseau a deux significations. Sa signification ancienne mais plus générale est un réseau (Réseau informatique) physique faisant parti d'un réseau plus global (en:internetwork)....) (ici A,B,C,D,E,F). Le sous réseau peut par exemple être un réseau de signalisation particulier (haut) enchevêtré à un réseau de régulation (Le terme de régulation renvoie dans son sens concret à une discipline technique, qui se rattache au plan scientifique à l'automatique.) transcriptionnelle (bas) dont la structure change entre une cellule "normale" (à gauche) et une cellule "cancéreuse" (à droite). Dans le cas "cancéreux" un recablâge des relations causales est mis en évidence par rapport au cas "normal". © LPT (CNRS/UPS)

Dans le corps humain (Le corps humain est la structure physique d'une personne.), l'ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble),...) des protéines constitue un gigantesque réseau complexe, dont la structure évolue au cours du développement ou dans le cas de pathologies. Il existe plusieurs sous-réseaux comme ceux des protéines impliquées dans la transcription ou dans la signalisation cellulaire. Une fonction biologique donnée (Dans les technologies de l'information, une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction, d'un événement, etc.) est déterminée par des liens de causalité entre les protéines (réseau dirigé), liens qui seront différents pour une autre fonction.

Une nouvelle méthode appelée Googlomics et mise au point (Graphie) conjointement par l'Institut (Un institut est une organisation permanente créée dans un certain but. C'est habituellement une institution de recherche. Par exemple, le Perimeter Institute for Theoretical Physics est un tel...) UTINAM de Besançon (CNRS/UBFC), le Laboratoire de physique théorique (La physique théorique est la branche de la physique qui étudie l’aspect théorique des lois physiques et en développe le formalisme mathématique.) de Toulouse (CNRS/UPS) et l'Unité cancer (Le cancer est une maladie caractérisée par une prolifération cellulaire anormalement importante au sein d'un tissu normal de l'organisme, de telle manière que la survie de ce dernier est menacée. Ces cellules...) et génome (Le génome est l'ensemble du matériel génétique d'un individu ou d'une espèce codé dans son ADN (à l'exception de certains virus dont le génome est porté par des...) de l'institut Curie (L'Institut Curie est une fondation, dont les activités principales sont d'une part la compréhension des mécanismes de cancérogenèse avec un centre de recherche en biophysique, biologie...) de Paris (Paris est une ville française, capitale de la France et le chef-lieu de la région d’Île-de-France. Cette ville est construite sur une boucle de la Seine, au centre du bassin parisien, entre les confluents de la Marne et de la Seine...) (INSERM/PSL), analyse la structure des réseaux dirigés biologiques et permet de quantifier, de manière rigoureuse et rapide, les effets d'une protéine (Une protéine est une macromolécule biologique composée par une ou plusieurs chaîne(s) d'acides aminés liés entre eux par des liaisons peptidiques. En général, on parle de protéine lorsque...) sur une autre en prenant en compte la structure globale du réseau biologique.

Le formalisme de la matrice de Google et de l'algorithme PageRank (Le PageRank (terme anglais signifiant « classement d'une page ») ou PR désigne le système de classement des pages Web utilisé par le moteur de recherche Google...), dérivé des travaux de Sergei Brin et Lawrence Page, cofondateurs de Google, constitue la base mathématique du célèbre moteur de recherche (Un moteur de recherche est une application permettant de retrouver des ressources (pages Web, forums Usenet, images, vidéo, fichiers, etc.) associées à des mots quelconques. Certains...). Il fournit la probabilité (La probabilité (du latin probabilitas) est une évaluation du caractère probable d'un évènement. En mathématiques, l'étude des probabilités est un sujet de grande...) de visite de chaque page (PageRank) en analysant le processus aléatoire de visite d'un ensemble de pages web via les liens qui mènent (de façon dirigée) d'une page à une autre. Ce processus correspond à un cas particulier de chaîne (Le mot chaîne peut avoir plusieurs significations :) de Markov.

La méthode Googlomics consiste tout d'abord à transposer le réseau des pages web à un ensemble de protéines (les noeuds du réseau) ayant entre elles des relations causales (les liens du réseau). Elle utilise un développement de la matrice de Google fait par les chercheurs et appelé matrice de Google réduite, qui permet de calculer les liens effectifs pour un nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) restreint de nœuds sélectionnés, mais tout en considérant l'ensemble du réseau et donc en tenant compte de toutes les relations, directes et indirectes, entre ces nœuds.

Cette approche fournit ainsi un formalisme analytique efficace pour traiter numériquement des systèmes ayant des dizaines de milliers de nœuds et des centaines de milliers de liens. Elle s'inspire des méthodes de la théorie (Le mot théorie vient du mot grec theorein, qui signifie « contempler, observer, examiner ». Dans le langage courant, une théorie est une idée ou une...) de la diffusion (Dans le langage courant, le terme diffusion fait référence à une notion de « distribution », de « mise à disposition » (diffusion d'un produit, d'une information), voire de « vaporisation »...) quantique développée (En géométrie, la développée d'une courbe plane est le lieu de ses centres de courbure. On peut aussi la décrire comme l'enveloppe de la famille des droites normales à la courbe.) par exemple en physique (La physique (du grec φυσις, la nature) est étymologiquement la « science de la nature ». Dans un sens général et...) mésoscopique. Il y a en effet une analogie entre les interactions effectives existant entre les canaux ouverts de diffusion via l'ensemble des états de diffusion, et les relations effectives existant entre les nœuds sélectionnés via l'ensemble du réseau.

Les protéines d'intérêt pour la fonction biologique étudiée, par exemple en lien avec une pathologie (La pathologie, terme provenant du Grec ancien, est littéralement le discours, la rationalité (λογία logos) sur la souffrance (πάθος pathos), et...), sont sélectionnées (ici une centaine environ) et la méthode Googlomics peut mettre en évidence de façon quantitative les relations causales cachées (via les liens indirects) entre elles, et en particulier les modifications induites par la pathologie.

Elle a ainsi permis de déceler le recâblage des connexions entre protéines dans plusieurs groupes de gènes associés au cancer et de quantifier les modifications du réseau transcriptionnel dans le cas de la leucémie myéloïde chronique (La leucémie myéloïde chronique (LMC) est une prolifération myéloïde monoclonale sans blocage de maturation prédominant sur la lignée granuleuse au niveau médullaire et...).

Il y a fort à parier que cette méthode deviendra un outil (Un outil est un objet finalisé utilisé par un être vivant dans le but d'augmenter son efficacité naturelle dans l'action. Cette augmentation se traduit par la simplification des actions entreprises, par une plus...) important en biologie (La biologie, appelée couramment la « bio », est la science du vivant. Prise au sens large de science du vivant, elle recouvre une partie des...) computationnelle.


Référence publication:
Inferring hidden causal relations between pathway members using reduced Google matrix (Matrix (en France), La Matrice (au Québec) (The Matrix) est un film de science-fiction réalisé par les frères Andy et Larry Wachowski et sorti en 1999. Inspiré entre autre de...) of directed biological networks
J. Lages, D. Shepelyansky, A. Zinovyev
PLoS ONE (2018), doi:10.1371/journal.pone.0190812

Contact chercheur:
- José Lages, maître de conférences à l'Université de Franche-Comté (L'université de Franche-Comté est une université française, dont le siège est à Besançon. Le nombre moyen d'étudiants au fil des années...) et chercheur à l'Institut UTINAM
- Dima Shepelyanski, directeur de recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par extension métonymique, la recherche scientifique désigne...) CNRS (Le Centre national de la recherche scientifique, plus connu sous son sigle CNRS, est le plus grand organisme de recherche scientifique public français (EPST).)

Informations complémentaires:
Laboratoire de physique théorique (LPT, CNRS/Univ. Toulouse 3 Paul Sabatier)
Institut UTINAM (CNRS/Univ. Franche-Comté)
Unité Cancer et génome (Institut Curie/Inserm/Mines ParisTech/Univ. PSL)
Page générée en 1.446 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - Informations légales
Partenaire: HD-Numérique