La méthode idéale pour intégrer vos données biologiques multi-omiques existe-t-elle ?

Publié par Isabelle le 12/01/2021 à 13:00
Source: CNRS INSB
Les technologies à haut-débit génèrent des données biologiques omiques en grande quantité, suscitant des défis considérables pour leur analyse et leur intégration. Dans une étude publiée dans la revue Nature Communications, les scientifiques ont évalué en détails neuf approches représentatives de l'état de l'art pour l'extraction concertée des signaux biologiques à partir de données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent...) multi-omiques obtenues sur des échantillons de tumeurs. Les résultats, disponibles sous forme de pipeline informatique (L´informatique - contraction d´information et automatique - est le domaine...) reproductible, offrent un guide précis pour les utilisateurs et un environnement (L'environnement est tout ce qui nous entoure. C'est l'ensemble des éléments naturels et...) pouvant accueillir de futurs (Futurs est une collection de science-fiction des Éditions de l'Aurore.) développements.


Figure: Workflow d'intégration de données multi-omiques: les différentes données omiques sont factorisées conjointement ; les facteurs obtenus permettent de classer les échantillons et d'identifier les processus biologiques d'intérêt.
© Laura Cantini

Des données moléculaires sont de nos jours (Le jour ou la journée est l'intervalle qui sépare le lever du coucher du Soleil ; c'est la...) produites en masse (Le terme masse est utilisé pour désigner deux grandeurs attachées à un...), suscitant des défis considérables pour leur analyse. Ces données omiques décrivent par exemple l'expression des gènes (transcriptome), l'abondance des protéines (protéome) ou la méthylation de l'ADN (méthylome) provenant d'une population de cellules, voire même, grâce aux progrès techniques, de cellules uniques. Les différentes données omiques permettent de capturer des informations sur les processus biologiques se déroulant à différentes échelles de la cellule. Des outils bioinformatiques spécifiques sont développés pour analyser ces données de manière indépendante. Cependant, une analyse intégrée et simultanée des différentes données omiques est essentielle pour une compréhension fine des mécanismes cellulaires ainsi que de leurs dérégulations pathologiques. Le développement de telles méthodes d'analyses intégratives est un défi majeur en bioinformatique.

Parmi les approches permettant l'analyse intégrative de différentes données omiques, les approches de factorisation de matrices se sont révélées particulièrement efficaces. Chaque jeu de données omiques est représenté sous forme d'une (très grande) matrice. Ces matrices sont ensuite factorisées, c'est-à-dire décomposées en produit de deux matrices, avec la contrainte qu'une des matrices du produit soit commune aux différentes données. Cette technique permet de réduire la dimension (Dans le sens commun, la notion de dimension renvoie à la taille ; les dimensions d'une...) des données ainsi que d'en extraire le signal ( Termes généraux Un signal est un message simplifié et généralement codé. Il existe...) biologique conjoint.

Ces méthodes de factorisation de matrices ont été appliquées à la recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue...) sur le cancer (Le cancer est une maladie caractérisée par une prolifération cellulaire anormalement...), où l'intégration des données obtenues à différentes échelles est essentielle pour démêler les sous-types et les mécanismes physiopathologiques sous-jacents. L'objectif est de permettre une meilleure gestion et de meilleurs traitements, dans le cadre de la médecine (La médecine (du latin medicus, « qui guérit ») est la science et la...) de précision. Cependant, un grand nombre (La notion de nombre en linguistique est traitée à l’article « Nombre...) de méthodes de factorisation de matrices existent, basées sur différentes hypothèses et formulations mathématiques (Les mathématiques constituent un domaine de connaissances abstraites construites à l'aide...). Il y a aujourd'hui un besoin (Les besoins se situent au niveau de l'interaction entre l'individu et l'environnement. Il est...) urgent d'évaluation et de comparaison de ces méthodes, et de directives claires pour aider les utilisateurs à choisir celles les plus adaptées à leur cas d'étude.

Les scientifiques ont sélectionné et décrit neuf approches de factorisation de matrices dédiées à l'intégration de données multi-omiques représentatives de l'état de l'art. Ils ont systématiquement évalué leurs performances par des comparaisons rigoureuses dans différents scénarios pertinents pour la recherche sur le cancer. Les performances des méthodes pour identifier des sous-types de cancers sont évaluées sur des données simulées et des données réelles de l'Atlas du génome (Le génome est l'ensemble du matériel génétique d'un individu ou d'une...) du cancer. Les méthodes sont comparées sur leurs capacités à prédire les annotations cliniques et de survie des échantillons, ainsi qu'à classifier des échantillons obtenus sur des cellules uniques.

Les résultats permettent d'identifier la meilleure approche lorsque l'objectif est de classer les échantillons et d'identifier les sous-types, ainsi que l'approche la plus versatile lorsque les objectifs biologiques sont moins précisément définis. Enfin, un notebook Jupyter nommé momix permet de reproduire l'ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection...) des résultats. Il peut également être utilisé pour tester les méthodes existantes sur de nouveaux jeux de données, ou pour évaluer les performances de méthodes de nouvelle génération.

Pour en savoir plus:
Benchmarking joint multi-omics dimensionality reduction approaches for the study of cancer.
Cantini L, Zakeri P, Hernandez C, Naldi A, Thieffry D, Remy E, Baudot A.
Nat Commun. 2021 Jan 5;12(1):124. doi: 10.1038/s41467-020-20430-7.

Laboratoires:
- Institut (Un institut est une organisation permanente créée dans un certain but. C'est...) de Biologie (La biologie, appelée couramment la « bio », est la science du vivant....) de l'École Normale Supérieure (IBENS) - (CNRS, Inserm, Université (Une université est un établissement d'enseignement supérieur dont l'objectif est la...) PSL) - 75005, Paris (Paris est une ville française, capitale de la France et le chef-lieu de la région...), France.
- Centre de Génétique (La génétique (du grec genno γεννώ = donner naissance) est...) Médicale de Marseille - (Inserm, Aix-Marseille Université) - 27 Bd Jean Moulin (Un moulin est une machine à moudre les grains de céréale en farine et, par analogie,...). - 13385 Marseille Cedex 5.

Contacts:
- Laura Cantini - Chercheuse CNRS (Le Centre national de la recherche scientifique, plus connu sous son sigle CNRS, est le plus grand...) à l' Institut de Biologie de l'École Normale Supérieure (IBENS) - laura.cantini at ens.fr
- Anaïs Baudot - Chercheuse CNRS au Centre de Génétique Médicale de Marseille - anais.baudot at univ-amu.fr
Cet article vous a plu ? Vous souhaitez nous soutenir ? Partagez-le sur les réseaux sociaux avec vos amis et/ou commentez-le, ceci nous encouragera à publier davantage de sujets similaires !
Page générée en 0.925 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique