SHAPEIT4: un algorithme pour la génomique à grande échelle

Publié par Isabelle le 21/12/2019 à 14:00
Source: Université de Genève
© DR
Des chercheurs de l'UNIL, de l'UNIGE et du SIB mettent à la disposition de tous un outil informatique extrêmement puissant pour faciliter l'interprétation des Big Data du génome.

Les haplotypes constituent un ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection d’objets (les éléments de l'ensemble), « une multitude qui peut être comprise comme un...) de variations génétiques qui, situés côte à côte sur un même chromosome (Le chromosome (du grec khroma, couleur et soma, corps, élément) est l'élément porteur de l'information génétique. Les chromosomes contiennent les...), sont transmis en un seul groupe à la génération suivante. Leur examen permet de comprendre l'héritabilité de certains traits complexes, comme par exemple le risque de développer plus tard une maladie (La maladie est une altération des fonctions ou de la santé d'un organisme vivant, animal ou végétal.). Cependant, pour effectuer cette analyse, il faut généralement disposer du génome (Le génome est l'ensemble du matériel génétique d'un individu ou d'une espèce codé dans son ADN (à l'exception de certains virus...) des membres d'une même famille (les parents et leur enfant), un procédé long et cher. Pour contourner ce problème, des chercheurs des universités de Genève (UNIGE) et de Lausanne (UNIL), ainsi qu'au SIB Institut (Un institut est une organisation permanente créée dans un certain but. C'est habituellement une institution de recherche. Par exemple, le Perimeter Institute for Theoretical Physics est un tel...) Suisse de Bioinformatique, ont mis au point (Graphie) SHAPEIT4, un puissant algorithme informatique (L´informatique - contraction d´information et automatique - est le domaine d'activité scientifique, technique et industriel en rapport avec le traitement automatique de l'information par...) permettant d'identifier très rapidement les haplotypes de centaines de milliers d'individus sans lien familiaux, avec un résultat aussi fin que dans le cadre d'analyses familiales impossibles à mener à si large échelle. Leur outil (Un outil est un objet finalisé utilisé par un être vivant dans le but d'augmenter son efficacité naturelle dans l'action. Cette augmentation se traduit par la simplification...) est maintenant disponible en ligne sous licence open source, à la disposition libre de l'ensemble de la communauté des chercheurs. A découvrir dans la revue Nature Communications.

A l'heure (L’heure est une unité de mesure du temps. Le mot désigne aussi la grandeur elle-même, l'instant (l'« heure qu'il est »), y compris en sciences (« heure solaire »...) actuelle, l'analyse des données (L’analyse des données est un sous domaine des statistiques qui se préoccupe de la description de données conjointes. On cherche par ces méthodes à donner les liens pouvant exister entre les différentes...) génétiques prend de plus en plus d'importance, notamment dans le champ (Un champ correspond à une notion d'espace défini:) de la médecine (La médecine (du latin medicus, « qui guérit ») est la science et la pratique (l'art) étudiant l'organisation du corps humain (anatomie), son fonctionnement normal...) personnalisée. Preuve en est: le nombre (La notion de nombre en linguistique est traitée à l’article « Nombre grammatical ».) de génomes humains séquencé chaque année (Une année est une unité de temps exprimant la durée entre deux occurrences d'un évènement lié à la révolution de la Terre autour du Soleil.) croît de manière exponentielle (La fonction exponentielle est l'une des applications les plus importantes en analyse, ou plus généralement en mathématiques et dans ses domaines d'applications. Il existe plusieurs définitions...) et les grandes bases de données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent codée, d'une chose, d'une transaction d'affaire, d'un événement, etc.) comptent maintenant près d'un million (Un million (1 000 000) est l'entier naturel qui suit neuf cent quatre-vingt-dix-neuf mille neuf cent quatre-vingt-dix-neuf (999 999) et qui précède un million un...) d'individus. Cette masse (Le terme masse est utilisé pour désigner deux grandeurs attachées à un corps : l'une quantifie l'inertie du corps (la masse inerte) et...) de données est d'une extrême richesse pour mieux comprendre le destin génétique (La génétique (du grec genno γεννώ = donner naissance) est la science qui étudie l'hérédité et les gènes.) de l'humanité, qu'il s'agisse de déterminer le poids (Le poids est la force de pesanteur, d'origine gravitationnelle et inertielle, exercée par la Terre sur un corps massique en raison uniquement du voisinage de la...) génétique dans telle ou telle maladie ou de mieux comprendre l'histoire des migrations humaines. Pour faire sens (SENS (Strategies for Engineered Negligible Senescence) est un projet scientifique qui a pour but l'extension radicale de l'espérance de vie humaine. Par une évolution progressive allant du ralentissement du...), cependant, ces données de masse doivent être traitées informatiquement. "Or, la puissance (Le mot puissance est employé dans plusieurs domaines avec une signification particulière :) de calcul des ordinateurs reste relativement stable, contrairement à la croissance ultra-rapide de ces Big Data du génome", souligne Olivier Delaneau, professeur boursier FNS au Département de biologie (La biologie, appelée couramment la « bio », est la science du vivant. Prise au sens large de science du vivant, elle recouvre une partie des sciences naturelles et de l'histoire...) computationnelle de la Faculté de biologie et médecine de l'UNIL et au SIB, qui a dirigé ces travaux. "Notre algorithme vise ainsi à optimiser le traitement des données génétiques de façon à pouvoir absorber cette quantité (La quantité est un terme générique de la métrologie (compte, montant) ; un scalaire, vecteur, nombre d’objets ou d’une autre manière de dénommer la valeur...) d'information et les rendre exploitables par les scientifiques, malgré le décalage entre leur quantité et la puissance comparativement limitée des ordinateurs."

Mieux comprendre le rôle des haplotypes

Le génotypage permet de connaître les allèles d'un individu (Le Wiktionnaire est un projet de dictionnaire libre et gratuit similaire à Wikipédia (tous deux sont soutenus par la fondation Wikimedia).), c'est-à-dire les variations génétiques reçues de ses parents. Par contre, sans connaître le génome parental, on ignore quels allèles sont simultanément transmis aux enfants, et selon quelles combinaisons. "Cette information - les haplotypes - est cruciale si l'on veut réellement comprendre les bases génétiques de la variation humaine, explique Emmanouil Dermitzakis, professeur à la Faculté de médecine de l'UNIGE et au SIB, qui a co-supervisé ces travaux. Et ce, que ce soit en génétique des populations ou dans l'optique (L'optique est la branche de la physique qui traite de la lumière, du rayonnement électromagnétique et de ses relations avec la vision.) de la médecine de précision."

Pour déterminer le risque génétique de maladie, par exemple, les scientifiques évaluent si une variation génétique est plus ou moins présente chez les individus ayant développé cette maladie, afin de déterminer le rôle de cette variation dans la maladie étudiée. "En connaissant les haplotypes, nous conduisons le même type d'analyse, souligne Emmanouil Dermitzakis. Par contre, nous passons d'un seul variant à une combinaison (Une combinaison peut être :) de nombreux variants, ce qui permet de déterminer quelles combinaisons alléliques sur un même chromosome ont le plus d'impact sur le risque de maladie. C'est beaucoup plus précis!"

La méthode développée (En géométrie, la développée d'une courbe plane est le lieu de ses centres de courbure. On peut aussi la décrire comme l'enveloppe de la famille des droites normales à la courbe.) par les chercheurs permet de traiter un nombre de génomes extrêmement important, de l'ordre de 500 000 à 1 000 000 d'individus, et de déterminer leurs haplotypes sans connaître leur ascendance ni leur descendance, tout (Le tout compris comme ensemble de ce qui existe est souvent interprété comme le monde ou l'univers.) en utilisant une puissance de calcul standard. L'outil SHAPEIT4 a été testé avec succès sur les 500 000 génomes individuels que compte la UK Biobank, une banque de données scientifiques développée au Royaume-Uni. "Nous avons ici un exemple typique de ce que sont les Big Data, indique Olivier Delaneau. Une quantité si importante de données permet de construire des modèles statistiques (La statistique est à la fois une science formelle, une méthode et une technique. Elle comprend la collecte, l'analyse, l'interprétation de données ainsi que la...) de très haute précision, pour autant que l'on puisse les interpréter sans s'y noyer (Le noyer (Juglans) est un genre de plantes appartenant à la famille des Juglandacées, originaire des régions tempérées et chaudes principalement de l'hémisphère...)."

Une licence open source en gage de transparence

Les chercheurs ont décidé de rendre leur outil accessible à tous sous licence open source MIT: le code entier est disponible et modifiable à l'envie, selon les besoins des chercheurs, et ce principalement pour des questions de transparence et de reproductibilité (La reproductibilité d'une expérience scientifique est une des conditions qui permet d'inclure les observations réalisées durant cette expérience dans le processus...), mais aussi pour stimuler les chercheurs du monde (Le mot monde peut désigner :) entier. "Toutefois attention ! Nous donnons accès à l'outil d'analyse, mais en aucun cas à un corpus de données, tient à préciser Olivier Delaneau. A chacun, ensuite, de l'utiliser sur les données dont il ou elle dispose."

Cet outil se révèle ainsi beaucoup plus efficace que ses prédécesseurs, plus rapide et moins cher. Il permet aussi de limiter l'impact environnemental (L'impact environnemental est l'ensemble des modifications de l'environnement, qu'elles soient négatives ou positives, dues à un organisme ou à un produit.) numérique (Une information numérique (en anglais « digital ») est une information ayant été quantifiée et échantillonnée, par opposition...). Les ordinateurs puissants utilisés pour traiter les Big Data sont en effet très énergivores; réduire leur utilisation permet alors de minimiser leur impact négatif.

Contacts:
- Olivier Delaneau - Professeur assistant FNS, Département de biologie computationnelle - Faculté de biologie et médecine UNIL, SIB
Olivier.Delaneau at unil.ch
- Emmanouil Dermitzakis - Professeur ordinaire au Département de médcine génétique et développement - Faculté de médecine UNIGE, SIB
Emmanouil.Dermitzakis at unige.ch

Référence publication:
Cette recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue de produire et de développer les connaissances scientifiques. Par...) est publiée dans Nature Communications, DOI: 10.1038/s41467-019-13225-y
Cet article vous a plus ? Vous souhaitez nous soutenir ? Partagez-le sur les réseaux sociaux avec vos amis et/ou commentez-le, ceci nous encouragera à publier davantage de sujets similaires !
Page générée en 0.070 seconde(s) - site hébergé chez Amen
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
Ce site est édité par Techno-Science.net - A propos - Informations légales
Partenaire: HD-Numérique