Introduction

En bio-informatique, l'alignement de séquences (ou alignement séquentiel) est une manière de disposer les composantes (nucléotides ou acides aminés) des ADN, des ARN, ou des séquences primaires de protéines pour identifier les zones de concordance qui traduisent des similarités ou dissemblances de nature historique. Les séquences alignées sont traditionnellement représentées comme des lignes d'une matrice. Des trous sont disposés de manière à aligner les caractères communs sur des colonnes successives.

L'alignement sert notamment à :

  • identifier des sites fonctionnels
  • prédire la ou les fonctions d'une protéine (Une protéine est une macromolécule biologique composée par une ou plusieurs...)
  • prédire la structure secondaire (La structure secondaire en biochimie et en biologie structurale, se rapporte uniquement à la...) (voire tertiaire) d'une protéine
  • établir une phylogénie

Lorsque deux séquences dans un alignement partagent un ancêtre commun (En phylogénie, un ancêtre commun à plusieurs espèces est l'individu le plus...), les discordances s'interprètent comme des points de mutation ou des lieux d'insertion ou de délétion.

Utilisation

Dans la compréhension du fonctionnement de la vie (La vie est le nom donné :), les protéines jouent un rôle essentiel. On part donc de l'hypothèse que des protéines comportant des séquences similaires risquent fort de posséder des propriétés physico-chimiques identiques. À partir de l'identification de similarités entre la séquence d'une première protéine dont on connaît le mécanisme d'action et celle d'une deuxième protéine dont on ne connaît pas le mécanisme de fonctionnement, on peut inférer des similarités structurelles ou fonctionnelles sur la séquence non connue et proposer de vérifier de manière expérimentale ( En art, il s'agit d'approches de création basées sur une remise en question des dogmes...) le comportement d'action supposé.

Score et matrices de comparaison

La plupart des méthodes d'alignement de séquences biologiques, et en particulier les méthodes d'alignement de séquence (En bio-informatique, l'alignement de séquences (ou alignement séquentiel) est une...) de protéines cherchent à optimiser un score d'alignement. Ce score est relié au taux de similarité entre les deux séquences comparées. Il tient compte d'une part du nombre (La notion de nombre en linguistique est traitée à l’article « Nombre...) d'acide (Un acide est un composé chimique généralement défini par ses réactions...) aminés identiques entre les deux séquences et d'autre part du nombre d'acides aminés similaires sur le plan physico-chimique. Lorsque dans les deux séquences, on trouve ainsi alignés deux acides aminés très proches, comme Lysine (La L-lysine est un des 20 acides aminés les plus courants constituant les protéines. Elle...) (K) et Arginine (L'arginine (abrégée en Arg ou R) est un acide aminé. Elle fait partie des 20...) (R), on parle de remplacement conservatif (les chaînes latérales de ces deux acides aminés portent toutes les deux une charge (La charge utile (payload en anglais ; la charge payante) représente ce qui est effectivement...) positive).

Ceci a nécessité la définition (Une définition est un discours qui dit ce qu'est une chose ou ce que signifie un nom. D'où la...) formelle d'un score d'identité ou de similarité entre deux acides aminés donnés. Ceci a donné naissance à des Matrices de similarité, M, qui recensent l'ensemble (En théorie des ensembles, un ensemble désigne intuitivement une collection...) des scores M(a,b) obtenus lorsqu'on substitue l'acide aminé (Un acide aminé est une molécule organique possédant un squelette carboné et...) a par l'acide b. Il existe plusieurs de ces matrices 20 x 20 (pour les 20 acides aminés), avec des modes de construction différents. On peut citer les plus classiques :

  • Les matrices de Dayhoff, appelées PAM (probability of acceptable mutations), basées sur des distances évolutives entre espèces
  • Les matrices de Henikoff, appelées BLOSUM, basées sur le contenu en information des substitutions

Dans chaque famille, il existe plusieurs séries de matrices, de stringence variable (En mathématiques et en logique, une variable est représentée par un symbole. Elle...), et donc plus ou moins tolérantes aux substitutions d'acides aminés.

Représentations

Les alignements sont habituellement représentés soit graphiquement soit en format texte. Dans la plupart des représentations des alignements séquentiels, les séquences sont écrites en lignes, disposées pour que les composantes communes apparaissent dans des colonnes successives. En format texte, les colonnes alignés contiennent des caractères identiques ou similaires, indiqués par un système cohérent de symboles. Un astérisque est utilisé pour montrer l'identité entre colonnes. Beaucoup de programmes utilisent de la couleur (La couleur est la perception subjective qu'a l'œil d'une ou plusieurs fréquences d'ondes...) pour différencier l'information. Pour les ADN ou ARN, l'utilisation de couleur permet de différencier les nucléotides. Pour les alignements de protéines, elle permet d'indiquer les propriétés des acides aminés, ce qui aide à conclure sur la conservation du rôle d'un acide aminé substitué.

Lorsque plusieurs séquences sont mises en jeu, une dernière ligne est ajoutée pour conclure un consensus.

On distingue deux types d'alignements qui diffèrent suivant leur complexité :

  • l'alignement par paires qui consiste à aligner deux séquences peut être réalisé grâce à un algorithme de complexité (La complexité est une notion utilisée en philosophie, épistémologie (par...) polynomiale. Il est possible de réaliser un alignement :
    • global, c'est-à-dire entre les deux séquences sur toute leur longueur (La longueur d’un objet est la distance entre ses deux extrémités les plus...) (FASTA)
    • local, entre une séquence et une partie de l'autre séquence (BLAST)
  • l'alignement multiple, qui est un alignement global, consiste à aligner plus de deux séquences et nécessite un temps (Le temps est un concept développé par l'être humain pour appréhender le...) de calcul et un espace de stockage exponentiels en fonction de la taille des données (Dans les technologies de l'information (TI), une donnée est une description élémentaire, souvent...).
Un alignement de séquence réalisé par ClustalW entre deux protéines humaines.

Les alignements séquentiels peuvent être fournis dans une large variété de formats de fichiers, dépendant par exemple du programme spécifique utilisé : FASTA format, GenBank, ... Toutefois, dans les laboratoires de recherche (La recherche scientifique désigne en premier lieu l’ensemble des actions entreprises en vue...), l'utilisation spécifique d'outils techniques peut réduire le choix de format.

Page générée en 0.008 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales | Partenaire: HD-Numérique