Séquence biologique - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

Une séquence biologique est généralement un fichier informatique au format texte contenant la séquence d'une macromolécule biologique. Ce peut être la séquence des bases de l'ADN à la sortie d'un séquenceur de gène ou la traduction de cette séquence en acide aminés.
Il s'agit d'un fichier contenant l'information génétique brute.

Séquences nucléotidiques

Séquences d'ADN

Dans le cas d'une séquence d'ADN, le "texte" est une suite formée uniquement de 4 lettres correspondant aux quatre nucléotides formant l'enchainement de l'ADN : A pour adénine, G pour guanine, T pour thymine, C pour cytosine. Il faut faire attention si le sens de lecture peut être 3' vers 5' ou inverse.

Exemple d'une séquence biologique d'ADN pour le gène Antennapedia CG1028-RH de Drosophila melanogaster :

             1 ttcagttgtg aatgaatgga cgtgccaaat agacgtgccg ccgccgctcg attcgcactt            61 tgctttcggt tttgccgtcg tttcacgcgt ttagttccgt tcggttcatt cccagttctt           121 aaataccgga cgtaaaaata cactctaacg gtcccgcgaa gaaaaagata aagacatctc           181 gtagaaatat taaaataaat tcctaaagtc gttggtttct cgttcacttt cgctgcctgc           241 tcaggacgag ggccacacca agaggcaaga gaaacaaaaa gagggaacat aggaacagga           301 accagataat agtgacataa gcgacccttt cgcaaatatt ttggcgcaaa atgagcgggc           361 gccaagtgcc gcgtggtgga gccgcctgaa aatgacatgg aaaattcgcc gaaaatcgcg           421 cgttttggca gcatcaatcc caaagcacaa aattaatttc tatcataatt tctgggtgca           481 acacggaccc ataattgaat cgaatatagg gcttatctga tagcccggca gcaacattga           541 actttccggc tgcaaaggag acgacaccga gatcgccaat tttcgttggg ctcgttctct           601 gggctccggc gataagaaat ccatgctgat aaggacagga ggacggtctg cggcaaattg           661 aattcgattc tgacctgtat gaaagccagc ggagatacgg atacctctgg gtttatgggt           721 agaaaacgca gagcgtcgcg ccaacatcga aattatttgc gtttgcatct tctcgtcctt           781 tcgtttatcg ttctgattgc catcgtggtg gcgcggtttc tattaatttt gcttctgtat           841 cgtttgcaaa atctcaaaag attcaaaaag ttcgtcatca gcagccgcaa cacaaaaacc           901 aacgagtgta aagccgagca tacaaatatc aataaaaaca taaacattta cccaatctca           961 atctcaaaac attcgcatcg tttccacaca aatatgctta gttcgcccaa attgtgattg          1021 tatatatata tttaacggca ttaaatacaa aagattaagc cctaaattaa gtgtaaatct          1081 tacaaaacgt ctacgttttt aaacaagaaa ttgtgatatt atatattaat cgggaaattc          1141 gaagtatgag aacaaaacgg tgtatatatg taagtgggcg atgaacatca atgaatattt          1201 tagctgagca aagtacacac gaatgaatat aaatatacat gaaaatatat tttgggcacc          1261 gacttttaca ccacaattat atatcgatag aaaagacacg aaaacaatca cagaaaacta          1321 agagtttcaa aatcaaaatt gaggaatacc aactagagga taaggctact taaggatcaa          1381 aaaacaccaa ggagacgaga ttttctacca aatcgagaga cgaggggcag gttaatttcg          1441 tcatttttgg ccaagacagc aaatagagga acagcaaagc gaaaatcatt ttatacctca          1501 cacaacaact acacactaac taagattagg ctacgcaact gtacattgta cttaagtgtt          1561 caaagtatat ttagtttact ttgtatataa gaaaagtagc taaaagcacg cggacaggga          1621 ggcaggagca ccacagtcac tagccactaa gcagagtcac agtcacgatc acgttcactc          1681 caggatcagg actcggggcg ggatcagcag acgctgagga agctgccacg atgacgatga          1741 gtacaaacaa ctgcgagagc atgacctcgt acttcaccaa ctcgtacatg ggggcggaca          1801 tgcatcatgg gcactacccg ggcaacgggg tcaccgacct ggacgcccag cagatgcacc          1861 actacagcca gaacgcgaat caccagggca acatgcccta cccgcgcttt ccaccctacg          1921 accgcatgcc ctactacaac ggccagggga tggaccagca gcagcagcac caggtctact          1981 cccgcccgga cagcccctcc agccaggtgg gcggggtcat gccccaggcg cagaccaacg          2041 gtcagttggg tgttccccag cagcaacagc agcagcagca acagccctcg cagaaccagc          2101 agcaacagca ggcgcagcag gccccacagc aactgcagca gcagctgccg caggtgacgc          2161 aacaggtgac acatccgcag cagcaacaac agcagcccgt cgtctacgcc agctgcaagt          2221 tgcaagcggc cgttggtgga ctgggtatgg ttcccgaggg cggatcgcct ccgctggtgg          2281 atcaaatgtc cggtcaccac atgaacgccc agatgacgct gccccatcac atgggacatc          2341 cgcaggcgca gttgggctat acggacgttg gagttcccga cgtgacagag gtccatcaga          2401 accatcacaa catgggcatg taccagcagc agtcgggagt tccgccggtg ggtgccccac          2461 ctcagggcat gatgcaccag ggccagggtc ctccacagat gcaccaggga catcctggcc          2521 aacacacgcc tccttcccaa aacccgaact cgcagtcctc ggggatgccg tctccactgt          2581 atccctggat gcgaagtcag tttggtaagt gtcaaggaaa gtgatcgaca attccacgaa          2641 acgtattaag tggaattttt cttcttctta tcgtagtggg ttgaagtagt tagttccccg          2701 tttagaattg gtcgtagttc ccattagaat cgtaactgtg catacaacag ctagagctgt          2761 attatcttaa attgtataat accataacta ttacagcgaa cctcgtgcag cgaagcaaag          2821 cagtaaaaag cagtctagat gtactgcttt atattgtgtt tcctgcttga tattagatca          2881 ctaagcaagc agacgcgcaa gcagttcacg cagatcacgc agacgttaaa aatttaaaaa          2941 tgtttttgtt tgcagaaaga agtaccctct tcgcttttca attttgtagt taaaattcga          3001 gcaaatatat ttaaattaaa aaggctcaaa cttaaagtac tatgtatgtc ttgtattttt          3061 gaaaaaattc taaagtttat tataaaatgc attttaaata cattttttaa cctaccttgt          3121 cgcttgaaat atataaaatt taagttttag atatggaata gataaacaaa atatttccct          3181 ctgtcttaac taatttcttt aattaaatgt taagccccaa agcgactaca gcttcatgtc          3241 aaactcttac cttaaatatt tagagtttgt ttgcatttga actgagaacg ttttgtcgac          3301 gaccttgaca cgtccgggta atttcacttt attgccttgg ccaattgctt gacatcatcc          3361 gtaatccatc tgcaaagaca tcccgatacc tgacatttgt tcaaatttgc gaatttccca          3421 aatccgagca aatcgatgaa tgcaggcaga tgaaagacga aagaggtggc ggaagaggtg          3481 ctccttgggt tccgcttgcc cagaagatcg cagcacagga ggcggtcctg ccagctaatg          3541 caaattgaca atagctcgaa atcgtgcaag aaaaaggttt gccaaaaccc taggcgtaac          3601 taatgagggc tggaaaatag agcacactga ctgcatgtgg tactgcttta ggcttagagg          3661 atgttgcata agtggggata gggctcggcc gcctttcgag cgaaaaaggt gtaaggtcta          3721 ggaggcgagt ccttttcaaa tatagaattc caatggcatg tcactttcct cggagaaagt          3781 gaaagtaggc ctcaagtggt cggtgccttt gccttgccct ccagctgacc tgctccctgg          3841 tcattacgca gtccaaggag ctctagctct ccccataccc agctctcaat gttgttgtgg          3901 ttttttgttt gtagccggct gaattttttc gccaaagcca gattgagatg taaagcacaa          3961 ttgatgagcg ccattagtta cacgttatgt gcaatggatg ccatcaattt attaatctcc          4021 agaacacgcc gaggctccat tcatagcacc acttcgtcgt cttaatcccc tccctcatcc          4081 gccatggcgg tgcaaaaaat aaaaagaact c      

Séquences d'ARN

Dans le cas d'une séquence d'ARN, la lettre U est utilisée pour désigner l'uracile remplaçant la thymine pour ces molécules.

Page générée en 0.182 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales - Signaler un contenu
Version anglaise | Version allemande | Version espagnole | Version portugaise