Introduction

Dans ce TP nous allons utiliser plusieurs logiciel d'alignement multiple, autant les intégrer dans nos marque-pages tout de suite. Ci-dessous les liens vers des sites qui proposent l'utilisation en ligne des logiciels que nous allons utiliser, mais en général plusieurs miroirs existent.

Dans les exercices, on vous demandera de comparer les résultats fournis par ces différents logiciels. Organisez-vous en groupe de 2 ou 3 et répartissez vous les différents logiciels à tester, vous gagnerez du temps.

D'autre part, vous pouvez installer le logiciel SEAVIEW pour visualiser les résultats des programmes d'alignement multiple. Installez la version Linux on PC.

I. Alignement de protéines avec de longs gaps

Nous allons étudier trois protéines : une protéine de Escherichia coli qui porte deux fonctions enzymatiques (EC 4.1.1.48 et EC 5.3.1.24) et deux protéines de Xylella fastidiosa qui portent chacune une de ces deux fonctions :


>trpC, EC:4.1.1.48 et 5.3.1.2, E. coli
MMQTVLAKIVADKAIWVEARKQQQPLASFQNEVQPSTRHFYDALQGARTAFILECKKASP
SKGVIRDDFDPARIAAIYKHYASAISVLTDEKYFQGSFNFLPIVSQIAPQPILCKDFIID
PYQIYLARYYQADACLLMLSVLDDDQYRQLAAVAHSLEMGVLTEVSNEEEQERAIALGAK
VVGINNRDLRDLSIDLNRTRELAPKLGHNVTVISESGINTYAQVRELSHFANGFLIGSAL
MAHDDLHAAVRRVLLGENKVCGLTRGQDAKAAYDAGAIYGGLIFVATSPRCVNVEQAQEV
MAAAPLQYVGVFRNHDIADVVDKAKVLSLAAVQLHGNEEQLYIDTLREALPAHVAIWKAL
SVGETLPAREFQHVDKYVLDNGQGGSGQRFDWSLLNGQSLGNVLLAGGLGADNCVEAAQT
GCAGLDFNSAVESQPGIKDARLLASVFQTLRAY

>EC:5.3.1.24, xfa
MALAYGSECMNISPYRTRIKFCGMTRVGDVRLASELGVDAVGLIFASGSSRLLTVSAACA
IRRTVAPMVNVVALFQNNSADEIHTVVRTVRPTLLQFHGEEEDAFCRTFNVPYLKAIPMA
GAEAKRICTRTLYLKYPNAAGFIFDSHLKGGTGQTFDWSRLPIDLQHPFLLAGGITPENV
FDAIAATVPWGVDVSSGIELQPGIKDGDKMRQFVEEVRRADGRRLFGVA

>EC:4.1.1.48, xfa
MSNILTKIIAWKVEEIAERLLHVSQAELVARCADLPTPRGFAGALQATIAHGDPAVIAEI
KKASPSKGVLREDFRPAEIAISYELGGASCLSVLTDVHFFKGHDDYLSQARDACTLPVLR
KDFTIDPYQVYEARVLGADCILLIVAALDDAQLVDLSGLALQLGMDVLVEVHDIDELERA
IQISAPLIGINNRNLSTFNVSLETTLTMKGLVPRDRLLVSESGILTSADVQRLRAAGVNA
FLVGEAFMRATEPGESLREMFFIT

La protéine de E. coli possède la fonction enzymatique EC 4.1.1.48 au début et la fonction enzymatique EC 5.3.1.24 à la fin de sa séquence. Nous allons tester si les programmes d'alignement multiple retrouvent bien cette configuration. Alignez les trois séquences à l'aide de chacun des trois programmes.

Quels sont parmi les programmes ceux qui construisent l'alignement multiple attendu ?

En modifiant les paramètres de DIALIGN, il est possible d'améliorer la qualité de l'alignement. DIALIGN recherche des régions de forte ressemblance entre les séquences pour ancrer son alignement. Le paramètre T permet d'agir sur la sélection de ces régions. En augmentant la valeur de T, on force DIALIGN à choisir des régions de plus forte ressemblance.

Testez DIALIGN avec la valeur 4 pour T

II. Étude d'une famille de protéine

Nous allons étudier une famille de protéines au sein d'un même génome, avec un ensemble de séquences très conservées (duplication de gènes) et un gène ayant une fonction proche, mais une séquence éloignée.

Retrouvez grâce à Entrez les séquences qui portent les numéros d'accession : P24088 P32580 O13559 P40105 P53345 P53819 (entrez les 6 séquences d'un coup et ne conservez que les séquences issues de la banque SwissProt).

Quel quel organisme proviennent ces séquences ?
Quelle est la fonction de ces protéines ?

Mémorisez les séquences de ces protéines au format FASTA et gardez la liste de résultats ouverte.

II-1. Alignement multiple

Effectuez un alignement multiple de ces séquences à l'aide d'au moins trois des programmes.

Est-ce que les alignements trouvés sont identiques ?

Lesquels semblent les plus satisfaisants ?

II-2. Qualité de l'alignement

Le meilleur moyen d'estimer la qualité d'un alignement est de vérifier si les régions connues pour avoir la même fonction biologique sont bien alignées entre elles.
Le lien "Conserved Domains" qui se trouve à droite de chaque entrée (dans la liste de résultats proposée par Entrez) mène à un schéma qui localise les domaines protéiques connus pour chaque entrée.

Quels sont les domaines communs aux différentes séquences ?
Quelles sont leurs positions (approximatives) sur ces séquences ?

Repérez ces domaines dans les alignements obtenus précédemment. Puis vérifiez que les régions contenant ces domaines sont bien alignées les unes avec les autres.

Quels sont les programmes d'alignement multiple qui alignent correctement les domaines fonctionnels ?

III. Épissage alternatif

Le gène HRAS est un gène qui subit de l'épissage alternatif. Nous allons tout d'abord aligner la séquence du gène avec chacun de ses variants. Voici les séquences du gène, d'un variant et de l'autre variant.

Utilisez le logiciel d'alignement 2 à 2 de votre choix pour les aligner.

Il est également possible de faire une alignement multiple du gène et de ses deux variants en même temps.

Faites-le avec au moins trois programmes d'alignement (attention tous les liens donnés en 1re partie ne marchent pas forcément en version ADN, trouvez les versions adéquate en utilisant votre moteur de recherche préféré).

Quels sont les programmes d'alignement multiple qui alignent correctement les exons ?

IV. Une séquence mystère

Le but de cette partie est de vous faire faire l'analyse bioinformatique d'une séquence mystère, pour trouver sa fonction. Tout ce que vous savez, c'est que votre séquence est un fragment d'ADN extrait du génome humain.

>séquence humaine mystère
gaattcgagatgcgaatgagcagcagccattttgatgttgtgagcatcggaacgtttctgcgtccgtacactgtccttttgttacttagataatggctaaggcaagcagtccgggccaca
ggagtcaaaggcttttcgccagctcctaaacgctggaagtgtaattttttttcttcttataaaattaaacaaacccttttagaaaggaacactcgctttatctcttcgaccgaatttact
atacatggatatatatatattatcttctgttcacagttaaaactaggaatagcatagtcataagttaacaccatcatgttgagaacgtcaacattgttcaccaagcgtgtccaaccaagc
ctattttctagaaacattcttagattgcaatccacagctgcaatccctaagactcaaaaaggtgtcatcttttatgagaataaggggaacctgcattacaaagatatccctgtccccgag
cctaagccaaatgaaattttaatcaacgttaaatattctggtgtatgtcacaccgatttacatgcttggcacggcgattggccattacctgttaaactaccattagtaggtggtcatgaa
ggtgctggtgtagttgtcaaactaggttccaatgtcaagggctggaaagtcggtgatttagcaggtatcaaatggctgaacggttcttgtatgacatgcgaattctgtgaatcaggtcat
gaatcaaattgtccagatgctgatttatctggttacactcatgatggttctttccaacaatttgcgaccgctgatgctattcaagccgccaaaattcaacagggtaccgacttggccgaa
gtagccccaatattatgtgctggtgttactgtatataaagcactaaaagaggcagacttgaaagctggtgactgggttgccatctctggtgctgcaggtggcttgggttccttggccgtt
caatatgcaactgcgatgggttacagagttctaggtattgatgcaggtgaggaaaaggaaaaacttttcaagaaattggggggtgaagtattcatcgactttactaaaacaaagaatatg
gtttctgacattcaagaagctaccaaaggtggccctcatggtgtcattaacgtttccgtttctgaagccgctatttctctatctacggaatatgttagaccatgtggtaccgtcgttttg
gttggtttgcccgctaacgcctacgttaaatcagaggtattctctcatgtggtgaagtccatcaatatcaagggttcttatgttggtaacagagctgatacgagagaagccttagacttc
tttagcagaggtttgatcaaatcaccaatcaaaattgttggattatctgaattaccaaaggtttatgacttgatggaaaagggcaagattttgggtagatacgtcgtcgatactagtaaa
taatagcgtgttacgcacccaaacttttatgaaagtctttgtttataatgatgaggtttataaatatatagtggagcaaagattaatcactaaatcaagaagcagtaccagtattttttc
tatatcaagtagtgataatggaaatagcccaaatttggcttccgtcgac

IV-1. Fouille dans les banques de données

La première étape est de chercher dans les banques de données de séquences s'il existe des séquences connues similaires.

Faites un BLAST de cette séquence en restreignant la recherche aux données homo sapiens.

BLAST trouve-t-il des gènes similaires ?
Quelles sont les valeurs des E-values ?

Les seules séquences similaires trouvées par BLAST ne sont pas des gènes, et les zones de similarité sont très restreintes, avec des E-values médiocres. Ce sont sans doute des similarités dues au hasard. Cette recherche est donc infructueuse.

Vous allez recommencer la recherche avec cette fois la séquence protéique correspondant au fragment d'ADN.

Ouvrez ORF finder. ORF finder permet de traduire une séquence ADN en protéine, suivant les 6 cadres de lecture possibles.
Collez la séquence mystère, avec l'entête >séquence humaine mystère et lancez la requête

Vous obtenez 6 cadres de lecture. Le bon candidat est celui qui donne la protéine la plus longue. En cliquant dessus, vous obtenez la séquence protéique correspondante.

Créez un fichier qui contient la séquence protéique, avec une entête FASTA >protéine mystère.
Faites une recherche avec BLAST, mais pour les séquences protéiques cette fois, prenez toujours Homo sapiens comme organisme.
Ne vous occupez pas du domaine putatif prédit, et récupérez les résultats de BLAST. Comparez la qualité des alignements et les valeurs des E-values avec le résultat obtenu sur la séquence nucléique.

À partir de l'intitulé des séquences proposées par BLAST, quelle hypothèse peut-on faire sur la fonction de la protéine ?

Avec la séquence protéique putative, la recherche sous BLAST donne des protéines partageant toute la même fonction. C'est encourageant. On va donc conserver ces séquences.

Sauvegardez cinq séquences parmi les meilleures trouvées par BLAST dans des fichiers séparés. Pour cela, cliquez sur le lien avec le numéro d'accès de la séquence : vous êtes dans la banque de données protéique. Récupérez la séquence au format FASTA, grâce au menu déroulant à côté du bouton 'Display'.

IV-2. Alignements 2 à 2

Les deux recherches sous BLAST conduisent à des résultats qui à première vue peuvent sembler contradictoires : il n'existe pas de séquence ADN humaine similaire, alors qu'il existe des protéines présentant une bonne similarité avec la séquence traduite. Nous allons voir pourquoi.

Comparez les séquences protéiques trouvées par BLAST avec la protéine mystère avec un dot plot, un alignement global, puis un alignement local.

À chaque fois, vous devez observer une similarité locale avec la séquence mystère. BLAST ne s'est donc pas trompé en vous proposant cette séquence.

Vous allez maintenant faire la comparaison entre les séquences ADN correspondantes.

Pour se procurer la séquence ADN du gène de la sorbitol dehydrogenase, ouvrez Genbank.
Faites une recherche avec les mots clés "sorbitol dehydrogenase homo sapiens"
Parmi les réponses trouvées, sélectionnez la première qui correspond à un gène (mRNA, pour ARN messager)
Récupérez la séquence ADN correspondante, et sauvegardez-la dans un fichier à part.
Construisez le dot plot et/ou l'alignement de la séquence mystère ADN avec le gène de la sorbitol hydrogenase.

Dans ce cas, il n'y a pas de similarité. Ce n'était donc pas une erreur de BLAST. L'explication vient de la redondance du code génétique : lors de la traduction, des triplets de nucléotides différents peuvent correspondre à un même acide aminé. Il y a 64 triplets, pour seulement 20 acides aminés. De ce fait, des séquences ADN différentes peuvent donner lieu à la même protéine. Il est donc plus judicieux de faire une recherche sur les séquences protéiques, quand celles-ci sont connues, que sur les séquences ADN.

IV-3. Alignement multiple et domaine actif

Pour voir si cette zone de similarité détectée dans les séquences protéiques est commune à toutes les séquences, il faut construire un alignement multiple. On va se servir de ClustalW.

Collez les 6 séquences au format FASTA dans la fenêtre principale, et lancez le calcul.

Au bout de quelques secondes, vous devez obtenir un alignement multiple. Les couleurs correspondent à la qualité de conservation des colonnes. Dans l'alignement multiple, une zone est particulièrement bien conservée, autour du motif GHE. C'est certainement la signature d'un domaine actif dans la protéine. Pour vérifiez cette hypothèse, il faut construire un motif pour le domaine. La manière la plus simple de représenter un motif est de construire une expression régulière.

Le programme ScanProsite permet ensuite de localiser dans la banque de protéines Swissprot toutes les séquences contenant un motif spécifié par une expression régulière. La syntaxe pour la description du motif est la suivante:

- Tous les éléments de l'expression sont séparés par des tirets -.
- Le joker est la lettre X.
- On peut préciser le nombre d'occurrences avec des parenthèses X(5) ou D(2,4).
- Le choix entre plusieurs acides aminés possibles se note avec des crochets [AP].

À partir de l'alignement multiple, construisez un motif pour le site actif présumé.
Utilisez ScanProsite pour rechercher toutes les séquences protéiques connues qui contiennent votre motif. Ne vous trompez pas de fenêtre : c'est dans la fenêtre bleue.

Si le motif est bien caractéristique d'une fonction, toutes les séquences trouvées par ScanProsite doivent avoir la même fonction que les séquences trouvées par BLAST.

Si ce n'est pas le cas, affinez votre motif.

En guise de conclusion, la protéine que nous avons étudiée est une enzyme sorbitol déshydrogénase, proche d'une alcool déshydrogénase.

TP4 : Alignement multiple global