Introduction
Dans ce TP nous allons utiliser plusieurs logiciel d'alignement
multiple, autant les intégrer dans nos marque-pages tout de
suite. Ci-dessous les liens vers des sites qui proposent
l'utilisation en ligne des logiciels que nous allons utiliser, mais
en général plusieurs miroirs existent.
Dans les exercices, on vous demandera de comparer les résultats
fournis par ces différents logiciels. Organisez-vous en groupe de 2 ou
3 et répartissez vous les différents logiciels à tester, vous gagnerez
du temps.
D'autre part, vous pouvez installer le logiciel SEAVIEW
pour visualiser les résultats des programmes d'alignement
multiple. Installez la version Linux on PC.
I. Alignement de protéines avec de longs gaps
Nous allons étudier trois protéines : une protéine de
Escherichia coli
qui porte deux fonctions enzymatiques (EC 4.1.1.48 et EC 5.3.1.24) et deux
protéines de
Xylella fastidiosa qui portent chacune une de ces deux
fonctions :
>trpC, EC:4.1.1.48 et 5.3.1.2, E. coli
MMQTVLAKIVADKAIWVEARKQQQPLASFQNEVQPSTRHFYDALQGARTAFILECKKASP
SKGVIRDDFDPARIAAIYKHYASAISVLTDEKYFQGSFNFLPIVSQIAPQPILCKDFIID
PYQIYLARYYQADACLLMLSVLDDDQYRQLAAVAHSLEMGVLTEVSNEEEQERAIALGAK
VVGINNRDLRDLSIDLNRTRELAPKLGHNVTVISESGINTYAQVRELSHFANGFLIGSAL
MAHDDLHAAVRRVLLGENKVCGLTRGQDAKAAYDAGAIYGGLIFVATSPRCVNVEQAQEV
MAAAPLQYVGVFRNHDIADVVDKAKVLSLAAVQLHGNEEQLYIDTLREALPAHVAIWKAL
SVGETLPAREFQHVDKYVLDNGQGGSGQRFDWSLLNGQSLGNVLLAGGLGADNCVEAAQT
GCAGLDFNSAVESQPGIKDARLLASVFQTLRAY
>EC:5.3.1.24, xfa
MALAYGSECMNISPYRTRIKFCGMTRVGDVRLASELGVDAVGLIFASGSSRLLTVSAACA
IRRTVAPMVNVVALFQNNSADEIHTVVRTVRPTLLQFHGEEEDAFCRTFNVPYLKAIPMA
GAEAKRICTRTLYLKYPNAAGFIFDSHLKGGTGQTFDWSRLPIDLQHPFLLAGGITPENV
FDAIAATVPWGVDVSSGIELQPGIKDGDKMRQFVEEVRRADGRRLFGVA
>EC:4.1.1.48, xfa
MSNILTKIIAWKVEEIAERLLHVSQAELVARCADLPTPRGFAGALQATIAHGDPAVIAEI
KKASPSKGVLREDFRPAEIAISYELGGASCLSVLTDVHFFKGHDDYLSQARDACTLPVLR
KDFTIDPYQVYEARVLGADCILLIVAALDDAQLVDLSGLALQLGMDVLVEVHDIDELERA
IQISAPLIGINNRNLSTFNVSLETTLTMKGLVPRDRLLVSESGILTSADVQRLRAAGVNA
FLVGEAFMRATEPGESLREMFFIT
La protéine de E. coli possède la fonction enzymatique EC 4.1.1.48
au début et la fonction enzymatique EC 5.3.1.24 à la fin de sa séquence.
Nous allons tester si les programmes d'alignement multiple retrouvent bien
cette configuration. Alignez les trois séquences à l'aide de chacun des trois
programmes.
Quels sont parmi les programmes ceux qui construisent l'alignement multiple attendu ?
En modifiant les paramètres de DIALIGN, il est possible d'améliorer la qualité
de l'alignement. DIALIGN recherche des régions de forte ressemblance entre
les séquences pour ancrer son alignement. Le paramètre T permet d'agir
sur la sélection de ces régions. En augmentant la valeur de T, on force
DIALIGN à choisir des régions de plus forte ressemblance.
Testez DIALIGN avec la valeur 4 pour T
II. Étude d'une famille de protéine
Nous allons étudier une famille de protéines au sein d'un même génome,
avec un ensemble de séquences très conservées (duplication de gènes) et un gène
ayant une fonction proche, mais une séquence éloignée.
Retrouvez grâce à Entrez les séquences qui
portent les numéros d'accession : P24088 P32580 O13559 P40105 P53345
P53819 (entrez les 6 séquences d'un coup et ne conservez que les
séquences issues de la banque SwissProt).
Quel quel organisme proviennent ces séquences ?
Quelle est la fonction de ces protéines ?
Mémorisez les séquences de ces protéines au format FASTA et gardez la liste
de résultats ouverte.
II-1. Alignement multiple
Effectuez un alignement multiple de ces séquences à l'aide d'au
moins trois des programmes.
Est-ce que les alignements trouvés sont identiques ?
Lesquels semblent les plus satisfaisants ?
II-2. Qualité de l'alignement
Le meilleur moyen d'estimer la qualité d'un alignement est de
vérifier si les régions connues pour avoir la même fonction
biologique sont bien alignées entre elles.
Le lien "Conserved Domains" qui se trouve à droite de chaque entrée (dans la liste
de résultats proposée par Entrez) mène à un schéma qui localise les domaines
protéiques connus pour chaque entrée.
Quels sont les domaines communs aux différentes séquences ?
Quelles sont leurs positions (approximatives) sur ces séquences ?
Repérez ces domaines dans les alignements obtenus précédemment. Puis vérifiez
que les régions contenant ces domaines sont bien alignées les unes avec les
autres.
Quels sont les programmes d'alignement multiple qui alignent correctement les
domaines fonctionnels ?
III. Épissage alternatif
Le gène HRAS est un gène qui subit de l'épissage alternatif. Nous
allons tout d'abord aligner la séquence du gène avec chacun de ses
variants. Voici les séquences du
gène, d'
un variant et de l'
autre variant.
Utilisez le logiciel d'alignement 2 à 2 de votre choix pour les aligner.
Il est également possible de faire une alignement multiple du gène
et de ses deux variants en même temps.
Faites-le avec au moins trois programmes d'alignement (attention tous les
liens donnés en 1re partie ne marchent pas forcément en version ADN,
trouvez les versions adéquate en utilisant votre moteur de recherche
préféré).
Quels sont les programmes d'alignement multiple qui alignent
correctement les exons ?
IV. Une séquence mystère
Le but de cette partie est de vous faire faire l'analyse
bioinformatique d'une séquence mystère, pour trouver sa fonction.
Tout ce que vous savez, c'est que votre séquence est un fragment
d'ADN extrait du génome humain.
>séquence humaine mystère
gaattcgagatgcgaatgagcagcagccattttgatgttgtgagcatcggaacgtttctgcgtccgtacactgtccttttgttacttagataatggctaaggcaagcagtccgggccaca
ggagtcaaaggcttttcgccagctcctaaacgctggaagtgtaattttttttcttcttataaaattaaacaaacccttttagaaaggaacactcgctttatctcttcgaccgaatttact
atacatggatatatatatattatcttctgttcacagttaaaactaggaatagcatagtcataagttaacaccatcatgttgagaacgtcaacattgttcaccaagcgtgtccaaccaagc
ctattttctagaaacattcttagattgcaatccacagctgcaatccctaagactcaaaaaggtgtcatcttttatgagaataaggggaacctgcattacaaagatatccctgtccccgag
cctaagccaaatgaaattttaatcaacgttaaatattctggtgtatgtcacaccgatttacatgcttggcacggcgattggccattacctgttaaactaccattagtaggtggtcatgaa
ggtgctggtgtagttgtcaaactaggttccaatgtcaagggctggaaagtcggtgatttagcaggtatcaaatggctgaacggttcttgtatgacatgcgaattctgtgaatcaggtcat
gaatcaaattgtccagatgctgatttatctggttacactcatgatggttctttccaacaatttgcgaccgctgatgctattcaagccgccaaaattcaacagggtaccgacttggccgaa
gtagccccaatattatgtgctggtgttactgtatataaagcactaaaagaggcagacttgaaagctggtgactgggttgccatctctggtgctgcaggtggcttgggttccttggccgtt
caatatgcaactgcgatgggttacagagttctaggtattgatgcaggtgaggaaaaggaaaaacttttcaagaaattggggggtgaagtattcatcgactttactaaaacaaagaatatg
gtttctgacattcaagaagctaccaaaggtggccctcatggtgtcattaacgtttccgtttctgaagccgctatttctctatctacggaatatgttagaccatgtggtaccgtcgttttg
gttggtttgcccgctaacgcctacgttaaatcagaggtattctctcatgtggtgaagtccatcaatatcaagggttcttatgttggtaacagagctgatacgagagaagccttagacttc
tttagcagaggtttgatcaaatcaccaatcaaaattgttggattatctgaattaccaaaggtttatgacttgatggaaaagggcaagattttgggtagatacgtcgtcgatactagtaaa
taatagcgtgttacgcacccaaacttttatgaaagtctttgtttataatgatgaggtttataaatatatagtggagcaaagattaatcactaaatcaagaagcagtaccagtattttttc
tatatcaagtagtgataatggaaatagcccaaatttggcttccgtcgac
IV-1. Fouille dans les banques de données
La première étape est de chercher dans les banques de données de
séquences s'il existe des séquences connues similaires.
Faites un BLAST de cette séquence en restreignant la recherche aux données homo sapiens.
BLAST trouve-t-il des gènes similaires ?
Quelles sont les valeurs des E-values ?
Les seules séquences similaires trouvées par BLAST ne sont pas des
gènes, et les zones de similarité sont très restreintes, avec des E-values médiocres. Ce sont sans
doute des similarités dues au hasard. Cette recherche est donc
infructueuse.
Vous allez recommencer la recherche avec cette fois la séquence protéique
correspondant au fragment d'ADN.
- Ouvrez ORF finder. ORF finder
permet de traduire une séquence ADN en protéine, suivant les 6 cadres de lecture possibles.
- Collez la séquence mystère, avec l'entête >séquence humaine mystère
et lancez la requête
Vous obtenez 6 cadres de lecture. Le bon candidat est celui qui
donne la protéine la plus longue. En cliquant dessus, vous obtenez
la séquence protéique correspondante.
Créez un fichier qui contient la séquence protéique, avec une entête
FASTA >protéine mystère.
Faites une recherche avec
BLAST, mais pour les séquences protéiques cette fois, prenez toujours
Homo sapiens comme organisme.
Ne vous occupez pas du
domaine putatif prédit, et récupérez les résultats de BLAST. Comparez
la qualité des alignements et les valeurs des E-values avec le
résultat obtenu sur la séquence nucléique.
À partir de l'intitulé des séquences proposées par BLAST, quelle
hypothèse peut-on faire sur la fonction de la protéine ?
Avec la séquence protéique putative, la recherche sous BLAST donne
des protéines partageant toute la même fonction. C'est encourageant.
On va donc conserver ces séquences.
Sauvegardez cinq séquences parmi les meilleures trouvées par BLAST
dans des fichiers séparés. Pour cela, cliquez sur le lien avec le
numéro d'accès de la séquence : vous êtes dans la banque de données
protéique. Récupérez la séquence au format FASTA, grâce au menu
déroulant à côté du bouton 'Display'.
IV-2. Alignements 2 à 2
Les deux recherches sous BLAST conduisent à des résultats qui à
première vue peuvent sembler contradictoires : il n'existe
pas de séquence ADN humaine similaire, alors qu'il existe des protéines
présentant une bonne similarité avec la séquence traduite.
Nous allons voir pourquoi.
Comparez les séquences protéiques trouvées par BLAST avec la
protéine mystère avec un dot plot, un alignement global, puis un
alignement local.
À chaque fois, vous devez observer une similarité locale avec la
séquence mystère. BLAST ne s'est donc pas trompé en vous proposant
cette séquence.
Vous allez maintenant faire la comparaison entre les séquences ADN correspondantes.
- Pour se procurer la séquence ADN du gène de la sorbitol
dehydrogenase, ouvrez Genbank.
- Faites une recherche avec les mots clés "sorbitol
dehydrogenase homo sapiens"
- Parmi les réponses trouvées, sélectionnez la première qui
correspond à un gène (mRNA, pour ARN messager)
- Récupérez la séquence ADN correspondante, et sauvegardez-la
dans un fichier à part.
- Construisez le dot plot et/ou l'alignement de la séquence
mystère ADN avec le gène de la sorbitol hydrogenase.
Dans ce cas, il n'y a pas de similarité. Ce n'était donc pas une
erreur de BLAST. L'explication vient de la redondance du code
génétique : lors de la traduction, des triplets de nucléotides
différents peuvent correspondre à un même acide aminé. Il y a 64
triplets, pour seulement 20 acides aminés. De ce fait, des séquences
ADN différentes peuvent donner lieu à la même protéine. Il est donc
plus judicieux de faire une recherche sur les séquences protéiques,
quand celles-ci sont connues, que sur les séquences ADN.
IV-3. Alignement multiple et domaine actif
Pour voir si cette zone de similarité détectée dans les séquences
protéiques est commune à toutes les séquences, il faut construire un
alignement multiple. On va se servir de ClustalW.
Collez les 6 séquences au format FASTA dans la fenêtre
principale, et lancez le calcul.
Au bout de quelques secondes, vous devez obtenir un alignement
multiple. Les couleurs correspondent à la qualité de conservation des
colonnes. Dans l'alignement multiple, une zone est particulièrement
bien conservée, autour du motif GHE. C'est
certainement la signature d'un domaine actif dans la protéine. Pour
vérifiez cette hypothèse, il faut construire un motif pour le domaine.
La manière la plus simple de représenter un motif est de construire
une expression régulière.
Le programme
ScanProsite permet ensuite de
localiser dans la banque de protéines
Swissprot
toutes les séquences contenant un motif spécifié par une expression
régulière. La syntaxe pour la description du motif est la suivante:
- Tous les éléments de l'expression sont séparés par des tirets
-.
- Le joker est la lettre X.
- On peut préciser le nombre d'occurrences avec des parenthèses
X(5) ou D(2,4).
- Le choix entre plusieurs acides aminés possibles se note avec des
crochets [AP].
À partir de l'alignement multiple, construisez un motif pour le site
actif présumé.
Utilisez
ScanProsite pour rechercher toutes les séquences
protéiques connues qui contiennent votre motif. Ne vous trompez pas de
fenêtre : c'est dans la fenêtre bleue.
Si le motif est bien caractéristique d'une fonction, toutes les
séquences trouvées par ScanProsite doivent avoir la même fonction
que les séquences trouvées par BLAST.
Si ce n'est pas le cas, affinez votre motif.
En guise de conclusion, la protéine que nous avons étudiée est une
enzyme sorbitol déshydrogénase, proche d'une alcool déshydrogénase.