I. Un tutoriel de BLAST
Cette partie est la traduction française d'un tutoriel de BLAST que
vous pourrez trouvez à l'adresse suivante : http://web.mit.edu/7.02/resources/Blast-tutorial/useblast.shtml.
Ce tutorial, en anglais, permet de se familiariser avec le logiciel
BLAST. Il est assez pratique car il possède 2 fenêtres, l'une dans
laquelle on suit les instructions et l'autre où l'on peut utiliser
le logiciel BLAST du NCBI.
Vous pouvez, au choix, effectuer
cette partie sur ce TP (section I-1 à I.5) ou suivre le tutorial sur
son site d'origine. Si vous choisissez la 2e option, la séquence à
utiliser se trouve ici, et ne répondez
pas aux questions 2, 8 et fin de 9 du tutorial.
I-1. Soumettre une séquence d'ADN
Vous allez utiliser
BLAST pour comparer la
séquence
Ara-LacZ avec les séquences
nucléotidiques de la base de données.
Cliquez sur 'nucleotide blast' dans la
section 'Basic BLAST'.
Vous pouvez explorez les différentes
possibilités offertes par BLAST en cliquant sur les icônes points
d'interrogation, par exemple à côté du menu déroulant 'Database', ou
à côté de 'Enter an Entrez query to limit search'. Pour refermez la
cadre d'information qui apparaît, il suffit de re-cliquer sur le
point d'interrogation.
Ouvrez les listes des paramètres en
cliquant sur 'Algorithm parameters', et explorer toujours à l'aide
des points d'interrogation les différentes options.
Lancer une recherche BLAST pour la séquence
Ara-LacZ, avec comme base de donnée nr/nt
et en vérifiant que la case 'Low complexity regions' est cochée.
Attendre le résultat de la recherche, ça
peut prendre quelques dizaines de secondes. Vous accéderez
automatiquement à la page des résultats.
I-2. Comparer une séquence d'ADN avec celles des bases de données
Vous voyez maintenant le résultat de la
recherche BLAST. La page résultat est divisée en 3 parties comme
nous l'avons vu en cours :
- Une vue graphique générale des
séquences résultats avec différentes couleur ;
- ensuite la
liste des séquences avec leur score et leur E-value ;
- enfin, une vue plus détaillée, fournissant pour chaque séquence
résultat, l'alignement avec notre séquence requête.
Revenez à la partie graphique. Notre séquence
est représentée par la ligne épaisse rouge, graduée de 1 à 180 (notre
séquence fait exactement 185 nucléotides de long).
Le score de chacun des alignements est indiqué par une des 5
couleurs différentes. Plus le score est grand, plus la qualité est
bonne et plus le pourcentage d'identité est élevé. Plusieurs segment
de similarité trouvés dans une même séquence sont reliés par une
ligne discontinue.
I-3. Déterminer l'identité des segments d'ADN
Utilisez votre curseur de souris pour vous
placer sur une barre d'alignement colorée, vous verrez apparaître le
nom de la séquence ainsi que le score d'alignement et la E-value
dans la zone de texte située au-dessus du graphique.
Si vous cliquez sur une barre, vous serez
amené à l'alignement correspondant dans la 3e partie de la page.
Regardez les différentes séquences résultats obtenues et
trouvez dans le liste le gène AraC de E. coli.
Rendez-vous à son alignement avec notre séquences requête.
Le segment aligné de notre séquence requête commence à la position
90 et finit à la position 184.
Quel est l'intervalle aligné de la séquence résultat (Sbjct) ?
Pourquoi les numéros des positions dans la séquence résultat sont-ils dans l'ordre décroissant ?
I-4. Obtenir plus d'information sur une séquence
Cliquez sur le lien 'emb|V00259.1|ECARAX ' situé au-dessus de l'alignement.
Vous êtes amené sur la fiche GenBank correspondant à la séquence résultat.
Quel est le numéro d'accession de cette séquence ?
Quelle est la longueur de la séquence ?
Quelle est la longueur du gène Ara C ?
Quelle est la longueur de la protéine correspondante.
I-5. Chercher dans une banque de données protéique
Copier la séquence protéique du gène Ara C,
retourner sur la page d'accueil de
BLAST et choisissez cette
fois 'protein blast'.
Lancez la recherche avec comme base de
donnée Swissprot et la case 'Low complexity regions' cochée.
Quelles sont les 4 1re séquences résultats ?
Quels sont leur score ?
Donnez un exemple de protéine non arabinose qui montre
une homologie significative avec la protéine Ara C et qui a
un score de 50 ou plus.
Recommencez cette recherche BLAST mais avec
la base de données PDB cette fois.
La PDB contient seulement les séquences dont la structure est connue.
Est-ce que la structure d'Ara C est connue ?
Si oui, visualisez-là.
II. Une étude de cas utilisant BLAST
Cette partie est issue d'un TP de Jean-Stéphane Varré (LIFL, Lille)
à voir ici.
Cet exercice porte sur l'analyse de séquences d'enzymes de
conversion de l'angiotensine I en angiotensin II, aussi appelées
ACE. Ci-dessous, la séquence nucléotidique de l'ARNm de l'ACE de
sangsue :
>Sangsue, ACE
aatttaaaaatgaatttaataaatttttcatacttaaatttgctttttggtgccggtttatttagcgttttagaaagcgc
tacaatattaaataccgaatcggatgctaaaaaatggctgacaacgtataacgatgaagccggaaaatatatttacgatg
caactgaagcagaatggaattacaacaccaacctgactgatcacaatttaggaatttctattaaaaaatcaaatgatttg
gctacttttacggaacaaaaggcaatcgaggccaataaaaaatttgtatggaaaaattttactgatccacttttgaaaag
agaattttcaaaaataactgacattggtactgctagcctttcagatgaagactttcaaaagatgtcaggtttgaactctg
atctaacaaaaatttacagcactgcaaaagtttgtaacaagcctaacgacccatctggaaaatgctatcctttagatcct
gatttgtccgacataatctccaagtcaaacgatctcgaggaattgacctgggcatggaaaggttggagggatgcgtctgg
caaacatatgcccgataaatatgatgaatttgttcaactgctcaacaaagctgctaagattcatggatatgaagacaacg
gggattattggaggtcctggtacgagtcccccacgttcagaaaggattgtgaagatttgtggcaggagatcaaaccattc
tacgaacaactgcatgcatacgtcagaaggaagctgcagaagaagtatccccaaattgcattccccaaggaggggcccat
ccctgctcatctgctcggcaacatgtgggcccaatcgtgggagaacatagagtacttgttatgggcccaatcgtgggaga
acatagagtacttgttaaggcccgctcctgaccttcctagcatggacatcactgaggaactcgtcaaacagaactacacg
gcattgaaactcttccaactgtcggacacatttttcaaatccttgggtctcatccagatgcctcagccgttttgggaaaa
gtcgatgatcgagaaaccagctgatcgggatgtgttcagaatcaaacaatgcgtttgccatgcgtcagcctgggacttct
acaatcgcaaggatacggttgtggacatgcactggttcatgacgactcaccatgagatgggacacatcgaatactacctc
cactacaaggaccaacccatcagtttcagatctggcgctaatccaggatttcatgaggccattgccgatattgcatcact
gtcagtggccacacctgaatatatgcaatccgtcagcctgttgcctaatttcactgacgatccaaatggcgatttaaact
tcttaatgaaccaagccttaacgaaggtggccttcctaccattcggttacctgatcgaccagtggagatgggacgtgttc
tcgggagatacccctcgaccaaaatacaactccaagtggtggcacaacaggtgtaagtaccagggcatatatcctccagt
gaaaaggtcagagcaagattttgatgccggttccaagttccatgtacccaacaacactccatacatcaggtactttgttg
ctcacgtcatccaattccaattccatgaagccctgtgcaaggctgccaacaacagcagacctctacatagatgtaacatc
gccaattccaaggaagctggagagaaactggctgaattgatgaaatctggatcttcaattccgtggcctaaagttctaga
aaatcttactggatcggaaaaaatgtcagcgaaatctctcatggcctattacaaaccgttgatcgattggcctgaaaaaa
gaaaaccaagggcagaaaattggatgggaggaaaaatgtcctcctggatcatttgaaccatgaaattatttatttgattt
tatgtcatttcataatttttctaccacttttttaataaacttaggtgcctattgaatatgttcttgcaatttgaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
II-1. Séquence requête ADN contre banque nucléique
Découverte
Faites tourner
blastn
avec les options par défaut sur cette séquence.
ATTENTION : bien vérifier que vous utilisez le programme
blastn et non
megablast.
Combien de séquences de la banque ressemblent à la notre (voir le
nombre de 'hits') ?
Est-ce que les alignements obtenus semblent
pertinents d'un point de vue biologique ?
Est-ce que les séquences
trouvées font partie de la famille des ACE ?
La représentation graphique des résultats
indique les régions de la séquence requête (échelle) qui s'alignent
avec les séquences de la banque (rectangles colorés). Seuls les
rectangles séparés par des hachures font partie de la même entrée
de la banque. La séquence qui a la e-value plus plus élevée
provient de l'homme (ref|NM_000789.2| Homo sapiens angiotensin I converting enzyme (peptidyl-dipeptidase A) 1 (ACE), transcript variant 1, mRNA)
).
Combien de régions communes entre la séquence de l'homme et celle de la sangsue
sont représentées sur le graphique ?
Combien de régions sont réellement communes entre les deux séquences (voir les
alignements) ?
Pourquoi y a-t-il une différence ?
La e-value
Quel est le score obtenu pour la séquence de l'homme, avec les
options par défaut ?
Quelle est la e-value correspondante ?
Comment varie la e-value en fonction du score (comparez pour
différents alignements) ?
Faites maintenant tourner
blastn en limitant les données de la
banque aux entrées issues de la l'homme. Pour cela, choisissez la banque nr/nt. Un champ 'Organism' apparaît, commencez à taper le nom latin de l'homme
homo sapiens et un menu déroulant apparaîtra dans lequel vous pourrez le sélectionner.
Est-ce que l'on retrouve la séquence d'ACE en premier ?
Est-ce
que le score d'alignement a changé ?
Comment a varié la
e-value ?
Le filtre de faible complexité.
Les régions de faible complexité sont des parties de séquences
composées de peu de lettres différentes. Par défaut, dans
Blast, l'option "Low complexity regions" est active (cochée). Les
régions de faible complexité présentes dans la séquence requête
sont remplacées par des N dans le cas de l'ADN et par des X
dans le cas des protéines. Ces régions ne sont donc pas
alignées avec les séquences de la banque. Nous allons étudier
l'intérêt de cette option.
Vous pouvez observer la région de faible complexité présente dans la séquence de
sangsue en faisant un dotplot de la séquence contre elle-même à l'aide d'un dotplot.
Utilisez de nouveau
blastn avec la séquence de sangsue contre les séquences
de l'homme, mais en décochant l'option "Low complexity regions".
Les résultats obtenus
sont très différents des précédents. Pourtant, la séquence requête et la
banque sont les mêmes.
II-2. Séquence requête ADN contre banque protéique
Dans ce cas, la séquence requête est traduite à l'aveugle dans les six phases.
Les six peptides obtenus sont alignés avec les protéines de la banque, y compris
les codons stop qui sont remplacés par une étoile.
BlastX
Lancez un
blastx
avec la séquence de sangsue et les options par défaut.
Combien de séquences de la banque ressemblent à la notre ?
Quelle est la E-value (E) des 2 premières séquences de la liste ?
Celle des 2 dernières ?
Comparez les valeurs trouvées à celles obtenues avec blastn.
Est-ce que plus de séquences de la famille des ACE sont trouvées
(ne comptez pas!) ?
De quel organisme provient la première séquence ?
Trouvez la protéine correspondant à la séquence humaine sur laquelle nous travaillons depuis le début.
Combien de hits y a-t-il sur la séquence protéique ?
Comparez les alignements obtenus à l'aide de blastn et
blastx pour la meilleure séquence.
Quelle est la différence ? Comment l'expliquez-vous ?
III. FASTA et PSI-BLAST
Dans cette exercice nous allons essayer de
reconstituer la famille d'une protéine :
>Protéine esseulée
SCYNPCLPCQPCGPTPLANSCNEPCVRQCQSSNVVIEPSSVVVILPGPILSSFPQNTVVG
SSTSAAVGSILSCEGVPINSGCFDLSCITSRYCGSRCQPC
III-1. FASTA
FASTA est « l'autre logiciel » de
recherche de séquence dans une banque. Le programme FASTA est
disponible à plusieurs endroits dont l'
EBI. Le plus souvent, il
n'est pas possible d'obtenir les résultats directement, ils sont
envoyés par e-mail.
Familiarisez-vous avec l'interface de FASTA
à l'EMBL en explorant les diverses possibilités de paramétrage
Comparez la séquence de protéine ci-dessus à la banque UniProtKB avec la matrice BLOSUM62.
Patientez le temps que les résultats arrivent.
Pensez-vous que la première séquence trouvée soit la séquence requête ci-dessus ? Si oui, pourquoi ?
À votre avis, quelle est la famille de protéine que nous cherchons à reconstituer ?
Visualisez les résultats de manière
graphique en cliquant sur le bouton 'VisualFasta'.
Combien de séquences à votre avis, parmi celles trouvées, appartiennent à la famille de notre protéine ?
Revenez aux résultats précédents et sauvez
au format FASTA les séquences qui d'après vous appartiennent à la
famille dans un fichier texte.
La famille que nous cherchons contient 30 protéines, vous n'êtes pas sensés les avoir encore toutes trouvées.
III-2. PSI-BLAST
Peut-on trouver plus de protéine de la
famille avec PSI-BLAST ?
Allez sur la page d'accueil de BLAST, puis
sur celle de PSI-BLAST et lancer la recherche de notre protéine sur la
banque SWISS-PROT.
Un domaine Keratin est repéré sur la protéine, on s'en occupera après.
PSI-BLAST est itératif, vous lancez
manuellement chaque nouvelle itération. Les nouvelles séquences
attrapées sont marquées par un icône new. La recherche
converge lorsque à une nouvelle étape il n'y a plus de nouvelle
séquences.
Arrivez-vous à obtenir plus de séquences que précédemment ?
Jouez sur les paramètres pour voir.
Si vous n'arrivez toujours pas à trouvez les 30 protéines, suivez le lien Kératin qui s'affiche en début de recherche.
Cliquez sur le + devant 'pfam02422' pour avoir le détail du domaine conservé.
Une idée pour trouver nos 30 membres de la famille ?
Rendez-vous sur la banque
PFAM et cherchez la famille PF02422 ou Keratin.
Profitez en pour consulter la fiche de cette famille et vous familiariser avec la base PFAM.