TP3 : BLAST et FASTA

I. Un tutoriel de BLAST

Cette partie est la traduction française d'un tutoriel de BLAST que vous pourrez trouvez à l'adresse suivante : http://web.mit.edu/7.02/resources/Blast-tutorial/useblast.shtml.

Ce tutorial, en anglais, permet de se familiariser avec le logiciel BLAST. Il est assez pratique car il possède 2 fenêtres, l'une dans laquelle on suit les instructions et l'autre où l'on peut utiliser le logiciel BLAST du NCBI.

Vous pouvez, au choix, effectuer cette partie sur ce TP (section I-1 à I.5) ou suivre le tutorial sur son site d'origine. Si vous choisissez la 2e option, la séquence à utiliser se trouve ici, et ne répondez pas aux questions 2, 8 et fin de 9 du tutorial.

Flèche vers le haut

I-1. Soumettre une séquence d'ADN

Vous allez utiliser BLAST pour comparer la séquence Ara-LacZ avec les séquences nucléotidiques de la base de données.
Cliquez sur 'nucleotide blast' dans la section 'Basic BLAST'.
Vous pouvez explorez les différentes possibilités offertes par BLAST en cliquant sur les icônes points d'interrogation, par exemple à côté du menu déroulant 'Database', ou à côté de 'Enter an Entrez query to limit search'. Pour refermez la cadre d'information qui apparaît, il suffit de re-cliquer sur le point d'interrogation.
Ouvrez les listes des paramètres en cliquant sur 'Algorithm parameters', et explorer toujours à l'aide des points d'interrogation les différentes options.
Lancer une recherche BLAST pour la séquence Ara-LacZ, avec comme base de donnée nr/nt et en vérifiant que la case 'Low complexity regions' est cochée.
Attendre le résultat de la recherche, ça peut prendre quelques dizaines de secondes. Vous accéderez automatiquement à la page des résultats.
Flèche vers le haut

I-2. Comparer une séquence d'ADN avec celles des bases de données

Vous voyez maintenant le résultat de la recherche BLAST. La page résultat est divisée en 3 parties comme nous l'avons vu en cours :
  • Une vue graphique générale des séquences résultats avec différentes couleur ;
  • ensuite la liste des séquences avec leur score et leur E-value ;
  • enfin, une vue plus détaillée, fournissant pour chaque séquence résultat, l'alignement avec notre séquence requête.
Revenez à la partie graphique. Notre séquence est représentée par la ligne épaisse rouge, graduée de 1 à 180 (notre séquence fait exactement 185 nucléotides de long).
Le score de chacun des alignements est indiqué par une des 5 couleurs différentes. Plus le score est grand, plus la qualité est bonne et plus le pourcentage d'identité est élevé. Plusieurs segment de similarité trouvés dans une même séquence sont reliés par une ligne discontinue.
Flèche vers le haut

I-3. Déterminer l'identité des segments d'ADN

Utilisez votre curseur de souris pour vous placer sur une barre d'alignement colorée, vous verrez apparaître le nom de la séquence ainsi que le score d'alignement et la E-value dans la zone de texte située au-dessus du graphique.
Si vous cliquez sur une barre, vous serez amené à l'alignement correspondant dans la 3e partie de la page.
Regardez les différentes séquences résultats obtenues et trouvez dans le liste le gène AraC de E. coli.
Rendez-vous à son alignement avec notre séquences requête.
Le segment aligné de notre séquence requête commence à la position 90 et finit à la position 184.
Quel est l'intervalle aligné de la séquence résultat (Sbjct) ?
Pourquoi les numéros des positions dans la séquence résultat sont-ils dans l'ordre décroissant ?
Flèche vers le haut

I-4. Obtenir plus d'information sur une séquence

Cliquez sur le lien 'emb|V00259.1|ECARAX ' situé au-dessus de l'alignement.
Vous êtes amené sur la fiche GenBank correspondant à la séquence résultat.
Quel est le numéro d'accession de cette séquence ?
Quelle est la longueur de la séquence ?
Quelle est la longueur du gène Ara C ?
Quelle est la longueur de la protéine correspondante.
Flèche vers le haut

I-5. Chercher dans une banque de données protéique

Copier la séquence protéique du gène Ara C, retourner sur la page d'accueil de BLAST et choisissez cette fois 'protein blast'.
Lancez la recherche avec comme base de donnée Swissprot et la case 'Low complexity regions' cochée.
Quelles sont les 4 1re séquences résultats ?
Quels sont leur score ?
Donnez un exemple de protéine non arabinose qui montre une homologie significative avec la protéine Ara C et qui a un score de 50 ou plus.
Recommencez cette recherche BLAST mais avec la base de données PDB cette fois.
La PDB contient seulement les séquences dont la structure est connue.
Est-ce que la structure d'Ara C est connue ?
Si oui, visualisez-là.
Flèche vers le haut

II. Une étude de cas utilisant BLAST

Cette partie est issue d'un TP de Jean-Stéphane Varré (LIFL, Lille) à voir ici.

Cet exercice porte sur l'analyse de séquences d'enzymes de conversion de l'angiotensine I en angiotensin II, aussi appelées ACE. Ci-dessous, la séquence nucléotidique de l'ARNm de l'ACE de sangsue :

>Sangsue, ACE
aatttaaaaatgaatttaataaatttttcatacttaaatttgctttttggtgccggtttatttagcgttttagaaagcgc
tacaatattaaataccgaatcggatgctaaaaaatggctgacaacgtataacgatgaagccggaaaatatatttacgatg
caactgaagcagaatggaattacaacaccaacctgactgatcacaatttaggaatttctattaaaaaatcaaatgatttg
gctacttttacggaacaaaaggcaatcgaggccaataaaaaatttgtatggaaaaattttactgatccacttttgaaaag
agaattttcaaaaataactgacattggtactgctagcctttcagatgaagactttcaaaagatgtcaggtttgaactctg
atctaacaaaaatttacagcactgcaaaagtttgtaacaagcctaacgacccatctggaaaatgctatcctttagatcct
gatttgtccgacataatctccaagtcaaacgatctcgaggaattgacctgggcatggaaaggttggagggatgcgtctgg
caaacatatgcccgataaatatgatgaatttgttcaactgctcaacaaagctgctaagattcatggatatgaagacaacg
gggattattggaggtcctggtacgagtcccccacgttcagaaaggattgtgaagatttgtggcaggagatcaaaccattc
tacgaacaactgcatgcatacgtcagaaggaagctgcagaagaagtatccccaaattgcattccccaaggaggggcccat
ccctgctcatctgctcggcaacatgtgggcccaatcgtgggagaacatagagtacttgttatgggcccaatcgtgggaga
acatagagtacttgttaaggcccgctcctgaccttcctagcatggacatcactgaggaactcgtcaaacagaactacacg
gcattgaaactcttccaactgtcggacacatttttcaaatccttgggtctcatccagatgcctcagccgttttgggaaaa
gtcgatgatcgagaaaccagctgatcgggatgtgttcagaatcaaacaatgcgtttgccatgcgtcagcctgggacttct
acaatcgcaaggatacggttgtggacatgcactggttcatgacgactcaccatgagatgggacacatcgaatactacctc
cactacaaggaccaacccatcagtttcagatctggcgctaatccaggatttcatgaggccattgccgatattgcatcact
gtcagtggccacacctgaatatatgcaatccgtcagcctgttgcctaatttcactgacgatccaaatggcgatttaaact
tcttaatgaaccaagccttaacgaaggtggccttcctaccattcggttacctgatcgaccagtggagatgggacgtgttc
tcgggagatacccctcgaccaaaatacaactccaagtggtggcacaacaggtgtaagtaccagggcatatatcctccagt
gaaaaggtcagagcaagattttgatgccggttccaagttccatgtacccaacaacactccatacatcaggtactttgttg
ctcacgtcatccaattccaattccatgaagccctgtgcaaggctgccaacaacagcagacctctacatagatgtaacatc
gccaattccaaggaagctggagagaaactggctgaattgatgaaatctggatcttcaattccgtggcctaaagttctaga
aaatcttactggatcggaaaaaatgtcagcgaaatctctcatggcctattacaaaccgttgatcgattggcctgaaaaaa
gaaaaccaagggcagaaaattggatgggaggaaaaatgtcctcctggatcatttgaaccatgaaattatttatttgattt
tatgtcatttcataatttttctaccacttttttaataaacttaggtgcctattgaatatgttcttgcaatttgaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
     
Flèche vers le haut

II-1. Séquence requête ADN contre banque nucléique

Découverte

Faites tourner blastn avec les options par défaut sur cette séquence.
ATTENTION : bien vérifier que vous utilisez le programme blastn et non megablast.
Combien de séquences de la banque ressemblent à la notre (voir le nombre de 'hits') ?
Est-ce que les alignements obtenus semblent pertinents d'un point de vue biologique ?
Est-ce que les séquences trouvées font partie de la famille des ACE ?
La représentation graphique des résultats indique les régions de la séquence requête (échelle) qui s'alignent avec les séquences de la banque (rectangles colorés). Seuls les rectangles séparés par des hachures font partie de la même entrée de la banque. La séquence qui a la e-value plus plus élevée provient de l'homme (ref|NM_000789.2| Homo sapiens angiotensin I converting enzyme (peptidyl-dipeptidase A) 1 (ACE), transcript variant 1, mRNA) ).
Combien de régions communes entre la séquence de l'homme et celle de la sangsue sont représentées sur le graphique ?
Combien de régions sont réellement communes entre les deux séquences (voir les alignements) ?
Pourquoi y a-t-il une différence ?

La e-value

Quel est le score obtenu pour la séquence de l'homme, avec les options par défaut ?
Quelle est la e-value correspondante ?
Comment varie la e-value en fonction du score (comparez pour différents alignements) ?
Faites maintenant tourner blastn en limitant les données de la banque aux entrées issues de la l'homme. Pour cela, choisissez la banque nr/nt. Un champ 'Organism' apparaît, commencez à taper le nom latin de l'homme homo sapiens et un menu déroulant apparaîtra dans lequel vous pourrez le sélectionner.
Est-ce que l'on retrouve la séquence d'ACE en premier ?
Est-ce que le score d'alignement a changé ?
Comment a varié la e-value ?

Le filtre de faible complexité.

Les régions de faible complexité sont des parties de séquences composées de peu de lettres différentes. Par défaut, dans Blast, l'option "Low complexity regions" est active (cochée). Les régions de faible complexité présentes dans la séquence requête sont remplacées par des N dans le cas de l'ADN et par des X dans le cas des protéines. Ces régions ne sont donc pas alignées avec les séquences de la banque. Nous allons étudier l'intérêt de cette option.
Vous pouvez observer la région de faible complexité présente dans la séquence de sangsue en faisant un dotplot de la séquence contre elle-même à l'aide d'un dotplot.
Utilisez de nouveau blastn avec la séquence de sangsue contre les séquences de l'homme, mais en décochant l'option "Low complexity regions".
Les résultats obtenus sont très différents des précédents. Pourtant, la séquence requête et la banque sont les mêmes.
Flèche vers le haut

II-2. Séquence requête ADN contre banque protéique

Dans ce cas, la séquence requête est traduite à l'aveugle dans les six phases. Les six peptides obtenus sont alignés avec les protéines de la banque, y compris les codons stop qui sont remplacés par une étoile.

BlastX

Lancez un blastx avec la séquence de sangsue et les options par défaut.
Combien de séquences de la banque ressemblent à la notre ?
Quelle est la E-value (E) des 2 premières séquences de la liste ?
Celle des 2 dernières ?
Comparez les valeurs trouvées à celles obtenues avec blastn.
Est-ce que plus de séquences de la famille des ACE sont trouvées (ne comptez pas!) ?
De quel organisme provient la première séquence ?
Trouvez la protéine correspondant à la séquence humaine sur laquelle nous travaillons depuis le début.
Combien de hits y a-t-il sur la séquence protéique ?
Comparez les alignements obtenus à l'aide de blastn et blastx pour la meilleure séquence.
Quelle est la différence ? Comment l'expliquez-vous ?
Flèche vers le haut

III. FASTA et PSI-BLAST

Dans cette exercice nous allons essayer de reconstituer la famille d'une protéine :

>Protéine esseulée
SCYNPCLPCQPCGPTPLANSCNEPCVRQCQSSNVVIEPSSVVVILPGPILSSFPQNTVVG
SSTSAAVGSILSCEGVPINSGCFDLSCITSRYCGSRCQPC
Flèche vers le haut

III-1. FASTA

FASTA est « l'autre logiciel » de recherche de séquence dans une banque. Le programme FASTA est disponible à plusieurs endroits dont l'EBI. Le plus souvent, il n'est pas possible d'obtenir les résultats directement, ils sont envoyés par e-mail.
Familiarisez-vous avec l'interface de FASTA à l'EMBL en explorant les diverses possibilités de paramétrage
Comparez la séquence de protéine ci-dessus à la banque UniProtKB avec la matrice BLOSUM62.
Patientez le temps que les résultats arrivent.
Pensez-vous que la première séquence trouvée soit la séquence requête ci-dessus ? Si oui, pourquoi ?
À votre avis, quelle est la famille de protéine que nous cherchons à reconstituer ?
Visualisez les résultats de manière graphique en cliquant sur le bouton 'VisualFasta'.
Combien de séquences à votre avis, parmi celles trouvées, appartiennent à la famille de notre protéine ?
Revenez aux résultats précédents et sauvez au format FASTA les séquences qui d'après vous appartiennent à la famille dans un fichier texte.
La famille que nous cherchons contient 30 protéines, vous n'êtes pas sensés les avoir encore toutes trouvées.
Flèche vers le haut

III-2. PSI-BLAST

Peut-on trouver plus de protéine de la famille avec PSI-BLAST ?
Allez sur la page d'accueil de BLAST, puis sur celle de PSI-BLAST et lancer la recherche de notre protéine sur la banque SWISS-PROT.
Un domaine Keratin est repéré sur la protéine, on s'en occupera après.
PSI-BLAST est itératif, vous lancez manuellement chaque nouvelle itération. Les nouvelles séquences attrapées sont marquées par un icône new. La recherche converge lorsque à une nouvelle étape il n'y a plus de nouvelle séquences.
Arrivez-vous à obtenir plus de séquences que précédemment ?
Jouez sur les paramètres pour voir. Si vous n'arrivez toujours pas à trouvez les 30 protéines, suivez le lien Kératin qui s'affiche en début de recherche.
Cliquez sur le + devant 'pfam02422' pour avoir le détail du domaine conservé.
Une idée pour trouver nos 30 membres de la famille ?
Rendez-vous sur la banque PFAM et cherchez la famille PF02422 ou Keratin.
Profitez en pour consulter la fiche de cette famille et vous familiariser avec la base PFAM.