TP5 : Alignement multiple local

Une grande partie du TP a été réalisé grâce à des exercices fournis par Maude Pupin, Hélène Touzet et Jean-Stéphane Varré.

I. Modélisation des motifs biologiques

Ces exercices portent sur l'étude de motifs biologiques que ce soit dans les séquences ADN ou protéiques. Le fil conducteur de ce TP est l'étude d'une famille de facteurs de transcription qui possèdent un motif de type "basic leucine zipper" (bZIP). On notera que les protéines humaines appartenant à cette famille sont peu conservées.
Flèche vers le haut

I-1. Détermination d'un motif caractéristique d'une famille de protéines

Il existe plusieurs représentations possibles pour un motif biologique (ex : pseudo-expression régulière, profile, HMM, alignement, ...). Nous allons essayer de construire un motif de type pseudo-expression régulière sur les 43 protéines suivantes :
Déterminer les positions approximatives de début et de fin de la région conservée entre les séquences de cette famille.
Trouvez l'entrée Prosite correspondant au motif bZIP. (détail pratique sur la signification des accolades : {S} signifie que l'on ne veut pas de résidu S à cette position)
Recopiez l'expression régulière modélisant le motif.
Flèche vers le haut

I-2. Lecture de l'alignement à l'aide de WebLogo

Pour identifier plus facilement la conservation des colonnes, il est possible d'utiliser la représentation WebLogo.
Collez l'alignement multiple donné précédemment au format FASTA.
Pour une meilleure lisibilité des résultats, nous allons limiter l'affichage à la région qui contient le motif bZIP à l'aide de l'option "Logo Range:" (positions définies précédemment). De plus, nous allons doubler la taille de l'image en indiquant les valeurs "PNG (high res)" pour Output format, "large" pour "Logo Size" et 15 pour "Stacks per Line".
Est-ce que des colonnes bien conservées sont visibles ?
Est-ce que l'on retrouve plus facilement l'expression régulière bZIP dans cette représentation ?
Est-ce qu'une amélioration de l'alignement peut être envisagée pour se rapprocher du motif bZIP ?
Gardez cette image ouverte.
Flèche vers le haut

I-3. Retour à l'alignement

Lorsque l'on observe le WebLogo de la partie conservées de l'alignement, on remarque des colonnes qui pourraient être corrigées. Par exemple, le début de l'expression régulière de bZIP indique un K ou un R suivit d'une à trois positions non conservées. Or, les colonnes 675 et 676 contiennent toutes les deux un grand nombre de K et de R. Il est possible que le décalage de certaines colonnes puisse permettre de regrouper les K et les R ensemble.
Installez le logiciel SeaView sur votre ordinateur. C'est un visualisateur et un éditeur d'alignement multiple.
Vous pouvez ouvrir le fichier de l'alignement multiple au format FASTA des séquences de la famille bZIP dans cet éditeur.
Essayer de modifier l'alignement multiple afin de mieux respecter l'expression régulière de bZIP (ne passez pas trop de temps sur cette tâche).
Est-ce une tâche facile et rapide à faire ?
Flèche vers le haut

I-4. Méthode d'extraction d'un motif

Pratt recherche des motifs communs à un ensemble de séquences ADN ou protéiques non alignées, sous la forme de pseudo-expressions régulières.
Lancez Pratt sur les séquences de la famille bZIP.
Est-ce que Pratt retrouve des motifs qui vous semblent pertinents par rapport à ce qu'il peut être vu à l'aide de WebLogo (l'alignement) ? Attention, les motifs d'intérêt trouvés par Pratt se situent dans la seconde partie du résultat affiché.
Est-ce que l'expression régulière de bZIP est au moins partiellement trouvée par Pratt ?
Flèche vers le haut

I-5. Vérification de la qualité d'un motif

Pour vérifier si un motif est bien caractéristique d'une famille de séquences, il faut le tester contre une banque de séquences protéiques. Le plus simple est de choisir SwissProt, la banque de protéines annotées par des experts car la fonction des protéines est donnée systématiquement et est fiable. Les résultats attendus pour un bon motif sont :
  • il retrouve toutes les séquences de la famille considérée (ou presque),
  • il ne retrouve aucune séquence d'une autre famille (ou presque).
Nous allons tester le bon comportement des motifs trouvés par Pratt. Le site ScanProsite permet non seulement d'étudier une séquence protéique en cherchant les motifs de la banque Prosite qu'elle contient ; mais aussi de rechercher une expression régulière (même syntaxe que Pratt) sur toutes les protéines de SwissProt. La zone de recherche de motif est à droite.
Testez le meilleur site déterminé par Pratt contre la banque SwissProt, limitée aux séquences qui proviennent de l'homme (option "Taxonomic lineage (OC) / species (OS) filter:"). Dans la partie "General options" (à gauche), choisissez le mode "Plain text" pour accélérer l'affichage des résultats.
Combien d'entrées sont trouvées ?
Est-ce plus ou moins que le nombre de protéines humaines ayant l'expression régulière bZIP ?
Est-ce que l'on retrouve uniquement des séquences ayant la fonction facteur de transcription à motif bZIP ?
Par défaut, Pratt recherche des motifs conservés dans toutes les séquences données en entrée. Mais, les motifs les plus pertinents ne sont pas toujours bien conservés dans l'ensemble des séquences de départ. Si l'on diminue le "pourcentage minimum de séquences à apparier" à 80 %, voici les résultats obtenus.
Est-ce les motifs trouvés semblent plus pertinents que ceux trouvés avec 100 % des séquences à apparier ?
Relancer une recherche du meilleur motif trouvé par Pratt dans les séquences humaines de SwissProt (n'oubliez pas de prendre celui de la liste "Best Patterns (after refinement phase):").
Est-ce que la qualité du motif est meilleure ?
Est-ce que les nouveaux motifs trouvés par Pratt correspondent au moins en partie au motif Prosite ?
Flèche vers le haut

II. Étude d'un site de fixation de facteur de transcription

Maintenant que nous avons étudié les protéines, nous allons étudier le site de fixation d'un facteur de transcription de la famille bZIP : AP1_human.

II-1. Recherche de sites validés expérimentalement

Nous allons rechercher dans la banque EMBL, à l'aide du formulaire ÉTENDU de SRS, des sites de fixation de AP1 qui ont été déterminés expérimentalement. Pour cela, nous allons effectuer deux requêtes que nous allons ensuite combiner.
Dans un premier temps, recherchez toutes les sous-entrées humaines dont le champ FtKey a pour valeur protein_bind, le champ FtQualifier a pour valeur bound_moiety et le champ FtDescription a pour valeur AP-1, c'est-à-dire les sous-entrées qui correspondent aux séquences reconnues par le facteur AP-1.
Dans un deuxième temps, recherchez toutes les sous-entrées humaines dont le champ FtKey a pour valeur protein_bind, le champ FtQualifier a pour valeur experiment, et le champ FtDescription a pour valeur experimental, c'est-à-dire les sous-entrées qui correspondent aux séquences reconnues par une protéine et déterminées expérimentalement.
Pour finir, combinez ces deux requêtes à l'aide de l'opérateur approprié, dans la page d'historique (onglet "Results").
Vous devez obtenir 19 séquences.
Notez la position du site AP-1 dans l'entrée AF077374 car nous allons étudier cette entrée par la suite.
Flèche vers le haut

II-2. Détermination d'une expression régulière représentant le site

Nous allons construire manuellement une expression régulière représentant ce site de fixation.
Pour cela, lancez un alignement multiple (NClustalW puis "Launch") sur les séquences à l'aide de SRS (si trop long : séquences).
Faites le WebLogo à partir de l'alignement en demandant également d'agrandir l'image pour une meilleure lisibilité.
Est-ce que le motif est bien conservé sur toutes les positions ?
Quelle expression régulière peut-on définir à partir de cette représentation ?
Flèche vers le haut

II-3. Recherche de l'expression régulière déterminée

Pour rechercher l'expression régulière déterminée à partir du WebLogo contre le l'entrée AF077374 qui contient un site de fixation AP-1 déterminé expérimentalement, nous allons utiliser le logiciel Fuzznuc (lien vers le portail "Mobyle" de l'institut Pasteur, entrez fuzznuc puis search pour accéder à l'interface)
Vous pouvez lancer Fuzznuc avec votre expression régulière du type Prosite et préciser qu'elle est recherchée contre l'entrée AF077374 de la banque embl. Précisez également que la recherche doit être faite sur les deux brins ("Search complementary strand").
Combien de fois l'expression régulière est trouvée dans l'entrée ?
Est-ce que le site déterminé expérimentalement a été trouvé ?
Si ce n'est pas le cas, recherchez quelle en est la raison et modifiez l'expression régulière pour le trouver.
Combien de sites trouvez-vous à présent ?
Flèche vers le haut

II-4. Construction et recherche d'un profil

La représentation d'un site est plus fiable si l'on passe par un profil plutôt qu'une expression régulière. Sur le site de l'institut Pasteur (ou ailleurs avec ces mêmes logiciels) construisez un profil du type Gribskov à partir de l'alignement à l'aide de Prophecy. Une fois le profil créé, vous pouvez le rechercher dans l'entrée AF077374 à l'aide de Prophet.
Quelle est la taille du profil construit ?
Est-il plus long que l'expression régulière ? Pourquoi ?
Combien de fois le profil est trouvé dans la séquence de l'entrée ?
Est-ce que le profil est plus stringeant (strict) que l'expression régulière ?
Est-ce que tous les sites trouvés par le profil sont également trouvés par l'expression régulière ?
Est-ce que le site déterminé expérimentalement est trouvé par le profil ?
D'après vous pourquoi ?
Que faudrait-il faire pour y remédier ?