I. Modélisation des motifs biologiques
Ces exercices portent sur l'étude de motifs biologiques que ce soit
dans les séquences ADN ou protéiques. Le fil conducteur de ce TP est
l'étude d'une famille de facteurs de transcription qui possèdent un
motif de type "basic leucine zipper" (bZIP). On notera que les
protéines humaines appartenant à cette famille sont peu conservées.
I-1. Détermination d'un motif caractéristique d'une famille de protéines
Il existe plusieurs représentations possibles pour un motif
biologique (ex : pseudo-expression régulière, profile, HMM,
alignement, ...). Nous allons essayer de construire un motif de type
pseudo-expression régulière sur les 43 protéines suivantes :
Déterminer les positions approximatives de début et de fin de la région
conservée entre les séquences de cette famille.
Trouvez l'entrée
Prosite correspondant au
motif bZIP. (détail pratique sur la signification des accolades :
{S} signifie que l'on ne veut pas de résidu S à cette position)
Recopiez l'expression régulière modélisant le motif.
I-2. Lecture de l'alignement à l'aide de WebLogo
Pour identifier plus facilement la conservation des colonnes, il est
possible d'utiliser la représentation
WebLogo.
Collez l'alignement multiple donné précédemment au format
FASTA.
Pour une meilleure lisibilité des résultats, nous allons
limiter l'affichage à la région qui contient le motif bZIP à l'aide de
l'option "Logo Range:" (positions définies précédemment). De plus,
nous allons doubler la taille de l'image en indiquant les valeurs "PNG (high res)" pour Output format, "large" pour "Logo Size" et 15 pour "Stacks per Line".
Est-ce que des colonnes bien conservées sont visibles ?
Est-ce que l'on retrouve plus facilement l'expression régulière bZIP dans
cette représentation ?
Est-ce qu'une amélioration de l'alignement peut être envisagée pour se
rapprocher du motif bZIP ?
Gardez cette image ouverte.
I-3. Retour à l'alignement
Lorsque l'on observe le WebLogo de la partie conservées de
l'alignement, on remarque des colonnes qui pourraient être
corrigées. Par exemple, le début de l'expression régulière de bZIP
indique un K ou un R suivit d'une à trois positions non conservées.
Or, les colonnes 675 et 676 contiennent toutes les deux un grand
nombre de K et de R. Il est possible que le décalage de certaines
colonnes puisse permettre de regrouper les K et les R ensemble.
Installez le logiciel
SeaView sur votre ordinateur. C'est un
visualisateur et un éditeur d'alignement multiple.
Vous pouvez ouvrir le fichier de l'
alignement multiple au format FASTA
des séquences de la famille bZIP dans cet éditeur.
Essayer de modifier l'alignement multiple afin de mieux respecter
l'expression régulière de bZIP (ne passez pas trop de temps sur
cette tâche).
Est-ce une tâche facile et rapide à faire ?
I-4. Méthode d'extraction d'un motif
Pratt
recherche des motifs communs à un ensemble de séquences ADN ou
protéiques non alignées, sous la forme de pseudo-expressions
régulières.
Lancez Pratt sur les séquences de la famille bZIP.
Est-ce que Pratt retrouve des motifs qui vous semblent pertinents
par rapport à ce qu'il peut être vu à l'aide de WebLogo
(l'alignement) ? Attention, les motifs d'intérêt trouvés par
Pratt se situent dans la seconde partie du résultat affiché.
Est-ce que l'expression régulière de bZIP est au moins
partiellement trouvée par Pratt ?
I-5. Vérification de la qualité d'un motif
Pour vérifier si un motif est bien caractéristique d'une famille de
séquences, il faut le tester contre une banque de séquences
protéiques. Le plus simple est de choisir SwissProt, la banque de
protéines annotées par des experts car la fonction des protéines est
donnée systématiquement et est fiable. Les résultats attendus pour un
bon motif sont :
- il retrouve toutes les séquences de la
famille considérée (ou presque),
- il ne retrouve aucune séquence
d'une autre famille (ou presque).
Nous allons tester le bon comportement des motifs trouvés par Pratt.
Le site
ScanProsite permet non seulement d'étudier une
séquence protéique en cherchant les motifs de la banque Prosite
qu'elle contient ; mais aussi de rechercher une expression régulière
(même syntaxe que Pratt) sur toutes les protéines de SwissProt.
La zone de recherche de motif est à droite.
Testez le meilleur site déterminé par Pratt contre la banque
SwissProt, limitée aux séquences qui proviennent de l'homme (option
"Taxonomic lineage (OC) / species (OS) filter:"). Dans la
partie "General options" (à gauche), choisissez le mode
"Plain text" pour accélérer l'affichage des résultats.
Combien d'entrées sont trouvées ?
Est-ce plus ou moins que le nombre de protéines humaines ayant
l'expression régulière bZIP ?
Est-ce que l'on retrouve uniquement des séquences ayant la fonction
facteur de transcription à motif bZIP ?
Par défaut, Pratt recherche des motifs conservés dans toutes les
séquences données en entrée. Mais, les motifs les plus pertinents ne
sont pas toujours bien conservés dans l'ensemble des séquences de
départ. Si l'on diminue le "pourcentage minimum de séquences à
apparier" à 80 %,
voici
les résultats obtenus.
Est-ce les motifs trouvés semblent plus pertinents que ceux trouvés
avec 100 % des séquences à apparier ?
Relancer une recherche du meilleur motif trouvé par Pratt dans les
séquences humaines de SwissProt (n'oubliez pas de prendre celui de
la liste "Best Patterns (after refinement phase):").
Est-ce que la qualité du motif est meilleure ?
Est-ce que les nouveaux motifs trouvés par Pratt correspondent au
moins en partie au motif Prosite ?
II. Étude d'un site de fixation de facteur de transcription
Maintenant que nous avons étudié les protéines, nous allons
étudier le site de fixation d'un facteur de transcription de la
famille bZIP : AP1_human.
II-1. Recherche de sites validés expérimentalement
Nous allons rechercher dans la banque EMBL, à l'aide du formulaire
ÉTENDU de
SRS, des sites de fixation de AP1 qui ont été
déterminés expérimentalement. Pour cela, nous allons effectuer deux
requêtes que nous allons ensuite combiner.
Dans un premier temps, recherchez toutes les sous-entrées humaines
dont le champ FtKey
a pour valeur
protein_bind
, le champ FtQualifier
a pour
valeur bound_moiety
et le champ
FtDescription
a pour valeur AP-1
,
c'est-à-dire les sous-entrées qui correspondent aux séquences
reconnues par le facteur AP-1.
Dans un deuxième temps, recherchez toutes les sous-entrées humaines
dont le champ FtKey
a pour valeur
protein_bind
, le champ FtQualifier
a pour
valeur experiment
, et le champ FtDescription
a pour valeur experimental
, c'est-à-dire les sous-entrées
qui correspondent aux séquences reconnues par une protéine et
déterminées expérimentalement.
Pour finir, combinez ces deux requêtes à l'aide de l'opérateur
approprié, dans la page d'historique (onglet "Results").
Vous devez obtenir 19 séquences.
Notez la position du site AP-1 dans l'entrée AF077374 car nous allons
étudier cette entrée par la suite.
II-2. Détermination d'une expression régulière représentant le site
Nous allons construire manuellement une expression régulière
représentant ce site de fixation.
Pour cela, lancez un alignement
multiple (NClustalW puis "Launch") sur les séquences à l'aide de SRS
(si trop long :
séquences).
Faites le
WebLogo
à partir de l'alignement en demandant également d'agrandir l'image pour une meilleure lisibilité.
Est-ce que le motif est bien conservé sur toutes les positions ?
Quelle expression régulière peut-on définir à partir de cette
représentation ?
II-3. Recherche de l'expression régulière déterminée
Pour rechercher l'expression régulière déterminée à partir du WebLogo
contre le l'entrée AF077374 qui contient un site de fixation AP-1
déterminé expérimentalement, nous allons utiliser le logiciel
Fuzznuc (lien vers le portail "Mobyle" de l'institut Pasteur, entrez fuzznuc puis
search pour accéder à l'interface)
Vous pouvez lancer Fuzznuc avec votre expression régulière du type
Prosite et préciser qu'elle est recherchée contre l'entrée
AF077374
de la banque embl
. Précisez
également que la recherche doit être faite sur les deux brins ("Search
complementary strand").
Combien de fois l'expression régulière est trouvée dans l'entrée ?
Est-ce que le site déterminé expérimentalement a été trouvé ?
Si ce n'est pas le cas, recherchez quelle en est la raison et modifiez
l'expression régulière pour le trouver.
Combien de sites trouvez-vous à présent ?
II-4. Construction et recherche d'un profil
La représentation d'un site est plus fiable si l'on passe par un
profil plutôt qu'une expression régulière. Sur le site de l'institut
Pasteur (ou ailleurs avec ces mêmes logiciels) construisez un profil
du type Gribskov à partir de l'alignement à l'aide de
Prophecy. Une fois le profil créé, vous pouvez le rechercher
dans l'entrée AF077374 à l'aide de
Prophet.
Quelle est la taille du profil construit ?
Est-il plus long que l'expression régulière ? Pourquoi ?
Combien de fois le profil est trouvé dans la séquence de l'entrée ?
Est-ce que le profil est plus stringeant (strict) que l'expression
régulière ?
Est-ce que tous les sites trouvés par le profil sont également
trouvés par l'expression régulière ?
Est-ce que le site déterminé expérimentalement est trouvé par le
profil ?
D'après vous pourquoi ?
Que faudrait-il faire pour y remédier ?