I. Les banques de données
Nous allons visiter le site web de l'institut Pasteur (
http://www.pasteur.fr/). Ce site
offre beaucoup de ressources, ajoutez-le à vos marques-pages.
Cliquez sur l'onglet 'Recherche' et trouvez
les banques de séquences disponibles à l'institut Pasteur.
Quelles sont les 5 catégories de banques proposées ?
Dans la catégorie "Genome databanks", quels sont les génomes proposés ?
Que se passe-t-il si on clique sur le nom d'une banque ?
Quelle est la fréquence des mises à jour de la banque EMBL sur l'Institut Pasteur ?
À partir du lien "Other informations", rendez-vous sur la banque PDB.
Quelle est la spécialité de PDB ?
Faites une recherche avec le mot "hemoglobin". Vous devez trouver comme premier lien "1o1i". Cliquez sur l'icone en forme d'oeil.
Pouvez-vous faire pivoter la molecule ?
Essayer la molette de votre souris.
Rentrez dans la fiche.
En quelle année a été déposée cette séquence ?
Par quelle méthode a-t-elle été déterminée ?
Quelle est sa fonction ?
De quelle organisme provient-elle ?
Cliquez sur "QuickPDB" en dessous de l'image de la molécule. Colorez les 2 chaînes de l'hémoglobine avec des couleurs différentes.
Passez votre souris sur l'image, qu'est ce qui apparaît ?
Que signifie le chiffre ?
Que se passe-t-il si vous cliquez ?
Passez maintenant la souris sur la séquence protéique, que ce passe-t-il sur le dessin ?
Cochez (à gauche de l'image) les 2 chaînes, faites apparaître les résidus aromatiques.
Quels mots-clés sont utilisés dans les flatfiles de la PDB ? Citez-eb quelques-uns.
La PDB présente beaucoup d'autres fonctionnalités que nous n'auront pas le temps d'explorer aujourd'hui. Gardez tout de même cette page ouverte. Ouvrez une nouvelle fenêtre et revenez sur la page des banques disponibles à Pasteur.
Allez dans la catégorie "Other databanks", nous allons nous intéresser à PFam. Rendez-vous sur cette base de donnée par les liens de Pasteur. On vous propose d'aller sur la nouvelle version du site, allez-y.
PFam est une banque de quel type ?
Quelle est la version actuelle de PFam ?
Combien de familles contient-elle ?
Faites une recherche avec le mot "hemoglobin". Combien de résultats trouvez-vous ?
La séquence que nous avons vu tout à l'heure dans la PDB fait-elle partie d'une famille de cette liste ?
Quel est son numéro ? (vous pourrez répondre à cette question à la fin du TP)
Explorez la fiche PFam de la famille PF00042 : alignement, architecture des domaines, arbre phylogénétique, lien vers les autres banques ...
II. Interrogation de banques de données via Entrez
Dans cet exercice, nous allons utiliser
Entrez qui
est l'interface d'interrogation développée au NCBI. Elle a l'avantage de pouvoir
faire des requêtes simples, mais aussi des requêtes complexes quand on sait
l'utiliser.
La page d'accueil propose d'interroger en même temps toutes les
banques accessibles via Entrez. En cliquant sur le nom d'une
banque, on accède alors à l'interface d'interrogation classique qui
comprend une zone de saisie des critères de recherche (zone texte
"for") et, juste en dessous sous forme d'onglets, des liens vers des
fonctionnalités du système d'interrogation.
Le lien "History" affiche toutes les requêtes effectuées depuis le
début de votre session sur la banque, c'est-à-dire depuis votre
connection à cette banque. Il est possible d'accéder à la liste des
entrées qui répondent à une requête en cliquant sur le lien du nombre
d'entrées trouvées.
II-1. Recherche simple
Pour commencer, nous allons interroger la
banque appelée "NucleotideCore". Sur la première page de cette banque,
il est indiqué d'où proviennent ses données.
Quelles sont les banques qui composent la banque
"Nucleotide" ?
Recherchez toutes les séquences humaines
contenues dans cette banque.
Combien d'entrées sont trouvées ?
Les entrées obtenues sont présentées
sous la forme d'une liste. La ligne de description de l'entrée
est indiquée.
Que contiennent les entrées présentes sur la
première page ?
En cliquant sur le lien d'une entrée, on
obtient l'entrée entière au format GenBank.
Est-ce que ces entrées ont une annotation
détaillée (par exemple, le nom et la position d'exons, ...) ?
Est-ce
que vous trouvez des entrées en saisissant l'expression "homo
spaiens" qui contient une erreur de frappe ?
Malheureusement, quelques entrées
contiennent une erreur de frappe sur l'expression "homo
sapiens". Vous constaterez que l'erreur n'apparaît pas dans la ligne
OS qui est spécifique au nom d'organisme. Il est tout-de-même
vérifié que l'organisme indiqué existe bien. Par contre, les
commentaires librement saisis par les laboratoires qui soumettent
les séquences ne peuvent pas être vérifiés. Il s'y glisse donc des
erreurs de ce type.
II-2. Utilisation d'opérateurs booléens
Lorsque plusieurs termes sont recherchés, il
est possible de les combiner à l'aide des opérateurs booléens :
- AND : les deux termes sont tous les deux dans les entrées.
- OR : au moins un des deux termes est dans l'entrée.
- NOT : le premier terme doit être présent dans les entrées et
les entrées qui contiennent le deuxième sont exclues.
Note : dans Entrez, les opérateurs doivent obligatoirement être saisis en
majuscules pour être reconnus.
Pour voir l'influence des opérateurs, nous
allons effectuez, successivement, quatre requêtes :
- trinucleotide repeat
- trinucleotide AND repeat
- trinucleotide OR repeat
- trinucleotide NOT repeat
Pour chaque requête, notez le nombre d'entrées trouvées et consultez
une ou deux des entrées trouvées (essayez de ne pas prendre une
entrée de génome car elles sont très grandes et donc longues à
afficher). Recherchez dans ces entrées le mot "trinucleotide" et le
mot "repeat" à l'aide du menu "Edition->Rechercher sur la page" de
votre navigateur ou simplement avec "Ctrl-F".
Est-ce que les deux termes sont bien dans
l'entrée ?
Est-ce qu'ils sont côte à côte ?
D'après les résultats trouvés, calculez le
nombre d'entrées possédant uniquement le terme "trinucleotide",
uniquement le terme "repeat" et les deux termes en même temps.
Dans l'onglet 'Details' vous pourrez comprendre comment vos requêtes sont traduites
Quelle est la différence entre la première et
la seconde requête (avec ou sans AND) ?
II-3. Combinaison de plusieurs requêtes
Le lien "history" qui se trouve sous la
zone de saisie affiche toutes les requêtes effectuées depuis votre
connection à la banque. Chaque requête porte un numéro (#1, #2,
...). Il est possible de croiser le résultat de plusieurs requêtes en
utilisant leur numéro. Par exemple, "#1 AND #2" correspond à
l'ensemble des entrées qui vérifie à la fois les critères de la
requête #1 et ceux de la requête #2.
Recherchez les séquences humaines soit à
l'aide du nom usuel "human", soit à l'aide du nom latin "homo
sapiens".
Est-ce que le nombre d'entrées trouvées change entre
les deux ?
Est-ce que le nom usuel apparaît bien dans la ligne
"SOURCE" (équivalente à la ligne "OS" de l'EMBL) ?
À l'aide de l'historique, affichez les entrées qui ne contiennent que le nom
usuel.
Est-ce que ces entrées proviennent du génome humain ?
Dans au moins une de ces entrées, regardez où apparaît le nom usuel.
Est-ce qu'il vaut mieux faire une interrogation par le nom latin ou le nom
usuel ?
II-4. Réduction du nombre de réponses
Beaucoup d'entrées répondent à la requête
"homo sapiens". Lorsque l'on regarde au hasard quelques pages de
résultats, on voit qu'il y a des séquences de fragments de génomes,
d'EST, de brevets (Patent), ... Toutes ces séquences ne sont pas très
intéressantes à étudier, sauf dans des cas particuliers. Pour réduire
le nombre d'entrées trouvées, on peut utiliser le lien "Limits" qui se
trouve en-dessous de la zone de saisie. Ce lien mène à un formulaire
qui propose plusieurs options permettant de réduire le nombre
d'entrées trouvées sur des critères tels que la date d'entrée de la
séquence dans la banque, si la séquence est issue du génome nucléaire,
mitochondrial ou chloroplastique, ... Parmi ces options, il y a la
possibilité d'exclure les séquences de type EST (Expressed Sequence
Tag, fragments d'ARNm), STS (fragments de génomes), ... .
Cochez ces 2 options et relancez la requête sur "homo sapiens". Cela
doit réduire considérablement le nombre d'entrées trouvées.
Consultez la page de résultats numéro 45000 en utilisant la zone de saisie à côté du
bouton "Page".
Est-ce que toutes les séquences de cette page proviennent de l'humain ?
Si non, où "homo sapiens" apparaît dans l'entrée qui ne provient pas de
l'humain ?
Il y a une entrée qui ne provient pas de l'humain, "homo sapiens" apparaît dans
les commentaires de cette entrée. Par défaut, les termes d'une requête sont
recherchés dans l'ensemble de l'entrée. Pour faire des recherches plus
pertinentes, il faut préciser le champ dans lequel les termes sont recherchés.
II-5. Interrogation des champs
Le lien "Preview/Index" en-dessous de la zone
de saisie donne accès à la liste des champs interrogeables de la
banque de données.
Recherchez dans la liste des champs, celui
qui permet de limiter les entrées à celle qui proviennent de
l'Homme. Saisissez "homo sapiens" dans la zone de saisie qui se trouve
à côté de la liste des champs. Le bouton "Preview" construit la bonne
requête automatiquement.
Quelle est la synthaxe utilisée pour
interroger un champ ?
Combien d'entrées trouvez-vous à présent
?
Dans Entrez, pour interroger un champ il faut indiquer la valeur du champ
entre crochets après la valeur. Ex : homo sapiens [organism].
II-6. Changement du format d'affichage
Le menu déroulant à côté du bouton "Display" propose plusieurs formats
d'affichage des entrées et de la liste de résultats. Le format par défaut
est "Summary".
Recherchez les gènes (ou ARNm) qui codent pour une protéine ayant une fonction
dikinase, chez Arabidopsis thaliana. Vous devez trouvez moins d'une
dizaine d'entrées.
Est-ce que les entrées trouvées sont redondantes ou correspondent à des gènes
différents ?
Il y a plusieurs exemplaires de fragments de chromosomes issus du séquençage
de A. thaliana car l'assemblage du génome complet n'est pas encore
achevé.
Affichez l'entrée d'un des ARNm trouvés. Enregistrez l'entrée à l'aide du menu
"Enregistrer sous" de votre navigateur. Ouvrez le fichier ainsi enregistré.
Quel est le type (l'extension) de ce fichier
?
Changez le format d'affichage en "Graph" (ou "Graphics"), à l'aide du bouton "Display" et
du menu déroulant associé. Cet affichage est très apréciable pour visualiser
de grandes entrées.
Changez l'affichage au format FASTA, mais en demandant directement
l'enregistrement dans un fichier à l'aide du bouton "send to".
Quelle solution vous semble la plus simple pour enregistrer votre séquence au format FASTA ?
II-7. Clipboard et liens pour chaque séq.
On peut sauver temporairement des entrées d'une ou plusieurs recherches en utilisant le Clipboard. Attention cependant car le Clipboard est perdu après 8 heures d'inactivité
Retournez dans une de vos recherches, selectionnez 1 séquence et envoyer là sur le clipboard à l'aide du bouton "Send to". Un message apparaît pour vous indiquez le nombre de séquence ajouté au Clipboard.
Quel symbole est apparu dans l'onglet Clipboard ?
Sauvez d'autres séquences d'autres recherches, puis rendez-vous dans votre Clipboard.
Explorer les liens sur la même ligne que les noms des séquences ('Reports', 'Links', ...).
En cliquant sur 'Links', on obtient une liste de base de données qui sont liées à cette entrée. En cliquant sur 'Reports', on obtient une liste de format de donnée. D'autre liens sont également disponibles selon les entrée : 'Revision History', 'BLink', 'Conserved Domains'.
III. SRS
Il existe de nombreux sites SRS, nous allons utiliser celui de l'
EBI.
III-1. Requête simple
Le formulaire de la page d'accueil permet uniquement de faire des requêtes
simples, c'est-à-dire la saisie de texte libre (équivalent de ce que
propose Entrez, si on ne précise pas de nom de champ).
Comme dans l'exercice précédent, vous pouvez rechercher l'ensemble des entrées de la
banque nucléotidique qui contiennent "homo sapiens" dans leur texte.
III-2. Interrogation des champs
SRS propose deux formulaires ("standard" et "extended") pour construire des
requêtes avec interrogation des champs et utilisation d'opérateurs booléens :
ET (noté "&"), OU (noté "|") et NON (noté "!").
Pour accéder aux formulaires, il faut commencer par choisir la ou les
banques interrogées. Pour cela, cliquez sur l'onglet "Library Page". Vous obtenez alors la liste des banques
interrogeables via SRS. Les banques interrogées sont sélectionnées en cliquant
sur les cases à cocher situées à droite de leur nom.
Ensuite, on accède aux formulaires d'interrogation, en cliquant
sur les boutons rouges ("Standard Query Form" ou "Extended Queery Form"). Ces boutons
se situent dans le bandeau gris, sur la gauche de la page.
Pour commencer, nous allons interroger la banque de séquences nucléotidiques
EMBL, à l'aide du formulaire standard. Recherchez un gène appelé Acam en tapant
la valeur "Acam" dans le champ "Features:Gene".
Combien d'entrées sont trouvées ?
Afficher les résultats avec la vue "EMBLFeatView".
Quelles sont les fonctions des protéines codées par les gènes Acam ?
Est-ce que des gènes qui portent le même nom codent pour des protéines
qui ont la même fonction ?
Consultez les entrées pour voir où l'information du nom de gène est donnée.
Nous allons maintenant interroger la banque de séquences protéiques UniProtKB,
toujours à l'aide du formulaire standard.
Recherchez cette fois-ci les protéines
codées par un gène appelé Acam.
Quel est le nom du champ à interroger ?
Combien d'entrées trouvez-vous ?
Essayer avec Acam3, combien d'entrées trouvez-vous ?
Aucune entrée n'est trouvée. En fait, même si le nom de gène "Acam3" apparaît
dans 1 entrée d'arabidopsis de la banque EMBL, ce nom de gène n'a pas été reporté dans les
entrées protéiques. Pour trouver les protéines codées par des entrées de l'EMBL,
le plus simple est d'utiliser les liens entre banques.
III-3. Liens entre banques, à partir d'une requête
L'onglet "Results" donne accès à l'historique des requêtes effectuées depuis
le début de la session. À partir de cette page, plusieurs actions peuvent être
faites sur les requêtes.
Pour faire un lien d'une requête vers une autre banque, cliquez sur la case
à cocher à côté de la requête qui porte sur le gène Acam dans l'EMBL. Puis,
cliquez sur le bouton "Link". Il apparaît alors la liste des banques présentes
dans SRS. Comme on recherche les protéines codées par les entrées EMBL dans UniProtKB, il
faut cocher "UniProtKB" et cliquer sur le bouton "search" pour lancer le lien.
Combien d'entrées trouvez-vous ?
Ce nombre correspond-il à ce à quoi l'on s'attend ?
Quels sont les noms de gènes indiqués dans les entrées protéiques ?
Le champ gène d'Arabidopsis thaliana donne
plusieurs noms car trois gènes codent pour la même séquence protéique.
III-4. Création d'une vue
Dans SRS, il est possible de changer le
format d'affichage d'une entrée, mais aussi celui d'une liste de
résultats. Plusieurs formats sont proposés dans un menu déroulant
situé au bas du bandeau de gauche, dans la partie "Display
options".
Il est également possible de créer sa propre vue, si
l'on a besoin d'afficher des informations particulières. Pour accéder
à la création de vue, il faut aller dans l'onglet "Views".
Nous allons créer une vue. Nous l'utiliserons un peu plus tard. Cette vue va
afficher le champ description et le champ organism de la banque EMBL, pour
les listes de résultats.
Voici la démarche à suivre :
- Choisir la banque "EMBL" dans la liste située en dessous du texte
"Databanks to define a view for"
- Saisir le nom "EMBLorg" dans la zone de texte du bandeau de gauche
("View name").
- Lancer l'affichage de la liste des champs à l'aide du bouton "Create new
view"
- Cocher la case à gauche des champs "Description" et "Organism".
- Valider la vue à l'aide du bouton "Save" situé dans le bandeau de
gauche
- Le formulaire de création de vue apparaît de nouveau, votre vue est
créée.
La vue est maintenant accessible
via le menu déroulant lié au bouton "View" qui
apparaît dans le bandeau de gauche dans différents écrans de SRS.
III-5. Sous-entrées
Dans une entrée de l'EMBL, il peut y avoir
plusieurs objets biologiques. Notamment, les entrées qui
correspondent à des fragments de génomes contiennent plusieurs
gènes. Or, on a souvent besoin d'extraire la séquence d'un gène
particulier pour travailler dessus. Le découpage en sous-entrées
permet d'isoler la séquence et l'annotation d'objet biologique
particulier. L'affichage des sous-entrées est accessible
via le formulaire étendu.
Nous allons interroger la banque EMBL, à l'aide du formulaire
étendu. En faisant la requête suivante, vous allez afficher les gènes
hns de Yersinia pertis :
- Champ : "Organism name" ; saisie : "yersinia pestis"
- Champ : "FtKey" (sous-entrée : "Features") ; valeur "cds" sélectionnée
dans la liste
- Champ : "Gene" (sous-entrée : "Features") ; saisie : "hns"
Vous devez obtenir 4 sous-entrées qui correspondent à la séquence codant pour
hns chez
Yersinia pestis.
Quelle est la taille de ces séquences ?
Dans les sous-entrées, il n'apparaît pas le
nom de l'organisme dont est issue la séquence ou d'autres informations
plus générales. Cette information est dans les entrées entières. Pour
accéder à ces entrées, on peut soit utiliser le lien "parent" présent
dans chaque sous-entrée, soit utiliser les liens pour accéder à toutes
les entrées en même temps.
À l'aide des liens, affichez les
quatre entrées entières. Il y a une option "To Parent Entry" dans la
page qui donne la liste des banques pour choisir vers lesquelles on
veut faire le lien.
Nous allons afficher cette liste de
résultats à l'aide de la vue que l'on a créée précédemment. Pour cela,
il suffit de sélectionner notre vue dans le menu déroulant de la
partie "Display options" dans bandeau gris et de cliquer sur le bouton
"Apply display options".
Est-ce que les quatre gènes trouvés
proviennent du même organisme ?
Est-ce que les gènes hns
sont dans une entrée qui leur est propre ?