TP1 : Banques de données

Ce TP a été réalisé grâce à la fusion de 2 TP proposés par Maude Pupin.

I. Les banques de données

Nous allons visiter le site web de l'institut Pasteur (http://www.pasteur.fr/). Ce site offre beaucoup de ressources, ajoutez-le à vos marques-pages.
Cliquez sur l'onglet 'Recherche' et trouvez les banques de séquences disponibles à l'institut Pasteur.
Quelles sont les 5 catégories de banques proposées ?
Dans la catégorie "Genome databanks", quels sont les génomes proposés ?
Que se passe-t-il si on clique sur le nom d'une banque ?
Quelle est la fréquence des mises à jour de la banque EMBL sur l'Institut Pasteur ?
À partir du lien "Other informations", rendez-vous sur la banque PDB.
Quelle est la spécialité de PDB ?
Faites une recherche avec le mot "hemoglobin". Vous devez trouver comme premier lien "1o1i". Cliquez sur l'icone en forme d'oeil.
Pouvez-vous faire pivoter la molecule ?
Essayer la molette de votre souris.
Rentrez dans la fiche.
En quelle année a été déposée cette séquence ?
Par quelle méthode a-t-elle été déterminée ?
Quelle est sa fonction ?
De quelle organisme provient-elle ?
Cliquez sur "QuickPDB" en dessous de l'image de la molécule. Colorez les 2 chaînes de l'hémoglobine avec des couleurs différentes.
Passez votre souris sur l'image, qu'est ce qui apparaît ?
Que signifie le chiffre ?
Que se passe-t-il si vous cliquez ?
Passez maintenant la souris sur la séquence protéique, que ce passe-t-il sur le dessin ?
Cochez (à gauche de l'image) les 2 chaînes, faites apparaître les résidus aromatiques.
Quels mots-clés sont utilisés dans les flatfiles de la PDB ? Citez-eb quelques-uns.
La PDB présente beaucoup d'autres fonctionnalités que nous n'auront pas le temps d'explorer aujourd'hui. Gardez tout de même cette page ouverte. Ouvrez une nouvelle fenêtre et revenez sur la page des banques disponibles à Pasteur.
Allez dans la catégorie "Other databanks", nous allons nous intéresser à PFam. Rendez-vous sur cette base de donnée par les liens de Pasteur. On vous propose d'aller sur la nouvelle version du site, allez-y.
PFam est une banque de quel type ?
Quelle est la version actuelle de PFam ?
Combien de familles contient-elle ?
Faites une recherche avec le mot "hemoglobin". Combien de résultats trouvez-vous ?
La séquence que nous avons vu tout à l'heure dans la PDB fait-elle partie d'une famille de cette liste ?
Quel est son numéro ? (vous pourrez répondre à cette question à la fin du TP)
Explorez la fiche PFam de la famille PF00042 : alignement, architecture des domaines, arbre phylogénétique, lien vers les autres banques ...
Flèche vers le haut

II. Interrogation de banques de données via Entrez

Dans cet exercice, nous allons utiliser Entrez qui est l'interface d'interrogation développée au NCBI. Elle a l'avantage de pouvoir faire des requêtes simples, mais aussi des requêtes complexes quand on sait l'utiliser.

La page d'accueil propose d'interroger en même temps toutes les banques accessibles via Entrez. En cliquant sur le nom d'une banque, on accède alors à l'interface d'interrogation classique qui comprend une zone de saisie des critères de recherche (zone texte "for") et, juste en dessous sous forme d'onglets, des liens vers des fonctionnalités du système d'interrogation.
Le lien "History" affiche toutes les requêtes effectuées depuis le début de votre session sur la banque, c'est-à-dire depuis votre connection à cette banque. Il est possible d'accéder à la liste des entrées qui répondent à une requête en cliquant sur le lien du nombre d'entrées trouvées.

II-1. Recherche simple

Pour commencer, nous allons interroger la banque appelée "NucleotideCore". Sur la première page de cette banque, il est indiqué d'où proviennent ses données.
Quelles sont les banques qui composent la banque "Nucleotide" ?
Recherchez toutes les séquences humaines contenues dans cette banque.
Combien d'entrées sont trouvées ?
Les entrées obtenues sont présentées sous la forme d'une liste. La ligne de description de l'entrée est indiquée.
Que contiennent les entrées présentes sur la première page ?
En cliquant sur le lien d'une entrée, on obtient l'entrée entière au format GenBank.
Est-ce que ces entrées ont une annotation détaillée (par exemple, le nom et la position d'exons, ...) ?
Est-ce que vous trouvez des entrées en saisissant l'expression "homo spaiens" qui contient une erreur de frappe ?
Malheureusement, quelques entrées contiennent une erreur de frappe sur l'expression "homo sapiens". Vous constaterez que l'erreur n'apparaît pas dans la ligne OS qui est spécifique au nom d'organisme. Il est tout-de-même vérifié que l'organisme indiqué existe bien. Par contre, les commentaires librement saisis par les laboratoires qui soumettent les séquences ne peuvent pas être vérifiés. Il s'y glisse donc des erreurs de ce type.
Flèche vers le haut

II-2. Utilisation d'opérateurs booléens

Lorsque plusieurs termes sont recherchés, il est possible de les combiner à l'aide des opérateurs booléens :
  • AND : les deux termes sont tous les deux dans les entrées.
  • OR : au moins un des deux termes est dans l'entrée.
  • NOT : le premier terme doit être présent dans les entrées et les entrées qui contiennent le deuxième sont exclues.
Note : dans Entrez, les opérateurs doivent obligatoirement être saisis en majuscules pour être reconnus.
Pour voir l'influence des opérateurs, nous allons effectuez, successivement, quatre requêtes :
  • trinucleotide repeat
  • trinucleotide AND repeat
  • trinucleotide OR repeat
  • trinucleotide NOT repeat
Pour chaque requête, notez le nombre d'entrées trouvées et consultez une ou deux des entrées trouvées (essayez de ne pas prendre une entrée de génome car elles sont très grandes et donc longues à afficher). Recherchez dans ces entrées le mot "trinucleotide" et le mot "repeat" à l'aide du menu "Edition->Rechercher sur la page" de votre navigateur ou simplement avec "Ctrl-F".
Est-ce que les deux termes sont bien dans l'entrée ?
Est-ce qu'ils sont côte à côte ?
D'après les résultats trouvés, calculez le nombre d'entrées possédant uniquement le terme "trinucleotide", uniquement le terme "repeat" et les deux termes en même temps.
Dans l'onglet 'Details' vous pourrez comprendre comment vos requêtes sont traduites
Quelle est la différence entre la première et la seconde requête (avec ou sans AND) ?
Flèche vers le haut

II-3. Combinaison de plusieurs requêtes

Le lien "history" qui se trouve sous la zone de saisie affiche toutes les requêtes effectuées depuis votre connection à la banque. Chaque requête porte un numéro (#1, #2, ...). Il est possible de croiser le résultat de plusieurs requêtes en utilisant leur numéro. Par exemple, "#1 AND #2" correspond à l'ensemble des entrées qui vérifie à la fois les critères de la requête #1 et ceux de la requête #2.
Recherchez les séquences humaines soit à l'aide du nom usuel "human", soit à l'aide du nom latin "homo sapiens".
Est-ce que le nombre d'entrées trouvées change entre les deux ?
Est-ce que le nom usuel apparaît bien dans la ligne "SOURCE" (équivalente à la ligne "OS" de l'EMBL) ?
À l'aide de l'historique, affichez les entrées qui ne contiennent que le nom usuel.
Est-ce que ces entrées proviennent du génome humain ?
Dans au moins une de ces entrées, regardez où apparaît le nom usuel.
Est-ce qu'il vaut mieux faire une interrogation par le nom latin ou le nom usuel ?
Flèche vers le haut

II-4. Réduction du nombre de réponses

Beaucoup d'entrées répondent à la requête "homo sapiens". Lorsque l'on regarde au hasard quelques pages de résultats, on voit qu'il y a des séquences de fragments de génomes, d'EST, de brevets (Patent), ... Toutes ces séquences ne sont pas très intéressantes à étudier, sauf dans des cas particuliers. Pour réduire le nombre d'entrées trouvées, on peut utiliser le lien "Limits" qui se trouve en-dessous de la zone de saisie. Ce lien mène à un formulaire qui propose plusieurs options permettant de réduire le nombre d'entrées trouvées sur des critères tels que la date d'entrée de la séquence dans la banque, si la séquence est issue du génome nucléaire, mitochondrial ou chloroplastique, ... Parmi ces options, il y a la possibilité d'exclure les séquences de type EST (Expressed Sequence Tag, fragments d'ARNm), STS (fragments de génomes), ... .
Cochez ces 2 options et relancez la requête sur "homo sapiens". Cela doit réduire considérablement le nombre d'entrées trouvées.
Consultez la page de résultats numéro 45000 en utilisant la zone de saisie à côté du bouton "Page".
Est-ce que toutes les séquences de cette page proviennent de l'humain ?
Si non, où "homo sapiens" apparaît dans l'entrée qui ne provient pas de l'humain ?
Il y a une entrée qui ne provient pas de l'humain, "homo sapiens" apparaît dans les commentaires de cette entrée. Par défaut, les termes d'une requête sont recherchés dans l'ensemble de l'entrée. Pour faire des recherches plus pertinentes, il faut préciser le champ dans lequel les termes sont recherchés.
Flèche vers le haut

II-5. Interrogation des champs

Le lien "Preview/Index" en-dessous de la zone de saisie donne accès à la liste des champs interrogeables de la banque de données.
Recherchez dans la liste des champs, celui qui permet de limiter les entrées à celle qui proviennent de l'Homme. Saisissez "homo sapiens" dans la zone de saisie qui se trouve à côté de la liste des champs. Le bouton "Preview" construit la bonne requête automatiquement.
Quelle est la synthaxe utilisée pour interroger un champ ?
Combien d'entrées trouvez-vous à présent ?
Dans Entrez, pour interroger un champ il faut indiquer la valeur du champ entre crochets après la valeur. Ex : homo sapiens [organism].
Flèche vers le haut

II-6. Changement du format d'affichage

Le menu déroulant à côté du bouton "Display" propose plusieurs formats d'affichage des entrées et de la liste de résultats. Le format par défaut est "Summary".
Recherchez les gènes (ou ARNm) qui codent pour une protéine ayant une fonction dikinase, chez Arabidopsis thaliana. Vous devez trouvez moins d'une dizaine d'entrées.
Est-ce que les entrées trouvées sont redondantes ou correspondent à des gènes différents ?
Il y a plusieurs exemplaires de fragments de chromosomes issus du séquençage de A. thaliana car l'assemblage du génome complet n'est pas encore achevé.
Affichez l'entrée d'un des ARNm trouvés. Enregistrez l'entrée à l'aide du menu "Enregistrer sous" de votre navigateur. Ouvrez le fichier ainsi enregistré.
Quel est le type (l'extension) de ce fichier ?
Changez le format d'affichage en "Graph" (ou "Graphics"), à l'aide du bouton "Display" et du menu déroulant associé. Cet affichage est très apréciable pour visualiser de grandes entrées.
Changez l'affichage au format FASTA, mais en demandant directement l'enregistrement dans un fichier à l'aide du bouton "send to".
Quelle solution vous semble la plus simple pour enregistrer votre séquence au format FASTA ?
Flèche vers le haut

II-7. Clipboard et liens pour chaque séq.

On peut sauver temporairement des entrées d'une ou plusieurs recherches en utilisant le Clipboard. Attention cependant car le Clipboard est perdu après 8 heures d'inactivité
Retournez dans une de vos recherches, selectionnez 1 séquence et envoyer là sur le clipboard à l'aide du bouton "Send to". Un message apparaît pour vous indiquez le nombre de séquence ajouté au Clipboard.
Quel symbole est apparu dans l'onglet Clipboard ?
Sauvez d'autres séquences d'autres recherches, puis rendez-vous dans votre Clipboard. Explorer les liens sur la même ligne que les noms des séquences ('Reports', 'Links', ...).
En cliquant sur 'Links', on obtient une liste de base de données qui sont liées à cette entrée. En cliquant sur 'Reports', on obtient une liste de format de donnée. D'autre liens sont également disponibles selon les entrée : 'Revision History', 'BLink', 'Conserved Domains'.
Flèche vers le haut

III. SRS

Il existe de nombreux sites SRS, nous allons utiliser celui de l' EBI.

III-1. Requête simple

Le formulaire de la page d'accueil permet uniquement de faire des requêtes simples, c'est-à-dire la saisie de texte libre (équivalent de ce que propose Entrez, si on ne précise pas de nom de champ).
Comme dans l'exercice précédent, vous pouvez rechercher l'ensemble des entrées de la banque nucléotidique qui contiennent "homo sapiens" dans leur texte.
Flèche vers le haut

III-2. Interrogation des champs

SRS propose deux formulaires ("standard" et "extended") pour construire des requêtes avec interrogation des champs et utilisation d'opérateurs booléens : ET (noté "&"), OU (noté "|") et NON (noté "!").

Pour accéder aux formulaires, il faut commencer par choisir la ou les banques interrogées. Pour cela, cliquez sur l'onglet "Library Page". Vous obtenez alors la liste des banques interrogeables via SRS. Les banques interrogées sont sélectionnées en cliquant sur les cases à cocher situées à droite de leur nom.
Ensuite, on accède aux formulaires d'interrogation, en cliquant sur les boutons rouges ("Standard Query Form" ou "Extended Queery Form"). Ces boutons se situent dans le bandeau gris, sur la gauche de la page.

Pour commencer, nous allons interroger la banque de séquences nucléotidiques EMBL, à l'aide du formulaire standard. Recherchez un gène appelé Acam en tapant la valeur "Acam" dans le champ "Features:Gene".
Combien d'entrées sont trouvées ?
Afficher les résultats avec la vue "EMBLFeatView".
Quelles sont les fonctions des protéines codées par les gènes Acam ?
Est-ce que des gènes qui portent le même nom codent pour des protéines qui ont la même fonction ?
Consultez les entrées pour voir où l'information du nom de gène est donnée.
Nous allons maintenant interroger la banque de séquences protéiques UniProtKB, toujours à l'aide du formulaire standard.
Recherchez cette fois-ci les protéines codées par un gène appelé Acam.
Quel est le nom du champ à interroger ?
Combien d'entrées trouvez-vous ?
Essayer avec Acam3, combien d'entrées trouvez-vous ?
Aucune entrée n'est trouvée. En fait, même si le nom de gène "Acam3" apparaît dans 1 entrée d'arabidopsis de la banque EMBL, ce nom de gène n'a pas été reporté dans les entrées protéiques. Pour trouver les protéines codées par des entrées de l'EMBL, le plus simple est d'utiliser les liens entre banques.
Flèche vers le haut

III-3. Liens entre banques, à partir d'une requête

L'onglet "Results" donne accès à l'historique des requêtes effectuées depuis le début de la session. À partir de cette page, plusieurs actions peuvent être faites sur les requêtes.
Pour faire un lien d'une requête vers une autre banque, cliquez sur la case à cocher à côté de la requête qui porte sur le gène Acam dans l'EMBL. Puis, cliquez sur le bouton "Link". Il apparaît alors la liste des banques présentes dans SRS. Comme on recherche les protéines codées par les entrées EMBL dans UniProtKB, il faut cocher "UniProtKB" et cliquer sur le bouton "search" pour lancer le lien.
Combien d'entrées trouvez-vous ?
Ce nombre correspond-il à ce à quoi l'on s'attend ?
Quels sont les noms de gènes indiqués dans les entrées protéiques ?
Le champ gène d'Arabidopsis thaliana donne plusieurs noms car trois gènes codent pour la même séquence protéique.
Flèche vers le haut

III-4. Création d'une vue

Dans SRS, il est possible de changer le format d'affichage d'une entrée, mais aussi celui d'une liste de résultats. Plusieurs formats sont proposés dans un menu déroulant situé au bas du bandeau de gauche, dans la partie "Display options".
Il est également possible de créer sa propre vue, si l'on a besoin d'afficher des informations particulières. Pour accéder à la création de vue, il faut aller dans l'onglet "Views".

Nous allons créer une vue. Nous l'utiliserons un peu plus tard. Cette vue va afficher le champ description et le champ organism de la banque EMBL, pour les listes de résultats.

Voici la démarche à suivre :
  • Choisir la banque "EMBL" dans la liste située en dessous du texte "Databanks to define a view for"
  • Saisir le nom "EMBLorg" dans la zone de texte du bandeau de gauche ("View name").
  • Lancer l'affichage de la liste des champs à l'aide du bouton "Create new view"
  • Cocher la case à gauche des champs "Description" et "Organism".
  • Valider la vue à l'aide du bouton "Save" situé dans le bandeau de gauche
  • Le formulaire de création de vue apparaît de nouveau, votre vue est créée.
La vue est maintenant accessible via le menu déroulant lié au bouton "View" qui apparaît dans le bandeau de gauche dans différents écrans de SRS.
Flèche vers le haut

III-5. Sous-entrées

Dans une entrée de l'EMBL, il peut y avoir plusieurs objets biologiques. Notamment, les entrées qui correspondent à des fragments de génomes contiennent plusieurs gènes. Or, on a souvent besoin d'extraire la séquence d'un gène particulier pour travailler dessus. Le découpage en sous-entrées permet d'isoler la séquence et l'annotation d'objet biologique particulier. L'affichage des sous-entrées est accessible via le formulaire étendu.

Nous allons interroger la banque EMBL, à l'aide du formulaire étendu. En faisant la requête suivante, vous allez afficher les gènes hns de Yersinia pertis :

  • Champ : "Organism name" ; saisie : "yersinia pestis"
  • Champ : "FtKey" (sous-entrée : "Features") ; valeur "cds" sélectionnée dans la liste
  • Champ : "Gene" (sous-entrée : "Features") ; saisie : "hns"
Vous devez obtenir 4 sous-entrées qui correspondent à la séquence codant pour hns chez Yersinia pestis.

Quelle est la taille de ces séquences ?
Dans les sous-entrées, il n'apparaît pas le nom de l'organisme dont est issue la séquence ou d'autres informations plus générales. Cette information est dans les entrées entières. Pour accéder à ces entrées, on peut soit utiliser le lien "parent" présent dans chaque sous-entrée, soit utiliser les liens pour accéder à toutes les entrées en même temps.
À l'aide des liens, affichez les quatre entrées entières. Il y a une option "To Parent Entry" dans la page qui donne la liste des banques pour choisir vers lesquelles on veut faire le lien.
Nous allons afficher cette liste de résultats à l'aide de la vue que l'on a créée précédemment. Pour cela, il suffit de sélectionner notre vue dans le menu déroulant de la partie "Display options" dans bandeau gris et de cliquer sur le bouton "Apply display options".
Est-ce que les quatre gènes trouvés proviennent du même organisme ?
Est-ce que les gènes hns sont dans une entrée qui leur est propre ?
Flèche vers le haut

IV. Manipulation des 2 systèmes d'interrogation en parallèle

Vous allez ouvrir les deux systèmes d'interrogation SRS et Entrez. Une liste de questions vous est proposée. Vous allez essayer de construire des requêtes qui y répondent à l'aide des deux interfaces. Il se peut que certaines requêtes ne soient possibles que dans une des deux interfaces.

1. Combien d'entrées ont été intégrées dans la banque de séquences nucléiques depuis ce matin ?

2. Affichez la séquence du gène et de l'ARNm MAKORIN1, chez Seriola quinqueradiata au format FASTA, sur la même page.

3. Essayez d'extraire les séquences génomiques qui codent pour les protéines flo (flo1, flo2, ...) de Saccharomyces cerevisiae.