TP Phylogénie DESS Bioinfo

Mise à jour 2005

Utilisation de quelques logiciels pour la reconstruction phylogénétique par la méthode du maximum de vraisemblance.

Normalement, les logiciels sont installés sur les machines. Si ce n'est pas le cas, la première partie explique où les trouver et comment les installer localement.

Mise en route...

Pour ceux qui ne sont pas familliers avec Linux:

Vous trouverez ici la syntaxe de quelques commandes utiles: aide ligne de commande.

Installation de clustalx

  1. Récupérer le logiciel clustalx par ftp: ici.
  2. Décompresser le fichier:
    tar xvzf clustalx1.82.linux.tar.gz
  3. Copier le fichier exécutable dans le répertoire d'installation:
    cp Download/clustalx1.82.linux/clustalx local/bin/clustalx

Installation de seaview

  1. Récupérer le logiciel seaview (sequences alignment viewer) sur le site du PBIL.
  2. Décompresser le fichier:
    gunzip seaview.linuxPC.gz
  3. Copier le fichier décompressé dans le répertoire d'installation:
    cp Download/seaview.linuxPC local/bin/seaview

Installation de phylo_win

  1. Récupérer le logiciel phylo_win sur le site du PBIL.
  2. Décompresser le fichier:
    gunzip phylo_winlinuxPC.gz
  3. Copier le fichier décompressé dans le répertoire d'installation:
    cp Download/phylo_winlinuxPC local/bin/phylo_win

Installation de njplot

  1. Récupérer le logiciel njplot sur le site du PBIL.
  2. Copier le fichier dans le répertoire d'installation:
    cp Download/njplot.linuxPC local/bin/njplot

Installation de phyml

  1. Récupérer PhyML sur le site du LIRMM: PhyML.
  2. Décompresser le fichier:
    tar xvzf phyml_v2.1b1.tar.gz
  3. Copier le fichier décompressé dans le répertoire d'installation:
    cp Download/phyml/exe/phyml_linux local/bin/phyml

Pour lancer un programme dans un terminal, il suffit de taper son nom. Mais pour celà, il faut dire au bash (l'interpréteur de commandes) où se trouvent les programmes:
export PATH=$PATH:$HOME/local/bin

Orthologie/paralogie

Préparation du jeu de données

  1. Récupérer le jeu de données: Hémoglobines. Ce jeu de données a été constitué à partir de l'ensemble des séquences d'hémoglobines de la base de données non redondante SWISSPROT. Pour les espèces animales, seules celles ayant au moins 3 chaînes de disponibles ont été conservées.
  2. Aligner les séquences avec Clustal: File -> load sequences, puis Alignment -> do alignment. Clustal utilise sont propre format de séquences: *.aln
  3. Importer les données alignées dans seaview, créer une nouvelle sélection de sites
  4. Enregistrer au format mase

Arbre de parcimonie et arbre de distance

  1. Ouvrir le fichier mase avec phylo_win, faire un arbre de MP, NJ, tester différents modèles, différentes sélections...
  2. Visualiser les arbres avec NJPlot.

NB: si un problème d'affichage survient avec phylo_win, essayer la ligne de commande suivante:

phylo_win -systemfont times,12,b -seqfontsize 12 -maxnbline 15

Construction d'un arbre de maximum de vraisemblance

  1. Exporter la sélection de sites au format phylip.
  2. Utiliser READSEQ pour convertir au format phylip 3.2
  3. Lancer PhyML, choisir le format 'sequential' (interleaved par défaut), tester plusieurs modèles...

Objectif: reconstituer l'histoire évolutive des familles d'hémoglobines. Où ont eu lieu les évènements de spéciation/duplications? Quels gènes sont orthologues/paralogues?

Phylogénie universelle de l'ARN ribosomique (ARNr)

Préparation du jeu de données

  1. Récupérer le jeu de données ARNr au format Mase, avec les noms complets des séquences: translation.txt. Les données sont déjà alignées et ont été récupérées depuis la base Européenne de l'ARN ribosomique.
  2. Le charger dans seaview, et faire une sélection de sites.

Arbre de parcimonie et arbre de distance

  1. Utiliser phylo_win pour faire des arbres MP et NJ, tester différents modèles, loi gamma...

Construction d'un arbre de maximum de vraisemblance

  1. Récupérer le fichier "nettoyé" (ie sans gaps): RNAr_regions.phy au format phylip3.2. (Vous pouvez aussi essayer d'utiliser votre jeu de données avec l'utilitaire READSEQ, comme précédemment).
  2. Lancer PhyML, choisir le format 'sequential' (interleaved par défaut).
  3. Tester plusieurs modèles...

Objectifs: retrouver les trois grands groupes Archaea/Eucarya/Bacteria, place des endosymbiontes...

Comparaison de modèles

  1. Utiliser le jeu de données RNAr_regions avec phyml.
  2. Inférer la phylogénie avec plusieurs modèles et noter les vraisemblances.
  3. Faire des LRT: Quel modèle décrit au mieux les données?

Liste de programmes: Phylogeny programs.