MBB stockage

name: Presentation Plateforme MBB
layout: true
class: backg, middle

---

.center[![MBB](../../logos/mbb.png "MBB platform")]

## 
.center[![ISEM](../../logos/logo_isem.png "Hébergé à l'ISE-M") ![CEMEB](../../logos/cemeb_logo.jpg "Plateforme du LabEx CeMEB")]

.footnote[ Rémy Dernat, MBB platform, ISE-M / UMR5554 (UM, CNRS, IRD). CNRS ]

---
.left-column[

---
## Contexte
]

.right-column[

- Laboratoire ISE-M, LabEx CeMEB (10 unités = potentiel de ~3k utilisateurs)
- équipe de 3 personnes
- Thématiques générales : 
 - évolution, statistiques, environnement, écologie, bioinformatique
- Des quantités de données qui explosent avec les données de séquençage "NGS"
]

---
.left-column[

---
## Services offerts
]

.right-column[

- MBB Web http://mbb.univ-montp2.fr
- Cluster de calcul
- Serveur Web Rstudio http://rstudio.mbb.univ-montp2.fr
- Réservation de machines manycores
<br /> http://mbb.univ-montp2.fr/grr
- Calcul GPU
- Plateforme Galaxy http://wgalaxy.mbb.univ-montp2.fr
- Soutien au développement logiciel
- Aide à la mise en place de formations pour un public LabEx
]

---
.left-column[

---
## Gestion du stockage
]

.right-column[

- Des NAS sous Debian ZFS (qqs + vieux en ext3/4),
- Une myriade de NAS de 5 à 100 To par NAS,
- Partagés par NFS,
- des quotas et réservations d'espace par ZFS dataset,
- réseau en GB ethernet,
- Quelques NAS "privés" par équipe,
- Déployés et gérés par SaltStack (formattage/partitionnement, export NFS...).
]

---
.left-column[

---
## Constats et pistes
]

.right-column[

- Courbe de croissance des données supérieure à loi de Moore (et donc plus rapide que la vitesse d'amélioration des capacités de stockage),
- Toujours plus de NAS, toujours plus d'espace nécessaire,
-  2 services avec stockage qui devient problématique : cluster, galaxy
- Sauf que réseau en GB ethernet... Mais coût du 10Gb à la baisse.
- Mauvaise expérience dans le passé dans un autre labo avec PVFS (commence à dater; maintenant OrangeFS), alors que ZFS reste très robuste. Mais il s'agissait d'un FS parallélisé sans sécurité.
]

---
.left-column[

---
## Aparté sur [Galaxy](https://wiki.galaxyproject.org/)
]

.right-column[

- Outil de workflow/pipeline et de partage bien connu en bioinformatique
- Très utile pour démontrer la reproductibilité des résultats
- D'après les concepteurs du projet Galaxy une simple analyse bioinfo fait en moyenne [66GB (Anton Nekrutenko)](https://martenson.github.io/dagobah-training/01-deployment-platforms/choices.html#12). Pour plus de 40 utilisateurs il faut [500TB+ de stockage (Nate Coraor)](https://martenson.github.io/dagobah-training/01-deployment-platforms/choices.html#10)
- Pour l'instant nous n'avons seulement qu'une trentaine d'utilisateurs (il en faudrait 200TB d'après Nate Coraor) avec des quotas assez restrictifs (à 2TB/utilisateurs...).

]

---
### Idées

- pNFS/NFS4.1 Mais encore jeune et surtout stockage XFS sur FCoE ou iSCSI nécessaire,
- GlusterFS : compatible Posix, simple, pas de noeud de métadonnées, à priori de bonnes perfs, peut être sécurisé selon le mode. A tester...
- Ceph. Mais plus de contraintes matérielles car architecture un poil plus complexe (OSD/MDS/Mons...) ? Donc éventuellement plus cher (financièrement et humainement)... ?

---
### *Merci*