Currently viewing the tag: "assemblage"
Voici les résultats, présentés lors des journée France Grille 2011, d’une étude sur le déploiement de traitement  de données NGS sur grille de calcul menée par plusieurs plateformes de bioinformatiques et centres de calcul universitaires français dans le cadre du projet GRISBI (Grille Support pour la Bio-Informatique) :

 

 

GRISBI a Grille, Support pour la Bioinformatiquepour but, à travers la mutualisation de ressources informatiques des acteurs du projet, de proposer l’utilisation d’applications bioinformatiques déployées sur grille de calcul au plus grand nombre.
Le constat est simple  : la gestion des données provenant des séquenceurs, autant dans le stockage que l’analyse, va de paire avec la mise en place de nouvelles infrastructures plus efficaces, plus adaptables, plus sécurisées, plus accessibles que des solutions locales : les grilles de calculs sont une réponse à beaucoup de ces problématiques.

 

On nous présente les premiers résultats obtenues suite à un assemblage denovo sur ABySS et Ray et un assemblage sur génome de référence avec BWA, le tout déployé sur un ordinateur classique, sur un cluster de calcul (PlaFRIM) et sur l’infrastructure GRISBI (900 processeurs et 26To de mémoire).
Globalement les résultats sont meilleurs que sur un ordinateur local mais moins bons que sur un (gros) cluster de calcul (local également) mais l’utilisation de la grille présente deux avantages :
- On peut déployer simultanément une quantité de processus en faisant varier un paramètre d’assemblage (du fait de la quantité de ressources disponibles et de la parallélisation massive des traitements)
- On peut accéder à cette architecture sans aucune contrainte matérielle au niveau local, ce qui est particulièrement le cas dans un laboratoire de biologie moléculaire.

 

Le travail présenté ici amène plusieurs perspectives, notamment la nécessité de rendre l’utilisation transparente à l’utilisateur final, biologiste, en utilisant,par exemple, un workflow (dans ce travail c’est  Ergatis mais nous en reparlerons plus tard).

 

Au delà des résultats relativement préliminaires, on nous confirme que la mutualisation de ressources en général est une réponse efficace à ce type de problématique.

Une revue intéressante et qui se veut exhaustive sur les conséquences de la généralisation des technologies de séquençage et les solutions/adaptations possibles, on y retrouve pèle-mêle :

- Un listing à jour (2011) des différentes plateformes dédiées à la génération de données de séquençage (Illumina, Roche, Life Technologie pour ne citer qu’eux…) et leurs spécificités;

- La description de quelques stratégies de NGS : identification de variants, séquençage d’éxome, séquençage sur des régions précises…

- Les problématiques en bioinformatiques : stockage et analyse de  données, développement de solutions logicielles adaptées…

- Les différentes analyses ainsi que des listes de logiciels pour répondre aux besoins: assemblage denovo et sur génome de référence, annotation et prédiction fonctionnelle, autant open-source que sous licence payante.