Constat : le séquençage, un générateur fantastique de données
L’explosion de la génération de données génomiques (Figure 1.0) et l’hétérogénéité de ces données entraînent inévitablement un accroissement de l’écart entre les données, les connaissances et l’information que l’on peut en extraire (Figure 1.1).
Le développement d’outils bioinformatiques permet de répondre à l’analyse de données dans l’ensemble des domaines de la biologie, mais le besoin en formalisation (des formats, des processus, des architectures matérielles…) est primordial si l’on veut éviter les problèmes d’incompatibilité et de réutilisation des solutions.
En conséquence, afin d’obtenir des informations interprétables biologiquement à partir de ces données, la mise en place de processus d’analyse va de pair avec l’utilisation de logiciels à jour, efficaces pour la gestion de données à grande échelle.
En outre, les logiciels doivent aussi simplifier cette gestion de données et fournir des outils d’analyses bioinformatiques accessibles mais aussi reproductibles pour tous types d’utilisateurs – dont les biologistes eux-mêmes. C’est dans ce cadre que s’insèrent l’automatisation de processus (ou « Workflow ») et le développement de « Workflow management system », ou logiciel de Workflow, pour la bioinformatique.
Workflow ou automatisation de processus : définition
Le logiciel de Workflow s’inscrit aussi dans une logique de pérennisation des processus analytiques, qui a pour but de sortir de la logique « projet » (dans le sens ponctuel) en créant des processus d’analyses génériques.
Un logiciel de Workflow est un outil permettant d’exécuter un ensemble de processus de façon automatique. Ces « pipelines » sont très présents en bioinformatique (à défaut d’être tres utilisés) car ils permettent aux chercheurs en biologie d’analyser leurs données (issues de séquencages, génotypages) de façon relativement transparente et (quasiment) sans l’aide d’informaticiens (denrées rares dans la recherche).
Toutefois, il convient de distinguer deux sortes de logiciel de Workflow :
– Les logiciels de Workflow qui permettent aux chercheurs de manipuler leurs données et exécuter leurs analyses sans posséder de connaissances en écriture de scripts ou en bases de données. Les données sont rapatriées au sein du logiciel de Workflow, permettant l’exécution d’un ensemble de tâches, à travers des modules pré-installés. En séquençage, le Workflow permet de convertir des séquences en formats divers, les filtrer ou les assembler… Le logiciel de Workflow ISYS (2001), BioMOBY, Taverna et plus particulièrement Galaxy (qui fera l’objet d’un prochain post ici) entrent dans cette catégorie.
– Les logiciels de Workflow qui assurent un accès direct à des composants (installés sur le serveur) et/ou aux données génomiques sans passer par un rapatriement préalable des données. WildFire, Pegasys ou Ergatis (ce dernier sera décrit dans un prochain post) font partie de cette catégorie. De manière générale ces logiciels de Workflow sont plus difficiles à prendre en main mais sont évidemment plus flexibles.
Pour résumer, quel que soit le logiciel de Workflow utilisé il permet :
– D’automatiser des processus d’analyse (idéalement répétitifs) en les reliant dans un pipeline
– De lancer des analyses sur des architectures matérielles complexes telles des grilles de calculs (voir l’article sur Grisbi) ou des serveurs
– De formaliser le processus d’analyse en vue d’une publication scientifique
Philosophie générale : interaction et exemple de workflow
Pour finir cette introduction, nous vous proposons deux schémas : la place du logiciel Workflow et un exemple concret.
L’une des ambitions de la biologie intégrative est d’étudier le plus finement et le plus efficacement possible les interactions menant à une variation phénotypique. Ce réseau peut être d’une vertigineuse complexité, il demande l’intégration et l’analyse de données hétérogènes avant d’envisager toute interprétation.
Ces nouvelles approches exigent l’interdisciplinarité : la biologie moléculaire (biologie humide) doit être supportée par la bioinformatique (biologie sèche) afin de rendre réalisables des études de plus en plus ambitieuses, coûteuses et complexes.
Le schéma proposé ici permet d’entrevoir les interactions possibles entre génome, transcriptome et protéome… chaque interaction donne lieu à des méthodes, des techniques d’études particulières que nous tâcherons de développer au travers de ce blog. En guise de préambule nous vous proposons d’écouter une émission très didactique et plutôt exhaustive datant du 5 février 2011, « Sur les épaules de Darwin » de Jean Claude Ameisen.
Sur les épaules de Darwin – Jean Claude Ameisen
Qui sommes nous?
Christophe Audebert [@]
En charge de la plateforme génomique du département recherche et développement de la société Gènes Diffusion .
Renaud Blervaque [@]
Biologiste moléculaire, chargé d'études génomiques.
Gaël Even [@]
Responsable bioinformatique au sein du département recherche et développement de la société Gènes Diffusion.Catégories
- Analyse de données (14)
- Automatisation (5)
- Bioinformatique (27)
- Biologie (56)
- biologie transverse (35)
- Biotechnologie (30)
- Chronique littéraire (8)
- Comparatif (6)
- Diagnostic (8)
- Economie (17)
- Epidemiologie (2)
- Evénement (17)
- Formation (3)
- Gestion de projet (5)
- Grille de calcul (1)
- Intégration (5)
- Logiciels (8)
- Médecine (14)
- politique de la recherche (17)
- Recherche (21)
- Séquençage (70)
- Séquenceur (39)
- Uncategorized (25)
- Workflow (4)
Accès rapide aux articles
- Covid-19 : zoom sur les vaccins
- Comment l’ADN pourrait être le stockage de données du futur
- COVID-19 : la data visualisation au service de la science
- COVID-19 : des explications et un point d’étape au 20 février 2020
- Pour mettre du vin dans son eau
- Des petits trous, toujours des petits trous…
- Qui serait candidat ?
- Un robot pour analyser vos données…
- Monde de dingue(s)
- L’art et la manière de développer une qPCR
- Un MOOC Coursera sur le WGS bactérien
- Chercheurs & enseignants-chercheurs, l’art du multitâche.
- Un jeu de données métagénomiques
- Facteur d’impact
- Microbiote & smart city : juxtaposition de tendances
Accès mensuels
- février 2021 (1)
- décembre 2020 (1)
- février 2020 (2)
- septembre 2019 (1)
- avril 2018 (2)
- décembre 2017 (1)
- novembre 2017 (2)
- juillet 2017 (2)
- juin 2017 (5)
- mai 2017 (4)
- avril 2017 (3)
- mars 2017 (1)
- janvier 2017 (2)
- décembre 2016 (3)
- novembre 2016 (4)
- octobre 2016 (2)
- septembre 2016 (2)
- août 2016 (3)
- juillet 2016 (2)
- juin 2016 (4)
- mai 2016 (3)
- mars 2016 (1)
- novembre 2015 (2)
- avril 2015 (1)
- novembre 2014 (1)
- septembre 2014 (1)
- juillet 2014 (1)
- juin 2014 (1)
- mai 2014 (1)
- avril 2014 (1)
- mars 2014 (1)
- février 2014 (3)
- janvier 2014 (1)
- décembre 2013 (5)
- novembre 2013 (2)
- octobre 2013 (2)
- septembre 2013 (1)
- juillet 2013 (2)
- juin 2013 (2)
- mai 2013 (4)
- avril 2013 (2)
- mars 2013 (1)
- février 2013 (3)
- janvier 2013 (2)
- décembre 2012 (2)
- novembre 2012 (2)
- octobre 2012 (2)
- septembre 2012 (2)
- août 2012 (1)
- juillet 2012 (3)
- juin 2012 (5)
- mai 2012 (5)
- avril 2012 (6)
- mars 2012 (6)
- février 2012 (8)
- janvier 2012 (6)
- décembre 2011 (5)
- novembre 2011 (6)
- octobre 2011 (6)
- septembre 2011 (7)
- août 2011 (5)
- juillet 2011 (8)
Pages