Cet article a pour but d’aider à la mise en place d’un serveur Galaxy en local. Il décrira également les avantages et inconvénients d’une telle approche par rapport à d’autres utilisations (Galaxy en ligne et Galaxy sur cloud).
Pour une définition de ce qu’est le logiciel de workflow Galaxy vous pouvez lire l’article précédemment posté sur ce blog ou accéder à la description PLUME du logiciel.
Préambule :
Il existe trois méthodes pour utiliser Galaxy :
> En local : c’est la méthode que nous décrirons ci-dessous
> En ligne : outre l’instance principale de Galaxy, de multiples organismes ouvrent l’utilisation de leurs serveurs Galaxy à l’extérieur ( pour une liste exhaustive cliquer ici)
> Sur un cloud : On utilise notre propre instance (virtuelle) de Galaxy mais au lieu d’être déployés sur une machine locale, les « jobs » sont envoyés sur le cloud de Amazon
Chaque approche a ses avantages et ses inconvénients, nous les détaillerons plus bas.
Installation :
Un grand nombre d’indications sont extraites du tutorial d’installation de Galaxy en local, disponible, en anglais, à cette adresse – http://wiki.g2.bx.psu.edu/Admin/Get%20Galaxy.
Ce qu’il faut retenir de l’installation de Galaxy en local est qu’il est possible de mettre en place un serveur en moins de 10 minutes!
Brève Explication du processus d’installation (sous un serveur Debian – les étapes seront les même pour Ubuntu):
Ouvrir une invite de commande
– Vérifier sa version de python :
python --version
La version 2.5 (et au-delà) est suffisante pour un bon fonctionnement de Galaxy.
– Installer le système de gestion de version mercurial : la version 1.6 est suffisante. S’ il est déjà installé, vérifier votre version :
hg --version
– Télécharger l’archive dans un répertoire (par exemple « workflow ») approprié :
hg clone http://bitbucket.org/galaxy/galaxy-dist
– Lancer Galaxy! Dans le répertoire galaxy-dist :
sh run.sh --reload
Note : reload permet de fermer correctement l’application sous debian (et ubuntu)
A ce stade, le programme devrait initialiser l’application.
Vous pouvez maintenant accéder à votre serveur Galaxy à l’adresse suivante : http://localhost:8080
Evidemment ce tutoriel est court et ne prend pas en compte la configuration plus fine de l’application. Pour plus de détails sur l’installation mais aussi sur l’utilisation je vous invite à lire (et à tester) les excellentes explications consultables sur le site de Galaxy :
http://wiki.g2.bx.psu.edu/Admin/Get%20Galaxy
http://wiki.g2.bx.psu.edu/Admin/Training/
Pour les (heureux) propriétaires d’un serveur de calcul :
http://wiki.g2.bx.psu.edu/Admin/Config/Performance/Cluster
Pour l’utilisation de Galaxy dans un environnement de production – ou si vous voulez directement installer votre serveur Galaxy en partant sur des bases solides :
http://wiki.g2.bx.psu.edu/Admin/Config/Performance/Production%20Server
Utilisation :
Il faut savoir que Galaxy en local fait souvent un lien vers les logiciels sans que ces derniers ne soient présents « physiquement » sur votre serveur. Ainsi le mapping avec BWA ne marchera pas, à moins que vous installiez au préalable bwa sur le serveur. C’est le cas de pas mal d’outils, donc si vous rencontrez parfois des erreurs lors de l’exécution, il est fort probable qu’il vous faudra d’abord installer les outils utilisés par Galaxy.
Un des inconvénients majeurs de la version en ligne concerne la limitation de chargement de jeux de données à 2 Gb. En séquencage haut-débit cette limite est très souvent atteinte. En ligne il est possible de contourner cette limitation en chargeant ses fichiers par FTP. Mais on ne peut éviter le problème du débit (temps de transfert long) et de la confidentialité des données.
En local, cette la limitation est également fixée à 2 Gb, et il y a également la possibilité de charger ces jeux de données directement dans le logiciel, sans passer par une phase de chargement (« upload ») en installant son propre FTP. Évidement en local, le débit est fortement accéléré.
Pour ce faire, vous pouvez lire le tutoriel suivant en anglais ou suivre les indications ci-dessous :
http://wiki.g2.bx.psu.edu/Admin/Config/Upload%20via%20FTP
ou regarder la video tutoriel .
Comparaison entre les méthodes :
Pour résumer, l’installation en local offre plusieurs avantages par rapport à la version en ligne, en terme de confidentialité, de taille de données, de transfert et de temps d’analyses. Quelques inconvénients subsistent notamment la contrainte d’investir dans une machine correcte si l’on veut obtenir un temps d’analyse correct ou la nécessité d’installer certains outils extérieurement à Galaxy.
Si l’on supprime l’aspect coût et les contraintes lors de la première installation, la solution Cloud semble la plus pertinente si l’on a pas accès à des environnements matériels conséquents.
L’aspect « customisation » et particulièrement l’intégration de ses propres outils fera l’objet d’un prochain article.
Qui sommes nous?
Christophe Audebert [@]
En charge de la plateforme génomique du département recherche et développement de la société Gènes Diffusion .
Renaud Blervaque [@]
Biologiste moléculaire, chargé d'études génomiques.
Gaël Even [@]
Responsable bioinformatique au sein du département recherche et développement de la société Gènes Diffusion.Catégories
- Analyse de données (14)
- Automatisation (5)
- Bioinformatique (27)
- Biologie (56)
- biologie transverse (35)
- Biotechnologie (30)
- Chronique littéraire (8)
- Comparatif (6)
- Diagnostic (8)
- Economie (17)
- Epidemiologie (2)
- Evénement (17)
- Formation (3)
- Gestion de projet (5)
- Grille de calcul (1)
- Intégration (5)
- Logiciels (8)
- Médecine (14)
- politique de la recherche (17)
- Recherche (21)
- Séquençage (70)
- Séquenceur (39)
- Uncategorized (25)
- Workflow (4)
Accès rapide aux articles
- Covid-19 : zoom sur les vaccins
- Comment l’ADN pourrait être le stockage de données du futur
- COVID-19 : la data visualisation au service de la science
- COVID-19 : des explications et un point d’étape au 20 février 2020
- Pour mettre du vin dans son eau
- Des petits trous, toujours des petits trous…
- Qui serait candidat ?
- Un robot pour analyser vos données…
- Monde de dingue(s)
- L’art et la manière de développer une qPCR
- Un MOOC Coursera sur le WGS bactérien
- Chercheurs & enseignants-chercheurs, l’art du multitâche.
- Un jeu de données métagénomiques
- Facteur d’impact
- Microbiote & smart city : juxtaposition de tendances
Accès mensuels
- février 2021 (1)
- décembre 2020 (1)
- février 2020 (2)
- septembre 2019 (1)
- avril 2018 (2)
- décembre 2017 (1)
- novembre 2017 (2)
- juillet 2017 (2)
- juin 2017 (5)
- mai 2017 (4)
- avril 2017 (3)
- mars 2017 (1)
- janvier 2017 (2)
- décembre 2016 (3)
- novembre 2016 (4)
- octobre 2016 (2)
- septembre 2016 (2)
- août 2016 (3)
- juillet 2016 (2)
- juin 2016 (4)
- mai 2016 (3)
- mars 2016 (1)
- novembre 2015 (2)
- avril 2015 (1)
- novembre 2014 (1)
- septembre 2014 (1)
- juillet 2014 (1)
- juin 2014 (1)
- mai 2014 (1)
- avril 2014 (1)
- mars 2014 (1)
- février 2014 (3)
- janvier 2014 (1)
- décembre 2013 (5)
- novembre 2013 (2)
- octobre 2013 (2)
- septembre 2013 (1)
- juillet 2013 (2)
- juin 2013 (2)
- mai 2013 (4)
- avril 2013 (2)
- mars 2013 (1)
- février 2013 (3)
- janvier 2013 (2)
- décembre 2012 (2)
- novembre 2012 (2)
- octobre 2012 (2)
- septembre 2012 (2)
- août 2012 (1)
- juillet 2012 (3)
- juin 2012 (5)
- mai 2012 (5)
- avril 2012 (6)
- mars 2012 (6)
- février 2012 (8)
- janvier 2012 (6)
- décembre 2011 (5)
- novembre 2011 (6)
- octobre 2011 (6)
- septembre 2011 (7)
- août 2011 (5)
- juillet 2011 (8)
Pages