Currently viewing the tag: "annotation"

Les outils d’assemblage, de mapping sur référence deviennent relativement pléthoriques… il est de ce fait relativement aisé de choisir l’outil permettant de gérer au mieux les défauts de votre séquenceur, vous n’avez que l’embarras du choix en somme. Même si cette étape n’est pas à négliger, il n’en reste pas moins que le rôle du biologiste restera toujours d’apporter du sens à une ou plusieurs millions de séquences, informations qui viendront tenter d’élucider une question biologique. Les outils permettant de faire parler un ensemble de reads, que vous pratiquiez le de novo RNA-seq ou séquençage génomique de novo sont plutôt restreints, peu diffusés, limités ou tout simplement absents… Ces grands absents constituent le point noir de l’analyse secondaire de vos reads. De nombreux biologistes recherchent un financement (séquencer massivement coûte encore un peu cher !), font séquencer l’objet de leur étude -hors humain, rat, souris-  repartent quand tout va bien avec de beaux contigs, et se retrouvent face à un livre écrit dans une langue inconnue. Ce livre est censé renfermer la réponse à beaucoup de leurs questions… on comprend leur frustration d’autant qu’ils ne possèdent pas de pierre de Rosette.

Cet article part d’un constat, l’important est moins de savoir si votre séquenceur fournit les reads les plus propres, les plus longs, si votre assembleur est le plus adapté… car tous ces efforts resteront vains si vous écrivez un livre dont personne ne peut comprendre le sens. J’arrête là de filer la métaphore.

Blast2GO -ici dans sa version gratuite-  est un outil qui trouvera vite (trop vite) ses limites mais qui permettra d’apporter du sens à des séquences générées à haut-débit. La publication de Conesa et al. (Bioinformatics – 2005), dévoile le pipeline d’analyse. Grossièrement, il s’agit de blaster des séquences (en 2005 – on envisageait par séquences des reads et non des reads assemblés) automatiquement sur le serveur du NCBI, les résultats de blast sont récupérés, les autres phases du pipeline sont réalisées en interrogeant les bases de données de Blast2GO, in fine des termes GO permettent d’annoter les séquences dont on souhaite décoder le sens. La principale qualité de Blast2GO réside dans son ergonomie, l’interface Java6 permet une prise en main directe (aucune ligne de code). Ses défauts sont multiples… tout d’abord Blast2GO plante… très régulièrement, ensuite pour une séquence d’entrée (dont la taille sera nécessairement inférieure à 7000 bases) vous ne disposerez que d’une annotation pour le meilleur des hits.

Tagged with:
 

Une revue intéressante et qui se veut exhaustive sur les conséquences de la généralisation des technologies de séquençage et les solutions/adaptations possibles, on y retrouve pèle-mêle :

– Un listing à jour (2011) des différentes plateformes dédiées à la génération de données de séquençage (Illumina, Roche, Life Technologie pour ne citer qu’eux…) et leurs spécificités;

– La description de quelques stratégies de NGS : identification de variants, séquençage d’éxome, séquençage sur des régions précises…

– Les problématiques en bioinformatiques : stockage et analyse de  données, développement de solutions logicielles adaptées…

– Les différentes analyses ainsi que des listes de logiciels pour répondre aux besoins: assemblage denovo et sur génome de référence, annotation et prédiction fonctionnelle, autant open-source que sous licence payante.

 

Set your Twitter account name in your settings to use the TwitterBar Section.