From the monthly archives: octobre 2011

Le PPF Bioinformatique de l’Université Lille 1, l’IFR 142 Médecine Cellulaire et Moléculaire de l’Institut Pasteur de Lille et l’IFR 114 Médecine Prédictive et Recherche Thérapeutique organisent une journée scientifique sur le thème de l’analyse bio-informatique des données produites par les technologies de séquençage à haut débit, dans la lignée de l’édition de 2009. Cette année, les sujets abordés couvriront plus particulièrement les données de type RNA-seq, ChIP-seq,…

Les exposés se tiendront dans l’amphithéatre Butiaux, sur le campus de l’Institut Pasteur de Lille (métro ligne 2, station Grand Palais).

Cette journée sera jumelée au workshop Algorithmique, combinatoire du texte et applications en bio-informatique, qui aura lieu à partir du lendemain au même endroit.

Tagged with:
 

Pour donner suite aux demandes assez nombreuses de détails concernant le principe de fonctionnement du séquençage multiparallélisé PGM (Ion Torrent / Life Technologies).

Sur le lien suivant vous trouverez une vidéo de principe de la technologie Ion Torrent (Life). En supplément, la publication de juillet 2011 de Rothberg et al. dans Nature (pour quelques informations supplémentaires). Il est à noter pour les connaisseurs que Jonathan Rothberg est l’un des fondateurs de la la société 454 Life Sciences (ayant donné naissance au séquenceur haut-débit le plus utilisé dans un passé proche, utilisant le principe du pyroséquençage), technologie vendue à Roche et le créateur de la société Ion Torrent avant que celle-ci ne soit rachetée 350 millions de dollars par Life Technologies.

Tagged with:
 
Voici les résultats, présentés lors des journée France Grille 2011, d’une étude sur le déploiement de traitement  de données NGS sur grille de calcul menée par plusieurs plateformes de bioinformatiques et centres de calcul universitaires français dans le cadre du projet GRISBI (Grille Support pour la Bio-Informatique) :

 

 

GRISBI a Grille, Support pour la Bioinformatiquepour but, à travers la mutualisation de ressources informatiques des acteurs du projet, de proposer l’utilisation d’applications bioinformatiques déployées sur grille de calcul au plus grand nombre.
Le constat est simple  : la gestion des données provenant des séquenceurs, autant dans le stockage que l’analyse, va de paire avec la mise en place de nouvelles infrastructures plus efficaces, plus adaptables, plus sécurisées, plus accessibles que des solutions locales : les grilles de calculs sont une réponse à beaucoup de ces problématiques.

 

On nous présente les premiers résultats obtenues suite à un assemblage denovo sur ABySS et Ray et un assemblage sur génome de référence avec BWA, le tout déployé sur un ordinateur classique, sur un cluster de calcul (PlaFRIM) et sur l’infrastructure GRISBI (900 processeurs et 26To de mémoire).
Globalement les résultats sont meilleurs que sur un ordinateur local mais moins bons que sur un (gros) cluster de calcul (local également) mais l’utilisation de la grille présente deux avantages :
– On peut déployer simultanément une quantité de processus en faisant varier un paramètre d’assemblage (du fait de la quantité de ressources disponibles et de la parallélisation massive des traitements)
– On peut accéder à cette architecture sans aucune contrainte matérielle au niveau local, ce qui est particulièrement le cas dans un laboratoire de biologie moléculaire.

 

Le travail présenté ici amène plusieurs perspectives, notamment la nécessité de rendre l’utilisation transparente à l’utilisateur final, biologiste, en utilisant,par exemple, un workflow (dans ce travail c’est  Ergatis mais nous en reparlerons plus tard).

 

Au delà des résultats relativement préliminaires, on nous confirme que la mutualisation de ressources en général est une réponse efficace à ce type de problématique.

L’étude de Fan et al publiée en 2008 et que nous avions évoquée au travers d’un article précédent, décrivait l’étude de faisabilité d’un diagnostic prénatal non invasif à partir de cellules d’origine fœtale provenant d’une simple prise de sang maternel.

Ces travaux ont fait l’objet de controverses et même si la détection de la trisomie 21  est rendue possible , cela ne l’ était déjà plus pour les trisomies 18 ou 13, par exemple. En cause, la méthode d’analyse employée : l’ensemble des séquences sont alignées par rapport à un génome de référence et l’aneuploïdie foetale est détectée par une surreprésentation du chromosome correspondant, au sein du jeu de données. La sensibilité et l’efficacité de la méthode sont ici directement liées à la profondeur de séquençage. Cette approche ne permet pas de prendre en compte les biais aléatoires ou systématiques liés aux techniques de séquençage, facteurs primordiaux pour cette application.

Dernièrement, les entreprises Sequenom et Verinata Health ont publié des travaux (Sehnert et al.,2011) portant sur le dépistage d’aneuploïdies via le séquençage à haut débit, à partir de cellules d’origine fœtale issues d’une prise de sang maternel : 100% des cas de trisomies 21, 18 et autres anomalies ont été décelés ( soit 27 caryotypes anormaux parmi 48 patients ).



Cette efficacité repose sur une optimisation de l’analyse bioinformatique et notamment sur une considération pour les variations intra et inter-run qui se situent  bien souvent à la frontière avec les faibles modifications de la distribution des séquences entre un cas sain et un cas d’aneuploïdie.  L’algorithme développé utilise des valeurs de chromosome normalisées établies sur la base d’un ensemble de données de séquençages provenant d’échantillons parmi lesquels certains sont connus comme ayant un caryotype anormal.

En podcast de « clinical chemistry », le Dr. Richard P. Rava, co-auteur de l’article proposé précédemment, revient sur des points de détails et explications concernant le développement de l’algorithme optimisé pour les détections d’aneuploïdies.

 

Une revue intéressante et qui se veut exhaustive sur les conséquences de la généralisation des technologies de séquençage et les solutions/adaptations possibles, on y retrouve pèle-mêle :

– Un listing à jour (2011) des différentes plateformes dédiées à la génération de données de séquençage (Illumina, Roche, Life Technologie pour ne citer qu’eux…) et leurs spécificités;

– La description de quelques stratégies de NGS : identification de variants, séquençage d’éxome, séquençage sur des régions précises…

– Les problématiques en bioinformatiques : stockage et analyse de  données, développement de solutions logicielles adaptées…

– Les différentes analyses ainsi que des listes de logiciels pour répondre aux besoins: assemblage denovo et sur génome de référence, annotation et prédiction fonctionnelle, autant open-source que sous licence payante.

 

 

La PCR est l’un des outils de base dans la boîte du biologiste moléculaire. Devenue accessible, totalement démocratisée dans les laboratoires, elle demande cependant une certaine exigence dans son développement.

Dans un premier temps il est essentiel de définir à quel type de PCR nous avons à faire :

PCR de détection (diagnostic ?) : celle qui vous permet de croire que vous avez dans votre extraction l’agent infectieux que vous tâchez de cibler

– PCR de monitoring : celle qui vous suffit pour admettre que vous validez ou non l’expérience que vous désirez suivre, celle qui vous  dit que vous avez contaminé votre extraction d’ARN en ADN génomique, par exemple

– PCR de production : celle qui vous permet d’obtenir le plus de produit spécifique afin d’exploiter ces quelques centaines de paires de bases pour en faire ce que vous avez imaginé (reporters à spotter sur puce ADN ou insert pour un clonage)

– PCR quantitative : celle qui se résume à estimer du mieux possible la quantité d’acides nucléiques ciblés présents initialement dans une PCR (cDNA, cible pathogène…).

aperçu du design d'amorces PCR

aperçu du design d’amorces PCR

Il est fondamental de reconnaître à quel genre s’apparente la PCR dont vous avez designé les amorces avec le plus grand soin. Peut être parce que les objectifs visés sont réellement différents voire opposés.

Les grandes étapes aboutissant à un design sont résumées ci-dessus. Il convient d’extraire en format FASTA, la séquence qui vous servira de matrice PCR, le logiciel d’aide permettra d’écarter les amorces de qualités douteuses (auto-appariées, peu spécifiques…), la proposition de design sera soumise dans un Blast (dont les paramètres dépendront du type d’application de votre PCR), dans le cas d’une qPCR SybrGreen il peut être intéressant d’utiliser un mFold sur l’amplicon que vous souhaitez générer, enfin l’ulitsation d’un autre service web tel que OligoCalc permettra de valider les paramètres de vos amorces en confrontant ceux-ci à ceux que vous aurez obtenus en sortie de logiciel d’aide au design.

Commençons par aborder les paramètres d’importances de cette technique de biologie moléculaire : la spécificité, la sensibilité, l’efficacité. Quand la PCR de détection cumulera sensibilité et spécificité, la PCR de monitoring devra être efficace et simple à mettre en place (quelques heures de développement entre ces deux variantes…). La première étape, la plus essentielle, consistera à designer des amorces (nous parlerons des sondes ultérieurement). Avant cela il vous faudra vous doter d’une stratégie de design et peut être d’un (le mieux serait plusieurs) logiciel d’aide au design d’amorces. Parmi tous les logiciels disponibles, rien ne sert de casser le cochon, il existe beaucoup de gratuiciels acceptables pour la grande majorité des applications. Parmi ceux-ci, notons :

FastPCR : quelques bugs, mais globalement cette solution à notre préférence pour sa modularité. Le logiciel gère les PCRs multiplexes, propose un grand nombre d’outils intégrés de manipulations de séquences. Il s’agit de l’une des seules solutions gratuites qui est l’équivalent d’une solution payante (mode d’emploi FastPCR disponible). Le logiciel quant à lui est disponible ici (dans sa version antérieure, plus stable, dont nous voyons une capture d’écran ci-dessous).

Parmi les critères généraux, les paramètres de design transposables à tout type de PCR sont les suivants :

– Longueur des oligonucléotides = 16 à 26 nt

Taux de GC = 40 à 70% (idéalement autour des 55 %)

Tm des oligonucléotides ~ 60°C (si vous développez une PCR diagnostique la température d’amorçage = Tm, si vous souhaitez produire il faudra diminuer de 2°C la température d’amorçage par rapport au Tm des amorces)

Du GC%, de la concentration en amorces et de la concentrations en cations dépend le Tm (définie comme la température pour laquelle 50 % d’une séquence donnée  est sous forme double hélice et 50 % est sous forme simple brin). C’est donc ces paramètres qu’il faut intégrer lors du design. Bien maîtrisé, un design permettra de gagner un temps précieux lors des phases de mise au point et d’optimisation d’une PCR. Ceci étant particulièrement vrai pour ce qui concerne la mise au point d’une PCR quantitative.

D’autres paramètres évidents concernent la séquence ciblée en tant que telle. Sachant qu’en fonction de celle-ci la marge de manœuvre est plus ou moins grande.

– maximiser autant que possible les zones de grandes complexité linguistique (celle avec le moins d’homopolymères, FastPCR tient compte de cette notion pour designer des amorces et se sert de ce paramètre pour calculer son indice de qualité de design)

– en 3′ des amorces, sur les 5 dernières bases, autant que possible, rassembler un maximum de bases A ou T (3 A ou T sur ces 5 dernières bases) afin d’en diminuer le Tm en 3′ et ainsi d’accroître la spécificité des amorces designées

Selon le type de PCR à laquelle nous avons à faire les contraintes de design peuvent être radicalement différentes :

– ainsi, vous souhaiterez designer dans 2 exons différents lorsque vous souhaiterez suivre la contamination en ADNg d’une extraction d’ARN par exemple

– ainsi vous souhaiterez designer sur une région à cheval sur 2 exons (sur la base donc d’une séquence cDNA, ARN) pour les applications de qPCR liées à la mesure du niveau de modulation différentielle de votre ARN cible

schéma sur une nappe d’une PCR hybride

Truc et astuce pour diminuer vos coûts de séquençage d’amplicons en SANGER : la PCR hybride !

1/ Réalisation de PCR en tubes indépendants, l’amorce reverse (PCR A) et l’amorce forward (PCR B) des 2 PCR auront des séquences Tag synthétiques complémentaires

2/ La deuxième étape consistera en une élongation unidirectionnelle. Les 2 amplicons synthétisés lors de la PCR 1 s’apparieront grâce à leur séquence Tag complémentaire. Le produit de la PCR2 sera un hybride PCR A-séquence chimérique – PCR B

3/ Une dernière PCR, prenant la Forward de PCR A et la Reverse de PCR B seront utilisées… le produit néosynthétisé pourra être séquencé (2 ou plus pour le prix d’un, en outre bien optimisée ce type de PCR peut permettre d’amplifier des « signaux faibles »).

Set your Twitter account name in your settings to use the TwitterBar Section.