Currently viewing the category: "Biologie"

L’exome humain, l’ensemble des exons ou encore l’ensemble de ce qui, encodé sous forme d’ADN, peut être traduit en protéines représente environ 1,2% genome humain, 50 Mb et inclus 85 % des mutations référencées.

Emilie Lalonde et al., montre l’efficacité du séquençage d’exomes dans un article paru dans Human Mutation de 2010. La démonstration est faite au niveau de la découverte rapide des mutations associées au syndrome de Fowler, impliqué dans la prolifération anarchique des vaisseaux du cerveau qui empêche son développement. Etudiant les exons de deux patients sans lien de parenté cette équipe de Montréal a démontré l’efficacité de la capture d’exons (SureSelect, Agilent) suivi d’un séquençage haut-débit sur plateforme Illumina GAIIx (en moyenne pour les 2 expériences ont été générés 70 millions reads de 76 pb, environ 5 Gbases de séquences brutes).

Techniquement le séquençage d’exons est relativement simple : il implique une capture par hybridation spécifique (NimbleGen, SureSelect de Agilent sont les plus employés), une purification de ces exons ou parties d’exons capturés et le séquençage haut-débit de ceux-ci… L’article de Majewski et al., disponible ici (J. Med. Genet. 2011) cerne avec brio le formidable potentiel de ces nouvelles études, avec son « qu’est ce que le séquençage d’exons peut faire pour vous ? ». Il est assez aisé de comprendre que le séquençage des régions codantes est plus accessible au niveau budget et souvent suffisant pour répondre à beaucoup de questions de cliniciens travaillant à la recherche des causalités de maladies rares. Le schéma ci-dessous, tiré de Leslie G Biesecker, Nature Genetics 42, 13–14 (2010), synthétise la procédure permettant d’aboutir rapidement à la notion de « gènes candidats » (ou plutôt de mutations causales). Les mutations témoins sont accessibles sur les bases de données mondiales dbSNP ou bien encore par l’intermédiaire du projet 1000 Génomes… dont nous avons parlé dans de précédents articles.

 

L’article montre à quel point l’investigation visant à la découverte des causalités d’une maladie rare, par exemple, a été totalement bouleversée. Ces technologies couplant capture d’exons et séquençage des régions codantes capturées ont d’ores et déjà montré la preuve de leur efficacité. L’article nous rappelle que le génome humain réalisé en 2001 a coûté plus de 2,7 milliards USD, qu’en 2008 un séquençage humain complet coûtait 1,5 millions de USD et qu’aujourd’hui ce même séquençage approche les 10 000 USD…

Feuille de route pour l'utilisation du séquençage haut-débit appliqué à l'identification des variations génomiques à l'origine de maladies "génétiques"

Ainsi que le montre Majewski et al. par le schéma ci-dessus plus la maladie que l’on cherche à élucider (si l’on peut s’exprimer ainsi) est la résultante d’une mutation qui a un effet fort, moins la cohorte à séquencer sera importante. En d’autres termes, pour ce qui concerne les maladies multi-factorielles (Alzheimer par exemple), le nombre d’individus dont les exons sont à séquencer sont importants… pour ce type de problématique les GWAS (Genome Wide Association Studies) par l’intermédiaire de scan de régions polymorphes anonymes sur la base de supports tels que les puces Illumina (puces permettant de scanner jusqu’à 4,3 millions de SNPs humains) restent compétitives et d’une puissance comparable. Dans le cas des maladies complexes d’autres stratégies sont développées telles qu’un premier crible sur une grande quantité de cas/témoins sur la base de puce haute densité de SNPs et un focus-séquencing des régions génomiques montrant une association potentielle avec le phénotype étudié…

Le séquençage haut-débit devenant de plus en plus accessible financièrement et par les méthodologies (pipeline d’analyses) de plus en plus disponibles permet d’envisager de nouvelles approches dans la découverte de cibles thérapeutiques potentielles. Ceci étant, l’accessibilité à des quantités de génomes de plus en plus disponibles (sans réel contrôle des organismes d’état) n’est pas sans soulever des problèmes d’éthique profonds et quelque peu négligé dans le débat scientifique actuel.

Le bien beau document que voilà ! Se repérer dans toutes les options de préparation des échantillons à séquencer, options qui sont fonctions de l’origine et de l’application que l’on souhaite mettre en oeuvre par l’intermédiaire du séquençage, peut être un réel casse-tête que ce document souhaite simplifier ici.

Cet arbre de décision s’étoffera très rapidement : d’autres branches pousseront avec les protocoles « mate pair » & « paired end », les nouvelles indexations… et surtout l’arrivée du kit permettant de séquencer 400 b… Peut être que les branches portant les options 100 b seront, quant à elles, pour l’occasion élaguées.

Ce document, et beaucoup d’autres, est disponible sur le site de la communauté Ion Torrent.

Voici un excellent rapport (toujours d’actualité) réalisé par J.P. Morgan, une holding leader dans la banque d’investissement. Ce rapport traite de la part prise par les différentes applications NGS, il compare les différents séquenceurs haut-débit…  cette enquête a été réalisée en interrogeant 30 laboratoires (dont 24 Américains), 50 % de ces laboratoires sont publics. ..

Ce rapport permet d’entrevoir ce que seront les prochaines demandes de financements des laboratoires d’une part, d’autre part, il permet d’entrevoir les possibilités offertes par ce type de technologies encore très consommatrices de fonds et de temps humain. Les technologies disponibles sont de plus en plus diverses… Pour beaucoup de laboratoires il s’agira d’effectuer le choix technologique le plus adapté à leur champ d’application. Avec un petit étonnement, on apprend que l’application la plus développée au sein des laboratoires, concerne l’expression de gènes (mRNA expression profiling)… le séquençage de novo n’arrivant qu’en 7ème place des applications les plus développées.

(le rapport est disponible en cliquant sur l’image ci-dessus)

Le PPF Bioinformatique de l’Université Lille 1, l’IFR 142 Médecine Cellulaire et Moléculaire de l’Institut Pasteur de Lille et l’IFR 114 Médecine Prédictive et Recherche Thérapeutique organisent une journée scientifique sur le thème de l’analyse bio-informatique des données produites par les technologies de séquençage à haut débit, dans la lignée de l’édition de 2009. Cette année, les sujets abordés couvriront plus particulièrement les données de type RNA-seq, ChIP-seq,…

Les exposés se tiendront dans l’amphithéatre Butiaux, sur le campus de l’Institut Pasteur de Lille (métro ligne 2, station Grand Palais).

Cette journée sera jumelée au workshop Algorithmique, combinatoire du texte et applications en bio-informatique, qui aura lieu à partir du lendemain au même endroit.

Tagged with:
 

Pour donner suite aux demandes assez nombreuses de détails concernant le principe de fonctionnement du séquençage multiparallélisé PGM (Ion Torrent / Life Technologies).

Sur le lien suivant vous trouverez une vidéo de principe de la technologie Ion Torrent (Life). En supplément, la publication de juillet 2011 de Rothberg et al. dans Nature (pour quelques informations supplémentaires). Il est à noter pour les connaisseurs que Jonathan Rothberg est l’un des fondateurs de la la société 454 Life Sciences (ayant donné naissance au séquenceur haut-débit le plus utilisé dans un passé proche, utilisant le principe du pyroséquençage), technologie vendue à Roche et le créateur de la société Ion Torrent avant que celle-ci ne soit rachetée 350 millions de dollars par Life Technologies.

Tagged with:
 

L’étude de Fan et al publiée en 2008 et que nous avions évoquée au travers d’un article précédent, décrivait l’étude de faisabilité d’un diagnostic prénatal non invasif à partir de cellules d’origine fœtale provenant d’une simple prise de sang maternel.

Ces travaux ont fait l’objet de controverses et même si la détection de la trisomie 21  est rendue possible , cela ne l’ était déjà plus pour les trisomies 18 ou 13, par exemple. En cause, la méthode d’analyse employée : l’ensemble des séquences sont alignées par rapport à un génome de référence et l’aneuploïdie foetale est détectée par une surreprésentation du chromosome correspondant, au sein du jeu de données. La sensibilité et l’efficacité de la méthode sont ici directement liées à la profondeur de séquençage. Cette approche ne permet pas de prendre en compte les biais aléatoires ou systématiques liés aux techniques de séquençage, facteurs primordiaux pour cette application.

Dernièrement, les entreprises Sequenom et Verinata Health ont publié des travaux (Sehnert et al.,2011) portant sur le dépistage d’aneuploïdies via le séquençage à haut débit, à partir de cellules d’origine fœtale issues d’une prise de sang maternel : 100% des cas de trisomies 21, 18 et autres anomalies ont été décelés ( soit 27 caryotypes anormaux parmi 48 patients ).



Cette efficacité repose sur une optimisation de l’analyse bioinformatique et notamment sur une considération pour les variations intra et inter-run qui se situent  bien souvent à la frontière avec les faibles modifications de la distribution des séquences entre un cas sain et un cas d’aneuploïdie.  L’algorithme développé utilise des valeurs de chromosome normalisées établies sur la base d’un ensemble de données de séquençages provenant d’échantillons parmi lesquels certains sont connus comme ayant un caryotype anormal.

En podcast de « clinical chemistry », le Dr. Richard P. Rava, co-auteur de l’article proposé précédemment, revient sur des points de détails et explications concernant le développement de l’algorithme optimisé pour les détections d’aneuploïdies.

 

Une revue intéressante et qui se veut exhaustive sur les conséquences de la généralisation des technologies de séquençage et les solutions/adaptations possibles, on y retrouve pèle-mêle :

– Un listing à jour (2011) des différentes plateformes dédiées à la génération de données de séquençage (Illumina, Roche, Life Technologie pour ne citer qu’eux…) et leurs spécificités;

– La description de quelques stratégies de NGS : identification de variants, séquençage d’éxome, séquençage sur des régions précises…

– Les problématiques en bioinformatiques : stockage et analyse de  données, développement de solutions logicielles adaptées…

– Les différentes analyses ainsi que des listes de logiciels pour répondre aux besoins: assemblage denovo et sur génome de référence, annotation et prédiction fonctionnelle, autant open-source que sous licence payante.

 

 

La PCR est l’un des outils de base dans la boîte du biologiste moléculaire. Devenue accessible, totalement démocratisée dans les laboratoires, elle demande cependant une certaine exigence dans son développement.

Dans un premier temps il est essentiel de définir à quel type de PCR nous avons à faire :

PCR de détection (diagnostic ?) : celle qui vous permet de croire que vous avez dans votre extraction l’agent infectieux que vous tâchez de cibler

– PCR de monitoring : celle qui vous suffit pour admettre que vous validez ou non l’expérience que vous désirez suivre, celle qui vous  dit que vous avez contaminé votre extraction d’ARN en ADN génomique, par exemple

– PCR de production : celle qui vous permet d’obtenir le plus de produit spécifique afin d’exploiter ces quelques centaines de paires de bases pour en faire ce que vous avez imaginé (reporters à spotter sur puce ADN ou insert pour un clonage)

– PCR quantitative : celle qui se résume à estimer du mieux possible la quantité d’acides nucléiques ciblés présents initialement dans une PCR (cDNA, cible pathogène…).

aperçu du design d'amorces PCR

aperçu du design d’amorces PCR

Il est fondamental de reconnaître à quel genre s’apparente la PCR dont vous avez designé les amorces avec le plus grand soin. Peut être parce que les objectifs visés sont réellement différents voire opposés.

Les grandes étapes aboutissant à un design sont résumées ci-dessus. Il convient d’extraire en format FASTA, la séquence qui vous servira de matrice PCR, le logiciel d’aide permettra d’écarter les amorces de qualités douteuses (auto-appariées, peu spécifiques…), la proposition de design sera soumise dans un Blast (dont les paramètres dépendront du type d’application de votre PCR), dans le cas d’une qPCR SybrGreen il peut être intéressant d’utiliser un mFold sur l’amplicon que vous souhaitez générer, enfin l’ulitsation d’un autre service web tel que OligoCalc permettra de valider les paramètres de vos amorces en confrontant ceux-ci à ceux que vous aurez obtenus en sortie de logiciel d’aide au design.

Commençons par aborder les paramètres d’importances de cette technique de biologie moléculaire : la spécificité, la sensibilité, l’efficacité. Quand la PCR de détection cumulera sensibilité et spécificité, la PCR de monitoring devra être efficace et simple à mettre en place (quelques heures de développement entre ces deux variantes…). La première étape, la plus essentielle, consistera à designer des amorces (nous parlerons des sondes ultérieurement). Avant cela il vous faudra vous doter d’une stratégie de design et peut être d’un (le mieux serait plusieurs) logiciel d’aide au design d’amorces. Parmi tous les logiciels disponibles, rien ne sert de casser le cochon, il existe beaucoup de gratuiciels acceptables pour la grande majorité des applications. Parmi ceux-ci, notons :

FastPCR : quelques bugs, mais globalement cette solution à notre préférence pour sa modularité. Le logiciel gère les PCRs multiplexes, propose un grand nombre d’outils intégrés de manipulations de séquences. Il s’agit de l’une des seules solutions gratuites qui est l’équivalent d’une solution payante (mode d’emploi FastPCR disponible). Le logiciel quant à lui est disponible ici (dans sa version antérieure, plus stable, dont nous voyons une capture d’écran ci-dessous).

Parmi les critères généraux, les paramètres de design transposables à tout type de PCR sont les suivants :

– Longueur des oligonucléotides = 16 à 26 nt

Taux de GC = 40 à 70% (idéalement autour des 55 %)

Tm des oligonucléotides ~ 60°C (si vous développez une PCR diagnostique la température d’amorçage = Tm, si vous souhaitez produire il faudra diminuer de 2°C la température d’amorçage par rapport au Tm des amorces)

Du GC%, de la concentration en amorces et de la concentrations en cations dépend le Tm (définie comme la température pour laquelle 50 % d’une séquence donnée  est sous forme double hélice et 50 % est sous forme simple brin). C’est donc ces paramètres qu’il faut intégrer lors du design. Bien maîtrisé, un design permettra de gagner un temps précieux lors des phases de mise au point et d’optimisation d’une PCR. Ceci étant particulièrement vrai pour ce qui concerne la mise au point d’une PCR quantitative.

D’autres paramètres évidents concernent la séquence ciblée en tant que telle. Sachant qu’en fonction de celle-ci la marge de manœuvre est plus ou moins grande.

– maximiser autant que possible les zones de grandes complexité linguistique (celle avec le moins d’homopolymères, FastPCR tient compte de cette notion pour designer des amorces et se sert de ce paramètre pour calculer son indice de qualité de design)

– en 3′ des amorces, sur les 5 dernières bases, autant que possible, rassembler un maximum de bases A ou T (3 A ou T sur ces 5 dernières bases) afin d’en diminuer le Tm en 3′ et ainsi d’accroître la spécificité des amorces designées

Selon le type de PCR à laquelle nous avons à faire les contraintes de design peuvent être radicalement différentes :

– ainsi, vous souhaiterez designer dans 2 exons différents lorsque vous souhaiterez suivre la contamination en ADNg d’une extraction d’ARN par exemple

– ainsi vous souhaiterez designer sur une région à cheval sur 2 exons (sur la base donc d’une séquence cDNA, ARN) pour les applications de qPCR liées à la mesure du niveau de modulation différentielle de votre ARN cible

schéma sur une nappe d’une PCR hybride

Truc et astuce pour diminuer vos coûts de séquençage d’amplicons en SANGER : la PCR hybride !

1/ Réalisation de PCR en tubes indépendants, l’amorce reverse (PCR A) et l’amorce forward (PCR B) des 2 PCR auront des séquences Tag synthétiques complémentaires

2/ La deuxième étape consistera en une élongation unidirectionnelle. Les 2 amplicons synthétisés lors de la PCR 1 s’apparieront grâce à leur séquence Tag complémentaire. Le produit de la PCR2 sera un hybride PCR A-séquence chimérique – PCR B

3/ Une dernière PCR, prenant la Forward de PCR A et la Reverse de PCR B seront utilisées… le produit néosynthétisé pourra être séquencé (2 ou plus pour le prix d’un, en outre bien optimisée ce type de PCR peut permettre d’amplifier des « signaux faibles »).

 

Alignement de séquencesIl s’agit d’un run sans valeur biologique qui a été réalisé dans le cadre d’une validation proposée par le fournisseur (Life) pour le « label CSPro ». Ce run consiste notamment, en un re-séquençage de E. coli DH10B.

Ce type de données peut (vous) permettre d’évaluer la technologie (taux d’erreur, profondeur…) de séquençage haut-débit d’une part. D’autre part ces données peuvent servir afin d’évaluer les logiciels d’assemblage tels que ceux que nous possédons (DNastar, CLC genomic workbench, Partek…) pour des reads issus de PGM (Ion Torrent).

Vous trouverez ci-dessous une partie du rapport de run relative à la qualité des reads générés et alignés sur le génome de référence à l’aide de la suite Ion Torrent version 1.4.1

Ce run a été réalisé sur une puce 314, consommable fourni pour 10 Mbases de séquençage brut (ici nous dépassons les spécifications, 32.99 Mbases séquencées, même si le présent run est considéré comme assez moyen par rapport aux résultats précédemment obtenus). Malgré tout, il est possible de couvrir un petit génome à plus de 4X à des coûts imbattables (pour l’instant)!

 

Il s’agit d’une application rendue possible grâce à Google Map et hébergée sur un blog du Pallen Research Group. Cette application permet de connaître (en partie, car il s’agit d’un recensement sur déclaration volontaire des utilisateurs) des lieux où sont implantées les différentes technologies de séquençage haut-débit.

cartographie des plateformes de séquençage haut-débit
cartographie des plateformes de séquençage haut-débit
Set your Twitter account name in your settings to use the TwitterBar Section.