Currently viewing the category: "Séquençage"

Un document paru dans la Ion Community (site de partage autour de la technologie Ion Torrent et Ion Proton de Life Technologies) commence à faire parler de lui. En effet, des scientifiques de Life Technologies montrent et démontrent que le MiSeq d’Illumina produit (aussi) des erreurs au niveau des homopolymères.

Nous savions depuis longtemps que les séquenceurs de type 454 ou Ion Torrent montraient des biais quant à détermination correcte de ce type de séquences… Ici, pour la première fois les méthodes de SBS (Sequencing By Syntesis) dont le principe pour la technologie Illumina est rappelée par le schéma disponible ci-dessous, montrent des biais étonnement importants pour la juste détermination de séquences adjacentes d’homopolymères (particulièrement concernant les régions GC % riches). La note qui met le feu dans l’argumentaire commercial d’Illumina est disponible ici-même. Une hypothèse quant à la génération de ce type d’erreurs est formulée.

Nous vous laissons le soin de lire la note, intéressante malgré la partialité de la source. La démonstration quoique scientifique, montre l’âpreté de la bataille qui se joue entre les acteurs majeurs du séquençage de paillasse de deuxième génération.

Cet article est l’occasion de mettre en avant un site plutôt fourni, SEQanswers… un jeu de mots pour une communauté d’utilisateurs de technologie de séquençage haut-débit. Ce site, un peu bouillon, fondé en 2007 par Eric Olivares (qui a travaillé pour Pacific Biosciences) s’adresse aux biologistes moléculaires plus qu’aux bio-informaticiens. Malgré tout, le lien que nous vous présentons ici, renvoie sur la partie Wiki du site SEQanswers. Cette page liste et ordonne en fonction de leurs domaines d’applications les logiciels (gratuits et commerciaux) utiles pour le devenir de vos reads produits par séquençage haut-débit : http://seqanswers.com/wiki/Software/

Cette page est plutôt bien renseignée et vous donnera un large choix de logiciels : vous y trouverez des assemblers de novo, des logiciels pour réaliser du RNAseq (quantification), des logiciels permettant de trouver des pics après ChipSeq… peu de logiciels indispensables sont absents de cette liste qui comporte un peu moins de 500 logiciels…

La paléontologie, la science des fossiles et des traces de vie du passé, use de méthodes de biologie moléculaire de pointe qui  pallient les effets du temps qui passe…

Afin d’introduire ce premier article traitant de paléogénomique, les moyens de la biologie moléculaire au service de la paléontologie, une vidéo amuse-bouche (Auteur(s) : Eva-Maria Geigl, Réalisation : Samia Serri, Production : Université Paris Diderot, Durée : 17 minutes 40 secondes) est disponible en usant du fameux clic gauche sur la capture d’image ci-dessous. Cette vidéo vaut surtout pour l’accent mis sur les précautions indispensables pour l’étude d’un échantillon précieux fossilisé… et dont l’ADN, peu abondant, peut être fragmenté. En outre, des mesures simples mais draconiennes permettent de limiter les sources de contaminations, quand l’ADN moderne peut polluer l’ADN fossile. Le port de sur-chausses, de masque et les changements de blouses, le non croisement des échantillons avant et après amplification sont autant de précautions mises en avant dans cette vidéo… une occasion de visiter virtuellement les laboratoire de l’Institut Jacques Monod.

L’une des problématiques liées à l’étude de l’ADN « fossile » réside dans sa faible quantité disponible. Plusieurs méthodes de biologie moléculaire ont été envisagées pour amplifier ce matériel génétique afin d’en permettre l’expertise. Une publication dans BMC Genomics de 2006, Assessment of whole genome amplification-induced bias throughhigh-throughput, massively parallel whole genome sequencing, relate la comparaison de 3 méthodes d’amplifications pan-génomiques (méthodes WGA pour Wide Genome Amplification) d’ADN qui pourra devenir ensuite la matrice suffisante d’un séquençage haut-débit.

– la PEP-PCR (Primer Extension Preamplification-PCR) : cette technique fait intervenir des amorces aléatoires aux conditions d’appariement à basse température (low melting temperature) qui initieront la PCR

référence : Zhang, L. et al. (1992) Whole genome amplification from a single cell: Implications for genetic analysis. Proc. Natl. Acad. Sci. USA 89, 5847

– la DOP-PCR (Degenerate Oligonucleotide Primed-PCR) : cette technique, quant à elle, fait intervenir des amorces semi-dégénérées (de type : CGACTCGAGNNNNNNATGTGG) qui ont une température d’hybridation supérieure à celles utilisées dans la PEP-PCR

référence : Telenius, H. et al. (1992) Degenerate oligonucleotide-primed PCR: general amplification of target DNA by a single degenerate primer. Genomics 13, 718.

L’utilisation d’une Taq PCR limite la taille des fragments néo-synthétisés qui ne dépassent guère 3 kb.  En outre, ces deux techniques, à l’instar de ce qui peut être démontré dans la publication de BMC Genomics 2006 (mentionnée ci-dessus), induisent des erreurs de séquences accompagnées de nombreux biais d’amplification (certaines régions ne sont pas amplifiées au profit de régions qui deviennent, de fait, sur-représentées).

– la MDA (Multiple Displacement Amplification) : cette amplification iso-thermique fait intervenir des amorces aléatoires de type hexamères et une enzyme, la phi29. Le type d’amplification générée est schématisées sur la figure ci-dessous. L’enzyme surfe à partir du brin néo-synthétisé, déplace un brin complémentaire pour continuer sa synthèse. Ainsi, les brins générés par cette technique peuvent atteindre 100 kb. En outre, la phi29 possède une activité 3′ -> 5′ de relecture (proofreading) lui conférant un taux d’erreur 100 fois moindre que ceux constatés pour des Taq polymérases classiquement utilisées dans les techniques de PEP- ou DOP-PCR

source : Cold Spring Harb Protoc 2011.2011: pdb.prot5552 (la légende originale de la figure est disponible en cliquant sur celle-ci)

Ces techniques d’amplification pangénomique ont rendu possible l’étude d’ADN anciens et peu abondants et tout naturellement elles ont trouvé leur place dans la boîte à outils moléculaires des paléogénéticiens. Cependant, la révolution des séquençages haut-débit (dont nous avons abordé le sujet à plusieurs reprises) laisse entrevoir un nouveau champ des possibles pour l’étude des ADN fossiles. Au fond, des technologies telles que celle développée par Helicos Biosciences, trouvent ici un réel champ d’application à l’instar de ce que développe la publication True single-molecule DNA sequencing of a pleistocene horse bone de Genome Research, 2011- nulle nécessité d’amplifier la matrice de départ. Cette publication compare des technologies de séquençage de 2ème et 3ème générations (GaIIx et Helicos) appliquées au séquençage de l’ADN isolé à partir d’un os de cheval pleistocène conservé dans permafrost. Le séquençage « single molecule« , une chance pour la paléogénomique !

Tagged with:
 

Noblegen Biosciences, start-up localisée dans le Massachusetts, ambitionne de commercialiser pour 2014 « optipore » (pour « optical detection » et « nanopore ») , un séquenceur de paillasse de troisième génération combinant nanotechnologies et un système de lecture optique permettant de réduire drastiquement les coûts de séquençage. L’objectif est de conquérir le marché des laboratoires cliniques dans la perspective de l’émergence d’une médecine personnalisée et de proposer ainsi un séquençage de génome humain complet à faible coût et dans un temps record. Dans cette course engagée, la société américaine se trouve en bonne position.

A l’instar du PGM Ion torrent, une puce en silicium constitue le coeur de la machine et renferme des centaines de nanopores. La molécule d’ADN unique native destinée à être séquencée est tout d’abord convertie en une nouvelle molécule synthétique transformant chaque base par une séquence nucléotidique spécifique correspondante.  A chacune des quatre signatures nucléotidiques correspond un « molecular beacon » complémentaire fluorescent initialement inactivé par un système de « quencher ».  Leurs hybridations au brin néoformé aboutit à un ADN double brin. la molécule est dirigé vers les nanopores par des échanges ioniques et en raison de la taille des orifices, les « molecular beacon » sont contraints à se deshybrider libérant cette fois une fluorescence, lue par un capteur photographique de type CMOS, qui est traduite en séquence.

L’ensemble des études et preuves de faisabilité sur lesquelles repose la technologie de séquençage « optipore » sont décrites et détaillées au travers de l’article libre d’accès ci dessous:A ce jour, peu de caractéristiques techniques liées à cette plateforme filtrent mais Frank Feist, cofondateur de la société, annonce une capacité de séquençage de 500 Gb/heure. De plus, en raison de l’étape de conversion initiale, la taille des fragments serait limitée à 200 bases.
Un soutien de 4,2 millions de dollars en septembre dernier de la part du National Human Genome Research Institute devrait permettre à la société américaine de conforter cette avancée prometteuse.

La confusion entre mate-pair et paired-end, tant au niveau technologique (selon qu’on lise les notes techniques d’Illumina, de Roche ou de Life) que logiciel nous a mené à rédiger, en collaboration avec Ségolène Caboche, Bioinformaticienne à l’université de Lille2, une note technique dont le contenu est résumé ci-dessous :

– Genèse de la confusion entre mate-pair et paired-end

– Descriptions les deux approches, avec un focus sur les principales technologies de seconde génération de séquenceurs

– Traitement au niveau logiciel et conseils généralistes pour l’utilisation

Le document est consultable dans son intégralité sur notre blog :

Télécharger Paired-end versus mate-pair

Bonne lecture!

L’AGBT qui a eu lieu du 15 au 18 février, à Marco Island, a fait la part belle à la technologie d’Oxford Nanopore, ainsi qu’il avait été prévu. La société dont il est question a profité du rassemblement pour lever le voile sur 2 produits : le MinION et le GridION, il est à noter que le MinION, mini-système de séquençage de la taille d’une grosse clé USB (photo ci-contre) a une dénomination commerciale tout particulièrement adaptée au marché français.

La technologie d‘Oxford Nanopore a été évoquée dans plusieurs de nos articles. Elle permet le séquençage et l’analyse à haut-débit de reads de taille ultra longue (plusieurs kb) en temps réel pour pas très cher : la promesse d’un séquençage de 3ème génération démocratisé. Clive G. Brown (directeur de la technologie chez Oxford Nanopore) a présenté ses deux nouveaux jouets :

– Le MinION (dont le prix serait inférieur à 900 $) est un consommable et séquenceur (les deux à la fois) jetable qui devrait permettre de générer 1 Gb de données

– Le GridION (que vous pouvez empiler à foison, voire photo ci-dessous) permet quant à lui de générer, par module,  plusieurs dizaines de Gb / jour (on pencherait pour un minimum de 25 Gb) sachant que selon nos informations un module aurait un coût voisin de 30 k$. Oxford Nanopore insiste sur le fait qu’à la Gb générée ils seront concurrentiels en terme de coût des consommables. En outre, le volume de données générées s’adapte à la problématique de l’utilisateur puisqu’en effet tant que l’appareil séquence -d’où leur slogan « Run Until« – il génère des données (le débit journalier associé à une technologie prend tout son sens ici). La cartouche –consommable de séquençage– associée à la technologie GridION possède actuellement 2000 pores individuelles -en 2013, il est prévu de passer à un consommable en comportant 8000- avec cette évolution il sera donc possible avec 20 modules GridION (environ l’investissement équivalent à un HiSeq2000) de séquencer un génome humain en 15 minutes ! Une autre façon de voir les chose est la suivante, dans sa version « actuelle » à 2000 pores disponibles : pour un prix équivalent à celui d’une configuration de type Ion Proton, 5 modules GridION seront capables de séquencer un génome humain à 30 X (cela leur prendrait une demie journée).

D’autres éléments ont filtré lors de l’AGBT. En effet, il semblerait que la technologie d’Oxford Nanopore subisse un taux d’erreurs sur séquences brutes encore assez élevé de 4 % (comparé aux plus de 10 % pour la technologie de Pacific Bioscience). Clive G. Brown aurait laissé entendre que ce taux d’erreurs serait uniforme et le fruit d’une majorité d’erreurs systématiques (ce qui est plutôt bon signe, en vue d’une rapide amélioration du système). Au niveau du système de détection, une puce GridION comporte 2K capteurs (un par pore). Chaque capteur permet de distinguer 64 signaux différents, ceci a permis d’analyser le passage de triplets de base afin de pouvoir discriminer 4x4x4 profils différents (j’avoue que j’attendais plus : quid de la prise en compte d’un signal différentiel en cas de présence d’une 5-méthylcytosine ?).

Au niveau préparation des échantillons, un séquenceur de 3ème génération ne nécessite pas de phase d’amplification. Hormis une phase préalable de légère fragmentation de l’échantillon rien ne semble envisagé. Pour palier leur problème de fiabilité, on imagine aisément qu’à l’instar de Pacific Bioscience, une circularisation de l’ADN de l’échantillon permettra d’engendrer en séquençage un nombre suffisant de répétitions venant atténuer ce point négatif.

Un élément important -mais pas surprenant- réside dans la politique commerciale affichée : une distribution directe des machines ainsi qu’une adaptation tarifaire (en usant de forfaits) offrant la possibilité d’acheter la machine à prix réduit avec un report sur le coût des consommables devrait permettre à Oxford Nanopore de conquérir quelques marchés n’en doutons pas !

Sequenom est une autre société californienne de biotechnologie (cotée  au NASDAQ) basée à San Diego. Cette société développe des outils d’analyse génomique avec deux principales divisions:

– l’une d’elles développant des systèmes d’analyse génétique (type MassARRAY)

– l’autre se concentrant sur la recherche et développement de réactifs transférables sur la plateforme technologique développée par la première division.

Depuis 2008, Sequenom développe des  outils analytiques de paillasse, les systèmes ‘MassARRAY’, appareillage compact permettant une mesure directe de la masse des acides nucléiques, offrant une précision inégalée quant à leur nature et leur quantification. Ce système, sur la base d’un spectromètre de masse, multi-MALDI-TOF MS, trouve des applications pour le génotypage, l’ analyse de la méthylation et l’expression génique. Sequenom continue d’affiner ces applications et de développer plusieurs nouvelles applications pour l’analyse de CNV (Copy Number Variation) par exemple.

Cette technologie est chahutée par les séquenceurs haut-débits de paillasse et autres systèmes permettant de génotyper une grande quantité d’échantillons tels que les systèmes proposés par Fluidigm. Le système MassARRAY bénéficie d’une sensibilité hors pair, les kits diagnostiques développés sur leur plateforme permettent à Sequenom de faire perdurer leur technologie. Les kits diagnostiques prénataux comme le MaternitT21 offre une alternative à l’amniocentèse pour diagnostiquer les trisomies 21, (en février 2012, Sequenom a lancé le MaterniT21 PLUS, permettant de diagnostiquer les trisomies 21, 18 et 13) de manière non invasive ciblant lADN fœtal circulant dans le système sanguin maternel. Après des suspicions quant à un délit d’initié potentiel, des cadres de Sequenom sont surveillés par la SEC (Securities and Exchange Commission), de plus le développement des kits diagnostiques prénataux a connu des difficultés en 2010. En effet, la société a été condamnée à verser 14 millions de USD pour régler un recours (en « class-action ») : des actionnaires se sont retournés sur la société considérant que le développement du kit diagnostique de la trisomie 21 avait été plus que mal géré (notamment au niveau des essais cliniques).

La technologie MassARRAY est encore très employée pour le passage de cohortes suite à des études d’associations génétiques (les puces haute-densité sont employées dans un premier temps, suivi du passage des loci candidats sur une plateforme plus souple, telle que le MassARRAY, permettant d’interroger les mutations putativement associées au phénotype étudié). Un document en lien ici, reprend les principales caractéristiques de la plateforme de génotypage.

Bien que la plateforme MassARRAY trouve vite ses limites, la société Sequenom s’emploie à développer des solutions diagnostiques qui retardent l’obsolescence de leur technologie. La société a connu des soubresauts économico-judiciaires dont elle a su se relever, elle tente d’accélérer la diffusion de plusieurs de ces kits diagnostiques avant que sa technologie ne soit dépassée par la concurrence.

Ce post fait naturellement suite à celui dédié à la seconde génération de séquenceurs multi-parallélisés, et conserve la même approche, à savoir un tour d’horizon des technologies et une évocations des informations générales sur le sujet.

A l’instar du PGM de Ion torrent mis sur le marché depuis un an (10Mb – reads 100b – 06.2011 / 100Mb – reads 200b -11.2011 / 1Gb – reads 400b – prévu début 2012), la seconde génération de séquenceurs haut débit tend vers une production de reads de plus en plus longs et de moins en moins chère. Toutefois, on est en droit de se demander quelle sera leur pérennité face à la 3éme génération répondant à un cahier des charges assez similaire et la possibilité de bénéficier de nouvelles applications.

 

Le principe de la 3ème génération peut être symbolisé par le séquençage d’une molécule d’ADN sans étape de pré-amplification (contrairement à la génération actuelle type 454 Roche, SOLiD Life technologie, Ion Proton, PGM Ion torrent, HiSeq Illumina, …) en conservant l’incorporation de nucléotides, par cycles ou non ( dans ce dernier cas, le terme de « Séquençage d’ADN simple molécule en temps réel » est approprié).

Les technologies « SMS » pour « Single Molecule Sequencing » peuvent être regroupées selon trois catégories:

– Technologies de séquençage en temps réel impliquant la synthèse du brin d’ADN complémentaire via une ADN polymérase.

– Technologies de séquençage par détection des bases successives d’une molécule d’ADN au travers de nanopores.

– Technologies de séquençage basées sur des techniques de microscopie.

En combinant les dernières avancées dans la nanofabrication, la chimie de surface et l’optique, Pacific Biosciences (Pacbio RS) a lancé une plateforme technologique puissante appelée technologie de molécule unique en temps réel, ou « SMRT » pour « Single Molecule Real-time sequencing ». Parmi ses concurrents directs, Helicos Biosciences (Helicos) qualifié  « tSMS » pour « True Single Molecule Sequencing ». Malgré le recours à une technologie analogue, la mention « Temps réel » auquel il échappe est simplement liée à une incorporation cyclique des nucléotides fluorescents.

D’autres technologies, à des degrés de développement plus ou moins avancé, sont dans les tuyaux et qui sait de Noblegen, Starlight, Cracker Bio, NABSys, Halcyon, ou autres…  révolutionnera encore un peu plus cet univers du haut débit et suivra le chemin emprunté dernièrement par Oxford Nanopore

 

Pierre Barthélémy, journaliste scientifique au monde, a publié hier sur son blog (passeurdesciences.blog.lemonde.fr) une interview de Etienne Danchin (directeur de recherche CNRS et directeur de l’EDB) qui nous parle de la nécessité  de s’extraire du dogme du « tout-génétique » pour s’intéresser plus précisément à d’autres mécanismes qui régissent l’hérédité, tel que l’épigénétique, l’hérédité culturelle  et environnementale.

Vous pouvez retrouver l’interview dans son intégralité ici :

http://passeurdesciences.blog.lemonde.fr/2012/01/31/la-theorie-de-levolution-doit-faire-sa-revolution/

Cette interview fait suite à la publication d’une synthèse sur l’hérédité non génétique et son rôle dans l’évolution parue dans Nature Reviews Genetics en Juillet 2011 que vous pouvez consulter en intégralité ici.

Etienne Danchin n’est pas le seul à s’interroger sur la part réelle de la génétique dans les mécanismes de l’hérédité, nous vous conseillons une nouvelle fois l’excellente émission de Jean Claude Ameisen (à écouter dans ce post) qui aborde ces aspects de la transmission génétique et   non génétique, entre générations.

Principales voies transmises de génération en génération (Nature Reviews Genetics 12, 475-486 (July 2011))

L’hérédité culturelle est une composante en général peu discutée (notamment dans le domaine animal):  quelle est la part de variation phénotypique qui peut être expliquée par une transmission sociale (ou transmission par apprentissage)? A noter que le rôle de la composante culturelle dans l’hérédité a été formalisé dans les années 1970, ça ne date donc pas d’hier, mais comme toutes les composantes non génétiques impliquées dans l’hérédité elle s’est retrouvée minimisée, voire ignorée, au profit de la composante génétique.

Quoi qu’il en soit, à l’heure de l’arrivée de la 3eme génération de séquenceur haut-débit et de la génération toujours plus astronomique de données génomiques,  il est toujours bon de rappeler que le seul transfert de gènes n’explique qu’une proportion des mécanismes étudiés.

Pierre Barthélémy, journaliste scientifique à publié hier sur son blog (passeurdesciences.blog.lemonde.fr) une interview de Etienne Danchin (directeur de recherche CNRS) qui nous parle de la nécéssité de sortir du dogme du « tout-génétique » pour s’intérésser plus précisement à d’autre mécanisme qui régisse l’hériédité, l’épigénétique, l’hérédité génétique et environementale.

Vous pouvez retrouver l’interview dans son intégralité ici :

http://passeurdesciences.blog.lemonde.fr/2012/01/31/la-theorie-de-levolution-doit-faire-sa-revolution/

Cet interview est le résultats d’une synthèse sur l’hérédité non génétique et son rôle dans l’évolution publié dans Nature Reviews Genetics en Juillet 2011 que vous pouvez consulter en intégralité ici.

Etienne Danchin n’est pas le seul à s’intéroger sur la place réelle de la génétique dans les mécanisme de l’hérédité, nous vous conseillons une nouvelle fois l’excellente émission de Jean Claude Ameisen (à écouter dans ce post).

A Davos en Suisse (dans la patrie de Roche)  au forum économique mondial, Jonathan Rothberg présente son séquenceur Ion Proton, une évolution de son PGM de Life Technologies. La dépêche AFP (mise en forme par 20minutes est disponible en cliquant sur l’image ci-dessous) est dithyrambique replaçant la machine de Life Technologies dans le contexte et le champ d’application de la médecine personnalisée… jouant au passage du violon de l’affect. Le Ion Proton, fort de la démonstration menée par son petit frère le PGM depuis un an (200 machines PGM en Europe !) s’appuie sur l’efficience du séquençage à l’aide de semi-conducteurs.

Il parait évident que la médecine personnalisée aura un futur au sein des pays développés… mais il ne faut pas oublier qu’il s’agit d’un futur que l’on augurait aux puces à ADN, il y a plus de 10 ans, sans réelle démocratisation au sein des cliniques. Avant toute chose, permettre de séquencer l’équivalent d’un génome humain ou de 2 exomes humains pour la somme soutenable de 1000 $ (en 2 heures) laisse entrevoir une accélération des recherches biomédicales mais aussi de toutes les autres ! Cet outil qui torpille un MiSeq (Illumina) sorti trop tard, diffusera dans les laboratoires… il remporte, malgré ses défauts d’ores et déjà connus, la bataille du séquençage 2ème génération. Le prochain pari (plus aléatoire) porterait plutôt sur le séquençage 3ème génération dont la promesse est une lecture d’une molécule d’ADN ou d’ARN (non amplifiée artificiellement) dans son « état » originel (méthylé ou non par exemple). La 3ème génération unifie génomique et épigénétique.

Le Ion Proton devrait être livrable à partir d’octobre 2012, quelques chanceux pourront malgré tout réaliser des runs dès le milieu de l’année (il faut en acheter un minimum de 4 pour être un parmi ces privilégiés).

Un Ion Proton devrait avoir un coût proche de 140 k€ auxquels il vous faudra ajouter 65 k€ de serveur informatique.

Set your Twitter account name in your settings to use the TwitterBar Section.