Currently viewing the tag: "séquençage haut-débit"

Le terme « Nouvelle génération de séquençage à haut-débit » ( ou « Next generation sequencing » ) regroupe l’ensemble des technologies ou plateformes de séquençage développées depuis 2005 par quelques sociétés de biotechnologies.

L’objectif de cet article est de proposer de manière synthétique, un tour d’horizon des différents principes et caractéristiques de  ces nouveaux outils et ainsi fournir quelques orientations et solutions techniques  en réponses à des questions biologiques.

La position actuelle dans laquelle nous nous trouvons, entre la commercialisation de certains séquenceurs et ceux en cours de développement, est caractéristique d’une période charnière dissociant les technologies à haut débit dites de 2ème génération qui requièrent une étape d’amplification des molécules d’ADN en amont du décodage, de celles dites de 3ème génération permettant le décryptage direct d’une seule molécule d’ADN. Cette dernière catégorie fera à elle seule l’objet d’un prochain article.

Le marché des séquenceurs de 2éme génération est couvert par 3 grand groupes que sont Roche, Illumina et Life Technologies ayant respectivement proposés de manière successive, leur première plateforme à savoir le 454, le Genome Analyser et enfin le SOLiD. Depuis, le marché s’est étoffé proposant un panel de technologies au principe et caractéristiques propres telles qu’elles sont mentionnées ci dessous. A noter que parmi ce panel, le PGM, Ion torrent est le seul a connaitre une évolution constante en terme de capacités de séquençage (10Mb – reads de 100b – Juin 2011 / 100Mb – reads de 100b – Sept 2011 / 100Mb – reads 200b – Nov 2011 / 1Gb – Jan 2012 )

Chaque plateforme possède ses avantages et inconvénients et nombreuses sont celles configurées pour répondre à de nombreuses approches « omics », dans certaines limites. Il s’agira de faire un choix technologique selon les champs d’applications souhaités.

De manière générale, le type d’organisme étudié prédéterminera la technologie à employer. La notion de profondeur est récurrente à chaque application et dans l’objectif d’un reséquençage,  le choix de la plateforme peut être identifié, de manière simplifiée, sur la base d’un calcul rapide ( P = N / L où P: Profondeur, N: Nombre des nucléotides totaux des reads, L: Taille du génome étudié).

Concernant les  séquenceurs de 2ème génération, le séquençage de novo est une application mentionnée chez de nombreux fournisseurs (cf le tableau ci-dessous). Toutefois, l’association de deux technologies générant à la fois des reads longs (type 454, Roche) et une profondeur conséquente  (type GAIIx, Illumina) palliant aux problèmes liés aux homopolymères et erreurs de séquençage, est préconisée (Au cours de l’article à venir sur les séquenceurs de 3ème génération, nous aborderons les plateformes davantage configurées pour cette application).

Ce paramètre de profondeur sera également à prendre en considération pour les champs d’applications incluant  la notion d’analyse quantitative (RNAseq, ChIPseq, …). Si la profondeur permet d’atténuer les erreurs de séquençage, il reste néanmoins préférable de s’orienter vers des technologies à Q30 minimum (1 erreur sur 1000) pour la détection de SNPs.

Selon les technologies évoquées ci-dessus, les caractéristiques et champs d’applications ont évolués. Aussi, je vous propose de retrouver l’ensemble de ces informations actualisées en cliquant sur ce lien.

L’ensemble des informations sont détaillées dans l’article mentionné ci-dessous:


 

Constat : le séquençage, un générateur fantastique de données

Figure 1.0 : Accroissement des données insérées dans GenBank

L’explosion de la génération de données génomiques (Figure 1.0) et l’hétérogénéité de ces données entraînent inévitablement un accroissement de l’écart entre les données, les connaissances et l’information que l’on peut en extraire (Figure 1.1).

Le développement d’outils bioinformatiques permet de répondre à l’analyse de données dans l’ensemble des domaines de la biologie, mais le besoin en formalisation (des formats, des processus, des architectures matérielles…) est primordial si l’on veut éviter les problèmes d’incompatibilité et de réutilisation des solutions.

Biomedical informatics in translational research Par Hai Hu,Richard J. Mural,Michael N. Liebman

Figure 1.1 : Issu de "Biomedical informatics in translational research" Par Hai Hu,Richard J. Mural,Michael N. Liebman

 

En conséquence, afin d’obtenir des informations interprétables biologiquement à partir de ces données, la mise en place de processus d’analyse va de pair avec  l’utilisation de logiciels à jour, efficaces pour la gestion de données à grande échelle.

En outre, les logiciels doivent aussi simplifier cette gestion de données et fournir des outils d’analyses bioinformatiques accessibles mais aussi reproductibles pour tous types d’utilisateurs – dont les biologistes eux-mêmes. C’est dans ce cadre que s’insèrent l’automatisation de processus (ou « Workflow ») et le développement de « Workflow management system », ou logiciel de Workflow, pour la bioinformatique.

Workflow ou automatisation de processus : définition

Le logiciel de Workflow s’inscrit aussi dans une logique de pérennisation des processus analytiques, qui a pour but de sortir de la logique « projet » (dans le sens ponctuel) en créant des processus d’analyses génériques.

Un logiciel de Workflow est un outil permettant d’exécuter un ensemble de processus de façon automatique. Ces « pipelines » sont très présents en bioinformatique (à défaut d’être tres utilisés) car ils permettent aux chercheurs en biologie d’analyser leurs données (issues de séquencages, génotypages) de façon relativement transparente et (quasiment) sans l’aide d’informaticiens (denrées rares dans la recherche).

Toutefois, il convient de distinguer deux sortes de logiciel de Workflow :

– Les logiciels de Workflow qui permettent aux chercheurs de manipuler leurs données et exécuter leurs analyses sans posséder de connaissances en écriture de scripts ou en bases de données. Les données sont rapatriées au sein du logiciel de Workflow, permettant l’exécution d’un ensemble de tâches, à travers des modules pré-installés. En séquençage, le Workflow permet de convertir des séquences en formats divers, les filtrer  ou les assembler…  Le logiciel de Workflow ISYS (2001), BioMOBY, Taverna et plus particulièrement Galaxy (qui fera l’objet d’un prochain post ici) entrent dans cette catégorie.

– Les logiciels de Workflow qui assurent un accès direct à des composants (installés sur le serveur) et/ou aux données génomiques sans passer par un rapatriement préalable des données. WildFire, Pegasys ou Ergatis (ce dernier sera décrit dans un prochain post) font partie de cette catégorie. De manière générale ces logiciels de Workflow sont plus difficiles à prendre en main mais sont évidemment plus flexibles.

Pour résumer, quel que soit le logiciel de Workflow utilisé il permet :

– D’automatiser des processus d’analyse (idéalement répétitifs) en les reliant dans un pipeline

– De lancer des analyses sur des architectures matérielles complexes telles des grilles de calculs (voir l’article sur Grisbi) ou des serveurs

– De formaliser le processus d’analyse en vue d’une publication scientifique

Philosophie générale : interaction et exemple de workflow

Pour finir cette introduction, nous vous proposons deux schémas : la place du logiciel Workflow et un exemple concret.

 

workflow - interaction et intégration - biologistes et bioinformaticiens

Figure 1.2 : Intégration d'un logiciel de Workflow dans la recherche en biologie

Exemple de workflow
Figure 1.3 : Exemple de conception d’un Workflow d’identification de promoteurs (extrait de « Accelerating the scientific exploration process with scientific workflows« )

 

 

L’étude de Fan et al publiée en 2008 et que nous avions évoquée au travers d’un article précédent, décrivait l’étude de faisabilité d’un diagnostic prénatal non invasif à partir de cellules d’origine fœtale provenant d’une simple prise de sang maternel.

Ces travaux ont fait l’objet de controverses et même si la détection de la trisomie 21  est rendue possible , cela ne l’ était déjà plus pour les trisomies 18 ou 13, par exemple. En cause, la méthode d’analyse employée : l’ensemble des séquences sont alignées par rapport à un génome de référence et l’aneuploïdie foetale est détectée par une surreprésentation du chromosome correspondant, au sein du jeu de données. La sensibilité et l’efficacité de la méthode sont ici directement liées à la profondeur de séquençage. Cette approche ne permet pas de prendre en compte les biais aléatoires ou systématiques liés aux techniques de séquençage, facteurs primordiaux pour cette application.

Dernièrement, les entreprises Sequenom et Verinata Health ont publié des travaux (Sehnert et al.,2011) portant sur le dépistage d’aneuploïdies via le séquençage à haut débit, à partir de cellules d’origine fœtale issues d’une prise de sang maternel : 100% des cas de trisomies 21, 18 et autres anomalies ont été décelés ( soit 27 caryotypes anormaux parmi 48 patients ).



Cette efficacité repose sur une optimisation de l’analyse bioinformatique et notamment sur une considération pour les variations intra et inter-run qui se situent  bien souvent à la frontière avec les faibles modifications de la distribution des séquences entre un cas sain et un cas d’aneuploïdie.  L’algorithme développé utilise des valeurs de chromosome normalisées établies sur la base d’un ensemble de données de séquençages provenant d’échantillons parmi lesquels certains sont connus comme ayant un caryotype anormal.

En podcast de « clinical chemistry », le Dr. Richard P. Rava, co-auteur de l’article proposé précédemment, revient sur des points de détails et explications concernant le développement de l’algorithme optimisé pour les détections d’aneuploïdies.

 

Une revue intéressante et qui se veut exhaustive sur les conséquences de la généralisation des technologies de séquençage et les solutions/adaptations possibles, on y retrouve pèle-mêle :

– Un listing à jour (2011) des différentes plateformes dédiées à la génération de données de séquençage (Illumina, Roche, Life Technologie pour ne citer qu’eux…) et leurs spécificités;

– La description de quelques stratégies de NGS : identification de variants, séquençage d’éxome, séquençage sur des régions précises…

– Les problématiques en bioinformatiques : stockage et analyse de  données, développement de solutions logicielles adaptées…

– Les différentes analyses ainsi que des listes de logiciels pour répondre aux besoins: assemblage denovo et sur génome de référence, annotation et prédiction fonctionnelle, autant open-source que sous licence payante.

 

A l’issue d’un « run » de séquençage Ion Torrent (PGM), l’ensemble du signal brut (ionogramme) est converti en séquences et stocké au niveau du serveur. Pour chaque « run de re-séquençage», un alignement préliminaire est réalisé sur la base du génome de référence mentionné lors de l’initialisation du PGM. Cette information est reprise au travers d’un rapport qui comporte également un ensemble de paramètres, que l’on se propose de détailler ci-dessous :

(Cliquer pour agrandir) 

Le rapport se divise en 5 sections:

Il s’agit d’une application rendue possible grâce à Google Map et hébergée sur un blog du Pallen Research Group. Cette application permet de connaître (en partie, car il s’agit d’un recensement sur déclaration volontaire des utilisateurs) des lieux où sont implantées les différentes technologies de séquençage haut-débit.

cartographie des plateformes de séquençage haut-débit
cartographie des plateformes de séquençage haut-débit

L’effervescence médiatique liée au séquençage de la bactérie Escherichia coli responsable de l’intoxication d’une dizaine de personnes dans le Nord de la France (juin 2011), a engendré de multiples reportages et communiqués. Parmi eux, celui de l’AFP, et ce paragraphe comme point de départ à cet article :

« L’Institut est équipé depuis un mois d’un séquenceur « à haut débit » qui permet de déchiffrer un génome en un temps record à partir d’une « librairie » d’ADN stockée sur une sorte de puce électronique. Cette technologie est notamment utilisée dans la recherche sur le cancer et pourrait remplacer dans un futur proche l’amniosynthèse (sic). »

En France, deux méthodes « invasives » permettent de réaliser un diagnostic prénatal : L’amniocentèse ou prélèvement du liquide amniotique, et une biopsie de trophoblastes ou prélèvement des cellules du futur placenta.

Toutefois, cet acte cause chaque année environ 1% de fausses couches. Rapporté aux 90000 amniocentèses par an, on déplore jusqu’à 900 pertes de fœtus, qui paradoxalement sont sain dans la majorité des cas.

Ces conséquences iatrogènes sont terribles sur le plan humain et il apparait évident de mettre au point une méthode beaucoup moins dangereuse pour la mère et surtout pour le fœtus.

Depuis plusieurs années, il a été démontré la présence de cellules d’origine fœtales dans le sang maternel dès la huitième semaine de grossesse. Cette particularité a dernièrement fait quelques émules et ont décidé de l’exploiter pour la mise au point d’un diagnostic prénatal « non invasif ». Le point critique repose sur la très faible proportion de ces cellules provenant du fœtus ; de l’ordre d’une pour dix millions de globules blancs et cinq milliards de glo¬bules rouges par millilitre de sang maternelle.

L’une des méthodes les plus encourageantes, réalisée par l’équipe de Patrizia Paterlini-Bréchot, Unité Inserm U807, repose sur une méthode d’enrichissement par la taille des cellules trophoblastique dans le sang, dite « ISET » ( Isolation by Size of Epithelial Tumor / Trophoblastic cells ), leur caractérisation par la technique des empreintes génétiques, puis séquençage de l’ADN extrait. La société « Rarecells » a par ailleurs était créée sur cette base.

Cette méthode sensible et spécifique à 100%, a déjà été validée techniquement et cliniquement pour le diagnostic prénatal non invasif de l’amyotrophie spinale (Beroud C., Karliova M., Bonnefont J.P., et al. Prenatal diagnosis of spinal muscular atrophy by genetic analysis of circulating fetal cells Lancet 2003 ; 361 (9362) : 1013-1014) et de la mucoviscidose ( « Recherche de la mutation du gène CFTR » Saker A., Benachi A., Bonnefont J.P., et al. Genetic characterisation of circulating fetal cells allows non-invasive prenatal diagnosis of cystic fibrosis Prenat Diagn 2006 ; 26 (10) : 906-916) , et techniquement seulement pour la trisomie 21.

Une seconde approche, réalisée par des chercheurs de l’Université de Stanford, est basée sur l’étude de l’ADN fœtal libre extrait du sang maternel puis analysé grâce aux séquenceurs à haut débit.

Dans le cas de la trisomie 21 par exemple, l’assignement de plusieurs dizaines de milliers de séquences présenterait un déséquilibre statistique même si la proportion d’ADN fœtal par rapport à l’ADN maternel est extrêmement faible (Noninvasive diagnosis of fetal aneuploidy by shotgun sequencing DNA from maternal blood. Proceedings of the National Science Academy of the USA, 2008, 105, 16266–71). Si cette approche semble très attractive, plusieurs interrogations se posent suite à la lecture du travail scientifique, à la fois sur la méthodologie, l’analyse statistique et l’évaluation des résultats. (Commentaires sur les études de Fan et al.)

Dans l’éventualité d’un diagnostic basé sur le séquençage complet d’un génome, ou davantage ciblé tel l’ « amplicon sequencing » des gènes d’intérêts, la méthode non invasive s’appuyant sur une analyse globale du sang maternel nécessiterait une profondeur de séquençage conséquente. Ceci aurait pour incidence une orientation technique tournée vers des appareils de type « Solid 5500 » ou encore « Illumina HiSeq 2000 », cracheurs de « reads ».

Dans le cadre d’une application diagnostique, l’investissement financier est l’un des aspects considéré et en ce sens la méthode « ISET », plus contraignante dans la préparation du matériel biologique, permets néanmoins d’accéder, dans la perspective d’un séquençage ciblé, aux séquenceurs de paillasse, cinq à dix fois moins cher à l’achat et à des coûts de « runs » inégalés à ce jour. Record actuellement détenu par le PGM, Ion torrent dont la capacité des puces actuelles de 100Mb et d’1Gb à venir d’ici la fin d’année 2011, permettrait un multiplexage soit d’individus pour une mutation donnée, ou encore, imaginer une liste de séquences d’intérêts à diagnostiquer par individu.

Il y a fort à parier que le séquençage à haut débit finisse par devenir un outil incontournable dans le monde du diagnostic prénatal d’autant plus que les coûts d’équipement et de fonctionnement ne cessent de diminuer. Dans cette perspective, l’évolution vers les séquenceurs haut-débit de 3ème génération (à partir de cellule unique) pourrait faire la part belle à l’utilisation des cellules trophoblastiques.

Au travers de ces avancées et de l’ère du séquençage à haut débit, les perspectives d’un diagnostic prénatal non invasif semblent se dessiner et laisse entrevoir un énorme soulagement. Aussi, la possibilité de mettre en place des plates-formes permettant de cribler l’essentiel des pathologies génétiques est envisagée.

Aussitôt, les détracteurs soulèvent la notion d’eugénisme, dénonçant un diagnostic prénatal intégral en vue d’une « traque » des individus « non conformes ».

Il apparait évident que ces avancées technologiques risquent très prochainement de soulever de réels débats de société…

Depuis 2005, le séquençage haut débit, comme son nom l’indique, a permis d’accroître la quantité de séquences produites par unité de temps, d’individu et de machine. Si intrinsèquement le terme de révolution est associé à ce type de technologies, il semble qu’il serait plus indiqué de l’associer aux nouvelles approches qui en découlent.

En effet, le séquençage nouvelle génération permet d’aborder des études sous de nouveaux angles d’approches. Bien souvent ces approches existaient pour la plupart avant l’avènement de ces nouvelles machines mais leur mise en œuvre étaient bien souvent laborieuses, coûteuses. Beaucoup de techniques nécessitaient des a priori techniques ou scientifiques (des a priori dus à la sélection et aux designs de sondes déposées ou synthétisées sur un support solide dans le cas des puces à ADN permettant les études transcriptomiques). Les nouvelles méthodes de séquençage, quant à elles, permettent de lever certaines anticipations expérimentales. Ainsi une étude du niveau de modulation des transcrits peut grâce à l’emploi de ces technologies en découvrir de nouveaux, ce que ne permet pas ce même type d’études sur puces à ADN. En outre tout a priori constitue un biais expérimental potentiel.

Pour résumer, un peu simplement, le séquençage haut débit dépasse l’outil analytique pour devenir une méthode exploratoire à part entière.

L’objectif de cet article est de proposer un bref aperçu du spectre d’applications et des champs d’expertises que ces nouvelles approches révolutionnent (nous reviendrons plus tard plus en détail sur certaines).

Concernant les applications ayant pour finalité les études génomiques, sont à distinguer :

–  Séquençage de novo

Cette application découle de la quantité même de séquences que ces nouvelles générations de machines sont capables de générer. Aujourd’hui il est admis qu’un séquençage de novo nécessite une profondeur de 25 X, c’est-à-dire qu’il est possible de séquencer l’ADN d’un organisme procaryote en un run de séquençage sur la plupart des configurations de séquenceurs. Ce type d’applications a pleinement bénéficié des outils bio-informatiques au niveau des logiciels, machines et compétences humaines de plus en plus disponibles pour tenter de banaliser cette application. Ainsi, le centre de Shenzen avec le BGI (Beijing Genomics Institute, Chine) propose deux projets (pompeusement intitulés library of digital life) le premier consiste au séquençage (et reséquençage) de 1000 génomes de plantes et d’animaux et de 10 000 génomes microbiens.

–  Découvertes de SNPs (Single Nucleotide Polymorphisms)

Cette application a très vite trouvé une application directe, elle a contribué au développement de puces à ADN de génotypage haut débit. Ainsi Illumina a pu produire en quelques mois des puces à ADN permettant le génotypage en parallèle d’environ 2,5 millions de SNPs par échantillon (un format 5 millions de SNPs est en préparation) en s’appuyant sur les résultats du consortium 1000 génomes qui a enrichi les bases de données en variations génétiques de la séquence consensus humaine.  Ces outils permettant de réaliser des études d’association en réalisant des profils génétiques de plus en plus résolutifs.

Pour ce type d’application, deux modalités sont à distinguer :

– le reséquençage ciblé de zones d’intérêt, étape faisant suite, par exemple, à une étude d’association et permettant après reséquençage d’un locus génétique associé à un caractère particulier, de déterminer la causalité du phénotype différentiellement observé en terme de séquence.

– le réséquençage exhaustif d’ADN génomique. Cette modalité quant à elle, permet la mise en œuvre d’études de comparaisons génétiques de souches (telle que le permet la CGH (Comparative Genomic Hybridization) en s’affranchissant de toute hybridation grâce au séquençage direct)

Sous ce champ expérimental des études génomiques, peuvent être classées toutes les études de métagénomiques où un milieu cherche à être caractérisé le plus exhaustivement et finement possible par la diversité et le degré de contribution de chaque micro-organisme vivant (ou mort…) qui le compose. Le séquençage haut débit permet de rendre accessibles ce type d’approches.

Etudes transcriptomiques

Des méthodologies employées sur puces à ADN telles que les études transcriptomiques ont évolué et été adaptées sur les plateformes de séquençage haut-débit. En outre, ces nouvelles approches permettent de mesurer plus finement des niveaux de modulation tout en tenant compte des isoformes des transcrits. Encore une fois, le fait de séquencer permet de limiter les biais en comparaison de l’emploi de puce à ADN. La lecture plus directe s’affranchit des éléments de design de sondes, des phénomènes d’hybridation etc. A terme, les séquenceurs haut débit supplanteraient les puces à ADN pour ce qui concerne les applications d’études transcriptomiques.

– Réalisation de profils d’expression globale où l’intégralité du transcriptome cherche à être finement caractérisé pour une condition donnée.

– Caractérisation d’ARN non codant

Lors d’études de profils d’expression, les méthodes de séquençage haut débit permettent d’envisager la détermination et caractérisation des ARNs non codants (ici sont particulièrement visés les miRNA et smallRNA).

Etudes épigénétiques

– Etudes de la méthylation de l’ADN (méthyl-seq)

Les études de la méthylation de l’ADN génomique cherche à cartographier les loci fortement métyhylés dans une circonstance donnée. Pour rappel, une faible méthylation favorise la transcription mais une forte méthylation, au contraire, l’inhibe. Lorsque le promoteur d’un gène est méthylé, le gène en aval est réprimé et est donc plus difficilement ou pas du tout transcrit en ARNm.

– Etudes d’association protéines-ADN

Le ChIP-séquençage, également connu sous l’appellation de ChIP-Seq, est utilisé pour analyser des interactions protéines/ADN. Le ChIP-Seq combine immunoprécipitation des zones génétiques sur lesquelles se trouvent fixées des protéines (ChIP) avec le séquençage haut débit de l’ADN afin d’identifier des motifs consensus. Il peut être utilisé pour une cartographie précise de sites de liaison  pour une protéine d’intérêt.

Ces deux dernières applications ont dans un premier temps été développées sur la base des tiling-arrays. Le séquençage haut débit permet de diminuer les coûts d’investigation tout en gagnant en sensibilité.

Des technologies émergentes permettent souvent d’envisager de nouvelles applications diagnostiques. Ainsi quelques études depuis 2008, (Fan et al., Noninvasive diagnosis of fetal aneuploidy by shotgun sequencing DNA from maternal blood. Proceedings of the National Science Academy of the USA, 2008, 105, 16266–71), semblent ouvrir la porte à un diagnostic prénatal non invasif.

La recherche médicale avec son débouché clinique de la médecine personnalisée entrevoit des applications  au séquençage haut débit. Ainsi, une équipe, montre dans des résultats publiés dans Nature Genetics, pour la troisième fois au monde, la faisabilité d’une étude menée sur la base du séquençage de l’exome, aboutissant à la découverte d’une causalité génétique (simple, puisque monogénique). Cette mutation du gène NOTCH2  causalité d’une maladie rare, le syndrome de Hadju Cheney, une ostéoporose sévère,  a été identifiée et caractérisée efficacement par l’application des techniques de séquençage haut débit. Il y a peu ce type d’identifications n’auraient pas été financées puisque trop longue à mener, trop coûteuses pour des retombées certainement perçues comme limitées. Pour beaucoup, ces études menées à grandes vitesses trouveront des applications concrètes dans le champ de la médecine personnalisée… mais de cela nous reparlerons.

 

 

Le séquenceur de paillasse PGM IonTorrent

Notre laboratoire possède un PGM IonTorrent de Life Technologies. Cet outil haut-débit est un séquenceur de paillasse permettant de réaliser des runs à prix relativement accessible, inférieur à 800€/run  (cf. notre historique du séquençage proposé dans un post précédent).

Nous avons pu réaliser, en avant-première, un séquençage complet d’une souche d’Escherichia coli sur une puce 316 ,qui permet d’obtenir 100Mb / run, soit l’équivalent d’un peu plus d’une couverture de 20X d’une Escherichia coli.

Pour plus d’informations sur ce séquençage, vous pouvez lire:

– le communiqué de presse associé : CP_Escherichia_coli

-L’article de Futura Sciences sur le sujet : http://www.futura-sciences.com/fr/news/t/genetique-1/d/sequencage-haut-debit-de-coli-vers-une-medecine-personnalisee_31316/

– Des articles plus généralistes sortis dans différents journaux :

www.20minutes.fr

partenairesante.arsnpdc.fr

Ou regarder ces reportages (datés du 06/07/2011) :

Reportage-LCI-séquençage-coli-06072011

Reportage-BFMTV-séquençage-coli-06072011

 

10 chips 314 = 1 chip 316

 

 

étape de préparation de la matrice enrichie

Le procédé de séquençage se déroule sur 3 jours :

– préparation de la librairie : 1 jour (fragmentation de l’ADN génomique…)

– préparation de la matrice : 1 jour (PCR en émulsion + enrichissement)

-séquençage de la matrice enrichie : 1/2 jour

c'est parti !

 

Et on obtient le report suivant : Report Run IonTorrent

(*) Sequencing data were generated using system software and protocols bothnon released and non supported by Ion TorrentTM (part of Life TechnologiesTM) and may not reflect actual Ion Torrent PGMTM performance in term of throughput and/or accuracy.

Historique schématique du séquençage d’acide nucléique

Un bref historique des évolutions du séquençage de l’ADN permet de comprendre ce que certains nomment révolution technologique… certainement concernant l’univers de la biologie moléculaire une innovation comparable à celle la PCR.

 

Allan Maxam , Walter Gilbert (USA) et Frederick Sanger (Royaume-Uni), les pionniers de la conquête de la séquence, ont mis au point deux méthodes très différentes permettant d’accéder à la lecture de la séquence. Maxam, Gilbert ont exploité des stratégies de dégradation chimique sélective quand Sanger choisit une stratégie de synthèse enzymatique sélective. Pour ces découvertes, Gilbert et Sanger ont été récompensés par le prix Nobel de chimie en 1980. L’histoire ne retient effectivement que Sanger, à juste titre, puisque cette stratégie bénéficiant de l’invention de laPCR (invention de Kary Mullis publiée en 1986, lui aussi nobélisé par le prix de chimie en 1993) et du développement de l’électrophorèse capillaire, permettant de simplifier la partie séparative et analytique. C’est ainsi que des sociétés comme Perkin Elmer, Beckman Coulter et Applied Biosystem ont investi le marché sur le principe même du séquençage Sanger sans le révolutionner mais en permettant son automatisation et l’augmentation du nombre de réactions de séquences analysables par jour. Une fois amorti le coût des séquenceurs, le coût de revient d’une séquence n’a cessé de baisser permettant de banaliser l’accès à la séquence.

Bien que se montrant de plus en plus performant, des applications comme le séquençage complet de génomes eucaryotes supérieurs, les approches métagénomiques (nécessité de cloner), les études de modulation de transcrits (la méthode SAGE les permettait sur la base du séquençage Sanger, cette méthode est lourde et nécessite toujours une phase de clonage) ont connu des limites quasi infranchissables (méthodes nécessitant trop de temps et de capitaux). Prenons à titre d’exemple les projets de séquençage du génome humain. Ces projets auront nécessité plus de 10 ans de travail et de 300 millions de USD pour le projet privé de Celera et un peu moins de 3 milliards de USD pour le projet HUGO (HUman Genome Organisation), le match entre Craig Venter (fondateur de Celera avec le soutien de Perkin Elmer) et James Watson (premier directeur du NIH coordinateur du consortium international) se solde par un match nul entaché de polémiques avec les publications en 2001 des premières séquences du génome humain.

L’année 2005 a connu à grands bruits, l’arrivée de nouvelles méthodes de séquençage à haut débit. Ces méthodes de séquençage massif font appel aux techniques de clonage et d’amplification moléculaire, leur spécificité relevait de leur stratégie de lecture.

En effet, la société 454 (rachetée par Roche en 2007), utilise des méthodes de pyroséquençage (luminescence par libération de pyrophosphate) de fragments d’ADN isolés dans des micro-gouttes comme micro-réacteur de PCR isolés au sein d’une émulsion, la société Solexa (rachetée par Illumina en 2007), utilise des méthodes d’amplification sur support solide permettant l’incorporation de bases terminateurs de chaîne réversibles marqués par des fluorochromes. La société Agencourt  (rachetée par Applied Biosystem en 2006), a quant à elle basé son système de détection sur le principe de l’amplification par émulsion et hybridation-ligation chimique.

Depuis 2007, une certaine frénésie s’empare du monde de la biologie moléculaire, un très grand nombre de machines que l’on qualifie tour à tour de NGS (Next Generation Sequencing), HTS (High Throughput Sequencing), ou encore de manière plus appropriée sequençage multi-parallélisé se trouvent disponibles et évoluent vers le plus de profondeur, ou vers le moindre coût, rendant obsolètes les versions précédentes (la société Illumina à titre d’exemple depuis le rachat de Solexa a lancé un modèle de séquenceur tous les ans).

Cette révolution technologique est sortie des laboratoires pour attirer l’attention d’investisseurs et autres banquiers conscients qu’une ruée vers l’or accompagnant la ruée vers la séquence pouvait s’engager. Dans ce sens nous mettons à disposition un document datant de 2007 réalisé pour le compte de la Deutsche Bank (ce document très complet a été co-réalisé par nombre de consultants en biotechnologies, il permet de décortiquer assez finement les 3 technologies présentes sur le marché à partir de 2005 et de montrer les attentes des mondes scientifique et financier)

Afin de terminer ce bref tour d’horizon il semble nécessaire de hiérarchiser ces nouvelles technologies. Il est possible de distinguer tout d’abord deux grands groupes : les technologies sans amplification (permettant de séquencer une seule molécule d’adn matriciel, citons exemple de la technologie SMRT de Pacific Biosciences, la technologie tSMS de Helicos Biosciences ou encore celle toujours en développement mais très attendue développée par Oxford Nanopore) et avec amplification (toutes les technologies amplifiant une matrice clonale d’adn issu d’une librairie)

Parmi cette seconde classe, il est possible de distinguer trois grandes classes de matériel :

–       les usines à produire de la séquence (type Hiseq 2000 de Illumina permettant de séquencer jusqu’à 200 Gb par run de 8 jours

–       les séquenceur de paillasse (type PGM de IonTorrent de taille et prix beaucoup plus modeste permettant de réaliser des run autour de 100 Mb avec une perspective de 1 Gb pour début 2012)

–       les séquenceurs haut débit en voie d’obsolescence (454 de Roche, les versions des séquenceurs Illumina antérieures au HiSeq 1000 etc.)

Cet historique est bien entendu un prétexte pour planter le décor et présenter les forces en présence. Après l’âge des pionniers (Maxam et Sanger), celui de la douce exploitation (séquenceur capillaire) vient celui de l’accélération que certains nomment révolution… ces technologies marquent quoi qu’il en soit un tournant pour la génomique et pour les applications actuelles et en devenir qui y sont liées. Enfin la diffusion de ces technologies va de paire avec un changement de physionomie des laboratoires : la biotechnologie est  une science composite où bio-informatique, biologie cellulaire et moléculaire mais aussi physique et statistique deviennent de plus en plus interdépendantes.

Tagged with:
 
Set your Twitter account name in your settings to use the TwitterBar Section.