Currently viewing the category: "Analyse de données"

Cette article fait suite à notre post sur l’intervention du professeur Arnaud Fontanet de l’Institut Pasteur sur le Coronavirus COVID-19.

Dans sa présentation, le professeur Fontanet renvoie vers trois sites web qui permettent de mieux comprendre le coronavirus.

Chacun dans leur contexte (observation/simulation/étude), ces sites montre la rapidité avec laquelle les chercheurs peuvent développer des outils bioinformatiques de data visualisation pertinents pour la communauté.

Ceci étant bien sur rendu possible à partir du moment où le partage de données épidémiologiques, génétiques, génomiques (…) est effectué.


Pour observer :

Coronavirus COVID-19 Global Cases by Johns Hopkins CSSE

Interface de visualisation de l’épidémie du COVID-19

L’université John Hopkins maintient une carte avec des données en temps réel sur le nombre de patients diagnostiqués avec le nouveau coronavirus, le nombre de patients décédés et le nombre de patients guéris. Ces chiffres sont basés sur des informations provenant, entre autres, de l’Organisation mondiale de la santé (OMS) et du Centre européen de prévention et de contrôle des maladies (ECDC). Il peut y avoir de légères différences dans les chiffres réels .

Pour connaître les derniers chiffres confirmés, nous renvoyons aux sites web de l’OMS et de l’ECDC

Github – entrepôt de données : https://github.com/CSSEGISandData/COVID-19


Pour anticiper :

Reporting, epidemic growth, and reproduction numbers for the 2019-nCoV epidemic: understanding control

Interface de simulation de croissance de l’épidémie COVID-19

Permet de simuler des scénario de croissance de l’épidémie de COVID-19 en faisant varier quelques paramètres comme :

Serial interval (days) : nombre de jours avant de tomber malade

Outbreak start date : date de début de la maladie

Control start date : date de mise en place de controle (quarantaine, confinement,…)

Initial number of cases : nombre de cas initialement détectés

Basic reproductive number : nombre de personne à leur tour infecté par un malade si aucun contrôle n’est mis en place

Effective reproductive number with control : nombre de personnes à leur tour infecté par un malade si un contrôle est mis en place

Développé par Ashleigh Tuite et David Fisman, Dalla Lana School of Public Health, Université de Toronto


Pour étudier :

Genomic epidemiology of novel coronavirus (HCoV-19)

Outil d’analyse phylogénétique du COVIR-19

Nextstrain est un projet à open-source visant à exploiter le potentiel scientifique et de santé publique des données sur le génome des agents pathogènes. ils fournissent une vue continuellement mise à jour des données accessibles au public ainsi que de puissants outils d’analyse et de visualisation à l’usage de la communauté. L’objectif est d’aider à la compréhension épidémiologique et d’améliorer la réponse aux épidémies.

Il permet de visualiser les divergences phylogeniques entre les différentes génomes de COVDIR-19 séquencés à ce jour [ 20/02/2020 ]

En savoir plus : Hadfield et al., Nextstrain: real-time tracking of pathogen evolution, Bioinformatics (2018)

Github de l’application : https://github.com/nextstrain/ncov


on en est pas loin avec cet outil publié aujourd’hui dans Genome Biology

MICRA: an automatic pipeline for fast characterization of microbial genomes from high-throughput sequencing data

 

Genome Biology

MiSeqDx

Il y a peu, le système MiSeqDx a été la première plate-forme de séquençage haut-débit approuvée par la FDA (US Food and Drug Administration) pour le diagnostic in vitro (IVD). Ceci élargit encore les applications de ces couteaux suisses de la génomique pour aller flirter avec les promesses d’une médecine de précision. C’était, en partie, le souhait des promoteurs des séquenceurs de paillasse (benchtop sequencer) du MiSeq en passant par le Ion Torrent pour aller jusqu’au prometteur séquenceur-clé USB, d’Oxford Nanopore. Ce dernier permet une analyse en temps réel des données générées par le séquenceur. Ce mode opératoire, le temps réel, trouve tout son sens dans le cadre d’applications cliniques où le temps est l’ennemi du clinicien.

Alors que les mappeurs permettant de confronter des reads générés à une référence génomique, sont optimisés pour être de plus en plus rapides, il est très étonnant voire absurde de constater que cette étape ne pouvait être réalisée qu’une fois le run de séquençage, terminé. Aujourd’hui, cet affront fait au bon entendement est en passe d’être réparé dans cette publication, d’octobre 2016, dans Bioinformatics où l’équipe de bioinformatique du Robert Koch Institute propose une première approche dans le sens d’une analyse en temps réel (à base d’extension de k-mers). Une affaire à suivre et un code source disponible : https://gitlab.com/SimonHTausch/HiLive

Source de l’article : HiLive – Real-Time Mapping of Illumina Reads while Sequencing, Bioinformatics. 2016 Oct 29

Tagged with:
 

 

Le développement des technologies à haut-débit dédiés aux petits ARNs non codant, récemment identifiés (fin des années 90), voit régulièrement déferler des solutions commerciales et libres pour l’analyse gene ontology.

Ce poste est l’occasion de mettre en exergue « miRSystem« , l’un des rares systèmes d’analyses intégrés, gratuit, et intuitif permettant la prédiction de gènes cibles et leurs pathways associés à partir d’une liste de miRs d’intérêt.

 

La puissance de cet outils réside dans:

1) l’intégration de sept programmes bien connus de prédiction de gènes cibles (DIANA, miRanda, miRBridge, PicTar, PITA, rna22 et TargetScan – cf fig. ci-dessous, rectangles blancs), et qui pour la plupart d’entre eux sont incapables de gérer une analyse englobant plusieurs miRs.

 

2) l’incorporation de deux algorithmes pour la caractérisation des fonctions biologiques et pathways sur la base de la prédiction des gènes cibles et faisant appel à cinq bases de données (KEGG, Biocarta, PID, Reactome et Gene Ontology – cf fig. ci-dessous, rectangle orange).

 

Figure 1 An overview of miRSystem.

Citation

PLoS One. 2012;7(8):e42390. doi: 10.1371/journal.pone.0042390. Epub 2012 Aug 1.
miRSystem: an integrated system for characterizing enriched functions and pathways of microRNA targets.
Lu TP1, Lee CY, Tsai MH, Chiu YC, Hsiao CK, Lai LC, Chuang EY.

Tagged with:
 

En ce début d’année, cet article est l’occasion d’aborder rapidement les divers axes de développements, les différents acteurs du séquençage haut-débit de deuxième génération.

– Commençons par Life Technologies et sa gamme Ion Torrent. En fin d’année 2013, la Ion Community (forum où  se retrouvent les utilisateurs de la technologie Ion Torrent) s’agite à l’annonce de 3 nouveautés majeures (early access program) :

(i) L’accès à une nouvelle chimie de séquençage, la Hi-Q ,  permettant d’accroître la fiabilité de séquençage.  Les erreurs seraient réduites de 90 %, ceci même au niveau des homopolymères, et pour des reads de 400 bases, témoignage de Dag Harmsen à l’appui ! En clair, il semble que ce soit l’enzyme (what else ?) qui ait été remplacé.

(ii) La deuxième annonce concerne l’arrivée de la chimie Avalanche où plusieurs heures d’amplification clonale à l’aide d’un automate One-Touch peuvent être remplacées par l’emploi d’un tube, ce qui prend alors 2 heures pour obtenir une librairie de 500 pb, et ce, de façon isothermique. Un choc de simplification qui ravira les utilisateurs pour lesquels cette étape est limitante.

(iii) La troisième annonce concerne la mise à disposition de kits permettant de réaliser des analyses métagénomiques ciblées 16 S. Un système exploitant le PGM et sa capacité de produire des reads de 400 pb. L’inconnu ici réside dans la mise à disposition de la communauté d’un pipeline analytique performant.

Qiagen, qui n’est pas connu pour être un acteur de poids sur la scène du séquençage haut-débit, arrive en force en cette année 2014 avec une solution intégrant tous les jalons nécessaires à la complétude d’une étude. Fort de son rachat d’une solution de séquençage (lire l’article : Qiagen investit… le séquençage haut-débit de 2ème génération), Qiagen propose un environnement logiciel des plus intéressants ! En effet, la société néerlandaise a racheté les sociétés CLC Bio et Ingenuity systems. Ces deux sociétés proposent l’une des toutes meilleures solutions d’analyse de séquences: une solution d’assemblage de novo réellement performante grâce à CLC genomics workbench, et Ingenuity systems proposant les pipelines d’analyses suivants: IPA, pour donner un sens biologique aux données omiques, Ireport pour l’analyse de données d’expression et Variant Analysis, un pipeline permettant d’optimiser la recherche de mut