Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la...

26
Logiciels conseillés par la plateforme Version 2 16/08/16 Logiciels conseillés par la plateforme

Transcript of Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la...

Page 1: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

Logiciels conseillés par laplateforme

Page 2: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

Table des matièresINTRODUCTION......................................................................................................4

1 CONTRÔLE QUALITÉ ET NETTOYAGE DES DONNÉES DE SÉQUENÇAGE.5

1.1 FASTQC..........................................................................................................5 1.2 FASTQ SCREEN.................................................................................................5 1.3 CUTADAPT.........................................................................................................6 1.4 TRIMMOMATIC.....................................................................................................6

2 ALIGNEMENT DE SÉQUENCES........................................................................7

2.1 BWA..............................................................................................................7 2.2 BOWTIE 2.........................................................................................................7 2.3 NOVOALIGN.......................................................................................................8

3 ALIGNEMENT ET ANALYSE DE DONNÉES DE RNA-SEQ...............................9

3.1 TOPHAT...........................................................................................................9 3.2 STAR.............................................................................................................9 3.3 CUFFLINKS......................................................................................................10 3.4 HTSEQ-COUNT (HTSEQ)....................................................................................10 3.5 FEATURECOUNTS..............................................................................................11 3.6 EDGER...........................................................................................................11 3.7 DESEQ ET DESEQ2.......................................................................................12

4 DÉTECTION DE VARIANTS..............................................................................13

4.1 SAMTOOLS MPILEUP / BCFTOOLS CALL.....................................................................13 4.2 GATK (GENOME ANALYSIS TOOLKIT)..................................................................13 4.3 ANNOVAR...................................................................................................14

5 ANALYSE DE DONNÉES DE CHIP-SEQ..........................................................16

5.1 MACS..........................................................................................................16

6 ANALYSE DE DONNÉES RRBS (REDUCED REPRESENTATION BISULFITESEQUENCING)......................................................................................................17

6.1 TRIM GALORE!.................................................................................................17 6.2 BISMARK.........................................................................................................17 6.3 SEQMONK......................................................................................................17 6.4 METHYLSIG....................................................................................................18

7 ANALYSE DE DONNÉES DE RAD-SEQ...........................................................19

7.1 STACKS......................................................................................................19

8 MANIPULATION ET VISUALISATION DE FICHIERS.......................................20

8.1 FASTX-TOOLKIT.............................................................................................20 8.2 SAMTOOLS......................................................................................................20 8.3 SAMBAMBA......................................................................................................21 8.4 BCFTOOLS......................................................................................................21 8.5 PICARD TOOLS.................................................................................................21 8.6 IGV..............................................................................................................22 8.7 BEDTOOLS......................................................................................................22 8.8 SRA TOOLKIT..................................................................................................23

9 CLUSTERING ET VISUALISATION..................................................................24

2 / 26

Page 3: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

9.1 CLUSTER........................................................................................................24 9.2 JAVA TREEVIEW................................................................................................24

10 DIVERS............................................................................................................25

10.1 GALAXY........................................................................................................25 10.2 DIAGRAMME DE VENN......................................................................................25 10.3 FORMATS DE FICHIERS......................................................................................25 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES DE DONNÉES « OMICS »......................26

3 / 26

Page 4: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

IntroductionCe document présente divers logiciels gratuits pouvant être utilisés pourl'analyse de données de séquençage à haut débit. Il ne s'agit pas d'unmanuel d'utilisation ni d'une liste exhaustive. Avant toute utilisation d'un deslogiciels, il est important de se référer à sa documentation et de vérifier qu'ilsoit adapté au type de données à analyser.La plupart des logiciels présentés s'utilisent en ligne de commande.Lorsque le logiciel présenté est un logiciel que nous utilisons, nousindiquons la dernière version que nous avons testée.

4 / 26

Page 5: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

1 Contrôle qualité et nettoyage desdonnées de séquençage

1.1 FastQC

Fonctionnalités généralesLogiciel permettant de faire un contrôle qualité du séquençage.FastQC lit un ensemble de fichiers de séquence et produit à partir dechacun d'eux un rapport de contrôle de la qualité composé d'un certainnombre de modules différents.Chaque module permettra d'identifier un type de problème potentiel sur vosdonnées.Le logiciel prend en entrée des fichiers au format sam, bam et fastq.Le logiciel peut lire directement les fichiers fastq.gz produits par illuminagrâce à l'option "--casava".

Site webhttp://www.bioinformatics.babraham.ac.uk/projects/fastqc/

SystèmeLinux, MacOS, Windows

Dernière version testée0.11.5

1.2 FastQ Screen

Fonctionnalités généralesFastQ Screen permet d'aligner des séquences sur un ensemble degénomes/séquences représentant de potentielles sources decontamination, afin de voir si les séquences en entrée s'alignent bien surl'organisme attendu. Le logiciel génère un graphique montrant lesproportions de reads s'alignant sur les différents génomes testés. FastQScreen utilise l'aligneur Bowtie ou Bowtie 2.

Le logiciel prend en entrée des fichiers au format fastq.

Site webhttp://www.bioinformatics.babraham.ac.uk/projects/fastq_screen/

SystèmeLinux

Dernière version testée0.4.4

5 / 26

Page 6: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

1.3 Cutadapt

Fonctionnalités généralesLogiciel permettant de supprimer les séquences des adaptateurs dans desdonnées de séquençage. Cela s'avère nécessaire lorsque la longueur duread est supérieure à celle de la molécule à séquencer, comme pour lesmicroARNs. Il est également possible de couper la fin des reads dont laqualité baisse en fin de séquence. Les adaptateurs Illumina peuvent êtrerenseignés avec l'option -a ADAPTER-SEQUENCE. Le programme prend en entrée et rend en sortie des fichiers au formatfastq (éventuellement compressés : fastq.gz), ou au format fasta.Le programme requiert l'installation préalable de Python, version >= 2.6.

Site webhttps://cutadapt.readthedocs.io/en/stable/

SystèmeLinux, MacOS

Dernière version testée1.4.1

PublicationDOI:10.14806/ej.17.1.200

1.4 Trimmomatic

Fonctionnalités généralesLogiciel (java) permettant de supprimer les séquences des adaptateursdans des données de séquençage Illumina single-read ou paired-end. Celas'avère nécessaire lorsque la longueur du read est supérieure à celle de lamolécule à séquencer, comme pour les microARNs. Il est égalementpossible de couper les reads dont la qualité baisse en début, en fin, ou aucours de la séquence (utilisation d'une fenêtre glissante).Le programme prend en entrée et rend en sortie des fichiers au formatfastq (éventuellement compressés : fastq.gz). Un fichier d'adaptateurs auformat fasta peut également être fourni en entrée.

Site webhttp://www.usadellab.org/cms/?page=trimmomatic

SystèmeLinux, MacOS, Windows

PublicationBolger, A. M., Lohse, M., & Usadel, B. (2014). Trimmomatic: A flexibletrimmer for Illumina Sequence Data. Bioinformatics, btu170.

6 / 26

Page 7: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

2 Alignement de séquences

2.1 BWA

Fonctionnalités généralesLogiciel d'alignement de reads courts.BWA est capable de réaliser trois types d’alignement :

1. BWA-backtrack : pour reads illumina < 100pb (plutôt conseillépour les reads < 70pb car BWA-MEM est plus performant pour les reads de70 à 100bp).

2. BWA-SW : pour reads de 70bp à 1Mbp (non conseillé) 3. BWA-MEM : pour reads de 70bp à 1Mbp ; plus rapide et plus

précis que BWA-SW car plus récent ; meilleures performances que BWA-backtrack pour les reads Illumina de 70 à 100bp. BWA-MEM est une référence pour l’alignement dans l’analyse de variantsgénomiques réalisée avec un séquençage illumina PE100.Il prend en entrée des fichiers au format fastq. Les résultats de l'alignementpeuvent être exportés au format sam.

Site webhttp://bio-bwa.sourceforge.net

SystèmeLinux, MacOS

Dernière version testée0.7.12

PublicationBWA-backtrack : Li H. and Durbin R. (2009) Fast and accurate short readalignment with Burrows-Wheeler transform. Bioinformatics, 25, 1754-1760.[PMID: 19451168]

2.2 Bowtie 2

Fonctionnalités généralesLogiciel d'alignement de reads courts. Bowtie 2 est capable de réaliser deux types d’alignement :

1. End-to-end alignment : des alignements de l'intégralité du read(toutes ses bases) sont recherchés.

2. Local alignment : seule une partie du read peut être alignée (lelogiciel peut omettre des bases en début et en fin de read (trimming)), sicela permet de maximiser le score d'alignement.Le logiciel prend en entrée des fichiers au format fastq. Les résultats del'alignement peuvent être exportés au format sam.

7 / 26

Page 8: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

Site webhttp://bowtie-bio.sourceforge.net/Bowtie 2/index.shtml

SystèmeLinux, MacOS, Windows

Dernière version testée2.2.8

PublicationLangmead B, Salzberg S. Fast gapped-read alignment with Bowtie 2.Nature Methods. 2012, 9:357-359.

2.3 Novoalign

Fonctionnalités généralesLogiciel d'alignement de reads courts. Novoalign fait partie de la suite logicielle Novocraft, payante, mais uneversion d'essai est accessible avec des fonctionnalités réduites (pas deparallélisation par exemple). Un des intérêts de ce logiciel est de pouvoirréaliser des alignements sur des génomes ambigus (bases ambiguës selonle code IUPAC).

Site webhttp://www.novocraft.com/products/novoalign/

SystèmeLinux, MacOS, Windows

Dernière version testée3.01.01

8 / 26

Page 9: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

3 Alignement et analyse de données deRNA-Seq

3.1 TopHat

Fonctionnalités généralesTopHat est un logiciel d'alignement de séquences conçu spécialement pourle RNA-Seq. Ce logiciel permet de réaliser des alignements sur lesjonctions d'épissage et sur le génome. Les modèles de transcrits peuventêtre fournis (fichier gff ou gtf) au logiciel (option « -G ») ; dans ce cas, unalignement sur un transcriptome virtuel extrait à partir des positions desexons est d'abord effectué, puis les reads non alignés sur ce transcriptomeseront alignés sur le génome. Dans le cas où les modèles de transcrits nesont pas fournis, TopHat fera de la découverte de jonctions d'épissage.TopHat (version >=2) utilise Bowtie 2 pour réaliser l'alignement.

Site web https://ccb.jhu.edu/software/tophat/index.shtml

SystèmeLinux, MacOS

Dernière version testée2.0.13

PublicationTrapnell C, Pachter L, Salzberg SL. TopHat: discovering splice junctionswith RNA-Seq. Bioinformatics doi:10.1093/bioinformatics/btp120

3.2 STAR

Fonctionnalités généralesSTAR est un logiciel d'alignement de reads RNA-seq. Il est notammentrecommandé dans le protocole proposé par Epigenesys.STAR permet d'aligner très rapidement des reads RNA-seq sur le génomede référence en prenant en compte les modèles de transcrits (annotationsau format gff/gtf). Les résultats sont fournis au format sam.

Site web https://github.com/alexdobin/STAR/releases

SystèmeLinux, MacOS

9 / 26

Page 10: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

PublicationA. Dobin et al, STAR: ultrafast universal RNA-seq aligner. Bioinformatics2012; doi: 10.1093/bioinformatics/bts635

3.3 Cufflinks

Fonctionnalités généralesCufflinks permet de faire de l'assemblage de transcrits, de mesurer leurabondance (FPKM) et tester si leur expression est différentielle (Cuffdiff).Cufflinks peut également utiliser des modèles de transcrits (option « -G »)et estimer leur abondance sans faire d'assemblage. Cufflinks donnel'abondance des transcrits en FPKM (Fragments Per Kilobase of exonmodel per Million mapped fragments) qui sont des valeurs normalisées parla taille des transcrits et par la profondeur de séquençage. Pour obtenir des« Raw counts » , nombre de reads par gène (valeurs demandées en entréepar edgeR et DESeq(2)), il faudra utiliser un autre logiciel comme HTSeq-count. L'utilisation de la normalisation FPKM (ou RPKM – Reads PerKilobase per Million) n'est pas recommandée (Dillies et al., 2013) dans lecadre d'une analyse statistique visant à mettre en évidence des gènesdifférentiellement exprimés entre deux conditions biologiques.

Site webhttp://cole-trapnell-lab.github.io/cufflinks/

SystèmeLinux, MacOS

PublicationCole Trapnell, Brian Williams, Geo Pertea, Ali Mortazavi, Gordon Kwan,Jeltje van Baren, Steven Salzberg, Barbara Wold, Lior Pachter. Transcriptassembly and quantification by RNA-Seq reveals unannotated transcriptsand isoform switching during cell differentiation. Nature Biotechnology,2010. doi:10.1038/nbt.1621

3.4 htseq-count (HTSeq)

Fonctionnalités généraleshtseq-count est un script appartenant au package Python HTSeq. Il permet,à partir d'un fichier de reads alignés (format sam/bam) et d'un fichierd'annotations (format gff/gtf), de compter le nombre de reads s'alignant surchaque élément (gènes, exons, …). Il propose différentes façons de gérerles cas où un read chevauche plusieurs éléments.

Site webhttp://www-huber.embl.de/users/anders/HTSeq/doc/count.html

SystèmeLinux, MacOS, Windows

10 / 26

Page 11: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

Dernière version testée0.6.1p1

PublicationS Anders, PT Pyl, W Huber. HTSeq — A Python framework to work withhigh-throughput sequencing data. Bioinformatics (2014)

3.5 featureCounts

Fonctionnalités généralesfeatureCounts est un programme faisant partie de la suite Subreads. Ilpermet de compter les reads à partir d'un fichier de reads alignés (formatsam/bam) et d'un fichier d'annotations (format gtf). Il est décrit comme trèsrapide et ne nécessitant que peu de mémoire. Différentes options sontdisponibles pour s'adapter aux différentes applications possibles.

Site webhttp://subread.sourceforge.net/

SystèmeLinux, MacOS

PublicationLiao Y, Smyth GK and Shi W. featureCounts: an efficient general-purposeprogram for assigning sequence reads to genomic features. Bioinformatics,30(7):923-30, 2014

3.6 edgeR

Fonctionnalités généralesedgeR est un package Bioconductor qui permet de réaliser des analysesd'expression différentielle à partir de données de RNA-seq avec réplicatsbiologiques. Le package se base sur une méthode bayésienne empiriqueet implémente un test exact ou un modèle linéaire généralisé fondés sur laloi binomiale négative. Il peut également servir à l'analyse différentielled'autres types de données de comptage génomique.Il prend en entrée des fichiers contenant des comptages entiers nonnormalisés, où les lignes correspondent aux gènes ou aux élémentsgénomiques, et les colonnes aux différents échantillons.

Site webhttp://www.bioconductor.org/packages/release/bioc/html/edgeR.html

SystèmeLinux, MacOS, Windows. Requiert l'installation préalable du logiciel R(http://www.r-project.org/ ).

11 / 26

Page 12: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

Dernière version testée3.8.6

PublicationRobinson MD, McCarthy DJ and Smyth GK (2010). edgeR: a Bioconductorpackage for differential expression analysis of digital gene expression data.Bioinformatics 26, 139-140

3.7 DESeq et DESeq2

Fonctionnalités généralesDESeq est un package Bioconductor permettant d'estimer la dépendancevariance-moyenne dans des données de comptage issues d'expériencesde séquençage à haut débit comme le RNA-Seq, et de tester l'expressiondifférentielle en se basant sur un modèle utilisant la distribution binomialenégative.Il prend en entrée des fichiers contenant des comptages entiers nonnormalisés, où les lignes correspondent aux gènes ou aux élémentsgénomiques, et les colonnes aux différents échantillons.DESeq2 est une évolution de DESeq dans laquelle le test exact estremplacé par un test utilisant le modèle linéaire généralisé. Le mode decalcul les fold-changes ainsi que l'estimation de la dispersion ont été revusafin de mieux gérer les gènes ayant de faibles comptages.

Sites webhttp://www.bioconductor.org/packages/release/bioc/html/DESeq.html http://www.bioconductor.org/packages/release/bioc/html/DESeq2.html

SystèmeLinux, MacOS, Windows. Requiert l'installation préalable du logiciel R(http://www.r-project.org/ ).

Dernières versions testéesDESeq 1.18.0 ; DESeq2 1.6.3

PublicationsSimon Anders and Wolfgang Huber (2010): Differential expression analysisfor sequence count data. Genome Biology 11:R106Michael I Love, Wolfgang Huber and Simon Anders (2014): Moderatedestimation of fold change and dispersion for RNA-Seq data with DESeq2.Genome Biology

12 / 26

Page 13: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

4 Détection de variants

4.1 samtools mpileup / bcftools call

Fonctionnalités généralesL'outil samtools mpilepup permet de convertir les reads alignés (fichiersbam) en comptages par position génomique. L'outil bcftools call metensuite en œuvre une méthode statistique basée sur un modèle bayésien,afin d'identifier des sites variants par rapport à la référence (SNP et indels).

Site webhttp://www.htslib.org Wokflow pour la détection de variants :http://www.htslib.org/workflow/#mapping_to_variant

SystèmeLinux, MasOS

Dernière version testée1.2

Publications• Li H., Handsaker B., Wysoker A., Fennell T., Ruan J., Homer N.,

Marth G., Abecasis G., Durbin R. and 1000 Genome Project DataProcessing Subgroup (2009) The Sequence alignment/map (SAM)format and SAMtools. Bioinformatics, 25, 2078-9. [PMID: 19505943]

• Li H. A statistical framework for SNP calling, mutation discovery,association mapping and population genetical parameter estimationfrom sequencing data. Bioinformatics. 2011 Nov 1;27(21):2987-93.Epub 2011 Sep 8. [PMID: 21903627]

• Danecek P., Schiffels S., Durbin R. Multiallelic calling model inbcftools (-m) [link]

• Li H. Improving SNP discovery by base alignment quality.Bioinformatics. 2011 Apr 15;27(8):1157-8. doi:10.1093/bioinformatics/btr076. Epub 2011 Feb 13. [PMID:21320865]

• Durbin R. Segregation based metric for variant call QC [link] • Li H, Mathematical Notes on SAMtools Algorithms [link]

4.2 GATK (Genome Analysis ToolKit)

Fonctionnalités généralesLe logiciel GATK fournit de nombreux outils dont l'objectif premier est ladétection de variants et le génotypage. L'outil principal pour la détection de

13 / 26

Page 14: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

variants est HaplotypeCaller. Un workflow, mis à jour régulièrement, estproposé sur le site (rubrique « Best practices »).Il est devenu un standard dans le domaine, notamment pour la découvertede variants chez l'Homme à partir de reads Illumina (objectif ayant motivéle développement du logiciel au Broad Institute). Le site web est très richeen documentation, tutoriaux, forums, etc.

Site webhttps://software.broadinstitute.org/gatk/

SystèmeLinux, MacOS

Dernière version testée3.4.46 (outils testés : RealignerTargetCreator et IndelRealigner)

PublicationsThe Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data. McKenna A, Hanna M, Banks E,Sivachenko A, Cibulskis K, Kernytsky A, Garimella K, Altshuler D, GabrielS, Daly M, DePristo MA, 2010 GENOME RESEARCH 20:1297-303

A framework for variation discovery and genotyping using next-generationDNA sequencing data. DePristo M, Banks E, Poplin R, Garimella K,Maguire J, Hartl C, Philippakis A, del Angel G, Rivas MA, Hanna M,McKenna A, Fennell T, Kernytsky A, Sivachenko A, Cibulskis K, Gabriel S,Altshuler D, Daly M, 2011 NATURE GENETICS 43:491-498

From FastQ Data to High-Confidence Variant Calls: The Genome AnalysisToolkit Best Practices Pipeline. Van der Auwera GA, Carneiro M, Hartl C,Poplin R, del Angel G, Levy-Moonshine A, Jordan T, Shakir K, Roazen D,Thibault J, Banks E, Garimella K, Altshuler D, Gabriel S, DePristo M, 2013CURRENT PROTOCOLS IN BIOINFORMATICS 43:11.10.1-11.10.33

4.3 ANNOVAR

Fonctionnalités généralesANNOVAR permet d'annoter fonctionnellement des variants en fonction dedifférentes données disponibles dans les bases de données publiques. Ilest ainsi possible d'obtenir des annotations en fonction des gènes (nom dugène, exon, intron, provoque un changement d'acide aminé, etc), ou decertains types de régions (régions conservées entre espèces, sites deliaisons de facteurs de transcription, etc).

Site webhttp://annovar.openbioinformatics.org/en/latest/

SystèmeLinux, MacOS, Windows. Requiert l'installation de Perl.

14 / 26

Page 15: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

Dernière version testéeannovar_201506

PublicationWang K, Li M, Hakonarson H. ANNOVAR: Functional annotation of geneticvariants from next-generation sequencing data Nucleic Acids Research,38:e164, 2010

15 / 26

Page 16: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

5 Analyse de données de ChIP-Seq

5.1 MACS

Fonctionnalités généralesModel-based Analysis of ChIP-Seq (MACS) est un logiciel en ligne decommande conçu pour analyser des données issues d'expériences deChIP-Seq chez les eucaryotes. MACS peut être utilisé pour identifier lessites de liaisons de facteurs de transcription ou des régions enrichies enmodifications d'histones. Il prend en entrée les fichiers de reads alignés (dont les formats bed, samou bam). Il requiert l'installation préalable de Python, version >= 2.6.5.

Sites webMACS (version 1) : http://liulab.dfci.harvard.edu/MACS/ MACS2 : https://github.com/taoliu/MACS

SystèmeLinux, MacOS, Windows

Versions testées1.4.2 et 2.1.0

PublicationZhang et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol.(2008) vol. 9 (9) pp. R137

16 / 26

Page 17: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

6 Analyse de données RRBS (ReducedRepresentation Bisulfite Sequencing)

6.1 Trim Galore!

Fonctionnalités généralesLes banques de type RRBS incluent une étape de digestion par l'enzymede restriction MspI. Les reads qui sont plus longs que le fragment MspInécessitent une étape de nettoyage afin de supprimer l'adaptateur et lesdeux bases ajoutées artificiellement lors de la préparation des banques.L'outil Trim Galore! utilise Cutadapt et FastQC afin de couper correctementles reads de ce type.

Sites webhttp://www.bioinformatics.babraham.ac.uk/projects/trim_galore/

SystèmeLinux

Version testée0.4.0

6.2 Bismark

Fonctionnalités généralesLe logiciel d'alignement Bismark permet d'aligner des reads traités aubisulfite sur un génome de référence et de déterminer leur état deméthylation en une seule étape. Il prend en entrée des fichiers au formatfastq. Des fichiers au format BAM sont produits, ainsi que des fichiersdétaillant l'état de méthylation des bases.

Site webhttp://www.bioinformatics.babraham.ac.uk/projects/bismark/

SystèmeLinux

Version testée0.4.3

6.3 SeqMonk

Fonctionnalités générales

17 / 26

Page 18: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

SeqMonk permet de visualiser (et éventuellement analyser) desalignements. Il est possible de naviguer facilement le long d'un génomeannoté. Dans le cas de données de méthylation, il permet de visualiserdirectement les cytosines méthylées et les cytosines non méthylées.

Site webhttp://www.bioinformatics.babraham.ac.uk/projects/seqmonk/

SystèmeLinux, MacOS, Windows

Version testée0.31.0

6.4 MethylSig

Fonctionnalités généralesMethylSig est un package R permettant d'analyser des données de bis-seq(whole-genome bisulfite sequencing) ou de RRBS. Les données sontmodélisées selon un modèle beta-binomial pour prendre en compte lesvariations de couverture et les variations biologiques entre échantillons.Les tests statistiques permettent de mettre en évidence des sites(cytosines) différentiellement méthylés (DMC) ou des régionsdifférentiellement méthylées (DMR). Les résultats peuvent être annotésselon le type de région dans lesquelles ils se situent (îlots CpG, régionsintergéniques, etc).

Site webhttp://sartorlab.ccmb.med.umich.edu/node/17

SystèmeLinux, MacOS, Windows. Requiert l'installation préalable du logiciel R(http://www.r-project.org/ ).

Version testée0.1.3

PublicationPark Y, Figueroa ME, Rozek LS, Sartor MA. MethylSig: a whole genomeDNA methylation analysis pipeline. Bioinformatics. 2014 Sep1;30(17):2414-22. doi: 10.1093/bioinformatics/btu339

18 / 26

Page 19: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

7 Analyse de données de RAD-seq

7.1 STACKS

Fonctionnalités généralesStacks est un logiciel conçu pour construire des loci à partir de readscourts. Il a été développé pour des données issues de digestions par desenzymes de restriction, comme le RAD-seq, avec l'objectif de construiredes cartes génétiques et de réaliser des études de génomique despopulations et de la phylo-géographie.

Site webhttp://catchenlab.life.illinois.edu/stacks/

SystèmeLinux, MacOS

Version testée1.35 (process_radtags uniquement, qui permet de démultiplexer desdonnées RAD-seq)

PublicationsJ. Catchen, P. Hohenlohe, S. Bassham, A. Amores, and W. Cresko. Stacks:an analysis tool set for population genomics. Molecular Ecology. 2013.J. Catchen, A. Amores, P. Hohenlohe, W. Cresko, and J. Postlethwait.Stacks: building and genotyping loci de novo from short-read sequences.G3: Genes, Genomes, Genetics, 1:171-182, 2011.

19 / 26

Page 20: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

8 Manipulation et visualisation de fichiers

8.1 FASTX-Toolkit

Fonctionnalités généralesFASTX-Toolkit est un ensemble d'outils en ligne de commande pourmanipuler des fichiers au format FastQ ou Fasta. Parmi ces outils, « Fastx-barcode-splitter » permet de séparer des séquences issues de différentséchantillons identifiables grâce à un barcode ; « Fastx-trimmer » permet deraccourcir des reads, etc.

Site webhttp://hannonlab.cshl.edu/fastx_toolkit/

SystèmeLinux, MacOS

Dernière version testée0.0.13

8.2 Samtools

Fonctionnalités généralesSam est un format standard de fichier d'alignement. Samtools est une suitede programmes permettant de manipuler des fichiers au format sam(conversion au format bam (binaire correspondant), tri, création d'index,statistiques sur l'alignement, nettoyage de potentiels biais de PCR, ...).Samtools contient également un module permettant la recherche de SNPet indels (cf. section « Détection de variants »).

Site webhttp://www.htslib.org/

SystèmeLinux, MacOS

Dernière version testée1.2

PublicationLi H., Handsaker B., Wysoker A., Fennell T., Ruan J., Homer N., Marth G.,Abecasis G., Durbin R. and 1000 Genome Project Data ProcessingSubgroup (2009) The Sequence alignment/map (SAM) format andSAMtools. Bioinformatics, 25, 2078-9. [PMID: 19505943]

20 / 26

Page 21: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

8.3 Sambamba

Fonctionnalités généralesSambamba propose des fonctionnalités similaires aux principaux outils deSamtools (sort, index, ...), mais permet de paralléliser les tâches, ce qui lerend beaucoup plus performant.

Site webhttp://lomereiter.github.io/sambamba/

SystèmeLinux, MacOS

Dernière version testée0.5.1

PublicationA. Tarasov, A. J. Vilella, E. Cuppen, I. J. Nijman, and P. Prins. Sambamba:fast processing of NGS alignment formats. Bioinformatics, 2015.

8.4 Bcftools

Fonctionnalités généralesBcftools est un ensemble de programmes pour manipuler des fichiers devariants au format vcf ou bcf (équivalent binaire du vcf) : intersections,annotations, filtres, indexages, production de statistiques, …

Site webhttp://www.htslib.org/

SystèmeLinux, MacOS

Dernière version testée1.2

8.5 Picard tools

Fonctionnalités généralesPicard fournit un grand nombre de programmes (Java) pour manipuler desfichiers aux formats sam/bam/cram ou vcf. Plusieurs outils spécifiques autype d'application (RNA-seq, WES, WGS, …) permettent d'obtenir desstatistiques sur les alignements (ex : CollectRnaSeqMetrics, …). L'outilMarkDuplicates est fortement utilisé par la communauté pour marquer lespaires de reads dupliquées (probablement dues aux biais de PCR).

21 / 26

Page 22: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

Site webhttps://broadinstitute.github.io/picard/

SystèmeLinux, MacOS. Requiert l'installation de Python (2.7 pour la version 1, 2.8pour la version 2)

Dernière version testée1.141

8.6 IGV

Fonctionnalités généralesIntegrative Genomics Viewer (IGV) est un outil de visualisation pourl'exploration interactive de grands jeux de données génomiques. Lesannotations de gènes de nombreux génomes sont incluses.Il permet de visualiser un grand nombre de formats de fichiers : fichiersbam (triés par position et indexés), bed, gff, vcf, ...

Site webhttp://www.broadinstitute.org/software/igv/

SystèmeLinux, MacOS, Windows.

Dernière version testée2.3

PublicationJames T. Robinson, Helga Thorvaldsdóttir, Wendy Winckler, MitchellGuttman, Eric S. Lander, Gad Getz, Jill P. Mesirov. Integrative GenomicsViewer. Nature Biotechnology 29, 24–26 (2011)

8.7 Bedtools

Fonctionnalités généralesBedtools est un ensemble d'outils permettant de travailler sur desintervalles génomiques (intersections, fusion, comptage, …). Il peut utiliseren entrée divers formats comme bam, bed, gff/gtf, vcf.

Site webhttp://bedtools.readthedocs.io/en/latest/

SystèmeLinux, MacOS

Dernière version testée2.21.0

22 / 26

Page 23: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

8.8 SRA toolkit

Fonctionnalités généralesSequence Read Archive (SRA) est un service du NCBI permettant destocker et de mettre à disposition de la communauté des chercheurs lesséquences issues de séquençage haut-débit. Le SRA Toolkit est un ensemble d'outils permettant le téléchargement, lalecture ou l'écriture de fichiers depuis ou vers le format sra.

Site webhttp://www.ncbi.nlm.nih.gov/sra

SystèmeLinux, MacOS, Windows

Dernière version testée2.5.0-1-centos_linux64

23 / 26

Page 24: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

9 Clustering et visualisation

9.1 Cluster

Fonctionnalités généralesCluster permet de mettre en œuvre différentes méthodes d'analyses non-supervisées. Cela comprend la classification hiérarchique, les cartes deKohonen (SOMs), les nuées dynamiques (k-means) et l'analyse encomposantes principales. Les méthodes de classification hiérarchique (lienunique, lien moyen et lien complet) peuvent être notamment appliquées enutilisant différentes mesures de similarité (distance de corrélation centréeou non centrée, corrélation des rangs de Spearman,...). Le logiciel permetd'appliquer divers traitements (centrage médian des gènes, transformationlogarithmique...) avant classification.Ce logiciel a été développé pour traiter les données de puces à ADN.

Site webhttp://bonsai.hgc.jp/~mdehoon/software/cluster/software.htm

SystèmeLinux, MacOS, Windows.

Dernière version testée3.0

9.2 Java Treeview

Fonctionnalités généralesLogiciel permettant la visualisation sous forme de carte thermique (« heatmap ») des données préalablement classées par le logiciel Cluster. Lors dela classification hiérarchique des données, les gènes et les échantillonssont ordonnés de manière hiérarchique dans un dendogramme qui peutêtre visualisé grâce au logiciel Treeview.

Site webhttp://jtreeview.sourceforge.net/

SystèmeLinux, MacOS, Windows.

Dernière version testée1.1.6r4

PublicationAlok J. Saldanha. Java Treeview—extensible visualization of microarraydata. Bioinformatics (2004) 20 (17): 3246-3248.

24 / 26

Page 25: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

10 Divers

10.1 Galaxy

Fonctionnalités généralesGalaxy est une plateforme web qui rassemble de très nombreux logicielsd'analyse NGS (manipulation de fichiers, alignement de séquence,analyses ChIP-Seq, SNP, RNA-seq...), habituellement disponibles en lignede commande, sur une interface web simple d'utilisation et conviviale.L'utilisateur peut directement utiliser la sortie d'un logiciel en entrée d'unautre logiciel, et ainsi générer facilement des workflows d'analyseréutilisables. Sur leur instance publique (lien), les calculs sont effectués surleurs propres serveurs mais il est également possible d'installer sa propreinstance et d'y ajouter ses propres outils.

Site webhttps://usegalaxy.org/

SystèmeOutil web

10.2 Diagramme de Venn

Fonctionnalités généralesIl existe diverses interfaces web permettant de faire des diagrammes deVenn en ligne.Ce type de représentation permet de comparer facilement des listes degènes et d'obtenir les gènes des intersections.

Site webhttp://bioinfogp.cnb.csic.es/tools/venny/index.htmlhttp://bioinfo.genotoul.fr/jvenn/example.html

Systèmeinterface web

Publicationjvenn : Philippe Bardou, Jérôme Mariette, Frédéric Escudié, ChristopheDjemiel and Christophe Klopp. jvenn: an interactive Venn diagram viewer.BMC Bioinformatics 2014, 15:293 doi:10.1186/1471-2105-15-293

10.3 Formats de fichiers

Une documentation sur les différents formats de fichier est disponible surUCSC :http://genome.ucsc.edu/FAQ/FAQformat.html

25 / 26

Page 26: Logiciels conseillés par la plateforme - mgx.cnrs.fr · 16/08/16 Logiciels conseillés par la plateforme. Logiciels conseillés par la ... 10.4 INVENTAIRE DES OUTILS POUR LES ANALYSES

Logiciels conseillés par laplateforme

Version 2

16/08/16

10.4 Inventaire des outils pour les analyses dedonnées « OMICS »

Site web proposant une classification des outils utilisés dans l'analyse dedonnées « omics », et en particulier les données de séquençage haut-débit. Les listes proposées paraissent assez exhaustives à ce jour (2016).

Site webhttps://omictools.com/

PublicationHenry VJ, Bandrowski AE, Pepin AS, Gonzalez BJ, Desfeux A. (2014)OMICtools: an informative directory for multi-omic data analysis. Database(Oxford).

26 / 26