Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker,...

Le séquençage à grande échelle au Genoscope

Stratégies actuelles et perspectives

P. Wincker, Séminaire INRA, Paris, 06.11.07

• Status: Public Institute• Mission : provide high-throughput sequencing data

to the French Academic community , and carry out in-house genomic projects

• Creation 1997• Part of the CEA Institut de Génomique since 05/2007

Procedures on Scientific Projects

• in house : evaluated by the Scientific Committee

• collaborative: - proposed by external labs (annual call for

proposals) - evaluated by the Scientific Committee - supported by Genoscope's

budget

• shared cost:- consumables and labor supported by applicant

- other costs on Genoscope's budget- approval by Scientific committee >100

000 reads

• paid services

Répartition de l'activité de séquençage depuis 1998Volume total 41 681 315

Payed Services3%

Shared Costs5%

Devpt & QC2%

Total in house27%

Collaboration63%

Breakdown of sequencing activity since 1998Total reads 41 681 315

Répartition de l'activité de séquençage en 2006Volume total 12138976

Projets propres 3,4%

Dévelopement & QC 1,7%

Coûts paratgés 1,4%

Travaux payants 1,4%

Collaborations 92,2%

Breakdown of sequencing activity in 2006Total reads 12 138 976

Coûts partagés 1,4%

Projets retenus : 188 AP-HP1,78%

CEA2,54%

CIRAD4,07%

CNRS28,50%

ENS0,51%

IFREMER0,76%

INA-PG0,76%

INRA16,28%

INSERM5,85%

IRD2,04%

Institut Pasteur5,85%

From abroad10,43%

MNHN1,27%

University19,34%

Successful applications since 1998Total 188

Genomes

57,9%

SAGE

1,3%Genome regions

14,2%

STS/STC

2,8%

rDNA

0,6%Sequence

variants

0,9%

Metagenomes

8,9%

Miscellaneous

3,3%

EST/cDNA

10,1%

Sequence categories

Agriculture9%

Biology32%

Biodiversity44%

Medical15%

Genomes (finished and in progress)

Nombre annuel total de lectures (1998-2006)

0

2000000

4000000

6000000

8000000

10000000

12000000

14000000

1998 1999 2000 2001 2002 2003 2004 2005 2006

L’organisation du séquençageau Genoscope

Personnel (01/01/06) •Mapping•Libraries, subcloning•Sequencing + template prepping•Finishing•Development•Research projects•R and D•Robotics•Informatics•Bio-informatics•QC and QA•Infrastructure (Kitchen, building etc.)•TOTAL (FTE)

8

11

18

15

4

27

8

3

21

24

2

9

150

11

7

43

9

5

26

0

3

6

9

5

16

140

2001

Projet

Séquençage Sanger, 454 (2007), Solexa (2008)

Assemblage, finition, clustering

Annotation procaryote(MAGE)

Annotation eucaryote(GAZE)

Niveaux d’accès aux capacités du Genoscope par Appel d’Offres

Sélection des projets

• Appel d’offres évalué annuellement par un conseil scientifique externe (1998-2007)

• A partir de 2008 :

– Appel d’offres (GIS Ibisa)– Projets ANR (Programme Génomique)

Sequencing equipment total capacity

ABI 3730 19 (30 M bases/day)

454/GSFLX 1 (100 M bases/day)

Impact des nouvelles technologies de séquençage

Evaluation des NTSs au Genoscope

• Qualité : des lectures et des assemblages

• Applications : fonction de la taille des génomes, complémentarité aux autres technologies

• Impact sur l’obtention d’une séquence «finie »

Exemple du séquenceur Roche / 454

454 data (flowgram)

Sanger data (chromatogram)

Evaluation de la qualité des lectures :Mapping des lectures 454 sur la séquence finie d’Acinetobacter baylyi

478.961 lectures mappées (soit 99,55%)

98.200.952 nt alignés contenant 1.451.396 erreurs (soit 1,48% d’erreurs)

Avec Q ≥ 20, 790.487 erreurs (8.10-3) et Q ≥ 40, 343520 erreurs (3.10-3)

Sur les 172.668 lectures mappées à 100%, 60.550 sont sans erreurs (35%)

Position des erreurs dans les lectures 454

Position des erreurs par type dans les lectures 454

Evaluation des assemblages 454

• Deux types d’assemblage proposés :

– De novo

– Dirigé (en utilisant la séquence d’un génome très proche)

Taille du N50 à différentes profondeurs (assemblage de novo)

Taille du N50 à différentes profondeurs (de novo vs dirigé)

Erreurs concentrées dans les régions homopolymériques

• Fonction de la taille de l’homopolymère

• Pour M. agalactiae, couverture de 30x– si (N)n avec n<5, taux d’erreur ~1%

– si (N)n avec n<9, taux d’erreur ~5%

Le taux d’erreur dépend de la fréquence des régions homopolymériques Ce n’est pas une valeur absolue

Evaluation des NTSs au Genoscope

• Qualité : des lectures et des assemblages

• Applications : fonction de la taille des génomes, complémentarité aux autres technologies

• Impact sur l’obtention d’une séquence «finie »

De l’assemblage 454 au génome fini

• Points positifs :– Pas de clonage présence des régions incompatibles

avec E. coli– Quasi-insensibilité aux biais compositionnels– Vitesse : une semaine de l’ADN à la séquence

• Points négatifs:– Pas de liens entre séquences pas de

supercontigage– Taux d’erreur élevé dans les homopolymères– pas d’assemblage des séquences répétées

Microbial Genome Sequencing

• Until December 2006 : 12x coverage with Sanger technology, 3 libraries (insert sizes 3 kb, 10 kb, 40 kb)

• From january 2007 : 4x Sanger coverage, single library (10 or 40 kb) + 20x coverage GS20 reads– Assembly with Arachne (Broad Institute) using Sanger reads and

Newbler contigs

• From June 2007, 4x Sanger coverage, single library (10 or 40 kb) , + 15x coverage GSFLX reads– Assembly with Arachne (Broad Institute) using Sanger reads and

Newbler contigs or with Newbler2 using Sanger reads and GSFLX reads

Le séquenceur Solexa / illumina 1G

Amplification directe sur lames (pas de PCR en émulsion)Séquençage par terminateurs reversibles

Longueurs de lecture : 25-35 basesDébit : 40 000 000 lectures / run

Applications du Solexa/Illumina 1G (ou ABI Solid)

• SNP detection

• ChIp-Seq

• Quantitative / qualitative transcriptomics

• small RNAs

• …

Méthodes pour le re-séquençage : environnement informatique

• Objectif : aligner chaque lecture à une localisation unique (si elle existe) sur le génome de référence

• Exemple si utilisation de blast :• 1 lecture contre 140Mb (chr9 humain) ~ 18s/CPU• 1 lecture contre 3Gb ~ 386s/CPU• 1Gb lectures Solexa contre 3Gb ~ 490 années/CPU• 20x de lectures Solexa contre 3 Gb ~ 44.000 années/CPU

• Nécessité d’utiliser des méthodes différentes qui tiennent compte de la petite taille des lectures :

• phageAlign : compare chaque lecture avec les k-mers génomique (en triant les k-mers et en exploitant les parties communes des préfixes pour réduire le travail)• ELAND : place les lectures dans une structure de données et les aligne toutes en même temps

Perspectives d’utilisation Solexa / Illumina 1G

• Small RNAs, tags … : avantage de coût par rapport au 454/Roche

• Séquençage de génomes : attente du développement d’assembleurs adaptés

• Amélioration de la qualité des séquences 454/Roche assemblés

Notions de coût par base (ordre de grandeur)

Sanger (ABI3730xl) : 1000 euros / Mbase

taux d’erreur < 99%, assemblage de qualité à ~10 équivalents, supercontigage immédiat

Roche/454 GSFLX : 100 euros / Mbase

taux d’erreur > 1% dans les régions homopolymériques, assemblage de qualité à ~20 équivalents, pas de supercontigage

Illumina 1G : <10 euros / Mbase

taux d’erreur <99.9 % , pas d’assemblage de qualité …

15x 4x

Assemblage,finition

10-100x

0.5x

15x

Assemblage,finition

Evolution accélérée des NTSs

• Roche / 454• 2006 : 20 Mb par run

(100 bases par lecture)• 2007 : 100 Mb par run

(250 bases par lecture)

• 2008 : 1 Gb par run (500 bases par lecture)

• Solexa/Illumina 1G

• 2007 : 1 Gb par run (32 bases par lecture)

• 2008 : 3 Gb par run (50 bases par lecture, lectures en paires)

Difficile de prévoir quelle technologie sera utilisée pour séquencer un génome dans 1-2 ans …

Vers un séquençage génomique à très bas coût

• Dépendra de la capacité à assembler des séquences courtes et peu chères :– Développement de lectures « paired-ends » ?– Allongement des longueurs utiles de type

Solexa ?– Baisse des coûts des lectures 454 ?– Amélioration spectaculaire des logiciels

d’assemblage ?– Arrivée d’une nouvelle technologie ?

Une perspective très mobile …

• Les programmes de comparaison multi-génomes devraient se généraliser

• La métagénomique connaîtra un développement exponentiel

• De nombreux projets jugés jusqu’alors trop coûteux deviennent réalisables

• … Mais toutes ces perspectives nécessitent des progrès pour être envisageables pour des génomes de grande taille

Une perspective très mobile …

• Les technologies utilisées peuvent devenir caduques très vite

• Les besoins informatiques augmentent considérablement

• Risque d’envahissement par des données massives de faible qualité

• Director : J. Weissenbach

• Sequencing coordination : P. Wincker

• Production Sequencing: J. Poulain

• Roche / 454 development : C. Cruaud

• Informatics: C. Scarpelli, V. Vico, V. Anthouard, J. Leseaux

• Assembly : J.M. Aury

Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker,...

Documents

Transcript of Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker,...