Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker,...
-
Upload
elie-godefroy -
Category
Documents
-
view
106 -
download
1
Transcript of Le séquençage à grande échelle au Genoscope Stratégies actuelles et perspectives P. Wincker,...
Le séquençage à grande échelle au Genoscope
Stratégies actuelles et perspectives
P. Wincker, Séminaire INRA, Paris, 06.11.07
• Status: Public Institute• Mission : provide high-throughput sequencing data
to the French Academic community , and carry out in-house genomic projects
• Creation 1997• Part of the CEA Institut de Génomique since 05/2007
Procedures on Scientific Projects
• in house : evaluated by the Scientific Committee
• collaborative: - proposed by external labs (annual call for
proposals) - evaluated by the Scientific Committee - supported by Genoscope's
budget
• shared cost:- consumables and labor supported by applicant
- other costs on Genoscope's budget- approval by Scientific committee >100
000 reads
• paid services
Répartition de l'activité de séquençage depuis 1998Volume total 41 681 315
Payed Services3%
Shared Costs5%
Devpt & QC2%
Total in house27%
Collaboration63%
Breakdown of sequencing activity since 1998Total reads 41 681 315
Répartition de l'activité de séquençage en 2006Volume total 12138976
Projets propres 3,4%
Dévelopement & QC 1,7%
Coûts paratgés 1,4%
Travaux payants 1,4%
Collaborations 92,2%
Breakdown of sequencing activity in 2006Total reads 12 138 976
Coûts partagés 1,4%
Projets retenus : 188 AP-HP1,78%
CEA2,54%
CIRAD4,07%
CNRS28,50%
ENS0,51%
IFREMER0,76%
INA-PG0,76%
INRA16,28%
INSERM5,85%
IRD2,04%
Institut Pasteur5,85%
From abroad10,43%
MNHN1,27%
University19,34%
Successful applications since 1998Total 188
Genomes
57,9%
SAGE
1,3%Genome regions
14,2%
STS/STC
2,8%
rDNA
0,6%Sequence
variants
0,9%
Metagenomes
8,9%
Miscellaneous
3,3%
EST/cDNA
10,1%
Sequence categories
Agriculture9%
Biology32%
Biodiversity44%
Medical15%
Genomes (finished and in progress)
Nombre annuel total de lectures (1998-2006)
0
2000000
4000000
6000000
8000000
10000000
12000000
14000000
1998 1999 2000 2001 2002 2003 2004 2005 2006
L’organisation du séquençageau Genoscope
Personnel (01/01/06) •Mapping•Libraries, subcloning•Sequencing + template prepping•Finishing•Development•Research projects•R and D•Robotics•Informatics•Bio-informatics•QC and QA•Infrastructure (Kitchen, building etc.)•TOTAL (FTE)
8
11
18
15
4
27
8
3
21
24
2
9
150
11
7
43
9
5
26
0
3
6
9
5
16
140
2001
Projet
Séquençage Sanger, 454 (2007), Solexa (2008)
Assemblage, finition, clustering
Annotation procaryote(MAGE)
Annotation eucaryote(GAZE)
Niveaux d’accès aux capacités du Genoscope par Appel d’Offres
Sélection des projets
• Appel d’offres évalué annuellement par un conseil scientifique externe (1998-2007)
• A partir de 2008 :
– Appel d’offres (GIS Ibisa)– Projets ANR (Programme Génomique)
Sequencing equipment total capacity
ABI 3730 19 (30 M bases/day)
454/GSFLX 1 (100 M bases/day)
Impact des nouvelles technologies de séquençage
Evaluation des NTSs au Genoscope
• Qualité : des lectures et des assemblages
• Applications : fonction de la taille des génomes, complémentarité aux autres technologies
• Impact sur l’obtention d’une séquence «finie »
Exemple du séquenceur Roche / 454
454 data (flowgram)
Sanger data (chromatogram)
Evaluation de la qualité des lectures :Mapping des lectures 454 sur la séquence finie d’Acinetobacter baylyi
478.961 lectures mappées (soit 99,55%)
98.200.952 nt alignés contenant 1.451.396 erreurs (soit 1,48% d’erreurs)
Avec Q ≥ 20, 790.487 erreurs (8.10-3) et Q ≥ 40, 343520 erreurs (3.10-3)
Sur les 172.668 lectures mappées à 100%, 60.550 sont sans erreurs (35%)
Position des erreurs dans les lectures 454
Position des erreurs par type dans les lectures 454
Evaluation des assemblages 454
• Deux types d’assemblage proposés :
– De novo
– Dirigé (en utilisant la séquence d’un génome très proche)
Taille du N50 à différentes profondeurs (assemblage de novo)
Taille du N50 à différentes profondeurs (de novo vs dirigé)
Erreurs concentrées dans les régions homopolymériques
• Fonction de la taille de l’homopolymère
• Pour M. agalactiae, couverture de 30x– si (N)n avec n<5, taux d’erreur ~1%
– si (N)n avec n<9, taux d’erreur ~5%
Le taux d’erreur dépend de la fréquence des régions homopolymériques Ce n’est pas une valeur absolue
Evaluation des NTSs au Genoscope
• Qualité : des lectures et des assemblages
• Applications : fonction de la taille des génomes, complémentarité aux autres technologies
• Impact sur l’obtention d’une séquence «finie »
De l’assemblage 454 au génome fini
• Points positifs :– Pas de clonage présence des régions incompatibles
avec E. coli– Quasi-insensibilité aux biais compositionnels– Vitesse : une semaine de l’ADN à la séquence
• Points négatifs:– Pas de liens entre séquences pas de
supercontigage– Taux d’erreur élevé dans les homopolymères– pas d’assemblage des séquences répétées
Microbial Genome Sequencing
• Until December 2006 : 12x coverage with Sanger technology, 3 libraries (insert sizes 3 kb, 10 kb, 40 kb)
• From january 2007 : 4x Sanger coverage, single library (10 or 40 kb) + 20x coverage GS20 reads– Assembly with Arachne (Broad Institute) using Sanger reads and
Newbler contigs
• From June 2007, 4x Sanger coverage, single library (10 or 40 kb) , + 15x coverage GSFLX reads– Assembly with Arachne (Broad Institute) using Sanger reads and
Newbler contigs or with Newbler2 using Sanger reads and GSFLX reads
Le séquenceur Solexa / illumina 1G
Amplification directe sur lames (pas de PCR en émulsion)Séquençage par terminateurs reversibles
Longueurs de lecture : 25-35 basesDébit : 40 000 000 lectures / run
Applications du Solexa/Illumina 1G (ou ABI Solid)
• SNP detection
• ChIp-Seq
• Quantitative / qualitative transcriptomics
• small RNAs
• …
Méthodes pour le re-séquençage : environnement informatique
• Objectif : aligner chaque lecture à une localisation unique (si elle existe) sur le génome de référence
• Exemple si utilisation de blast :• 1 lecture contre 140Mb (chr9 humain) ~ 18s/CPU• 1 lecture contre 3Gb ~ 386s/CPU• 1Gb lectures Solexa contre 3Gb ~ 490 années/CPU• 20x de lectures Solexa contre 3 Gb ~ 44.000 années/CPU
• Nécessité d’utiliser des méthodes différentes qui tiennent compte de la petite taille des lectures :
• phageAlign : compare chaque lecture avec les k-mers génomique (en triant les k-mers et en exploitant les parties communes des préfixes pour réduire le travail)• ELAND : place les lectures dans une structure de données et les aligne toutes en même temps
Perspectives d’utilisation Solexa / Illumina 1G
• Small RNAs, tags … : avantage de coût par rapport au 454/Roche
• Séquençage de génomes : attente du développement d’assembleurs adaptés
• Amélioration de la qualité des séquences 454/Roche assemblés
Notions de coût par base (ordre de grandeur)
Sanger (ABI3730xl) : 1000 euros / Mbase
taux d’erreur < 99%, assemblage de qualité à ~10 équivalents, supercontigage immédiat
Roche/454 GSFLX : 100 euros / Mbase
taux d’erreur > 1% dans les régions homopolymériques, assemblage de qualité à ~20 équivalents, pas de supercontigage
Illumina 1G : <10 euros / Mbase
taux d’erreur <99.9 % , pas d’assemblage de qualité …
15x 4x
Assemblage,finition
10-100x
0.5x
15x
Assemblage,finition
Evolution accélérée des NTSs
• Roche / 454• 2006 : 20 Mb par run
(100 bases par lecture)• 2007 : 100 Mb par run
(250 bases par lecture)
• 2008 : 1 Gb par run (500 bases par lecture)
• Solexa/Illumina 1G
• 2007 : 1 Gb par run (32 bases par lecture)
• 2008 : 3 Gb par run (50 bases par lecture, lectures en paires)
Difficile de prévoir quelle technologie sera utilisée pour séquencer un génome dans 1-2 ans …
Vers un séquençage génomique à très bas coût
• Dépendra de la capacité à assembler des séquences courtes et peu chères :– Développement de lectures « paired-ends » ?– Allongement des longueurs utiles de type
Solexa ?– Baisse des coûts des lectures 454 ?– Amélioration spectaculaire des logiciels
d’assemblage ?– Arrivée d’une nouvelle technologie ?
Une perspective très mobile …
• Les programmes de comparaison multi-génomes devraient se généraliser
• La métagénomique connaîtra un développement exponentiel
• De nombreux projets jugés jusqu’alors trop coûteux deviennent réalisables
• … Mais toutes ces perspectives nécessitent des progrès pour être envisageables pour des génomes de grande taille
Une perspective très mobile …
• Les technologies utilisées peuvent devenir caduques très vite
• Les besoins informatiques augmentent considérablement
• Risque d’envahissement par des données massives de faible qualité
• Director : J. Weissenbach
• Sequencing coordination : P. Wincker
• Production Sequencing: J. Poulain
• Roche / 454 development : C. Cruaud
• Informatics: C. Scarpelli, V. Vico, V. Anthouard, J. Leseaux
• Assembly : J.M. Aury