Detectie van genomische structurele variaties op basis van paired-tag NGS data
description
Transcript of Detectie van genomische structurele variaties op basis van paired-tag NGS data
Detectie van genomische structurele variaties op basis van paired-tag NGS data
Peter van ‘t Hof
Opbouw presentatie
•Structurele Variaties
•Pair sequencing
•Clustering
•Resultaten
2
Structurele Variaties
3
Genome structural variation discovery and genotyping - Can Alkan, Bradley P. Coe and Evan E. Eichler - Nature Reviews Genetics 2011
Structurele Variaties
4
Extreem voorbeeld
Mate-pair sequencing
5
F R
Libary Prep
Paired sequencing
6
•Clustering
Computational methods for discovering structural variation with next-generation sequencing - P Medvedev1, M Stanciu1 & N Brudno - Nature Methods 2009
Insertsize
7
Size (bp)
Frag
men
ts
Huidige programma
•Algoritme vindt wel SV’s die bevestigd kunnen worden
•Sample van 700M reads duurt 5 dagen
•Veel geheugen vereist
•Onhandig in gebruik
8
Hoe?
•Programmeren in C++
9
Nieuw programma
•Sample van 700M duurt nu +/- 3 uur(single thread)
•Sample van 700M duurt +/- 30 min(multi thread, 8 cores)
10
Vergelijking metoude programma
11
Resultaten
12
Homozygote deletie
Inversie
Resultaten
13
Hetrozygote deletie
Homozygote insertie
Filter
14
SVcov = pairs coverage SVCcov = concordant pairs coverage
SVcov / Ccov = Relative to concordant
Filter
15
SVcov = pairs coverage SVnCcov = non-concordant pairs coverage
SVcov / (nCcov - SVcov) = Relative to non-concordant
Test set
•70 Mate-Pair samples van het UMC-U
•Vorige analyses zijn per sample of per groep gedaan
•Mogelijkheid om te kijken naar populatie SV’s
•In totaal meer dan 700.000 ongefilterde niet unieke SV’s
16
Filter
17
Filter
18
Populatie SV’s
19
Confirmatie PCR’s
20
•29 SV's met overlap over het breekpunt10 SV's zonder overlap maar wel beide kanten gezien10 SV's zonder overlap en maar één kant gezien
Totaal 96 PCR’s welke van 2 kanten gesequenced zijn
Confirmatie PCR’s
21
•14 breekpunten op een inversie welke in een palindromische sequenties33 breekpunten die niet bevestig konden worden
Totaal 96 PCR’s welke van 2 kanten gesequenced zijn
Mogelijke vervolg stappen
•Sequenties van onbekende inserts bepalen
•Combinatie van paired-sequecing met read-depth en split-read SV-call methodes
22
Conclusie•Tot nu toe is het +/- 150x sneller
•De ongefilterde resultaten komen overheen met het oude programma
•Filter kan groot deel van de false-positives er uit filteren
•Programma kan al als vervanging voor het oude programma gebruikt worden
23
Dankwoord•Hubrecht
Instituut• Edwin Cuppen
• Marieke Simonis
• Wim Spee
• Sander Boymans
• Maarten van Iterson
• Sebastiaan van Heesch
• Roel Hermsen
• Eward Kuijk
• Eward de Bruijn
UMC Utrecht
Wigard Kloosterman
Mark van Roosmalen
Ivo Renkens
Hogeschool Utrecht
Anja ter Avest
Eva Greiner