Next Generation Sequencing (NGS) - ar-hannover.de · Die Attraktivität der NGS-Methode beruht auf...
Transcript of Next Generation Sequencing (NGS) - ar-hannover.de · Die Attraktivität der NGS-Methode beruht auf...
Next Generation Sequencing (NGS)Datenflut und Datennutzung managen, die NGS-Leistung in Praxis, Forschung und Lehre optimieren
Ein Leitfaden für Laborbetriebe und Kliniken in Praxis und Forschung
Februar 2018In Zusammenarbeit mit
EinleitungA, C, G, T. Die Bausteine des Lebens sind kein Geheimnis mehr. Was lange Zeit immensen Aufwand an Zeit, Geld und Equipment bedeute-te, ist heute „business as usual“. Immer mehr Möglichkeiten, ultra-schnelle Sequencer und die große Nachfrage nach der NGS-Methode lassen die Datenmengen in Laborbetrieben und Kliniken immer schneller wachsen.
Wer die NGS-Datenmengen beherrschen will, braucht eine Daten- managementstrategie, die jeden Prozessschritt und Zeithorizont abdecken kann und bei der Sicherheit und Flexibilität keine Kompro-misse eingeht. Die Strategie der Data Fabric ist dafür ideal. Denn sie berücksichtigt nicht nur herkömmliche on-premises Dateninfra-strukturen. Sie ebnet auch den Weg zum Datenmanagement in einer hybriden Cloud. Und sie kann klassische ebenso wie objektbasierte Datenmodelle abbilden.
Eines ist heute schon sicher: Das Rad lässt sich nicht zurückdrehen. NGS gehört die Zukunft in der Forschung ebenso wie in der Diagnostik. Genanalysen können ein lukratives Geschäftsmodell sein, können unnötige medizinische Eingriffe, teure Therapien und Fehlbehandlun-gen vermeiden helfen und bringen generell den Erkenntnisgewinn voran. Wer zu den Playern gehört oder gehören will, kann sich bereits über die Dateninfrastruktur bestens im Markt für NGS positionieren.
NEXT GENERATION SEQUENCING
3
Inhalt
Wenn die Revolution zum Mainstream wird und das Genom in die Hosentasche passtSeite 4
Der Workflow für die Suche nach der Nadel im HeuhaufenSeite 5
Management-Strategien für NGS-DatenSeite 6
Der klassische Ansatz Seite 6
Praxisbeispiele Seite 7
Die Zukunft ist objektorientiert Seite 8
Die Strategie der Data Fabric Seite 9
Wachstumsmarkt NGSSeite 10
Fazit: die Revolution hat begonnenSeite 11
AutorSeite 12
NEXT GENERATION SEQUENCING
4
Wenn die Revolution zum Mainstream wird und das Genom in die Hosentasche passt
Röntgen war vorgestern, NGS ist heute und morgen bringen wir
unsere Genomanalyse zum Arzttermin schon mit. Zukunfts-
musik? Mag sein. Dass ein kleines Smartphone so stark wie ein
ausgewachsener Rechner wird, war vor zehn Jahren auch noch
schwer vorstellbar.
Tatsache ist, dass NGS aufgrund der hohen Verarbeitungsge-
schwindigkeit die Forschung und Diagnostik revolutioniert hat
und dabei ist, Genetik, Evolutionsbiologie und Medizin massiv
zu verändern. Denn ein komplettes menschliches Genom ist
heute nicht mehr erst nach Monaten sequenzierbar und inter-
pretierbar. Je nach Aufgabenstellung dauert der Prozess von
der Blutentnahme über die Analyse bis zur Diagnose nur noch
wenige Stunden.
Die Attraktivität der NGS-Methode beruht auf ihrer extrem
hohen Sequenzierkapazität. Hinzukommen neue Möglichkeiten
wie die klonale Sequenzierung einzelner Moleküle, eine höhere
diagnostische Genauigkeit aufgrund der parallelen Sequen-
zierung ganzer Genome sowie die einfache Handhabung der
Technik.
Da mehr Proben parallel verarbeitet werden und die Leistungs-
stärke der Sequencer generell steigt, sinken auch die Kosten.
Immer häufiger ersetzt NGS die klassische DNA-Sequenzierung
nach Sanger und ist die Methode der Wahl – vom Forschungs-
projekt für seltene Krankheiten über medizinische Analysen bis
zu Lifestyle- und Fun-Analysen mit praktischem Ergebnisabruf
im Internet.
NEXT GENERATION SEQUENCING
5
Der Workflow für die Suche nach der Nadel im HeuhaufenNGS revolutioniert nicht nur unser Verständnis des Lebens,
indem es sehr viel detailliertere Interpretationen ermöglicht. Es
zieht auch Herausforderungen beim Management, bei der Spei-
cherung und bei der Analyse großer und komplexer Datenmen-
gen nach sich.
Wie sieht der Standard-Analyseprozess für NGS-Daten aus?
Zunächst werden die ausgelesenen Rohdaten, also Abfolgen
Die Software der Sequencer oder ein Workflow Management
System wie zum Beispiel Galaxy, sorgt für die Produktion, das
Scheduling und den Transfer der Analysedateien von einer
Instanz zur nächsten. Denn zwischen Labor-IT und Analysege-
räten müssen die Datenströme ebenso reibungslos laufen wie
zwischen Laborinformationssystem (LIS) und nachgelagerten
Systemen wie ein Krankenhausinformationssystem (KIS). Unab-
hängig von der Größe des Setups, der Anzahl an Analyseschritten
und beteiligten User müssen kontinuierlich Dateien im Netzwerk
gespeichert werden. Das gilt für die vom Sequencer erzeugten
Base Call (BCL) Dateien und für die Ergebnisdateien der Analysen.
der vier Basen A, C, G, T, mit einem Referenzgenom abgeglichen.
Das erfordert zwar Zeit und Rechenleistung, große Datenspei-
cher und hohen Datendurchsatz, läuft aber pro Datentyp weit-
gehend standardisiert und automatisiert ab. Sehr viel aufwändi-
ger und vielfältiger in der Methodik, und mit mehr Menschenarbeit
als Maschinenarbeit verbunden, ist die Interpretation der eigent-
lich relevanten Informationen, die Suche nach der Nadel in
einem Heuhaufen aus einer Unmenge an kleinen Dateien.
Krankenhaus- informationssystemRemote
Labor- informationssystem
Labor IT
Analysegeräte
ArztWissenschaftler Remote
ArztWissenschaftler Labor
NEXT GENERATION SEQUENCING
6
Management-Strategien für NGS-DatenUm die Dimensionen zu verdeutlichen: Labore mit einem Per-
sonalstand von zehn bis 15 Ärzten oder Wissenschaftlern sind
in der Lage, zwischen 25.000 und 50.000 NGS Samples im Jahr
zu erstellen. Das entspricht ein bis zwei Terabyte nur für die
Rohdaten. Prognosen gehen davon aus, dass bis zum Jahr
2025 weltweit mehr Daten durch NGS entstehen als auf You-
Tube zu sehen sind. Dabei ist die schiere Masse noch das klei-
nere Problem. Denn im Cloud-Zeitalter ist Datenspeicher ein-
fach zugänglich und außerdem preisgünstig. Die eigentliche
Herausforderung bleibt das Management der Daten.
Der Klassiker: Daten im Netzwerk konsolidieren und managenDamit Daten für autorisierte User zentral zugänglich sind und
die komplette Prozesskette von Analyse bis Archivierung rei-
bungslos läuft, ist die Konsolidierung der Daten im Netzwerk
erforderlich, entweder filesystembasiert oder in Form einer Uni-
fied-Architektur. In jedem Fall entsteht eine einheitliche Basis.
Je flexibler und modularer diese ist, desto besser und kostenef-
fizienter lassen sich Performance und Kapazität auf den jeweili-
gen Prozessabschnitt abstimmen.
Je aktueller und analysenäher die Daten und je mehr Sequencer laufen, desto leistungsstärker muss die Infrastruktur sein.
Je aktueller und analysenäher die Daten und je mehr Sequencer
laufen, desto leistungsstärker muss die Infrastruktur sein. Für
den Transfer der Daten vom Sequencer zum Speicher und zur
Analyseplattform sind mindestens 10Gbit-Verbindungen erfor-
derlich. Für Whole Genome Resequencing und Long-Read-
Daten zum Beispiel empfehlen sich 40Gbit-Verbindungen
zwischen Speichersystemen und Analyseservern.
Sind die Analysen beendet und werden die Daten nur noch aufbe-
wahrt, können die primären Systeme entlastet werden. Statt
schneller Flash-Medien (SSDs) genügen langsamere Medien
(SATA Disks oder Bandspeicher) mit großer Kapazität. Wichtig ist,
dass sich die Zusammensetzung der primären Dateninfrastruktur
jederzeit und möglichst im laufenden Betrieb anpassen lässt.
Konvergente oder sogar hyperkonvergente Infrastrukturen
machen Umsetzung und Betrieb einer Dateninfrastruktur für
NGS besonders einfach, flexibel und sicher. Die Komponenten
für Storage, Server und Netzwerk sind nicht nur abgestimmt,
sondern auch variabel konfigurierbar und unabhängig vonein-
ander ausbaufähig.
Der Kunde hat die Wahl: von Server Blade bis HPC-Cluster, von
der Netzwerkkarte zum softwaredefinierten, virtuellen Netzwerk
und kombiniert mit wie auch immer gearteten Datenspeicher-
medien. Laborbetriebe, die für ihre IT-Infrastruktur nur wenig
Raum zur Verfügung haben, profitieren zudem vom sparsamen
Platzverbrauch dieser IT-Architektur, die zudem auch die
Betriebskosten senkt.
Dass das klassische Datenmodell für Umgebungen jeder Größe
passt, zeigen zwei sehr unterschiedliche Praxisbeispiele.
NEXT GENERATION SEQUENCING
7
Praxisbeispiel 2: MHH – Medizinische Hochschule, Hannover Die MHH verfolgt ein modulares, softwaredefiniertes Infra-
strukturkonzept. Damit kann das kleine, aber hoch effektive
IT-Team schnell, flexibel und kosteneffizient agieren. Und das
gilt auch für die Bereitstellung aufwändiger Technologien und
zugehöriger Auswertungskonzepte wie NGS. Der Nutzerkreis
ist groß und heterogen: Ausgebildete Bioinformatiker, Spezia-
listen verschiedenster Fachbereiche von Humangenetik bis
zahnärztlicher Prothetik sowie nichtbioinformatische Nutzer,
die die größte und am stärksten wachsende Gruppe stellen.
Die zentrale Datenspeicherung und Datensicherung sowie das
Redundanzkonzept für das Disaster Recovery basieren auf
NetApp Lösungen. Je nach Anforderungsprofil der Anwendun-
gen werden unterschiedliche Speichermedien von Flash bis
Bandlaufwerken genutzt und mit virtuellen oder physischen
Servern bis hin zum HPC-Cluster orchestriert. Die Sicherung ist
nicht nur hoch granular, sondern auch langfristig ausgelegt.
Aufgrund der Modularität und Anpassbarkeit des Gesamt-
konzepts ließen sich auch die Anforderungen von NGS einfach
integrieren. Da jeder Schritt die passende IT-Unterstützung
erhält, können die Prozesse reibungslos und kosteneffizient
ablaufen. Performance und Infrastrukturkosten sind zu Prozess-
beginn am höchsten und nehmen im Zeitverlauf ab.
Effiziente Nutzung vorhandener IT-Ressourcen von Produktion bis Test.
Die Vorteile
Transientes Datenmanagement entlang verschiedener Zeithorizonte.
Zentralisierter IT-Support auch für Hochleistungs- anwendungen.
Schnelle und effiziente Datenanalysen dank sicher verfügbarer Verarbeitungsroutinen für häufig nachge- fragte Sequenzierungsanwendungen.
Verbesserung der abteilungsübergreifenden Zusammenarbeit und Nutzung von Synergien.
Dokumentation und sichere Verwahrung gemäß wissenschaftlichen Standards.
Praxisbeispiel 1: MGZ – Medizinisch Genetisches Zentrum, MünchenDas MGZ bietet Beratung und Diagnostik für ausgewählte
Themenbereiche der Humangenetik und ist Ansprechpartner
für klinische und differentialdiagnostische Fragen. Die moleku-
lar- und zytogenetischen Untersuchungen werden mithilfe
modernster Analysemethoden durchgeführt. Jeden Tag sind
am MGZ rund 50 TB Daten in Bewegung. Und die Nachfrage
den Leistungen des MGZ wächst. Die IT-Verantwortlichen rech-
nen jährlich mit einem immensen Datenwachstum.
Mit Inselstrukturen in der IT kommt man am MGZ nicht weit –
vor allem dann nicht, wenn es darum geht, wettbewerbsfähig
zu bleiben. Allein in München und Umgebung sind zig Labore
aktiv, die NGS anbieten. Zudem erfordert der Unternehmensfo-
kus auf Diagnostik und Beratung eine Infrastruktur, die Arbei-
ten auf hohem Qualitätsniveau ermöglicht.
Die Dateninfrastruktur am MGZ basiert einheitlich auf NetApp
Lösungen. Damit kann der Output der Sequencer schnell und
sicher abgelegt werden, ist für neue Verwendungen jederzeit
abrufbar und wird kurz- und langfristig gesichert. Dank der
hohen Verfügbarkeit und Datensicherheit sowie unterbre-
chungsfreien Ausbaufähigkeit kann das MGZ mit Qualität und
Schnelligkeit punkten.
G A T A120
AA T C T GG T C T130
T ATT T CC
50TB
NEXT GENERATION SEQUENCING
8
Die Zukunft: Das objektorientierte DatenmodellJe größer die Mengen an File-Daten werden und je älter die
Daten sind, desto mehr bietet sich ein objektorientiertes Daten-
modell mit Object Storage an. Mit seiner extremen Skalierbarkeit
ist diese Datenmanagementkonzept für NGS wie gemacht. Object
Storage kann buchstäblich Milliarden von Dateien speichern. Nicht
von ungefähr basiert der Cloud Storage großer Provider von
Amazon bis YouTube auf diesem Prinzip.
Was den Reiz von Object Storage auch für NGS ausmacht, ist
die Kombination aus Filesystem und Metadaten. Die hierarchische
Struktur der Dateiverwaltung ist wie gewohnt, wird aber flach
gehalten. Zudem können jeder Datei beliebige Eigenschaften
oder Attribute als Metadaten zugeordnet werden. Datei und
Metadaten zusammen bilden ein Objekt, das sich mit anderen
Objekten zu Gruppen zusammenfassen lässt. Hash-Technologie
sorgt für die Integrität der Daten und deren Wiederherstellbar-
keit im Fall einer Datenkorruption.
Metadaten sind wie Etiketten in einem Kleidungsstück. Sie
geben Auskunft über unsichtbare Eigenschaften, wie zum Bei-
spiel Produktionsherkunft, Zusammensetzung, Pflegehinweise
oder Hersteller. Übertragen auf NGS können einer Datei zum
Beispiel Angaben wie die Zugehörigkeit zu einem Forschungs-
projekt, Ablauf der Aufbewahrungsdauer, Zugriffsberechtigung
oder auch Hinweise auf Analyseergebnisse hinzugefügt werden.
Abgesehen von rechtlichen Vorgaben sind der Fantasie keine
Grenzen gesetzt.
Um der Falle proprietärer Dateninseln zu entgehen, empfiehlt
sich in der Infrastruktur Software-Defined Storage, der über das
Filesystem und die Standardprotokolle CIFS und NFS einfach
zugänglich ist. Da die Speicherhardware vom Objektbezug
entkoppelt ist, können nicht nur komplett virtualisierte Umge-
bungen, sondern über S3-Schnittstellen auch Cloud Storage-
Systeme mühelos eingebunden werden.
Object Storage ist wie ein lebendiges Archiv, das grenzenlos
Daten aufnimmt und vorhandene Daten für die erneute Nutzung
bereitstellt. Da die Daten von der Aufbewahrung bis zur
Löschung unveränderbar sind, besteht Prozess- und Daten-
sicherheit.
Klinikverbünde, NGS-Zentren und Forschungsnetzwerke profi-
tieren von einem objektorientierten Datenmodell ganz beson-
ders: Sie können sicher und kostengünstig so genannte Data
Lakes aufbauen, nach Belieben gestalten und den NGS-Daten-
bestand immer wieder für neue Erkenntnisse nutzen.
Modell einer Data Fabric für NGS
NEXT GENERATION SEQUENCING
NEXT GENERATION SEQUENCING
9
0011000000110000001
1000011001100
11111000
110000010
0000001100
110011110
11011110011111
00011000011
0010011110011100011110000110011110001011111100111011100100
000000011100
01110
1100000011001111100000111000110
110010001100
000000
01001
0111100
110011111100
1110
001100
01100110
11100110011000011100
110010111
110011111101110
011000000001110001111001100001101111000011100
00100
0010
0000011100
001100110010001100110010011
001010111111000
11000000110
000
000010101111011001111111101110
0100
0110100
11101110001110011
101100
001101111110
11110011111100010000000000111100001111001111000000111001111111100000
111100001100
000011 00
00000000001110
0110000011100100001111000101100001100000000
G A T A120
A AT C T G G T C T130
T AT T T C C
Aus Sicht des Datenmanagements bietet sich die Strategie der
Data Fabric an. Damit lassen sich Anwendungen und Daten in
jeder Umgebung, mit und ohne Cloud, einfach managen, nach
Bedarf bewegen und Compliance-gerecht schützen. Unabhängig
davon, wo sich die Daten befinden, ihr Besitzer hat jederzeit die
volle Kontrolle.
Ein wesentlicher Vorteil dieses Konzepts sind Datensicherheit
und Datenschutz für verschiedene Anforderungen und Zeit-
horizonte. Die technologische Basis sollte Snapshot-Technolo-
gie sein. Sekundenschnell und platzsparend wie Snapshot
Backup ist, hat es zwei unschlagbare Vorteile: Datensicherungen
können beliebig häufig ablaufen und ohne den Betrieb zu beein-
trächtigen. Über die Integration mit Software für Backup und
Archivierung entsteht ein lückenloses Sicherungskonzept.
Ergänzt um Replizierung an einen zweiten Standort kann auch
ein Disaster Recovery-Szenario realisiert werden. Verschlüsse-
lung schützt die Daten zusätzlich.
Data Fabric vereinfacht zudem die Nutzung von externen
Cloud-Ressourcen und den Aufbau einer hybriden Cloud. Und
dabei kann auch der im Gesundheitswesen besonders wichtige
Datenschutz gewahrt werden. Denn kaum etwas ist persönli-
cher als Gesundheitszustand, Krankheitsdispositionen oder
Zugehörigkeit zu einer Risikogruppe.
Die Lösung:
Eigene Datenspeicher werden bei einem Colocation Provider
mit Anschluss an die großen Cloud-Anbieter platziert. So kann bei-
spielsweise HPC-Rechenleistung aus der Cloud genutzt werden.
Da keine Daten aus der Hand gegeben werden, besteht Compli-
ance mit der Datenschutzgesetzgebung. Eine weitere Option ist
die Verwendung von Cloud Storage für die Datensicherung.
Die Strategie der Data Fabric für NGS
Backup/Archiv
Disaster RecoveryHPC
Rechenleistung
NEXT GENERATION SEQUENCING
NEXT GENERATION SEQUENCING
10
Wachstumsmarkt NGS
NGS ist ein Wachstumsmarkt und ruft die verschiedensten Anbie-
ter auf den Plan. Unternehmen, die „Sequencing as a Service“
anbieten, gibt es seit einiger Zeit auch in Deutschland. Die
großen Provider Google und AWS haben mittlerweile Cloud-
Angebote speziell für NGS im Angebot.
Kein Wunder, die Anwendungsfelder für NGS könnten vielfältiger
nicht sein: Humangenetik und Pharmakogenomik, Reproduk-
tionsmedizin, Onkologie, Epigenetik, Forensik, Prävention,
Ernährungsgenomik, personalisierte Medizin etc. Zudem eignet
sich NGS für Genproben von Menschen, Tieren und Pflanzen und
lässt sich auch in der Forensik einsetzen. Die Alpenmumie Ötzi ist
ein bekanntes Beispiel dafür.
Dass NGS auch von öffentlichem Interesse ist, zeigen nationale
Genom-Projekte in Saudi Arabien und Großbritannien. Und auch
in Deutschland ist man nicht untätig. Das Forum Gesundheits-
forschung empfiehlt eine richtungsweisende Strategie für den
Auf- und Ausbau einer nationalen Infrastruktur für Hochdurch-
satzsequenzierung. Der Senat der Deutschen Forschungs-
gemeinschaft plant bereits die Einrichtung von Kompetenz-
zentren für NGS an Hochschulen und hat im Sommer 2017 eine
Ausschreibung auf den Weg gebracht.
Ein klares Signal für eine weiterhin positive Nachfrageentwick-
lung ist die Kostenübernahme durch deutsche Krankenkassen:
Die Beschränkung der DNA-Sequenzanalyse auf die bisher übli-
che Sanger-Methode wurde im einheitlichen Bewertungsmaß-
stab aufgehoben.
NEXT GENERATION SEQUENCING
11
Fazit: die Revolution hat begonnenNGS bietet Medizin, Forschung und vielen anderen Disziplinen
von Pharmazie bis Forensik vielfältige Chancen und Möglich-
keiten. Bei diesen Aussichten ist es mit Blick auf das Daten-
management umso wichtiger, dass Dateninfrastrukturen in
jeder Hinsicht maximal modular und ausbaufähig sind. Denn
nur so bleiben Nutzer und Betreiber in jeder Hinsicht flexibel.
Schlichte Anpassung von Kapazität oder Performance, ausge-
feilte und vor allem komfortable Management-Fähigkeiten von
Backup bis Archiv, einfache Erweiterbarkeit um Nutzer, Geräte
und Speicherorte mit und ohne Cloud, all das sind Faktoren, die
es mit Blick auf die Zukunft zu beachten lohnt.
Zukunftssicherheit hat aber zusätzlich noch eine strategische
Komponente. Früher oder später wird die Cloud auch für
Gesundheitsdaten unverzichtbar sein. Dass es bereits heute
Möglichkeiten gibt, Cloud Services und Ressourcen einzubin-
den und das in Einklang mit dem Datenschutz, ist ein guter
Anfang.
Wir von NetApp diskutieren gerne, wie Ihre Datenstrategie für
NGS aussehen kann. Sprechen Sie uns an. Wir finden mit
Sicherheit die optimale Lösung.
1
2
3
4
NEXT GENERATION SEQUENCING
12
Dirk Möller
Director Sales Public Sector Germany,
NetApp Deutschland GmbH
Dirk Möller ist auf Kunden aus dem Bereich der öffentlichen Verwaltung spezialisiert und
ist ein thematisch wie technisch gleichermaßen versierter Ansprechpartner. Möller ist
seit Juli 2007 bei NetApp Deutschland beschäftigt. Seit August 2015 leitet er von unserer
Niederlassung in Düsseldorf aus deutschlandweit den Bereich Public Sector, der Behör-
den und öffentliche Einrichtungen von Bund, Ländern und Kommunen sowie kirchliche
Institutionen umfasst.
Sie möchten mehr erfahren?
Senden Sie mir eine E-Mail:
Autor
Anders & Rodewyk ist in der deutschen ITK-Branche ein bekannter Name und ein langjähriger, viel-
fach zertifizierter Partner von NetApp Deutschland. Das 1987 gegründete Systemhaus mit Sitz in
Hannover ist auf ganzheitliche IT-Lösungen und Managed Services für mittelständische Betriebe,
öffentliche Einrichtungen und Behörden spezialisiert. Ein großer Branchenschwerpunkt ist der Be-
reich Healthcare. Weitere Informationen und Referenzen finden Sie auf www.ar-hannover.de.
Unser Partner