Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek
-
Upload
surfnet -
Category
Technology
-
view
210 -
download
3
description
Transcript of Cloud gebaseeerde infrastructuur voor bevolkingsonderzoek
Cloud-gebaseerde Infrastructuur voor Biomedisch Bevolkingsonderzoek
Biomedical Imaging Group Rotterdam (BIGR)Afdeling Radiologie & Medische Informatica
ErasmusMC, Rotterdam
Henri Vrooman
Focus van onze groep (BIGR):
1. Computer-gestuurde diagnose VROEGTIJDIGE en meer NAUWKEURIGE diagnose!
2. Bevolkingsonderzoek Vergelijken en valideren van processing tools Meer inzicht in ziektebeelden / modellen creëren
Bevolkingsonderzoek; Variabiliteit van de bevolking in kaart brengen met modellen
- Model van het vasculaire systeem
- Model van het verouderende brein
- Model van het kloppende hart
- Model voor tumor diagnose en behandeling
- Modellen van zieke en gezonde groepen
SURFnet Relatiedagen 4 oktober 2012
04/10/2023
Ontwikkeling van robuuste, nauwkeurige en volledig automatische tools voor kwantitatieve metingen in breinbeelden
Voorbeeld: Neuro Imaging
SURFnet Relatiedagen 4 oktober 2012
• Weefselclassificatie
• Detectie van lesies
• Structurele integriteit
• Incidentele bevindingen
• ‘Blood flow’ in het brein
• Micro-bloedingen
Rotterdam Study (> 10000 deelnemers)
SURFnet Relatiedagen 4 oktober 2012
SURFnet Relatiedagen 4 oktober 2012 04/10/2023
Biomarkers
0.23
183 cc
17.3% Lesion load
83.12% Connectivity Thalamus-Cortex Two frontal lobes
Genereren van Imaging biomarkers
SURFnet Relatiedagen 4 oktober 2012
Neurodegeneratieve aandoeningen
Risicofactoren:
GenetischNiet-genetisch
BloeddrukCholesterolSuikerziekteHomocysteineRoken.......
Uitkomst:
BeroerteCognitiefDementieAlzheimerDepressie
Brain changes
WeefselverliesHerseninfarctenWitte-stofafijkingenMicro-bloedingen.....
??
SURFnet Relatiedagen 4 oktober 2012
Bottom lineWe zullen duizenden scans moeten acquireren
en verwerken om statistisch significante modellen/resultaten te verkrijgen!
Bevolkingsonderzoek Data-explosie
Delen/combineren van data
SURFnet Relatiedagen 4 oktober 2012
Er lijkt geld beschikbaar te zijn!
Bevolkingsonderzoek is een ‘hot topic’ op de agenda van healthcare organisaties,
wetenschappelijke centra en overheden
Nationaal, Europees en wereldwijd!
SURFnet Relatiedagen 4 oktober 2012
Voorbeelden van bevolkingsonderzoek• Parelsnoer (DMZ-approach)• Aneurist (DMZ-approach)• Parisk (DMZ-approach)• Rotterdam Study (scanner connected met interne
storage ErasmusMC)• Generation R (idem)
• Meeste studies werken via de DMZ (multi-step)• VPN-netwerken is een optie• Logistiek is veelal niet optimaal • In het algemeen nog vrij kleine cohorten
SURFnet Relatiedagen 4 oktober 2012
Huidige reken- en opslag-facilititeitenComputing• Lokale clusters bij partners (veelal circa 250 cores)• SARA (Life-science) grid faciliteiten (> 7000 cores)• HPC-Cloud (nieuwe versie released in oktober 2011)• SARA Super Computing Faciliteiten (e.g. LISA)
Opslag• Lokaal bij onderzoeksgroepen (BIGR; 70 TeraBytes)• DMZ-servers bij verscheidene ziekenhuizen/partners• ErasmusMC Digital Research Archive (EDRA; 150+ TB)• SARA Grid-Storage (Disk/tape; SRM-protocol)
SURFnet Relatiedagen 4 oktober 2012
Huidige problemen
• Initiatieven zitten vast, opschalen is lastig• Elk instituut heeft zijn eigen data en software/
hardware-infrastructuur• Dataformaten, scanprotocollen, verwerking en validatie
zijn niet of nauwelijks gestandaardiseerd!• Het is lastig om beelddata en numerieke resultaten te
sharen in 1 database• Transfer van zeer grote data sets is een bottle-neck• Veelal nog 100 Mb, 1 Gb snelheden via intra/internet
SURFnet Relatiedagen 4 oktober 2012
Huidige problemen
• Latency problemen op het internet ten gevolge van het oversturen van veel (miljoenen) bestanden
• Gesloten/afgeschermde ziekenhuisnetwerken• Er is geen hoogkwalitatieve IT infrastructuur voor
bevolkingsonderzoek beschikbaar op het moment• Het combineren van klinische data & research data en
van beeld- en niet-beeld data is niet triviaal• Privacy & security zijn belangrijke issues
Wat hebben we (ons inziens) nodig?
• Een centrale opslag van data• Directe toegang van HPC-faciliteiten tot de data• Snelle en veilige verbindingen tussen beeldvormende
apparatuur (scanners), storage en computing• Lage latency / hoge snelheid / veilig / efficiënt• Overzicht over datacollecties• Centrale afhandeling van
privacy en security issues • Vermijden van onnodig gesleep
met data!
SURFnet Relatiedagen 4 oktober 2012
SURFnet Relatiedagen 4 oktober 2012
Zilver bij de ”Enlighten Your research” prijsvraag 2011
Rotterdam (ErasmusMC)Leiden (LUMC)
Delft (TU)
Multi-center aanpak
SURFnet Relatiedagen 4 oktober 2012
SURFnet Relatiedagen 4 oktober 2012
Huidige pilot
Combinatie van:
• Centrale opslag en processing• HPC-Cloud computing• Lichtpaden
‘Een lichtpad vanuit een instituut naar de Cloud is vrij uniek voor Europa.’ Geeft wel de nodige problemen(IP-ranges, geen DNS, 24 uur in the air)
EYR Configuratie
SURFnet Relatiedagen 4 oktober 2012
SURFnet Relatiedagen 4 oktober 2012
Koppeling blijkt lastig
• Overlappende IP-ranges• Niet met elkaar pratende switches• Configuratie/routering/NATTEN/poorten• Er zijn meerdere partijen betrokken (onderzoekers, ICT, SURFnet, SARA)• Af en toe wat verwarring over fibers, projecten,
doelen, etc.
Koppeling Rotterdam
SURFnet Relatiedagen 4 oktober 2012
SURFnet Relatiedagen 4 oktober 2012
We willen twee scenario’s bekijken
1. Zenden naar centrale storage en triggered verwerken (het Rotterdamse gedeelte werkt; warp-experiment)
– Leiden en Rotterdam stuurt DICOM-data– Verwerking start onmiddelijk bij binnenkomst– Windows- en Linux-cores worden ‘on demand’ gedeployed– Delft bekijkt de resultaten (embedded feature spaces)
2. Vanaf de Cloud een query uitvoeren op data bij de verschillende partners (intern). Geeft extra problematiek bij het koppelen.
Koppeling Leiden
SURFnet Relatiedagen 4 oktober 2012
Mounten van de virtuele FS
SURFnet Relatiedagen 4 oktober 2012
SURFnet Relatiedagen 4 oktober 2012
Opmerkingen m.b.t. mounten FS• Disk partities van de virtuele fileserver (persistent) zijn
door Linux- en Windows-systemen te mounten.• (Auto-)mounten mogelijk naar gedeployde cores en de
servers bij de diverse partners.• VirDir (Cloud-functionaliteit) is niet te mounten op
Windows en kan niet ‘doorgemount’ worden. En VirDir is trager. Virdir wordt momenteel slechts als transport-buffer of backup gebruikt.
• Mounten in Delft en Leiden moet nog getest worden. Configuratie van de koppeling (poorten/privileges) is van belang.
SURFnet Relatiedagen 4 oktober 2012
Eerste performance testen I
Gegevens betreffende de fileserver performance:
Test A: eyr -> lichtpad -> virdirREAD: latency 143 msec bandwidth 1022 KByte/sWRITE: latency 192 msec bandwidth 254 KByte/s
Test B: eyr -> lichtpad -> virtuele fileserverREAD: latency 16 msec bandwidth 9309 KByte/sWRITE: latency 21 msec bandwidth 2314 KByte/s
De remote storage is via het lichtpad gemount
SURFnet Relatiedagen 4 oktober 2012
Eerste performance testen IILatency van het netwerk (vanuit Rotterdam):Internet: 6.02 msLichtpad: 2.21 ms(Beide tests uitgevoerd met ‘pings’)
Gegevens over de bandbreedte van het lichtpad:Avg 632 Mbit/s, Stdev 141 Mbit/sMin 313 Mbit/s, Max 936 Mbit/s
Bandbreedte van het lichtpad is redelijk tot goed, met pieken die dicht tegen de theoretische maximumcapaciteit aan zitten.
SURFnet Relatiedagen 4 oktober 2012
Privacy & security problematiek• Anonymisatie/pseudonymisatie/’defacing’
– Klinische data moet geanonimiseerd worden en eventueel gedefaced
– De meeste research data is al anoniem na acquisitie
• Het genereren van pseudo-id’s moet centraal– Verschillende patiënten met hetzelfde ZIS-nummer– Patiënten met meer ZIS-nummers – BSN is een optie om ambiguiteiten te voorkomen
• Veiligheid is een belangrijk item. Voorkomen van ongewenste personen/activiteiten op ziekenhuis- en research-netwerk!
04/10/2023
Concluderende opmerkingen met betrekking tot bevolkingsonderzoek I
• Momenteel wordt het opschalen van bevolkings-onderzoek gehinderd door het ontbreken van een geschikte, geavanceerde ICT-infrastructuur.
• Opslag en processing moeten gecentraliseerd en gestandaardiseerd worden.
• Faciliteiten moeten gebruiksvriendelijk zijn voor de participerende partners (web-based interactie)
• Verbindingen moeten snel en veilig zijn.• Mogelijke rekenfaciliteiten (bijv. LSG) moeten directe toegang
tot de data hebben.
SURFnet Relatiedagen 4 oktober 2012
04/10/2023
Concluderende opmerkingen met betrekking tot bevolkingsonderzoek II
• De infrastructuur moet een mix van klinische data en research data aankunnen, met de nodige privacy & security criteria
• Gezien de centrale opslag is er een uniform, gecentraliseerd mechanisme voor anonymisatie/ pseudonymisatie mogelijk (ontvangende proces)
• Er moet nog de nodige aandacht besteed worden aan de ontwikkeling van robuuste databases voor de opslag van ruwe (input) beelddata, bewerkte beelddata en numerieke resultaten.
Overzicht cruciaal!
SURFnet Relatiedagen 4 oktober 2012