Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013
description
Transcript of Avoimen datan mahdollisuudet terveystieteissä THL 3.12.2013
Avoin dataanalytiikka & terveystieteetLeo Lahti, Helsinki & Wageningen (Alankomaat)THL 3.1 2.201 3
Leo Lahti
Helsingin yliopisto (eltdk)Wageningenin yliopisto (Lab. Microbiol.) , AlankomaatTutkijatohtori (SA)Ihmiskehon mikrobiekologia
TkT (Aalto, 201 0)Bioinformatiikka & koneoppiminen
DI (TKK 2003)Teknillinen fysiikka & matematiikka
VTK (HY 2009)Käytännöllinen filosofia & kansantaloustiede
Open Knowledge Foundation Finland; Open Science work group
Avoimen datan ohjelmakirjastot (rOpenSci; sorvi; Louhos-blogi)
Avoimen lähdekoodin analyysivälineitä avoimelle datalle;
biolääketiede keskeisimpänä sovellusalueena
Laskennallinen tiede & bioinformatiikkaAvoin ja suljettu yhteiskunnallinen dataUusia tutkimustapoja ja välineitä?Keskustelua
Bioinformatiikka on monitieteinen tutkimusala, joka kehittää ja
käyttää matematiikan, tietojenkäsittelytieteen sekä
tilastotieteen menetelmiä biologisten ongelmien ratkaisuun.
- Organisoi tietoaineistoja tutkijoiden saataville
- Kehittää laskennallisia menetelmiä ja tietoresursseja
- Soveltaa näitä (molekyyli)biologian tutkimuksessa
Perimän rakenteen ja toiminnan kartoitus, geenisekvenssit,
proteiinien ja geenien rakenne ja toiminta, evoluutiotutkimus,
mikrobiekologia, tautigeenien kartoitus, eliöiden
sukulaisuussuhteiden selvittäminen, prognostiikka,
diagnostiikka
Ihmisen perimä
3,000,000,000 emäsparia 22,000 geeniä mRNA; ncRNA; miRNA; lincRNA 100,000 proteiinia- proteiinikompleksit
- muu aineenvaihdunta, soluviestintä
- biokemialliset vaikutusverkot
- satoja kudostyyppejä
- tuhansia sairauksia
- ympäristötekijät
Aineistojen laskennallinen yhdistely
keskeisellä sijalla perimän toimintaa
tutkittaessa
Ihmisen mikrobiomi
- tuhansia bakteerilajeja, valtaosin
tuntemattomia
- 1 01 4 bakteerisolua
(1 0 x ihmisen solujen määrä!)
metagenomi: >3,000,000 uniikkiageeniä (1 50 x ihmisen perimä!)
- hyvät, pahat & vapaamatkustajat
HITChip suolistobakteeriatlas:1000 bakteeria x 5000 näytettä
Datasta tietoon
Havainnot, data
Informaatio, faktat
Tieto, ymmärrys
Viisaus, toiminta
Tietojen yhdistelymahdollistaa uudetsovellukset jakasvattaa datan arvoa
- Laaja käyttäjä- ja kehittäjäyhteisö
- Avoin lähdekoodi
- Tuhansia analyysimenetelmiä (tilastollinen testaus,
tiedonlouhinta, visualisointi)
- Uusia työkaluja ja vaihtoehtoja SAS/SPSS/Matlab/Excel-säädölle
R Avoin tieteellinen laskentakielijokapäiväiseen tiedonlouhintaanwww.r-project.org
r4stats.com
Number of analysis tools for Rnow growing exponentiallyrOpenGov
CRAN
Avoimuuden etuja (data & koodi)- saavutettavuus & käytettävyys
- läpinäkyvyys & luotettavuus
- toistettavuus & jatkokäyttö
- yhteistyön skaalautuvuus
- lisätukea suljetun datan analyyseille
Kuntajako:YLE
Kuntakartta:Maanmittauslaitos
Väestötiedot:Tilastokeskus
Esimerkki: uusi kuntajako ja väestötilastot
Open Street Map,Helsinki
Pullonkauloja avoimen datan hyödyntämisessä- tiedon hajanaisuus
- heikko saavutettavuus
- sotkuinen data
- katoava data
- vertailukelvoton data
- välineiden puute
- yksityisyydensuoja
louhos.github.com
Louhos kerää ja kehittää algoritmejaavoimelle Suomidatalle
R/sorvikirjasto kattaa jo noin20 kotimaista tietolähdettä
KunnallisvaalitDatavaalit
Eduskunnan äänestyksetVaalikoneet
YLE/MOT YritystuetMaanmittauslaitos (MML)
Suomen ympäristökeskus (SYKE/OIVA)Google Maps
OpenStreetMapKuntatason informaatio
Maakuntatason informaatioHelsingin seudun ympäristöpalvelut (HSY)Helsingin kaupungin kiinteistövirasto (HKK)
Helsinki Region Infoshare (HRI)Asuntojen hinnat
KoulutusKulttuuri
PostinumerotTilastokeskus
VäestörekisteritNimitilastot
Maailmanpankki
Presidenttiehdokkaiden
kannatus ja suomalaisten
hyvinvointi (Data:
Tilastokeskus & HRI)
Sotkanetin R-esimerkit Opasnet-sivustolla
Apps4Finlandfinaaliin yhteistyössä Demos Helsingin kanssa
Käyttöesimerkkejä
Datawikigithub.com/louhos/sorvi/wiki/
Louhosblogilouhos.wordpress.com
Sotkanet-esimerkit lähdekoodeineen Datawikissä
"Lex Karpela" tekijänoikeuslain kannattajat eduskunnassa
Louhosblogi (louhos.wordpress.com)
Merkkipaaluja
201 0 sorvi-paketti & Louhos-blogi alulle
201 1 Datajournalismin työpaja, Vanha ylioppilastaloApps4Finland Datan Avaus-sarjan voitto (sorvi)
201 2 SHARE-konferenssi (Belgrad)Kaupunkitutkimuksen päivät (Helsinki)HSOpen Hackathon - yhteistyö (Vaalidatapaketti)Sitralta 1 4,000e rahoitus Datavaalit-hankkeelleOpen Legislative Data-konferenssi (Pariisi)Open Knowledge Festival (Helsinki)Apps4Finland Datan Avaus-sarjan voitto (Datavaalit)Apps4Finland Dataopas-sarjan yleisöäänet (Datawiki)Louhos-blogiin 20,000 vierailua
201 3 Open Knowledge Foundation; Open Science työryhmäMukaan CRAN-verkostoonOpen Knowledge RoadshowSotkanet-sovellus Apps4Finland-finaalissa (+Demos Helsinki)Globaali rOpenGov-verkosto käynnistyyNIPS Machine Learning Open Source Software workshop (Lake Tahoe, US)
Datan saatavuus: tietolähteiden kartoitus; joustavat haku- ja
putsausrutiinit
Läpinäkyvyys & toistettavuus: kaikki vaiheet yhdessä koodissa
Vuorovaikutteisuus: nopea datan seulonta ja visualisointi
Monipuolisuus: koodipohjaa voidaan jakaa ja uudelleenkäyttää
Lokalisoitu: kotimaisiin tarpeisiin
Uusia tutkimusvälineitä: R/Python-koodikirjastot!
(SAS/SPSS/Matlab/Excel: ei vastaavia välineitä
Uutta dataa & välineitä yhteiskuntatutkimukseen
rOpenGov: globaali kehittäjäverkosto (ropengov.github.io)
rOpenSci
Kiitos!
louhos.github.com/sorviJuuso ParkkinenAalto-yliopisto
Joona LehtomäkiHelsingin yliopisto
Markus KainuAleksanteri-instituutti
Tervetuloa mukaan!
louhos.github.io/sorvi
!louhos@IRCnet