Post on 22-Mar-2017
Sisältö
1. Määrittelyä
2. Iso data maailmalla: YK, Komissio, ESS, jäsenmaat
3. Iso data Tilastokeskuksessa
4. Ison datan toimintaympäristö
5. Aineistot
6. Projektit
7. Muita näkökulmia? Ison datan haasteet.
17.11.2015 Pasi Piela, VE2
Määrittelyä
- Jatkuvasti päivittyvä suuraineisto, jota täytyy pilkkoa pieneksi,
jotta sitä voi käsitellä ja visualisoida.
– Periaatteessa teknologisen kehityksen taso määrittää big
datan: mikä on pientä, mikä suurta.
– Iso data on helppo ymmärtää. Sitä ei voi sivuuttaa käsitteen
abstraktista olemuksesta huolimatta.
– Rekisteri ei ole big dataa, mutta olisiko kuitenkin
väestötilastojen tietovarasto (Herttua) Kiinassa big dataa?
• Joka tapauksessa sen käsittely vaatisi ison datan
teknologioita.
- yritysten ja kansalaisten elämän digitalisoitumisen tuloksena
syntyvää datamassaa
17.11.2015 Pasi Piela, VE3
Hallinnollisten aineistojen
käyttöönoton historiaa tuntevat
huomaavat kuitenkin yhtäläisyyksiä
haasteissa big dataankin.
Määrittelyä tilastotoimessa
- Tilastotoimen kannalta määritelmä on selkeä. Taksonomioita on
olemassa ja niitä on helppo laatia (ks. Tieto&trendit –artikkeli).
- Tilastokeskus on ottamassa omiin kyselyihinsä mukaan;
määritelmä TSK:n Termipankin mukainen
- Big datasta aggregoitu aineisto ei ole big dataa vai onko?
- Tilastotoimen kannalta iso data tarkoittaa luonnollisesti nopeutta.
- Toisaalta tämä hype motivoi meitä kohti uusia tietolähteitä
tuotantoa rikastamaan.
17.11.2015 Pasi Piela, VE4
Tavoitteet tilastotoimessa
Uusien, aiemmin käyttämättömien tietolähteiden implementoinnilla
pyritään:
- alentamaan tiedonhankinnan kustannuksia (suorantiedonkeruun
korvaaminen),
- parantamaan tilastojen laatua (esim. nopeutus tai kattavuus),
- mahdollistamaan uusien tilastojen tuotantoa,
- tuottamaan tilastotietoa täydentävää tietoa (esim.
kuluttajabarometrin vs. sosiaalisen median sentimenttimittarit),
- korvaamaan asetelmapohjaista tilastotuotantoa mallipohjaisella
tuotannolla (mallien kalibrointi).
Onko hype jo ohi?
– Ei todellakaan, ei tilastotoimessa.
17.11.2015 Pasi Piela, VE5
Iso data maailmalla: YK
- agendalla Data Revolution
- YK:n työryhmä tulee keskittymään kolmeen pääkohtaan:
mobiilidata, sosiaalinen media sekä satelliittikuvannus ja
paikkatietodata.
- Tilastotoimelle tärkein UNECE:n Big Data Projects
– Irlannin tilastovirastoon luotu sandbox (hiekkalaatikko) big
data –aineistoille (tai käytännössä sen kaltaisille karsituille
aineistoille eri maista)
– http://www1.unece.org/stat/platform/display/bigdata/Big+Data+Inventory
– UNECE toimii yhteistyössä myös Eurostatin ja sitä kautta
Euroopan tilastojärjestelmän (ESS) kanssa.
17.11.2015 Pasi Piela, VE7
Iso data maailmalla: Komissio
- Päätahona: DG CNECT (Directorate-General Communications,
Networks, Content and Technology): strategiana Towards a
thriving data-driven economy
- Keskeinen mm. Liikenne ja viestintäministeriölle
– Kansallinen big data –strategia
– Tilastokeskus on mukana
- järjestää vuosittain European Data Forumin
– Big Open Linked Data.
– Yliopistot, yksityinen sektori ja julkinen sektori keskustelevat
– Tilastovirastot lähinnä loistaneet poissaolollaan
– Edellinen oli Luxemburgissa eilen
17.11.2015 Pasi Piela, VE8
Iso data maailmalla: Komissio
- Päätahona: DG RTD (Research and Innovation)
– Horizon 2020 –tutkimuksen puiteohjelma
– 80 miljardia euroa vuosille 2014-2020
– Ajankohtaista työohjelma 2016-2017
– Tilastotoimen kannalta relevantit haut:
• http://www.cros-portal.eu/content/horizon-2020
- Komission in-house tiedeosasto JRC (Joint Research Center)
touhuaa todellisten big datojen kimpussa, mutta on myös
tilastollisessa mielessä kiinnostunut isosta datasta.
- Näiden lisäksi monia muita tahoja ja Komission ulkopuolisia EU:n
toimielimiä, kuten Euroopan keskuspankki, jolla tilastotoimen
kannalta kiinnostavia projekteja.
17.11.2015 Pasi Piela, VE9
Iso data maailmalla: Euroopan
tilastojärjestelmä
- TK jäsenenä: ESS Task-force on Big Data in Official Statistics
- Tärkein julkaisu tähän mennessä: tiekartta ESS:lle (ESSC:n
hyväksymä)
– ESS Big Data Action Plan and Roadmap 1.0
- Keskeisenä pilottiprojektit ja rahoitus
– Framework Partnership Agreements (FPA) →Special Grant
Agreement (SGA)
– FPA:t eivät sido. Rahoitus SGA:n kautta. 1-2 SGA:ta per FPA
ja vain FPA:ssa mukana oleville.
17.11.2015 Pasi Piela, VE10
Iso data maailmalla: jäsenmaat
- Hollanti (viisi päätoimista big data –työläistä)
- Irlanti
- Slovenia
- Italia
- Britannia
- Viro (Tarton yliopisto)
17.11.2015 Pasi Piela, VE11
Iso data teemana Tilastokeskuksessa
- Lainsäädäntö: tiedonkeruuvaltuudet
- Kansainvälinen toiminta
- Kouluttaminen ja konsultointi
- Big data -työryhmä
- Big data Tilastokeskuksen omiin kyselyihin mukaan
- Sosiaalinen media: ajankäyttö, viestintä, aineistolähde
- Mobiiliteknologia
- Big Data Forum Finland, BiFF (TIEKE)
- Omat projektit
17.11.2015 Pasi Piela, VE12
17.11.2015 Pasi Piela, VE13
Ison datan toimintaympäristö
Tilastokes-kuksen big
data
YK ja UNECE (sekä EKP, OECD ym.)
Euroopan tilasto-
järjestelmä ESS
Internet
Teknologia-toimittajat ja palveluiden
tarjoajat
Yksityisen sektorin
tietovaranto-jen omistajat
Julkisen sektorin
tietovaranto-jen haltijat
VM
Julkishallinto ja kansalliset strategiat ja
verkostot
Valtori
Yliopistot
Taksonomia
1/2
17.11.2015 Pasi Piela14
No. Aineistolähde Aineiston tyyppi Tilastollinen soveltamisalue
1 Teleliikenne Mobiilidata Matkailutilastot
Väestötilastot
2 Internet Web-haut Työvoimatilastot
Muuttoliike
Verkkokaupat Hintatilastot
Yritysten verkkosivut Tietoyhteiskuntatilastot
Yritysrekisteri
Avoimet työpaikat verkossa Työllisyystilastot
Kiinteistöjen myynti-
ilmoitukset verkossa
Hintatilastot (asuntojen
hinnat)
Sosiaalinen media Kuluttajien luottamus
Komission Beyond GDP –
ohjelmaan liittyvä
hyvinvoinnin ja
onnellisuuden mittaaminen
Tietoyhteiskuntatilastot
3 Sensorit Liikenteen automaattiset
mittausasemat
Liikennetilastot
Kuljetustilastot,
tavaraliikennetilastot
Etäluettavat sähkömittarit Energiatilastot
Satelliittikuvat Maankäyttötilastot
Maataloustilastot
Ympäristötilastot
Laivojen automaattinen
tunnistusjärjestelmä (AIS)
Liikennetilastot
Päästötilastot
Taksonomia
2/24 Prosessin
generoima data
Lentoreitit Liikennetilastot
Päästötilastot
Kauppojen hintaskanneri- ja
myyntidata
Hintatilastot
Kulutustutkimus,
kotitalouksien kulutus
Taloudellinen transaktiodata Kulutustutkimus
5 Joukkouttaminen
(crowdsourcing)
Osallistava paikkatieto, VGI
(OpenStreetMap,
Wikimapia, Geowiki)
Maankäyttö
Yhteisölliset
valokuvakokoelmat, CPC
(Flickr, Instagram,
Panoramio)
‒
17.11.2015 Pasi Piela15
Ison datan aineistot
- Etäluettavien sähkömittareiden keräämä data
– Fingridin datahub tulossa
- Internet-hinnat, web-hintatiedonkeruu (web-scraping)
- Kauppojen kanta-asiakasaineistot
- Kauppojen kassapääteaineistot
- Luottokorttien transaktiotiedot ja pankkien aineistot
- Now casting
- Sosiaalinen media (palveluntarjoajana Suomessa Futusome)
- Liikenteen sensoridata
- Mobiilidata
- Muut kansalliset aineistot
17.11.2015 Pasi Piela, VE16
Mobiilidata: soveltamisalueet
- Suomeen saapuvien ulkomaalaisten määrien, matkojen kestojen
ja matkakohteiden tilastointi
- Suomalaisten matkojen määrien, kestojen ja kohteiden
tilastoinnin laadun parantaminen
- Työssäkäynti ja pendelöinti: erityisesti Viron ja Suomen välillä
- Muita: esim. kausivaihtelut yö- ja päiväväestössä ym…
17.11.2015 Pasi Piela, VE18
Työmatka-aikalaskennat
Type Median Mean Q1 Q3 QCD
Linear (km) 6.10 13.43 2.08 15.40 0.76
Route (km) 8.91 17.04 3.13 20.40 0.73
Time (min.) 11.72 16.83 5.67 21.13 0.58
• Based on the travel time optimisation.
• Q1 = 25th percentile, Q3 = 75th percentile
• The means are of 0 – 200 km distances
• Deviation measure here:
• QCD = (Q3 – Q1) / (Q3 + Q1)
• Quartile coefficient of dispersion
Commuting time
Quartile coefficientof dispersion
0.50 - 0.67
0.68 - 0.78
0.79 - 0.85
0.86 - 0.90
0.91 - 0.96
Commuting time
Median in minutes
4.1 - 6.8
6.9 - 8.8
8.9 - 10.8
10.9 - 15.8
15.9 - 25.8
Commuting time for populations of the sub-regions
(LAU 1)
Commuting time
Median in minutes
4.1 - 6.8
6.9 - 8.8
8.9 -10.8
10.9 - 15.8
15.9 - 25.8
Commuting time
Median in minutes
4.1 - 6.8
6.9 - 8.8
8.9 -10.8
10.9 - 15.8
15.9 - 25.8
Commuting time by the Urban-rural classification
• Populations in Inner-urban areas (left) and in Rural areas close to
urban areas (right) by the sub-regions.
Matka-aika pyöräillen työpaikalle
pääkaupunkiseudulla
17.11.2015 Pasi Piela, VE25
Mediaani, min.
- 21
22 - 33
34 - 43
44 - 55
56 -
0 105 kilometriä
Ison datan –haasteet
- Uusi paradigman muutos (asetelmapohjaisesta mallipohjaiseen
lähestymistapaan)?
- Kaikki haluavat avointa tietoa, mutta entä open business data?
- Tuleeko datalle hintalappu? Kuinka pitkälle dataa voi saada
hyvällä yhteistyöllä?
- Lainsäädäntö: tilastolaki ja tietoyhteiskuntakaari
- ”Asennemuutos! Yritys ja erehdys sallittava. Kaiken ei tarvitse olla
valmista.” Big data voi olla väliaikaista ja epätarkkaa.
- Kansallinen big data –strategia: julkishallinnon yhteistyömuodot ja
strategia tiedonvallankumouksessa!
- Rahoituslähteet
17.11.2015 Pasi Piela, VE26