Data Science meets Developers - Jonne Heikkinen, Solita

Post on 13-Apr-2017

188 views 3 download

Transcript of Data Science meets Developers - Jonne Heikkinen, Solita

DATA SCIENCE MEETSDEVELOPERSJonne Heikkinen, Data Scientist

Jonne Heikkinen@jonneheikkinen

~5 vuotta alalla

M.Sc. Comp sci

R&D, asiakasanalytiikka, suosittelukoneet, konenäkö, NLP

Data scientist @ solita

”Data science is about extracting knowledge from

data.

KONEIHMINEN

vs.

PÄÄTÖKSENTEKIJÄ

PÄÄTÖKSENTEKIJÄ:KONE

PÄÄTÖKSENTEKIJÄ:KONE

1 Mitä on koneoppiminen?

1 Mitä on koneoppiminen?

2 Mitä ongelmia koneoppimisella voidaan ratkaista?

PÄÄTÖKSENTEKIJÄ:KONE

1 Mitä on koneoppiminen?

2 Mitä ongelmia koneoppimisella voidaan ratkaista?

3 Koneoppiminen tuotantoratkaisuksi?

PÄÄTÖKSENTEKIJÄ:KONE

1 Mitä on koneoppiminen?

2 Mitä ongelmia koneoppimisella voidaan ratkaista?

3 Koneoppiminen tuotantoratkaisuksi?

4 Miksi ohjelmistokehittäjän stackki on kultaa?

PÄÄTÖKSENTEKIJÄ:KONE

MACHINE LEARNING

SINCE 1959

DATA

ML-WORKFLOW

LEARN MODEL

SupervisedUnsuper-

vised

Machine learning

Reinforce-ment

SUB-CATEGORIES

SOVELLUSKOHTEET

› Suosittelukoneet (Netflix, Amazon).

› Ennustaminen. Asiakaspoistuma, huolto.

› Tunnistaminen. Facial, speech, fraud etc.

› Täysin uudet palvelut, jotka perustuvat ML

PALVELUT:TOUCHPOINTIT,

LIIKETOIMINNAN-KEHITYS

1. Kerää javastaanottaa

2. Rikastaa

3. Varastoija jalostaa

4. Machine learning

6. Julkaiseehyödynnettäväksi

OPERATIIVISET JÄRJESTELMÄT,SENSORIDATAN LÄHTEET &

DIGITAALISET PALVELUT

ULKOISET TIETOLÄHTEET

4. Machine learning

VA

AD

ITT

U T

EK

NIN

EN

O

SA

AM

INE

N

DATAN MÄÄRÄ

DATA EI MAHDU MUISTIIN

4. Machine learning

PREPARE DATA

FEATURE SELECTI

ON

TRAIN MODEL

EVALUATE

ML-WORKFLOW

Measurement-device 1..n

timestamp event … var_n Activity

Truck total_hours

time_from_maintentance

acceleration_magnitude

... feature_m Activity

RAW DATA

FEATURESPREPROCESSING, E.G., HANDLE

MISSING VALUES

n > m

TRAIN MODEL

VALIDOINTI

1/4 1/4 1/4 1/4

1/4 1/4 1/4 1/4

1/4 1/4 1/4 1/4

1/4 1/4 1/4 1/4

Fold 1

Fold 2

Fold 3

Fold4

Testidata

Opetusdata60% 40%

Holdout K-fold

SA

AV

UT

ET

TU

HY

ÖT

Y

KÄYTETTY AIKA

STATISTICAL RIGOR

QUICK ’N DIRTY

SUMMMM:

› Data engineerin rooli on avainasemassa, kun tehdään koneoppimisratkaisuita tuotantoon.

› Rakentavat ja ylläpitävät skaalautuvia älykkäitä järjestelmiä.

› Implementoivat yhdessä menetelmätieteiden asiantuntijoiden kanssa ratkaisuja tuotantoon.

› Analyysi ilman, että se menee käyttöön: 0 pistettä.

1 Ota joku oma datasetti, jonka tunnet hyvin.

2 Choose your weapon.

3 Pyörittele, kokeile, testaa.

4 Esim. kaggle–skabat.

MITEN LIIKKEELLE