Strojové učení z rychlíku

download Strojové učení z rychlíku

If you can't read please download the document

Transcript of Strojové učení z rychlíku


Strojov uenz rychlku

Devel.cz 2013

Michal Illich

Dnen menu

Co to je a k emu vbec?

Obecn princip strojovho uen

Neuronov st

Rozhodovac stromy a lesy

Klasick problmy

Rozpoznvn obrazu
OCR vizuln klasifikace self driving cars

Rozpoznvn ei
voice dial voice search siri

Inteligentn agenti
roboti autonomn systmy

O tomhle tahle pednka nebude...

Kde se pouv na webu - I

Kde se pouv na webu - II

Kde se pouv na webu - III

Je jen pro velk?

Ano i ne.

vcemn vechny velk firmy jej pouvaj

potebuje dost dat

pome skoro na vech projektech

nen to tak sloit, jak to vypad

Kdy pout strojov uen?

1. Mte vc dat, ne zvldne zanalyzovat lovk.
to je u navtvovanch web skoro vdy...

2. Jste schopni definovat a zmit cl.
vc objednvek vc proklik mn odchod vc konverz
vc dat pesnj predikce dan vci na sklad ...

3. Jste v konkurennm prosted.
strojov uen nen zzrak, jen vm d nskok

K emu? Jak?

Dv zkladn pouit
supervidovanho strojovho uen

Pedpovd (slo)
CTR reklamy Hodnocen filmu Relevanci

Td (kategorie)
Spam/ham Rubrika Tma Pohlav Vk ...

Kde je to uen

Data rozdlte na (minimln) 2 hromdky:

Trnovac
Na nich se strojov uen u.
To jest hled vztahy a vytvo si z nich model.

Testovac
Na nich ovujeme, jak dobe model funguje.
Tedy zda jsou ty znalosti penositeln na nov data.

Od obecnho k algoritmm...

Uml neuronov st

Neuron

Deep learning

Klasick neuronov st ze 70. let
trnuj jen pes backpropagation
neum dobe natrnovat >2 hidden vrstvy

Convolutional networks
run navren topologie st, vborn na rozpoznvn obrazu

2006+ Hinton a dal deep learning
um po vrstvch trnovat velmi hlubok st
dok vyut i neoznakovan vstupn data (pre-training)
RBM, stacked autoencoders a dal algoritmy

NN jsou univerzln

Nejenom na rozpoznvn obrazu

Na vstupu libovoln pole sel
vechna data jde pevst na sla...

Na vstupu opt pole sel
me bt jeden vstup: predikce
nebo mnoho vstup oznaujc kategorie

Kde zat dobr knihovny:

FANN (C)
http://leenissen.dk/fann/wp/

cuda-convnet (C++, GPU)
http://code.google.com/p/cuda-convnet/

Theano (Python, GPU)
http://deeplearning.net/software/theano/

Rozhodovac stromy (a lesy)

jin technika strojovho uen

nen tak cool jako neuronov st

ale m i vhody:rychleji se u

nen poteba upravovat vstupn data

model je pochopiteln pro lovka

Pklad

Trnovac data (zjednoduen)

Od stromu k lesm

takovch strom si udlme teba 100

jejich vsledky zprmrujeme

boosting: vt vhu pikldme datm, u kterch se pedchoz stromy spletly

I rozhodovac lesy jsou univerzln

na vstupu libovoln data
nen poteba normalizovat i pevdt texty na sla

rychl a s dobrou pesnost

pouiteln na mnoho problm
i na fulltext

Kde zat dobr knihovny:

gbm (R)
http://cran.r-project.org/web/packages/gbm/

Weka (Java)
http://www.cs.waikato.ac.nz/ml/weka/

Scikit-learn (Python)
http://scikit-learn.org/

Na co nezbyl as

SVM (support vector machines)
rychl, pesn
ideln na klasifikaci, z selnch vstup

CRF / HMM
znakovn text, named entity recognition

Naive Bayes, linern regrese
zkladn statistick techniky
jednoduch, ale dost dobr na spoustu loh

Dky!

[email protected]

@michalillich

PS: Pijmme: C, Python, PHP

www.doporucim.cz/mobile/DEVELMICHAL

Zdroje ilustranch obrzk:http://www.cs.toronto.edu/~kriz/cifar.htmlhttp://code.google.com/p/cuda-convnet/http://cl.naist.jp/~kevinduh/notes/duh12deeplearn.pdfhttp://www.positscience.com/media-gallery/detail/161/94

+ pozad koupen ve fotobance