Apprentissage statistique et Big Data, focus sur l ... · Apprentissage statistique Quelques id ees...

34
Apprentissage statistique et Big Data, focus sur l’algorithme online-EM Olivier Capp´ e Laboratoire Traitement et Communication de l’Information CNRS, T´ el´ ecom ParisTech, 75013 Paris 8 octobre 2013 0. Capp´ e (LTCI) Journ´ ee de rencontre BIG DATA 8 octobre 2013 1 / 34

Transcript of Apprentissage statistique et Big Data, focus sur l ... · Apprentissage statistique Quelques id ees...

Apprentissage statistique et Big Data, focus surl’algorithme online-EM

Olivier Cappe

Laboratoire Traitement et Communication de l’InformationCNRS, Telecom ParisTech, 75013 Paris

8 octobre 2013

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 1 / 34

Apprentissage statistique

1 Apprentissage statistique

2 Big Data

3 Online EM

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 2 / 34

Apprentissage statistique

L’apprentissage automatique

Apprentissage automatique (machine learning)

Apprendre a effectuer des taches a partir d’exemples

De facon supervisee Avec des exemples de donnees et de resultatssouhaites↪→ Classification

De facon non supervisee Avec uniquement des exemples de donnees↪→ Clustering

De facon sequentielle En traitant un flux de donnees de facon causale↪→ Prediction sequentielle

Par extension, problemes dont le traitement presente des analogies avec cequi precede↪→ Regression en grande dimension

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 3 / 34

Apprentissage statistique

Quelques idees sur l’apprentissage statistique

Je m’interesse aux approches statistiques de l’apprentissage

1 Comme en statistique usuelle j’utilise un modele probabiliste desdonnees

par exemple, Y = f(x)β + ε, avec ε aleatoire

2 Mais ce qui m’interesse c’est predire | classifier | reconstruire plusqu’estimer

predire Y ′ par f(x′)β pour un nouvel x′

plus que β en lui meme

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 4 / 34

Apprentissage statistique

Quelques idees sur l’apprentissage statistique . . .

3 D’autant plus que je crois que le modele utilise est instrumental(probablement faux)

on doit avoir Y = F(x) + ε, avec F assez compliquee

4 De ce fait, j’ai interet a faire croıtre la complexite du modele avecle nombre de donnees disponibles

si j’observe Y1, . . . , Yn, j’utilise plutot le modele

Yi =

kn∑j=1

fj(xi)βj + εi, ou kn ↑ avec n

5 Le choix / selection de modele est crucial

choisir kn pour quekn∑j=1

fj(x′)βj soit le plus proche de Y ′

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 5 / 34

Apprentissage statistique

Quelques idees sur l’apprentissage statistique . . . . . .

6 L’optimisation est un outil central

β = argminβ‖Y − xβ‖2 plutot que β = (xTx)−1xTY

de facon a penser a argminβ:‖β‖1≤λ

‖Y − xβ‖2

qu’il va falloir resoudre numeriquement. . .

7 Comme les modeles sont faux j’ai interet a les combiner

J’estime β1, . . . , βk separement dans les

modeles Y = f1(x)β1 + ε, . . . , Y = fk(x)βk + ε,

j’utilise l’ensemble {f1(x′)β1, . . . , fk(x′)βk} pour predire Y ′

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 6 / 34

Apprentissage statistique

Quelques idees sur l’apprentissage statistique . . . . . . . . .

8 L’approche bayesienne permet de retrouver beaucoup des methodesprecedentes (kn ↑ n, ‖β‖1 ≤ λ, {f1(x′)β1, . . . , fk(x

′)βk}) ainsi que

certaines de leurs variantes

J’imagine que β (voire k) est une variable aleatoire

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 7 / 34

Big Data

1 Apprentissage statistique

2 Big DataQuelques idees generalesQuelques idees de modelisation

3 Online EM

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 8 / 34

Big Data

Il est trop tard pours’interroger sur l’opportunitedu Big∗ Data. . .

Neanmoins son potentielreste assez largementspeculatif

∗ Suffisamment grand pour esperer repondre a des questions complexes

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 9 / 34

Big Data Quelques idees generales

Un phenomene qui impacte aussi la science

Big DataWeb, reseaux sociaux, commerce enligne, systemes d’informationd’entreprise. . .

mais aussi

Sciences du vivant, sciences duclimat, physique des particules,sciences humaines, . . .

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 10 / 34

Big Data Quelques idees generales

Vers une “science des donnees” ?

Experience JEM-EUSO Capteur de 2.105 pixels / 2.5µs pour detecter une centaine de

particules de tres haute energie par jour (source Balazs Kegl, LAL/LRI)

↪→ detecteur obtenu par des methodes d’apprentissage statistique(boosting) a partir de donnees preliminaires et de simulations

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 11 / 34

Big Data Quelques idees generales

Une demande tres forte sur l’enseignement

Qui mele des competences en mathematiques appliquees (statistiques,optimisation) et en informatique

L’exemple du Master specialise Big Data a Telecom ParisTech (Stephan Clemencon)

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 12 / 34

Big Data Quelques idees generales

Modelisation et Big Data

Il est necessaire (et utile) de modeliser le Big Data

If you cannot solve the proposedproblem, try to solve first somerelated problem. Could you imaginea more accessible related problem?

George Polya,How to Solve It (1945)

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 13 / 34

Big Data Quelques idees de modelisation

Grand n, grand p

Plus de donnees

mais aussi plus de statistiques!

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 14 / 34

Big Data Quelques idees de modelisation

Grand n, grand p

On imagine une sequence d’experiences dans lesquelles les nombresd’observations et de variables explicatives augmentent simultanement

VARIABLES p

OB

SE

RV

AT

ION

S n

. . .

VARIABLES p

OB

SE

RV

AT

ION

S n

Pour modeliser certaines situations (experience “Microarray” engenomique), il est possible de considerer aussi des cas ou p > n

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 15 / 34

Big Data Quelques idees de modelisation

“Lois” de Zipf

Rare n’est pas synonyme d’ininteressant

Comment echantillonner les donnees ?

Peut on construire (avec une complexite acceptable) des resumesexhaustifs des donnees ?

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 16 / 34

Big Data Quelques idees de modelisation

Controle du taux de faux positifs

Q: olivier cappe big data

Q: olivier cappe big data toulouse

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 17 / 34

Big Data Quelques idees de modelisation

Compromis performance / robustesse / calcul

Le volume de donnees necessite de reduire la complexite des traitementsIdees : Algorithmes sous optimaux, utilisation de resumesdes donnees. . .

− Regression sous-echantillonnee en observations

et en predicteurs

− Regressions marginales

Le calcul n’est plus une abstractionContraintes : structure des ressources de calcul, acces auxdonnees

Algorithmes online, distribues

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 18 / 34

Online EM

1 Apprentissage statistique

2 Big Data

3 Online EML’algorithme EML’algorithme online EMApplicationsReferences

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 19 / 34

Online EM L’algorithme EM

Modeles a donnees latentes

Un modele a donnees latentes est un modele statistique etendu{pθ(x, y)}θ∈Θ ou seul Y peut etre observe

Les estimes θn du parametre ne peuvent dependre que desobservations Y1, . . . , Yn

Le modele {fθ(y)}θ∈Θ est defini par marginalisation :fθ(y) =

∫pθ(x, y)dx

Les donnees {Yt}t≥1 sont supposees independantes et distribuees sous laloi marginale π (et π /∈ {fθ}θ∈Θ)

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 20 / 34

Online EM L’algorithme EM

Exemple : Modele de melange

Densite de melange

f(y) =

m∑i=1

αifi(y)

Interpretation en terme de donnees latentes

P(Xt = i) = αi

Yt|Xt = i ∼ fi(y)

−1

0

1

−1

−0.5

0

0.5

−4

−2

0

2

Souvent utilise pour realiser une version probabiliste du clustering(traitement de la parole, du langage naturel. . . )

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 21 / 34

Online EM L’algorithme EM

L’algorithme EM usuel vise a determiner numeriquement l’estimateur dumaximum de vraisemblance

θn = arg maxθ

n∑t=1

log fθ(Yt)

Expectation-Maximisation (Dempster, Laird & Rubin, 1977)

A l’etape k, etant donne l’estime courant θkn du parametre

Etape E Calculer

qn,θkn(θ) =

n∑t=1

Eθkn [ log pθ(Xt, Yt)|Yt]

Etape M Mettre a jour l’estime du parametre

θk+1n = arg max

θ∈Θqn,θkn(θ)

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 22 / 34

Online EM L’algorithme EM

Principe

1 C’est un algorithme MM (maximisation d’un minorant) de parl’inegalite de Jensen

Figure: La quantite intermediaire de l’EM minore localement la log-vraisemblance

2 Qui ne peut s’arreter qu’en un point stationnaire de lalog-vraisemblance (du fait de la relation dite de Fisher)

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 23 / 34

Online EM L’algorithme EM

L’algorithme EM n’a pas un comportement satisfaisantlorsque n est grand

Le cout de calcul (et de stockage) del’algorithme EM (pour un nombrefixe d’iteration) est proportionnel a npour un resultat qui ne s’ameliorepas quand n ↑ ∞

0

1

2

3

4

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Batch EM iterations

||u||2

20 103 observations

0

1

2

3

4

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

||u||2

2 103 observations

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 24 / 34

Online EM L’algorithme online EM

Algorithme online EM [C & Moulines, 2009–2011]

Pour remedier a ces defauts, on cherche une variante de l’algorithme EM

qui a chaque nouvelle observation Yn, met a jour l’estime θn

avec un cout de calcul (et de stockage) fixe par observation

peut etre interrompue a tout moment (et n’a pas besoin de connaıtreau prealable le nombre d’observations)

est robuste vis a vis de contraintes d’acces au donnees

se comporte comme le maximum de vraisemblance lorsque n estgrand (mesure via un TLC)

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 25 / 34

Online EM L’algorithme online EM

Ingredient 1. Modele de la famille exponentielle

Pour que la recursion de l’EM soit explicite on doit supposer

Un modele de la famille exponentielle

pθ(x, y) = exp (s(x, y)ψ(θ)−A(θ))

ou s(x, y) est une statistique exhaustive pour la loi pθ

pour lequel le maximum de vraisemblance est explicite

S 7→ θ(S) = arg maxθ

Sψ(θ)−A(θ)

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 26 / 34

Online EM L’algorithme online EM

Ingredient 1. EM dans la famille exponentielle

La k-eme iteration de l’algorithme EM

Etape E

Sk+1n =

1

n

n∑t=1

Eθkn [s(Xt, Yt)|Yt]

Etape M

θk+1n = θ

(Sk+1n

)

peut etre decrite uniquement via la statistique exhaustive

Sk+1n =

1

n

n∑t=1

Eθ(Skn) [s(Xt, Yt)|Yt]

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 27 / 34

Online EM L’algorithme online EM

Ingredient 2. L’algorithme EM limite

En faisant tendre n vers l’infini on obtient

Version limite de l’algorithme EM

Mise a jour de la statistique exhaustive

Sk = Eπ

(Eθ(Sk−1) [s(X1, Y1)|Y1]

)Mise a jour du parametre

θk = θ {Eπ (Eθk−1 [s(X1, Y1)|Y1])}

Avec les meme arguments que pour l’algorithme EM, on montre que

1 la divergence de Kullback-Leibler D(π|fθk) decroıt de faconmonotone avec k

2 θk converge vers {θ : ∇θD(π|fθ) = 0}

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 28 / 34

Online EM L’algorithme online EM

Ingredient 3. L’approximation stochastique

On recherche les solutions de

(Eθ(S) [s(X1, Y1)|Y1]

)− S = 0

En voyant Eθ(S) [s(Xn, Yn)|Yn] comme une observation bruitee de

(Eθ(S) [s(X1, Y1)|Y1]

), on reconnaıt un cas d’utilisation de

l’approximation stochastique (ou algorithme de Robbins-Monro) :

Sn = Sn−1 + γn

(Eθ(Sn−1) [s(Xn, Yn)|Yn]− Sn−1

)ou (γn) est une sequence de pas decroissants

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 29 / 34

Online EM L’algorithme online EM

L’algorithme

Online EM

Etape E via l’approximation stochastique

Sn = (1− γn)Sn−1 + γnEθn−1 [s(Xn, Yn)|Yn]

Etape Mθn = θ(Sn)

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 30 / 34

Online EM Applications

Natural language processing

Online EM for Unsupervised Models, Percy Liang & Dan Klein, NAACL Conference, 2009

Context Text processing using wordrepresentation (≈ 10k words) fromlarge document corpora (≈ 100kdocuments)

Tasks Tagging, classification, alignment(variant of mixture or HMM withmultinomial observations)

In this application, the use of mini-batch blocking was found useful:

Apply the proposed algorithm considering Ymk+1, Ymk+2 . . . Ym(k+1)

as one observation (with m of the order of a few k documents)

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 31 / 34

Online EM Applications

Large-scale probabilistic sequence alignment

Streaming fragment assignment for real-time analysis of sequencing experiments,

Adam Roberts & Lior Pachter, Nature, 2013

Context High-throughput sequencingexperiments in biology

Task Learn parameters of probabilisticmodels for sequence alignments(finite-valued sequences withinsertion/deletion/substitutionprobabilities) from 10M sequencefragments (reads) with 10k targetsequences (transcripts)

Note that the actual goal is the retrospective probabilistic sequenceassignment (E-step)

Use a single pass of online EM through all the data, followed by a fewmore batch EM steps

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 32 / 34

Online EM References

Roberts, A. & Pachter, L. (2013). Streaming fragment assignment for real-timeanalysis of sequencing experiments. Nature.

Cappe, O. (2011). Online EM algorithm for hidden Markov models. J. Comput.Graph. Statist.

Cappe, O. (2011). Online Expectation-Maximisation. In Mixtures, Wiley.

Rohde, D. & Cappe, O. (2011). Online maximum-likelihood estimation for latentfactor models. IEEE Statistical Signal Processing Workshop.

Liang, P. & Klein, D. (2009). Online EM for Unsupervised Models. NAACLConference.

Cappe, O. & Moulines, E. (2009). On-line expectation-maximization algorithm forlatent data models. J. Roy. Statist. Soc. B.

Sato, M. & Ishii, S. (2000). On-line EM algorithm for the normalized Gaussiannetwork. Neural Computation.

Sato, M. (2000). Convergence of on-line EM algorithm. International Conferenceon Neural Information Processing.

Neal, R. M. & Hinton, G. E. (1999). A view of the EM algorithm that justifiesincremental, sparse, and other variants. In Learning in graphical models, MITPress.

Titterington, D. M. (1984). Recursive parameter estimation using incompletedata. J. Roy. Statist. Soc. B.

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 33 / 34

F I N

1 Apprentissage statistique

2 Big DataQuelques idees generalesQuelques idees de modelisation

3 Online EML’algorithme EML’algorithme online EMApplicationsReferences

Merci de votre attention

0. Cappe (LTCI) Journee de rencontre BIG DATA 8 octobre 2013 34 / 34