L'algorithme EM : une courte présentation

download L'algorithme EM : une courte présentation

of 15

  • date post

    05-Jan-2017
  • Category

    Documents

  • view

    215
  • download

    1

Embed Size (px)

Transcript of L'algorithme EM : une courte présentation

  • Lalgorithme EM : une courte prsentation

    Frdric SantosCNRS, UMR 5199 PACEA

    Avenue des facults, Bt. B833400 Talence Cedex

    Courriel : frederic.santos@u-bordeaux1.fr

    5 aot 2015

    Rsum

    Aprs avoir brivement rappel le principe de lestimation par maximum de vraisem-blance, ce document dtaille comment et dans quel contexte lalgorithme EM peut treutilis pour sa rsolution.

    Divers dveloppements thoriques sont fournis au moins pour le cadre discret mais les problmes fins de convergence sont luds.

    Enfin, quelques simulations informatiques sur des cas concrets sont ralises. Lesexemples dapplication choisis sont trs classiques, et concernent lutilisation de lalgo-rithme EM pour lestimation de paramtres dans le cadre dun modle de mlange.

    Table des matires

    1 Estimation par maximum de vraisemblance 21.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

    2 Philosophie de lalgorithme EM 3

    3 Aspects thoriques 43.1 Rappels danalyse convexe relle . . . . . . . . . . . . . . . . . . . . . . . . . 43.2 Formalisation dune itration de lalgorithme . . . . . . . . . . . . . . . . . . 43.3 Preuve de la croissance de la vraisemblance dune itration lautre . . . . . 53.4 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63.5 Gnralisation au cas continu . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    4 Exemples dapplication aux modles de mlange 74.1 Notion de loi de mlange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74.2 Jeu de pile ou face . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94.3 Mlanges gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114.4 Paramtres dun mlange gaussien : implmentation en R . . . . . . . . . . . 134.5 Autres perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    1

  • 1. Estimation par maximum de vraisemblance

    1.1. Principe

    Rappelons le principe de lestimation par maximum de vraisemblance (ci-aprs dsign MV ).

    On dispose de n observations, considres comme les ralisations de n variables alatoiresindpendantes et identiquement distribues pX1, , Xnq.

    On se place dans le cadre dun modle statistique paramtrique pEX , E , pPqPq : chaqueXi, i 1, , n, suit une loi gouverne par le vecteur de paramtres P Rd. Par exemple,les Xi peuvent tre des gaussiennes, toutes de mme de loi N p, 2q inconnue : on a alors p, 2q, et R2 sauf indication contraire.

    On note Lpxiq, Lpxi; q ou plus souvent Lpxi|q dans la littrature anglophone, la densitde Xi. On appelle vraisemblance de lchantillon, la densit jointe de X1, , Xn :

    Lnpx1, , xn; q ni1

    Lpxi; q (1)

    Dans le cas particulier dune loi discrte, cela se ramne :

    Lnpx1, , xn; q P {X1 x1, , Xn xn} ni1

    P {Xi xi} (2)

    Dfinition 1 (EMV). Lestimateur au sens MV de est :

    argmax

    Lnpx1, , xn; q (3)

    Cest donc, chantillon fix, la valeur du vecteur de paramtres qui rend aussi vrai-semblables que possible les observations obtenues.

    Pour des raisons de commodit analytique, on prfre souvent maximiser logpLnq pluttque Ln. La fonction log tant strictement croissante, cela revient au mme, tout en facilitantconsidrablement les calculs puisque :

    log (Lnpx1, , xn; q) ni1

    log (Lpxi; q) (4)

    et quil est gnralement bien plus simple de travailler sur une somme plutt que sur unproduit.

    1.2. Exemple

    Estimation du paramtre dune loi binomiale. On joue pile ou face avec une picepotentiellement truque. Sur 30 lancers, on obtient 22 fois pile et 8 fois face .

    Formellement, on considre que les 30 lancers px1, , x30q sont des ralisations i.i.d.suivant une loi Bppq de paramtre p inconnu, prenant la valeur 1 si on obtient pile, et 0 si onobtient face. Ainsi, le nombre X

    Xi de pile obtenus suit une loi binomiale Bp30, pq.

    Intuitivement, on estimerait p par la frquence empirique de pile , cest--dire parp 22{30. Il est ais de vrifier quil sagit de lestimateur MV de p.

    2

  • La vraisemblance de X est :

    L30px1, , x30; pq 30i1

    Pp {Xi xi} p

    Xip1 pq30

    Xi

    et donc sa log-vraisemblance est :

    log (L30px1, , x30; pq) logppq30i1

    Xi logp1 pqp3030i1

    Xiq

    On cherche maximiser la log-vraisemblance : son maximum doit annuler sa drive. Onrsout donc :

    ddp log (L30px1, , x30; pMVq) 0

    Xi

    pMVp30

    Xiq

    1 pMV 0

    do finalement comme attendu :pMV

    Xi

    30Le lecteur pourra sassurer quil sagit bien dun maximum en vrifiant que la drive

    seconde est ngative.

    2. Philosophie de lalgorithme EMLalgorithme EM pour Expectation-Maximisation est un algorithme itratif du

    Dempster, Laird et Rubin (1977). Il sagit dune mthode destimation paramtrique sinscri-vant dans le cadre gnral du maximum de vraisemblance.

    Lorsque les seules donnes dont on dispose ne permettent pas lestimation des paramtres,et/ou que lexpression de la vraisemblance est analytiquement impossible maximiser, lalgo-rithme EM peut tre une solution. De manire grossire et vague, il vise fournir un estimateurlorsque cette impossibilit provient de la prsence de donnes caches ou manquantes 1 ouplutt, lorsque la connaissance de ces donnes rendrait possible lestimation des paramtres.

    Lalgorithme EM tire son nom du fait qu chaque itration il opre deux tapes distinctes : la phase Expectation , souvent dsigne comme ltape E , procde comme son

    nom le laisse supposer lestimation des donnes inconnues, sachant les donnes ob-serves et la valeur des paramtres dtermine litration prcdente ;

    la phase Maximisation , ou tape M , procde donc la maximisation de la vrai-semblance, rendue dsormais possible en utilisant lestimation des donnes inconnueseffectue ltape prcdente, et met jour la valeur du ou des paramtre(s) pour laprochaine itration.

    En bref, lalgorithme EM procde selon un mcanisme extrmement naturel : sil existeun obstacle pour appliquer la mthode MV, on fait simplement sauter cet obstacle puis onapplique effectivement cette mthode.

    Le ct itratif de lalgorithme pourra peut-tre paratre un peu mystrieux pour linstant,mais comme nous le verrons, lalgorithme garantit que la vraisemblance augmente chaqueitration, ce qui conduit donc des estimateurs de plus en plus corrects.

    1. Il ne sagit pas de la mme chose... Les donnes manquantes peuvent tre vues comme des trous dans la base de donnes du statisticien, par exemple des non-rponses un questionnaire, alors quune donnecache lui est par dfinition inaccessible.

    3

  • 3. Aspects thoriquesPour le dtail thorique de lalgorithme EM, nous nous en tiendrons au cas discret, suffisant

    pour beaucoup dapplications, dont la gntique voir ce sujet [Mor08] pour un bel expos.La dmarche ci-dessous est inspire de [Bor04], et est comprhensible avec un bagage

    mathmatique raisonnable. Elle se gnralise sans difficult au cas continu.

    3.1. Rappels danalyse convexe relle

    Dfinition 2 (Fonction convexe). Une application f : ra, bs R est dite convexe sur ra, bssi pour tous x1, x2 de cet intervalle et tout P r0, 1s,

    fpx1 p1 qx2q fpx1q p1 qfpx2q (5)

    f est dite strictement convexe si lingalit (5) est stricte, et f est dite concave si f estconvexe.

    Thorme 1. Si f est deux fois drivable sur ra, bs et si f2pxq 0 pour tout x P ra, bs,alors f est convexe sur cet intervalle.

    Thorme 2 (Ingalit de Jensen). Soit f une fonction convexe dfinie sur un intervalleI. Si x1, , xn P I et 1, , n 0 tels que

    i 1, alors :

    f

    (ni1

    ixi

    )

    ni1

    ifpxiq

    La dmonstration est immdiate en procdant par rcurrence.

    Exemple. La fonction x logpxq est donc strictement convexe sur R puisque sadrive seconde, x 1{x2, est strictement positive. Lingalit de Jensen applique lafonction log fournit une relation qui sera dune grande utilit dans ce qui suivra :

    log(

    ni1

    ixi

    )

    ni1

    i logpxiq (6)

    3.2. Formalisation dune itration de lalgorithme

    Pour formaliser un peu ce qui est expos en section 2 : nous disposons dobservations i.i.d.X pX1, , Xnq de vraisemblance note P pX|q ; maximiser logP pX|q est impossible ; on considre des donnes caches Z pZ1, , Znq dont la connaissance rendrait

    possible la maximisation de la vraisemblance des donnes compltes , logP pX,Z|q ; comme on ne connat pas ces donnes Z, on estime la vraisemblance des donnes

    compltes en prenant en compte toutes les informations connues : lestimateur estnaturellement EZ|X,m [logP pX, z|q] ( tape E de lalgorithme) ;

    et on maximise enfin cette vraisemblance estime pour dterminer la nouvelle valeurdu paramtre ( tape M de lalgorithme).

    Ainsi, le passage de litration m litration m1 de lalgorithme consiste dterminer :

    m1 argmax

    {EZ|X,m [logP pX, z|q]

    }(7)

    4

  • 3.3. Preuve de la croissance de la vraisemblance dune itration lautre

    litration m, nous disposons dune valeur m P Rd du vecteur de paramtres. Le butest de la mettre jour avec une meilleure valeur , augmentant la vraisemblance, donctelle que p, mq : logP pX|q logP pX|mq 0. On souhaite bien sr que cette diffrencesoit la plus grande possible.

    Cependant, comme prcdemment expos en section 2, on ne sait pas maximiser P pX|q,donc on ne sait pas non plus maximiser p, mq... Un moyen doptimiser malgr tout, dansune certaine mesure, cette diffrence, peut consister chercher une fonction p|mq quelon sait maximiser, et qui est telle que :{

    p, mqq p|mq @ P Rdpm|mq 0

    (8)

    Ainsi, p|mq borne infrieurement p, mq,