La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage...
Transcript of La théorie de l'apprentissage statistique, eldorado des ... · Id ees-forces de l’apprentissage...
La theorie de l’apprentissage statistique,eldorado des mathematiques de la prediction.
Nicolas Vayatis
CMLA - Ecole Normale Superieure de Cachan
Journee TIPE ENSTA - UPS 2012
Programme de l’expose
1 Introduction
I Quelques problemes concrets
I Formalisme de la classification et limites des approches ”classiques”
2 La theorie de l’apprentissage statistique
3 Des mesures de complexite
4 Conclusion
I Quelques sujets d’actualite
I Discussion
1. Introduction-
Quelques problemes concrets
Exemple I - Le scoring pour l’attribution d’un credit
Credit - nature des donnees
Collecte des donnees par questionnaire
Facteurs socio-economiques et historique bancaire
I ageI code postal residenceI CSPI revenusI anciennete dans l’agence bancaireI ...
Matrice des donnees
I Lignes/Enregistrements : noi de l’emprunteurI Colonnes/Variables : valeurs de la caracteristique j
Decision/Prediction : bon payeur vs. mauvais payeur
Exemple II - Le diagnostic medical
Diagnostic medical - nature des donnees
Realisation de tests medicaux et resultats de questionnaires
Analyses et bilan medical
I ageI pression arterielleI glycemieI ...
Matrice des donnees
I Lignes/Enregistrements : noi du patientI Colonnes/Variables : valeurs de la caracteristique j
Decision/Prediction : sain vs. malade
Exemple III - La reconnaissance de caracteres manuscrits
Base de donnees USPS
Caracteres - nature des donnees
Images digitales noir et blanc 16× 16 pixels
Grands vecteurs binaires dans {0, 1}256
Matrice des donnees
I Lignes/Enregistrements : noi de l’imageI Colonnes/Variables : valeurs binaires du pixel j
Decision/Prediction : un chiffre
Exemple IV - La lutte contre le spam
Spam - nature des donnees
Descripteur du message par ”sac-de-mots”
Frequence/Occurrence de mots (∼ 1000)
I businessI willI moneyI !I freeI ...
Matrice des donnees
I Lignes/Enregistrements : noi de l’emailI Colonnes/Variables : frequences du mot j
Decision/Prediction : spam vs. non-spam
Enjeux de la modelisation aleatoire pour la prevision
Prevoir dans des domaines ou l’expert est demuni
Automatisation pour le traitement de gros volumes de donnees
Coherence/Rationnalisation des processus de prise de decision
Prise en compte de toute l’information disponible
Optimisation de la performance des regles de decision
1. Introduction-
Cadre de la classification binaire
Formalisme probabiliste pour la classification binaire
(X ,Y ) couple aleatoire de loi de probabilite P
X vecteur aleatoire dans Rd avec d � 1
Y label binaire a valeurs dans {0,+1}
Loi jointe P decrite par (PX ,PY |X )
Loi marginale
PX (A) = P{X ∈ A} , ∀A ∈ B(Rd)
Fonction de regression
η(x) = P{Y = 1 | X = x} , ∀x ∈ Rd
Classifieurs et mesure de qualite
Regles de decision (classifieurs)
g : Rd → {0,+1}
Erreur de classification
L(g) = P {g(X ) 6= Y } = E(I{g(X ) 6= Y })
=
∫Rd×{0,+1}
I{g(x) 6= y} dP(x , y)
= E(η(X ) · I{g(X ) = 0}+ (1− η(X )) · I{g(X ) = 1}
)
Elements optimaux pour l’erreur de classification
Regle de Bayes et erreur de Bayes
g∗(x) = I{η(x) > 1/2} , ∀x ∈ Rd
L∗ := L(g∗) = E{min(η(X ), 1− η(X ))}
On montre facilement que :
L(g)− L∗ = E(| 2η(X )− 1 | ·I{g(X ) 6= g∗(X )}
)≥ 0
La construction de predicteurs, un probleme statistique
Probleme : loi P inconnue
Echantillon : Dn = {(X1,Y1), . . . , (Xn,Yn)} copies i.i.d. de (X ,Y )
Espace de recherche : famille G de classifieurs
Algorithme/Methode d’apprentissage ⇒ gn(x ,Dn) ∈ G
Objectif : Rendre minimale l’erreur de classification
L(gn) := P{Y 6= gn(X ,Dn) | Dn}
Question statistique : consistance forte au sens du risque de Bayes :
L(gn)− L∗p.s.−−→ 0 , n→∞ ?
Approches parametriques pour la classification binaire
Analyse discriminante lineaire (Fischer, 1936)
I Hypothese de melange gaussienI Estimation par maximum de vraisemblance + algorithme EMI Principe de plug-in
Regression logistique (Berkson, 1944)
log
(ηθ(x)
1− ηθ(x)
)= θT x , ∀x ∈ Rd
puis estimation par maximisation de la vraisemblance + algorithme detype Newton-Raphson
Les limites des approches classiques
Lourdes hypotheses sur la loi sous-jacente
Gestion problematique des facteurs correles
Performance tres sensible aux erreurs de modele
Victimes du mal de Bellman en grande dimension
”Curse of dimensionality” - Bellman (1961)
Fonction f lipschitzienne de d variables
Domaine [0, 1]d
On vise une erreur de ε
Necessite O(ε−d) evaluations
Geometrie de la boule unite
Volume d’une boule de rayon r dans Rd :
V (r , d) =rdπd/2
dΓ(d/2)
Volume d’un hypercube de cote 2r : v(r , d) = (2r)d
Ratio quand d →∞ :
πd/2
d2dΓ(d/2)→ 0
La masse se concentre dans les coins de l’hypercube...
Une remarque - Le cas des estimateurs plug-in
Estimateur ηn = ηn(·,Dn) de η
Classifieur plug-in : gn(x) = I{ηn(x) > 1/2} , ∀x ∈ Rd
On a, pour tout x tel que gn(x) 6= g∗(x) :
|η(x)− ηn(x)| >∣∣∣∣η(x)− 1
2
∣∣∣∣Donc, pour tout echantillon Dn :
L(gn)− L∗ ≤ 2E(|η(X )− ηn(X )| | Dn)
La classification est un probleme facile !
2. L’apprentissage statistique
Grandes dates (1)
Algorithmes
I Neurone formel - McCullough& Pitts (1945)I Perceptron - Rosenblatt (1957)I Reseaux de neurones et retropropagation du gradient - Rumelhart,
Hinton & Williams (1986)I Support Vector Machines - Cortes & Vapnik - 1995I Boosting - Freund & Schapire (1990, 1995)I Bagging (1996) + Random Forests (2000) - Breiman
Grandes dates (2)
Theorie
I Theorie des noyaux auto-reproduisants - Aronszajn (1950)I Interpretation geometrique des noyaux - Aizerman, Braverman and
Rozonoer (1964)I Convergence du Perceptron - Novikoff (1962)I Classifieur lineaire a marge optimale - Vapnik and Lerner (1963),
Vapnik & Chervonenkis (1964)I Inegalites probabilistes et concepts combinatoires - Vapnik &
Chervonenkis (1967, 1970, 1971)I Theorie de l’apprentissage statistique - Vapnik (1982, 1995, 1998)I Theorie de l’apprenabilite - Valiant (1984)I Processus empiriques - Pollard (1984), Dudley (1984)I Approximation universelle par RN - Cybenko (1989)I Inegalites de concentration - Ledoux & Talagrand (1991)I Theorie de la classification - Devroye, Gyorfi & Lugosi (1996)
Idees-forces de l’apprentissage statistique
Accent sur la prediction et non sur l’estimation de la loi sous-jacente
Principe de minimisation de fonctionnelles (risques) empiriques
Approche non-parametrique numeriquement plausible en grandedimension
Resultats de convergence et vitesses non-asymptotiques
Caracterisations combinatoires et geometriques des classes defonctions
Principe fondamental - Minimisation du Risque Empirique(MRE)
Donnees : (X1,Y1), . . . , (Xn,Yn) copies i.i.d. de (X ,Y )
Espace de recherche : famille G de classifieurs
Principe de MRE :
Ln(g) :=1
n
n∑i=1
I{g(Xi ) 6= Yi} , gn = argming∈G
Ln(g)
Question statistique : consistance forte au sens du risque de Bayes
L(gn)− L∗p.s.−−→ 0 , n→∞?
Dilemme ”Biais/Variance”
Decomposition de l’exces de risque
L(gn)− L∗ =(L(gn)− inf
g∈GL(g)︸ ︷︷ ︸
”variance”
)+(
infg∈G
L(g)− L∗︸ ︷︷ ︸”biais”
)
Controle de l’erreur d’estimation
L(gn)− infg∈G
L(g) ≤ 2 supg∈G| Ln(g)− L(g) |
Techniques mathematiques :
I lois uniformes des grands nombresI processus empiriquesI inegalites de concentration
Cle du succes : le controle de la complexite de G
S’il n’y a pas de restriction sur g , alors :
supg∈G| Ln(g)− L(g) | p.s.−−→ 1 , n→∞
S’il y a un seul element, alors on a :
| Ln(g)− L(g) | p.s.−−→ 0 , n→∞
d’apres la Loi Forte des Grands Nombres.
Questions : Conditions sur G garantissant la convergence uniforme ?
Statistique de Kolmogorov-Smirnov
Soit Z1, . . . ,Zn v.a. sur R i.i.d. de fdr F continue
Rappel : F (x) = P{X ≤ x} , x ∈ R
On note Fn la fonction de repartition empirique
Statistique de Kolmogorov-Smirnov
Dn(F ) = supx∈R|Fn(x)− F (x)|
Statistique de Kolmogorov-Smirnov (suite)
Loi limite (Kolmogorov, 1936 - Smirnov, 1936)
limn→∞
PF{√nDn(F ) ≤ t} =
k=+∞∑k=−∞
(−1)ke−2k2t2 , ∀t > 0
Inegalite probabiliste (Massart, 1990)
PF
{√n supx∈R|Fn(x)− F (x)| > t
}≤ 2e−2t
2, ∀t > 0
Loi limite et vitesse de convergence universelles
Controle du processus empirique
Processus stochastique : soit Z1, . . . ,Zn i.i.d. de loi P
(C , ω) 7→ (Pωn (C ))− P(C ) :=1
n
n∑i=1
I{Zi (ω) ∈ C} − P(C )
indexe par C ∈ C
Cas fini : |C| < +∞
P{√
n supC∈C|Pn(C )− P(C )| > t
}≤ 2|C|e−2t2 , ∀t > 0
( borne de la reunion + inegalite de Hoeffding (1963) )
Inegalite de concentration (McDiarmid, 1989)
Soit f fonctions aux differences bornees : ∀i , ∃ci tel que
supz1,...,zn,z ′i
|f (z1, . . . , zn)− f (z1, . . . , zi−1, z′i , zi+1, . . . , zn)| ≤ ci
Alors, pour Z1, . . . ,Zn i.i.d et pour tout t > 0 :
P{| f (Z1, . . . ,Zn)− E(f (Z1, . . . ,Zn)) |> t} ≤ 2 exp(−2t2/∑i
c2i )
On applique l’inegalite avec :
f (Z1, . . . ,Zn) = supC∈C|Pn(C )− P(C )|
et on a : ci = 1/n
Borne combinatoire sur l’esperance
Coefficient d’eclatement
s(C, n) = maxz1,...,zn
| {{z1, . . . , zn} ∩ C : C ∈ C} |
Theoreme (Vapnik-Chervonenkis, 1971)
E(
supC∈C|Pn(C )− P(C )|
)≤ 2
√log(2s(C, n)
)n
Corollaire : avec une probabilite superieure a 1− δ,
L(gn)− infg∈G
L(g) ≤ 4
√log(2s(C, n)
)n
+
√log(2/δ)
2n
Etapes de la preuve du theoreme
1 Double symetrisation :
I Z ′1, . . . ,Z
′n i.i.d. de loi P et independants de Z1, . . . ,Zn
I ε1, . . . , εn i.i.d. Rademacher : P(ε1 = ±1) = 1/2I ε1, . . . , εn independants de Z1, . . . ,Zn,Z
′1, . . . ,Z
′n
E(
supC∈C|Pn(C )− P(C )|
)≤ E
(supC∈C
∣∣∣∣∣1nn∑
i=1
εi(I{Zi ∈ C} − I{Z ′i ∈ C}
)∣∣∣∣∣)
2 Denombrement : le vecteur des bi = I{Zi ∈ C} − I{Z ′i ∈ C} peutprendre au plus s(C, n) valeurs
3 Majoration de l’esperance du maximum de N = s(C, n) variablesbornees (donc sous-gaussiennes)
3. Mesures de complexite
Complexites combinatoires de Vapnik-Chervonenkis (1967,1970, ...)
Vapnik et Chervonenkis a Londres en 1998
Capacite combinatoire : VC dimension
Definition : VC dimension d’une classe C d’ensembles de Rd
V := V (C) = max{n ∈ N : s(C, n) = 2n}
Exemple : demi-plans sur R2, V ≥ 2
Proprietes de la VC dimension
Relation entre VC dimension et coef. d’eclatement
s(C, n) ≤V∑i=0
(ni
)≤ (n + 1)V , ∀n
( Lemme combinatoire de Sauer )
Remarque : Le coefficient d’eclatement subit une transition de phasepour n = V .
Consequence :
E(
supC∈C|Pn(C )− P(C )|
)≤ 2
√V log
(n + 1)
)+ log 2
n
Exemples de VC dimension (1)
Demi-droites sur R : V = 2
Intervalles sur R : V = 2
Demi-espaces dans Rd : V = d + 1
Exemples de VC dimension (2)
Hyperrectangles dans Rd : V = 2d
Polygones convexes dans R2 : V = +∞
C = {{x ∈ [0, 1] : sin(ωx) > 0} : ω ∈ [0, 2π[} sur R : V = +∞
Faiblesses de la VC dimension
Difficile a calculer en general
On a generalement des bornes superieures
Notion ”distribution-free” ⇒ elle surestime la complexite effective
En selection de modele, elle conduit a des choix trop conservatifs(modeles plus simples que necessaire)
Ne capture pas la complexite des classes de fonctions utilisees dansles algorithmes efficaces
Complexites geometriques de Rademacher
Soit F une classe fonctionnelle...
... et les variables aleatoires
I ε1, . . . , εn i.i.d. Rademacher : P(ε1 = ±1) = 1/2I X1, . . . ,Xn independants de ε1, . . . , εn
Complexite de Rademacher :
Rn(F) = E supf ∈F
1
n
∣∣∣∣∣n∑
i=1
εi f (Xi )
∣∣∣∣∣
Exemple 1 - cas du boosting
Agregation lineaire (λ > 0) ou convexe (λ = 1)
F = λ conv(G) ou G famille d’indicatrices de VC dimension V finie
On a :
Rn(F) ≤ λRn(G ) ≤ λ
√V log
(n + 1)
)+ log 2
n
Exemple 2 - cas des familles a noyau
Soit X un ensemble mesurable
K noyau defini sur X × X symetrique et positif
F = { f =∑N
j=1 αjK (xj , ·) : N ≥ 1, x1, . . . , xN ∈ X , ‖f ‖K ≤ λ }
On a :
Rn(F) ≤ λ
nE
√√√√ n∑i=1
K (Xi ,Xi )
d’apres les inegalites de Cauchy-Schwarz et de Kahane-Khinchine
4. Conclusion
Compromis a realiser entre underfitting et overfitting
Calibration de complexite et courbes en U
Variations autour du meme theme
ERM basee sur des risques convexifies
I Communication des risquesI Principe de contractionI Arguments issus de l’analyse convexe
Selection de modeles par regularisation/validation croisee
I Complexites empiriquesI Inegalites de concentration avanceesI Geometrie des espaces de Banach
Une branche des mathematiques desormais reconnue
Publications dans lesjournaux ”must”
Cours Peccot 2011”Selection de modeles etselection d’estimateurspour l’apprentissagestatistique”par Sylvain Arlot
Session ”Etats de laRecherche” organisee parla SMF a l’IHP en mai2011
Quelques messages
Sur le domaine de recherche
I La statistique mathematique a change !
I Les applications des maths et les donnees reelles ( !) comme sourcesd’inspiration...
I ... mais aussi comme ouverture des maths sur le monde reel
Sur la formation
I Recherche de doubles profils pour animer les projets actuels
I Culture des mathematiques reellement appliquees a l’ENS de Cachan
I Formation M2R ”MVA” Maths-Vision-Apprentissage
Quelques lectures pour aller plus loin...
Apprentissage statistique
I Survey on classification theory, par Boucheron, Bousquet & Lugosi(2005)
Theorie du signal
I Compressed sensing, tutoriel par E. Candes (2006)
Optimisation
I Convex analysis, par Boyd & Vandenberghe (2004)
Methodes spectrales en data mining
I Completion de matrices de rang faible, par Candes et Recht (2009)