Estimation non-paramétrique et Apprentissage statistique

54

Transcript of Estimation non-paramétrique et Apprentissage statistique

Page 1: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Estimation non-paramétrique et Apprentissage statistique

Sébastien Loustau, Université d'Angers

25 Février 2010, Université de La Rochelle

Estimation non-paramétrique et Apprentissage statistique 1 / 45

Page 2: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

De la statistique paramétrique...

La statistique paramétrique remonte à Fisher, 1920 : estimation

d'un nombre ni de paramètres θ ⊂ Rk .

Limites de l'approche :

1. modèles simplistes ne fournissant qu'une approximation de la

réalité,

2. résultats très souvent asymptotiques.

La réalité est souvent plus complexe, le nombre d'observations

limité, et les inconnues des fonctions possédant certaines propriétés

de régularité.

Estimation non-paramétrique et Apprentissage statistique 2 / 45

Page 3: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

... à la statistique non-paramétrique

La statistique non-paramétrique s'intéresse à l'estimation, à partir

d'un nombre ni d'observations, d'une fonction inconnue f ∈ Θ, où

Θ est un espace fonctionnel assez large.

Ces 30 dernières années, la théorie de l'estimation

non-paramétrique s'est développée autour des thèmes suivants :

1. Méthodes de constructions d'estimateurs,

2. Propriétés statistiques de ces estimateurs,

3. Optimalité de ces estimateurs,

4. Estimation adaptative.

Estimation non-paramétrique et Apprentissage statistique 3 / 45

Page 4: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Plan de l'exposé

1. Statistique non-paramétriqueI Modèles statistiquesI Estimateurs, risque, régularisationI Vitesses de convergenceI Adaptation, inégalités oracles

2. Apprentissage statistiqueI Modèles d'apprentissageI Algorithmes d'apprentissageI Vitesses de convergenceI Adaptation

Estimation non-paramétrique et Apprentissage statistique 4 / 45

Page 5: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle

Modèle non-paramétrique : l'estimation d'une densité

On dispose d'observations Xi , i = 1, . . . n i.i.d. de loi inconnue Pfde densité f telle que :

I f ∈ f (x , θ), θ ∈ Θ où Θ ⊂ Rk et f (x , θ) connue →estimation paramétrique de θ.

I f ∈ F , où F espace fonctionnel → estimation

non-paramétrique de f .

Construction d'un estimateur : l'estimateur à noyau (Rosenblatt,

1956).

D'après Glivenko-Cantelli, on a (uniformément en x) :

Fn(x) =1

n

n∑i=1

1I(Xi ≤ x)p.s.−→ F (x) = P(X ≤ x).

Estimation non-paramétrique et Apprentissage statistique 5 / 45

Page 6: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle

Or, pour h assez petit,

f (x) = F ′(x) ≈ F (x + h)− F (x − h)

2h

et donc l'estimateur à noyau de Rosenblatt fn est déni par :

fn(x) =Fn(x + h)− Fn(x − h)

2h=

1

nh

n∑i=1

1

21I(−h < x − Xi ≤ h).

ou plus généralement (Parzen, 1962) :

fn(x) =1

nh

n∑i=1

K0(x − Xi

h),

où K0 est un noyau (rectangulaire, gaussien, ...), et h est appelée la

fenêtre.

Estimation non-paramétrique et Apprentissage statistique 6 / 45

Page 7: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle

Autres modèles classiques

I Régression non-paramétrique : on dispose d'observations

(Xi ,Yi ), i = 1, . . . n i.i.d. telle que :

Yi = f (Xi ) + εi ,

où les variables εi vérient Eεi = 0, et f ∈ F est inconnue.

I Modèle du bruit blanc gaussien : on observe une trajectoire

Y (t), t ∈ [0, 1] du processus Y déni par :

dY (t) = f (t)dt + εdW (t), t ∈ [0, 1],

où W est le processus de Wiener standard sur [0, 1], f une

fonction inconnue.

I Problème inverse statistique : Af (t)dt au lieu f (t)dt, Acompact est connu.

Estimation non-paramétrique et Apprentissage statistique 7 / 45

Page 8: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle

Décomposition en valeurs singulières de A

Pour A : H → K compact, on considère (ϕk)k∈N∗ b.o.n. de H de

fonctions propres de A∗A et on note (b2k)k∈N∗ ses valeurs propres

correspondantes. On peut construire (ψk)k∈N∗ b.o.n. de K et on a :

Aϕk = bkψk et A∗ψk = bkϕk .

La suite (bk)k∈N∗ est appelé suite des valeurs singulières de A et on

a clairement bk → 0.

Il nous reste à projeter Y dans la base (ψk)k∈N∗ et on obtient :

Estimation non-paramétrique et Apprentissage statistique 8 / 45

Page 9: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle

Modèle de suites gaussiennes

yk :=< Y , ψk >= bkθk + εξk , k ∈ N∗,

avec :

I (yk) suite d'observations,

I bk → 0 connus (cas direct bk ≡ 1),

I (θk) = (< f , ϕk >) coecients de f à estimer,

I (ξk) suite i.i.d. de variables aléatoires N (0, 1),

I ε > 0 niveau de bruit.

But : estimer la suite (θk)k≥1 à l'aide des observations (yk)k≥1.

Estimation non-paramétrique et Apprentissage statistique 9 / 45

Page 10: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle

Estimateur, risque

Idée naturelle pour estimer θk : θk = ykb−1k puisque pour tout k ,

Eθk = θk .Pour θ estimateur de θ, on considère le risque quadratique suivant :

R(θ, θ) = Eθ‖θ − θ‖2 = Eθ∑k≥1

(θk − θk)2.

On obtient pour notre estimateur :

R(θ, θ) = ε2∑k≥1

b−2k = +∞!!

Conclusion : on ne peut pas estimer tous les paramètres θk .

Estimation non-paramétrique et Apprentissage statistique 10 / 45

Page 11: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle

Estimateurs linéaires

Pour contrôler le risque, on peut introduire la famille des

estimateurs linéaires :

θ(λ) = (θk = λkykb−1k )k∈N∗ : λk ∈ [0, 1], k = 1 . . ..

On obtient alors :

R(θ(λ), θ) =∑k≥1

(λk − 1)2θ2k + ε2∑k≥1

λ2kb−2k

= b(λ)2 + σ2(λ).

Il faut choisir (λk)k≥1 qui réalise le compromis biais-variance.

Estimation non-paramétrique et Apprentissage statistique 11 / 45

Page 12: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle

Exemple : régularisation par projection

Considérons la famille d'estimateurs par projection ( ou spectral

cut-o) θ(N), N ≥ 1 dénie par :

θk(N) = 1I(k ≤ N)ykb−1k , k = 1, . . .

Le risque quadratique de θ(N) s'écrit :

R(θ,N) =∑k>N

θ2k + ε2N∑k=1

b−2k = b(N)2 + σ2(N).

⇒ Choix de N ?

Estimation non-paramétrique et Apprentissage statistique 12 / 45

Page 13: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle

Solution non-adaptative (cas légèrement mal-posé)

Hypothèse de régularité sur la suite θ :

θ ∈ Θ(s,Q) = θ ∈ l2(N) :∑

k2sθ2k ≤ Q.

Alors on obtient, en supposant bk ∼ k−β :

R(θ,N) =∑k>N

θ2k + ε2N∑k=1

b−2k ≤ QN−2s + N2β+1ε2.

En prenant Ns ∼ ε−2

2s+2β+1 , on obtient :

R(θ,Ns) ≤ Qε4s

2s+2β+1 .

On dit que θ(Ns) atteint la vitesse de convergence ε4s

2s+2β+1 .

Estimation non-paramétrique et Apprentissage statistique 13 / 45

Page 14: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle

Le compromis biais-variance en estimation de densité

De la même manière, si on considère fn vu précédemment :

E(fn(x0)− f (x0))2 = (Efn(x0)− f (x0))2 + E(fn(x0)− Efn(x0))2

:= b2(x0) + σ2(x0),

appelée biais et variance de l'estimateur fn au point x0.

En supposant que f ∈ Σ(s, L), et en prenant un noyau d'ordre

l = [s], on obtient :

E(fn(x0)− f (x0))2 ≤ C1h2s +

C2

nh,

E(fn(x0)− f (x0))2 ≤ Cn−2s

2s+1 , pour h ∼ n−1

2s+1 .

d'où l'importance de calibrer la fenêtre h de l'estimateur.

Estimation non-paramétrique et Apprentissage statistique 14 / 45

Page 15: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle

Le compromis biais-variance en estimation de densité

De la même manière, si on considère fn vu précédemment :

E(fn(x0)− f (x0))2 = (Efn(x0)− f (x0))2 + E(fn(x0)− Efn(x0))2

:= b2(x0) + σ2(x0),

appelée biais et variance de l'estimateur fn au point x0.

En supposant que f ∈ Σ(s, L), et en prenant un noyau d'ordre

l = [s], on obtient :

E(fn(x0)− f (x0))2 ≤ C1h2s +

C2

nh,

E(fn(x0)− f (x0))2 ≤ Cn−2s

2s+1 , pour h ∼ n−1

2s+1 .

d'où l'importance de calibrer la fenêtre h de l'estimateur.

Estimation non-paramétrique et Apprentissage statistique 14 / 45

Page 16: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle

Illustration

Estimation non-paramétrique et Apprentissage statistique 15 / 45

Page 17: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle

Vitesse minimax

Le risque minimax sur Θ(s) est dénie par

r(Θ(s)) = inff

supf ∈Θ(s)

R(f , f ),

et on dira que f atteint la vitesse minimax sur Θ(s) s'il existe une

constante C ≥ 1 telle que :

supf ∈Θ(s)

R(f , f ) ≤ Cr(Θ(s)).

Dans notre cadre, on a :

r(Θ(s,Q)) ≈ ε4s

2s+2β+1 et r(Σ(s, L)) ≈ n−2s

2s+1 ,

et ainsi θ(Ns) et fn atteignent la vitesse minimax.

Estimation non-paramétrique et Apprentissage statistique 16 / 45

Page 18: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle

Approche minimax

I Le meilleur estimateur au sens minimax est celui dont le risque

maximal sur Θ(s) est le plus petit.

I Approche pessimiste et qui dépend de connaissances préalables

sur la fonction à estimer.

Ici, θ(Ns) dépend de s, régularité de la fonction à estimer. On dit

que cet estimateur est non-adaptatif.

Vitesse minimax adaptative : Vitesse atteinte quelquesoit la

régularité de f .

Estimation non-paramétrique et Apprentissage statistique 17 / 45

Page 19: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle

L'approche oracle

Etant donnée une famille d'estimateurs fλ, λ ∈ Λ de f , on dénit

l'oracle fλ∗ par :

R(f , fλ∗) = infλ∈Λ

R(f , fλ).

fλ∗ n'est pas un estimateur (dépend de f inconnue) !

On cherche un estimateur f = fλ vériant une inégalité oracle, i.e. :

R(f , fλ) ≤ Cε infλ∈Λ

R(f , fλ) + rε,

où Cε ≥ 1 (proche de 1) et rε négligeable.

Estimation non-paramétrique et Apprentissage statistique 18 / 45

Page 20: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle

Oracle vs Minimax

Deux approches diérentes :

I minimax : on cherche la meilleure vitesse, étant donné

f ∈ Θ(s).

I oracle : étant donné une famille d'estimateurs,on cherche le

meilleur estimateur.

Ainsi :

I minimax : garantit une certaine performance (mais sous une

hypothèse de régularité sur f ) ;

I oracle : dépend de la famille d'estimateurs (mais aucune

hypothèse sur f ).

Estimation non-paramétrique et Apprentissage statistique 19 / 45

Page 21: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle

L'approche oracle pour choisir N

Etant donnée θ(N), N ≥ 1, on cherche N qui s'approche de

N∗ = argminN

R(θ,N).

On dira que θ(N) satisfait une inégalité oracle exacte lorsque :

R(θ(N), θ) ≤ (1 + ρε)R(θ,N∗) + rε,

avec ρε → 0 lorsque ε→ 0 et rε terme résiduel.

Estimation non-paramétrique et Apprentissage statistique 20 / 45

Page 22: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples de modèlesLe modèle des suites gaussiennesApproche minimaxApproche oracle

Exemple : la méthode du risque sans biais (URE)On va estimer le risque R(θ,N) par un estimateur sans biais

U(y ,N) en utilisant les observations yk = bkθk + εξk , k = 1, . . ..Puis on minimise sur N ≥ 1 l'estimateur du risque.

On a

U(y ,N) =∑k>N

b−2k (y2k − ε2) + ε2N∑k=1

b−2k e.s.b. de R(θ,N),

et on obtient le choix suivant de N :

NURE = argminN

(−

N∑k=1

b−2k y2k + 2ε2N∑k=1

b−2k

).

On a bien, ∀γ > 0,

R(θ(NURE ), θ) ≤ (1 + γ)R(θ,N∗) + C ∗ε2

γ.

Estimation non-paramétrique et Apprentissage statistique 21 / 45

Page 23: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Apprentissage : une illustration

Estimation non-paramétrique et Apprentissage statistique 22 / 45

Page 24: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Apprentissage statistique

On observe (Xi ,Yi ), i = 1, . . . n ensemble d'apprentissage de loi P

sur X × Y inconnue avec :

I X quelconque,

I Y ⊂ R.

But : on veut "apprendre", à partir des observations, la réponse Y

d'une nouvelle observation X .

Exemples :

I Classication binaire : Y = −1, 1.I Régression : Y = R.

I Statistique fonctionnelle : X espace fonctionnel.

Estimation non-paramétrique et Apprentissage statistique 23 / 45

Page 25: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

ApplicationsDynamic Reconstruction of Chaotic Systems ⊕Protein Structure

Prediction ⊕Identication of alternative exons using SVM ⊕Breastcancer diagnosis and prognosis ⊕Support Vector Machines Based Modeling

of Seismic Liquefaction PotentialSVM for Geo- and Environmental Sciences

⊕SVM for Protein Fold and Remote Homology Detection ⊕DetectingSteganography in digital images ⊕Breast Cancer Prognosis : Chemotherapy

Eect on Survival Rate ⊕Text Categorization ⊕Facial expression classication

⊕Application of The Kernel Method to the Inverse Geosounding Problem ⊕SupportVector Machine Classication of Microarray Gene Expression Data ⊕Intervals UsingLeast Squares Support Vector Machines ⊕Support Vector Machines For Texture

Classication ⊕SVM application in E-learning ⊕Support vector machines-based generalized

predictive control ⊕Isolated Handwritten Jawi Characters Categorization Using Support Vector

Machines (SVM). ⊕Image Clustering ⊕ewsRec, a SVM-driven Personal Recommendation System for

News Websites ⊕Equbits Foresight ⊕Speaker/speech recognition ⊕Student in AI ⊕Analysis and

Applications of Support Vector Forecasting Model Based on Chaos Theory⊕Image classication⊕Object

Detection⊕Intrusion DetectionEstimation non-paramétrique et Apprentissage statistique 24 / 45

Page 26: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Le modèle de classication binaire

I On observe (X1,Y1), . . . (Xn,Yn) ∈ X × Y i.i.d. de loi π, où :

• X = Rd ,

• Y = −1,+1, classe correspondante.

I But : X → Y ? avec f : Rd → −1,+1 classieur.I On dénit le risque de f par R(f ) = P(f (X ) 6= Y ) et on a :

f ∗ = argminR(f ) = sign(2η − 1),

où η(x) = P(Y = 1|X = x).

I On veut contrôler l'excès de risque R(f , f ∗) = R(f )− R(f ∗).

Estimation non-paramétrique et Apprentissage statistique 25 / 45

Page 27: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Exemple

Estimation non-paramétrique et Apprentissage statistique 26 / 45

Page 28: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Idée naturelle : Minimisation du risque empiriqueOn considère C ensemble de classieurs.

P(f (X ) 6= Y )-f ∗Cminimise

6

estime

1n

∑ni=1 1I(f (Xi ) 6= Yi )fERM -

minimise

6

? ?

Si f ∗ ∈ C, on a :

EπnR(fERM , f∗) −→

n→+∞0.

Estimation non-paramétrique et Apprentissage statistique 27 / 45

Page 29: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Idée naturelle : Minimisation du risque empiriqueOn considère C ensemble de classieurs.

P(f (X ) 6= Y )-f ∗Cminimise

6

estime

1n

∑ni=1 1I(f (Xi ) 6= Yi )

fERM -minimise

6

? ?

Si f ∗ ∈ C, on a :

EπnR(fERM , f∗) −→

n→+∞0.

Estimation non-paramétrique et Apprentissage statistique 27 / 45

Page 30: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Idée naturelle : Minimisation du risque empiriqueOn considère C ensemble de classieurs.

P(f (X ) 6= Y )-f ∗Cminimise

6

estime

1n

∑ni=1 1I(f (Xi ) 6= Yi )fERM -

minimise

6

? ?

Si f ∗ ∈ C, on a :

EπnR(fERM , f∗) −→

n→+∞0.

Estimation non-paramétrique et Apprentissage statistique 27 / 45

Page 31: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Idée naturelle : Minimisation du risque empiriqueOn considère C ensemble de classieurs.

P(f (X ) 6= Y )-f ∗Cminimise

6

estime

1n

∑ni=1 1I(f (Xi ) 6= Yi )fERM -

minimise

6

? ?

Si f ∗ ∈ C, on a :

EπnR(fERM , f∗) −→

n→+∞0.

Estimation non-paramétrique et Apprentissage statistique 27 / 45

Page 32: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Idée naturelle : Minimisation du risque empiriqueOn considère C ensemble de classieurs.

P(f (X ) 6= Y )-f ∗Cminimise

6

estime

1n

∑ni=1 1I(f (Xi ) 6= Yi )fERM -

minimise

6

? ?

Si f ∗ ∈ C, on a :

EπnR(fERM , f∗) −→

n→+∞0.

Estimation non-paramétrique et Apprentissage statistique 27 / 45

Page 33: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Vitesses des ERM

Si f ∗ ∈ C, on a aussi des vitesses de convergence :

I ER(fERM , f∗) ≤ Cn−

12 lorsque la dimension de Vapnik de f ∗

est nie (Vapnik et Chervonenkis 1982)

I Vitesse rapide lorsque R(f ∗) = 0 : ER(fERM , f∗) ≤ Cn−1.

I Plus récemment, vitesse minimax n− κ

2κ+ρ−1 avec :I 0 < ρ < 1 est la complexité de C.I κ ≥ 1 paramétre de marge, i.e. :

P(|2η(x)− 1| ≤ t) ≤ ct1

κ−1 , pour t → 0.

A-t'on f ∗ ∈ C ? ?

Estimation non-paramétrique et Apprentissage statistique 28 / 45

Page 34: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Vitesses des ERM

Si f ∗ ∈ C, on a aussi des vitesses de convergence :

I ER(fERM , f∗) ≤ Cn−

12 lorsque la dimension de Vapnik de f ∗

est nie (Vapnik et Chervonenkis 1982)

I Vitesse rapide lorsque R(f ∗) = 0 : ER(fERM , f∗) ≤ Cn−1.

I Plus récemment, vitesse minimax n− κ

2κ+ρ−1 avec :I 0 < ρ < 1 est la complexité de C.I κ ≥ 1 paramétre de marge, i.e. :

P(|2η(x)− 1| ≤ t) ≤ ct1

κ−1 , pour t → 0.

A-t'on f ∗ ∈ C ? ?

Estimation non-paramétrique et Apprentissage statistique 28 / 45

Page 35: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Problème des ERM : le choix de C !

On peut écrire dans le cas général

R(fERM , f∗) =

(R(fERM)− inf

CR(f )

)+

(infCR(f )− R(f ∗)

).

⇒ La taille de C doit réaliser un compromis :

I C trop grand : l'erreur d'estimation est trop grande.

I C trop petit : l'erreur d'approximation est trop grande.

Estimation non-paramétrique et Apprentissage statistique 29 / 45

Page 36: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Le sur-apprentissage

C trop grand ⇒ solution très instable.

Estimation non-paramétrique et Apprentissage statistique 30 / 45

Page 37: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

ERM pénaliséSi C est susamment riche,

minf ∈C

Rn(f ) = 0⇒ sur− apprentissage.

On tient compte de la complexité de la solution. Par exemple :

minf ∈C

[Rn(f ) + αΩ(f )] ,

où Ω(f ) mesure la complexité de f et α est un paramètre de

régularisation.

Exemple :

I Ω(f ) = ‖f ‖2HK(SVM).

I Ω(f ) = ‖f ‖1 (LASSO).

Estimation non-paramétrique et Apprentissage statistique 31 / 45

Page 38: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Le classieur SVM (Support Vector Machines)

classieur SVM

description géométrique

hyperplan optimal

dans un espace à noyau

'&

$%

- - - - - - - - - - - - - - - - - - - - - - -⇓

description statistique

ERM pénalisé

avec perte douce

'&

$%

Estimation non-paramétrique et Apprentissage statistique 32 / 45

Page 39: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Le classieur SVM (Support Vector Machines)

classieur SVM

description géométrique

hyperplan optimal

dans un espace à noyau

'&

$%

- - - - - - - - - - - - - - - - - - - - - - -⇓

description statistique

ERM pénalisé

avec perte douce

'&

$%

Estimation non-paramétrique et Apprentissage statistique 32 / 45

Page 40: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Le classieur SVM (Support Vector Machines)

classieur SVM

description géométrique

hyperplan optimal

dans un espace à noyau

'&

$%

- - - - - - - - - - - - - - - - - - - - - - -⇓

description statistique

ERM pénalisé

avec perte douce

'&

$%

Estimation non-paramétrique et Apprentissage statistique 32 / 45

Page 41: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Support Vector Machines : cas linéaire

ssss

s ss s

s s

ss

ss

ccccc c

cc

ccc c

c

hyperplan SVM

@@I@@Rmarge

'

&

$

%

Hyperplan maximisant la marge :

Cas linéaire sans bruit, X = R2.

où f (x) =< w , x > +b.

maxw ,b

m

∀ i = 1, .., n yi f (xi ) ≥ m,

Estimation non-paramétrique et Apprentissage statistique 33 / 45

Page 42: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

SVM : variables ressorts dans le cas bruit

ssss

s ss s

s s

ss

ss

ccccc c

cc c

ccc c

c

cRξ1

@@

@@I

ξ2

@@

@@I

ξ3

hyperplan SVM

@@I@@R

marge

'

&

$

%

On rajoute des variables ressorts ξ :

Cas linéaire bruit, X = R2.

o f (x) =< w , x > +b.

(∗)

maxw ,b

(m − C∑n

i=1 ξi )

yi fw ,b(xi ) ≥ 1− ξi , ξi ≥ 0,

Estimation non-paramétrique et Apprentissage statistique 34 / 45

Page 43: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Problème non linéaire

ss sssssss s sssss cccccc

ccccccccc ccc ccc

cPas d'hyperplan qui sépare...

⇒ méthode à noyau

Estimation non-paramétrique et Apprentissage statistique 35 / 45

Page 44: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Le "Kernel trick"Du linéaire au non-linéaire avec Φ : X → Φ(X )

maxv :0≤vi≤C

LD = maxv :0≤vi≤C

n∑i=1

vi −1

2

n∑i=1

n∑j=1

vivjYiYj < Xi ,Xj >

.

maxv :0≤vi≤C

LD = maxv :0≤vi≤C

n∑i=1

vi −1

2

n∑i=1

n∑j=1

vivjYiYjK (Xi ,Xj)

.

Dénition Un noyau est une application K : X × X → R telle que :

K (x , y) =< Φ(x),Φ(y) >Φ(X ) .

Estimation non-paramétrique et Apprentissage statistique 36 / 45

Page 45: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Le "Kernel trick"Du linéaire au non-linéaire avec Φ : X → Φ(X )

maxv :0≤vi≤C

LD = maxv :0≤vi≤C

n∑i=1

vi −1

2

n∑i=1

n∑j=1

vivjYiYj < Xi ,Xj >

.

maxv :0≤vi≤C

LD = maxv :0≤vi≤C

n∑i=1

vi −1

2

n∑i=1

n∑j=1

vivjYiYjK (Xi ,Xj)

.

Dénition Un noyau est une application K : X × X → R telle que :

K (x , y) =< Φ(x),Φ(y) >Φ(X ) .

Estimation non-paramétrique et Apprentissage statistique 36 / 45

Page 46: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Espace de Hilbert à noyau reproduisant (EHNR)

Dénitions

I On appelle noyau une application K : X 2 → R symétrique

dénie-positive.

I L'EHNR HK est un espace de Hilbert de fonction f : X → Rvériant :

I K (x , ·) ∈ HK , ∀x ∈ X ,I < f ,K (x , ·) >K= f (x), ∀f ∈ HK .

K est appelé le noyau reproduisant de HK .

Exemples pour X = Rd :

I noyau gaussien K (x , y) = exp(−σ2‖x − y‖2).

I noyau Laplace K (x , y) = exp(−σ‖x − y‖).

Estimation non-paramétrique et Apprentissage statistique 37 / 45

Page 47: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

L'algorithme des SVM

L'algorithme SVM peut s'écrire :

minf ∈HK

[1

n

n∑i=1

(1− Yi f (Xi ))+ + α‖f ‖2HK

],

I l(y , f (x)) = (1− yf (x))+ est la perte SVM,

I α est un paramètre de régularisation,

I HK est un espace de Hilbert à noyau reproduisant.

Théorème de représentation fSVM(x) =∑n

i=1 v∗i YiK (Xi , x).

Estimation non-paramétrique et Apprentissage statistique 38 / 45

Page 48: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Vitesses de convergence des SVM

On veut choisir α pour obtenir des vitesses de convergence du type :

ER(fSVM , f∗) ≤ Cn−β.

On procède en deux étapes :

I Obtenir une inégalité oracle :

ER(fSVM , f∗) ≤ C inf

f ∈HK

[R(f , f ∗) + α‖f ‖2H

]+ δ(n).

I Contrôler l'erreur d'approximation :

a(α) := inff ∈HK

[R(f , f ∗) + α‖f ‖2H

].

Estimation non-paramétrique et Apprentissage statistique 39 / 45

Page 49: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Vitesses de convergence non-adaptative

Soit π une probabilité sur Rd × −1, 1 telle que :

I π a un paramètre de marge q ∈ [0,+∞] ;

I f ∗ ∈ Bs2∞(Rd ) pour s > 0.

On considère la minimisation SVM avec noyau Sobolev Kr , r > d .

Si on choisit α tel que

α = n− r(r−s)(q+1)

s(r(q+2)−d)+d(r−s)(q+1) ,

alors il existe C > 0 telle que :

ER(fn, f∗) ≤ Cn

− rs(q+1)s(r(q+2)−d)+d(r−s)(q+1) .

Estimation non-paramétrique et Apprentissage statistique 40 / 45

Page 50: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Choix de α : méthode adaptative

Principe de la méthode d'aggrégation :

I On sépare les observations Dn = (D1n1,D2

n2).

I On construit avec D1n1

une famille de classieurs SVM

fα1 , . . . , fαM où α1, . . . αM = Λ est une grille.

I On calcule avec D2n2

une suite de poids wk , pour

k ∈ 1 . . .M.I On construit notre agrégat fn tel que

fn =M∑k=1

wk fαk .

Estimation non-paramétrique et Apprentissage statistique 41 / 45

Page 51: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Expérimentations

On a implémenté notre agrégat dans 2 cas :

I Cas Sobolev : fn issu de l'approche décrite précédemment.

Noyau utilisé : Kσ(x , y) = exp (−σ‖x − y‖).I Cas gaussien : fn issu des résultats de Steinwart et Scovel

(2007). Noyau utilisé : Kσ(x , y) = exp(−σ‖x − y‖2

).

Estimation non-paramétrique et Apprentissage statistique 42 / 45

Page 52: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Données de classication

Dataset d n p realizations

Banana 2 400 4900 100

Titanic 3 150 2051 100

Thyroid 5 140 75 100

Diabetis 8 468 300 100

Breast-cancer 9 200 77 100

Flare-solar 9 666 400 100

Heart 13 170 100 100

Image 18 1300 1010 20

Waveform 21 400 4600 100

"Dataset"=(D1n ,T

1p ), (D2

n ,T2p ), . . . , (D100

n ,T 100p ).

Estimation non-paramétrique et Apprentissage statistique 43 / 45

Page 53: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Résultats expérimentaux

Dataset Laplace Aggregate Gaussian Aggregate

Banana 11.31± 0.57 11.43±0.84Titanic 22.77±1.13 22.57±0.79Thyroid 5.45±2.68 6.31±2.97Diabetis 28.34±2.27 27.80±2.06

Breast-cancer 32.74±5.16 32.13±4.77Flare-solar 35.69±1.93 34.87±1.82Heart 22.12±3.98 22.62±3.77Image 3.95±0.74 5.66±0.74

Waveform 14.12±0.72 15.04±0.79

Estimation non-paramétrique et Apprentissage statistique 44 / 45

Page 54: Estimation non-paramétrique et Apprentissage statistique

Statistique non-paramétriqueApprentissage statistique

Exemples, modèlesERMSVM

Résultats expérimentaux

Dataset Laplace Aggregate Gaussian Aggregate Rästch et al. (2001)

Banana 11.31± 0.57 11.43±0.84 11.53±0.66Titanic 22.77±1.13 22.57±0.79 22.42±1.02Thyroid 5.45±2.68 6.31±2.97 4.80±2.19Diabetis 28.34±2.27 27.80±2.06 23.53±1.76

Breast-cancer 32.74±5.16 32.13±4.77 26.04±4.74Flare-solar 35.69±1.93 34.87±1.82 32.43±1.82Heart 22.12±3.98 22.62±3.77 15.95±3.26Image 3.95±0.74 5.66±0.74 2.96±0.6

Waveform 14.12±0.72 15.04±0.79 9.88±0.83

Estimation non-paramétrique et Apprentissage statistique 45 / 45