Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Cours - SVM.

Les SVM :Les SVM :Séparateurs à Vastes MargesSéparateurs à Vastes Marges

(Support Vector Machines)(Support Vector Machines)

Antoine Cornuéjols

IIE & CNRS - Université de Paris-Sud, Orsay

[email protected] http://www.lri.fr/~antoine

Les SVMs (A. Cornuéjols) 2

Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Hyperplans séparateursHyperplans séparateurs

Tâche de classification Cas de la séparation linéaire

- On cherche h sous forme d’une fonction linéaire : h(x) = w.x + b

- La surface de séparation est donc l’hyperplan :

- Elle est valide si

- L’hyperplan est dit sous forme canonique lorsque

ou encore

w. x + b = 0

∀i ui h(xi ) ≥ 0

mini

w.x + b = 1

∀i ui (w.xi +b) ≥ 1


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Hyperplan de plus vaste margeHyperplan de plus vaste marge

Margemaximale

Hyperplan

optimal

Hyperplanvalide


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Optimisation de la margeOptimisation de la marge

Margemaximale

Hyperplan

optimal

Hyperplanvalide

D(x) = 0

D(x) = +1

D(x) = -1

Vecteursde support

D(x) > 1

D(x) < -1

w

1w


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Optimisation de la marge Optimisation de la marge

La distance d’un point à l’hyperplan est :

L’hyperplan optimal est celui pour lequel la distance aux points les

plus proches (marge) est maximale. Cette distance vaut

Maximiser la marge revient donc à minimiser ||w|| sous contraintes:

2

w

d (x ) = w.x + w0

w

min1

2w

2

∀i ui (w.xi +w0 ) ≥ 1

⎧ ⎨ ⎪

⎩ ⎪


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

SVMs : SVMs : un problème d’optimisation quadratiqueun problème d’optimisation quadratique

Il faut donc déterminer w et w0 minimisant :

(afin de maximiser le pouvoir de généralisation)

sous les contraintes (hyperplan séparateur) :

η(w ) = 1

2w 2

ui (w . xi ) + w0[ ] ≥ 1 , i =1,...,n

EXPRESSIONPRIMAIRE


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Résolution de la forme primaire du problèmeRésolution de la forme primaire du problème

Il faut régler d + 1 paramètres

Possible quand d est assez petit

avec des méthodes d'optimisation quadratique

Impossible quand d est grand (> qqs 103)

d : dimension de l’espace d’entrée


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Transformation du problème d’optimisationTransformation du problème d’optimisation

Méthode des multiplicateurs de Lagrange

Problème dual

L(w, w0 ,α ) = 12

w 2 − α i {(xi .w+w0 )ui −1}i=1

l

∑∀i α i ≥0

⎧

⎨ ⎪

⎩ ⎪

maxα

α i −1

2α i α j ui uj (xi .xj )

j=1

l

∑i=1

l

∑i=1

l

∑∀i α i ≥0

α i ui = 0i=1

l

∑

⎧

⎨

⎪ ⎪ ⎪

⎩

⎪ ⎪ ⎪

EXPRESSIONDUALE


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Propriétés de la forme dualePropriétés de la forme duale

La conversion est possible car les fonctions de coût et les

contraintes sont strictement convexes (Th. de Kuhn-Tucker)

La complexité du problème d'optimisation est

m (taille de l'échantillon d'apprentissage) et non d ( taille de l'espace d'entrée X )

Possible d'obtenir des solutions pour des problèmes

impliquant ≈ 105 exemples


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Solution du problème d’optimisationSolution du problème d’optimisation

Propriété1 : seuls les αi correspondant aux points les plus proches sont

non-nuls. On parle de points de supportpoints de support (exemples critiques).

Propriété 2 : seuls interviennent les produits scalaires produits scalaires entre les entre les

observations observations xx dans le problème d’optimisation.

* : estimé

(xS,uS) étant n'importe quel

point de support

D(x) = (w* .x +w0* )

w* = α i* ui xi

i=1

m

∑

w0* = us− αi

* ui (xi .xs)i=1

m

∑

⎧

⎨

⎪ ⎪

⎩

⎪ ⎪


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Problèmes non linéairement séparables dans Problèmes non linéairement séparables dans XX

La majorité des problèmes !!!

Idée :

Si on projette dans un espace de redescription de très grande projette dans un espace de redescription de très grande

dimensiondimension ??

Presque toujours le problème devient linéairement séparable

Mais : Fléau de la dimensionalité

dVC explose !!?


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

SVM et redescriptionSVM et redescription

Espaced'entrées X

Espace des représentations

internes

Espacede sortie

hSéparationlinéaire

Redescriptionnon linéaire

x y


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Petite digression …Petite digression …

… La reconnaissance de chiffres manuscrits par réseaux de neurones (ATT Bell labs, 1993)

1

2

3

4

5

6

7

8

9

0

Matrice 16 x 16 12 détecteursde traits (8 x 8)

12 détecteursde traits (4 x 4)

30 cellules

10 cellulesde sortie


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

La redescription des entrées : illustrationLa redescription des entrées : illustration

Soit un espace d’entrée à 2 dimensions

Tout vecteur x = (x1, x2) peut être redécrit à l’aide de polynômes

d’ordre 6

Nouvel espace de descripteurs à 16 dimensions (fonctions de base):

g1(x1, x2 )=1 g2 (x1,x2 )=x1 g3 (x1,x2 )=x2

g4 (x1,x2 )=x12 g5(x1,x2 )=x2

2 g6 (x1,x2 )=x13

g7 (x1,x2 )=x23 g8(x1,x2 )=x1x2 g9 (x1,x2 )=x1

2x2

g10(x1,x2 )=x1x22 g11(x1,x2 )=x1

3x2 g12 (x1,x2 )=x1x23

g13(x1,x2 )=x13x2

2 g14(x1,x2 )=x12x2

3 g15 (x1,x2 )=x12x2

2

g16(x1,x2 )=x13x2

3


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Le nouveau problème d’optimisationLe nouveau problème d’optimisation

Soit : X -> (X), on peut remplacer partout x par (x)

Si est bien choisie, K(x, x’) = (x).(x’) peut être facile à

calculer et le problème devient :

maxα

α i −1

2α i α j ui uj K (xi ,x j )

j=1

l

∑i=1

l

∑i=1

l

∑∀i 0 ≤α i ≤C

α i ui = 0i=1

l

∑

⎧

⎨

⎪ ⎪ ⎪

⎩

⎪ ⎪ ⎪


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Solution du nouveau problème d’optimisationSolution du nouveau problème d’optimisation

La fonction de décision devient :

Soit dans la forme duale :

D(x) = wj gj(x)j=1

n

∑n : nb de fcts

de base(peut être très grand)

€

D(x) = α i ui K(xi,x)i=1

mS

∑ + w0mS : nb de points

de support


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Schéma de fonctionnement des SVMsSchéma de fonctionnement des SVMs

K K K K

Σα1 α2 α3

α4

:Sortie

Comparaison :K(xi, x)

Échantillonx1, x2, x3, ...

Vecteur d'entréex

(signΣ α i ui K(xi,x) + w0)

(signΣ α i ui K(xi,x) + w0)


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Les conditions de MercerLes conditions de Mercer

Si on prend une fonction K symétrique, il existe une fonction tq:

ssi, pour toute fonction f telle que :

l’on a :

Si cette condition est vérifiée, on peut appliquer les SVMs

MAIS cela ne dit pas comment construire

K(x , x' ) = (x).(x' ) = gi (x).gi (x' )i=1

m

∑

f (x )2 dx est finie∫

K (x, x' )∫ f(x) f (x' ) dxdx' ≥ 0


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Fonctions noyau usuelles (1/2)Fonctions noyau usuelles (1/2)

Polynomiale :Les polynomes de degré q ont pour fonction noyau associée :

RBF :

Les fcts à base radiale :

ont pour fct noyau associée :

Sigmoïde :Les réseaux de neurones à fcts d'activation :

ont pour fct noyau associée :

K(x,x' ) = (x.x' + 1)q

K(x,x' ) = e−

x−x' 2

2σ2

K(x , x' ) = tanh(ax.x' − b)

h(x) = sign αi exp −x−xi

2

σ 2

⎧ ⎨ ⎩

⎫ ⎬ ⎭ i=1

n

∑⎛

⎝ ⎜

⎞

⎠ ⎟

h(x) = sign αi tanhv(x.xi) + a{ } + bi=1

n

∑⎛ ⎝ ⎜ ⎞

⎠


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Fonctions noyau usuelles (2/2)Fonctions noyau usuelles (2/2)

Construction à partir de fonctions noyau de base(Propriétés de clôture)

K(x,z) = K1(x,z) + K2(x,z)

K(x,z) = a K1(x,z)

K(x,z) = K1(x,z) . K2(x,z) …

Construction de fonctions noyau dédiées Splines Bm

Expansion de Fourrier Ondelettes ...


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Les fonctions noyauLes fonctions noyau

… encodent :

Une mesure de similarité sur les données

La forme fonctionnelle des fonctions de décision

Le type de régularisation réalisée (ex : les fcts gaussiennes favorisent les solutions régulières)

Le type de covariance dans l’espace des entrées (ex : fcts noyau invariantes par rotation)

Sorte de distribution de probabilité a priori sur l’espace des hypothèses


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Illustration : lIllustration : le cas du e cas du XORXOR

1

1-1

-1

x1

x2

Index i x u

1 (1,1) 1

2 (1,-1) -1

3 (-1,-1) 1

4 (-1,1) -1


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Illustration : lIllustration : le cas du XORe cas du XOR

Fonction noyau polynomiale de d° 2 :

K(x,x') = [1 + (xT . x')]2

soit : K(x,xi ) = 1 + x12xi1

2 + 2 x1x2xi1xi2 + x22xi2

2 + 2x1xi1 + 2x2xi2

correspondant à la projection :

[1, x12, √2 x1x2, x2

2, √2 x1, √2 x2 ] T


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)


Ici :

maxα

α i −1

2α i α j ui uj K (xi ,x j )

j=1

l

∑i=1

l

∑i=1

l

∑∀i 0 ≤α i ≤C

α i ui = 0i=1

l

∑

⎧

⎨

⎪ ⎪ ⎪

⎩

⎪ ⎪ ⎪

Q α( ) = α1 + α2 + α3 + α4

− 12

(9α12 − 2α1α2 −2α1α3 +2α1α4

+9α22 +2α2α3 −2α2α4 +9α3

2 −2α3α4 +9α 42)


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)


L'optimisation de Q(α) en fonction des multiplicateurs de

Lagrange conduit au système d'équations :

9α1 − α2 − α3 + α4 = 1

α1 − 9α2 − α3 + α4 = 1

α1 − α2 − 9α3 + α4 = 1

α1 − α2 − α3 + 9α4 = 1

⎧

⎨ ⎪

⎩ ⎪

La valeur optimale des multiplicateurs de Lagrange est :

α1* = α2

* = α3* = α4

* = 18


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)


Les 4 exemples sont donc des exemples critiques ("support vectors")

La valeur optimale de Q(α) est :

Et : soit :

Q*(α) = 14

12

w* = 14

w* = 12


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Les 4 exemples sont donc des exemples critiques ("support

vectors") ( i , αi ≠ 0)

La fonction de décision s’écrit :



Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)


En revenant dans l’espace d’origine :

Le vecteur poids optimal est :

w* = 18

−

1

1

2

1

− 2

− 2

⎛

⎝

⎜ ⎜ ⎜ ⎜ ⎜

⎞

⎠

⎟ ⎟ ⎟ ⎟ ⎟

+

1

1

− 2

1

− 2

2

⎛

⎝

⎜ ⎜ ⎜ ⎜ ⎜

⎞

⎠

⎟ ⎟ ⎟ ⎟ ⎟

+

1

1

− 2

1

2

− 2

⎛

⎝

⎜ ⎜ ⎜ ⎜ ⎜

⎞

⎠

⎟ ⎟ ⎟ ⎟ ⎟

−

1

1

2

1

2

2

⎛

⎝

⎜ ⎜ ⎜ ⎜ ⎜

⎞

⎠

⎟ ⎟ ⎟ ⎟ ⎟

⎧

⎨

⎪ ⎪

⎩

⎪ ⎪

⎫

⎬

⎪ ⎪

⎭

⎪ ⎪

=

0

0

−1 2

0

0

0

⎛

⎝

⎜ ⎜ ⎜ ⎜ ⎜

⎞

⎠

⎟ ⎟ ⎟ ⎟ ⎟

w* = 18

−Φ(x1) + Φ(x2) + Φ(x3) − Φ(x4)[ ]

soit :


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)


L'hyperplan optimal correspond à :

w*T.Φ(x) = 0, 0, −12

, 0, 0, 0⎛ ⎝

⎞ ⎠

1

x12

2x1x2

x22

2x1

2x2

⎛

⎝

⎜ ⎜ ⎜ ⎜ ⎜

⎞

⎠

⎟ ⎟ ⎟ ⎟ ⎟

= −x1x2 = 0


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)


Séparatrice dans l'espace d'entrée

D(x) = -x1x2

Séparatrice dans l'espace (X)(espace à 6 dimensions)

2 x1x2 = 0


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Cas du problème non séparable : Cas du problème non séparable : marges doucesmarges douces

On introduit des variables “ressort” qui pénalisent l’erreur commise :

Le problème dual a la même forme à l’exception d’une constante C

maxα

α i −1

2α i α j ui uj (xi .xj )

j=1

l

∑i=1

l

∑i=1

l

∑∀i 0 ≤α i ≤C

α i ui = 0i=1

l

∑

⎧

⎨

⎪ ⎪ ⎪

⎩

⎪ ⎪ ⎪

min1

2w 2 + C ξ i

i=1

l

∑∀i ui (w.xi +w0 ) ≥ 1 −ξi

⎧

⎨ ⎪

⎩ ⎪


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

La mise en La mise en pratiquepratique

Il faut choisir :

Le type de fonction noyau K

Sa forme

Ses paramètres

La valeur de la constante C

La sélection rigoureuse de ces paramètres exige une estimation de la dimension de Vapnik-Chervonenkis et l’application de la borne de généralisation

Dans le cas séparable, il est possible de déterminer ces paramètres

Dans le cas non séparable, il faut tester avec des méthodes empiriques pour faire le meilleur choix


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

ExempleExemple

: exemple +

• : exemple -

Dans cercle : points de support

Fct noyau polynomiale de degré 3

Démo :

http://svm.research.bell-labs.com/

http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml

QuickTime™ and aGIF decompressor

are needed to see this picture.


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Effet des paramètres de contrôleEffet des paramètres de contrôle

Apprentissage de deux classes exemples tirés uniformément sur

l'échiquier

SVM à fonctions noyau gaussienne

Ici deux valeurs de En haut : petite valeur

En bas : grande valeur

Les gros points sont des exemples critiques

Plus en haut qu'en bas

Dans les deux cas : Remp = 0

K(x,x' ) = e−

x−x' 2

2σ2


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Les données d'apprentissageLes données d'apprentissage


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Paramètres de contrôle : Paramètres de contrôle : les fonctions noyaules fonctions noyau


47 exemples (22 +, 25 -)

Exemples critiques : 4 + et 3 -

Ici fonction polynomiale de degré 5 et C = 10000


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Paramètres de contrôle : Paramètres de contrôle : les fonctions noyaules fonctions noyau

47 exemples (22 +, 25 -)

Exemples critiques : 4 + et 3 -Ici fonction polynomiale de degré 2, 5, 8 et C = 10000

Ici fonction Gaussienne de = 2, 5, 10, 20 et C = 10000

(4-, 5+)(8-, 6+)(10-, 11+)

(5-, 4+) (3-, 4+) (5-, 4+)


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Ajout de quelques points ...Ajout de quelques points ...


47 + 8 exemples (30 +, 25 -)

Exemples critiques : 5 + et 8 -

Ici fonction polynomiale de degré 5 et C = 10000


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Domaines d’application des SVMsDomaines d’application des SVMs

Traitement d’images

Reconnaissance de caractères manuscrits Reconnaissance de scènes naturelles Reconnaissance de visages

Entrées : image bidimensionnelle en couleur ou en niveaux de gris

Sortie : classe (chiffre / personne)


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)


Images : 256 * 256 (100 niveaux de gris)

Codées en : 16 * 16 (niveaux de gris) + mêmes par 4 opérateurs différentiels à une dimension (|,-,/,\) = 1280 pixels (5 * 16 * 16)

25 objets pris sous 25, 89 ou 100 points de vue (ens. d’apprentissage)

QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.

[Thèse B. Schölkopf, 1997]


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)


Résultats avec noyaux polynomiaux




Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Application : images couleursApplication : images couleurs

Base d’images Corel Stock Photo Collection 200 catégories 100 images / catégorie

Codage Pixel = vecteur dans espace à trois dimensions (RGB) Image = histogramme (fraction des pixels d’une couleur

donnée)

Invariant / nombreuses opérations

Noyau :

(fonction 2)


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)


Catégorisation de textes

Classification d’e-mails Classification de pages web

Entrées : document (texte ou html) Approche « sac de mots » Document = vecteur de mots (lemmatisés pondérés par tf-idf)

Sortie : catégorie (thème, spam/non-spam) Noyau :

Produit scalaire des vecteurs C = (marge dure)


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)


Diagnostic médical

Évaluation du risque de cancer Détection d’arythmie cardiaque Évaluation du risque d’accidents cardio-vasculaires à moins de 6

ans

Entrées : état du patient (sexe, age, bilan sanguin, …)

Sortie : Classe : à risque ou non Probabilité d’accident à échéance donnée


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)


Dans les deux cas :

Pas d’information de structure

Seulement des informations globales


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)


Étude de séquences en bio-informatique

Biologie structurale prédictive (prédiction de structure secondaire du génome)

Identification de régions codantes de l’ADN génomique Phylogénie …

Entrées : chaînes d’acides aminées Sortie :

Structure secondaire Intron / exon Ancêtre

Noyau relationnel : Modèle génératif

(chaînes de Markov : insertion, délétion, remplacement, …)


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Implémentation des SVMsImplémentation des SVMs

Minimisation de fonctions différentiables convexes à plusieurs variables Pas d’optima locaux Mais :

Problèmes de stockage de la matrice noyau (si milliers d’exemples) Long dans ce cas

D’où mise au point de méthodes spécifiques Gradient sophistiqué Méthodes itératives, optimisation par morceaux

Plusieurs packages publics disponibles SVMTorch SVMLight SMO …


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

ExtensionsExtensions

Classification multi-classes

Régression

Détection de « nouveautés »

Analyse en composantes principales par noyaux


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

SVM et régressionSVM et régression

Fonction de perte :

Régression linéaire :

Soit à minimiser :

Généralisation :

x x

xx

x

x

xx

x x0

+

x

−ξ

+−

ξ


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

SVM et apprentissage non superviséSVM et apprentissage non supervisé

Détection de « nouveautés »

w ρ/||w||ξ/||w||

On cherche à séparer au

maximum le nuage de points

de l’origine


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Pourquoi ça marche ?Pourquoi ça marche ?

La marge est liée à la capacité en généralisation

Normalement, la classe des hyperplans de Rd est de dH = d + 1

Mais la classe des hyperplans de marge

est bornée par : dH ≤ Min (R2 c, d) + 1

où R est le rayon de la plus petite sphère englobant l'échantillon

d'apprentissage S

Peut être beaucoup plus petit que la dimension d de l'espace d'entrée X

1w

tq. w2 ≤ c


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

BilanBilan

SVMs très utilisés

Méthode générale

Facile d’emploi

Résultats en général équivalents et souvent meilleurs

Stimulent tout un ensemble de travaux sur des méthodes

à base de noyaux (kernel-based methods)

Limites

Problèmes i.i.d. (données indépendantes et identiquement

distribuées)


Les SVMs

• Séparateurs

linéaires

• Le pb

d’optimisation

• Espace de

redescription

• Illustration

• Mise en œuvre

Applications

Bilan

(01-04)

Sources documentairesSources documentaires

Ouvrages / articles Cornuéjols & Miclet (02) : Apprentisage artificiel. Concepts et algorithmes. Eyrolles,

2002.

Cristianini & Shawe-Taylor (00) : Support Vector Machines and other kernel-based learning methods. Cambridge University Press, 2000.

Herbrich (02) : Learning kernel classifiers. MIT Press, 2002.

Schölkopf, Burges & Smola (eds) (98) : Advances in Kernel Methods : Support Vector Learning. MIT Press, 1998.

Schölkopf & Smola (02) : Learning with kernels. MIT Press, 2002.

Smola, Bartlett, Schölkopf & Schuurmans (00) : Advances in large margin classifiers. MIT Press, 2000.

Vapnik (95) : The nature of statistical learning. Springer-Verlag, 1995.

Sites web http://www.kernel-machines.org/ (point d’entrée)

http://www.support-vector.net (point d’entrée)

Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)

Documents

Transcript of Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)