Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)
description
Transcript of Les SVM : Séparateurs à Vastes Marges (Support Vector Machines)
Cours - SVM.
Les SVM :Les SVM :Séparateurs à Vastes MargesSéparateurs à Vastes Marges
(Support Vector Machines)(Support Vector Machines)
Antoine Cornuéjols
IIE & CNRS - Université de Paris-Sud, Orsay
[email protected] http://www.lri.fr/~antoine
Les SVMs (A. Cornuéjols) 2
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Hyperplans séparateursHyperplans séparateurs
Tâche de classification Cas de la séparation linéaire
- On cherche h sous forme d’une fonction linéaire : h(x) = w.x + b
- La surface de séparation est donc l’hyperplan :
- Elle est valide si
- L’hyperplan est dit sous forme canonique lorsque
ou encore
w. x + b = 0
∀i ui h(xi ) ≥ 0
mini
w.x + b = 1
∀i ui (w.xi +b) ≥ 1
Les SVMs (A. Cornuéjols) 3
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Hyperplan de plus vaste margeHyperplan de plus vaste marge
Margemaximale
Hyperplan
optimal
Hyperplanvalide
Les SVMs (A. Cornuéjols) 4
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Optimisation de la margeOptimisation de la marge
Margemaximale
Hyperplan
optimal
Hyperplanvalide
D(x) = 0
D(x) = +1
D(x) = -1
Vecteursde support
D(x) > 1
D(x) < -1
w
1w
Les SVMs (A. Cornuéjols) 5
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Optimisation de la marge Optimisation de la marge
La distance d’un point à l’hyperplan est :
L’hyperplan optimal est celui pour lequel la distance aux points les
plus proches (marge) est maximale. Cette distance vaut
Maximiser la marge revient donc à minimiser ||w|| sous contraintes:
2
w
d (x ) = w.x + w0
w
min1
2w
2
∀i ui (w.xi +w0 ) ≥ 1
⎧ ⎨ ⎪
⎩ ⎪
Les SVMs (A. Cornuéjols) 6
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
SVMs : SVMs : un problème d’optimisation quadratiqueun problème d’optimisation quadratique
Il faut donc déterminer w et w0 minimisant :
(afin de maximiser le pouvoir de généralisation)
sous les contraintes (hyperplan séparateur) :
η(w ) = 1
2w 2
ui (w . xi ) + w0[ ] ≥ 1 , i =1,...,n
EXPRESSIONPRIMAIRE
Les SVMs (A. Cornuéjols) 7
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Résolution de la forme primaire du problèmeRésolution de la forme primaire du problème
Il faut régler d + 1 paramètres
Possible quand d est assez petit
avec des méthodes d'optimisation quadratique
Impossible quand d est grand (> qqs 103)
d : dimension de l’espace d’entrée
Les SVMs (A. Cornuéjols) 8
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Transformation du problème d’optimisationTransformation du problème d’optimisation
Méthode des multiplicateurs de Lagrange
Problème dual
L(w, w0 ,α ) = 12
w 2 − α i {(xi .w+w0 )ui −1}i=1
l
∑∀i α i ≥0
⎧
⎨ ⎪
⎩ ⎪
maxα
α i −1
2α i α j ui uj (xi .xj )
j=1
l
∑i=1
l
∑i=1
l
∑∀i α i ≥0
α i ui = 0i=1
l
∑
⎧
⎨
⎪ ⎪ ⎪
⎩
⎪ ⎪ ⎪
EXPRESSIONDUALE
Les SVMs (A. Cornuéjols) 9
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Propriétés de la forme dualePropriétés de la forme duale
La conversion est possible car les fonctions de coût et les
contraintes sont strictement convexes (Th. de Kuhn-Tucker)
La complexité du problème d'optimisation est
m (taille de l'échantillon d'apprentissage) et non d ( taille de l'espace d'entrée X )
Possible d'obtenir des solutions pour des problèmes
impliquant ≈ 105 exemples
Les SVMs (A. Cornuéjols) 10
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Solution du problème d’optimisationSolution du problème d’optimisation
Propriété1 : seuls les αi correspondant aux points les plus proches sont
non-nuls. On parle de points de supportpoints de support (exemples critiques).
Propriété 2 : seuls interviennent les produits scalaires produits scalaires entre les entre les
observations observations xx dans le problème d’optimisation.
* : estimé
(xS,uS) étant n'importe quel
point de support
D(x) = (w* .x +w0* )
w* = α i* ui xi
i=1
m
∑
w0* = us− αi
* ui (xi .xs)i=1
m
∑
⎧
⎨
⎪ ⎪
⎩
⎪ ⎪
Les SVMs (A. Cornuéjols) 11
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Problèmes non linéairement séparables dans Problèmes non linéairement séparables dans XX
La majorité des problèmes !!!
Idée :
Si on projette dans un espace de redescription de très grande projette dans un espace de redescription de très grande
dimensiondimension ??
Presque toujours le problème devient linéairement séparable
Mais : Fléau de la dimensionalité
dVC explose !!?
Les SVMs (A. Cornuéjols) 12
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
SVM et redescriptionSVM et redescription
Espaced'entrées X
Espace des représentations
internes
Espacede sortie
hSéparationlinéaire
Redescriptionnon linéaire
x y
Les SVMs (A. Cornuéjols) 13
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Petite digression …Petite digression …
… La reconnaissance de chiffres manuscrits par réseaux de neurones (ATT Bell labs, 1993)
1
2
3
4
5
6
7
8
9
0
Matrice 16 x 16 12 détecteursde traits (8 x 8)
12 détecteursde traits (4 x 4)
30 cellules
10 cellulesde sortie
Les SVMs (A. Cornuéjols) 14
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
La redescription des entrées : illustrationLa redescription des entrées : illustration
Soit un espace d’entrée à 2 dimensions
Tout vecteur x = (x1, x2) peut être redécrit à l’aide de polynômes
d’ordre 6
Nouvel espace de descripteurs à 16 dimensions (fonctions de base):
g1(x1, x2 )=1 g2 (x1,x2 )=x1 g3 (x1,x2 )=x2
g4 (x1,x2 )=x12 g5(x1,x2 )=x2
2 g6 (x1,x2 )=x13
g7 (x1,x2 )=x23 g8(x1,x2 )=x1x2 g9 (x1,x2 )=x1
2x2
g10(x1,x2 )=x1x22 g11(x1,x2 )=x1
3x2 g12 (x1,x2 )=x1x23
g13(x1,x2 )=x13x2
2 g14(x1,x2 )=x12x2
3 g15 (x1,x2 )=x12x2
2
g16(x1,x2 )=x13x2
3
Les SVMs (A. Cornuéjols) 15
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Le nouveau problème d’optimisationLe nouveau problème d’optimisation
Soit : X -> (X), on peut remplacer partout x par (x)
Si est bien choisie, K(x, x’) = (x).(x’) peut être facile à
calculer et le problème devient :
maxα
α i −1
2α i α j ui uj K (xi ,x j )
j=1
l
∑i=1
l
∑i=1
l
∑∀i 0 ≤α i ≤C
α i ui = 0i=1
l
∑
⎧
⎨
⎪ ⎪ ⎪
⎩
⎪ ⎪ ⎪
Les SVMs (A. Cornuéjols) 16
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Solution du nouveau problème d’optimisationSolution du nouveau problème d’optimisation
La fonction de décision devient :
Soit dans la forme duale :
D(x) = wj gj(x)j=1
n
∑n : nb de fcts
de base(peut être très grand)
€
D(x) = α i ui K(xi,x)i=1
mS
∑ + w0mS : nb de points
de support
Les SVMs (A. Cornuéjols) 17
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Schéma de fonctionnement des SVMsSchéma de fonctionnement des SVMs
K K K K
Σα1 α2 α3
α4
:Sortie
Comparaison :K(xi, x)
Échantillonx1, x2, x3, ...
Vecteur d'entréex
(signΣ α i ui K(xi,x) + w0)
(signΣ α i ui K(xi,x) + w0)
Les SVMs (A. Cornuéjols) 18
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Les conditions de MercerLes conditions de Mercer
Si on prend une fonction K symétrique, il existe une fonction tq:
ssi, pour toute fonction f telle que :
l’on a :
Si cette condition est vérifiée, on peut appliquer les SVMs
MAIS cela ne dit pas comment construire
K(x , x' ) = (x).(x' ) = gi (x).gi (x' )i=1
m
∑
f (x )2 dx est finie∫
K (x, x' )∫ f(x) f (x' ) dxdx' ≥ 0
Les SVMs (A. Cornuéjols) 19
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Fonctions noyau usuelles (1/2)Fonctions noyau usuelles (1/2)
Polynomiale :Les polynomes de degré q ont pour fonction noyau associée :
RBF :
Les fcts à base radiale :
ont pour fct noyau associée :
Sigmoïde :Les réseaux de neurones à fcts d'activation :
ont pour fct noyau associée :
K(x,x' ) = (x.x' + 1)q
K(x,x' ) = e−
x−x' 2
2σ2
K(x , x' ) = tanh(ax.x' − b)
h(x) = sign αi exp −x−xi
2
σ 2
⎧ ⎨ ⎩
⎫ ⎬ ⎭ i=1
n
∑⎛
⎝ ⎜
⎞
⎠ ⎟
h(x) = sign αi tanhv(x.xi) + a{ } + bi=1
n
∑⎛ ⎝ ⎜ ⎞
⎠
Les SVMs (A. Cornuéjols) 20
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Fonctions noyau usuelles (2/2)Fonctions noyau usuelles (2/2)
Construction à partir de fonctions noyau de base(Propriétés de clôture)
K(x,z) = K1(x,z) + K2(x,z)
K(x,z) = a K1(x,z)
K(x,z) = K1(x,z) . K2(x,z) …
Construction de fonctions noyau dédiées Splines Bm
Expansion de Fourrier Ondelettes ...
Les SVMs (A. Cornuéjols) 21
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Les fonctions noyauLes fonctions noyau
… encodent :
Une mesure de similarité sur les données
La forme fonctionnelle des fonctions de décision
Le type de régularisation réalisée (ex : les fcts gaussiennes favorisent les solutions régulières)
Le type de covariance dans l’espace des entrées (ex : fcts noyau invariantes par rotation)
Sorte de distribution de probabilité a priori sur l’espace des hypothèses
Les SVMs (A. Cornuéjols) 22
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Illustration : lIllustration : le cas du e cas du XORXOR
1
1-1
-1
x1
x2
Index i x u
1 (1,1) 1
2 (1,-1) -1
3 (-1,-1) 1
4 (-1,1) -1
Les SVMs (A. Cornuéjols) 23
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Illustration : lIllustration : le cas du XORe cas du XOR
Fonction noyau polynomiale de d° 2 :
K(x,x') = [1 + (xT . x')]2
soit : K(x,xi ) = 1 + x12xi1
2 + 2 x1x2xi1xi2 + x22xi2
2 + 2x1xi1 + 2x2xi2
correspondant à la projection :
[1, x12, √2 x1x2, x2
2, √2 x1, √2 x2 ] T
Les SVMs (A. Cornuéjols) 24
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Illustration : lIllustration : le cas du XORe cas du XOR
Ici :
maxα
α i −1
2α i α j ui uj K (xi ,x j )
j=1
l
∑i=1
l
∑i=1
l
∑∀i 0 ≤α i ≤C
α i ui = 0i=1
l
∑
⎧
⎨
⎪ ⎪ ⎪
⎩
⎪ ⎪ ⎪
Q α( ) = α1 + α2 + α3 + α4
− 12
(9α12 − 2α1α2 −2α1α3 +2α1α4
+9α22 +2α2α3 −2α2α4 +9α3
2 −2α3α4 +9α 42)
Les SVMs (A. Cornuéjols) 25
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Illustration : lIllustration : le cas du XORe cas du XOR
L'optimisation de Q(α) en fonction des multiplicateurs de
Lagrange conduit au système d'équations :
9α1 − α2 − α3 + α4 = 1
α1 − 9α2 − α3 + α4 = 1
α1 − α2 − 9α3 + α4 = 1
α1 − α2 − α3 + 9α4 = 1
⎧
⎨ ⎪
⎩ ⎪
La valeur optimale des multiplicateurs de Lagrange est :
α1* = α2
* = α3* = α4
* = 18
Les SVMs (A. Cornuéjols) 26
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Illustration : lIllustration : le cas du XORe cas du XOR
Les 4 exemples sont donc des exemples critiques ("support vectors")
La valeur optimale de Q(α) est :
Et : soit :
Q*(α) = 14
12
w* = 14
w* = 12
Les SVMs (A. Cornuéjols) 27
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Les 4 exemples sont donc des exemples critiques ("support
vectors") ( i , αi ≠ 0)
La fonction de décision s’écrit :
Illustration : lIllustration : le cas du XORe cas du XOR
Les SVMs (A. Cornuéjols) 28
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Illustration : lIllustration : le cas du XORe cas du XOR
En revenant dans l’espace d’origine :
Le vecteur poids optimal est :
w* = 18
−
1
1
2
1
− 2
− 2
⎛
⎝
⎜ ⎜ ⎜ ⎜ ⎜
⎞
⎠
⎟ ⎟ ⎟ ⎟ ⎟
+
1
1
− 2
1
− 2
2
⎛
⎝
⎜ ⎜ ⎜ ⎜ ⎜
⎞
⎠
⎟ ⎟ ⎟ ⎟ ⎟
+
1
1
− 2
1
2
− 2
⎛
⎝
⎜ ⎜ ⎜ ⎜ ⎜
⎞
⎠
⎟ ⎟ ⎟ ⎟ ⎟
−
1
1
2
1
2
2
⎛
⎝
⎜ ⎜ ⎜ ⎜ ⎜
⎞
⎠
⎟ ⎟ ⎟ ⎟ ⎟
⎧
⎨
⎪ ⎪
⎩
⎪ ⎪
⎫
⎬
⎪ ⎪
⎭
⎪ ⎪
=
0
0
−1 2
0
0
0
⎛
⎝
⎜ ⎜ ⎜ ⎜ ⎜
⎞
⎠
⎟ ⎟ ⎟ ⎟ ⎟
w* = 18
−Φ(x1) + Φ(x2) + Φ(x3) − Φ(x4)[ ]
soit :
Les SVMs (A. Cornuéjols) 29
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Illustration : lIllustration : le cas du XORe cas du XOR
L'hyperplan optimal correspond à :
w*T.Φ(x) = 0, 0, −12
, 0, 0, 0⎛ ⎝
⎞ ⎠
1
x12
2x1x2
x22
2x1
2x2
⎛
⎝
⎜ ⎜ ⎜ ⎜ ⎜
⎞
⎠
⎟ ⎟ ⎟ ⎟ ⎟
= −x1x2 = 0
Les SVMs (A. Cornuéjols) 30
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Illustration : lIllustration : le cas du XORe cas du XOR
Séparatrice dans l'espace d'entrée
D(x) = -x1x2
Séparatrice dans l'espace (X)(espace à 6 dimensions)
2 x1x2 = 0
Les SVMs (A. Cornuéjols) 31
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Cas du problème non séparable : Cas du problème non séparable : marges doucesmarges douces
On introduit des variables “ressort” qui pénalisent l’erreur commise :
Le problème dual a la même forme à l’exception d’une constante C
maxα
α i −1
2α i α j ui uj (xi .xj )
j=1
l
∑i=1
l
∑i=1
l
∑∀i 0 ≤α i ≤C
α i ui = 0i=1
l
∑
⎧
⎨
⎪ ⎪ ⎪
⎩
⎪ ⎪ ⎪
min1
2w 2 + C ξ i
i=1
l
∑∀i ui (w.xi +w0 ) ≥ 1 −ξi
⎧
⎨ ⎪
⎩ ⎪
Les SVMs (A. Cornuéjols) 32
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
La mise en La mise en pratiquepratique
Il faut choisir :
Le type de fonction noyau K
Sa forme
Ses paramètres
La valeur de la constante C
La sélection rigoureuse de ces paramètres exige une estimation de la dimension de Vapnik-Chervonenkis et l’application de la borne de généralisation
Dans le cas séparable, il est possible de déterminer ces paramètres
Dans le cas non séparable, il faut tester avec des méthodes empiriques pour faire le meilleur choix
Les SVMs (A. Cornuéjols) 33
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
ExempleExemple
: exemple +
• : exemple -
Dans cercle : points de support
Fct noyau polynomiale de degré 3
Démo :
http://svm.research.bell-labs.com/
http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml
QuickTime™ and aGIF decompressor
are needed to see this picture.
Les SVMs (A. Cornuéjols) 34
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Effet des paramètres de contrôleEffet des paramètres de contrôle
Apprentissage de deux classes exemples tirés uniformément sur
l'échiquier
SVM à fonctions noyau gaussienne
Ici deux valeurs de En haut : petite valeur
En bas : grande valeur
Les gros points sont des exemples critiques
Plus en haut qu'en bas
Dans les deux cas : Remp = 0
K(x,x' ) = e−
x−x' 2
2σ2
Les SVMs (A. Cornuéjols) 35
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Les données d'apprentissageLes données d'apprentissage
Les SVMs (A. Cornuéjols) 36
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Paramètres de contrôle : Paramètres de contrôle : les fonctions noyaules fonctions noyau
http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml
47 exemples (22 +, 25 -)
Exemples critiques : 4 + et 3 -
Ici fonction polynomiale de degré 5 et C = 10000
Les SVMs (A. Cornuéjols) 37
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Paramètres de contrôle : Paramètres de contrôle : les fonctions noyaules fonctions noyau
47 exemples (22 +, 25 -)
Exemples critiques : 4 + et 3 -Ici fonction polynomiale de degré 2, 5, 8 et C = 10000
Ici fonction Gaussienne de = 2, 5, 10, 20 et C = 10000
(4-, 5+)(8-, 6+)(10-, 11+)
(5-, 4+) (3-, 4+) (5-, 4+)
Les SVMs (A. Cornuéjols) 38
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Ajout de quelques points ...Ajout de quelques points ...
http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml
47 + 8 exemples (30 +, 25 -)
Exemples critiques : 5 + et 8 -
Ici fonction polynomiale de degré 5 et C = 10000
Les SVMs (A. Cornuéjols) 39
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Domaines d’application des SVMsDomaines d’application des SVMs
Traitement d’images
Reconnaissance de caractères manuscrits Reconnaissance de scènes naturelles Reconnaissance de visages
Entrées : image bidimensionnelle en couleur ou en niveaux de gris
Sortie : classe (chiffre / personne)
Les SVMs (A. Cornuéjols) 40
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Domaines d’application des SVMsDomaines d’application des SVMs
Images : 256 * 256 (100 niveaux de gris)
Codées en : 16 * 16 (niveaux de gris) + mêmes par 4 opérateurs différentiels à une dimension (|,-,/,\) = 1280 pixels (5 * 16 * 16)
25 objets pris sous 25, 89 ou 100 points de vue (ens. d’apprentissage)
QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.
[Thèse B. Schölkopf, 1997]
Les SVMs (A. Cornuéjols) 41
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Domaines d’application des SVMsDomaines d’application des SVMs
Résultats avec noyaux polynomiaux
QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.
QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.
Les SVMs (A. Cornuéjols) 42
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Application : images couleursApplication : images couleurs
Base d’images Corel Stock Photo Collection 200 catégories 100 images / catégorie
Codage Pixel = vecteur dans espace à trois dimensions (RGB) Image = histogramme (fraction des pixels d’une couleur
donnée)
Invariant / nombreuses opérations
Noyau :
(fonction 2)
Les SVMs (A. Cornuéjols) 43
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Domaines d’application des SVMsDomaines d’application des SVMs
Catégorisation de textes
Classification d’e-mails Classification de pages web
Entrées : document (texte ou html) Approche « sac de mots » Document = vecteur de mots (lemmatisés pondérés par tf-idf)
Sortie : catégorie (thème, spam/non-spam) Noyau :
Produit scalaire des vecteurs C = (marge dure)
Les SVMs (A. Cornuéjols) 44
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Domaines d’application des SVMsDomaines d’application des SVMs
Diagnostic médical
Évaluation du risque de cancer Détection d’arythmie cardiaque Évaluation du risque d’accidents cardio-vasculaires à moins de 6
ans
Entrées : état du patient (sexe, age, bilan sanguin, …)
Sortie : Classe : à risque ou non Probabilité d’accident à échéance donnée
Les SVMs (A. Cornuéjols) 45
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Domaines d’application des SVMsDomaines d’application des SVMs
Dans les deux cas :
Pas d’information de structure
Seulement des informations globales
Les SVMs (A. Cornuéjols) 46
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Domaines d’application des SVMsDomaines d’application des SVMs
Étude de séquences en bio-informatique
Biologie structurale prédictive (prédiction de structure secondaire du génome)
Identification de régions codantes de l’ADN génomique Phylogénie …
Entrées : chaînes d’acides aminées Sortie :
Structure secondaire Intron / exon Ancêtre
Noyau relationnel : Modèle génératif
(chaînes de Markov : insertion, délétion, remplacement, …)
Les SVMs (A. Cornuéjols) 47
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Implémentation des SVMsImplémentation des SVMs
Minimisation de fonctions différentiables convexes à plusieurs variables Pas d’optima locaux Mais :
Problèmes de stockage de la matrice noyau (si milliers d’exemples) Long dans ce cas
D’où mise au point de méthodes spécifiques Gradient sophistiqué Méthodes itératives, optimisation par morceaux
Plusieurs packages publics disponibles SVMTorch SVMLight SMO …
Les SVMs (A. Cornuéjols) 48
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
ExtensionsExtensions
Classification multi-classes
Régression
Détection de « nouveautés »
Analyse en composantes principales par noyaux
Les SVMs (A. Cornuéjols) 49
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
SVM et régressionSVM et régression
Fonction de perte :
Régression linéaire :
Soit à minimiser :
Généralisation :
x x
xx
x
x
xx
x x0
+
x
−ξ
+−
ξ
Les SVMs (A. Cornuéjols) 50
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
SVM et apprentissage non superviséSVM et apprentissage non supervisé
Détection de « nouveautés »
w ρ/||w||ξ/||w||
On cherche à séparer au
maximum le nuage de points
de l’origine
Les SVMs (A. Cornuéjols) 51
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Pourquoi ça marche ?Pourquoi ça marche ?
La marge est liée à la capacité en généralisation
Normalement, la classe des hyperplans de Rd est de dH = d + 1
Mais la classe des hyperplans de marge
est bornée par : dH ≤ Min (R2 c, d) + 1
où R est le rayon de la plus petite sphère englobant l'échantillon
d'apprentissage S
Peut être beaucoup plus petit que la dimension d de l'espace d'entrée X
1w
tq. w2 ≤ c
Les SVMs (A. Cornuéjols) 52
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
BilanBilan
SVMs très utilisés
Méthode générale
Facile d’emploi
Résultats en général équivalents et souvent meilleurs
Stimulent tout un ensemble de travaux sur des méthodes
à base de noyaux (kernel-based methods)
Limites
Problèmes i.i.d. (données indépendantes et identiquement
distribuées)
Les SVMs (A. Cornuéjols) 53
Les SVMs
• Séparateurs
linéaires
• Le pb
d’optimisation
• Espace de
redescription
• Illustration
• Mise en œuvre
Applications
Bilan
(01-04)
Sources documentairesSources documentaires
Ouvrages / articles Cornuéjols & Miclet (02) : Apprentisage artificiel. Concepts et algorithmes. Eyrolles,
2002.
Cristianini & Shawe-Taylor (00) : Support Vector Machines and other kernel-based learning methods. Cambridge University Press, 2000.
Herbrich (02) : Learning kernel classifiers. MIT Press, 2002.
Schölkopf, Burges & Smola (eds) (98) : Advances in Kernel Methods : Support Vector Learning. MIT Press, 1998.
Schölkopf & Smola (02) : Learning with kernels. MIT Press, 2002.
Smola, Bartlett, Schölkopf & Schuurmans (00) : Advances in large margin classifiers. MIT Press, 2000.
Vapnik (95) : The nature of statistical learning. Springer-Verlag, 1995.
Sites web http://www.kernel-machines.org/ (point d’entrée)
http://www.support-vector.net (point d’entrée)