Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes...
-
Upload
felicien-bouvier -
Category
Documents
-
view
107 -
download
0
Transcript of Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes...
![Page 1: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/1.jpg)
Apprentissage (II)
Mirta B. GordonLaboratoire Leibniz-IMAG
Grenoble
Dynamique des systèmes complexes et applications aux SHS :modèles, concepts méthodes
![Page 2: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/2.jpg)
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 2
plan
•c’est quoi ?
•différents types d’apprentissage– supervisé
•les réseaux de neurones – le perceptron– réseaux plus complexes
•quelques résultats de la théorie de l’apprentissage
•différents types d’apprentissage• bayesien• non supervisé
• par renforcement
![Page 3: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/3.jpg)
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 3
classifieur élémentaire : le perceptron
•d’inspiration biologique : « neurone » élémentaire
•surface discriminante linéaire :
• stabilité d’un exemple : – distance à la surface discriminante
avec signe – si mal classé
x1 x2xNxi
w1 wN
=sgn(w.x)
input :
output : hsgn
xwhN
1iii
xw
w
wwxw
h
0xwquetelsN
1iii
xwx
![Page 4: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/4.jpg)
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 4
commentaire 1
•inspiration biologique : – McCullock et Pitts (1943)
• des unités binaires connectées en cascades peuvent réaliser toutes les fonctions logiques
– Rosenblatt (1962)• une unité binaire peut apprendre à reconnaître des formes :
perceptron
• Minsky et Pappert (1969) : le perceptron n’est pas intéressants : il ne peut faire que des séparations linéaires
– Hopfield (1982)• un réseau d’unités binaires interconnectées avec des poids Jik
données par la règle de Hebb, modèlise une mémoire associative
ki
M
1kiik JJ
![Page 5: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/5.jpg)
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 5
algorithme du perceptron
•on initialise les poids du perceptron
•on parcourt les exemples – si la sortie donnée par le perceptron est incorrecte, on modifie
les poids
– jusqu’à convergence
•convergence assurée seulement si les exemples sont linéairement séparables
•si les exemples sont linéairement séparables : infinité de solutions
xww
)M1(
entrée · sortie
![Page 6: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/6.jpg)
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 6
commentaire 2
•règle de Hebb – modèle de Hopfield :
•algorithme du perceptron :
iii xww
état du neurone de sortie état du neurone d’entrée
ki
M
1kiik JJ
1,1 x MM2211M ,,,,,,,,,L xxxx
Mk
Miki
2k
2i
1k
1iM ,,,,,,,,,L
wi
i kJik
i
![Page 7: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/7.jpg)
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 7
exemples non séparables linéairement
•problème : – l’algorithme du perceptron ne converge pas– les autres algorithmes convergent mais souvent vers des
solutions « non intéressantes » (trop d’exemples mal classés)
•deux solutions :
•« classiques » : réseaux en couches
•« moderne » :Support Vector Machines
![Page 8: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/8.jpg)
solution classique :perceptron multicouche
![Page 9: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/9.jpg)
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 9
perceptrons binaires « cachés »
•réseau en couches avec unités binaires
•permet de représenter des surfaces discriminantes plus complexes
•méthode constructive : – on rajoutte des perceptrons cachés un à un : plusieurs
heuristiques
x1 x2 xNxi
w1
w2w3
x1
x2
++
+ -
-
couche cachée
représentations internes
![Page 10: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/10.jpg)
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 10
apprentissage d’une fonction réelle
•LM = { (xy) }1≤≤M,
x=(x1, x
2, …, xN) ; y R
•neurones cachés à valeurs réelles
•peut apprendre toute fonction continue des entrées– à condition que le nombre de neurones cachés soit suffisant
•apprentissage : "error backpropagation" – minimisation de l’écart quadratique :
•problèmes : – beaucoup de minima locaux : qualité de la solution ?– nombre de neurones cachés : par tâtonnement
x1 x2 xNxi
w1
w2w3
couche cachée
=tanh(w.x)
2
M tanhy21
L,E xww
![Page 11: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/11.jpg)
solution « moderne »Machines à Vecteurs Support (SVM)
![Page 12: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/12.jpg)
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 12
•marge : distance à la surface discriminante de l’exemple le plus proche
perceptron de marge maximale
2
![Page 13: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/13.jpg)
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 13
Support Vector Machines (SVM)
•application de l'espace des entrées x vers un espace de plus grande dimension (feature space)
•Support Vector Machine = perceptron de marge maximale dans le feature space
•algorithmes efficaces
•exemple: 2x,xxx
0,0
0,0
2d featurespace
1d inputspace
x
x2
)x,x(x 2
x
xx
![Page 14: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/14.jpg)
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 14
théorie de l’apprentissage
•question fondamentale :– est-ce que minimiser le nombre d’erreurs garantit qu’on
minimise la probabilité de mal classer de nouvelles données ?g : erreur de généralisation (de prédiction) -> probabilité de
faire une erreur de classification sur des entrées autres que les exemples
•réponse : – oui, à condition que le nombre d’exemples M soit supérieur à la
capacité du réseau
•capacité ≈ nombre maximum d’exemples que l’on peut apprendre sans erreurs, quels que soient les exemples
– proportionnelle au nombre de paramètres à déterminer– perceptron ≈ 2N où N est le nombre de poids = dimension des
entrées
![Page 15: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/15.jpg)
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 15
erreur de prédiction
•tâches de classification réalisables et non réalisables :– pour un perceptron : réalisable -> séparable linéairement
•comment varie g en fonction du nombre d’exemples ?– tâche réalisable :
•le meilleur algorithme : Bayes (b ≈ 0.5)
MN
bb
NMg
g
0.5
0
0.2
0.1
0.3
0.4
2 4 60
coeff qui dépend de l’algorithme
![Page 16: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/16.jpg)
inférence bayesienne
![Page 17: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/17.jpg)
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 17
règle de Bayes
•probabilités apabpbpbapb,ap
b
ap(a)
p(b)
p(a,b)
p(a)
p(b|a)
p(b)
p(a|b)
bp
apabpbap
![Page 18: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/18.jpg)
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 18
inférence bayesienne
•inférence = apprentissage– modifier les hypothèses en fonction des données (exemples)
•cadre probabiliste :– on se donne un modèle des données
• perceptron le problème est linéairement séparable
– probabilité a priori des paramètres du modèle• en absence de toute autre information : equiprobabilité
tous les poids w ont la même probabilité
•LM = { (x) }1≤≤M
•on utilise les exemples pour calculer la probabilité a posteriori des poids avec la règle de Bayes
![Page 19: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/19.jpg)
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 19
inférence des poids d’un perceptron
•formule de Bayes :
•a priori :
•modèle des données – paramétré par les poids w
M
0MM Lp
wpwLpLwp
p(w)p0(w)
autrement0
classésbientoussi1wLp M
ctewp0
![Page 20: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/20.jpg)
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 20
probabilité des poids a posteriori
M
0MM Lp
wpwLpLwp
hyperplans compatibles avec LM
probabilité a posteriori cte > 0
autrement0
classésbientoussi1wLp M
p0(w)a priori : p0(w)
p(w|LM)
probabilité a posteriori = 0
![Page 21: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/21.jpg)
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 21
classifieur bayesien optimal
•comment classer la nouvelle entrée ?– on classe comme la moyenne pondérée des poids (pondérée par
la probabilité a posteriori)– dans notre cas : poids équiprobables règle de la majorité
p(w)p0(w)
p(w|LM)
perceptron optimal
![Page 22: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/22.jpg)
mars 2004 [email protected] - Ecole CNRS Agay Systèmes Complexes SHS - Apprentissage II 22
inférence bayesienne : résumé
M
0MM Lp
wpwLpLwp
hypothèse a priorivraisemblance des données
paramètres a posteriori(compatibles avec LM)
![Page 23: Apprentissage (II) Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble Dynamique des systèmes complexes et applications aux SHS : modèles, concepts méthodes.](https://reader035.fdocuments.net/reader035/viewer/2022062511/551d9d95497959293b8cc0d3/html5/thumbnails/23.jpg)
fin deuxième cours