Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage...
Transcript of Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage...
Apprentissage Statistique
Master DAC - Université Paris 6P. Gallinari, [email protected], http://www-connex.lip6.fr/~gallinar/
Année 2014-2015Partie 1
Introduction
Apprentissage à partir d'exemples
Apprentissage Statistique - P. Gallinari3
3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère C (apprentissage et évaluation)
But Extraire de l'information à partir des données
Information pertinente pour la tâche étudiée pour d'autres données du même type
Utilisation Inférence sur de nouvelles données
Type d'apprentissage : Supervisé Non supervisé Semi supervisé Renforcement
Exemples - problèmes d'apprentissage
Apprentissage Statistique - P. Gallinari4
Parole / Ecriture Données : (signal, (transcription)) But : reconnaître signal Critère : # mots correctement reconnus
Conduite véhicule autonome Données : (images routes, (commande volant)) e.g. S. Thrun Darpa Challenge +
Google car But : suivre route Critère : distance parcourue
Recherche d'information textuelle Données : (texte + requête, (information pertinente)) – corpus d’apprentissage But : extraire l'information correspondant à la requête Critère : Rappel / Précision
Diagnostic dans systèmes complexes Données : (état capteurs + alarmes, (diagnostic)) But : diagnostic correct Critère : ?
Exemples - problèmes d'apprentissage
Apprentissage Statistique - P. Gallinari5
Modélisation d'utilisateur Données : (Traces utilisateur) But : analyser/ modéliser le comportement de l'utilisateur
Exemples : ciblage clientèle, aide navigation, publicité, recommandation, assistants personnels e.g. Google now
Critère : ? Evaluation : ? Example Google Now
Google Now keeps track of searches, calendar events, locations, and travel patterns. It then synthesizes all that info and alerts you—either through notifications in the menu bar or cards on the search screen—of transit alerts for your commute, box scores for your favorite sports team, nearby watering holes, and more. You can assume it will someday suggest a lot more.
Exemples - problèmes d'apprentissage
Apprentissage Statistique - P. Gallinari6
Plus difficile : Traduction Extraction d’information (e.g. Never-Ending Language/ Image Learning) Compréhension de texte / scène visuelle – extraction de sens Découverte dans bases de données ou bases de connaissances ....
Données : i.e. représenter l'information ?? But ?? Critère ?? Evaluation ??
Données : diversité
Apprentissage Statistique - P. Gallinari7
Données : quantitésYahoo! Data – A league of its own… U. Fayyad KDD’07
Apprentissage Statistique - P. Gallinari8
Terrabytes of Warehoused Data
25 49 94 100500
1,000
5,000
Amaz
on
Kore
a
Teleco
m
AT&T
Y! L
iveS
tor
Y! P
anam
a
War
ehou
se
Walm
art
Y! M
ain
war
ehou
se
GRAND CHALLENGE PROBLEMS OF DATA PROCESSING
TRAVEL, CREDIT CARD PROCESSING, STOCK EXCHANGE, RETAIL, INTERNET
Y! PROBLEM EXCEEDS OTHERS BY 2 ORDERS OF MAGNITUDE
Millions of Events Processed Per Day
50 120 2252,000
14,000
SABRE VISA NYSE Y! Panama Y! DataHighway
Données : quantitésPetabytes (10^15) (chiffres 2012)
Apprentissage Statistique - P. Gallinari9
Google processes about 24 petabytes of data per day Google Street View Has Snapped 20 Petabytes of Street
Photos Telecoms: AT&T transfers about 30 petabytes of data
through its networks each day Physics: The experiments in the Large Hadron Collider
produce about 15 petabytes of data per year Neurology: It is estimated that the human brain's ability
to store memories is equivalent to about 2.5 petabytes of binary data
Big Data: Volume, Velocity, Variety, and Veracity http://www-01.ibm.com/software/data/bigdata/
Apprentissage Statistique - P. Gallinari10
Volume: terabytes, petabytes Turn 12 terabytes of Tweets created each day into improved product sentiment analysis Convert 350 billion annual meter readings to better predict power consumption
Velocity: streams Scrutinize 5 million trade events created each day to identify potential fraud Analyze 500 million daily call detail records in real-time to predict customer churn faster
Variety: Big data is any type of data - structured and unstructured data such as text, sensor data, audio, video, click streams, log files and more. New insights are found when analyzing these data types together. Monitor 100’s of live video feeds from surveillance cameras to target points of interest Exploit the 80% data growth in images, video and documents to improve customer
satisfaction Veracity: Establishing trust in big data presents a huge challenge as the variety and
number of sources grows.
Gartner Hype Cycle: Big Data
Apprentissage Statistique - P. Gallinari11
Apprentissage Statistique - P. Gallinari12
Data science (Wikipedia 2013)
Apprentissage Statistique - P. Gallinari13
Data science incorporates varying elements and builds on techniques and theories from many fields, including mathematics, statistics, data engineering, pattern recognition and learning,advanced computing, visualization, uncertainty modeling, data warehousing, and high performance computing with the goal of extracting meaning from data and creating data products. …..Data science seeks to use all available and relevant data to effectively tell a story ….
Data science is the practice of deriving valuable insights from data. Data science is emerging to meet the challenges of processing very large data sets i.e. "Big Data" consisting of structured, unstructured or semi-structured data that large enterprises produce. A domain at center stage of data science is the explosion of new data generated from smart devices, web, mobile and social media. ……data scientists rely heavily upon elements of statistics, machine learning, text retrieval and natural language processing to analyze data and interpret results.
Place de l’apprentissage
Apprentissage Statistique - P. Gallinari14
L’apprentissage constitue une brique dans le processus de fouille / traitement de données qui arrive souvent à la fin du processus qui est intégré dans une application ou dans le SI de l’entreprise
Les différentes étapes de l’analyse des données Collecte des données / stockage Prétraitement des données, étiquetage éventuel Analyses des données par des techniques exploratoires Mise au point et test de différents modèles d’apprentissage Evaluation
Domaines d’application en Data MiningExemples
Apprentissage Statistique - P. Gallinari15
Web recherche d'information, filtrage d'information extraction d'information textuelle : e.g. recherche, bibliothèques virtuelles, veille
technologique, Question Answering , ... Multi-média
image + son, vidéo Données d’entreprise
infos produits, infos clients, ciblage clientèle ... Analyse comportement
e.g. telecoms : serveurs web, accès services commerciaux, internet - intranet, aide accès information, publicité
Distribué Mobiles : personnalisation, accès information Capteurs distribués, objets connectés
Biologie - analyse de séquences, de structures Automobile ...
Challenges de l’apprentissage
Apprentissage Statistique - P. Gallinari16
Passage à l’échelle Quantité de données, taille données
Dynamicité Flux
Distribué Complexité des données et des problèmes Données structurées
standards (XML, RDF, SMIL, …), taxonomies Web2.0 : découverte / analyse de relations !!
Nouveaux problèmes, nouveaux usages Adaptation rapide outils existants et création de nouveaux
outils
4 Familles d’algorithmes
Apprentissage Statistique - P. Gallinari17
Données dans la pratique de l’apprentissage
Apprentissage Statistique - P. Gallinari18
Distinguer les ensembles d’apprentissage
Mettre au point le modèle
de test Evaluer les performances du modèle appris
de validation Apprentissage de méta-paramètres
Remarque On fera en général l’hypothèse que toutes les données sont générées
suivant une même loi
Apprentissage supervisé
Apprentissage Statistique - P. Gallinari19
Ensemble d'apprentissage Constitué de couples (entrée, sortie désirée)
, , … , , But Au moyen d'un algorithme d'apprentissage, découvrir
l’association En utilisant les données d’appprentissage Qui offre une bonne généralisation
i.e. si hors de l'ensemble d'apprentissage mais généré par le même phénomène
Utilisation discrimination, identification, prévision, approximation …
Apprentissage non supervisé
Apprentissage Statistique - P. Gallinari20
Ensemble d'apprentissage Uniquement des données d’entrée , … ,
But Regrouper les données similaires Modéliser les données Découvrir des relations non spécifiées à l’avance entre les
données
Utilisation estimation de densité, extraction de similarités
Apprentissage semi supervisé
Apprentissage Statistique - P. Gallinari21
Ensemble d’apprentissage étiquetés – faible quantité
, , … , , non étiquetés – grande quantité
, … , But Extraire l’information des exemples non étiquetés utile pour
l’étiquetage Apprendre conjointement à partir des deux ensembles d’exemples
Utilisation grandes masses de données où l’étiquetage est possible mais trop
coûteux données qui évoluent implémentation rapide de systèmes génériques pour différentes
instances d’un problème
Apprentissage par Renforcement
Apprentissage Statistique - P. Gallinari22
Ensemble d'apprentissage Couples (entrée, sortie désirée qualitative)
, , … , , Les xi peuvent être des séquences (temporal credit
assignment), les di sont des réponses qualitatives (e.g. 0,1), déterministes ou stochastiques.
But Apprendre des actions optimales
Utilisation commande, décision séquentielle, robotique, jeux,
programmation dynamique, applications web ou sociales, ...
Exemple introductif : Perceptron
Apprentissage Statistique - P. Gallinari23
Un exemple : Perceptron (1960 Rosenblatt)
Apprentissage Statistique - P. Gallinari24
(image from Perceptrons, Minsky and Papert 1969)
Le perceptron est utilisé pour la discrimination La cellule de décision calcule une fonction à seuil :
∑ ∑ avec 1 Classe 1 : ∶ 1 Classe 2 : ∶ 1
Cellules d’association Cellule de décision
L'algorithme du perceptron (2 classes)
Apprentissage Statistique - P. Gallinari25
C'est un algorithme à correction d'erreur si est constant : règle à incrément fixe si est fonction du temps : règle à incrément variable
Donnéesbase d’apprentissage , , 1. . , ∈ , ∈ 1,1
Outputclassifieur ∈ , décision ∑
Initialiser w (0)Répeter (t)
choisir un exemple, ,Si . 0alors 1
Jusqu'à convergence
Fonction discriminante linéaire
Apprentissage Statistique - P. Gallinari26
Surface de décision: hyperplan F(x) = 0 Quelques propriétés w est le vecteur normal de l'hyperplan, il défini son
orientation distance de x à H : / w0 = 0 : H passe par l'origine
. ∑ avec 1
Géométrie de la discrimination linéaire
Apprentissage Statistique - P. Gallinari27
W
F(x) < 0
F(x) > 0wxF )( F(x) = 0
Le perceptron effectue une descente de gradient
Apprentissage Statistique - P. Gallinari28
Fonction de coût ∑ . ., é
gradient
, … , avec ∑ ., é
Règle d’apprentissage
Demo http://lcn.epfl.ch/tutorial/english/
Cas multi-classes
Apprentissage Statistique - P. Gallinari29
Approche générale : one vs all p classes = p " problèmes 2 classes " : Ci contre le reste
construire p fonctions discriminantes Fi(x), i = 1 ... p règle de décision: x Ci si Fi(x) > Fj(x) pour ji crée une partition de l'espace d'entrée chaque classe est un polygone avec au plus p -1 faces.
Régions convexes : limitation des classifieurs linéaires
Propriétés Probabilité de séparabilité linéaire (Cover 1965)
Apprentissage Statistique - P. Gallinari30
Entrée de taille n, m formes classées aléatoirement en 2 classes (dichotomie)
L(m,n) : nb de "vraies" dichotomies linéairement séparables : si m > n aucun sous espace engendré par n + 1 formes n'est de dimension
n - 1. si m n aucun sous espace de dimension m - 2 ne contient les m formes.
P(m,n) : probabilité qu'une dichotomie soit linéairement séparable.
n im
m
nm siC
nm si nmL
0 1
2),(
P m n
m n
C m nmmi
n( , )
1
211
0
si
si
0 2 4
n1
10
m/n+1
P(m,n)
0.5
1
Propriétés Théorème de convergence du perceptron (Novikov 1962)
Apprentissage Statistique - P. Gallinari31
Si ∃ :∀ , R
les données peuvent être séparées avec une marge , i.e. supmin .
l'ensemble d'apprentissage est présenté au perceptron un nombre suffisant de fois
Alors après au plus corrections, l'algorithme converge
Propriétés Borne sur l'erreur de généralisation (Aizerman et al. 1964)
Apprentissage Statistique - P. Gallinari32
Si les données sont séparables elles sont en nombre infini règle arrêt : après la kème correction, les
données présentées sont reconnues correctement
alors
le perceptron converge en l / /
étapes avec une probabilité 1 , l'erreur de test est <
Overtraining / généralisation en regression
Apprentissage Statistique - P. Gallinari33
Exemple (Bishop 06)
Necessité de controler lors de l’apprentissage la complexité des modèles Techniques de régularisation
Algorithmes d'apprentissage numérique
Apprentissage Statistique - P. Gallinari34
Il existe un grand nombre d’algorithmes et de familles d’algorithmes pour les différents problèmes génériques abordés en apprentissage
Il existe de nombreuses implémentations sous forme de programmes dédiés ou de logiciels plus généralistes
Quelques exemples populaires Données statiques
Supervisé Réseaux de neurones Arbres décision / régression, random forest Fonctions noyau, machines à vecteurs supports Nombreux modèles pour l’estimation de densité paramétrique, non paramétrique
Non supervisé Modèles à variables latentes
Modèles latents probabilistes Factorisation matricielle
Données structurées Séquences
Réseaux de neurones récurrents, modèles Markoviens Arbres et graphes
Modèles relationnels
Formalisation du problème de l'apprentissage
Formalisme probabiliste
Apprentissage Statistique - P. Gallinari36
Données vecteurs aléatoires générés suivant une densité
Machine d’apprentissage avec les paramètres du modèle à valeur dans un
espace réel Coût pour la machine et l’exemple
Risque théorique
Solution optimale ∗
Apprentissage à partir d'exemples
Apprentissage Statistique - P. Gallinari37
Données ..
Risque empirique ∑
Principe inductif Le principe inductif défini le processus d'apprentissage Exemple : Minimisation du risque empirique
La fonction ∗ qui minimise le risque théorique est approximée par qui optimise le risque empirique C’est le principe que l’on utilise dans une grande partie du cours
Est-ce un bon principe ? Propriété de généralisation ?
Problèmes d'apprentissage : exemples
Apprentissage Statistique - P. Gallinari38
Discrimination , , ∈ 0,1 ensemble des fonctions à seuil R : probabilité de mauvaise classification C : fréquence des erreurs
Régression , , ∈R un ensemble de fonctions réelles R : espérance des erreurs quadratiques C : somme des erreurs quadratiques
Estimation de densité
ensemble de fonctions réelles R : espérance C : vraisemblance
0si 1sinon
Apprentissage supervisé
Préliminaires : gradient, regression, regression logistiqueModèles discriminantsRéseaux de neurones
Machines à noyaux
Apprentissage supervisé
Optimisation par gradientRegression
Regression logistique
Apprentissage Statistique - P. Gallinari41
L’apprentissage supervisé recouvre un ensemble de problèmes génériques Regression Classification Ranking …
Dans le première partie du cours on examine des problèmes de régression et de classification
OptimisationAlgorithmes de gradient
Apprentissage Statistique - P. Gallinari42
Objectif Optimiser une fonction de coût C(w) dépendant de paramètres w Principe :
Initialiser w Itérer jusqu’à convergence
1 la direction de descente D, le pas de gradient sont déterminés à partir
d'informations locales sur la fonction de coût C(w), i.e. approximations au 1er ou 2nd ordre.
Exemple :
Gradient de la plus grande pente (batch)Ensemble d’apprentissage
, , … , ,
Initialiser Itérer
1 t)Critère d’arrêtAvec ∑
Autres procédures de minimisation basées sur le gradient
Apprentissage Statistique - P. Gallinari43
Approximation quadratique locale de la fonction à optimiser (on approxime C par une parabole)
Avec H le Hessien de C(.) :
En différentiant par rapport à w
On cherche le minimum de C
Méthode de Newton
Trop couteux en pratique (O(n3) pour l’inverse, + dérivées partielles)
)()(21)()()()( 00000 wwHwwwCwwwCwC TT
0)( wC
)( 01
0 wCHww
)()()( 00 wwHwCwC
Apprentissage Statistique - P. Gallinari44
En pratique on utilise des gradients du 1er ordre ou des approximations du 2nd ordre
Exemple approximation du 2nd ordre : Méthodes de quasi-Newton : approximation de H-1
itérativement. Forme générale :
H' : approximation de sans calculer les dérivées secondes
))(),(,,,'('')('
001
00
wCwCwwHFHHwCHww
ttt
t
Regression
Apprentissage Statistique - P. Gallinari45
Regression simple Objectif : prédire une fonction réelle Ensemble d’apprentissage
, , … , , ∈ , ∈ : regression simple
Modèle linéaire . ∑ avec 1
Fonction de coût Moindres carrés
∑ .
Gradient de la plus grande pente , , …,
∑ . ∑ .
∑ .
Regression
Apprentissage Statistique - P. Gallinari46
Géométrie des moindres carrés
0
5
10
15
20
0
50
100
150
200
0 2 4 6 8 10 12 14 16 18 20
Regression multi-variée
Apprentissage Statistique - P. Gallinari47
Le modèle s’étend directement au cas où On a alors p regressions linéaires indépendantes L’algorithme est identique
Interprétation probabiliste
Apprentissage Statistique - P. Gallinari48
Modèle statistique de la regression . , où est une v.a. qui modélise l’erreur
On suppose que est une v.a. i.i.d. gaussienne ~ 0, , exp
La distribution a posteriori de d est alors | ; exp .
Vraisemblance ∏ | ;
C’est une fonction de w, calculée pour un ensemble de données, ici les données d’apprentissage
Principe du maximum de vraisemblance Choisir le paramètre qui maximise ou toute fonction croissante de
on va maximiser la log vraisemblance qui donne des calculs plus simples
∑ . On retrouve le critère des moindres carrés
Sous les hyp. précédentes, on a une interprétation probabiliste de la régression
Regression logistique
Apprentissage Statistique - P. Gallinari49
La regression linéaire peut être utilisée pour des problèmes de regression ou de classification
Un modèle mieux adapté pour la classification (avec des sorties binaires) est celui de la régression logistique
..
Fonction logistique La fonction
est appelée fonction logistique ou
sigmoide
hint 1
0
0,2
0,4
0,6
0,8
1
-5 -4 -3 -2 -1 0 1 2 3 4 5
sigmoid
Regression logistiqueInterprétation probabiliste
Apprentissage Statistique - P. Gallinari50
Comme ∈ 0,1 , on va faire l’hypothèse d’une distribution conditionnelle de Bernouilli
1 ; et 0 ; 1 En plus compact
; 1 avec ∈ 0,1
Vraisemblance
∏ 1
Log-vraisemblance ∑ 1 log 1
Gradient de la plus grande pente
∑
∑ Algorithme
∑
Regression logistique multivariée
Apprentissage Statistique - P. Gallinari51
On suppose que l’on a un problème de classification à plusieurs classes 1…p On les code suivant la fonction indicatrice suivante
Classe 1: 1,0, … , 0 Classe 2 : 0,1, … , 0 … Classe 1: 0,0, … , 1 On a un vecteur de sorties à p dimensions – codage “one out of p”
La fonction est une fonction vectorielle à p dimensions La composante i sera une fonction softmax
.
∑ .
Attention : ici ∈ est un vecteur
Le modèle probabiliste sous jacent est un modèle multinomial pour les densitésconditionnelles
; = .∑ .
Algorithme d’apprentissage Comme précédement on peut utiliser un algorithme de gradient pour maximiser la log
vraisemblance
Apprentissage supervisé
Réseaux de neurones
Réseau de neurone - description informelle
Apprentissage Statistique - P. Gallinari53
Caractéristiques
Ensemble d’éléments simples interconnectés Echange d'information au moyen des connexions Calcul/ mémoire distribués
Apports pluridisciplinaires
Apprentissage Statistique - P. Gallinari54
Domaines Neurosciences Sciences cognitive (AI, psychologie, linguistique) Informatique Maths Physique
Buts Modélisation (neurophysiologie, biologie.....) Modèle de calcul (applications, computational theory,
apprentissage...)
Fondements biologiques
Apprentissage Statistique - P. Gallinari55
Le neurone Soma Arbre des dendrites Axone Flot d'information
axone : impulsions électriques dendrites : transmission chimique avec le soma via synapses
Synapses contact : émission - réception Poids synaptique = modulation de l'information transmise vers
le soma. Comportement du neurone + mémoire ?
Exemple : réseau linéaire
Apprentissage Statistique - P. Gallinari56
Etat (cellule) = ΣcellulesW incident*état(cellules incidentes )
Apprentissage Dynamique Caractéristiques :
Architecture : interconnexion + définition unités Algorithmes : apprentissage + dynamique
Visible units Hidden units
SIGNAL DECISIONW
W
WW
W
WW
WW
1
2
3
4
5
6
78
9
Visible units
Neurones et Types de neurones
Apprentissage Statistique - P. Gallinari57
Composants du neurone
Apprentissage Statistique - P. Gallinari58
Historique rapide des réseaux de neurones
Apprentissage Statistique - P. Gallinari59
43 Mc Culloch & Pitts : neurone formel "A logical calculus of the ideas immanent in nervous activities"
40 – 45 Wiener (USA) Kolmogorov (URSS) Türing (UK) Théorie de l'estimation et de la prédiction (contrôle batteries
anti-aeriennes) Boucle de rétro-action
Apprentissage Statistique - P. Gallinari60
48 – 50 Von Neuman : réseaux d'automates 49 Hebb : apprentissage dans les réseaux d'automates 55 – 60 Rosenblatt : Perceptron Widrow - Hoff : Adaline
70 – 80 Mémoires associatives, ART, SOM ... 90 – 95 Réseaux non linéaires
Réseaux de Hopfield, Machine de Boltzmann Perceptron multicouches ...
2006 - .. Deep neural networks, restricted Boltzmann machines,… Representation learning
Optimisation dans les RNAlgorithmes de gradient
Apprentissage Statistique - P. Gallinari61
Principe : 1 la direction de descente D, le pas de gradient sont déterminés à
partir d'informations locales sur la fonction de coût C(w), i.e. approximations au 1er ou 2nd ordre.
Exemples :
Plus grande pente (batch) Initialiser Itérer
1 t)Critère d’arrêtAvec ∑
Gradient adaptatif (on line – stochasticgradient)
initialiserIterer
choisir un exemple 1
Critère d’arrêt
Le neurone formel
Apprentissage Statistique - P. Gallinari62
C'est un automate caractérisé par l’espace des signaux d'entrée , … , ∈
une fonction de transition
Fonctions de transition Historiquement, fonction à seuil (Neurone formel de McCulloch et Pitts) En pratique on utilise des fonctions différentiables
Soit ∑ , on considère des fonctions de la forme Fonction identité g
Fonction sigmoïde g
Fonction tangente hyperbolique g
On verra par la suite d’autres fonctions de transition
x2
x1
xn
y = F(x)
Gradient stochastique et Adaline
Apprentissage Statistique - P. Gallinari63
On suppose que l’on est dans un contexte « en ligne » Les données arrivent et sont traitées séquentiellement Les paramètres sont modifiés pour chaque donnée Gradient stochastique (Robbins-Monro, 1951), popularisé pour
les réseaux de neurones par (Widrow et Hoff, 195X)
Que l’on compare avec l’algorithme batch
Gradient adaptatif (on line – stochasticgradient)
InitialiserIterer
choisir un exemple1
Critère d’arrêt
Plus grande pente (batch)
Avec ∑
Initialiser Itérer
1 t)Critère d’arrêt
Adaline
Apprentissage Statistique - P. Gallinari64
Neurone linéaire Risque empirique : moindres carrés
∑ .
Adaline : règle de Widrow-Hoff
Apprentissage Statistique - P. Gallinari65
x(t) est l'exemple présenté à l'instant t, le gradient est calculé sur le coût local
A comparer avec le gradient classique qui calcule le gradient sur le risque empirique
initialiser 0Iterer
choisir un exemple 1 .
Critère d’arrêt
Plus grande penteinitialiser 0Iterer
1 ∑ .Critère d’arrêt
Apprentissage Statistique - P. Gallinari66
Apprentissage hors ligne vs apprentissage adaptatif
ck erreur sur la forme k de l'ensemble d'apprentissage
Gradient sur C Gradient adaptatif sur c
Q qk
W W
k
kcN
C 1
Optimisation dans les RNAlgorithmes de gradient
Apprentissage Statistique - P. Gallinari67
Les algorithmes d’optimisation pour les réseaux de neurones utilisent souvent ces techniques simples de gradient stochastique
Raisons Historique Complexité et taille de données Ces méthodes sont devenues populaires également pour de
nombreux autres modèles (complexité) Ils exploitent bien la redondance présente dans les données Bien adaptés aux grandes dimensions
En pratique utilisation d’algorithmes « mini-batch » À chaque itération on considère un petit sous ensemble des données
Perceptron Multicouches
Apprentissage Statistique - P. Gallinari68
Réseau avec : des couches externes: entrée et sortie des couches internes dites cachées Les cellules sur les couches internes et la couche de sortie
sont des fonctions sigmoïdes ou tangente hyperbolique.
y
x
Input
Output
hidden layers
d
Perceptron Multicouches
Apprentissage Statistique - P. Gallinari69
Les exemples sont présentés séquentiellement Inférence : passe avant Pour chaque exemple on calcule la sortie
Apprentissage : passe arrière On calcule l’erreur entre sortie désirée et sortie
calculée. On propage cette erreur pour calculer le gradient des poids du
réseau
Apprentissage Statistique - P. Gallinari70
Notations vecteur activation de la couche i
activation du neurone j de la couche i
matrice de poids de la couche i à la couche i+1
poids de la cellule k sur la couche i à la cellule j sur la couche i+1 vecteur de sortie
1 1
Inférence : passe avant
Apprentissage Statistique - P. Gallinari71
Pour un exemple x On calcule en parallèle les activités de la couche de neurones 1 puis )
Avec ,
On utilise les sorties de la couche 1 comme entrées de la couche 2 et on calcule en parallèle les activités de la couche 2
puis )
1 1
Apprentissage : passe arrière
Apprentissage Statistique - P. Gallinari72
On décrit l’algorithme dans le cas d’une fonction de coût moindre carrés
On présente un exemple , , ∈ , d ∈ On calcule la sortie , ∈
Calculer l’erreur , … , Rétropropager cette erreur de la couche de sortie vers la
couche d’entrée : ∆ mise à jour des poids par sgd
∆ gradient pour C’est cette quantité « » que l’on va rétropropager
2 ′ si i est une cellule de sortie
∑ ′ si i n’est pas une cellule de sortie
Apprentissage Statistique - P. Gallinari73
Remarques Comme pour la passe avant, on modifie tous les poids d’une
couche en parallèle C’est une implémentation particulière de l’algorithme du
gradient stochastique qui évite de dupliquer les calculs Elle peut être adaptée à toute fonction différentiable Fonctions de coût
Pour des tâches de regression : LMSE Pour des tâches de classification, différentes fonctions employées Entropie croisée Hinge, logistique (cf slide suivant)
Fonctions de coût Différentes fonctions de coût sont
utilisées, suivant les problèmes, oules modèles
LMSE Regression
Souvent utilisé en classification
Classification, Hinge, logistique Classification Exemples
∈ , ∈ 1,1 Hinge, logistique sont ici des
approximations de l’erreur de classification
Apprentissage Statistique - P. Gallinari74
Figure from Bishop 2006
En abscisse : . (marge)
, | |, 1 . max 0,1 .
, ln 1 exp .
Contrôle de la complexité
Apprentissage Statistique - P. Gallinari75
En pratique, on n’optimise jamais le risque empirique seul On optimise le risque tout en controlant la complexité
cf partie théorique du cours Nombreuses méthodes
Régularisation (Hadamard …Tikhonov) Théorie des problèmes mal posés
Minimisation du risque structurel (Vapnik) Estimateurs algébriques de l’erreur de généralisation (AIC, BIC, LOO,
etc) Apprentissage bayesien
Fournit une interprétation statistique de la régularisation Le terme de régularisation apparait comme un a priori sur les paramètres du
modèle Méthodes d’ensembles
Boosting, bagging, etc ….
Regularisation
Apprentissage Statistique - P. Gallinari76
Hadamard Un problème est bien posé si
Il existe une solution Elle est unique La solution est stable
Exemple de problème mal posé (Goutte 1997)
Tikhonov Propose des méthodes pour transformer un problème mal posé en problème
bien posé
Régularisation
Apprentissage Statistique - P. Gallinari77
Principe: Contrôler la variance de la solution en contraignant la fonctionnelle F Optimiser C = C1 + C2(F) C est un compromis entre
C1 : mesure du but poursuivi e.g. MSE, Entropie, ... C2 : contraintes sur la forme de la solution (e.g. distribution des poids)
: poids de la contrainte Moindres carrés régularisés
On reprend le cas de la regression linéaire simple
∑ . ∑ 2 régularisation , 1 régularisation connu aussi sous le nom de « Lasso »
Fig. from Bishop 2006
Apprentissage Statistique - P. Gallinari78
Résoudre ∑ . ∑
Revient à résoudre le problème d’optimisation sous contrainte ∑ .
Sous contrainte ∑ s pour une certaine valeur de s
Effet de cette contrainte
Fig. from Bishop 2006
Régularisation empirique pour les réseaux de neurones
Apprentissage Statistique - P. Gallinari79
∑ biaise la solution en diminuant les poids inutiles
∑ 2 groupes de poids autour de c
∑ 1 ∑ cellules cachées h + poids
Utiliser des contraintes différentes suivant le rôle des poids Problème : détermination des "hyper-paramètres"
Autres idées pour le problème de la généralisation dans les réseaux de neurones
Apprentissage Statistique - P. Gallinari80
Arrêt de l'apprentissage Elagage : tuer les paramètres inutiles dans un réseau.
Différentes mesures d'utilité ont été proposées Bruiter les entrées (Matsuoka 1992 ; Grandvallet et Canu 1994
; Bishop 1994) Réseaux à convolution
Exemple (Cibas et al, 95, 96)
Apprentissage Statistique - P. Gallinari81
Discriminer entre trois classes de "formes d’onde". Les trois formes de base pour la génération des formes d'onde :
3 classes C1, C2, C3 engendrées respectivement par :
u v. a. de densité uniforme sur [0,1], ~ N(0,I), Classes équiprobables Apprentissage = 10 ensembles disjoints, chacun de 300 exemples Test = 5000 exemples Algorithme : Rétropropagation
1 5 9 13 17 21
6 6 6
h 3
h 2h 1
26)(1
10)(1
2)(1
32
31
21
huuhx
huuhx
huuhx
Evolution des performances pendant l'apprentissage
Apprentissage Statistique - P. Gallinari82
Sans régularisation
Figure 1 a (left), b (right): evolution of the performances (mean square error) duringtraining for MLPs with a varying number of hidden units. (a) corresponds to a stochastic gradient descent and (b) to a conjugate gardient. Each curve corresponds to a two weight layer MLP, the number on the curve gives the size of the hiddenlayer.
0
5
10
15
35
60
5
10
15
3560
Evolution des performances pendant l'apprentissage
Apprentissage Statistique - P. Gallinari83
Avec régularisation
Comparaison de l’erreur en apprentissage (a) et en généralisation (b) pour les réseaux h=15 et h=60 en minimisant le coût ordinaire sans terme de régularisation (...-ord) et le coût avec la régularisation: avec détermination des paramètres à priori (...-WD) et en les estimant pendant l’apprentissage (...-estim)
h=60-WD
h=15-estim
h=60-estimh=15-ord
h=60-ord
h=60-ord
h=15-ord
h=15-estimh=60-estimh=60-WD
Fonctions à Base Radiale
Apprentissage Statistique - P. Gallinari84
Réseau à deux couches Notations
wi. = poids vers la cellule i, xi sortie de la cellule i, x entrée
Risque : moindres carrés
Couche de sortie
g = IdCouche intermédiaire
y
x
j jj xwwA 0
2wxA
2)( A
eAg
2
.0)( jj ijiii wxgwwxGy
La fonction sigmoïde
Apprentissage Statistique - P. Gallinari85
Distribution de la famille exponentielle :
, : paramètres de la loi, ( paramètre de position , paramètre de dispersion).
Ex. de distributions exponentielles : normale, gamma, binomiale, poisson, hypergéométrique ...
Hypothèse : la distribution des données conditionnellement à chaque classe est de la famille exponentielle, avec un paramètre de dispersion identique pour toutes les classes i.e. :
Alors
)),()())/(((),,( xcabxxp T exp
)),()())/((()/( xcabxCxp iT
ii exp
)(1
1)/(bxwi T
exCP
Capacités d'approximation des PMC
Apprentissage Statistique - P. Gallinari86
Résultats basés sur les théorèmes d'approximation de l'analyse fonctionnelle. (Cybenko (1989))
Théorème 1 (regression): Soit f une fonction saturante continue, alors l'espace des fonctions de la forme ∑ . . est dense dans l’espace des fonctions continues sur le cube unité C(I). i.e. ∀ ∈ ∀ 0, ∃ ∶ sur I
Théorème 2 (classification): Soit f une fonction saturante continue. Soit F une fonction de décision définissant une partition de I. Alors ∀ 0, il existe une fonction de la forme ∑ . . et un ensemble ⊂ tel que 1 (D)
sur D .
(Hornik et al., 1989) Théorème 3 : Pour toute fonction saturante croissante f, et toute mesure de
probabilité m sur , l'espace des fonctions de la forme ∑ . .est uniformément dense sur les compacts de - espace des fonctions continues sur
Apprentissage Statistique - P. Gallinari87
Fonctions radiales (Park & Sandberg, 1993) Théorème 4 : Si f, fonction réelle définie sur Rn est intégrable,
alors l'espace des fonctions de la forme :
est dense dans L1(Rn) ssi .
Nj
j
jj
wxfvxg 1
. )(.)(
nR
dxxf 0)(
Apprentissage Statistique - P. Gallinari88
Résultats basés sur le théorème de Kolmogorov Théorème sur la représentation (exacte) des fonctions réelles de Kolmogorov
Toute fonction h de C(I) peut s'écrire sous la forme
où les fonctions g et f sont des fonctions continues d'une variable.
Théorème 6 (Kurkova 1992) Soit h dans C(I), n 2 et R+, alors quelquesoit m vérifiant
m = 2n + 1n/(m-n) + v < / ||h||h(1/m) < v(m - n)/(2m - 3n)v > 0
h peut être approximée à une précision par un perceptron possédant deux couches cachées de fonctions saturantes et dont les sorties sont linéaires. La première couche comprend n.m(m+1) unités et la seconde m2(m+1)n. Les poids sont universels sauf ceux de la dernière couche, pour toutes les fonctions f vérifiant :
f(d)= sup{|f(x1, ..., xn) - f(y1, ..., yn)|, x, y I et |xp - yp| < p}.
))((),...,( 121 11
nq
np ppqqn xfgxxh
Interprétation probabiliste des sorties
Apprentissage Statistique - P. Gallinari89
Risque théorique
Le min de R est obtenu pour ∗ | Coût théorique C pour la famille de fonction
C ,
C , ,
∗ | est bien la solution optimale Dans l’espace des hypothèses, w* / R(w*) = Minw C minimise
simultanément :
, LMSE
, meilleure approximation LMS de |
Apprentissage Statistique - P. Gallinari90
Cas de la Classification d = (0,…, 0, 1, 0, …, 0) avec un 1 en ième position si classe i
∗
i.e. ∗ meilleure approximation LMS de la fonction discriminante de Bayes (solution optimale).
de façon générale avec des sorties binaires ∗ 1
Coût : di =ij pour x Cj, = coût de la décision i quand la classe est j hi* est le risque conditionnel de la décision i Décision : sortie la plus faible.
L’importance de la précision sur les sorties dépend de l'utilisation (classification OU estimation de probabilité conditionnelle).
)/(]/[ 1 xjPxdE mj iji
Apprentissage supervisé
Machines à noyaux
Introduction
Apprentissage Statistique - P. Gallinari92
Familles de machines d'apprentissage générales qui exploitent l'idée suivante : Projeter les données dans un espace de grande dimension -
éventuellement infini -où le problème sera facile à traiter Utiliser des "projections" non linéaires permettant des calculs
"efficaces"
Exemples : Machines à Vecteurs Support (généralisent : hyperplan optimal, cadre
Vapnik) Processus Gaussien (généralisent : régression logistique, cadre
Bayesien)
Perceptron : formulation duale
Apprentissage Statistique - P. Gallinari93
Perceptron primalInitialiser 0 0Répeter (t)
choisir un exemple, ,si . 0alors 1
Jusqu'à convergence
Fonction de décision
,
: nombre de fois où l’algorithme a rencontré une erreur de classification sur
Perceptron dualInitialiser , ∈Répeter (t)
choisir un exemple, ,soit :si ∑ . 0alors 1
Jusqu'à convergence
Fonction de décision
.
Matrice de Gram matrice NxN de terme i, j : .matrice de similarité entre données
Représentation DualeExemple introductif : le perceptron
Apprentissage Statistique - P. Gallinari94
Hyp : 2 classes linéairement séparables, sortie désirée d = ± 1
i : mesure de la difficulté àclassifier iFonction de décision :
G = (xi.xj)i,j = 1..N : Matrice de Gram
Perceptron Dual = 0Répeter (t)Pour i = 1 à NSi
alors i = i (t) + 1Jusqu'à convergence
Fonction de décision :
W(0) = 0
Perceptron PrimalW(0) = 0Répeter (t)Pour i = 1 à N
Si di(W(t).xi) 0alors W(t+1) = W(t) + di.xi
Jusqu'à convergence
0)(1
N
j
ijjji xxdd
n
iii xwxF
1)()( sgn
N
i
ixidi
W1
N
ixixid
ixF
1).()( sgn
Représentation Duale
Apprentissage Statistique - P. Gallinari95
La plupart des machines à apprentissage linéaires ont une représentation duale Exemples
Adaline, regression, regression ridge, etc L’information sur les données est entièrement fournie par la matrice de
Gram : . , … , qui joue un rôle central
La fonction de décision F(x) s’exprime comme une combinaison linéaire de produits scalaires entre la donnée d’entrée x et les exemples d’apprentissage
Les machines à noyau généralisent ces idées Une fonction noyau K est définie sur x (on suppose ∈ ) par
, Φ , Φoù Φ est une fonction de dans un espace muni d’un produit scalaire
Produit Scalaire et Noyaux
Apprentissage Statistique - P. Gallinari96
Projection non linéaire dans un espace de grande dimension H (en général dim H >> n, et peut même être infinie) Φ: → avec ≫
Machine linéaire dans H - Primal : ∑ Φ
Machine linéaire dans H - Dual :
Calculer les produits scalaires dans l'espace initial : choisir F /
avec K : fonction noyau (i.e. symétrique)
bxxdxFxdWNi
ii
i
Ni
ii
i
)()()( )(1..1..
)',()'().( xxKxx
bxxKdxFNi
ii
i 1..
),()(
Apprentissage Statistique - P. Gallinari97
Généralise le produit scalaire dans l'espace initial Le calcul de F ne dépend pas directement de la taille de H
: les calculs sont faits dans l'espace initial. La machine linéaire dans H peut être construite à partir
d'une fonction K sans qu'il soit nécessaire de définir explicitement : en pratique, on spécifiera directement K.
Cette idée permet d'étendre de nombreuses techniques linéaires au non linéaire: il suffit de trouver des noyaux appropriés Exemples
ACP, Analyse discriminante, regression, etc
Caractérisation des noyaux
Apprentissage Statistique - P. Gallinari98
Quand peut on utiliser cette idée ? Cas d'un espace fini Soit X = { x1,…, xN}, K(x,x') une fonction symétrique sur X, K
est une fonction noyau ssi la matrice est positive semi-définie (valeurs propres 0)
Cas général : Conditions de Mercer (noyaux de Mercer) Il existe une application et un développement
ssi est fini
Nji
ji xxK 1,)),((K
1)'(.)()',(
iii xxxxK
dxxgg 2)(/
0')'()()',( dxdxxgxgxxK
Caractérisation des noyauxEspace de Hilbert à noyau autoreproduisant Une fonction K: X*X R qui est soit continue soit définie sur un domaine fini peut
s’écrire sous la forme d’un produit scalaire :
avec Φ : x Φ(x) F espace de Hilbert
ssi c’est une fonction symétrique et toutes les matrices formées par la restriction de K à un échantillon fini sur X sont semi-définies positives).
Résultat à la base de la caractérisation effective des fonctions noyaux
Il permet de caractériser K comme un noyau sans passer par Φ C’est une formulation équivalente aux conditions de Mercer
)(),(),( zxzxK
Apprentissage Statistique - P. Gallinari99
L’espace de Hilbert associé à K :
Le produit scalaire défini sur cet espace :
l
iiiii liRXxNlxKF
1..1,,,/,.)(
l
ijj
n
jii
l
ijiji
n
j
n
jjj
l
iii
zfxgzxKgf
xKgxKf
1 11 1
11
)()(),( ,
,.)((.) ,,.)((.)Soient
Apprentissage Statistique - P. Gallinari100
Noyau auto-reproduisant
Si on prend g(.) = K(x,.), alors
)(),( ,.)(,1
xfxxKxKfl
iii
Exemples de noyaux
Apprentissage Statistique - P. Gallinari102
2 d de polynomes des ensemble ss i.e.
),)2(,).(()(/ avec )().(),(
).(),(
21n
: 2 d de monomes les tousi.e.
).()(/)( avec )().(),(
).)(.(.),(
.),(
,1,1,,
2
,1,,
1,
2
1
2
ccxxxx(x)zxzxK
czxzxK
xxxxzxzxK
zzxxzxzxK
zxzxK
niinjijiji
njijiji
n
jijiji
n
iii
Apprentissage Statistique - P. Gallinari103
Exemples de noyaux
).(
gaussien noyau exp
d ordred' polynome )1.(
),(2
cxvxSigmoïde
xx
xx
xxK
i
i
di
i
Construction des noyaux en pratique
Apprentissage Statistique - P. Gallinari104
Les résultats de Mercer servent à prouver les propriétés des fonctions noyaux. En pratique, elles sont peu utiles
Pour construire des noyaux, on procède par combinaison à partir de noyaux connus
Si K1 et K2 sont des noyaux sur X2, K3 défini sur F, les fonctions suivantes sont des noyaux : K(x, z) = K1 (x, z) + K2 (x, z) K(x, z) = K1 (x, z) . K2 (x, z)* K(x, z) = aK1 (x, z) K(x, z) = K3 (Φ(x), Φ(z)) …..
Machines à vecteurs support
Apprentissage Statistique - P. Gallinari105
Exposé du cours : discrimination 2 classes Cas général : discrimination multi-classes, régression,
densité Idées Projeter -non linéairement- les données dans un espace de
"très" grande taille H Faire une séparation linéaire de bonne qualité dans cet espace Raisonner dans H, mais résoudre le problème d'optimisation
dans l'espace de départ (noyaux)
Apprentissage Statistique - P. Gallinari106
Notion de marge
WxF )(
W
Wb
H : F(x) = W.x + b = 0
Marge géométrique pour xi :
Marge de W pr à ens. D :Mini(M(xi))
Hyperplan de marge maximale :
MaxW(Mini(M(xi)))
)()(Wbx
WWdxM iii
Marge géométrique vs marge fonctionnelle
Apprentissage Statistique - P. Gallinari107
Marge géométrique di.F(xi)/||w||
Marge fonctionnelle di.F(xi)
Remplacer w par k.w ne change pas la fonction de décision ou la marge géométrique, mais change la marge fonctionnelle.
Pour les SVM, on fixera la marge fonctionnelle à 1 et on optimisera la marge géométrique.
Prémisses : Séparation linéaire à hyperplan optimal (1974)
Apprentissage Statistique - P. Gallinari108
Hyp : D linéairement séparable
Fonction de décision : F(x) = W.x + b Pb apprentissage : trouver l'hyperplan optimal H* qui sépare D i.e.
di.F(xi) 1 , i
avec une marge maximale M =
i.e. : Problème Primal :
1 avec , 1.. i
Niii ddxD
wwxFd ii
i
1)(.min
1)(...
Minimiser 2
ii xFdCS
W
Apprentissage Statistique - P. Gallinari109
Solution : W* dépend uniquement des points supports i.e. points sur la marge qui vérifient : di.F*(xi) = 1
Rq: Quelque soit la dimension de l'espace, le nombre de degrés de liberté est "égal" au nombre de points de support
F* dépend uniquement du produit scalaire xi.x
support support
i i .x)(* x*i i
ii
ii xdxFdw
Marge
Vecteurs Supports
Apprentissage Statistique - P. Gallinari110
Apprentissage :
On résoud le problème d'optimisation dit dual :
Problème minimisation quadratique sous contraintes
0et 0.
.)( Maximiser
ii
,
ii
ji
jjji
ii
dCS
xxddL ii
Machines à vecteurs supports
Apprentissage Statistique - P. Gallinari111
Faire une séparation à marge max. dans un espace défini par une fonction noyau.
Tous les résultats sur le classifieur linéaire à marge max. se transposent en remplaçant par .xxi ),( xxK i
bxxKdxF
xxKxx
bxxdxFxdW
RR
SVx
ii
i
SVx SVx
ii
iii
i
pn
i
i i
..
.. ..
),()(
)',()'().(
)()()( )(
:
Apprentissage Statistique - P. Gallinari112
Apprentissage : On résoud le problème d'optimisation dual :
Problème minimisation quadratique sous contraintes dans l ’espace de départ
Difficile en pratique : différents algorithmes. Dans la solution optimale i > 0 uniquement pour les points
support. Seuls les produits scalaires K apparaissent, et pas les .
0et 0.
),()( Maximiser
ii
,
ii
ji
jijiji
ii
dCS
xxKddL
Propriétés de généralisation -exemples
Apprentissage Statistique - P. Gallinari113
Th 1 peu de points support meilleure généralisation indépendant de la taille de l'espace de départ
Th 2 Si l'hyperplan optimal passe par l'origine et a pour marge
Alors
Dans les 2 cas, E[P()] est l'espérance sur tous les ensembles de taille l-1, et E[membre droit] est l'espérance sur tous les ensembles d'apprentissage de taille l (leave one out).
1ageapprentissexemples#supports]vecteurs[#))](([
ExerreurPE
qxNiq i ,1../
N
][))](([
2
2
qExerreurPE
Cas non linéairement séparable
Apprentissage Statistique - P. Gallinari114
Marges molles
L'algorithme est instable Dans les cas non linéairement séparables Dans le cas de données réelles même linéairement séparables Solution adoptée en pratique
autoriser des erreurs, i.e. prendre pour contraintes :
ηi = 0, xi est correctement classifié et est du bon coté de la marge
0 < ηi <= 1, xi est correctement classifié, est à l’intérieur de la marge
ηi > 1, xi est mal classé
ηi : slack variable
0
1))(.(
i
iii bxWd
But Maximiser la marge tout en pénalisant les points qui sont mal classés
Formalisation Plusieurs expressions possibles du problème L’une des plus courantes :
C fixé par validation croisée joue le rôle de paramètre de régularisationNiNibxwd
CS
CwwMin
ii
N
i
..1,0 ..1,1).(
..
marge) lamax (i.e. ).(
i
i
1
i
Apprentissage Statistique - P. Gallinari115
Marges molles – formulation duale
0et 0.
),()( Maximiser
ii
,
ii
ji
jijiji
ii
dCCS
xxKddL
Apprentissage Statistique - P. Gallinari116
Algorithmes d’optimisation Algorithmes d’optimisation standard pour la programmation
quadratique sous contrainte e.g. Sequential Minimal Optimization (SMO)
Algorithmes stochastiques - SVM Results –(Bottou 2007) Task : Document classification - RCV1 documents belonging to the class
CCAT (2 classes classification task) Programs SVMLight and SVMPerf are well known SVM solvers written by Thorsten Joachims.
SVMLight is suitable for SVMs with arbitrary kernels. Similar results could be achieved using Chih-Jen Lin‘s LibSVM software. SVMPerf is a specialized solver for linear SVMs. It is considered to be one of the most efficient optimizer for this particular problem.
Algorithm (hinge loss) Training Time Primal cost Test Error
SVMLight 23642 secs 0.2275 6.02%
SVMPerf 66 secs 0.2278 6.03%
Stochastic Gradient (svmsgd) 1.4 secs 0.2275 6.02%
Stochastic Gradient (svmsgd2 1.4 secs 0.2275 6.01%Apprentissage Statistique - P. Gallinari117
Annexe : OptimisationProblèmes sous contraintes égalités, inégalités
Soient f, gi, i = 1..k, hj, j = 1 ..n des fonctions définies sur Rn à valeur dans R On considère le problème primal suivant (Pb. 0) :
mjwhkiwg
RwwfMin
j
i
n
..1,0)(..1,0)(
sContrainte Sous )),((
Apprentissage Statistique - P. Gallinari118
Optimisation non contrainte Fermat
Une C.N. pour que w* soit un min. de f(w) est
Si f est convexe c’est une Condition Suffisante
F est convexe si ∀ ∈ 0,1 , 1 1
0*)(
wwf
Apprentissage Statistique - P. Gallinari119
OptimisationLagrangien
On considère le (Pb. 1) :
On définit le Lagrangien L pour (Pb. 1) par
les βi sont les coefficients de Lagrange
mjwhCS
RwwfMin
j
n
..1,0)( ..
)),((
m
ijj whwfwL
1)()(),(
Apprentissage Statistique - P. Gallinari120
OptimisationTh. Lagrange
Une CN pour que w*, * soit solution de (Pb. 1) est que en ce point
Si L(w, *) est une fonction convexe de w, c’est une C.S.
0*)*,(
0*)*,(
wLw
wL
Apprentissage Statistique - P. Gallinari121
OptimisationLagrangien augmenté De même, on définit le Lagrangien augmenté pour (Pb. 0) :
m
jjj
k
iii whwgwfwL
11
)()()(),(
OptimisationTh. Kuhn et Tucker
On considère (Pb. 0) avec Ω convexe et f C1 convexe, gi, hj affines (hi = A.w – b)
1 CNS pour que w* soit un optimum est qu’il existe α* et β* /
kikiwg
kiwg
wLw
wL
i
i
ii
..1,0*..1,0*)(
..1,0*)(*
0*)*,*,(
0*)*,*,(
Apprentissage Statistique - P. Gallinari123
Rq :
Soit une contrainte est active (αi* ≠ 0) et gi(w*) = 0), w* est un point frontière de la région admissible
Soit elle est inactive ((αi* = 0) et w* est dans la région admissible
Formulation duale du problème d’optimisation Le (Pb. 0 _ formulation primale) est équivalent à la forme duale
suivante :
Rq : est une fonction de , uniquement
0 S.C.
)),,(inf ( Maximiser ,
wLw
Apprentissage Statistique - P. Gallinari124
),,(inf wLw
SVM – formulations primale et duale SVM
Ω, f, contraintes sont convexes, L est quadratique On étudie le cas, D = {(xi ,di)}i = 1..N linéairement séparables
Formulation similaire pour le cas non linéairement séparable
Pb. Primal
Lagrangien primal
Lagrangien dual
Nibxwd
CSwwMin
ii ..1,1).(
.. marge) lamax (i.e. ).(
Apprentissage Statistique - P. Gallinari125
0
)1).((.21),,(
1
i
N
i
iii bxwdwwbwL
N
i
jiji
jiN
ii xxddbwL
11).(
21),,(
SVM – formulations primale et duale Pb. Dual
Fonction de décision
Ni
d
CS
xxddbwL
i
N
ii
i
N
i
jiji
jiN
ii
..1,0
0
..
).(21),,(
1
11
VSi
ii
i bxxdxF.
*).(**)*,,(
Apprentissage Statistique - P. Gallinari126
Apprentissage non supervisé
Algorithme EM et mélange de densités
Probabilistic Latent Semantic Analysis
Latent Dirichlet Allocation
Spectral clustering
Non Negative Matrix Factorization
Applications
Apprentissage Statistique - P. Gallinari128
analyse des données quand il n'y a pas de connaissance sur la classe. e.g. pas d'étiquetage des données (problème nouveau)
trop de données ou étiquetage trop compliqué e.g. traces utilisateur (web), documents web, parole, etc
réduction de la quantité d'information e.g. quantification
découverte de régularités sur les données ou de similarités.
Apprentissage non superviséAlgorithme Espérance Maximisation (EM)
Application aux mélanges de densités
Algorithme E. M. (Espérance Maximisation)
Apprentissage Statistique - P. Gallinari130
On dispose de données D = {xi}i = 1..N
On n’a pas d’étiquette di
d’un modèle génératif, de paramètres W : FW Le modèle « explique » la génération des données
On veut trouver les paramètres du modèle qui expliquent au mieux lagénération des données
On se donne un critère Ici on considère la vraisemblance des données qui est le critère le plus
fréquent P(D| W) = P(x1, …, xN| W)
D’autres critères sont également couramment utilisés On va essayer de déterminer les paramètres W de façon à maximiser la
vraisemblance
Exemple
On recueille des données sur deux populations e.g. taille d’individus D = {xi}i = 1..N
Hypothèse les données de chaque population sont gaussiennes Elles ont la même variance 2
Problème estimer les i et les à partir des données Si les di sont connus, i.e. D = {(xi, di}i = 1..N la solution est simple
On a deux population séparées (2 classes) C1, C2
La maximisation de la vraisemblance donne l’estimateur classique de la moyenne
Difficulté : les di sont inconnus
),(),,( 22
21 IdNIdN
Apprentissage Statistique - P. Gallinari131
ji Cx
i
jj x
C1
Cas où l’appartenance est connue
Apprentissage Statistique - P. Gallinari132
Vraisemblance ∏ |∈ ∏ |∈
En pratique on maximise la log-vraisemblance log ∑ ∑ ∈∈
Cas des gaussiennes
exp
0 ⇔| |
∑ ∈
Cas où la probabilité d’appartenance est connue
Apprentissage Statistique - P. Gallinari133
On connait | ,k 1,2
Log-vraisemblance log ∑ log
Cas des gaussiennes
0 ⇔∑ .
∑ |
Rq : si on ne connait les | ,k 1,2 leséquationsformentunsystèmenonlinéairecouplé,insoluble.
Variables cachées (ou latentes)
Apprentissage Statistique - P. Gallinari134
On postule l’existence de variables cachées h responsables de la
génération des données À chaque xi, on associe sa classe cachée hi
H = {hi}I = 1..N
l’existence d’une fonction densité jointe sur les données observées et cachées p(x, h)
P(D, H| W) sera appelé vraisemblance complète des données pour le modèle W.
Remarque Les variables h sont inconnues et sont considérées comme des
variables aléatoires P(D, H| W) sera elle même une variable aléatoire
Algorithme EM On veut maximiser P(D/W)à partir de l'observation des données visibles
Problème
la maximisation directe de P(D/W) ne conduit pas à des formules calculatoires (algorithme)
Solution : on maximise de façon itérative une fonction auxiliaire Q
L’espérance de la vraisemblance des données complètes connaissant le modèle courant
L’espérance est calculée par rapport à la distribution des variables cachées h
Le modèle courant à l’étape t est noté W(t)
Remarque : dans cette expression
D et W(t) sont des constantes
h est une variable aléatoire de densité p(h|x, W(t))
W est les paramètres du modèle que l’on veut estimer
H
ttt WHDpWDHpWDWHDpEWWQ )/,(log),/(,)//,(log)/( )()()(
Apprentissage Statistique - P. Gallinari135
Algorithme EM
Apprentissage Statistique - P. Gallinari136
L’algorithme converge vers un maximum local de la fonction Q et de P(D/W)
Initialiser W = W(0)
1. Etape E : EspéranceOn calculeOn en déduitL'espérance est calculée par rapport à la distribution de H
2. Etape M : MaximisationEtant donnée la distribution courante sur H, trouver les paramètres quimaximisent Q
),/( )(tWDHp)/( )(tWWQ
)(1)( ,)//,(logmaxarg t
W
t WDWHDpEW
Apprentissage Statistique - P. Gallinari137
Remarques Lors de l'étape E, on estime la distribution de H, à partir
des valeurs courantes des paramètres W(t). Au lieu d'essayer de maximiser directement, on utilise la
fonction auxiliaire Q. On peut montrer la convergence de l'algorithme par :
L'algorithme est utilisé pour les algorithmes non supervisés, semi - supervisés les données manquantes ou les composantes manquantes dans les données les HMM ...
),/( )(tWDHp
)/( WDp
)/()/()/()/( tttt WDpWDpWWQWWQ
Exemple
Apprentissage Statistique - P. Gallinari138
Mélange de densités - Cas de deux classe gaussiennes, connu But (MV) : trouver On considère , les hi sont les données
cachées Algorithme
Initialisation itérer
Etape E
Etape M
NiixD ..1)( ),/(maxarg, 2121 Dp
Niii hxHD ..1),(
calculer i = 1..N, j = 1,2)/( ii xjhp )],,/([),,,,( 212121
tttttt HDPEQ
Trouver les μ1, μ2 qui maximisent Qcalculer
Ni
Nitj i
ii
xjhp
xxjhp
..1
..1)1(
)/(
)/(
(0)2 ,)0(
1
Apprentissage Statistique - P. Gallinari139
Remarques Etape E : calcul de la responsabilité de chaque gaussienne pour
chaque point
Etape M : chaque centre est défini comme le centre de toutesles données, chacune étant pondérée par cette responsabilité
Cas limite : = 0 : algorithme des k-moyennes
k
iii
iiiii
khxpkhpjhxpjhpxjhp
)/()()/()()/(
Mélange de densités – cas gaussien
Apprentissage Statistique - P. Gallinari140
On suppose que le modèle génératif des données est un mélange de densités gaussiennes On fixe a priori le nombre de composantes du mélange à k on suppose que les données x sont unidimensionnelles
Paramètres Coefficients du mélange p(l| x), moyennes et écarts types
k
llxplpxp
1)/()()( 2
2
2)(
2/12 )2(1)/( l
lx
l
elxp
kllllpW
1..,),(
Vraisemblance
Vraisemblance complète variables cachées : hi classe de xi
N
i
k
l
i WlxpWlpWDp1 1
),/()/()/(
)),/()/((
)),/()/(()/,(
1 1
1
N
i
ik
l lh
N
i
iii
WlxpWlp
WhxpWhpWHDp
i log
loglog
Apprentissage Statistique - P. Gallinari141
Mélange de densité – Etapes E et M
Apprentissage Statistique - P. Gallinari142
Etape E
Etape M
),/()/(log),/(
),/()/,(log...)],(log[)/(
1 1
)(
1 1 1
)(,/
)(
1)(
WlxpWlpWxlp
WxhpWHDpWHDpEWWQ
iN
i
k
l
ti
k
h
k
h
N
i
tiiWXH
t
Nt
kl
tti
ttit
i Wlp(hWlhxp
Wjp(hWjhxpWxjhp
1..
)()(
)()()(
)).,/(
)),/(),/(
))1)/(((1)/( contrainte sous
)(
11
k
l
k
l
WlpQMinWlp
QMin
Mélange de densités – Reestimation dans l’étape M
Apprentissage Statistique - P. Gallinari143
i
titi
tii
tj
iti
tj
i
tii
iti
tj
WxjpN
jp
Wxjp
xWxjp
n
Wxjp
xWxjp
),/(1)(
),/(
),/(1
),/(
),/(
)()1(
)(
2)1()(2)1(
)(
)(
)1(
Apprentissage non supervisé
Mélange de densitésApprentissage par échantillonnage de Gibbs
Les méthodes MCMCMarkov Chain Monte Carlo
Apprentissage Statistique - P. Gallinari145
Méthodes de calcul intensif basées sur la simulation pour Echantillonnage de variables aléatoires
{x(t)}t=1..T qui suivent une certaine distribution p(x)
Calcul de l’espérance de fonctions suivant cette distribution
E[f(x)] sera estimé par 1/T . Σt=1..Tf(x(t))
e.g. moyenne, marginales, …
Maximisation de fonctions Argmaxxp(x)
Echantillonneur de Gibbs On veut estimer une densité p(x) avec x = (x1,..,xn) Hyp
On connait les lois conditionnelles p(xi| x1,.., xi -1, xi+1,..., xn) = p(xi| x - i)
Algorithme Initialiser {xi, i = 1..n} Pour t = 1 …T faire
)(~nner Echantillo
........
)(~nner Echantillo
1
111
1
tnn
tn
tt
xxpx
xxpx
Apprentissage Statistique - P. Gallinari146
Apprentissage Statistique - P. Gallinari147
Propriétés Sous certaines conditions de régularité, la procédure converge
vers la distribution cible p(x) Les échantillons résultants sont des échantillons de la loi jointe p(x)
On n’a pas besoin de connaitre la forme analytique des p(xi| x -i) mais uniquement de pouvoir échantillonner à partir de ces distributions Mais la forme analytique permet d’avoir de meilleurs estimés
Avant de retenir les points échantillons, on autorise souvent une période de “burn-in” pendant laquelle on fait simplement tourner l’algorithme “à vide”
Gibbs facile à implémenter, adapté aux modèles hierarchiques (cf LDA)
Cas du mélange de deux lois gaussiennes Modèle
On va considérer un modèle augmenté en ajoutant une variable cachée h Les données complètes sont les (xi, hi)
Les paramètres à estimer sont :
On va utiliser Gibbs en échantillonnant sur les densités conditionnelles Pour simplifier on suppose dans l’example que les proportions p(l) et les
variances σ sont fixées, on estime juste les moyennes μ1 et μ2
Pour cela, on va échantillonner suivant la distribution jointe (h(t), μ1(t), μ2
(t))
2
1)/()()(
llxplpxp
2..1,),( llllpW
Apprentissage Statistique - P. Gallinari148
Echantillonneur de Gibbs pour le modèle de mélange de deux gaussiennes
2,1),,ˆ(~générer 2.
2,1,)1(
).1(ˆ
calculer
2,1,),(),(
),()
selon 1,0générer 1.
1Pour 1...T Répéter t
, initiales valeursdesChoisir
j(t)j
1
)(
1
)(
j
2)1(
2)1(
21)1(
1)1(
1
)1()1(
)(
)0(2
)0(1
jN
jh
xh
jxppxpp
xppjp(h
h
...N i
j
N
i
ti
N
ii
ti
ti
tti
tj
tji
tj
i
ti
Apprentissage Statistique - P. Gallinari149
Lien avec l’algorithme EM
Apprentissage Statistique - P. Gallinari150
Les étapes pour cet exemple sont les mêmes que avec EM
Différence Au lieu de maximiser la vraisemblance, aux étapes 1 et 2, on
échantillonne Etape 1 : on simule les variables cachées h au lieu de calculer E(h|W, D) Etape 2 : on simule à partir de p(μ1, μ2|h, D) au lieu de calculer le max.
vraisemblance p(μ1, μ2| D) dans EM
Apprentissage non supervisé
Algorithmes à variables latentes Probabilistic Latent Semantic Analysis
Latent Dirichlet Allocation
Preliminaries : unigram model
Generative model of a document
Select document length Pick a word w with probability p(w) Continue until the end of the document
Applications Classification Clustering Ad-hoc retrieval (language models)
i
i dwpdp )()(
Apprentissage Statistique - P. Gallinari152
Preliminaries - Unigram model – geometric interpretation
Apprentissage Statistique - P. Gallinari153
2/1)(
4/1)(
4/1)(
3
2
1
tionrepresenta d doc
dwp
dwp
dwp
P(w1|d)
P(w3|d)
P(w2|d)
Document d
Word simplex
Latent models for document generation
Apprentissage Statistique - P. Gallinari154
Several factors influence the creation of a document (authors, topics, mood, etc). They are usually unknown
Generative statistical models Associate the factors with latent variables Identifying (learning) the latent variables allows us to uncover
(inference) complex latent structures
Probabilistic Latent Semantic Analysis -PLSA (Hofmann 99)
Apprentissage Statistique - P. Gallinari155
Motivations Several topics may be present in a document or in a document
collection Learn the topics from a training collection Applications
Identify the semantic content of documents, documents relationships, trends, …
Segment documents, ad-hoc IR, …
PLSA
Apprentissage Statistique - P. Gallinari156
The latent structure is a set of topics Each document is generated as a set of words chosen from selected
topics A latent variable z (topic) is associated to each word occurrence in the
document
Generative Process Select a document d, P(d) Iterate
Choose a latent class z, P(z|d) Generate a word w according to P(w| z)
Note : P(w| z) and P(z|d) are multinomial distributions over the V words and the T topics
PLSA - Topic
A topic is a distribution over words
Remark A topic is shared by several words A word is associated to several topics
word P(w|z)
machine 0.04
learning 0.01
information 0.09
retrieval 0.02
…… …….
Apprentissage Statistique - P. Gallinari157
P(w|z)
words
PLSA as a graphical model
Apprentissage Statistique - P. Gallinari158
z
dzPzwPdwP
dwPdPwdP
)()()(
)(*)(),(
Boxes represent repeated samplingd wz
Corpus level
Document level
P(z|d) P(w|z)
DNd
PLSA model
Apprentissage Statistique - P. Gallinari159
Hypothesis # values of z is fixed a priori Bag of words Documents are independent
No specific distribution on the documents
Conditional independence z being known, w and d are independent
Learning Maximum Likelihood : p(Doc-collection) EM algorithm and variants
PLSA - geometric interpretation
Topici is a point on the word simplex
Documents are constrained to lie on the topic simplex
Creates a bottleneck in document representation
z
dzPzwPdwP )()()(
Apprentissage Statistique - P. Gallinari160
Topic simplex
topic2
topic1
topic3w2 w1
w3
Word simplex
Document d
Applications
Apprentissage Statistique - P. Gallinari161
Thematic segmentation Creating documents hierarchies IR : PLSI model Clustering and classification Image annotation Learn and infer P(w|image)
Collaborative filtering
Note : #variants and extensions E.g. Hierarchical PLSA (see Gaussier et al.)
Latent Dirichlet Allocation - LDA (Blei et al. 2003)
Apprentissage Statistique - P. Gallinari162
LDA is also a topic model Extends PLSA
Motivations Generalization over unseen documents
Define a probabilistic model over documents Not present in PLSA
Allows to generate (model) unseen documents Overtraining
In PLSA, the number of parameters grows with the corpus size LDA constrains the distribution of topics for each document and
words for each topic
LDA - model
Apprentissage Statistique - P. Gallinari163
Similar to PLSA with the addition of a prior distribution on the topic distribution
Generative process For a document Topic distribution
Choose θ ~ Dirichlet () a distribution over topics
Words For each document word w Choose a topic z ~ multinomial (θ) Choose a word w from p(w | θ, ) multinomial probability conditioned on
topic z
LDA - model
Apprentissage Statistique - P. Gallinari164
ddzwpzpppWp
zwpzpppWZp
d
i
d
N
i ziii
N
iiii
1
1
),()()()(),(
),()()()(),,,,(
θ wz
Corpus level
Document level
Ф(z)
Multinomial
Dirichlet Multinomial
Nd
D
βT
Dirichlet
LDA – model - unfolded
Apprentissage Statistique - P. Gallinari165
P(w|z1,1)
words
P(z|1)
topics
1 2
Z1,1 Z1,2Z2,1
w1,1 w1,2 w2,1
Doc1 Doc2
………
PLSA vs LDA - geometric interpretation
PLSA provides a sampling of the document distribution on the topic simplex
LDA provides an estimate of the document distribution on the topic simple
Apprentissage Statistique - P. Gallinari166
topic2
topic1
topic3w2 w1
w3
Observed documents
topic2
topic1
topic3w2 w1
w3
Document distribution
Dirichlet etc…
Apprentissage Statistique - P. Gallinari167
, are priors on the distributions and Perform a smoothing of and distributions , control the amount of smoothing
Dirichlet and multinomial Dirichlet is a conjugate prior for multinomial
Allows to compute closed forms for posterior distributions
LDA applications
Apprentissage Statistique - P. Gallinari168
Exploratory analysis Discovering topics Topic evolution Document tagging by most relevant topic words
Classification Collaborative filtering Image annotation IR All latent models Inference on latent variables
LDA tagging (Blei et al 2003)
Apprentissage Statistique - P. Gallinari169
Finding topics in PNAS (Griffith et al. 2004)
Apprentissage Statistique - P. Gallinari170
PNAS categories
LDA topics
Mean θi value for the most significant topic i on this
category
Peer to Peer document download analysis (Denoyer 2008)
Apprentissage Statistique - P. Gallinari171
Nodes are files Two nodes are connected if they have been dowloaded by
at least 20 peers (500 K peers in total and 2.5 K files) Colors indicate the thematic clustering performed by
LDA using the key words associated to files Results Strong correspondance between download (connections) and
thematic communities
Peer to Peer document download analysis (Denoyer 2008)
Apprentissage Statistique - P. Gallinari172
Author-recipient topic model (McCallum et al. 2004)
Apprentissage Statistique - P. Gallinari173
Learning from Enron data
Identify
•Topic
•Author-recipient
LDA – learning and inference
Apprentissage Statistique - P. Gallinari174
Exact learning and inference are intractable Approximate models Variational models Gibbs sampling Expectation propagation…
Other latent models
Apprentissage Statistique - P. Gallinari175
Image annotation Author-topic model Author-Recipient-Topic …
Example: Discovering e-communities (Zhou et al 2006)
Apprentissage Statistique - P. Gallinari176
Usual methods Rely mostly on graph and connectivity analysis
Machine learning Introduce semantic relationships
e.g. shared documents in e-mails or linked documents for the web Common interests
Example : e-mail analysis Recipient list (connectivity) Message body (Semantic information) Identify communities of users based on their exchanges, and
topics
Apprentissage Statistique - P. Gallinari177
A document is characterized by 3 latent variables Content t Author u Community c
Goal Compute p(c, u, z | w)
Message generation d Choose a community c Choose an author in the community
Choose a topic t Choose a word according to topic distribution w
Community-user-topic model
Apprentissage Statistique - P. Gallinari178
di wzCorpus level
Document level
cNd
D
ФβT
C
U
Distribution of users over communities
Example ( Zhou 06)
Apprentissage Statistique - P. Gallinari179
Apprentissage non supervisé
Spectral Clustering
Apprentissage Statistique - P. Gallinari180
Spectral Clustering (after Von Luxburg 2007)
Apprentissage Statistique - P. Gallinari181
Intuition x1, …, xn data points, wij similarity between xi and xj
G = (V, E) graph vertex vi corresponds to data point xi
Edges are weighted by wij
Clustering amounts at finding a graph partition such that Edges between clusters have low weights Edges among points inside a cluster have high values
Apprentissage Statistique - P. Gallinari182
Graphs notations G = (V, E) undirected graph
V = {v1, …, vn) Edges are weighted, W = (wij)I, j = 1…n , wij ≥ 0 is the weight matrix
D : diagonal matrix with ∑
Apprentissage Statistique - P. Gallinari183
Building similarity graphs from data points Different ways to build a similarity graph Locally connected graphs: k-nearest neighbor graphs
Two vertices are connected if one of them is among the k-nearest neighbor of the other
Or two vertices are connected if both are in the k-neighborhood of the other
Edges are then weighted using the similarity of the vertices
Fully connected graphs
exp /2 )
Apprentissage Statistique - P. Gallinari184
Graph Laplacians Unnormalized graph Laplacian
Normalized graph Laplacians
I symmetric
interpretation : random walk on the graph
Apprentissage Statistique - P. Gallinari185
Properties of the unnormalized graph Laplacian L satisfies:
∀ ∈ , ∑ ,
L is symmetric, positive semi-definite The smallest eigenvalue of L is 0, the corresponding
eigenvector is 1 (vector with n 1)
L has n non negative eigenvalues 0 …
Apprentissage Statistique - P. Gallinari186
Properties of the normalized graph Laplacians
∀ ∈ , ∑ ,
Lsym and Lrw are positive semi-definite and have n non negative eigenvalues 0 …
is an eigenvalue of Lrw with eigenvector u iff is an eigenvalue of Lsym with eigenvector D1/2u
Unnormalized spectral clustering
Apprentissage Statistique - P. Gallinari187
Idée Projeter les points x ∈ , i 1…n, dans un espace de
dimension k dans lequel le clustering se fait facilement
Unnormalized spectral clustering
Apprentissage Statistique - P. Gallinari188
Input: n points x1, …, xn, similarity matrix S Output: clusters Construct similarity graph and corresponding weight matrix W Compute unnormalized Laplacian L Compute first eigenvectors of L (corresponding to smallest
eigenvalues): u1, …, uk
U: n x k matrix with columns u1, …, uk
For i = 1…n, ∈ i-th row of U Cluster yi, i = 1…n with k-means into clusters C1, …, Ck
k clusters in the initial space: C’1, …, C’k / C’i = {xj / yj Ci}
Note: Similar algorithms with normalized Laplacians
Apprentissage non supervisé
Non Negative Matrix Factorization
Apprentissage Statistique - P. Gallinari189
Matrix Factorization
Apprentissage Statistique - P. Gallinari190
Idea Project data vectors in a latent space of dimension k < m size
of the original space Axis in this latent space represent a new basis for data
representation Each original data vector will be approximated as a linear
combination of k basis vectors in this new space Data are assigned to the nearest axis This provide a clustering of the data
Matrix factorization
Apprentissage Statistique - P. Gallinari191
X = {x.1,…, x.n}, ∈ X m x n matrix with columns the x.i s Low rank approximation of X
Find factors U, V, / With U an m x k matrix, U a k x n matrix, k < m, n
x
m x n m x k k x n
Many differentdecompositions e.g. SingularValue Decomposition, Non Negative Matrix Factorization, Tri
factorization, etc
X U V
MARAMI 2013 - Learning representations for social networks
192
Applications Recommendation (User x Item matrix)
Matrix completion
Link prediction (Adjacency matrix) …
MARAMI 2013 - Learning representations for social networks
193
. ∑ .
Columns ofU,u.j arebasisvectors,the arethecoefficientof . inthis basis
X V
x.j v.ju.1u.2u.3
Original data Basis vectorsDictionnary
Representation
x
v.j
u.1
u.2
u.3
MARAMI 2013 - Learning representations for social networks
194
Interpretation If X is a User x Item matrix
Users and items are represented in a common representation spaceof size k
Their interaction is measured by a dot product in this space
x.jv.j
ui.
Original data User Representation
Item Representation
xUsers
Items
MARAMI 2013 - Learning representations for social networks
195
Interpretation If X is a directed graph adjacency or weight matrix
x.jv.j
ui.
Original data Sender Representation
ReceiverRepresentation
xNodes
Nodes
MARAMI 2013 - Learning representations for social networks
196
Loss function - example Minimize constraints on U, V: , e.g.
Positivity (NMF) Sparsity of representations, e.g. , group sparsity, … Overcomplete dictionary U: k > m Symmetry, e.g. trifactorisation Bias on U and V e.g. biases of users (low scores) or item (popularity) for recommendation
Multiple graphs Any a priori knowledge on U and V
Non Negative Matrix Factorization
Apprentissage Statistique - P. Gallinari197
Solve,
Underconstraints , 0i.e.thefactors areconstrained tobe nonnegative
Convex loss function inUandinV,butnotinboth UandV
Apprentissage Statistique - P. Gallinari198
Algorithm Constrained optimization problem Can be solved by a Lagrangian formulation
Iterative multiplicative algorithm (Xu et al. 2003)
U, V initialized at random values Iterate until convergence
←
←
Or by projected gradient formulations The solution U, V is not unique, if U, V is solution, then UD, D-1V
for D diagonal positive is also solution
Apprentissage Statistique - P. Gallinari199
Using NMF for Clustering Normalize U as a column stochastic matrix (each column
vector is of norm 1) ←
∑
← ∑
Under the constraint “U normalized” the solution U, V is unique
Associate xi to cluster j if
Apprentissage Statistique - P. Gallinari200
Note many different versions and extensions of NMF Different loss functions
e.g. different constraints on the decomposition Different algorithms
Applications Clustering Recommendation Link prediction Etc
Specific forms of NMF can be shown equivalent to PLSA Spectral clustering
Illustration (Lee & Seung 1999)
Apprentissage Statistique - P. Gallinari201
Basis images for
NMF
Vector Quantization
Principal Component Analysis
Apprentissage Semi superviséMéthodes génératives et discriminantes
Méthodes basées sur les graphes
Problématique
Apprentissage Statistique - P. Gallinari203
Cadre Problème de discrimination, i.e. on veut estimer P(C| x) pour
toutes les classes C Motivation Apprendre à classifier des données en utilisant un faible
nombre de données étiquetées et un grand nombre de données non étiquetées
L’etiquetage coûte cher, les données non étiquetées sont souvent largement disponibles
Utilisation Nombreux problèmes du web Ressources (temps, moyens humains etc) non disponibles pour
construire des ensembles annotés
Méthodes
Apprentissage Statistique - P. Gallinari204
Très nombreuses méthodes Self learning Méthodes génératives Méthodes discriminantes
SVM, CEM
Méthodes à base de graphes …
Apprentissage semi-superviséModèles génératifs
Apprentissage Statistique - P. Gallinari205
Approche générale : Maximiser la vraisemblance jointe des données étiquetées et
non étiquetées Utiliser un algorithme EM On en déduit P(C|x) pour tout x On regarde ici le cas à 2 classes
Notations D = DLU DU
DL : Labeled data DU : Unlabeled data
C1 et C2 sont les deux classes considérées p1 et p2 sont les probabilités a priori des deux classes C1 et C2
Apprentissage semi-superviséModèles génératifs
Apprentissage Statistique - P. Gallinari206
uiU
LLL
UL
Dx kkik
Dx
CDxCDxDx
DxDxM
DxM
Cxpxp
CxpCxpxp
xpxpL
xpL
))/(.(log)(log
),(log),(log)(log
)(log)(log
)(log
2
1
2121
Log Vraisemblance des données
Vraisemblance des données non étiquetées.
C’est un modèle de mélange
Vraisemblance des données
étiquetées
Apprentissage semi-superviséModèles génératifs
Apprentissage Statistique - P. Gallinari207
uiki Dx k
kikk Cx
kikM CxpCxpL ))/(.(log))/(.log(2
1
2
1
La vraisemblance totale s’écrit
Important Les modèles pour les densités p(x| C) sont les mêmes pour les
données supervisées et non supervisées C’est ce qui permet de capturer dans une même fonction nles
informations supervisées et non supervisées
Somme sur les données
étiquetées
Somme sur les données non étiquetées
Modèle de mélange
Apprentissage semi-superviséModèles dicriminants (Amini 2004)
Apprentissage Statistique - P. Gallinari208
0,et1 hkk tkhtCx
Au lieu de maximiser la vraisemblance, on va maximiser la vraisemblance classifiante (Symons et al. 71).
But classifier les exemples en c groupes en prenant une décision
“dure”.
avec T=(t1,…,tc) le vecteur des indicateurs de classe:
Vraisemblance classifiante vraisemblance des données complètes (donnée, classe) :
8
c
k
N
ikkkikkiC CxptCL
1 1
)),,/(.log(.),,(
Apprentissage Statistique - P. Gallinari209
Comparer avec la vraisemblance usuelle pour un mélange de densités :
N c
kkkkikkiC CxptCL
11 1
)),,/(..(log),,(
Vraisemblance classifiante pour le cas semi-supervisé
Apprentissage Statistique - P. Gallinari210
Pour un classifieur discriminant maximiser LC est equivalent à maximiser
n étiquetés, m non étiquetés
Algorithme : CEM
c
k
mn
nikkikki
c
k kCixkkikC xCptxCpCL
1 11)),,/(log(.)),,/(log(),,(~
9
Mesures d’évaluation
Apprentissage Statistique - P. Gallinari211
Caractéristique des ensembles de données
Critère de performance
Pertinent
Non pertinent
Decision du système
+
PGC = ++
Precision =
Classification
Text summarization
IJCAI’03
Exemple : Email spam
Apprentissage Statistique - P. Gallinari212IJCAI’03
5%
65%
73%
82%
Exemple : Résumé de texte
Apprentissage Statistique - P. Gallinari213IJCAI’03
Apprentissage semi-superviséModèles de graphes
Apprentissage Statistique - P. Gallinari214
Les modèles génératifs ou discriminants précédants ne prennent pas en compte la densité locale des données. Ils ne considèrent que la cohérence globale des données
Vraisemblance Sans considérer la cohérence locale
Voisinage des points, densité locale
Cela peut conduire à des erreurs importantes si les densités ne sont pas bien séparées
Plusieurs familles de modèles ont été proposées pour prendre en compte à la fois les cohérences globales et locales des données Parmi elles, les méthodes à base de graphes
Data consistency (Zhou et al. 2003)
Apprentissage Statistique - P. Gallinari215
SSL rely on local (neighbors share the same label) and global (data structure) data consistency
Fig. from Zhou et al. 2003
Apprentissage Statistique - P. Gallinari216
Graph methods general idea Create a graph G = (V, E) Compute a similarity matrix W: Wij is the similarity between
nodes i and j Propagate observed labels to unlabeled nodes
Example (Zhou et al 2003)
Compute an affinity matrix W
a normalized affinity matrix S
Iterate
Converges to Y* final labels on unlabeled data
0),2
exp(: 2
2
iiji
ij Wxx
WW
)0()1()(.)1( YtYStY
Apprentissage Statistique - P. Gallinari217
21
21
WDDS
D is a diagonal matrix whose ith element is the sum of ith row of W
Y(0) matrix of initial labels and 0 for unlabeled data
Iterations
Apprentissage Statistique - P. Gallinari218
Fig. from Zhou et al. 2003
Apprentissage en présence de données positives uniquement
Apprentissage Statistique - P. Gallinari219
Problème Discrimination avec des étiquetages dans une seule classe -
positifs- et en faible nombre Nombreuses instances dans la réalité
Méthode pratique générale On considère que les exemples les plus éloignés des exemples
étiquetés sont négatifs On applique un algorithme d’apprentissage semi-supervisé
Quelques liens utiles
Apprentissage Statistique - P. Gallinari220
Livres Cornuéjols, A and Miclet L.: Apprentissage Artificiel. Concepts et algorithmes (2nd
Ed.with revisions and additions - 2006 Eyrolles, 650 p Christopher M. Bishop, Pattern Recognition and Machine Learning, Springer
(2006). David Barber, 2012, Bayesian Reasoning and Machine Learning, Cambridge Univ.
Press. Software
General Weka 3: Data Mining Software in Java
http://www.cs.waikato.ac.nz/ml/weka/ Lush (Leon Bottou)
http://lush.sourceforge.net) SVM
http://www.csie.ntu.edu.tw/~cjlin/libsvm/http://svmlight.joachims.org/http://www.torch.ch/
Test sets UCI machine learning repository …..
Apprentissage Statistique - P. Gallinari221
Extension multidimensionnelle Données : x1,…, xN n, d1,…, dN p, y1,…, yN p
Modèle : dk = W xk k {1,…,N} i.e. D = W X
Avec D dont les colonnes sont les et X dont les colonnes sont les , W matrice p x n
Fonction de coûtC(W) = || D -W X ||2
Algorithme: Widrow-HoffW(t+1) = W(t) - (t)[ W x - d].x
Apprentissage Statistique - P. Gallinari222
Calcul de l'association optimale par l'algèbre linéaire
L'équation D = W X a une solution ssi D = D X+ X où X+ est la matrice pseudo-inverse de X
La solution générale est donnée par:
W = D X+ + Z ( I - X X+) (*)
où Z est une matrice arbitraire de même dimension que W
Quand D = W X n'a pas de solution exacte (*) est solution de MinW ||D -W X||2
i.e. (*) est la solution optimale de MinW ||D -W X||2