Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage...

222
Apprentissage Statistique Master DAC - Université Paris 6 P. Gallinari, [email protected], http://www-connex.lip6.fr/~gallinar/ Année 2014-2015 Partie 1

Transcript of Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage...

Page 1: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique

Master DAC - Université Paris 6P. Gallinari, [email protected], http://www-connex.lip6.fr/~gallinar/

Année 2014-2015Partie 1

Page 2: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Introduction

Page 3: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage à partir d'exemples

Apprentissage Statistique - P. Gallinari3

3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère C (apprentissage et évaluation)

But Extraire de l'information à partir des données

Information pertinente pour la tâche étudiée pour d'autres données du même type

Utilisation Inférence sur de nouvelles données

Type d'apprentissage : Supervisé Non supervisé Semi supervisé Renforcement

Page 4: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Exemples - problèmes d'apprentissage

Apprentissage Statistique - P. Gallinari4

Parole / Ecriture Données : (signal, (transcription)) But : reconnaître signal Critère : # mots correctement reconnus

Conduite véhicule autonome Données : (images routes, (commande volant)) e.g. S. Thrun Darpa Challenge +

Google car But : suivre route Critère : distance parcourue

Recherche d'information textuelle Données : (texte + requête, (information pertinente)) – corpus d’apprentissage But : extraire l'information correspondant à la requête Critère : Rappel / Précision

Diagnostic dans systèmes complexes Données : (état capteurs + alarmes, (diagnostic)) But : diagnostic correct Critère : ?

Page 5: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Exemples - problèmes d'apprentissage

Apprentissage Statistique - P. Gallinari5

Modélisation d'utilisateur Données : (Traces utilisateur) But : analyser/ modéliser le comportement de l'utilisateur

Exemples : ciblage clientèle, aide navigation, publicité, recommandation, assistants personnels e.g. Google now

Critère : ? Evaluation : ? Example Google Now

Google Now keeps track of searches, calendar events, locations, and travel patterns. It then synthesizes all that info and alerts you—either through notifications in the menu bar or cards on the search screen—of transit alerts for your commute, box scores for your favorite sports team, nearby watering holes, and more. You can assume it will someday suggest a lot more.

Page 6: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Exemples - problèmes d'apprentissage

Apprentissage Statistique - P. Gallinari6

Plus difficile : Traduction Extraction d’information (e.g. Never-Ending Language/ Image Learning) Compréhension de texte / scène visuelle – extraction de sens Découverte dans bases de données ou bases de connaissances ....

Données : i.e. représenter l'information ?? But ?? Critère ?? Evaluation ??

Page 7: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Données : diversité

Apprentissage Statistique - P. Gallinari7

Page 8: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Données : quantitésYahoo! Data – A league of its own… U. Fayyad KDD’07

Apprentissage Statistique - P. Gallinari8

Terrabytes of Warehoused Data

25 49 94 100500

1,000

5,000

Amaz

on

Kore

a

Teleco

m

AT&T

Y! L

iveS

tor

Y! P

anam

a

War

ehou

se

Walm

art

Y! M

ain

war

ehou

se

GRAND CHALLENGE PROBLEMS OF DATA PROCESSING

TRAVEL, CREDIT CARD PROCESSING, STOCK EXCHANGE, RETAIL, INTERNET

Y! PROBLEM EXCEEDS OTHERS BY 2 ORDERS OF MAGNITUDE

Millions of Events Processed Per Day

50 120 2252,000

14,000

SABRE VISA NYSE Y! Panama Y! DataHighway

Page 9: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Données : quantitésPetabytes (10^15) (chiffres 2012)

Apprentissage Statistique - P. Gallinari9

Google processes about 24 petabytes of data per day Google Street View Has Snapped 20 Petabytes of Street

Photos Telecoms: AT&T transfers about 30 petabytes of data

through its networks each day Physics: The experiments in the Large Hadron Collider

produce about 15 petabytes of data per year Neurology: It is estimated that the human brain's ability

to store memories is equivalent to about 2.5 petabytes of binary data

Page 10: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Big Data: Volume, Velocity, Variety, and Veracity http://www-01.ibm.com/software/data/bigdata/

Apprentissage Statistique - P. Gallinari10

Volume: terabytes, petabytes Turn 12 terabytes of Tweets created each day into improved product sentiment analysis Convert 350 billion annual meter readings to better predict power consumption

Velocity: streams Scrutinize 5 million trade events created each day to identify potential fraud Analyze 500 million daily call detail records in real-time to predict customer churn faster

Variety: Big data is any type of data - structured and unstructured data such as text, sensor data, audio, video, click streams, log files and more. New insights are found when analyzing these data types together. Monitor 100’s of live video feeds from surveillance cameras to target points of interest Exploit the 80% data growth in images, video and documents to improve customer

satisfaction Veracity: Establishing trust in big data presents a huge challenge as the variety and

number of sources grows.

Page 11: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Gartner Hype Cycle: Big Data

Apprentissage Statistique - P. Gallinari11

Page 12: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari12

Page 13: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Data science (Wikipedia 2013)

Apprentissage Statistique - P. Gallinari13

Data science incorporates varying elements and builds on techniques and theories from many fields, including mathematics, statistics, data engineering, pattern recognition and learning,advanced computing, visualization, uncertainty modeling, data warehousing, and high performance computing with the goal of extracting meaning from data and creating data products. …..Data science seeks to use all available and relevant data to effectively tell a story ….

Data science is the practice of deriving valuable insights from data. Data science is emerging to meet the challenges of processing very large data sets i.e. "Big Data" consisting of structured, unstructured or semi-structured data that large enterprises produce. A domain at center stage of data science is the explosion of new data generated from smart devices, web, mobile and social media. ……data scientists rely heavily upon elements of statistics, machine learning, text retrieval and natural language processing to analyze data and interpret results.

Page 14: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Place de l’apprentissage

Apprentissage Statistique - P. Gallinari14

L’apprentissage constitue une brique dans le processus de fouille / traitement de données qui arrive souvent à la fin du processus qui est intégré dans une application ou dans le SI de l’entreprise

Les différentes étapes de l’analyse des données Collecte des données / stockage Prétraitement des données, étiquetage éventuel Analyses des données par des techniques exploratoires Mise au point et test de différents modèles d’apprentissage Evaluation

Page 15: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Domaines d’application en Data MiningExemples

Apprentissage Statistique - P. Gallinari15

Web recherche d'information, filtrage d'information extraction d'information textuelle : e.g. recherche, bibliothèques virtuelles, veille

technologique, Question Answering , ... Multi-média

image + son, vidéo Données d’entreprise

infos produits, infos clients, ciblage clientèle ... Analyse comportement

e.g. telecoms : serveurs web, accès services commerciaux, internet - intranet, aide accès information, publicité

Distribué Mobiles : personnalisation, accès information Capteurs distribués, objets connectés

Biologie - analyse de séquences, de structures Automobile ...

Page 16: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Challenges de l’apprentissage

Apprentissage Statistique - P. Gallinari16

Passage à l’échelle Quantité de données, taille données

Dynamicité Flux

Distribué Complexité des données et des problèmes Données structurées

standards (XML, RDF, SMIL, …), taxonomies Web2.0 : découverte / analyse de relations !!

Nouveaux problèmes, nouveaux usages Adaptation rapide outils existants et création de nouveaux

outils

Page 17: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

4 Familles d’algorithmes

Apprentissage Statistique - P. Gallinari17

Page 18: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Données dans la pratique de l’apprentissage

Apprentissage Statistique - P. Gallinari18

Distinguer les ensembles d’apprentissage

Mettre au point le modèle

de test Evaluer les performances du modèle appris

de validation Apprentissage de méta-paramètres

Remarque On fera en général l’hypothèse que toutes les données sont générées

suivant une même loi

Page 19: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage supervisé

Apprentissage Statistique - P. Gallinari19

Ensemble d'apprentissage Constitué de couples (entrée, sortie désirée)

, , … , , But Au moyen d'un algorithme d'apprentissage, découvrir

l’association En utilisant les données d’appprentissage Qui offre une bonne généralisation

i.e. si hors de l'ensemble d'apprentissage mais généré par le même phénomène

Utilisation discrimination, identification, prévision, approximation …

Page 20: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage non supervisé

Apprentissage Statistique - P. Gallinari20

Ensemble d'apprentissage Uniquement des données d’entrée , … ,

But Regrouper les données similaires Modéliser les données Découvrir des relations non spécifiées à l’avance entre les

données

Utilisation estimation de densité, extraction de similarités

Page 21: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage semi supervisé

Apprentissage Statistique - P. Gallinari21

Ensemble d’apprentissage étiquetés – faible quantité

, , … , , non étiquetés – grande quantité

, … , But Extraire l’information des exemples non étiquetés utile pour

l’étiquetage Apprendre conjointement à partir des deux ensembles d’exemples

Utilisation grandes masses de données où l’étiquetage est possible mais trop

coûteux données qui évoluent implémentation rapide de systèmes génériques pour différentes

instances d’un problème

Page 22: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage par Renforcement

Apprentissage Statistique - P. Gallinari22

Ensemble d'apprentissage Couples (entrée, sortie désirée qualitative)

, , … , , Les xi peuvent être des séquences (temporal credit

assignment), les di sont des réponses qualitatives (e.g. 0,1), déterministes ou stochastiques.

But Apprendre des actions optimales

Utilisation commande, décision séquentielle, robotique, jeux,

programmation dynamique, applications web ou sociales, ...

Page 23: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Exemple introductif : Perceptron

Apprentissage Statistique - P. Gallinari23

Page 24: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Un exemple : Perceptron (1960 Rosenblatt)

Apprentissage Statistique - P. Gallinari24

(image from Perceptrons, Minsky and Papert 1969)

Le perceptron est utilisé pour la discrimination La cellule de décision calcule une fonction à seuil :

∑ ∑ avec 1 Classe 1 : ∶ 1 Classe 2 : ∶ 1

Cellules d’association Cellule de décision

Page 25: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

L'algorithme du perceptron (2 classes)

Apprentissage Statistique - P. Gallinari25

C'est un algorithme à correction d'erreur si est constant : règle à incrément fixe si est fonction du temps : règle à incrément variable

Donnéesbase d’apprentissage , , 1. . , ∈ , ∈ 1,1

Outputclassifieur ∈ , décision ∑

Initialiser w (0)Répeter (t)

choisir un exemple, ,Si . 0alors 1

Jusqu'à convergence

Page 26: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Fonction discriminante linéaire

Apprentissage Statistique - P. Gallinari26

Surface de décision: hyperplan F(x) = 0 Quelques propriétés w est le vecteur normal de l'hyperplan, il défini son

orientation distance de x à H : / w0 = 0 : H passe par l'origine

. ∑ avec 1

Page 27: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Géométrie de la discrimination linéaire

Apprentissage Statistique - P. Gallinari27

W

F(x) < 0

F(x) > 0wxF )( F(x) = 0

Page 28: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Le perceptron effectue une descente de gradient

Apprentissage Statistique - P. Gallinari28

Fonction de coût ∑ . ., é

gradient

, … , avec ∑ ., é

Règle d’apprentissage

Demo http://lcn.epfl.ch/tutorial/english/

Page 29: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Cas multi-classes

Apprentissage Statistique - P. Gallinari29

Approche générale : one vs all p classes = p " problèmes 2 classes " : Ci contre le reste

construire p fonctions discriminantes Fi(x), i = 1 ... p règle de décision: x Ci si Fi(x) > Fj(x) pour ji crée une partition de l'espace d'entrée chaque classe est un polygone avec au plus p -1 faces.

Régions convexes : limitation des classifieurs linéaires

Page 30: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Propriétés Probabilité de séparabilité linéaire (Cover 1965)

Apprentissage Statistique - P. Gallinari30

Entrée de taille n, m formes classées aléatoirement en 2 classes (dichotomie)

L(m,n) : nb de "vraies" dichotomies linéairement séparables : si m > n aucun sous espace engendré par n + 1 formes n'est de dimension

n - 1. si m n aucun sous espace de dimension m - 2 ne contient les m formes.

P(m,n) : probabilité qu'une dichotomie soit linéairement séparable.

n im

m

nm siC

nm si nmL

0 1

2),(

P m n

m n

C m nmmi

n( , )

1

211

0

si

si

0 2 4

n1

10

m/n+1

P(m,n)

0.5

1

Page 31: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Propriétés Théorème de convergence du perceptron (Novikov 1962)

Apprentissage Statistique - P. Gallinari31

Si ∃ :∀ , R

les données peuvent être séparées avec une marge , i.e. supmin .

l'ensemble d'apprentissage est présenté au perceptron un nombre suffisant de fois

Alors après au plus corrections, l'algorithme converge

Page 32: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Propriétés Borne sur l'erreur de généralisation (Aizerman et al. 1964)

Apprentissage Statistique - P. Gallinari32

Si les données sont séparables elles sont en nombre infini règle arrêt : après la kème correction, les

données présentées sont reconnues correctement

alors

le perceptron converge en l / /

étapes avec une probabilité 1 , l'erreur de test est <

Page 33: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Overtraining / généralisation en regression

Apprentissage Statistique - P. Gallinari33

Exemple (Bishop 06)

Necessité de controler lors de l’apprentissage la complexité des modèles Techniques de régularisation

Page 34: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Algorithmes d'apprentissage numérique

Apprentissage Statistique - P. Gallinari34

Il existe un grand nombre d’algorithmes et de familles d’algorithmes pour les différents problèmes génériques abordés en apprentissage

Il existe de nombreuses implémentations sous forme de programmes dédiés ou de logiciels plus généralistes

Quelques exemples populaires Données statiques

Supervisé Réseaux de neurones Arbres décision / régression, random forest Fonctions noyau, machines à vecteurs supports Nombreux modèles pour l’estimation de densité paramétrique, non paramétrique

Non supervisé Modèles à variables latentes

Modèles latents probabilistes Factorisation matricielle

Données structurées Séquences

Réseaux de neurones récurrents, modèles Markoviens Arbres et graphes

Modèles relationnels

Page 35: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Formalisation du problème de l'apprentissage

Page 36: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Formalisme probabiliste

Apprentissage Statistique - P. Gallinari36

Données vecteurs aléatoires générés suivant une densité

Machine d’apprentissage avec les paramètres du modèle à valeur dans un

espace réel Coût pour la machine et l’exemple

Risque théorique

Solution optimale ∗

Page 37: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage à partir d'exemples

Apprentissage Statistique - P. Gallinari37

Données ..

Risque empirique ∑

Principe inductif Le principe inductif défini le processus d'apprentissage Exemple : Minimisation du risque empirique

La fonction ∗ qui minimise le risque théorique est approximée par qui optimise le risque empirique C’est le principe que l’on utilise dans une grande partie du cours

Est-ce un bon principe ? Propriété de généralisation ?

Page 38: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Problèmes d'apprentissage : exemples

Apprentissage Statistique - P. Gallinari38

Discrimination , , ∈ 0,1 ensemble des fonctions à seuil R : probabilité de mauvaise classification C : fréquence des erreurs

Régression , , ∈R un ensemble de fonctions réelles R : espérance des erreurs quadratiques C : somme des erreurs quadratiques

Estimation de densité

ensemble de fonctions réelles R : espérance C : vraisemblance

0si 1sinon

Page 39: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage supervisé

Préliminaires : gradient, regression, regression logistiqueModèles discriminantsRéseaux de neurones

Machines à noyaux

Page 40: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage supervisé

Optimisation par gradientRegression

Regression logistique

Page 41: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari41

L’apprentissage supervisé recouvre un ensemble de problèmes génériques Regression Classification Ranking …

Dans le première partie du cours on examine des problèmes de régression et de classification

Page 42: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

OptimisationAlgorithmes de gradient

Apprentissage Statistique - P. Gallinari42

Objectif Optimiser une fonction de coût C(w) dépendant de paramètres w Principe :

Initialiser w Itérer jusqu’à convergence

1 la direction de descente D, le pas de gradient sont déterminés à partir

d'informations locales sur la fonction de coût C(w), i.e. approximations au 1er ou 2nd ordre.

Exemple :

Gradient de la plus grande pente (batch)Ensemble d’apprentissage

, , … , ,

Initialiser Itérer

1 t)Critère d’arrêtAvec ∑

Page 43: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Autres procédures de minimisation basées sur le gradient

Apprentissage Statistique - P. Gallinari43

Approximation quadratique locale de la fonction à optimiser (on approxime C par une parabole)

Avec H le Hessien de C(.) :

En différentiant par rapport à w

On cherche le minimum de C

Méthode de Newton

Trop couteux en pratique (O(n3) pour l’inverse, + dérivées partielles)

)()(21)()()()( 00000 wwHwwwCwwwCwC TT

0)( wC

)( 01

0 wCHww

)()()( 00 wwHwCwC

Page 44: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari44

En pratique on utilise des gradients du 1er ordre ou des approximations du 2nd ordre

Exemple approximation du 2nd ordre : Méthodes de quasi-Newton : approximation de H-1

itérativement. Forme générale :

H' : approximation de sans calculer les dérivées secondes

))(),(,,,'('')('

001

00

wCwCwwHFHHwCHww

ttt

t

Page 45: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Regression

Apprentissage Statistique - P. Gallinari45

Regression simple Objectif : prédire une fonction réelle Ensemble d’apprentissage

, , … , , ∈ , ∈ : regression simple

Modèle linéaire . ∑ avec 1

Fonction de coût Moindres carrés

∑ .

Gradient de la plus grande pente , , …,

∑ . ∑ .

∑ .

Page 46: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Regression

Apprentissage Statistique - P. Gallinari46

Géométrie des moindres carrés

0

5

10

15

20

0

50

100

150

200

0 2 4 6 8 10 12 14 16 18 20

Page 47: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Regression multi-variée

Apprentissage Statistique - P. Gallinari47

Le modèle s’étend directement au cas où On a alors p regressions linéaires indépendantes L’algorithme est identique

Page 48: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Interprétation probabiliste

Apprentissage Statistique - P. Gallinari48

Modèle statistique de la regression . , où est une v.a. qui modélise l’erreur

On suppose que est une v.a. i.i.d. gaussienne ~ 0, , exp

La distribution a posteriori de d est alors | ; exp .

Vraisemblance ∏ | ;

C’est une fonction de w, calculée pour un ensemble de données, ici les données d’apprentissage

Principe du maximum de vraisemblance Choisir le paramètre qui maximise ou toute fonction croissante de

on va maximiser la log vraisemblance qui donne des calculs plus simples

∑ . On retrouve le critère des moindres carrés

Sous les hyp. précédentes, on a une interprétation probabiliste de la régression

Page 49: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Regression logistique

Apprentissage Statistique - P. Gallinari49

La regression linéaire peut être utilisée pour des problèmes de regression ou de classification

Un modèle mieux adapté pour la classification (avec des sorties binaires) est celui de la régression logistique

..

Fonction logistique La fonction

est appelée fonction logistique ou

sigmoide

hint 1

0

0,2

0,4

0,6

0,8

1

-5 -4 -3 -2 -1 0 1 2 3 4 5

sigmoid

Page 50: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Regression logistiqueInterprétation probabiliste

Apprentissage Statistique - P. Gallinari50

Comme ∈ 0,1 , on va faire l’hypothèse d’une distribution conditionnelle de Bernouilli

1 ; et 0 ; 1 En plus compact

; 1 avec ∈ 0,1

Vraisemblance

∏ 1

Log-vraisemblance ∑ 1 log 1

Gradient de la plus grande pente

∑ Algorithme

Page 51: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Regression logistique multivariée

Apprentissage Statistique - P. Gallinari51

On suppose que l’on a un problème de classification à plusieurs classes 1…p On les code suivant la fonction indicatrice suivante

Classe 1: 1,0, … , 0 Classe 2 : 0,1, … , 0 … Classe 1: 0,0, … , 1 On a un vecteur de sorties à p dimensions – codage “one out of p”

La fonction est une fonction vectorielle à p dimensions La composante i sera une fonction softmax

.

∑ .

Attention : ici ∈ est un vecteur

Le modèle probabiliste sous jacent est un modèle multinomial pour les densitésconditionnelles

; = .∑ .

Algorithme d’apprentissage Comme précédement on peut utiliser un algorithme de gradient pour maximiser la log

vraisemblance

Page 52: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage supervisé

Réseaux de neurones

Page 53: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Réseau de neurone - description informelle

Apprentissage Statistique - P. Gallinari53

Caractéristiques

Ensemble d’éléments simples interconnectés Echange d'information au moyen des connexions Calcul/ mémoire distribués

Page 54: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apports pluridisciplinaires

Apprentissage Statistique - P. Gallinari54

Domaines Neurosciences Sciences cognitive (AI, psychologie, linguistique) Informatique Maths Physique

Buts Modélisation (neurophysiologie, biologie.....) Modèle de calcul (applications, computational theory,

apprentissage...)

Page 55: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Fondements biologiques

Apprentissage Statistique - P. Gallinari55

Le neurone Soma Arbre des dendrites Axone Flot d'information

axone : impulsions électriques dendrites : transmission chimique avec le soma via synapses

Synapses contact : émission - réception Poids synaptique = modulation de l'information transmise vers

le soma. Comportement du neurone + mémoire ?

Page 56: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Exemple : réseau linéaire

Apprentissage Statistique - P. Gallinari56

Etat (cellule) = ΣcellulesW incident*état(cellules incidentes )

Apprentissage Dynamique Caractéristiques :

Architecture : interconnexion + définition unités Algorithmes : apprentissage + dynamique

Visible units Hidden units

SIGNAL DECISIONW

W

WW

W

WW

WW

1

2

3

4

5

6

78

9

Visible units

Page 57: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Neurones et Types de neurones

Apprentissage Statistique - P. Gallinari57

Page 58: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Composants du neurone

Apprentissage Statistique - P. Gallinari58

Page 59: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Historique rapide des réseaux de neurones

Apprentissage Statistique - P. Gallinari59

43 Mc Culloch & Pitts : neurone formel "A logical calculus of the ideas immanent in nervous activities"

40 – 45 Wiener (USA) Kolmogorov (URSS) Türing (UK) Théorie de l'estimation et de la prédiction (contrôle batteries

anti-aeriennes) Boucle de rétro-action

Page 60: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari60

48 – 50 Von Neuman : réseaux d'automates 49 Hebb : apprentissage dans les réseaux d'automates 55 – 60 Rosenblatt : Perceptron Widrow - Hoff : Adaline

70 – 80 Mémoires associatives, ART, SOM ... 90 – 95 Réseaux non linéaires

Réseaux de Hopfield, Machine de Boltzmann Perceptron multicouches ...

2006 - .. Deep neural networks, restricted Boltzmann machines,… Representation learning

Page 61: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Optimisation dans les RNAlgorithmes de gradient

Apprentissage Statistique - P. Gallinari61

Principe : 1 la direction de descente D, le pas de gradient sont déterminés à

partir d'informations locales sur la fonction de coût C(w), i.e. approximations au 1er ou 2nd ordre.

Exemples :

Plus grande pente (batch) Initialiser Itérer

1 t)Critère d’arrêtAvec ∑

Gradient adaptatif (on line – stochasticgradient)

initialiserIterer

choisir un exemple 1

Critère d’arrêt

Page 62: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Le neurone formel

Apprentissage Statistique - P. Gallinari62

C'est un automate caractérisé par l’espace des signaux d'entrée , … , ∈

une fonction de transition

Fonctions de transition Historiquement, fonction à seuil (Neurone formel de McCulloch et Pitts) En pratique on utilise des fonctions différentiables

Soit ∑ , on considère des fonctions de la forme Fonction identité g

Fonction sigmoïde g

Fonction tangente hyperbolique g

On verra par la suite d’autres fonctions de transition

x2

x1

xn

y = F(x)

Page 63: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Gradient stochastique et Adaline

Apprentissage Statistique - P. Gallinari63

On suppose que l’on est dans un contexte « en ligne » Les données arrivent et sont traitées séquentiellement Les paramètres sont modifiés pour chaque donnée Gradient stochastique (Robbins-Monro, 1951), popularisé pour

les réseaux de neurones par (Widrow et Hoff, 195X)

Que l’on compare avec l’algorithme batch

Gradient adaptatif (on line – stochasticgradient)

InitialiserIterer

choisir un exemple1

Critère d’arrêt

Plus grande pente (batch)

Avec ∑

Initialiser Itérer

1 t)Critère d’arrêt

Page 64: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Adaline

Apprentissage Statistique - P. Gallinari64

Neurone linéaire Risque empirique : moindres carrés

∑ .

Page 65: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Adaline : règle de Widrow-Hoff

Apprentissage Statistique - P. Gallinari65

x(t) est l'exemple présenté à l'instant t, le gradient est calculé sur le coût local

A comparer avec le gradient classique qui calcule le gradient sur le risque empirique

initialiser 0Iterer

choisir un exemple 1 .

Critère d’arrêt

Plus grande penteinitialiser 0Iterer

1 ∑ .Critère d’arrêt

Page 66: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari66

Apprentissage hors ligne vs apprentissage adaptatif

ck erreur sur la forme k de l'ensemble d'apprentissage

Gradient sur C Gradient adaptatif sur c

Q qk

W W

k

kcN

C 1

Page 67: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Optimisation dans les RNAlgorithmes de gradient

Apprentissage Statistique - P. Gallinari67

Les algorithmes d’optimisation pour les réseaux de neurones utilisent souvent ces techniques simples de gradient stochastique

Raisons Historique Complexité et taille de données Ces méthodes sont devenues populaires également pour de

nombreux autres modèles (complexité) Ils exploitent bien la redondance présente dans les données Bien adaptés aux grandes dimensions

En pratique utilisation d’algorithmes « mini-batch » À chaque itération on considère un petit sous ensemble des données

Page 68: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Perceptron Multicouches

Apprentissage Statistique - P. Gallinari68

Réseau avec : des couches externes: entrée et sortie des couches internes dites cachées Les cellules sur les couches internes et la couche de sortie

sont des fonctions sigmoïdes ou tangente hyperbolique.

y

x

Input

Output

hidden layers

d

Page 69: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Perceptron Multicouches

Apprentissage Statistique - P. Gallinari69

Les exemples sont présentés séquentiellement Inférence : passe avant Pour chaque exemple on calcule la sortie

Apprentissage : passe arrière On calcule l’erreur entre sortie désirée et sortie

calculée. On propage cette erreur pour calculer le gradient des poids du

réseau

Page 70: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari70

Notations vecteur activation de la couche i

activation du neurone j de la couche i

matrice de poids de la couche i à la couche i+1

poids de la cellule k sur la couche i à la cellule j sur la couche i+1 vecteur de sortie

1 1

Page 71: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Inférence : passe avant

Apprentissage Statistique - P. Gallinari71

Pour un exemple x On calcule en parallèle les activités de la couche de neurones 1 puis )

Avec ,

On utilise les sorties de la couche 1 comme entrées de la couche 2 et on calcule en parallèle les activités de la couche 2

puis )

1 1

Page 72: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage : passe arrière

Apprentissage Statistique - P. Gallinari72

On décrit l’algorithme dans le cas d’une fonction de coût moindre carrés

On présente un exemple , , ∈ , d ∈ On calcule la sortie , ∈

Calculer l’erreur , … , Rétropropager cette erreur de la couche de sortie vers la

couche d’entrée : ∆ mise à jour des poids par sgd

∆ gradient pour C’est cette quantité « » que l’on va rétropropager

2 ′ si i est une cellule de sortie

∑ ′ si i n’est pas une cellule de sortie

Page 73: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari73

Remarques Comme pour la passe avant, on modifie tous les poids d’une

couche en parallèle C’est une implémentation particulière de l’algorithme du

gradient stochastique qui évite de dupliquer les calculs Elle peut être adaptée à toute fonction différentiable Fonctions de coût

Pour des tâches de regression : LMSE Pour des tâches de classification, différentes fonctions employées Entropie croisée Hinge, logistique (cf slide suivant)

Page 74: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Fonctions de coût Différentes fonctions de coût sont

utilisées, suivant les problèmes, oules modèles

LMSE Regression

Souvent utilisé en classification

Classification, Hinge, logistique Classification Exemples

∈ , ∈ 1,1 Hinge, logistique sont ici des

approximations de l’erreur de classification

Apprentissage Statistique - P. Gallinari74

Figure from Bishop 2006

En abscisse : . (marge)

, | |, 1 . max 0,1 .

, ln 1 exp .

Page 75: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Contrôle de la complexité

Apprentissage Statistique - P. Gallinari75

En pratique, on n’optimise jamais le risque empirique seul On optimise le risque tout en controlant la complexité

cf partie théorique du cours Nombreuses méthodes

Régularisation (Hadamard …Tikhonov) Théorie des problèmes mal posés

Minimisation du risque structurel (Vapnik) Estimateurs algébriques de l’erreur de généralisation (AIC, BIC, LOO,

etc) Apprentissage bayesien

Fournit une interprétation statistique de la régularisation Le terme de régularisation apparait comme un a priori sur les paramètres du

modèle Méthodes d’ensembles

Boosting, bagging, etc ….

Page 76: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Regularisation

Apprentissage Statistique - P. Gallinari76

Hadamard Un problème est bien posé si

Il existe une solution Elle est unique La solution est stable

Exemple de problème mal posé (Goutte 1997)

Tikhonov Propose des méthodes pour transformer un problème mal posé en problème

bien posé

Page 77: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Régularisation

Apprentissage Statistique - P. Gallinari77

Principe: Contrôler la variance de la solution en contraignant la fonctionnelle F Optimiser C = C1 + C2(F) C est un compromis entre

C1 : mesure du but poursuivi e.g. MSE, Entropie, ... C2 : contraintes sur la forme de la solution (e.g. distribution des poids)

: poids de la contrainte Moindres carrés régularisés

On reprend le cas de la regression linéaire simple

∑ . ∑ 2 régularisation , 1 régularisation connu aussi sous le nom de « Lasso »

Fig. from Bishop 2006

Page 78: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari78

Résoudre ∑ . ∑

Revient à résoudre le problème d’optimisation sous contrainte ∑ .

Sous contrainte ∑ s pour une certaine valeur de s

Effet de cette contrainte

Fig. from Bishop 2006

Page 79: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Régularisation empirique pour les réseaux de neurones

Apprentissage Statistique - P. Gallinari79

∑ biaise la solution en diminuant les poids inutiles

∑ 2 groupes de poids autour de c

∑ 1 ∑ cellules cachées h + poids

Utiliser des contraintes différentes suivant le rôle des poids Problème : détermination des "hyper-paramètres"

Page 80: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Autres idées pour le problème de la généralisation dans les réseaux de neurones

Apprentissage Statistique - P. Gallinari80

Arrêt de l'apprentissage Elagage : tuer les paramètres inutiles dans un réseau.

Différentes mesures d'utilité ont été proposées Bruiter les entrées (Matsuoka 1992 ; Grandvallet et Canu 1994

; Bishop 1994) Réseaux à convolution

Page 81: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Exemple (Cibas et al, 95, 96)

Apprentissage Statistique - P. Gallinari81

Discriminer entre trois classes de "formes d’onde". Les trois formes de base pour la génération des formes d'onde :

3 classes C1, C2, C3 engendrées respectivement par :

u v. a. de densité uniforme sur [0,1], ~ N(0,I), Classes équiprobables Apprentissage = 10 ensembles disjoints, chacun de 300 exemples Test = 5000 exemples Algorithme : Rétropropagation

1 5 9 13 17 21

6 6 6

h 3

h 2h 1

26)(1

10)(1

2)(1

32

31

21

huuhx

huuhx

huuhx

Page 82: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Evolution des performances pendant l'apprentissage

Apprentissage Statistique - P. Gallinari82

Sans régularisation

Figure 1 a (left), b (right): evolution of the performances (mean square error) duringtraining for MLPs with a varying number of hidden units. (a) corresponds to a stochastic gradient descent and (b) to a conjugate gardient. Each curve corresponds to a two weight layer MLP, the number on the curve gives the size of the hiddenlayer.

0

5

10

15

35

60

5

10

15

3560

Page 83: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Evolution des performances pendant l'apprentissage

Apprentissage Statistique - P. Gallinari83

Avec régularisation

Comparaison de l’erreur en apprentissage (a) et en généralisation (b) pour les réseaux h=15 et h=60 en minimisant le coût ordinaire sans terme de régularisation (...-ord) et le coût avec la régularisation: avec détermination des paramètres à priori (...-WD) et en les estimant pendant l’apprentissage (...-estim)

h=60-WD

h=15-estim

h=60-estimh=15-ord

h=60-ord

h=60-ord

h=15-ord

h=15-estimh=60-estimh=60-WD

Page 84: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Fonctions à Base Radiale

Apprentissage Statistique - P. Gallinari84

Réseau à deux couches Notations

wi. = poids vers la cellule i, xi sortie de la cellule i, x entrée

Risque : moindres carrés

Couche de sortie

g = IdCouche intermédiaire

y

x

j jj xwwA 0

2wxA

2)( A

eAg

2

.0)( jj ijiii wxgwwxGy

Page 85: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

La fonction sigmoïde

Apprentissage Statistique - P. Gallinari85

Distribution de la famille exponentielle :

, : paramètres de la loi, ( paramètre de position , paramètre de dispersion).

Ex. de distributions exponentielles : normale, gamma, binomiale, poisson, hypergéométrique ...

Hypothèse : la distribution des données conditionnellement à chaque classe est de la famille exponentielle, avec un paramètre de dispersion identique pour toutes les classes i.e. :

Alors

)),()())/(((),,( xcabxxp T exp

)),()())/((()/( xcabxCxp iT

ii exp

)(1

1)/(bxwi T

exCP

Page 86: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Capacités d'approximation des PMC

Apprentissage Statistique - P. Gallinari86

Résultats basés sur les théorèmes d'approximation de l'analyse fonctionnelle. (Cybenko (1989))

Théorème 1 (regression): Soit f une fonction saturante continue, alors l'espace des fonctions de la forme ∑ . . est dense dans l’espace des fonctions continues sur le cube unité C(I). i.e. ∀ ∈ ∀ 0, ∃ ∶ sur I

Théorème 2 (classification): Soit f une fonction saturante continue. Soit F une fonction de décision définissant une partition de I. Alors ∀ 0, il existe une fonction de la forme ∑ . . et un ensemble ⊂ tel que 1 (D)

sur D .

(Hornik et al., 1989) Théorème 3 : Pour toute fonction saturante croissante f, et toute mesure de

probabilité m sur , l'espace des fonctions de la forme ∑ . .est uniformément dense sur les compacts de - espace des fonctions continues sur

Page 87: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari87

Fonctions radiales (Park & Sandberg, 1993) Théorème 4 : Si f, fonction réelle définie sur Rn est intégrable,

alors l'espace des fonctions de la forme :

est dense dans L1(Rn) ssi .

Nj

j

jj

wxfvxg 1

. )(.)(

nR

dxxf 0)(

Page 88: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari88

Résultats basés sur le théorème de Kolmogorov Théorème sur la représentation (exacte) des fonctions réelles de Kolmogorov

Toute fonction h de C(I) peut s'écrire sous la forme

où les fonctions g et f sont des fonctions continues d'une variable.

Théorème 6 (Kurkova 1992) Soit h dans C(I), n 2 et R+, alors quelquesoit m vérifiant

m = 2n + 1n/(m-n) + v < / ||h||h(1/m) < v(m - n)/(2m - 3n)v > 0

h peut être approximée à une précision par un perceptron possédant deux couches cachées de fonctions saturantes et dont les sorties sont linéaires. La première couche comprend n.m(m+1) unités et la seconde m2(m+1)n. Les poids sont universels sauf ceux de la dernière couche, pour toutes les fonctions f vérifiant :

f(d)= sup{|f(x1, ..., xn) - f(y1, ..., yn)|, x, y I et |xp - yp| < p}.

))((),...,( 121 11

nq

np ppqqn xfgxxh

Page 89: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Interprétation probabiliste des sorties

Apprentissage Statistique - P. Gallinari89

Risque théorique

Le min de R est obtenu pour ∗ | Coût théorique C pour la famille de fonction

C ,

C , ,

∗ | est bien la solution optimale Dans l’espace des hypothèses, w* / R(w*) = Minw C minimise

simultanément :

, LMSE

, meilleure approximation LMS de |

Page 90: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari90

Cas de la Classification d = (0,…, 0, 1, 0, …, 0) avec un 1 en ième position si classe i

i.e. ∗ meilleure approximation LMS de la fonction discriminante de Bayes (solution optimale).

de façon générale avec des sorties binaires ∗ 1

Coût : di =ij pour x Cj, = coût de la décision i quand la classe est j hi* est le risque conditionnel de la décision i Décision : sortie la plus faible.

L’importance de la précision sur les sorties dépend de l'utilisation (classification OU estimation de probabilité conditionnelle).

)/(]/[ 1 xjPxdE mj iji

Page 91: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage supervisé

Machines à noyaux

Page 92: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Introduction

Apprentissage Statistique - P. Gallinari92

Familles de machines d'apprentissage générales qui exploitent l'idée suivante : Projeter les données dans un espace de grande dimension -

éventuellement infini -où le problème sera facile à traiter Utiliser des "projections" non linéaires permettant des calculs

"efficaces"

Exemples : Machines à Vecteurs Support (généralisent : hyperplan optimal, cadre

Vapnik) Processus Gaussien (généralisent : régression logistique, cadre

Bayesien)

Page 93: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Perceptron : formulation duale

Apprentissage Statistique - P. Gallinari93

Perceptron primalInitialiser 0 0Répeter (t)

choisir un exemple, ,si . 0alors 1

Jusqu'à convergence

Fonction de décision

,

: nombre de fois où l’algorithme a rencontré une erreur de classification sur

Perceptron dualInitialiser , ∈Répeter (t)

choisir un exemple, ,soit :si ∑ . 0alors 1

Jusqu'à convergence

Fonction de décision

.

Matrice de Gram matrice NxN de terme i, j : .matrice de similarité entre données

Page 94: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Représentation DualeExemple introductif : le perceptron

Apprentissage Statistique - P. Gallinari94

Hyp : 2 classes linéairement séparables, sortie désirée d = ± 1

i : mesure de la difficulté àclassifier iFonction de décision :

G = (xi.xj)i,j = 1..N : Matrice de Gram

Perceptron Dual = 0Répeter (t)Pour i = 1 à NSi

alors i = i (t) + 1Jusqu'à convergence

Fonction de décision :

W(0) = 0

Perceptron PrimalW(0) = 0Répeter (t)Pour i = 1 à N

Si di(W(t).xi) 0alors W(t+1) = W(t) + di.xi

Jusqu'à convergence

0)(1

N

j

ijjji xxdd

n

iii xwxF

1)()( sgn

N

i

ixidi

W1

N

ixixid

ixF

1).()( sgn

Page 95: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Représentation Duale

Apprentissage Statistique - P. Gallinari95

La plupart des machines à apprentissage linéaires ont une représentation duale Exemples

Adaline, regression, regression ridge, etc L’information sur les données est entièrement fournie par la matrice de

Gram : . , … , qui joue un rôle central

La fonction de décision F(x) s’exprime comme une combinaison linéaire de produits scalaires entre la donnée d’entrée x et les exemples d’apprentissage

Les machines à noyau généralisent ces idées Une fonction noyau K est définie sur x (on suppose ∈ ) par

, Φ , Φoù Φ est une fonction de dans un espace muni d’un produit scalaire

Page 96: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Produit Scalaire et Noyaux

Apprentissage Statistique - P. Gallinari96

Projection non linéaire dans un espace de grande dimension H (en général dim H >> n, et peut même être infinie) Φ: → avec ≫

Machine linéaire dans H - Primal : ∑ Φ

Machine linéaire dans H - Dual :

Calculer les produits scalaires dans l'espace initial : choisir F /

avec K : fonction noyau (i.e. symétrique)

bxxdxFxdWNi

ii

i

Ni

ii

i

)()()( )(1..1..

)',()'().( xxKxx

bxxKdxFNi

ii

i 1..

),()(

Page 97: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari97

Généralise le produit scalaire dans l'espace initial Le calcul de F ne dépend pas directement de la taille de H

: les calculs sont faits dans l'espace initial. La machine linéaire dans H peut être construite à partir

d'une fonction K sans qu'il soit nécessaire de définir explicitement : en pratique, on spécifiera directement K.

Cette idée permet d'étendre de nombreuses techniques linéaires au non linéaire: il suffit de trouver des noyaux appropriés Exemples

ACP, Analyse discriminante, regression, etc

Page 98: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Caractérisation des noyaux

Apprentissage Statistique - P. Gallinari98

Quand peut on utiliser cette idée ? Cas d'un espace fini Soit X = { x1,…, xN}, K(x,x') une fonction symétrique sur X, K

est une fonction noyau ssi la matrice est positive semi-définie (valeurs propres 0)

Cas général : Conditions de Mercer (noyaux de Mercer) Il existe une application et un développement

ssi est fini

Nji

ji xxK 1,)),((K

1)'(.)()',(

iii xxxxK

dxxgg 2)(/

0')'()()',( dxdxxgxgxxK

Page 99: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Caractérisation des noyauxEspace de Hilbert à noyau autoreproduisant Une fonction K: X*X R qui est soit continue soit définie sur un domaine fini peut

s’écrire sous la forme d’un produit scalaire :

avec Φ : x Φ(x) F espace de Hilbert

ssi c’est une fonction symétrique et toutes les matrices formées par la restriction de K à un échantillon fini sur X sont semi-définies positives).

Résultat à la base de la caractérisation effective des fonctions noyaux

Il permet de caractériser K comme un noyau sans passer par Φ C’est une formulation équivalente aux conditions de Mercer

)(),(),( zxzxK

Apprentissage Statistique - P. Gallinari99

Page 100: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

L’espace de Hilbert associé à K :

Le produit scalaire défini sur cet espace :

l

iiiii liRXxNlxKF

1..1,,,/,.)(

l

ijj

n

jii

l

ijiji

n

j

n

jjj

l

iii

zfxgzxKgf

xKgxKf

1 11 1

11

)()(),( ,

,.)((.) ,,.)((.)Soient

Apprentissage Statistique - P. Gallinari100

Page 101: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Noyau auto-reproduisant

Si on prend g(.) = K(x,.), alors

)(),( ,.)(,1

xfxxKxKfl

iii

Page 102: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Exemples de noyaux

Apprentissage Statistique - P. Gallinari102

2 d de polynomes des ensemble ss i.e.

),)2(,).(()(/ avec )().(),(

).(),(

21n

: 2 d de monomes les tousi.e.

).()(/)( avec )().(),(

).)(.(.),(

.),(

,1,1,,

2

,1,,

1,

2

1

2

ccxxxx(x)zxzxK

czxzxK

xxxxzxzxK

zzxxzxzxK

zxzxK

niinjijiji

njijiji

n

jijiji

n

iii

Page 103: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari103

Exemples de noyaux

).(

gaussien noyau exp

d ordred' polynome )1.(

),(2

cxvxSigmoïde

xx

xx

xxK

i

i

di

i

Page 104: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Construction des noyaux en pratique

Apprentissage Statistique - P. Gallinari104

Les résultats de Mercer servent à prouver les propriétés des fonctions noyaux. En pratique, elles sont peu utiles

Pour construire des noyaux, on procède par combinaison à partir de noyaux connus

Si K1 et K2 sont des noyaux sur X2, K3 défini sur F, les fonctions suivantes sont des noyaux : K(x, z) = K1 (x, z) + K2 (x, z) K(x, z) = K1 (x, z) . K2 (x, z)* K(x, z) = aK1 (x, z) K(x, z) = K3 (Φ(x), Φ(z)) …..

Page 105: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Machines à vecteurs support

Apprentissage Statistique - P. Gallinari105

Exposé du cours : discrimination 2 classes Cas général : discrimination multi-classes, régression,

densité Idées Projeter -non linéairement- les données dans un espace de

"très" grande taille H Faire une séparation linéaire de bonne qualité dans cet espace Raisonner dans H, mais résoudre le problème d'optimisation

dans l'espace de départ (noyaux)

Page 106: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari106

Notion de marge

WxF )(

W

Wb

H : F(x) = W.x + b = 0

Marge géométrique pour xi :

Marge de W pr à ens. D :Mini(M(xi))

Hyperplan de marge maximale :

MaxW(Mini(M(xi)))

)()(Wbx

WWdxM iii

Page 107: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Marge géométrique vs marge fonctionnelle

Apprentissage Statistique - P. Gallinari107

Marge géométrique di.F(xi)/||w||

Marge fonctionnelle di.F(xi)

Remplacer w par k.w ne change pas la fonction de décision ou la marge géométrique, mais change la marge fonctionnelle.

Pour les SVM, on fixera la marge fonctionnelle à 1 et on optimisera la marge géométrique.

Page 108: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Prémisses : Séparation linéaire à hyperplan optimal (1974)

Apprentissage Statistique - P. Gallinari108

Hyp : D linéairement séparable

Fonction de décision : F(x) = W.x + b Pb apprentissage : trouver l'hyperplan optimal H* qui sépare D i.e.

di.F(xi) 1 , i

avec une marge maximale M =

i.e. : Problème Primal :

1 avec , 1.. i

Niii ddxD

wwxFd ii

i

1)(.min

1)(...

Minimiser 2

ii xFdCS

W

Page 109: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari109

Solution : W* dépend uniquement des points supports i.e. points sur la marge qui vérifient : di.F*(xi) = 1

Rq: Quelque soit la dimension de l'espace, le nombre de degrés de liberté est "égal" au nombre de points de support

F* dépend uniquement du produit scalaire xi.x

support support

i i .x)(* x*i i

ii

ii xdxFdw

Marge

Vecteurs Supports

Page 110: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari110

Apprentissage :

On résoud le problème d'optimisation dit dual :

Problème minimisation quadratique sous contraintes

0et 0.

.)( Maximiser

ii

,

ii

ji

jjji

ii

dCS

xxddL ii

Page 111: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Machines à vecteurs supports

Apprentissage Statistique - P. Gallinari111

Faire une séparation à marge max. dans un espace défini par une fonction noyau.

Tous les résultats sur le classifieur linéaire à marge max. se transposent en remplaçant par .xxi ),( xxK i

bxxKdxF

xxKxx

bxxdxFxdW

RR

SVx

ii

i

SVx SVx

ii

iii

i

pn

i

i i

..

.. ..

),()(

)',()'().(

)()()( )(

:

Page 112: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari112

Apprentissage : On résoud le problème d'optimisation dual :

Problème minimisation quadratique sous contraintes dans l ’espace de départ

Difficile en pratique : différents algorithmes. Dans la solution optimale i > 0 uniquement pour les points

support. Seuls les produits scalaires K apparaissent, et pas les .

0et 0.

),()( Maximiser

ii

,

ii

ji

jijiji

ii

dCS

xxKddL

Page 113: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Propriétés de généralisation -exemples

Apprentissage Statistique - P. Gallinari113

Th 1 peu de points support meilleure généralisation indépendant de la taille de l'espace de départ

Th 2 Si l'hyperplan optimal passe par l'origine et a pour marge

Alors

Dans les 2 cas, E[P()] est l'espérance sur tous les ensembles de taille l-1, et E[membre droit] est l'espérance sur tous les ensembles d'apprentissage de taille l (leave one out).

1ageapprentissexemples#supports]vecteurs[#))](([

ExerreurPE

qxNiq i ,1../

N

][))](([

2

2

qExerreurPE

Page 114: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Cas non linéairement séparable

Apprentissage Statistique - P. Gallinari114

Marges molles

L'algorithme est instable Dans les cas non linéairement séparables Dans le cas de données réelles même linéairement séparables Solution adoptée en pratique

autoriser des erreurs, i.e. prendre pour contraintes :

ηi = 0, xi est correctement classifié et est du bon coté de la marge

0 < ηi <= 1, xi est correctement classifié, est à l’intérieur de la marge

ηi > 1, xi est mal classé

ηi : slack variable

0

1))(.(

i

iii bxWd

Page 115: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

But Maximiser la marge tout en pénalisant les points qui sont mal classés

Formalisation Plusieurs expressions possibles du problème L’une des plus courantes :

C fixé par validation croisée joue le rôle de paramètre de régularisationNiNibxwd

CS

CwwMin

ii

N

i

..1,0 ..1,1).(

..

marge) lamax (i.e. ).(

i

i

1

i

Apprentissage Statistique - P. Gallinari115

Page 116: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Marges molles – formulation duale

0et 0.

),()( Maximiser

ii

,

ii

ji

jijiji

ii

dCCS

xxKddL

Apprentissage Statistique - P. Gallinari116

Page 117: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Algorithmes d’optimisation Algorithmes d’optimisation standard pour la programmation

quadratique sous contrainte e.g. Sequential Minimal Optimization (SMO)

Algorithmes stochastiques - SVM Results –(Bottou 2007) Task : Document classification - RCV1 documents belonging to the class

CCAT (2 classes classification task) Programs SVMLight and SVMPerf are well known SVM solvers written by Thorsten Joachims.

SVMLight is suitable for SVMs with arbitrary kernels. Similar results could be achieved using Chih-Jen Lin‘s LibSVM software. SVMPerf is a specialized solver for linear SVMs. It is considered to be one of the most efficient optimizer for this particular problem.

Algorithm (hinge loss) Training Time Primal cost Test Error

SVMLight 23642 secs 0.2275 6.02%

SVMPerf 66 secs 0.2278 6.03%

Stochastic Gradient (svmsgd) 1.4 secs 0.2275 6.02%

Stochastic Gradient (svmsgd2 1.4 secs 0.2275 6.01%Apprentissage Statistique - P. Gallinari117

Page 118: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Annexe : OptimisationProblèmes sous contraintes égalités, inégalités

Soient f, gi, i = 1..k, hj, j = 1 ..n des fonctions définies sur Rn à valeur dans R On considère le problème primal suivant (Pb. 0) :

mjwhkiwg

RwwfMin

j

i

n

..1,0)(..1,0)(

sContrainte Sous )),((

Apprentissage Statistique - P. Gallinari118

Page 119: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Optimisation non contrainte Fermat

Une C.N. pour que w* soit un min. de f(w) est

Si f est convexe c’est une Condition Suffisante

F est convexe si ∀ ∈ 0,1 , 1 1

0*)(

wwf

Apprentissage Statistique - P. Gallinari119

Page 120: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

OptimisationLagrangien

On considère le (Pb. 1) :

On définit le Lagrangien L pour (Pb. 1) par

les βi sont les coefficients de Lagrange

mjwhCS

RwwfMin

j

n

..1,0)( ..

)),((

m

ijj whwfwL

1)()(),(

Apprentissage Statistique - P. Gallinari120

Page 121: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

OptimisationTh. Lagrange

Une CN pour que w*, * soit solution de (Pb. 1) est que en ce point

Si L(w, *) est une fonction convexe de w, c’est une C.S.

0*)*,(

0*)*,(

wLw

wL

Apprentissage Statistique - P. Gallinari121

Page 122: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

OptimisationLagrangien augmenté De même, on définit le Lagrangien augmenté pour (Pb. 0) :

m

jjj

k

iii whwgwfwL

11

)()()(),(

Page 123: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

OptimisationTh. Kuhn et Tucker

On considère (Pb. 0) avec Ω convexe et f C1 convexe, gi, hj affines (hi = A.w – b)

1 CNS pour que w* soit un optimum est qu’il existe α* et β* /

kikiwg

kiwg

wLw

wL

i

i

ii

..1,0*..1,0*)(

..1,0*)(*

0*)*,*,(

0*)*,*,(

Apprentissage Statistique - P. Gallinari123

Rq :

Soit une contrainte est active (αi* ≠ 0) et gi(w*) = 0), w* est un point frontière de la région admissible

Soit elle est inactive ((αi* = 0) et w* est dans la région admissible

Page 124: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Formulation duale du problème d’optimisation Le (Pb. 0 _ formulation primale) est équivalent à la forme duale

suivante :

Rq : est une fonction de , uniquement

0 S.C.

)),,(inf ( Maximiser ,

wLw

Apprentissage Statistique - P. Gallinari124

),,(inf wLw

Page 125: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

SVM – formulations primale et duale SVM

Ω, f, contraintes sont convexes, L est quadratique On étudie le cas, D = {(xi ,di)}i = 1..N linéairement séparables

Formulation similaire pour le cas non linéairement séparable

Pb. Primal

Lagrangien primal

Lagrangien dual

Nibxwd

CSwwMin

ii ..1,1).(

.. marge) lamax (i.e. ).(

Apprentissage Statistique - P. Gallinari125

0

)1).((.21),,(

1

i

N

i

iii bxwdwwbwL

N

i

jiji

jiN

ii xxddbwL

11).(

21),,(

Page 126: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

SVM – formulations primale et duale Pb. Dual

Fonction de décision

Ni

d

CS

xxddbwL

i

N

ii

i

N

i

jiji

jiN

ii

..1,0

0

..

).(21),,(

1

11

VSi

ii

i bxxdxF.

*).(**)*,,(

Apprentissage Statistique - P. Gallinari126

Page 127: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage non supervisé

Algorithme EM et mélange de densités

Probabilistic Latent Semantic Analysis

Latent Dirichlet Allocation

Spectral clustering

Non Negative Matrix Factorization

Page 128: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Applications

Apprentissage Statistique - P. Gallinari128

analyse des données quand il n'y a pas de connaissance sur la classe. e.g. pas d'étiquetage des données (problème nouveau)

trop de données ou étiquetage trop compliqué e.g. traces utilisateur (web), documents web, parole, etc

réduction de la quantité d'information e.g. quantification

découverte de régularités sur les données ou de similarités.

Page 129: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage non superviséAlgorithme Espérance Maximisation (EM)

Application aux mélanges de densités

Page 130: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Algorithme E. M. (Espérance Maximisation)

Apprentissage Statistique - P. Gallinari130

On dispose de données D = {xi}i = 1..N

On n’a pas d’étiquette di

d’un modèle génératif, de paramètres W : FW Le modèle « explique » la génération des données

On veut trouver les paramètres du modèle qui expliquent au mieux lagénération des données

On se donne un critère Ici on considère la vraisemblance des données qui est le critère le plus

fréquent P(D| W) = P(x1, …, xN| W)

D’autres critères sont également couramment utilisés On va essayer de déterminer les paramètres W de façon à maximiser la

vraisemblance

Page 131: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Exemple

On recueille des données sur deux populations e.g. taille d’individus D = {xi}i = 1..N

Hypothèse les données de chaque population sont gaussiennes Elles ont la même variance 2

Problème estimer les i et les à partir des données Si les di sont connus, i.e. D = {(xi, di}i = 1..N la solution est simple

On a deux population séparées (2 classes) C1, C2

La maximisation de la vraisemblance donne l’estimateur classique de la moyenne

Difficulté : les di sont inconnus

),(),,( 22

21 IdNIdN

Apprentissage Statistique - P. Gallinari131

ji Cx

i

jj x

C1

Page 132: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Cas où l’appartenance est connue

Apprentissage Statistique - P. Gallinari132

Vraisemblance ∏ |∈ ∏ |∈

En pratique on maximise la log-vraisemblance log ∑ ∑ ∈∈

Cas des gaussiennes

exp

0 ⇔| |

∑ ∈

Page 133: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Cas où la probabilité d’appartenance est connue

Apprentissage Statistique - P. Gallinari133

On connait | ,k 1,2

Log-vraisemblance log ∑ log

Cas des gaussiennes

0 ⇔∑ .

∑ |

Rq : si on ne connait les | ,k 1,2 leséquationsformentunsystèmenonlinéairecouplé,insoluble.

Page 134: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Variables cachées (ou latentes)

Apprentissage Statistique - P. Gallinari134

On postule l’existence de variables cachées h responsables de la

génération des données À chaque xi, on associe sa classe cachée hi

H = {hi}I = 1..N

l’existence d’une fonction densité jointe sur les données observées et cachées p(x, h)

P(D, H| W) sera appelé vraisemblance complète des données pour le modèle W.

Remarque Les variables h sont inconnues et sont considérées comme des

variables aléatoires P(D, H| W) sera elle même une variable aléatoire

Page 135: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Algorithme EM On veut maximiser P(D/W)à partir de l'observation des données visibles

Problème

la maximisation directe de P(D/W) ne conduit pas à des formules calculatoires (algorithme)

Solution : on maximise de façon itérative une fonction auxiliaire Q

L’espérance de la vraisemblance des données complètes connaissant le modèle courant

L’espérance est calculée par rapport à la distribution des variables cachées h

Le modèle courant à l’étape t est noté W(t)

Remarque : dans cette expression

D et W(t) sont des constantes

h est une variable aléatoire de densité p(h|x, W(t))

W est les paramètres du modèle que l’on veut estimer

H

ttt WHDpWDHpWDWHDpEWWQ )/,(log),/(,)//,(log)/( )()()(

Apprentissage Statistique - P. Gallinari135

Page 136: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Algorithme EM

Apprentissage Statistique - P. Gallinari136

L’algorithme converge vers un maximum local de la fonction Q et de P(D/W)

Initialiser W = W(0)

1. Etape E : EspéranceOn calculeOn en déduitL'espérance est calculée par rapport à la distribution de H

2. Etape M : MaximisationEtant donnée la distribution courante sur H, trouver les paramètres quimaximisent Q

),/( )(tWDHp)/( )(tWWQ

)(1)( ,)//,(logmaxarg t

W

t WDWHDpEW

Page 137: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari137

Remarques Lors de l'étape E, on estime la distribution de H, à partir

des valeurs courantes des paramètres W(t). Au lieu d'essayer de maximiser directement, on utilise la

fonction auxiliaire Q. On peut montrer la convergence de l'algorithme par :

L'algorithme est utilisé pour les algorithmes non supervisés, semi - supervisés les données manquantes ou les composantes manquantes dans les données les HMM ...

),/( )(tWDHp

)/( WDp

)/()/()/()/( tttt WDpWDpWWQWWQ

Page 138: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Exemple

Apprentissage Statistique - P. Gallinari138

Mélange de densités - Cas de deux classe gaussiennes, connu But (MV) : trouver On considère , les hi sont les données

cachées Algorithme

Initialisation itérer

Etape E

Etape M

NiixD ..1)( ),/(maxarg, 2121 Dp

Niii hxHD ..1),(

calculer i = 1..N, j = 1,2)/( ii xjhp )],,/([),,,,( 212121

tttttt HDPEQ

Trouver les μ1, μ2 qui maximisent Qcalculer

Ni

Nitj i

ii

xjhp

xxjhp

..1

..1)1(

)/(

)/(

(0)2 ,)0(

1

Page 139: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari139

Remarques Etape E : calcul de la responsabilité de chaque gaussienne pour

chaque point

Etape M : chaque centre est défini comme le centre de toutesles données, chacune étant pondérée par cette responsabilité

Cas limite : = 0 : algorithme des k-moyennes

k

iii

iiiii

khxpkhpjhxpjhpxjhp

)/()()/()()/(

Page 140: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Mélange de densités – cas gaussien

Apprentissage Statistique - P. Gallinari140

On suppose que le modèle génératif des données est un mélange de densités gaussiennes On fixe a priori le nombre de composantes du mélange à k on suppose que les données x sont unidimensionnelles

Paramètres Coefficients du mélange p(l| x), moyennes et écarts types

k

llxplpxp

1)/()()( 2

2

2)(

2/12 )2(1)/( l

lx

l

elxp

kllllpW

1..,),(

Page 141: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Vraisemblance

Vraisemblance complète variables cachées : hi classe de xi

N

i

k

l

i WlxpWlpWDp1 1

),/()/()/(

)),/()/((

)),/()/(()/,(

1 1

1

N

i

ik

l lh

N

i

iii

WlxpWlp

WhxpWhpWHDp

i log

loglog

Apprentissage Statistique - P. Gallinari141

Page 142: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Mélange de densité – Etapes E et M

Apprentissage Statistique - P. Gallinari142

Etape E

Etape M

),/()/(log),/(

),/()/,(log...)],(log[)/(

1 1

)(

1 1 1

)(,/

)(

1)(

WlxpWlpWxlp

WxhpWHDpWHDpEWWQ

iN

i

k

l

ti

k

h

k

h

N

i

tiiWXH

t

Nt

kl

tti

ttit

i Wlp(hWlhxp

Wjp(hWjhxpWxjhp

1..

)()(

)()()(

)).,/(

)),/(),/(

))1)/(((1)/( contrainte sous

)(

11

k

l

k

l

WlpQMinWlp

QMin

Page 143: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Mélange de densités – Reestimation dans l’étape M

Apprentissage Statistique - P. Gallinari143

i

titi

tii

tj

iti

tj

i

tii

iti

tj

WxjpN

jp

Wxjp

xWxjp

n

Wxjp

xWxjp

),/(1)(

),/(

),/(1

),/(

),/(

)()1(

)(

2)1()(2)1(

)(

)(

)1(

Page 144: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage non supervisé

Mélange de densitésApprentissage par échantillonnage de Gibbs

Page 145: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Les méthodes MCMCMarkov Chain Monte Carlo

Apprentissage Statistique - P. Gallinari145

Méthodes de calcul intensif basées sur la simulation pour Echantillonnage de variables aléatoires

{x(t)}t=1..T qui suivent une certaine distribution p(x)

Calcul de l’espérance de fonctions suivant cette distribution

E[f(x)] sera estimé par 1/T . Σt=1..Tf(x(t))

e.g. moyenne, marginales, …

Maximisation de fonctions Argmaxxp(x)

Page 146: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Echantillonneur de Gibbs On veut estimer une densité p(x) avec x = (x1,..,xn) Hyp

On connait les lois conditionnelles p(xi| x1,.., xi -1, xi+1,..., xn) = p(xi| x - i)

Algorithme Initialiser {xi, i = 1..n} Pour t = 1 …T faire

)(~nner Echantillo

........

)(~nner Echantillo

1

111

1

tnn

tn

tt

xxpx

xxpx

Apprentissage Statistique - P. Gallinari146

Page 147: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari147

Propriétés Sous certaines conditions de régularité, la procédure converge

vers la distribution cible p(x) Les échantillons résultants sont des échantillons de la loi jointe p(x)

On n’a pas besoin de connaitre la forme analytique des p(xi| x -i) mais uniquement de pouvoir échantillonner à partir de ces distributions Mais la forme analytique permet d’avoir de meilleurs estimés

Avant de retenir les points échantillons, on autorise souvent une période de “burn-in” pendant laquelle on fait simplement tourner l’algorithme “à vide”

Gibbs facile à implémenter, adapté aux modèles hierarchiques (cf LDA)

Page 148: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Cas du mélange de deux lois gaussiennes Modèle

On va considérer un modèle augmenté en ajoutant une variable cachée h Les données complètes sont les (xi, hi)

Les paramètres à estimer sont :

On va utiliser Gibbs en échantillonnant sur les densités conditionnelles Pour simplifier on suppose dans l’example que les proportions p(l) et les

variances σ sont fixées, on estime juste les moyennes μ1 et μ2

Pour cela, on va échantillonner suivant la distribution jointe (h(t), μ1(t), μ2

(t))

2

1)/()()(

llxplpxp

2..1,),( llllpW

Apprentissage Statistique - P. Gallinari148

Page 149: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Echantillonneur de Gibbs pour le modèle de mélange de deux gaussiennes

2,1),,ˆ(~générer 2.

2,1,)1(

).1(ˆ

calculer

2,1,),(),(

),()

selon 1,0générer 1.

1Pour 1...T Répéter t

, initiales valeursdesChoisir

j(t)j

1

)(

1

)(

j

2)1(

2)1(

21)1(

1)1(

1

)1()1(

)(

)0(2

)0(1

jN

jh

xh

jxppxpp

xppjp(h

h

...N i

j

N

i

ti

N

ii

ti

ti

tti

tj

tji

tj

i

ti

Apprentissage Statistique - P. Gallinari149

Page 150: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Lien avec l’algorithme EM

Apprentissage Statistique - P. Gallinari150

Les étapes pour cet exemple sont les mêmes que avec EM

Différence Au lieu de maximiser la vraisemblance, aux étapes 1 et 2, on

échantillonne Etape 1 : on simule les variables cachées h au lieu de calculer E(h|W, D) Etape 2 : on simule à partir de p(μ1, μ2|h, D) au lieu de calculer le max.

vraisemblance p(μ1, μ2| D) dans EM

Page 151: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage non supervisé

Algorithmes à variables latentes Probabilistic Latent Semantic Analysis

Latent Dirichlet Allocation

Page 152: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Preliminaries : unigram model

Generative model of a document

Select document length Pick a word w with probability p(w) Continue until the end of the document

Applications Classification Clustering Ad-hoc retrieval (language models)

i

i dwpdp )()(

Apprentissage Statistique - P. Gallinari152

Page 153: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Preliminaries - Unigram model – geometric interpretation

Apprentissage Statistique - P. Gallinari153

2/1)(

4/1)(

4/1)(

3

2

1

tionrepresenta d doc

dwp

dwp

dwp

P(w1|d)

P(w3|d)

P(w2|d)

Document d

Word simplex

Page 154: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Latent models for document generation

Apprentissage Statistique - P. Gallinari154

Several factors influence the creation of a document (authors, topics, mood, etc). They are usually unknown

Generative statistical models Associate the factors with latent variables Identifying (learning) the latent variables allows us to uncover

(inference) complex latent structures

Page 155: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Probabilistic Latent Semantic Analysis -PLSA (Hofmann 99)

Apprentissage Statistique - P. Gallinari155

Motivations Several topics may be present in a document or in a document

collection Learn the topics from a training collection Applications

Identify the semantic content of documents, documents relationships, trends, …

Segment documents, ad-hoc IR, …

Page 156: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

PLSA

Apprentissage Statistique - P. Gallinari156

The latent structure is a set of topics Each document is generated as a set of words chosen from selected

topics A latent variable z (topic) is associated to each word occurrence in the

document

Generative Process Select a document d, P(d) Iterate

Choose a latent class z, P(z|d) Generate a word w according to P(w| z)

Note : P(w| z) and P(z|d) are multinomial distributions over the V words and the T topics

Page 157: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

PLSA - Topic

A topic is a distribution over words

Remark A topic is shared by several words A word is associated to several topics

word P(w|z)

machine 0.04

learning 0.01

information 0.09

retrieval 0.02

…… …….

Apprentissage Statistique - P. Gallinari157

P(w|z)

words

Page 158: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

PLSA as a graphical model

Apprentissage Statistique - P. Gallinari158

z

dzPzwPdwP

dwPdPwdP

)()()(

)(*)(),(

Boxes represent repeated samplingd wz

Corpus level

Document level

P(z|d) P(w|z)

DNd

Page 159: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

PLSA model

Apprentissage Statistique - P. Gallinari159

Hypothesis # values of z is fixed a priori Bag of words Documents are independent

No specific distribution on the documents

Conditional independence z being known, w and d are independent

Learning Maximum Likelihood : p(Doc-collection) EM algorithm and variants

Page 160: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

PLSA - geometric interpretation

Topici is a point on the word simplex

Documents are constrained to lie on the topic simplex

Creates a bottleneck in document representation

z

dzPzwPdwP )()()(

Apprentissage Statistique - P. Gallinari160

Topic simplex

topic2

topic1

topic3w2 w1

w3

Word simplex

Document d

Page 161: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Applications

Apprentissage Statistique - P. Gallinari161

Thematic segmentation Creating documents hierarchies IR : PLSI model Clustering and classification Image annotation Learn and infer P(w|image)

Collaborative filtering

Note : #variants and extensions E.g. Hierarchical PLSA (see Gaussier et al.)

Page 162: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Latent Dirichlet Allocation - LDA (Blei et al. 2003)

Apprentissage Statistique - P. Gallinari162

LDA is also a topic model Extends PLSA

Motivations Generalization over unseen documents

Define a probabilistic model over documents Not present in PLSA

Allows to generate (model) unseen documents Overtraining

In PLSA, the number of parameters grows with the corpus size LDA constrains the distribution of topics for each document and

words for each topic

Page 163: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

LDA - model

Apprentissage Statistique - P. Gallinari163

Similar to PLSA with the addition of a prior distribution on the topic distribution

Generative process For a document Topic distribution

Choose θ ~ Dirichlet () a distribution over topics

Words For each document word w Choose a topic z ~ multinomial (θ) Choose a word w from p(w | θ, ) multinomial probability conditioned on

topic z

Page 164: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

LDA - model

Apprentissage Statistique - P. Gallinari164

ddzwpzpppWp

zwpzpppWZp

d

i

d

N

i ziii

N

iiii

1

1

),()()()(),(

),()()()(),,,,(

θ wz

Corpus level

Document level

Ф(z)

Multinomial

Dirichlet Multinomial

Nd

D

βT

Dirichlet

Page 165: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

LDA – model - unfolded

Apprentissage Statistique - P. Gallinari165

P(w|z1,1)

words

P(z|1)

topics

1 2

Z1,1 Z1,2Z2,1

w1,1 w1,2 w2,1

Doc1 Doc2

………

Page 166: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

PLSA vs LDA - geometric interpretation

PLSA provides a sampling of the document distribution on the topic simplex

LDA provides an estimate of the document distribution on the topic simple

Apprentissage Statistique - P. Gallinari166

topic2

topic1

topic3w2 w1

w3

Observed documents

topic2

topic1

topic3w2 w1

w3

Document distribution

Page 167: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Dirichlet etc…

Apprentissage Statistique - P. Gallinari167

, are priors on the distributions and Perform a smoothing of and distributions , control the amount of smoothing

Dirichlet and multinomial Dirichlet is a conjugate prior for multinomial

Allows to compute closed forms for posterior distributions

Page 168: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

LDA applications

Apprentissage Statistique - P. Gallinari168

Exploratory analysis Discovering topics Topic evolution Document tagging by most relevant topic words

Classification Collaborative filtering Image annotation IR All latent models Inference on latent variables

Page 169: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

LDA tagging (Blei et al 2003)

Apprentissage Statistique - P. Gallinari169

Page 170: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Finding topics in PNAS (Griffith et al. 2004)

Apprentissage Statistique - P. Gallinari170

PNAS categories

LDA topics

Mean θi value for the most significant topic i on this

category

Page 171: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Peer to Peer document download analysis (Denoyer 2008)

Apprentissage Statistique - P. Gallinari171

Nodes are files Two nodes are connected if they have been dowloaded by

at least 20 peers (500 K peers in total and 2.5 K files) Colors indicate the thematic clustering performed by

LDA using the key words associated to files Results Strong correspondance between download (connections) and

thematic communities

Page 172: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Peer to Peer document download analysis (Denoyer 2008)

Apprentissage Statistique - P. Gallinari172

Page 173: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Author-recipient topic model (McCallum et al. 2004)

Apprentissage Statistique - P. Gallinari173

Learning from Enron data

Identify

•Topic

•Author-recipient

Page 174: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

LDA – learning and inference

Apprentissage Statistique - P. Gallinari174

Exact learning and inference are intractable Approximate models Variational models Gibbs sampling Expectation propagation…

Page 175: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Other latent models

Apprentissage Statistique - P. Gallinari175

Image annotation Author-topic model Author-Recipient-Topic …

Page 176: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Example: Discovering e-communities (Zhou et al 2006)

Apprentissage Statistique - P. Gallinari176

Usual methods Rely mostly on graph and connectivity analysis

Machine learning Introduce semantic relationships

e.g. shared documents in e-mails or linked documents for the web Common interests

Example : e-mail analysis Recipient list (connectivity) Message body (Semantic information) Identify communities of users based on their exchanges, and

topics

Page 177: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari177

A document is characterized by 3 latent variables Content t Author u Community c

Goal Compute p(c, u, z | w)

Message generation d Choose a community c Choose an author in the community

Choose a topic t Choose a word according to topic distribution w

Page 178: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Community-user-topic model

Apprentissage Statistique - P. Gallinari178

di wzCorpus level

Document level

cNd

D

ФβT

C

U

Distribution of users over communities

Page 179: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Example ( Zhou 06)

Apprentissage Statistique - P. Gallinari179

Page 180: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage non supervisé

Spectral Clustering

Apprentissage Statistique - P. Gallinari180

Page 181: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Spectral Clustering (after Von Luxburg 2007)

Apprentissage Statistique - P. Gallinari181

Intuition x1, …, xn data points, wij similarity between xi and xj

G = (V, E) graph vertex vi corresponds to data point xi

Edges are weighted by wij

Clustering amounts at finding a graph partition such that Edges between clusters have low weights Edges among points inside a cluster have high values

Page 182: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari182

Graphs notations G = (V, E) undirected graph

V = {v1, …, vn) Edges are weighted, W = (wij)I, j = 1…n , wij ≥ 0 is the weight matrix

D : diagonal matrix with ∑

Page 183: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari183

Building similarity graphs from data points Different ways to build a similarity graph Locally connected graphs: k-nearest neighbor graphs

Two vertices are connected if one of them is among the k-nearest neighbor of the other

Or two vertices are connected if both are in the k-neighborhood of the other

Edges are then weighted using the similarity of the vertices

Fully connected graphs

exp /2 )

Page 184: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari184

Graph Laplacians Unnormalized graph Laplacian

Normalized graph Laplacians

I symmetric

interpretation : random walk on the graph

Page 185: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari185

Properties of the unnormalized graph Laplacian L satisfies:

∀ ∈ , ∑ ,

L is symmetric, positive semi-definite The smallest eigenvalue of L is 0, the corresponding

eigenvector is 1 (vector with n 1)

L has n non negative eigenvalues 0 …

Page 186: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari186

Properties of the normalized graph Laplacians

∀ ∈ , ∑ ,

Lsym and Lrw are positive semi-definite and have n non negative eigenvalues 0 …

is an eigenvalue of Lrw with eigenvector u iff is an eigenvalue of Lsym with eigenvector D1/2u

Page 187: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Unnormalized spectral clustering

Apprentissage Statistique - P. Gallinari187

Idée Projeter les points x ∈ , i 1…n, dans un espace de

dimension k dans lequel le clustering se fait facilement

Page 188: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Unnormalized spectral clustering

Apprentissage Statistique - P. Gallinari188

Input: n points x1, …, xn, similarity matrix S Output: clusters Construct similarity graph and corresponding weight matrix W Compute unnormalized Laplacian L Compute first eigenvectors of L (corresponding to smallest

eigenvalues): u1, …, uk

U: n x k matrix with columns u1, …, uk

For i = 1…n, ∈ i-th row of U Cluster yi, i = 1…n with k-means into clusters C1, …, Ck

k clusters in the initial space: C’1, …, C’k / C’i = {xj / yj Ci}

Note: Similar algorithms with normalized Laplacians

Page 189: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage non supervisé

Non Negative Matrix Factorization

Apprentissage Statistique - P. Gallinari189

Page 190: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Matrix Factorization

Apprentissage Statistique - P. Gallinari190

Idea Project data vectors in a latent space of dimension k < m size

of the original space Axis in this latent space represent a new basis for data

representation Each original data vector will be approximated as a linear

combination of k basis vectors in this new space Data are assigned to the nearest axis This provide a clustering of the data

Page 191: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Matrix factorization

Apprentissage Statistique - P. Gallinari191

X = {x.1,…, x.n}, ∈ X m x n matrix with columns the x.i s Low rank approximation of X

Find factors U, V, / With U an m x k matrix, U a k x n matrix, k < m, n

x

m x n m x k k x n

Many differentdecompositions e.g. SingularValue Decomposition, Non Negative Matrix Factorization, Tri

factorization, etc

X U V

Page 192: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

MARAMI 2013 - Learning representations for social networks

192

Applications Recommendation (User x Item matrix)

Matrix completion

Link prediction (Adjacency matrix) …

Page 193: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

MARAMI 2013 - Learning representations for social networks

193

. ∑ .

Columns ofU,u.j arebasisvectors,the arethecoefficientof . inthis basis

X V

x.j v.ju.1u.2u.3

Original data Basis vectorsDictionnary

Representation

x

v.j

u.1

u.2

u.3

Page 194: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

MARAMI 2013 - Learning representations for social networks

194

Interpretation If X is a User x Item matrix

Users and items are represented in a common representation spaceof size k

Their interaction is measured by a dot product in this space

x.jv.j

ui.

Original data User Representation

Item Representation

xUsers

Items

Page 195: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

MARAMI 2013 - Learning representations for social networks

195

Interpretation If X is a directed graph adjacency or weight matrix

x.jv.j

ui.

Original data Sender Representation

ReceiverRepresentation

xNodes

Nodes

Page 196: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

MARAMI 2013 - Learning representations for social networks

196

Loss function - example Minimize constraints on U, V: , e.g.

Positivity (NMF) Sparsity of representations, e.g. , group sparsity, … Overcomplete dictionary U: k > m Symmetry, e.g. trifactorisation Bias on U and V e.g. biases of users (low scores) or item (popularity) for recommendation

Multiple graphs Any a priori knowledge on U and V

Page 197: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Non Negative Matrix Factorization

Apprentissage Statistique - P. Gallinari197

Solve,

Underconstraints , 0i.e.thefactors areconstrained tobe nonnegative

Convex loss function inUandinV,butnotinboth UandV

Page 198: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari198

Algorithm Constrained optimization problem Can be solved by a Lagrangian formulation

Iterative multiplicative algorithm (Xu et al. 2003)

U, V initialized at random values Iterate until convergence

Or by projected gradient formulations The solution U, V is not unique, if U, V is solution, then UD, D-1V

for D diagonal positive is also solution

Page 199: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari199

Using NMF for Clustering Normalize U as a column stochastic matrix (each column

vector is of norm 1) ←

← ∑

Under the constraint “U normalized” the solution U, V is unique

Associate xi to cluster j if

Page 200: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari200

Note many different versions and extensions of NMF Different loss functions

e.g. different constraints on the decomposition Different algorithms

Applications Clustering Recommendation Link prediction Etc

Specific forms of NMF can be shown equivalent to PLSA Spectral clustering

Page 201: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Illustration (Lee & Seung 1999)

Apprentissage Statistique - P. Gallinari201

Basis images for

NMF

Vector Quantization

Principal Component Analysis

Page 202: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Semi superviséMéthodes génératives et discriminantes

Méthodes basées sur les graphes

Page 203: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Problématique

Apprentissage Statistique - P. Gallinari203

Cadre Problème de discrimination, i.e. on veut estimer P(C| x) pour

toutes les classes C Motivation Apprendre à classifier des données en utilisant un faible

nombre de données étiquetées et un grand nombre de données non étiquetées

L’etiquetage coûte cher, les données non étiquetées sont souvent largement disponibles

Utilisation Nombreux problèmes du web Ressources (temps, moyens humains etc) non disponibles pour

construire des ensembles annotés

Page 204: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Méthodes

Apprentissage Statistique - P. Gallinari204

Très nombreuses méthodes Self learning Méthodes génératives Méthodes discriminantes

SVM, CEM

Méthodes à base de graphes …

Page 205: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage semi-superviséModèles génératifs

Apprentissage Statistique - P. Gallinari205

Approche générale : Maximiser la vraisemblance jointe des données étiquetées et

non étiquetées Utiliser un algorithme EM On en déduit P(C|x) pour tout x On regarde ici le cas à 2 classes

Notations D = DLU DU

DL : Labeled data DU : Unlabeled data

C1 et C2 sont les deux classes considérées p1 et p2 sont les probabilités a priori des deux classes C1 et C2

Page 206: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage semi-superviséModèles génératifs

Apprentissage Statistique - P. Gallinari206

uiU

LLL

UL

Dx kkik

Dx

CDxCDxDx

DxDxM

DxM

Cxpxp

CxpCxpxp

xpxpL

xpL

))/(.(log)(log

),(log),(log)(log

)(log)(log

)(log

2

1

2121

Log Vraisemblance des données

Vraisemblance des données non étiquetées.

C’est un modèle de mélange

Vraisemblance des données

étiquetées

Page 207: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage semi-superviséModèles génératifs

Apprentissage Statistique - P. Gallinari207

uiki Dx k

kikk Cx

kikM CxpCxpL ))/(.(log))/(.log(2

1

2

1

La vraisemblance totale s’écrit

Important Les modèles pour les densités p(x| C) sont les mêmes pour les

données supervisées et non supervisées C’est ce qui permet de capturer dans une même fonction nles

informations supervisées et non supervisées

Somme sur les données

étiquetées

Somme sur les données non étiquetées

Modèle de mélange

Page 208: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage semi-superviséModèles dicriminants (Amini 2004)

Apprentissage Statistique - P. Gallinari208

0,et1 hkk tkhtCx

Au lieu de maximiser la vraisemblance, on va maximiser la vraisemblance classifiante (Symons et al. 71).

But classifier les exemples en c groupes en prenant une décision

“dure”.

avec T=(t1,…,tc) le vecteur des indicateurs de classe:

Vraisemblance classifiante vraisemblance des données complètes (donnée, classe) :

8

c

k

N

ikkkikkiC CxptCL

1 1

)),,/(.log(.),,(

Page 209: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari209

Comparer avec la vraisemblance usuelle pour un mélange de densités :

N c

kkkkikkiC CxptCL

11 1

)),,/(..(log),,(

Page 210: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Vraisemblance classifiante pour le cas semi-supervisé

Apprentissage Statistique - P. Gallinari210

Pour un classifieur discriminant maximiser LC est equivalent à maximiser

n étiquetés, m non étiquetés

Algorithme : CEM

c

k

mn

nikkikki

c

k kCixkkikC xCptxCpCL

1 11)),,/(log(.)),,/(log(),,(~

9

Page 211: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Mesures d’évaluation

Apprentissage Statistique - P. Gallinari211

Caractéristique des ensembles de données

Critère de performance

Pertinent

Non pertinent

Decision du système

+

PGC = ++

Precision =

Classification

Text summarization

IJCAI’03

Page 212: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Exemple : Email spam

Apprentissage Statistique - P. Gallinari212IJCAI’03

5%

65%

73%

82%

Page 213: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Exemple : Résumé de texte

Apprentissage Statistique - P. Gallinari213IJCAI’03

Page 214: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage semi-superviséModèles de graphes

Apprentissage Statistique - P. Gallinari214

Les modèles génératifs ou discriminants précédants ne prennent pas en compte la densité locale des données. Ils ne considèrent que la cohérence globale des données

Vraisemblance Sans considérer la cohérence locale

Voisinage des points, densité locale

Cela peut conduire à des erreurs importantes si les densités ne sont pas bien séparées

Plusieurs familles de modèles ont été proposées pour prendre en compte à la fois les cohérences globales et locales des données Parmi elles, les méthodes à base de graphes

Page 215: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Data consistency (Zhou et al. 2003)

Apprentissage Statistique - P. Gallinari215

SSL rely on local (neighbors share the same label) and global (data structure) data consistency

Fig. from Zhou et al. 2003

Page 216: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari216

Graph methods general idea Create a graph G = (V, E) Compute a similarity matrix W: Wij is the similarity between

nodes i and j Propagate observed labels to unlabeled nodes

Page 217: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Example (Zhou et al 2003)

Compute an affinity matrix W

a normalized affinity matrix S

Iterate

Converges to Y* final labels on unlabeled data

0),2

exp(: 2

2

iiji

ij Wxx

WW

)0()1()(.)1( YtYStY

Apprentissage Statistique - P. Gallinari217

21

21

WDDS

D is a diagonal matrix whose ith element is the sum of ith row of W

Y(0) matrix of initial labels and 0 for unlabeled data

Page 218: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Iterations

Apprentissage Statistique - P. Gallinari218

Fig. from Zhou et al. 2003

Page 219: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage en présence de données positives uniquement

Apprentissage Statistique - P. Gallinari219

Problème Discrimination avec des étiquetages dans une seule classe -

positifs- et en faible nombre Nombreuses instances dans la réalité

Méthode pratique générale On considère que les exemples les plus éloignés des exemples

étiquetés sont négatifs On applique un algorithme d’apprentissage semi-supervisé

Page 220: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Quelques liens utiles

Apprentissage Statistique - P. Gallinari220

Livres Cornuéjols, A and Miclet L.: Apprentissage Artificiel. Concepts et algorithmes (2nd

Ed.with revisions and additions - 2006 Eyrolles, 650 p Christopher M. Bishop, Pattern Recognition and Machine Learning, Springer

(2006). David Barber, 2012, Bayesian Reasoning and Machine Learning, Cambridge Univ.

Press. Software

General Weka 3: Data Mining Software in Java

http://www.cs.waikato.ac.nz/ml/weka/ Lush (Leon Bottou)

http://lush.sourceforge.net) SVM

http://www.csie.ntu.edu.tw/~cjlin/libsvm/http://svmlight.joachims.org/http://www.torch.ch/

Test sets UCI machine learning repository …..

Page 221: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari221

Extension multidimensionnelle Données : x1,…, xN n, d1,…, dN p, y1,…, yN p

Modèle : dk = W xk k {1,…,N} i.e. D = W X

Avec D dont les colonnes sont les et X dont les colonnes sont les , W matrice p x n

Fonction de coûtC(W) = || D -W X ||2

Algorithme: Widrow-HoffW(t+1) = W(t) - (t)[ W x - d].x

Page 222: Apprentissage Statistique - IA€¦ · Apprentissage à partir d'exemples 3 Apprentissage Statistique - P. Gallinari 3 ingrédients de base Données {z1, ..., zN} Machine Fθ Critère

Apprentissage Statistique - P. Gallinari222

Calcul de l'association optimale par l'algèbre linéaire

L'équation D = W X a une solution ssi D = D X+ X où X+ est la matrice pseudo-inverse de X

La solution générale est donnée par:

W = D X+ + Z ( I - X X+) (*)

où Z est une matrice arbitraire de même dimension que W

Quand D = W X n'a pas de solution exacte (*) est solution de MinW ||D -W X||2

i.e. (*) est la solution optimale de MinW ||D -W X||2