Download - Apprentissage Statistique 04-06-2019 Automatants · Apprentissage statistique Apprentissage statistique Supervisé Prédire Y connaissant X Non supervisé Caractériser par ෨ Régression

Amphi de révisionApprentissage Statistique

04-06-2019

Automatants

Apprentissage statistique


Supervisé Non supervisé

Régression ClassificationRéduction de dimensions

Partitionnement

Apprentissage supervisé

Variable à expliquer

𝑌

Variable explicatives

𝑋

Modèle statistique𝑝𝜃(𝑌|𝑋)

Consommation d’électricité d’une

villeℝ

Température,Heure,

Ensoleillement,Proportion en

vacances…ℝ4

Apprentissage

Estimation des paramètres du modèle 𝜃→ fonction de décision

Nouvelles entrées Prédictions



𝑌


𝑋


Consommation d’électricité d’une

villeℝ

Température,Heure,

Ensoleillement,Proportion en

vacances…ℝ4

Apprentissage



Régressionℝ𝒎 ℝ𝒏



Variables à expliquer

𝑌

Variables explicatives

𝑋

Modèle statistique

linéaire



Variables à expliquer

𝑌

Variables explicatives

𝑋

Modèle statistique entrainé



𝑌


𝑋


Chiffre{1, 2, 3, … }

Valeurs des pixels d’une image

ℝ𝑛

Apprentissage



Classificationℝ𝒎 {𝐴, 𝐵, 𝐶, … }



SuperviséPrédire Y connaissant X

Non supervisé

Régression𝑌 ∈ ℝ𝑑

Classification𝑌 ∈ {𝐴, 𝐵, 𝐶, … }

Réduction de dimensions

Partitionnement

Apprentissage non supervisé

Vecteurs de représentation

Variables𝑋

ModèleValeurs des pixels d’une image 8x8

ℝ64

Apprentissage

Estimation des paramètres du modèle 𝜃→ fonction de description

Nouvelles entrées Représentations

Représentation de l’image d’un

chiffre en dimension 2

ℝ2


1 image de chiffre décrite par 64 réels 1 image de chiffre décrite par 2 réels

Variable initialesVecteurs de

représentation obtenues après entrainement


1 vecteur décrit par 3 réels 1 vecteur décrit par 2 réels

Variable initialesVariable de

représentation obtenues après entrainement



Variable𝑋


ℝ64

Apprentissage





ℝ2



Variable𝑋


ℝ64





ℝ2

Apprentissage

Réduction de dimensions

ℝ𝒎 ℝ𝒏



Variable𝑋

Modèle

Âge, temps passé sur FB,

Préférence politique…ℝ3



1 catégorie par personne

{𝐴, 𝐵, 𝐶, … }

Apprentissage

Clustering /Partitionnement

ℝ𝒎 {𝐴, 𝐵, 𝐶, … }


1 vecteur décrit par 2 réels 1 vecteur décrit par une catégorie

Variable initialeVecteurs de

représentation obtenue après entrainement




Non superviséCaractériser 𝑋 par ෨𝑋



Réduction de dimensions෨𝑋 ∈ ℝ𝑑

Partitionnement෨𝑋 ∈ {𝐴, 𝐵, 𝐶,… }

Régression linéaire

Fonction de prédiction :𝑓𝜃: 𝑥 ↦ 𝜃𝑥

X Y Y prédit

0.2 0.25 0.097393

0.39 1 0.194943

0.68 1.24 0.223750

0.87 1.6 0.251037


X Y Y prédit

0.2 0.25 0.097393

0.39 1 0.194943

0.68 1.24 0.223750

0.87 1.6 0.251037

Fonction de perte :𝐿 𝑦, ℎ(𝑥) = ‖𝑦 − ℎ(𝑥)‖²

Fonction de prédiction :ℎ𝜃: 𝑥 ↦ 𝜃𝑥


Fonction de prédiction :ℎ𝜃: 𝑥 ↦ 𝜃𝑥

D’autres modèles

𝑔 𝔼 𝑌 𝑋 =

𝑚=1

𝑀

𝛽𝑚𝜓𝑚(𝑋)

Ce qu’on cherche à modéliser

Fonction quelconque

Fonctions de base

𝑔 𝔼 𝑌 𝑋 = 𝑥 = 𝛽0 + 𝛽𝑇𝑥

Ce qu’on cherche à modéliser

Fonction quelconque

Modèle linéaire généralisé

Paramètres variables

Modèle linéaire généralisé à expansion de base

Classification : k plus proches voisins

Classification : arbres de décision


𝑥1

𝑥2

Sélection d’une partition


𝑥1

𝑥2


Sélection d’une variable (et d’un sens


𝑥1

𝑥2

Perte : 0.82Sélection d’une partition


Estimation de la frontière


𝑥1

𝑥2

Perte : 0.82

Perte : 0.63





𝑥1

𝑥2

Perte : 0.82

Perte : 0.63

Perte : 0.55





𝑥1

𝑥2

Perte : 0.82

Perte : 0.63

Perte : 0.55

Perte : 0.85





𝑥1

𝑥2

Perte : 0.82

Perte : 0.63

Perte : 0.55

Perte : 0.85




Sélection de la meilleure frontière


𝑥1

𝑥2




Sélection de la meilleure frontière

Classification → Régression


𝑌


𝑋


Fruit correspondant{banane, pomme,

orange, …}

Image de fruitℝ192

Apprentissage



Classificationℝ𝒎 {𝑨, 𝑩, 𝑪,… }



𝑌


𝑋


Fruit correspondantBanane : 0Pomme : 1Orange : 2

ℝ


Apprentissage





4

3

2

1

0

Modèle ?


4

3

2

1

0

Modèle Loss = 1

3


4

3

2

1

0

Modèle Loss = 9

3


0.01

0.43

0.87

0.02

0.10

0

1

0

0

0

Modèle Sortie : 5 valeurs



𝑌


𝑋


Fruit correspondantUn réel pour chaque

fruitℝ5


Apprentissage












Régression linéaire Modèle

linéaire généraliséRéseaux de

neurones

K plus proches voisins

Arbre de décision

Régression

Réduction de dimension

Nom de la Ville Marseille Arcachon Dinard Calais

Latitude 43.31 44.65 48.63 50.9

Longitude 5.41 -1.17 -2.06 1.87

Température de l’air

30° 22° 20° 17°

Température de l’eau

17° 16° 15° 14°

Prix au m2 3 314 € 5 633 € 3 536 € 1 142 €

Réduction de dimension « linéraire »

Sous-espace affine: q<p

A matrice de taille p×q

Résultat :




Résultat : zi

xi




Résultat : zi

xi

xi˄

ACP et Réduction de dimension

1 - Centrer les Observations

2 - Former la matrice X

3 - Décomposition en valeurs singulières

λ 1, … , λ 𝑞 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑝𝑟𝑜𝑝𝑟𝑒𝑠 ≠ 0 𝑑𝑒 𝑋𝑋𝑇

U orthogonale de taille n×n

V orthogonale de taille p×p

𝑡. 𝑞. 𝑋 = 𝑈𝐷𝑉𝑇

𝐼𝑙 𝑒𝑥𝑖𝑠𝑡𝑒

𝑂𝑛 𝑝𝑟𝑒𝑛𝑑 𝑎𝑙𝑜𝑟𝑠 𝑉𝑞 = 𝑣1 … |𝑣𝑞)

4 - Réduction de dimension 𝒛𝒊 = 𝑽𝒒𝑻𝒙𝒊

Variances et Covariances

Variance (empirique): Covariances (empiriques):

Résultats pour les q composantes

˄

Σ𝑍 =1

𝑛𝑑𝑖𝑎𝑔(λ1, … , λ𝑞)

𝑉𝑎𝑟 𝑧 𝑗 =λ𝑗

𝑛𝐶𝑜𝑣 𝑧 𝑗 , 𝑧 𝑖 = 0

𝑝𝑜𝑢𝑟 𝑖 ≠ 𝑗

Clustering (partitionnement)

Cluster : Sous-ensemble de points

Centroïde : Barycentre du cluster

indice

Les métriques

L’Inertie T = W + B

Inertie intra-cluster W Inertie inter-cluster B

x 5x 6

K-Means ( K Moyennes)

Nos données


Placement des barycentres aléatoire


Pour chaque point:On sélectionne le

cluster le plus proche


On fait ça pour tous les points


On recalcule les barycentres


Et on recommence …Jusqu’à convergence

Valeur de K

Indice de Davies-Bouldin

Indice sur les clusters

Minimiser

Pour des clusters homogènes : S faible

Valeur de K

Indice de Davies-Bouldin

Indice sur les clusters

Minimiser

Pour des clusters homogènes : S faible

S diminue

Valeur de K

Coefficient de Silhouette

Indice sur les points et leur cluster

𝑎 𝑥𝑖 ∶ 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒 𝑚𝑜𝑦𝑒𝑛𝑛𝑒𝑎𝑢𝑥 𝑎𝑢𝑡𝑟𝑒𝑠 𝑝𝑜𝑖𝑛𝑡𝑠 𝑑𝑢 𝑐𝑙𝑢𝑠𝑡𝑒𝑟

𝑏 𝑥𝑖 ∶ min(𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒 𝑚𝑜𝑦𝑒𝑛𝑛𝑒𝑎𝑢𝑥 𝑎𝑢𝑡𝑟𝑒𝑠 𝑝𝑜𝑖𝑛𝑡𝑠 𝑑′𝑢𝑛 𝑎𝑢𝑡𝑟𝑒 𝑐𝑙𝑢𝑠𝑡𝑒𝑟)

Pour des clusters éloignés et homogènes : b(xi) >> a(xi)

Maximiser

Valeur de K

Coefficient de Silhouette

Indice sur les points et leur cluster

𝑎 𝑥𝑖 ∶ 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒 𝑚𝑜𝑦𝑒𝑛𝑛𝑒𝑎𝑢𝑥 𝑎𝑢𝑡𝑟𝑒𝑠 𝑝𝑜𝑖𝑛𝑡𝑠 𝑑𝑢 𝑐𝑙𝑢𝑠𝑡𝑒𝑟

𝑏 𝑥𝑖 ∶ min(𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒 𝑚𝑜𝑦𝑒𝑛𝑛𝑒𝑎𝑢𝑥 𝑎𝑢𝑡𝑟𝑒𝑠 𝑝𝑜𝑖𝑛𝑡𝑠 𝑑′𝑢𝑛 𝑎𝑢𝑡𝑟𝑒 𝑐𝑙𝑢𝑠𝑡𝑒𝑟)

Pour des clusters éloignés et homogènes : b(xi) >> a(xi)

Maximiser

S augmente

La régression en détailsVers les réseaux de neurones !

Retour sur les statistiques

Le Fréquentisme Le Bayésianisme

𝑇𝑏𝑒𝑠𝑡 = argmax𝑡

ℙ(𝐷|𝑡) ℙ 𝑇 𝐷 = ℙ(𝐷|𝑇)ℙ(𝑇)ℙ(𝐷|𝑇)ℙ 𝑇 + σ𝐴≠𝑇 ℙ(𝐷|𝐴)ℙ(𝐴)

En observant des fréquences, on veut trouver la théorie qui maximise la vraisemblance des données :

En observant des événements,on compare la crédence des théories sachant des données :

Donnée𝑋(𝜔) → Y(𝜔)

Modèle paramétrique

Θ

Modèle général

Modèle fonctionnel ℋ

Risque𝑅 = 𝑓(𝑋, 𝜃)

Quadratique𝑅 = ∥ 𝜃 − 𝜃 ∥2

2

Perte𝐿 = 𝑓 𝑦, ℎ 𝑥

Risque𝑅𝜃(ℎ) = 𝔼 𝑃𝑒𝑟𝑡𝑒𝑅𝑋,𝑌(ℎ) = 𝔼 𝑃𝑒𝑟𝑡𝑒

Pas d’hypothèses sur les lois distributions X et Y

La régression linéaire

Fonction de coût :

𝐽𝑏,𝑤(𝑥(𝑖)) = 1

2(ℎ𝑏,𝑤(𝑥(𝑖)) − 𝑦(𝑖))2

1

ℎ𝑏,𝑤(x)𝑥 y𝑤

𝑏

ℎ𝑏,𝑤(x) = b + w x

𝑏 −=1

𝑛

𝑖=1

𝑛𝜕𝐽𝑏,𝑤 𝑥 𝑖

𝜕𝑏

𝑤 −=1

𝑛

𝑖=1

𝑛𝜕𝐽𝑏,𝑤(𝑥

𝑖 )

𝜕𝑤

𝜃 −= 𝔼(∇𝜃𝐽)

w

Vitesse d’apprentissage : 1er hyperparamètre

𝛼

𝑏 −=𝛼

𝑛

𝑖=1

𝑛𝜕𝐽𝑏,𝑤 𝑥 𝑖

𝜕𝑏𝑤 −=

𝛼

𝑛

𝑖=1

𝑛𝜕𝐽𝑏,𝑤(𝑥

𝑖 )

𝜕𝑤

La descente de gradient stochastique

𝑏 −=𝛼

𝑘

𝑖=1

𝑘𝜕𝐽𝑏,𝑤 𝑥 𝑖

𝜕𝑏𝑤 −=

𝛼

𝑘

𝑖=1

𝑘𝜕𝐽𝑏,𝑤(𝑥

𝑖 )

𝜕𝑤

Τ𝑘 𝑛

Perte L1

Plus robuste, moins sensible

Perte L2 (SCR)

Classique

Modèle linéaire

1

ℎ𝑏,𝑤𝑗(X) y

𝑥2

𝑋

𝑥1

𝑥3

𝑥𝑛

𝛽1

𝛽2

𝛽3

𝛽𝑛

𝛽0

𝛽 ∈ ℳ𝑛,1(ℝ)

Différentiation vectoriel

Estimateur

VarianceEspérance

Estimateur

VarianceEspérance

Fonction de prédiction optimaleℎ∗ = 𝑚𝑒𝑑(𝑌|𝑋 = 𝑥)

Fonction de prédiction optimaleℎ∗ = 𝔼(𝑌|𝑋 = 𝑥)

∇𝛽 𝑣𝑇𝛽 = 𝑣 ∇𝛽 𝛽𝑇𝑀𝛽 = (𝑀 +𝑀𝑇)𝛽

𝐿 𝑦, ℎ 𝑥 = 𝑌 − ℎ 𝑋 22 𝐿 𝑦, ℎ 𝑥 = 𝑌 − ℎ 𝑋 1

1

Perceptron et Modèle linéaire généralisé

1


𝑥2

𝑋

𝑥1

𝑥3

𝑥𝑛

𝛽1

𝛽2

𝛽3

𝛽𝑛

𝛽0

𝛽 ∈ ℳ𝑛,1(ℝ)

𝑧𝑏,𝑤𝑗(X)

𝑔−1𝑓𝑜𝑛𝑐𝑡𝑖𝑜𝑛 𝑑′𝑎𝑐𝑡𝑖𝑣𝑎𝑡𝑖𝑜𝑛

Perte Logarithmique

Régression logistiqueClassification

𝑌|𝑋 ↝ ℒ𝑓 𝑥 𝑦 = 𝐶 𝜂 ℎ 𝑦 exp(𝜂𝑦)

EMV ⇔ Minimisation de 𝑅(ℎ)

Perte L2 (SCR)

Régression

𝐿 𝑦, ℎ 𝑥 = 𝑌 − ℎ 𝑋 22

𝐿 𝑦, ℎ 𝑥 = −𝑦𝑖 ln ℎ𝑖(𝑋)

Perte L1

Plus robuste, moins sensible

𝐿 𝑦, ℎ 𝑥 = 𝑌 − ℎ 𝑋 11

Décomposition sur une base de fonctions

Données

Le Perceptron : régression multi-variables

+𝜆

2

𝑗=1

𝑛

𝑤𝑗2

Fonction de coût :𝐽𝑏,𝑤(𝑥

(𝑖)) = 12(ℎ𝑏,𝑤(𝑥

(𝑖)) − 𝑦(𝑖))2

Training(60%)

Validation(20%)

Test(20%)

1


𝑥2

𝑋

𝑥1

𝑥3

𝑥𝑛

𝛽1

𝛽2

𝛽3

𝛽𝑛

𝛽0

𝛽 ∈ ℳ𝑛,1(ℝ)

+𝜆𝑊

Fonction de coût :

𝐽𝑏,𝑤(𝑥(𝑖)) = 1

2(𝐻𝑏,𝑤(𝑥

(𝑖)) − 𝑌(𝑖))2

Descente de gradient stochastique :

𝑏 −=𝛼

𝑘

𝑖=1

𝑘𝜕𝐽𝑏,𝑤(𝑥

𝑖 )

𝜕𝑏

𝑊 −=𝛼

𝑘

𝑖=1

𝑘𝜕𝐽𝑏,𝑊(𝑥

𝑖 )

𝜕𝑊

𝑦1

𝑊 ∈ℳ𝑛,𝑝(ℝ)

𝐻𝑏,𝑤𝑗(𝑋) 𝑌

1

𝑥2

𝑋

𝑥1

𝑥3

𝑥𝑛

ℎ𝑏,𝑊(𝑧1)1𝑧𝑏,𝑊(𝑋)1

𝑧𝑏,𝑊(𝑋)2

𝑧𝑏,𝑊(𝑋)3

𝑧𝑏,𝑊(𝑋)𝑝

𝑦2

𝑦3

𝑦𝑝

ℎ𝑏,𝑊(𝑧2)2

ℎ𝑏,𝑊(𝑧3)3

ℎ𝑏,𝑊(𝑧𝑝)𝑝

𝑍

𝑔

Perceptron : Sortie vectorielle et régularisation

+𝜆

2

𝑗=1

𝑛

𝑤𝑗2

𝑎11

𝑦1

𝑊0 ∈ ℳ𝑛1,𝑛(ℝ) 𝐻𝑏,𝑤𝑗(𝑋) 𝑌𝑋

1

𝑥2

𝑥1

𝑥3

𝑥𝑛

ℎ𝑏,𝑤𝑗(𝑥)1

𝑦2

𝑦3

𝑦𝑝

ℎ𝐵,𝑊𝑙(𝑥)2

ℎ𝐵,𝑊𝑙(𝑥)𝑗

ℎ𝐵,𝑊𝑙(𝑥)𝑝

𝐴1

Le Multi-Perceptron : Ajout de couches intermédiaires

𝑎21

𝑎𝑛11

1

𝑎1𝑙

𝑎2𝑙

𝑎𝑘𝑙

1

𝑎𝑛𝐿𝑙

𝐴𝑙𝑊1 ∈ ℳ𝑛2,𝑛1(ℝ) 𝑊𝐿 ∈ ℳ𝑝,𝑛𝐿(ℝ)

𝑎31

ℎ𝐵,𝑊𝑙(𝑥)1 𝑦1

Validité des Classifieurs

SensibilitéTVP

1 - non détecté

SpécificitéTVN

1 - fausse alarme


VNFN

VP FP

Etat réel du patientMalade Sain

Préd

icti

on

Nég

atif

Po

siti

f

𝑇

PrédictionNégatif Positif

SpécificitéTVN

1 - fausse alarme

SensibilitéTVP

1 - non détecté

La précision est insuffisante !

SensibilitéTVP

1 - non détecté

SpécificitéTVN

1 - fausse alarme


Courbes ROC

VNFN

VP FP

Etat réel du patientMalade Sain

Préd

icti

on

Nég

atif

Po

siti

f

Merci !