Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et...

135
Apprentissage supervis´ e et th´ eorie de la d´ ecision Chapitre 1 Marie Chavent ` a partir des cours d’Adrien Todeschini et Francois Caron Master MIMSE - Universit´ e de Bordeaux 2015-2016 Chapitre 1 Apprentissage supervis´ e 2015-2016 1 / 36

Transcript of Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et...

Page 1: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Apprentissage supervise et theorie de la decisionChapitre 1

Marie Chavent

a partir des cours d’Adrien Todeschini et Francois Caron

Master MIMSE - Universite de Bordeaux

2015-2016

Chapitre 1 Apprentissage supervise 2015-2016 1 / 36

Page 2: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

RessourcesLivres de reference

Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani (2013).An Introduction to Statistical LearningSpringer. http://www-bcf.usc.edu/˜gareth/ISL/

Larry Wasserman (2004).All of statistics - A concise course in Statistical InferenceSpringer Texts in Statistics.http://www.stat.cmu.edu/˜larry/all-of-statistics/

Trevor Hastie, Robert Tibshirani et Jerome Friedman (2009).The Elements of Statistical LearningSpringer Series in Statistics.http://statweb.stanford.edu/˜tibs/ElemStatLearn/

Christopher M. Bishop (2009).Pattern recognition and machine learning.Springer. http://research.microsoft.com/en-us/um/people/cmbishop/prml/

Chapitre 1 Apprentissage supervise 2015-2016 2 / 36

Page 3: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

RessourcesCours en ligne

I Machine Learning, Andrew Ng (Stanford University) :https://www.coursera.org/course/ml

I WikiStat : http://wikistat.fr/

LogicielsI R + RStudio : http://www.rstudio.com/I Python + scikit-learn : http://scikit-learn.org/

Technologies big dataI MapReduce avec RHadoopI Spark+MLlib : http://spark.apache.org/mllib/

Jeux de donneesI UC Irvine Machine Learning Repository :

http://archive.ics.uci.edu/ml/

Challenges industrielsI Kaggle : https://www.kaggle.com/I Datascience.net : https://datascience.net/

Chapitre 1 Apprentissage supervise 2015-2016 3 / 36

Page 4: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

IntroductionExemples

L’apprentissage statistique joue un role important dans de nombreuxproblemes

I Predire si un patient, souffrant d’une attaque cardiaque, aura anouveau une attaque cardiaque, en se basant sur des mesures cliniqueset demographiques sur ce patient

I Predire la consommation en electricite d’un client a partir de donneessur l’habitation et les habitudes de consommation

I Identifier de facon automatique les chiffres du code postal sur uneenveloppe

I Identifier des groupes de sujets similaires dans un ensemble d’articlessur le web

Chapitre 1 Apprentissage supervise 2015-2016 4 / 36

Page 5: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

IntroductionExemples

L’apprentissage statistique joue un role important dans de nombreuxproblemes

I Predire si un patient, souffrant d’une attaque cardiaque, aura anouveau une attaque cardiaque, en se basant sur des mesures cliniqueset demographiques sur ce patient

I Predire la consommation en electricite d’un client a partir de donneessur l’habitation et les habitudes de consommation

I Identifier de facon automatique les chiffres du code postal sur uneenveloppe

I Identifier des groupes de sujets similaires dans un ensemble d’articlessur le web

Chapitre 1 Apprentissage supervise 2015-2016 4 / 36

Page 6: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

IntroductionExemples

L’apprentissage statistique joue un role important dans de nombreuxproblemes

I Predire si un patient, souffrant d’une attaque cardiaque, aura anouveau une attaque cardiaque, en se basant sur des mesures cliniqueset demographiques sur ce patient

I Predire la consommation en electricite d’un client a partir de donneessur l’habitation et les habitudes de consommation

I Identifier de facon automatique les chiffres du code postal sur uneenveloppe

I Identifier des groupes de sujets similaires dans un ensemble d’articlessur le web

Chapitre 1 Apprentissage supervise 2015-2016 4 / 36

Page 7: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

IntroductionExemples

L’apprentissage statistique joue un role important dans de nombreuxproblemes

I Predire si un patient, souffrant d’une attaque cardiaque, aura anouveau une attaque cardiaque, en se basant sur des mesures cliniqueset demographiques sur ce patient

I Predire la consommation en electricite d’un client a partir de donneessur l’habitation et les habitudes de consommation

I Identifier de facon automatique les chiffres du code postal sur uneenveloppe

I Identifier des groupes de sujets similaires dans un ensemble d’articlessur le web

Chapitre 1 Apprentissage supervise 2015-2016 4 / 36

Page 8: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

IntroductionExemples

Variable de sortie

I quantitative (e.g. consommation d’electricite)I qualitative (attaque cardiaque: oui/non)

Objectif : Predire la valeur de cette variable de sortie en fonction d’unensemble de caracteristiques (mesures cliniques du patient, donneessur l’habitation, etc.)Ensemble d’apprentissage: couples de valeurs entrees/sortiespermettant de creer un modele de prediction, utilise pour predire denouveaux cas

Chapitre 1 Apprentissage supervise 2015-2016 5 / 36

Page 9: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

IntroductionExemples

Variable de sortieI quantitative (e.g. consommation d’electricite)

I qualitative (attaque cardiaque: oui/non)

Objectif : Predire la valeur de cette variable de sortie en fonction d’unensemble de caracteristiques (mesures cliniques du patient, donneessur l’habitation, etc.)Ensemble d’apprentissage: couples de valeurs entrees/sortiespermettant de creer un modele de prediction, utilise pour predire denouveaux cas

Chapitre 1 Apprentissage supervise 2015-2016 5 / 36

Page 10: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

IntroductionExemples

Variable de sortieI quantitative (e.g. consommation d’electricite)I qualitative (attaque cardiaque: oui/non)

Objectif : Predire la valeur de cette variable de sortie en fonction d’unensemble de caracteristiques (mesures cliniques du patient, donneessur l’habitation, etc.)Ensemble d’apprentissage: couples de valeurs entrees/sortiespermettant de creer un modele de prediction, utilise pour predire denouveaux cas

Chapitre 1 Apprentissage supervise 2015-2016 5 / 36

Page 11: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

IntroductionExemples

Variable de sortieI quantitative (e.g. consommation d’electricite)I qualitative (attaque cardiaque: oui/non)

Objectif : Predire la valeur de cette variable de sortie en fonction d’unensemble de caracteristiques (mesures cliniques du patient, donneessur l’habitation, etc.)

Ensemble d’apprentissage: couples de valeurs entrees/sortiespermettant de creer un modele de prediction, utilise pour predire denouveaux cas

Chapitre 1 Apprentissage supervise 2015-2016 5 / 36

Page 12: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

IntroductionExemples

Variable de sortieI quantitative (e.g. consommation d’electricite)I qualitative (attaque cardiaque: oui/non)

Objectif : Predire la valeur de cette variable de sortie en fonction d’unensemble de caracteristiques (mesures cliniques du patient, donneessur l’habitation, etc.)Ensemble d’apprentissage: couples de valeurs entrees/sortiespermettant de creer un modele de prediction, utilise pour predire denouveaux cas

Chapitre 1 Apprentissage supervise 2015-2016 5 / 36

Page 13: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

ExemplesReconnaissance de caracteres manuscripts

Objectif : Predire la classe de chaque image (0,. . . ,9) a partir d’unematrice de 16× 16 pixel, chaque pixel ayant une intensite de 0 a 255

Taux d’erreur doit etre faible afin d’eviter les mauvaises attributionsdu courrier

[Classification supervisee]

Chapitre 1 Apprentissage supervise 2015-2016 6 / 36

Page 14: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

ExemplesReconnaissance de caracteres manuscripts

Objectif : Predire la classe de chaque image (0,. . . ,9) a partir d’unematrice de 16× 16 pixel, chaque pixel ayant une intensite de 0 a 255Taux d’erreur doit etre faible afin d’eviter les mauvaises attributionsdu courrier

[Classification supervisee]

Chapitre 1 Apprentissage supervise 2015-2016 6 / 36

Page 15: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

ExemplesReconnaissance de caracteres manuscripts

Objectif : Predire la classe de chaque image (0,. . . ,9) a partir d’unematrice de 16× 16 pixel, chaque pixel ayant une intensite de 0 a 255Taux d’erreur doit etre faible afin d’eviter les mauvaises attributionsdu courrier

[Classification supervisee]

Chapitre 1 Apprentissage supervise 2015-2016 6 / 36

Page 16: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

ExemplesReconnaissance automatique de spams

SpamWINNING NOTIFICATIONWe are pleased to inform you of the resultof the Lottery Winners Internationalprograms held on the 30th january 2005.[...] You have been approved for a lump sumpay out of 175,000.00 euros.CONGRATULATIONS!!!

No SpamDear George,Could you please send me the report #1248 onthe project advancement?Thanks in advance.

Regards,Cathia

Base de donnees de courriel identifies ou non comme spam

Objectif : Definir un modele de prediction permettant, a l’arrivee d’uncourriel de predire si celui-ci est un spam ou nonTaux d’erreur doit etre faible afin d’eviter de supprimer des messagesimportants ou d’inonder la boite au lettre de courriers inutiles

[Classification supervisee]

Chapitre 1 Apprentissage supervise 2015-2016 7 / 36

Page 17: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

ExemplesReconnaissance automatique de spams

SpamWINNING NOTIFICATIONWe are pleased to inform you of the resultof the Lottery Winners Internationalprograms held on the 30th january 2005.[...] You have been approved for a lump sumpay out of 175,000.00 euros.CONGRATULATIONS!!!

No SpamDear George,Could you please send me the report #1248 onthe project advancement?Thanks in advance.

Regards,Cathia

Base de donnees de courriel identifies ou non comme spamObjectif : Definir un modele de prediction permettant, a l’arrivee d’uncourriel de predire si celui-ci est un spam ou non

Taux d’erreur doit etre faible afin d’eviter de supprimer des messagesimportants ou d’inonder la boite au lettre de courriers inutiles

[Classification supervisee]

Chapitre 1 Apprentissage supervise 2015-2016 7 / 36

Page 18: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

ExemplesReconnaissance automatique de spams

SpamWINNING NOTIFICATIONWe are pleased to inform you of the resultof the Lottery Winners Internationalprograms held on the 30th january 2005.[...] You have been approved for a lump sumpay out of 175,000.00 euros.CONGRATULATIONS!!!

No SpamDear George,Could you please send me the report #1248 onthe project advancement?Thanks in advance.

Regards,Cathia

Base de donnees de courriel identifies ou non comme spamObjectif : Definir un modele de prediction permettant, a l’arrivee d’uncourriel de predire si celui-ci est un spam ou nonTaux d’erreur doit etre faible afin d’eviter de supprimer des messagesimportants ou d’inonder la boite au lettre de courriers inutiles

[Classification supervisee]

Chapitre 1 Apprentissage supervise 2015-2016 7 / 36

Page 19: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

ExemplesReconnaissance automatique de spams

SpamWINNING NOTIFICATIONWe are pleased to inform you of the resultof the Lottery Winners Internationalprograms held on the 30th january 2005.[...] You have been approved for a lump sumpay out of 175,000.00 euros.CONGRATULATIONS!!!

No SpamDear George,Could you please send me the report #1248 onthe project advancement?Thanks in advance.

Regards,Cathia

Base de donnees de courriel identifies ou non comme spamObjectif : Definir un modele de prediction permettant, a l’arrivee d’uncourriel de predire si celui-ci est un spam ou nonTaux d’erreur doit etre faible afin d’eviter de supprimer des messagesimportants ou d’inonder la boite au lettre de courriers inutiles

[Classification supervisee]

Chapitre 1 Apprentissage supervise 2015-2016 7 / 36

Page 20: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

ExemplesClassification de signaux neuronaux

Brefs potentiels d’action enregistres par une micro-electrodeObjectif : classer les signaux afin d’attribuer chaque potentiel a unneurone particulier

Chapitre 1 Apprentissage supervise 2015-2016 8 / 36

Page 21: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

ExemplesClassification de signaux neuronaux

Brefs potentiels d’action enregistres par une micro-electrodeObjectif : classer les signaux afin d’attribuer chaque potentiel a unneurone particulier

Chapitre 1 Apprentissage supervise 2015-2016 9 / 36

Page 22: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

ExemplesClassification de signaux neuronaux

Brefs potentiels d’action enregistres par une micro-electrodeObjectif : classer les signaux afin d’attribuer chaque potentiel a unneurone particulier

Chapitre 1 Apprentissage supervise 2015-2016 10 / 36

Page 23: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

ExemplesClassification de signaux neuronaux

Brefs potentiels d’action enregistres par une micro-electrodeObjectif : classer les signaux afin d’attribuer chaque potentiel a unneurone particulier

[Classification non supervisee]Chapitre 1 Apprentissage supervise 2015-2016 10 / 36

Page 24: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

ExemplesClassification de sequences d’expression de genes

Puces a ADN : donnees d’expression de gene pour plusieurs genes etplusieurs conditions experimentalesClassification de genes avec des sequences d’expression similaires

Chapitre 1 Apprentissage supervise 2015-2016 11 / 36

Page 25: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

ExemplesClassification de sequences d’expression de genes

Puces a ADN : donnees d’expression de gene pour plusieurs genes etplusieurs conditions experimentalesClassification de genes avec des sequences d’expression similaires

Chapitre 1 Apprentissage supervise 2015-2016 12 / 36

Page 26: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

ExemplesClassification de sequences d’expression de genes

Puces a ADN : donnees d’expression de gene pour plusieurs genes etplusieurs conditions experimentalesClassification de genes avec des sequences d’expression similaires

[Classification non supervisee]

Chapitre 1 Apprentissage supervise 2015-2016 12 / 36

Page 27: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsRegression vs classification

Variables d’entrees X = (X1, . . . ,Xp) : variables explicatives

Variable de sortie Y : variable a expliquer ou de reponse

I Y quantitative Probleme de regressionI Y qualitative Probleme de classification

On s’interessera principalement dans ce cours a des problemes declassification ou Y est une variable qualitative a K modalites et on parle deprobleme de discrimination en K classes.

Vocabulaire : apprentissage = machine learning

I Classification supervisee = discriminationI Classification non supervisee = clustering

Chapitre 1 Apprentissage supervise 2015-2016 13 / 36

Page 28: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsRegression vs classification

Variables d’entrees X = (X1, . . . ,Xp) : variables explicatives

Variable de sortie Y : variable a expliquer ou de reponse

I Y quantitative Probleme de regressionI Y qualitative Probleme de classification

On s’interessera principalement dans ce cours a des problemes declassification ou Y est une variable qualitative a K modalites et on parle deprobleme de discrimination en K classes.

Vocabulaire : apprentissage = machine learning

I Classification supervisee = discriminationI Classification non supervisee = clustering

Chapitre 1 Apprentissage supervise 2015-2016 13 / 36

Page 29: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsRegression vs classification

Variables d’entrees X = (X1, . . . ,Xp) : variables explicatives

Variable de sortie Y : variable a expliquer ou de reponseI Y quantitative Probleme de regression

I Y qualitative Probleme de classification

On s’interessera principalement dans ce cours a des problemes declassification ou Y est une variable qualitative a K modalites et on parle deprobleme de discrimination en K classes.

Vocabulaire : apprentissage = machine learning

I Classification supervisee = discriminationI Classification non supervisee = clustering

Chapitre 1 Apprentissage supervise 2015-2016 13 / 36

Page 30: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsRegression vs classification

Variables d’entrees X = (X1, . . . ,Xp) : variables explicatives

Variable de sortie Y : variable a expliquer ou de reponseI Y quantitative Probleme de regressionI Y qualitative Probleme de classification

On s’interessera principalement dans ce cours a des problemes declassification ou Y est une variable qualitative a K modalites et on parle deprobleme de discrimination en K classes.

Vocabulaire : apprentissage = machine learning

I Classification supervisee = discriminationI Classification non supervisee = clustering

Chapitre 1 Apprentissage supervise 2015-2016 13 / 36

Page 31: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsRegression vs classification

Variables d’entrees X = (X1, . . . ,Xp) : variables explicatives

Variable de sortie Y : variable a expliquer ou de reponseI Y quantitative Probleme de regressionI Y qualitative Probleme de classification

On s’interessera principalement dans ce cours a des problemes declassification ou Y est une variable qualitative a K modalites et on parle deprobleme de discrimination en K classes.

Vocabulaire : apprentissage = machine learning

I Classification supervisee = discriminationI Classification non supervisee = clustering

Chapitre 1 Apprentissage supervise 2015-2016 13 / 36

Page 32: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsRegression vs classification

Variables d’entrees X = (X1, . . . ,Xp) : variables explicatives

Variable de sortie Y : variable a expliquer ou de reponseI Y quantitative Probleme de regressionI Y qualitative Probleme de classification

On s’interessera principalement dans ce cours a des problemes declassification ou Y est une variable qualitative a K modalites et on parle deprobleme de discrimination en K classes.

Vocabulaire : apprentissage = machine learning

I Classification supervisee = discriminationI Classification non supervisee = clustering

Chapitre 1 Apprentissage supervise 2015-2016 13 / 36

Page 33: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsRegression vs classification

Variables d’entrees X = (X1, . . . ,Xp) : variables explicatives

Variable de sortie Y : variable a expliquer ou de reponseI Y quantitative Probleme de regressionI Y qualitative Probleme de classification

On s’interessera principalement dans ce cours a des problemes declassification ou Y est une variable qualitative a K modalites et on parle deprobleme de discrimination en K classes.

Vocabulaire : apprentissage = machine learningI Classification supervisee = discrimination

I Classification non supervisee = clustering

Chapitre 1 Apprentissage supervise 2015-2016 13 / 36

Page 34: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsRegression vs classification

Variables d’entrees X = (X1, . . . ,Xp) : variables explicatives

Variable de sortie Y : variable a expliquer ou de reponseI Y quantitative Probleme de regressionI Y qualitative Probleme de classification

On s’interessera principalement dans ce cours a des problemes declassification ou Y est une variable qualitative a K modalites et on parle deprobleme de discrimination en K classes.

Vocabulaire : apprentissage = machine learningI Classification supervisee = discriminationI Classification non supervisee = clustering

Chapitre 1 Apprentissage supervise 2015-2016 13 / 36

Page 35: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsClassification

Couples de variables aleatoires i.i.d. (X1,Y1), . . . , (Xn,Yn)

Xi = (Xi,1, . . . ,Xi,p) prend ses valeurs dans X , par exemple X = Rp

Yi prend ses valeurs dans un ensemble fini Y = {1, . . . ,K}

DefinitionUne regle de classification est une fonction g : X → Y.

Ensemble d’apprentissage : ensemble de donnees permettant l’apprentissagede la regle de classification g

I Classification supervisee : on dispose d’un ensemble de couples (Xi ,Yi )pour l’apprentissage de g .

I Classification non supervisee : on ne dispose que de donnees (Xi ) nonclassees

Chapitre 1 Apprentissage supervise 2015-2016 14 / 36

Page 36: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsClassification

Couples de variables aleatoires i.i.d. (X1,Y1), . . . , (Xn,Yn)

Xi = (Xi,1, . . . ,Xi,p) prend ses valeurs dans X , par exemple X = Rp

Yi prend ses valeurs dans un ensemble fini Y = {1, . . . ,K}

DefinitionUne regle de classification est une fonction g : X → Y.

Ensemble d’apprentissage : ensemble de donnees permettant l’apprentissagede la regle de classification g

I Classification supervisee : on dispose d’un ensemble de couples (Xi ,Yi )pour l’apprentissage de g .

I Classification non supervisee : on ne dispose que de donnees (Xi ) nonclassees

Chapitre 1 Apprentissage supervise 2015-2016 14 / 36

Page 37: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsClassification

Couples de variables aleatoires i.i.d. (X1,Y1), . . . , (Xn,Yn)

Xi = (Xi,1, . . . ,Xi,p) prend ses valeurs dans X , par exemple X = Rp

Yi prend ses valeurs dans un ensemble fini Y = {1, . . . ,K}

DefinitionUne regle de classification est une fonction g : X → Y.

Ensemble d’apprentissage : ensemble de donnees permettant l’apprentissagede la regle de classification g

I Classification supervisee : on dispose d’un ensemble de couples (Xi ,Yi )pour l’apprentissage de g .

I Classification non supervisee : on ne dispose que de donnees (Xi ) nonclassees

Chapitre 1 Apprentissage supervise 2015-2016 14 / 36

Page 38: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsClassification

Couples de variables aleatoires i.i.d. (X1,Y1), . . . , (Xn,Yn)

Xi = (Xi,1, . . . ,Xi,p) prend ses valeurs dans X , par exemple X = Rp

Yi prend ses valeurs dans un ensemble fini Y = {1, . . . ,K}

DefinitionUne regle de classification est une fonction g : X → Y.

Ensemble d’apprentissage : ensemble de donnees permettant l’apprentissagede la regle de classification g

I Classification supervisee : on dispose d’un ensemble de couples (Xi ,Yi )pour l’apprentissage de g .

I Classification non supervisee : on ne dispose que de donnees (Xi ) nonclassees

Chapitre 1 Apprentissage supervise 2015-2016 14 / 36

Page 39: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsClassification

Couples de variables aleatoires i.i.d. (X1,Y1), . . . , (Xn,Yn)

Xi = (Xi,1, . . . ,Xi,p) prend ses valeurs dans X , par exemple X = Rp

Yi prend ses valeurs dans un ensemble fini Y = {1, . . . ,K}

DefinitionUne regle de classification est une fonction g : X → Y.

Ensemble d’apprentissage : ensemble de donnees permettant l’apprentissagede la regle de classification g

I Classification supervisee : on dispose d’un ensemble de couples (Xi ,Yi )pour l’apprentissage de g .

I Classification non supervisee : on ne dispose que de donnees (Xi ) nonclassees

Chapitre 1 Apprentissage supervise 2015-2016 14 / 36

Page 40: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsClassification

Couples de variables aleatoires i.i.d. (X1,Y1), . . . , (Xn,Yn)

Xi = (Xi,1, . . . ,Xi,p) prend ses valeurs dans X , par exemple X = Rp

Yi prend ses valeurs dans un ensemble fini Y = {1, . . . ,K}

DefinitionUne regle de classification est une fonction g : X → Y.

Ensemble d’apprentissage : ensemble de donnees permettant l’apprentissagede la regle de classification g

I Classification supervisee : on dispose d’un ensemble de couples (Xi ,Yi )pour l’apprentissage de g .

I Classification non supervisee : on ne dispose que de donnees (Xi ) nonclassees

Chapitre 1 Apprentissage supervise 2015-2016 14 / 36

Page 41: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsClassification

Couples de variables aleatoires i.i.d. (X1,Y1), . . . , (Xn,Yn)

Xi = (Xi,1, . . . ,Xi,p) prend ses valeurs dans X , par exemple X = Rp

Yi prend ses valeurs dans un ensemble fini Y = {1, . . . ,K}

DefinitionUne regle de classification est une fonction g : X → Y.

Ensemble d’apprentissage : ensemble de donnees permettant l’apprentissagede la regle de classification g

I Classification supervisee : on dispose d’un ensemble de couples (Xi ,Yi )pour l’apprentissage de g .

I Classification non supervisee : on ne dispose que de donnees (Xi ) nonclassees

Chapitre 1 Apprentissage supervise 2015-2016 14 / 36

Page 42: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsClassification supervisee

Objectif : A partir de l’ensemble d’apprentissage, definir une regle declassification g permettant des predictions precises sur de nouveau elements

Erreur de prediction est quantifiee par une fonction de cout L : Y × Y → R

En classification on considere souvent la fonction de cout 0-1

L(i , j) = 0 si i = j= 1 sinon

Combien cela me coute-t-il de faire des mauvaises predictions?

Chapitre 1 Apprentissage supervise 2015-2016 15 / 36

Page 43: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsClassification supervisee

Objectif : A partir de l’ensemble d’apprentissage, definir une regle declassification g permettant des predictions precises sur de nouveau elements

Erreur de prediction est quantifiee par une fonction de cout L : Y × Y → R

En classification on considere souvent la fonction de cout 0-1

L(i , j) = 0 si i = j= 1 sinon

Combien cela me coute-t-il de faire des mauvaises predictions?

Chapitre 1 Apprentissage supervise 2015-2016 15 / 36

Page 44: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsClassification supervisee

Objectif : A partir de l’ensemble d’apprentissage, definir une regle declassification g permettant des predictions precises sur de nouveau elements

Erreur de prediction est quantifiee par une fonction de cout L : Y × Y → R

En classification on considere souvent la fonction de cout 0-1

L(i , j) = 0 si i = j= 1 sinon

Combien cela me coute-t-il de faire des mauvaises predictions?

Chapitre 1 Apprentissage supervise 2015-2016 15 / 36

Page 45: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsClassification supervisee

Objectif : A partir de l’ensemble d’apprentissage, definir une regle declassification g permettant des predictions precises sur de nouveau elements

Erreur de prediction est quantifiee par une fonction de cout L : Y × Y → R

En classification on considere souvent la fonction de cout 0-1

L(i , j) = 0 si i = j= 1 sinon

Combien cela me coute-t-il de faire des mauvaises predictions?

Chapitre 1 Apprentissage supervise 2015-2016 15 / 36

Page 46: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsClassification supervisee

Le cout moyen d’une regle de classification g est

E (g) = EX ,Y [L(Y , g(X )]

= EX [EY [L(g(X ,Y )|X ]]

Ce cout moyen est appele risque moyen theorique Lorsque la fonction de cout 0-1 est utilisee, on parle de taux d’erreur

theorique et E (g) = P(g(X ) 6= Y )

Le cout moyen empirique associe a l’echantillon (X1,Y1), . . . , (Xn,Yn) est

En(g) =1n

n∑i=1

L(g(Xi ),Yi )

On parle de risque moyen empirique Lorsque la fonction de cout 0-1 est utilisee, on parle de taux d’erreur

empirique et En(g) = 1n∑n

i=1 1(g(Xi ) 6= Yi )

Chapitre 1 Apprentissage supervise 2015-2016 16 / 36

Page 47: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsClassification supervisee

Le cout moyen d’une regle de classification g est

E (g) = EX ,Y [L(Y , g(X )]

= EX [EY [L(g(X ,Y )|X ]]

Ce cout moyen est appele risque moyen theorique

Lorsque la fonction de cout 0-1 est utilisee, on parle de taux d’erreurtheorique et E (g) = P(g(X ) 6= Y )

Le cout moyen empirique associe a l’echantillon (X1,Y1), . . . , (Xn,Yn) est

En(g) =1n

n∑i=1

L(g(Xi ),Yi )

On parle de risque moyen empirique Lorsque la fonction de cout 0-1 est utilisee, on parle de taux d’erreur

empirique et En(g) = 1n∑n

i=1 1(g(Xi ) 6= Yi )

Chapitre 1 Apprentissage supervise 2015-2016 16 / 36

Page 48: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsClassification supervisee

Le cout moyen d’une regle de classification g est

E (g) = EX ,Y [L(Y , g(X )]

= EX [EY [L(g(X ,Y )|X ]]

Ce cout moyen est appele risque moyen theorique Lorsque la fonction de cout 0-1 est utilisee, on parle de taux d’erreur

theorique et E (g) = P(g(X ) 6= Y )

Le cout moyen empirique associe a l’echantillon (X1,Y1), . . . , (Xn,Yn) est

En(g) =1n

n∑i=1

L(g(Xi ),Yi )

On parle de risque moyen empirique Lorsque la fonction de cout 0-1 est utilisee, on parle de taux d’erreur

empirique et En(g) = 1n∑n

i=1 1(g(Xi ) 6= Yi )

Chapitre 1 Apprentissage supervise 2015-2016 16 / 36

Page 49: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsClassification supervisee

Le cout moyen d’une regle de classification g est

E (g) = EX ,Y [L(Y , g(X )]

= EX [EY [L(g(X ,Y )|X ]]

Ce cout moyen est appele risque moyen theorique Lorsque la fonction de cout 0-1 est utilisee, on parle de taux d’erreur

theorique et E (g) = P(g(X ) 6= Y )

Le cout moyen empirique associe a l’echantillon (X1,Y1), . . . , (Xn,Yn) est

En(g) =1n

n∑i=1

L(g(Xi ),Yi )

On parle de risque moyen empirique Lorsque la fonction de cout 0-1 est utilisee, on parle de taux d’erreur

empirique et En(g) = 1n∑n

i=1 1(g(Xi ) 6= Yi )

Chapitre 1 Apprentissage supervise 2015-2016 16 / 36

Page 50: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsClassification supervisee

Le cout moyen d’une regle de classification g est

E (g) = EX ,Y [L(Y , g(X )]

= EX [EY [L(g(X ,Y )|X ]]

Ce cout moyen est appele risque moyen theorique Lorsque la fonction de cout 0-1 est utilisee, on parle de taux d’erreur

theorique et E (g) = P(g(X ) 6= Y )

Le cout moyen empirique associe a l’echantillon (X1,Y1), . . . , (Xn,Yn) est

En(g) =1n

n∑i=1

L(g(Xi ),Yi )

On parle de risque moyen empirique

Lorsque la fonction de cout 0-1 est utilisee, on parle de taux d’erreurempirique et En(g) = 1

n∑n

i=1 1(g(Xi ) 6= Yi )

Chapitre 1 Apprentissage supervise 2015-2016 16 / 36

Page 51: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

DefinitionsClassification supervisee

Le cout moyen d’une regle de classification g est

E (g) = EX ,Y [L(Y , g(X )]

= EX [EY [L(g(X ,Y )|X ]]

Ce cout moyen est appele risque moyen theorique Lorsque la fonction de cout 0-1 est utilisee, on parle de taux d’erreur

theorique et E (g) = P(g(X ) 6= Y )

Le cout moyen empirique associe a l’echantillon (X1,Y1), . . . , (Xn,Yn) est

En(g) =1n

n∑i=1

L(g(Xi ),Yi )

On parle de risque moyen empirique Lorsque la fonction de cout 0-1 est utilisee, on parle de taux d’erreur

empirique et En(g) = 1n∑n

i=1 1(g(Xi ) 6= Yi )

Chapitre 1 Apprentissage supervise 2015-2016 16 / 36

Page 52: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Theorie de la decision statistiqueClassification

On cherche la regle de decision g qui minimise le risque moyen

Obtenue en prenant pour chaque x ∈ X

g?(x) = arg min`∈{1,...,K}

E [L(Y , `)|X = x ]

Cette regle est appelee la regle de classification de Bayes Le risque associe E (g?) est appele risque de Bayes

Lorsque la fonction de cout 0-1 est utilisee cette regle s’ecrit

g?(x) = arg max`∈{1,...,K}

P(Y = `|X = x)

Le risque associe E (g?) est appele taux d’erreur de Bayes.

Chapitre 1 Apprentissage supervise 2015-2016 17 / 36

Page 53: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Theorie de la decision statistiqueClassification

On cherche la regle de decision g qui minimise le risque moyen

Obtenue en prenant pour chaque x ∈ X

g?(x) = arg min`∈{1,...,K}

E [L(Y , `)|X = x ]

Cette regle est appelee la regle de classification de Bayes Le risque associe E (g?) est appele risque de Bayes

Lorsque la fonction de cout 0-1 est utilisee cette regle s’ecrit

g?(x) = arg max`∈{1,...,K}

P(Y = `|X = x)

Le risque associe E (g?) est appele taux d’erreur de Bayes.

Chapitre 1 Apprentissage supervise 2015-2016 17 / 36

Page 54: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Theorie de la decision statistiqueClassification

On cherche la regle de decision g qui minimise le risque moyen

Obtenue en prenant pour chaque x ∈ X

g?(x) = arg min`∈{1,...,K}

E [L(Y , `)|X = x ]

Cette regle est appelee la regle de classification de Bayes

Le risque associe E (g?) est appele risque de Bayes

Lorsque la fonction de cout 0-1 est utilisee cette regle s’ecrit

g?(x) = arg max`∈{1,...,K}

P(Y = `|X = x)

Le risque associe E (g?) est appele taux d’erreur de Bayes.

Chapitre 1 Apprentissage supervise 2015-2016 17 / 36

Page 55: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Theorie de la decision statistiqueClassification

On cherche la regle de decision g qui minimise le risque moyen

Obtenue en prenant pour chaque x ∈ X

g?(x) = arg min`∈{1,...,K}

E [L(Y , `)|X = x ]

Cette regle est appelee la regle de classification de Bayes Le risque associe E (g?) est appele risque de Bayes

Lorsque la fonction de cout 0-1 est utilisee cette regle s’ecrit

g?(x) = arg max`∈{1,...,K}

P(Y = `|X = x)

Le risque associe E (g?) est appele taux d’erreur de Bayes.

Chapitre 1 Apprentissage supervise 2015-2016 17 / 36

Page 56: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Theorie de la decision statistiqueClassification

On cherche la regle de decision g qui minimise le risque moyen

Obtenue en prenant pour chaque x ∈ X

g?(x) = arg min`∈{1,...,K}

E [L(Y , `)|X = x ]

Cette regle est appelee la regle de classification de Bayes Le risque associe E (g?) est appele risque de Bayes

Lorsque la fonction de cout 0-1 est utilisee cette regle s’ecrit

g?(x) = arg max`∈{1,...,K}

P(Y = `|X = x)

Le risque associe E (g?) est appele taux d’erreur de Bayes.

Chapitre 1 Apprentissage supervise 2015-2016 17 / 36

Page 57: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Theorie de la decision statistiqueClassification

On cherche la regle de decision g qui minimise le risque moyen

Obtenue en prenant pour chaque x ∈ X

g?(x) = arg min`∈{1,...,K}

E [L(Y , `)|X = x ]

Cette regle est appelee la regle de classification de Bayes Le risque associe E (g?) est appele risque de Bayes

Lorsque la fonction de cout 0-1 est utilisee cette regle s’ecrit

g?(x) = arg max`∈{1,...,K}

P(Y = `|X = x)

Le risque associe E (g?) est appele taux d’erreur de Bayes.

Chapitre 1 Apprentissage supervise 2015-2016 17 / 36

Page 58: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueFonction de cout

Soit Y = g(X ) ∈ Y la sortie predite d’un individu et Y ∈ Y sa vraie valeur.

Soit L : Y × Y → R une fonction de cout telle que L(Y , Y ) est le coutassocie a la decision : “predire Y alors que la vraie valeur est Y ”.En classification, Y = {1, ...,K} et la fonction de cout peut etre resumeepar une matrice de couts C de taille K × K telle que Ck` = L(k, `).

classe predite` = 1 ` = 2 ... ` = K

vraie classe

k = 1 C11 ≤ 0 C12 ≥ 0 ... C1K ≥ 0k = 2 C21 ≥ 0 C22 ≤ 0 ... C2K ≥ 0

...

......

. . ....

k = K CK1 ≥ 0 CK2 ≥ 0 ... CKK ≤ 0

La fonction de cout se reecrit :

L(Y , Y ) = CY Y =K∑

k=1

K∑`=1

Ckl1(Y = k et Y = `)

Chapitre 1 Apprentissage supervise 2015-2016 18 / 36

Page 59: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueFonction de cout

Soit Y = g(X ) ∈ Y la sortie predite d’un individu et Y ∈ Y sa vraie valeur.

Soit L : Y × Y → R une fonction de cout telle que L(Y , Y ) est le coutassocie a la decision : “predire Y alors que la vraie valeur est Y ”.

En classification, Y = {1, ...,K} et la fonction de cout peut etre resumeepar une matrice de couts C de taille K × K telle que Ck` = L(k, `).

classe predite` = 1 ` = 2 ... ` = K

vraie classe

k = 1 C11 ≤ 0 C12 ≥ 0 ... C1K ≥ 0k = 2 C21 ≥ 0 C22 ≤ 0 ... C2K ≥ 0

...

......

. . ....

k = K CK1 ≥ 0 CK2 ≥ 0 ... CKK ≤ 0

La fonction de cout se reecrit :

L(Y , Y ) = CY Y =K∑

k=1

K∑`=1

Ckl1(Y = k et Y = `)

Chapitre 1 Apprentissage supervise 2015-2016 18 / 36

Page 60: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueFonction de cout

Soit Y = g(X ) ∈ Y la sortie predite d’un individu et Y ∈ Y sa vraie valeur.

Soit L : Y × Y → R une fonction de cout telle que L(Y , Y ) est le coutassocie a la decision : “predire Y alors que la vraie valeur est Y ”.En classification, Y = {1, ...,K} et la fonction de cout peut etre resumeepar une matrice de couts C de taille K × K telle que Ck` = L(k, `).

classe predite` = 1 ` = 2 ... ` = K

vraie classe

k = 1 C11 ≤ 0 C12 ≥ 0 ... C1K ≥ 0k = 2 C21 ≥ 0 C22 ≤ 0 ... C2K ≥ 0

...

......

. . ....

k = K CK1 ≥ 0 CK2 ≥ 0 ... CKK ≤ 0

La fonction de cout se reecrit :

L(Y , Y ) = CY Y =K∑

k=1

K∑`=1

Ckl1(Y = k et Y = `)

Chapitre 1 Apprentissage supervise 2015-2016 18 / 36

Page 61: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueFonction de cout

Soit Y = g(X ) ∈ Y la sortie predite d’un individu et Y ∈ Y sa vraie valeur.

Soit L : Y × Y → R une fonction de cout telle que L(Y , Y ) est le coutassocie a la decision : “predire Y alors que la vraie valeur est Y ”.En classification, Y = {1, ...,K} et la fonction de cout peut etre resumeepar une matrice de couts C de taille K × K telle que Ck` = L(k, `).

classe predite` = 1 ` = 2 ... ` = K

vraie classe

k = 1 C11 ≤ 0 C12 ≥ 0 ... C1K ≥ 0k = 2 C21 ≥ 0 C22 ≤ 0 ... C2K ≥ 0

...

......

. . ....

k = K CK1 ≥ 0 CK2 ≥ 0 ... CKK ≤ 0

La fonction de cout se reecrit :

L(Y , Y ) = CY Y =K∑

k=1

K∑`=1

Ckl1(Y = k et Y = `)

Chapitre 1 Apprentissage supervise 2015-2016 18 / 36

Page 62: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueMatrice de confusion

Soit un echantillon (Yi , Yi ), i = 1, ..., n de couples classe reelle, classepredite.

La matrice de confusion comptabilise les occurences des predictions enfonction des vraies valeurs

classe predite` = 1 ` = 2 ... ` = K

vraie classe

k = 1 p11 × n p12 × n ... p1K × nk = 2 p21 × n p22 × n ... p2K × n

...

......

. . ....

k = K pK1 × n pK2 × n ... pKK × n

ou pk` est la proportion d’individus de classe k auxquels on a predit la classe`

On a alors

pk` =1n

n∑i=1

1(Yi = k et Yi = `)

Chapitre 1 Apprentissage supervise 2015-2016 19 / 36

Page 63: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueMatrice de confusion

Soit un echantillon (Yi , Yi ), i = 1, ..., n de couples classe reelle, classepredite.La matrice de confusion comptabilise les occurences des predictions enfonction des vraies valeurs

classe predite` = 1 ` = 2 ... ` = K

vraie classe

k = 1 p11 × n p12 × n ... p1K × nk = 2 p21 × n p22 × n ... p2K × n

...

......

. . ....

k = K pK1 × n pK2 × n ... pKK × n

ou pk` est la proportion d’individus de classe k auxquels on a predit la classe`

On a alors

pk` =1n

n∑i=1

1(Yi = k et Yi = `)

Chapitre 1 Apprentissage supervise 2015-2016 19 / 36

Page 64: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueMatrice de confusion

Soit un echantillon (Yi , Yi ), i = 1, ..., n de couples classe reelle, classepredite.La matrice de confusion comptabilise les occurences des predictions enfonction des vraies valeurs

classe predite` = 1 ` = 2 ... ` = K

vraie classe

k = 1 p11 × n p12 × n ... p1K × nk = 2 p21 × n p22 × n ... p2K × n

...

......

. . ....

k = K pK1 × n pK2 × n ... pKK × n

ou pk` est la proportion d’individus de classe k auxquels on a predit la classe`

On a alors

pk` =1n

n∑i=1

1(Yi = k et Yi = `)

Chapitre 1 Apprentissage supervise 2015-2016 19 / 36

Page 65: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRisque de prediction

Le risque theorique ou encore taux d’erreur theorique est l’esperance de lafonction de cout E = E

[L(Y , Y )

]

Il peut etre approche par le risque empirique ou encore taux d’erreurempirique

En =1n

n∑i=1

L(Yi , Yi )

=1n

n∑i=1

K∑k=1

K∑`=1

Ckl1(Yi = k et Yi = `)

=K∑

k=1

K∑`=1

Ck`pk`

Il s’agit du cout moyen sur l’echantillon.

Chapitre 1 Apprentissage supervise 2015-2016 20 / 36

Page 66: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRisque de prediction

Le risque theorique ou encore taux d’erreur theorique est l’esperance de lafonction de cout E = E

[L(Y , Y )

]Il peut etre approche par le risque empirique ou encore taux d’erreurempirique

En =1n

n∑i=1

L(Yi , Yi )

=1n

n∑i=1

K∑k=1

K∑`=1

Ckl1(Yi = k et Yi = `)

=K∑

k=1

K∑`=1

Ck`pk`

Il s’agit du cout moyen sur l’echantillon.

Chapitre 1 Apprentissage supervise 2015-2016 20 / 36

Page 67: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueExemples de risques empiriques

On prend l’exemple de la classification binaire

K = 2 et 1=positif et 2=negatif

On note FP = p21 × n le nombre de faux positifs

On note FN = p12 × n le nombre de faux negatifs.

Les deux fonctions de cout suivantes sont considerees.

I La fonction de cout 0-1 avec C =

(0 11 0

)I La fonction de cout ponderee avec C =

(0 15 0

)

Chapitre 1 Apprentissage supervise 2015-2016 21 / 36

Page 68: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueExemples de risques empiriques

On prend l’exemple de la classification binaire

K = 2 et 1=positif et 2=negatif

On note FP = p21 × n le nombre de faux positifs

On note FN = p12 × n le nombre de faux negatifs.

Les deux fonctions de cout suivantes sont considerees.

I La fonction de cout 0-1 avec C =

(0 11 0

)I La fonction de cout ponderee avec C =

(0 15 0

)

Chapitre 1 Apprentissage supervise 2015-2016 21 / 36

Page 69: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueExemples de risques empiriques

On prend l’exemple de la classification binaire

K = 2 et 1=positif et 2=negatif

On note FP = p21 × n le nombre de faux positifs

On note FN = p12 × n le nombre de faux negatifs.

Les deux fonctions de cout suivantes sont considerees.

I La fonction de cout 0-1 avec C =

(0 11 0

)I La fonction de cout ponderee avec C =

(0 15 0

)

Chapitre 1 Apprentissage supervise 2015-2016 21 / 36

Page 70: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueExemples de risques empiriques

On prend l’exemple de la classification binaire

K = 2 et 1=positif et 2=negatif

On note FP = p21 × n le nombre de faux positifs

On note FN = p12 × n le nombre de faux negatifs.

Les deux fonctions de cout suivantes sont considerees.

I La fonction de cout 0-1 avec C =

(0 11 0

)I La fonction de cout ponderee avec C =

(0 15 0

)

Chapitre 1 Apprentissage supervise 2015-2016 21 / 36

Page 71: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueExemples de risques empiriques

On prend l’exemple de la classification binaire

K = 2 et 1=positif et 2=negatif

On note FP = p21 × n le nombre de faux positifs

On note FN = p12 × n le nombre de faux negatifs.

Les deux fonctions de cout suivantes sont considerees.

I La fonction de cout 0-1 avec C =

(0 11 0

)I La fonction de cout ponderee avec C =

(0 15 0

)

Chapitre 1 Apprentissage supervise 2015-2016 21 / 36

Page 72: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueExemples de risques empiriques

On prend l’exemple de la classification binaire

K = 2 et 1=positif et 2=negatif

On note FP = p21 × n le nombre de faux positifs

On note FN = p12 × n le nombre de faux negatifs.

Les deux fonctions de cout suivantes sont considerees.

I La fonction de cout 0-1 avec C =

(0 11 0

)

I La fonction de cout ponderee avec C =

(0 15 0

)

Chapitre 1 Apprentissage supervise 2015-2016 21 / 36

Page 73: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueExemples de risques empiriques

On prend l’exemple de la classification binaire

K = 2 et 1=positif et 2=negatif

On note FP = p21 × n le nombre de faux positifs

On note FN = p12 × n le nombre de faux negatifs.

Les deux fonctions de cout suivantes sont considerees.

I La fonction de cout 0-1 avec C =

(0 11 0

)I La fonction de cout ponderee avec C =

(0 15 0

)

Chapitre 1 Apprentissage supervise 2015-2016 21 / 36

Page 74: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueExemples de risques empiriques

Fonction de cout 0-1

La matrice de cout ne distingue pas les deux types d’erreurs FP et FN

L’expression du cout moyen devient

En =2∑

k=1

2∑`=1

Ck`pk`

= C11p11 + C21p21 + C12p12 + C22p22

= p21 + p12

=FP + FN

n

ce qui correspond au taux d’erreur standard.

Chapitre 1 Apprentissage supervise 2015-2016 22 / 36

Page 75: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueExemples de risques empiriques

Fonction de cout 0-1

La matrice de cout ne distingue pas les deux types d’erreurs FP et FN

L’expression du cout moyen devient

En =2∑

k=1

2∑`=1

Ck`pk`

= C11p11 + C21p21 + C12p12 + C22p22

= p21 + p12

=FP + FN

n

ce qui correspond au taux d’erreur standard.

Chapitre 1 Apprentissage supervise 2015-2016 22 / 36

Page 76: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueExemples de risques empiriques

Fonction de cout 0-1

La matrice de cout ne distingue pas les deux types d’erreurs FP et FN

L’expression du cout moyen devient

En =2∑

k=1

2∑`=1

Ck`pk`

= C11p11 + C21p21 + C12p12 + C22p22

= p21 + p12

=FP + FN

n

ce qui correspond au taux d’erreur standard.

Chapitre 1 Apprentissage supervise 2015-2016 22 / 36

Page 77: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueExemples de risques empiriques

Fonction de cout ponderee

On associe un cout cinq fois plus important aux faux positifs

L’expression du cout moyen devient L’expression du cout moyen devient

En = C11p11 + C21p21 + C12p12 + C22p22

= 5× p21 + p12

=5× FP + FN

n

ce qui correspond a un taux d’erreur pondere.

Chapitre 1 Apprentissage supervise 2015-2016 23 / 36

Page 78: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueExemples de risques empiriques

Fonction de cout ponderee

On associe un cout cinq fois plus important aux faux positifs

L’expression du cout moyen devient L’expression du cout moyen devient

En = C11p11 + C21p21 + C12p12 + C22p22

= 5× p21 + p12

=5× FP + FN

n

ce qui correspond a un taux d’erreur pondere.

Chapitre 1 Apprentissage supervise 2015-2016 23 / 36

Page 79: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueExemples de risques empiriques

Fonction de cout ponderee

On associe un cout cinq fois plus important aux faux positifs

L’expression du cout moyen devient L’expression du cout moyen devient

En = C11p11 + C21p21 + C12p12 + C22p22

= 5× p21 + p12

=5× FP + FN

n

ce qui correspond a un taux d’erreur pondere.

Chapitre 1 Apprentissage supervise 2015-2016 23 / 36

Page 80: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision

Soit x ∈ X la variable d’entree

La regle optimale de classification de Bayes est donnee par

g(x) = arg min`∈{1,...,K}

E [L(Y , `)|X = x ]

= arg min`∈{1,...,K}

K∑k=1

L(k, `)P(Y = k|X = x)

= arg min`∈{1,...,K}

K∑k=1

Ck` P(Y = k|X = x) (approche discriminante)

= arg min`∈{1,...,K}

K∑k=1

Ck` f (x |Y = k)P(Y = k) (modele generatif)

ou f (x |Y = k) est la densite de X dans la classe k.

Chapitre 1 Apprentissage supervise 2015-2016 24 / 36

Page 81: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision

Soit x ∈ X la variable d’entree

La regle optimale de classification de Bayes est donnee par

g(x) = arg min`∈{1,...,K}

E [L(Y , `)|X = x ]

= arg min`∈{1,...,K}

K∑k=1

L(k, `)P(Y = k|X = x)

= arg min`∈{1,...,K}

K∑k=1

Ck` P(Y = k|X = x) (approche discriminante)

= arg min`∈{1,...,K}

K∑k=1

Ck` f (x |Y = k)P(Y = k) (modele generatif)

ou f (x |Y = k) est la densite de X dans la classe k.

Chapitre 1 Apprentissage supervise 2015-2016 24 / 36

Page 82: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision

Theoreme de Bayes

P(Y = k|X = x) =f (x |Y = k)P(Y = k)∑Kj=1 f (x |Y = j)P(Y = j)

Cette regle de de classification de Bayes est applicable si l’on dispose

I dans le cas discriminatif :

des probabilite a posteriori P(Y = k|X = x) exemple : regression logistique

I dans le cas generatif :

des fonctions de densite f (x |Y = k) aussi notees fk(x) des probabilites a priori P(Y = k) aussi notees πk exemples : analyse discriminante, bayesien naıf

Chapitre 1 Apprentissage supervise 2015-2016 25 / 36

Page 83: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision

Theoreme de Bayes

P(Y = k|X = x) =f (x |Y = k)P(Y = k)∑Kj=1 f (x |Y = j)P(Y = j)

Cette regle de de classification de Bayes est applicable si l’on dispose

I dans le cas discriminatif :

des probabilite a posteriori P(Y = k|X = x) exemple : regression logistique

I dans le cas generatif :

des fonctions de densite f (x |Y = k) aussi notees fk(x) des probabilites a priori P(Y = k) aussi notees πk exemples : analyse discriminante, bayesien naıf

Chapitre 1 Apprentissage supervise 2015-2016 25 / 36

Page 84: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision

Theoreme de Bayes

P(Y = k|X = x) =f (x |Y = k)P(Y = k)∑Kj=1 f (x |Y = j)P(Y = j)

Cette regle de de classification de Bayes est applicable si l’on dispose

I dans le cas discriminatif :

des probabilite a posteriori P(Y = k|X = x) exemple : regression logistique

I dans le cas generatif :

des fonctions de densite f (x |Y = k) aussi notees fk(x) des probabilites a priori P(Y = k) aussi notees πk exemples : analyse discriminante, bayesien naıf

Chapitre 1 Apprentissage supervise 2015-2016 25 / 36

Page 85: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision

Theoreme de Bayes

P(Y = k|X = x) =f (x |Y = k)P(Y = k)∑Kj=1 f (x |Y = j)P(Y = j)

Cette regle de de classification de Bayes est applicable si l’on dispose

I dans le cas discriminatif : des probabilite a posteriori P(Y = k|X = x)

exemple : regression logistique

I dans le cas generatif :

des fonctions de densite f (x |Y = k) aussi notees fk(x) des probabilites a priori P(Y = k) aussi notees πk exemples : analyse discriminante, bayesien naıf

Chapitre 1 Apprentissage supervise 2015-2016 25 / 36

Page 86: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision

Theoreme de Bayes

P(Y = k|X = x) =f (x |Y = k)P(Y = k)∑Kj=1 f (x |Y = j)P(Y = j)

Cette regle de de classification de Bayes est applicable si l’on dispose

I dans le cas discriminatif : des probabilite a posteriori P(Y = k|X = x) exemple : regression logistique

I dans le cas generatif :

des fonctions de densite f (x |Y = k) aussi notees fk(x) des probabilites a priori P(Y = k) aussi notees πk exemples : analyse discriminante, bayesien naıf

Chapitre 1 Apprentissage supervise 2015-2016 25 / 36

Page 87: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision

Theoreme de Bayes

P(Y = k|X = x) =f (x |Y = k)P(Y = k)∑Kj=1 f (x |Y = j)P(Y = j)

Cette regle de de classification de Bayes est applicable si l’on dispose

I dans le cas discriminatif : des probabilite a posteriori P(Y = k|X = x) exemple : regression logistique

I dans le cas generatif :

des fonctions de densite f (x |Y = k) aussi notees fk(x) des probabilites a priori P(Y = k) aussi notees πk exemples : analyse discriminante, bayesien naıf

Chapitre 1 Apprentissage supervise 2015-2016 25 / 36

Page 88: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision

Theoreme de Bayes

P(Y = k|X = x) =f (x |Y = k)P(Y = k)∑Kj=1 f (x |Y = j)P(Y = j)

Cette regle de de classification de Bayes est applicable si l’on dispose

I dans le cas discriminatif : des probabilite a posteriori P(Y = k|X = x) exemple : regression logistique

I dans le cas generatif : des fonctions de densite f (x |Y = k) aussi notees fk(x)

des probabilites a priori P(Y = k) aussi notees πk exemples : analyse discriminante, bayesien naıf

Chapitre 1 Apprentissage supervise 2015-2016 25 / 36

Page 89: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision

Theoreme de Bayes

P(Y = k|X = x) =f (x |Y = k)P(Y = k)∑Kj=1 f (x |Y = j)P(Y = j)

Cette regle de de classification de Bayes est applicable si l’on dispose

I dans le cas discriminatif : des probabilite a posteriori P(Y = k|X = x) exemple : regression logistique

I dans le cas generatif : des fonctions de densite f (x |Y = k) aussi notees fk(x) des probabilites a priori P(Y = k) aussi notees πk

exemples : analyse discriminante, bayesien naıf

Chapitre 1 Apprentissage supervise 2015-2016 25 / 36

Page 90: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision

Theoreme de Bayes

P(Y = k|X = x) =f (x |Y = k)P(Y = k)∑Kj=1 f (x |Y = j)P(Y = j)

Cette regle de de classification de Bayes est applicable si l’on dispose

I dans le cas discriminatif : des probabilite a posteriori P(Y = k|X = x) exemple : regression logistique

I dans le cas generatif : des fonctions de densite f (x |Y = k) aussi notees fk(x) des probabilites a priori P(Y = k) aussi notees πk exemples : analyse discriminante, bayesien naıf

Chapitre 1 Apprentissage supervise 2015-2016 25 / 36

Page 91: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision binaire

On considere le cas de la classification binaire

K = 2 classes et la matrice de couts est C =

(0 C12

C21 0

)Deux cas sont a considerer :

I Si la regle predit ` = 1:

E [L(Y , `)|X = x ] =2∑

k=1Ck1P(Y = k|X = x)

= C21P(Y = 2|X = x)

I Si la regle predit ` = 2:

E [L(Y , `)|X = x ] =2∑

k=1Ck2Pr(Y = k|X = x)

= C12Pr(Y = 1|X = x)

Chapitre 1 Apprentissage supervise 2015-2016 26 / 36

Page 92: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision binaire

On considere le cas de la classification binaire

K = 2 classes et la matrice de couts est C =

(0 C12

C21 0

)

Deux cas sont a considerer :

I Si la regle predit ` = 1:

E [L(Y , `)|X = x ] =2∑

k=1Ck1P(Y = k|X = x)

= C21P(Y = 2|X = x)

I Si la regle predit ` = 2:

E [L(Y , `)|X = x ] =2∑

k=1Ck2Pr(Y = k|X = x)

= C12Pr(Y = 1|X = x)

Chapitre 1 Apprentissage supervise 2015-2016 26 / 36

Page 93: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision binaire

On considere le cas de la classification binaire

K = 2 classes et la matrice de couts est C =

(0 C12

C21 0

)Deux cas sont a considerer :

I Si la regle predit ` = 1:

E [L(Y , `)|X = x ] =2∑

k=1Ck1P(Y = k|X = x)

= C21P(Y = 2|X = x)

I Si la regle predit ` = 2:

E [L(Y , `)|X = x ] =2∑

k=1Ck2Pr(Y = k|X = x)

= C12Pr(Y = 1|X = x)

Chapitre 1 Apprentissage supervise 2015-2016 26 / 36

Page 94: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision binaire

On considere le cas de la classification binaire

K = 2 classes et la matrice de couts est C =

(0 C12

C21 0

)Deux cas sont a considerer :

I Si la regle predit ` = 1:

E [L(Y , `)|X = x ] =2∑

k=1Ck1P(Y = k|X = x)

= C21P(Y = 2|X = x)

I Si la regle predit ` = 2:

E [L(Y , `)|X = x ] =2∑

k=1Ck2Pr(Y = k|X = x)

= C12Pr(Y = 1|X = x)

Chapitre 1 Apprentissage supervise 2015-2016 26 / 36

Page 95: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision binaire

On considere le cas de la classification binaire

K = 2 classes et la matrice de couts est C =

(0 C12

C21 0

)Deux cas sont a considerer :

I Si la regle predit ` = 1:

E [L(Y , `)|X = x ] =2∑

k=1Ck1P(Y = k|X = x)

= C21P(Y = 2|X = x)

I Si la regle predit ` = 2:

E [L(Y , `)|X = x ] =2∑

k=1Ck2Pr(Y = k|X = x)

= C12Pr(Y = 1|X = x)

Chapitre 1 Apprentissage supervise 2015-2016 26 / 36

Page 96: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision binaire

On en deduit la regle de decision suivante :

I cas discriminant : si C21P(Y = 2|X = x) ≤ C12P(Y = 1|X = x) i.e.

P(Y = 1|X = x) ≥ C21C12

P(Y = 2|X = x)

alors on affectera x a la classe g(x) = 1, sinon on affectera x a laclasse g(x) = 2.

I cas generatif : si C21f (x |Y = 2)P(Y = 2) ≤ C12f (x |Y = 1)P(Y = 1)i.e.

f (x |Y = 1) ≥ C21π2C12π1

f (x |Y = 2)

ou P(Y = k) = πk , alors on affectera x a la classe g(x) = 1, sinon onaffectera x a la classe g(x) = 2.

Chapitre 1 Apprentissage supervise 2015-2016 27 / 36

Page 97: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision binaire

On en deduit la regle de decision suivante :I cas discriminant : si C21P(Y = 2|X = x) ≤ C12P(Y = 1|X = x) i.e.

P(Y = 1|X = x) ≥ C21C12

P(Y = 2|X = x)

alors on affectera x a la classe g(x) = 1, sinon on affectera x a laclasse g(x) = 2.

I cas generatif : si C21f (x |Y = 2)P(Y = 2) ≤ C12f (x |Y = 1)P(Y = 1)i.e.

f (x |Y = 1) ≥ C21π2C12π1

f (x |Y = 2)

ou P(Y = k) = πk , alors on affectera x a la classe g(x) = 1, sinon onaffectera x a la classe g(x) = 2.

Chapitre 1 Apprentissage supervise 2015-2016 27 / 36

Page 98: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision binaire

On en deduit la regle de decision suivante :I cas discriminant : si C21P(Y = 2|X = x) ≤ C12P(Y = 1|X = x) i.e.

P(Y = 1|X = x) ≥ C21C12

P(Y = 2|X = x)

alors on affectera x a la classe g(x) = 1, sinon on affectera x a laclasse g(x) = 2.

I cas generatif : si C21f (x |Y = 2)P(Y = 2) ≤ C12f (x |Y = 1)P(Y = 1)i.e.

f (x |Y = 1) ≥ C21π2C12π1

f (x |Y = 2)

ou P(Y = k) = πk , alors on affectera x a la classe g(x) = 1, sinon onaffectera x a la classe g(x) = 2.

Chapitre 1 Apprentissage supervise 2015-2016 27 / 36

Page 99: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision binaire

Si C21 = C12 (fonction de cout 0-1) on retrouve la regle d’affectation de laclasse la plus probable a posteriori

I cas discriminant :

g(x) =

{1 si P(Y = 1|X = x) ≥ P(Y = 2|X = x)

2 sinon

I cas generatif :

g(x) =

{1 si π1f (x |Y = 1) ≥ π2f (x |Y = 2)

2 sinon

Chapitre 1 Apprentissage supervise 2015-2016 28 / 36

Page 100: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision binaire

Si C21 = C12 (fonction de cout 0-1) on retrouve la regle d’affectation de laclasse la plus probable a posteriori

I cas discriminant :

g(x) =

{1 si P(Y = 1|X = x) ≥ P(Y = 2|X = x)

2 sinon

I cas generatif :

g(x) =

{1 si π1f (x |Y = 1) ≥ π2f (x |Y = 2)

2 sinon

Chapitre 1 Apprentissage supervise 2015-2016 28 / 36

Page 101: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

En pratiqueRegle de decision binaire

Si C21 = C12 (fonction de cout 0-1) on retrouve la regle d’affectation de laclasse la plus probable a posteriori

I cas discriminant :

g(x) =

{1 si P(Y = 1|X = x) ≥ P(Y = 2|X = x)

2 sinon

I cas generatif :

g(x) =

{1 si π1f (x |Y = 1) ≥ π2f (x |Y = 2)

2 sinon

Chapitre 1 Apprentissage supervise 2015-2016 28 / 36

Page 102: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesModele ou Prototype

Deux approches possibles pour definir la regle de classification Y = g(X )

Approche basee sur un modele

I Apprentissage de Loi(X ,Y ) = Loi(X |Y )Loi(Y )

F Approche dite generativeF Exemples : Analyse discriminante lineaire, bayesien naıf

I Apprentissage direct de Loi(Y |X )

F Approche dite discriminativeF Exemple : Regression logistique

Approche de type prototype

I Apprentissage direct de la regle de classification Y = g(X )I Exemple : K-plus proches voisins, arbres de decisions, forets aleatoires,

etc.

Chapitre 1 Apprentissage supervise 2015-2016 29 / 36

Page 103: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesModele ou Prototype

Deux approches possibles pour definir la regle de classification Y = g(X )

Approche basee sur un modele

I Apprentissage de Loi(X ,Y ) = Loi(X |Y )Loi(Y )

F Approche dite generativeF Exemples : Analyse discriminante lineaire, bayesien naıf

I Apprentissage direct de Loi(Y |X )

F Approche dite discriminativeF Exemple : Regression logistique

Approche de type prototype

I Apprentissage direct de la regle de classification Y = g(X )I Exemple : K-plus proches voisins, arbres de decisions, forets aleatoires,

etc.

Chapitre 1 Apprentissage supervise 2015-2016 29 / 36

Page 104: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesModele ou Prototype

Deux approches possibles pour definir la regle de classification Y = g(X )

Approche basee sur un modele

I Apprentissage de Loi(X ,Y ) = Loi(X |Y )Loi(Y )

F Approche dite generativeF Exemples : Analyse discriminante lineaire, bayesien naıf

I Apprentissage direct de Loi(Y |X )

F Approche dite discriminativeF Exemple : Regression logistique

Approche de type prototype

I Apprentissage direct de la regle de classification Y = g(X )I Exemple : K-plus proches voisins, arbres de decisions, forets aleatoires,

etc.

Chapitre 1 Apprentissage supervise 2015-2016 29 / 36

Page 105: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesModele ou Prototype

Deux approches possibles pour definir la regle de classification Y = g(X )

Approche basee sur un modele

I Apprentissage de Loi(X ,Y ) = Loi(X |Y )Loi(Y )

F Approche dite generative

F Exemples : Analyse discriminante lineaire, bayesien naıfI Apprentissage direct de Loi(Y |X )

F Approche dite discriminativeF Exemple : Regression logistique

Approche de type prototype

I Apprentissage direct de la regle de classification Y = g(X )I Exemple : K-plus proches voisins, arbres de decisions, forets aleatoires,

etc.

Chapitre 1 Apprentissage supervise 2015-2016 29 / 36

Page 106: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesModele ou Prototype

Deux approches possibles pour definir la regle de classification Y = g(X )

Approche basee sur un modele

I Apprentissage de Loi(X ,Y ) = Loi(X |Y )Loi(Y )

F Approche dite generativeF Exemples : Analyse discriminante lineaire, bayesien naıf

I Apprentissage direct de Loi(Y |X )

F Approche dite discriminativeF Exemple : Regression logistique

Approche de type prototype

I Apprentissage direct de la regle de classification Y = g(X )I Exemple : K-plus proches voisins, arbres de decisions, forets aleatoires,

etc.

Chapitre 1 Apprentissage supervise 2015-2016 29 / 36

Page 107: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesModele ou Prototype

Deux approches possibles pour definir la regle de classification Y = g(X )

Approche basee sur un modele

I Apprentissage de Loi(X ,Y ) = Loi(X |Y )Loi(Y )

F Approche dite generativeF Exemples : Analyse discriminante lineaire, bayesien naıf

I Apprentissage direct de Loi(Y |X )

F Approche dite discriminativeF Exemple : Regression logistique

Approche de type prototype

I Apprentissage direct de la regle de classification Y = g(X )I Exemple : K-plus proches voisins, arbres de decisions, forets aleatoires,

etc.

Chapitre 1 Apprentissage supervise 2015-2016 29 / 36

Page 108: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesModele ou Prototype

Deux approches possibles pour definir la regle de classification Y = g(X )

Approche basee sur un modele

I Apprentissage de Loi(X ,Y ) = Loi(X |Y )Loi(Y )

F Approche dite generativeF Exemples : Analyse discriminante lineaire, bayesien naıf

I Apprentissage direct de Loi(Y |X )

F Approche dite discriminative

F Exemple : Regression logistique

Approche de type prototype

I Apprentissage direct de la regle de classification Y = g(X )I Exemple : K-plus proches voisins, arbres de decisions, forets aleatoires,

etc.

Chapitre 1 Apprentissage supervise 2015-2016 29 / 36

Page 109: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesModele ou Prototype

Deux approches possibles pour definir la regle de classification Y = g(X )

Approche basee sur un modele

I Apprentissage de Loi(X ,Y ) = Loi(X |Y )Loi(Y )

F Approche dite generativeF Exemples : Analyse discriminante lineaire, bayesien naıf

I Apprentissage direct de Loi(Y |X )

F Approche dite discriminativeF Exemple : Regression logistique

Approche de type prototype

I Apprentissage direct de la regle de classification Y = g(X )I Exemple : K-plus proches voisins, arbres de decisions, forets aleatoires,

etc.

Chapitre 1 Apprentissage supervise 2015-2016 29 / 36

Page 110: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesModele ou Prototype

Deux approches possibles pour definir la regle de classification Y = g(X )

Approche basee sur un modele

I Apprentissage de Loi(X ,Y ) = Loi(X |Y )Loi(Y )

F Approche dite generativeF Exemples : Analyse discriminante lineaire, bayesien naıf

I Apprentissage direct de Loi(Y |X )

F Approche dite discriminativeF Exemple : Regression logistique

Approche de type prototype

I Apprentissage direct de la regle de classification Y = g(X )I Exemple : K-plus proches voisins, arbres de decisions, forets aleatoires,

etc.

Chapitre 1 Apprentissage supervise 2015-2016 29 / 36

Page 111: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesModele ou Prototype

Deux approches possibles pour definir la regle de classification Y = g(X )

Approche basee sur un modele

I Apprentissage de Loi(X ,Y ) = Loi(X |Y )Loi(Y )

F Approche dite generativeF Exemples : Analyse discriminante lineaire, bayesien naıf

I Apprentissage direct de Loi(Y |X )

F Approche dite discriminativeF Exemple : Regression logistique

Approche de type prototypeI Apprentissage direct de la regle de classification Y = g(X )

I Exemple : K-plus proches voisins, arbres de decisions, forets aleatoires,etc.

Chapitre 1 Apprentissage supervise 2015-2016 29 / 36

Page 112: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesModele ou Prototype

Deux approches possibles pour definir la regle de classification Y = g(X )

Approche basee sur un modele

I Apprentissage de Loi(X ,Y ) = Loi(X |Y )Loi(Y )

F Approche dite generativeF Exemples : Analyse discriminante lineaire, bayesien naıf

I Apprentissage direct de Loi(Y |X )

F Approche dite discriminativeF Exemple : Regression logistique

Approche de type prototypeI Apprentissage direct de la regle de classification Y = g(X )I Exemple : K-plus proches voisins, arbres de decisions, forets aleatoires,

etc.

Chapitre 1 Apprentissage supervise 2015-2016 29 / 36

Page 113: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesParametrique ou non

Definir la regle de classification Y = g(X ) revient a definir pour tout k ∈ Yles probabilites a posteriori

P[Y = k|X = x ]

Approche parametrique

I Regression logistique: Y = {0, 1} et

P[Y = 1|X = x ] =exp(X Tβ)

1 + exp(X Tβ)

I Analyse discriminante:

P(Y = k|X = x) =f (x |Y = k)P(Y = k)∑Kj=1 f (x |Y = j)P(Y = j)

et

f (x |Y = k) =1

(2π)p/2|Σk |1/2 exp(−12 (x − µk)T Σk

−1(x − µk))

Estimation des parametres sur l’echantillon d’apprentissage

Chapitre 1 Apprentissage supervise 2015-2016 30 / 36

Page 114: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesParametrique ou non

Definir la regle de classification Y = g(X ) revient a definir pour tout k ∈ Yles probabilites a posteriori

P[Y = k|X = x ]

Approche parametrique

I Regression logistique: Y = {0, 1} et

P[Y = 1|X = x ] =exp(X Tβ)

1 + exp(X Tβ)

I Analyse discriminante:

P(Y = k|X = x) =f (x |Y = k)P(Y = k)∑Kj=1 f (x |Y = j)P(Y = j)

et

f (x |Y = k) =1

(2π)p/2|Σk |1/2 exp(−12 (x − µk)T Σk

−1(x − µk))

Estimation des parametres sur l’echantillon d’apprentissage

Chapitre 1 Apprentissage supervise 2015-2016 30 / 36

Page 115: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesParametrique ou non

Definir la regle de classification Y = g(X ) revient a definir pour tout k ∈ Yles probabilites a posteriori

P[Y = k|X = x ]

Approche parametriqueI Regression logistique: Y = {0, 1} et

P[Y = 1|X = x ] =exp(X Tβ)

1 + exp(X Tβ)

I Analyse discriminante:

P(Y = k|X = x) =f (x |Y = k)P(Y = k)∑Kj=1 f (x |Y = j)P(Y = j)

et

f (x |Y = k) =1

(2π)p/2|Σk |1/2 exp(−12 (x − µk)T Σk

−1(x − µk))

Estimation des parametres sur l’echantillon d’apprentissage

Chapitre 1 Apprentissage supervise 2015-2016 30 / 36

Page 116: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesParametrique ou non

Definir la regle de classification Y = g(X ) revient a definir pour tout k ∈ Yles probabilites a posteriori

P[Y = k|X = x ]

Approche parametriqueI Regression logistique: Y = {0, 1} et

P[Y = 1|X = x ] =exp(X Tβ)

1 + exp(X Tβ)

I Analyse discriminante:

P(Y = k|X = x) =f (x |Y = k)P(Y = k)∑Kj=1 f (x |Y = j)P(Y = j)

et

f (x |Y = k) =1

(2π)p/2|Σk |1/2 exp(−12 (x − µk)T Σk

−1(x − µk))

Estimation des parametres sur l’echantillon d’apprentissage

Chapitre 1 Apprentissage supervise 2015-2016 30 / 36

Page 117: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesParametrique ou non

Definir la regle de classification Y = g(X ) revient a definir pour tout k ∈ Yles probabilites a posteriori

P[Y = k|X = x ]

Approche parametriqueI Regression logistique: Y = {0, 1} et

P[Y = 1|X = x ] =exp(X Tβ)

1 + exp(X Tβ)

I Analyse discriminante:

P(Y = k|X = x) =f (x |Y = k)P(Y = k)∑Kj=1 f (x |Y = j)P(Y = j)

et

f (x |Y = k) =1

(2π)p/2|Σk |1/2 exp(−12 (x − µk)T Σk

−1(x − µk))

Estimation des parametres sur l’echantillon d’apprentissage

Chapitre 1 Apprentissage supervise 2015-2016 30 / 36

Page 118: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesParametrique ou non

Approche non parametrique

I Approche de type modele avec estimation non parametrique def (x |Y = k).Par exemple estimee de Parzen

f (x0|Y = k) =1

n∑i=1

Kλ(x0, xi )

ou Kλ est un noyau donne, e.g. gaussien 1D

Kλ(x0, x) =1√2π

exp[− 1

2λ2 (x0 − x)2]

I Approche de type prototype

F Apprentissage direct de la regle de classification Y = g(X)F Exemple : K-plus proches voisins, arbres de decisions, forets aleatoires,

etc.

Toujours un un parametre a choisir.

Chapitre 1 Apprentissage supervise 2015-2016 31 / 36

Page 119: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesParametrique ou non

Approche non parametriqueI Approche de type modele avec estimation non parametrique de

f (x |Y = k).Par exemple estimee de Parzen

f (x0|Y = k) =1

n∑i=1

Kλ(x0, xi )

ou Kλ est un noyau donne, e.g. gaussien 1D

Kλ(x0, x) =1√2π

exp[− 1

2λ2 (x0 − x)2]

I Approche de type prototype

F Apprentissage direct de la regle de classification Y = g(X)F Exemple : K-plus proches voisins, arbres de decisions, forets aleatoires,

etc.

Toujours un un parametre a choisir.

Chapitre 1 Apprentissage supervise 2015-2016 31 / 36

Page 120: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesParametrique ou non

Approche non parametriqueI Approche de type modele avec estimation non parametrique de

f (x |Y = k).Par exemple estimee de Parzen

f (x0|Y = k) =1

n∑i=1

Kλ(x0, xi )

ou Kλ est un noyau donne, e.g. gaussien 1D

Kλ(x0, x) =1√2π

exp[− 1

2λ2 (x0 − x)2]

I Approche de type prototype

F Apprentissage direct de la regle de classification Y = g(X)F Exemple : K-plus proches voisins, arbres de decisions, forets aleatoires,

etc. Toujours un un parametre a choisir.

Chapitre 1 Apprentissage supervise 2015-2016 31 / 36

Page 121: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesParametrique ou non

Approche non parametriqueI Approche de type modele avec estimation non parametrique de

f (x |Y = k).Par exemple estimee de Parzen

f (x0|Y = k) =1

n∑i=1

Kλ(x0, xi )

ou Kλ est un noyau donne, e.g. gaussien 1D

Kλ(x0, x) =1√2π

exp[− 1

2λ2 (x0 − x)2]

I Approche de type prototypeF Apprentissage direct de la regle de classification Y = g(X)

F Exemple : K-plus proches voisins, arbres de decisions, forets aleatoires,etc.

Toujours un un parametre a choisir.

Chapitre 1 Apprentissage supervise 2015-2016 31 / 36

Page 122: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesParametrique ou non

Approche non parametriqueI Approche de type modele avec estimation non parametrique de

f (x |Y = k).Par exemple estimee de Parzen

f (x0|Y = k) =1

n∑i=1

Kλ(x0, xi )

ou Kλ est un noyau donne, e.g. gaussien 1D

Kλ(x0, x) =1√2π

exp[− 1

2λ2 (x0 − x)2]

I Approche de type prototypeF Apprentissage direct de la regle de classification Y = g(X)F Exemple : K-plus proches voisins, arbres de decisions, forets aleatoires,

etc.

Toujours un un parametre a choisir.

Chapitre 1 Apprentissage supervise 2015-2016 31 / 36

Page 123: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Les methodes de classification superviseesParametrique ou non

Approche non parametriqueI Approche de type modele avec estimation non parametrique de

f (x |Y = k).Par exemple estimee de Parzen

f (x0|Y = k) =1

n∑i=1

Kλ(x0, xi )

ou Kλ est un noyau donne, e.g. gaussien 1D

Kλ(x0, x) =1√2π

exp[− 1

2λ2 (x0 − x)2]

I Approche de type prototypeF Apprentissage direct de la regle de classification Y = g(X)F Exemple : K-plus proches voisins, arbres de decisions, forets aleatoires,

etc. Toujours un un parametre a choisir.

Chapitre 1 Apprentissage supervise 2015-2016 31 / 36

Page 124: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Une methode simplek plus proches voisins

Approche de type prototype

Variables d’entree reelles X ∈ Rp

regle de classification dans le cas d’une reponse binaire Y ∈ {0, 1}

g(X ) =1 si∑

Xi∈Nk (X)

Yi >∑

Xi∈Nk (X)

(1− Yi )

=0 sinon

ou Nk(X ) est un voisinage de X contenant uniquement les k plus prochesvoisins de l’ensemble d’apprentissage

Vote a la majorite parmi les k plus proches voisins du point x a classer

Chapitre 1 Apprentissage supervise 2015-2016 32 / 36

Page 125: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Une methode simplek plus proches voisins

Approche de type prototype

Variables d’entree reelles X ∈ Rp

regle de classification dans le cas d’une reponse binaire Y ∈ {0, 1}

g(X ) =1 si∑

Xi∈Nk (X)

Yi >∑

Xi∈Nk (X)

(1− Yi )

=0 sinon

ou Nk(X ) est un voisinage de X contenant uniquement les k plus prochesvoisins de l’ensemble d’apprentissage

Vote a la majorite parmi les k plus proches voisins du point x a classer

Chapitre 1 Apprentissage supervise 2015-2016 32 / 36

Page 126: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Une methode simplek plus proches voisins

Approche de type prototype

Variables d’entree reelles X ∈ Rp

regle de classification dans le cas d’une reponse binaire Y ∈ {0, 1}

g(X ) =1 si∑

Xi∈Nk (X)

Yi >∑

Xi∈Nk (X)

(1− Yi )

=0 sinon

ou Nk(X ) est un voisinage de X contenant uniquement les k plus prochesvoisins de l’ensemble d’apprentissage

Vote a la majorite parmi les k plus proches voisins du point x a classer

Chapitre 1 Apprentissage supervise 2015-2016 32 / 36

Page 127: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Une methode simplek plus proches voisins

Approche de type prototype

Variables d’entree reelles X ∈ Rp

regle de classification dans le cas d’une reponse binaire Y ∈ {0, 1}

g(X ) =1 si∑

Xi∈Nk (X)

Yi >∑

Xi∈Nk (X)

(1− Yi )

=0 sinon

ou Nk(X ) est un voisinage de X contenant uniquement les k plus prochesvoisins de l’ensemble d’apprentissage

Vote a la majorite parmi les k plus proches voisins du point x a classer

Chapitre 1 Apprentissage supervise 2015-2016 32 / 36

Page 128: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Une methode simplek plus proches voisins

Exemple avec k = 15, p = 2

Chapitre 1 Apprentissage supervise 2015-2016 33 / 36

Page 129: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Une methode simplek plus proches voisins

k=15 k=1

Chapitre 1 Apprentissage supervise 2015-2016 34 / 36

Page 130: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Une methode simplek plus proches voisins

Pour appliquer cette methode il faut fixer un parametre : le nombre devoisins k

Une strategie de choix du parametre k

I Choisir un echantillon d’apprentissage et un echantillon testI Faire varier kI Pour chaque valeur de k calculer le taux d’erreur empirique de

prediction des individus de l’echantillon test.

Chapitre 1 Apprentissage supervise 2015-2016 35 / 36

Page 131: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Une methode simplek plus proches voisins

Pour appliquer cette methode il faut fixer un parametre : le nombre devoisins k

Une strategie de choix du parametre k

I Choisir un echantillon d’apprentissage et un echantillon testI Faire varier kI Pour chaque valeur de k calculer le taux d’erreur empirique de

prediction des individus de l’echantillon test.

Chapitre 1 Apprentissage supervise 2015-2016 35 / 36

Page 132: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Une methode simplek plus proches voisins

Pour appliquer cette methode il faut fixer un parametre : le nombre devoisins k

Une strategie de choix du parametre kI Choisir un echantillon d’apprentissage et un echantillon test

I Faire varier kI Pour chaque valeur de k calculer le taux d’erreur empirique de

prediction des individus de l’echantillon test.

Chapitre 1 Apprentissage supervise 2015-2016 35 / 36

Page 133: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Une methode simplek plus proches voisins

Pour appliquer cette methode il faut fixer un parametre : le nombre devoisins k

Une strategie de choix du parametre kI Choisir un echantillon d’apprentissage et un echantillon testI Faire varier k

I Pour chaque valeur de k calculer le taux d’erreur empirique deprediction des individus de l’echantillon test.

Chapitre 1 Apprentissage supervise 2015-2016 35 / 36

Page 134: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Une methode simplek plus proches voisins

Pour appliquer cette methode il faut fixer un parametre : le nombre devoisins k

Une strategie de choix du parametre kI Choisir un echantillon d’apprentissage et un echantillon testI Faire varier kI Pour chaque valeur de k calculer le taux d’erreur empirique de

prediction des individus de l’echantillon test.

Chapitre 1 Apprentissage supervise 2015-2016 35 / 36

Page 135: Chapitre 1 Marie Chavent - u-bordeaux.frmchave100p/wordpress/wp... · Apprentissage supervis´e et th´eorie de la d ´ecision Chapitre 1 Marie Chavent `a partir des cours d’Adrien

Une methode simplek plus proches voisins

Chapitre 1 Apprentissage supervise 2015-2016 36 / 36