@let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique...

61
Introduction ` a la Science des Donn´ ees Mod ` eles statistiques interpr ´ etables Algorithmes non lin ´ eaires opaques Conclusion Apprentissage Statistique de la R ´ egression ` a l’IA hybride PHILIPPE BESSE Universit ´ e de Toulouse INSA – Dpt GMM Institut de Math ´ ematiques – ESP UMR CNRS 5219 INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Transcript of @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique...

Page 1: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Apprentissage Statistiquede la Regression a l’IA hybride

PHILIPPE BESSE

Universite de ToulouseINSA – Dpt GMM

Institut de Mathematiques – ESPUMR CNRS 5219

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 2: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision

Apprentissage Statistique ⊂ Apprentissage Automatique (Machine Learning) ⊂ IA

Facteurs de risque epidemiologiques, biomarqueursScore d’appetence ou d’attrition en GRC, de credit en financeReconnaissance d’une activite humaineAdaptation statistique en prevision meteoSysteme de recommandation de ventes en lignePolice, justice predictiveDetection de defaillance, fraude, intrusion (anomalies)...

Donnees→ Estimer un modele / entraıner un algorithme→ prevision→ decision

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 3: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision

Buzzwords : de la Statistique a l’IA hybride par la Science des Donnees

Statistique Informatique Algos–Technos1930-60s HO Statistique Inferentielle Debut de l’IA (1955) Regression / Perceptron

1970s KO Exploratory Data Analysis Systemes experts Composantes Principales

1980s MO Statistique fonctionnelle Reseaux de neurones CARTrees

1990s GO Data mining donnees pre-acquises Boosting, SVM

2000s TO p >> n Machine Learning Lasso, random forest

2008 Data Scientist2010s PO p et n tres grands Big Data Hadoop

2012 Deep Learning ConvNet, TensorFlow

2016 Intelligence Artificielle AlphaGo, Zero... XGBoost

2019 IA hybride ANITI, Deep4Cast...

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 4: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision

Objectif ?

Explorer : representer, decrire, taxonomieExpliquer ou tester, prouverPrevoir et selectionner, interpreterPrevision ”brute”Detection d’anomalies

But ?Publication academique (Benchmarks — UCI repository)Solution industrielleConcours de type Kaggle

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 5: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision

Concours Kaggle : Identify people who have a high degree of Psychopathy basedon Twitter usage.

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 6: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision

Pourquoi l’IA hybride : Classification superviseeINSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 7: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision

IA Hybride elementaire au CNRM : Adaptation Statistique

Donnees Meteo France (2002-2003)Besse P., Milhem H., Mestre O., Dufour A., Peuch V.-H. (2007). Comparaisonde techniques de Data Mining pour l’adaptation statistique des previsionsd’ozone du modele de chimie-transport MOCAGE, Pollution Atmospherique,195, 285-292.Prevision deterministe Mocage : O3, humidite, temperature, vent, NO2...Prevoir pour le lendemain

taux de concentration ozonedepassement du seuil legal

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 8: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision

Human activity recognition HAR

Donnees publiques de l’UCI repository6 signaux : accelerometre et gyroscope en x, y, z

p = 128 mesures : 2.52 secondes a 50 HzObjectif : Identifier l’activite : couche, assis, debout, marcher, monter &descendre escalier

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 9: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision

Human activity recognition : accelerometre en y reparti par activites

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 10: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision

Human Activity Recognition

Phase 1 : variables ”metier”p = 561 nouvelles variables : features engineering

Domaine temporel : min, max, moyennes, variances, correlations...Domaine frequentiel : plus grande, moyenne, energies par bande...

Base d’apprentissage : n = 10300

Phase 2 : signaux bruts et deep learningPhase 3 a suivre : reconnaissance en ligne

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 11: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision

HAR : Analyse en composantes principales sur les variables ”metier”INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 12: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision

MNIST : quelques exemples d’images de caracteres

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 13: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision

Preparation des donnees ou data mungingExtraction, nettoyageStatistiques elementaires univariees, bivarieesValeurs atypiques & incoherences, Donnees manquantesNouvelles variables ou caracteristiques (feature engineering)

Exploration multidimensionnelle des donnees

Reduction de dimension, representations : ACP, AFD, AFC, MDSClassification non supervisee (clustering)

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 14: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision

Apprentissage supervise : objectifs

Donnees : p + 1 variables Y,Xjj=1,p sur n individus

Apprendre ou estimer : Y = f (X)

Minimiser risque ou erreur de previsionY quantitative (regression) : erreur quadratique moyenneY qualitative (discrimination) : nb de mal classes

AttentionDistinguer erreur d’ajustement et erreur de previsionMinimiser l’erreur de prevision

Optimiser la complexite du modele (parcimonie)Meilleur compromis Biais – Variance

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 15: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision

Sur-apprentissage en regression polynomiale

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 16: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision

Sur-apprentissage en classification supervisee

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 17: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision

Strategie de l’Apprentissage1 Partition aleatoire de l’echantillon : apprentissage, (validation), test2 Pour chacune des methodes considerees :

Apprentissage (estimation) fonction de θ (complexite)Optimisation de θ par validation croisee (VC)

3 Comparaison des methodes : erreur de prevision sur echantillon test4 Iteration eventuelle (VC Monte Carlo)5 Choix de la methode (prevision vs. interpretabilite).6 Re-estimation du modele, exploitation

Possible : combinaison de modeles

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 18: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision

Estimer sans biais une erreur de prevision

Partager l’echantillon : Apprentissage, (Validation), TestPenalisation de l’erreur empirique (Cp, AIC, BIC)dans les modeles statistiquesSimulation

Validation croisee Monte CarloV-fold cross validationEchantillons Bootstrap

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 19: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision

Estimation sans biais sur un echantillon independant

Partition : Dn = DApprn1 ∪ DTest

n2avec n = n1 + n2

Rn(f (DApprn1 ),DAppr

n1 ) pour estimer un modele choisi f (DApprn1 )

Rn(f ,DTestn2

) pour comparer les meilleurs modeles

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 20: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision

V-fold cross validationPermutation aleatoire et separation en V parts

V estimations du modele et de l’erreurMoyenne des V erreurs : RCV = 1

n

∑ni=1 l(yi, f (−τ(i))(xi))

Choix de V : n (variance), petit (biais), 10 par defautChoix de modele : θ = arg minθ RCV(θ)

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 21: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision

Echantillons Bootstrap ou re-echantillonnage

Echantillonner dans l’echantillon

B fois n tirages avec remiseRBoot = 1

B

∑Bb=1

1n

∑ni=1 l(yi, fz∗b(xi))

Erreur out of bag :Roob = 1

n

∑ni=1

1Bi

∑b∈Ki

l(yi, fz∗b(xi))

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 22: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision

Objectifs

Expliquer Y quantitative avec X1, . . . ,Xp

Modele gaussien et lineaire generalChoix de modele par selection de variablesChoix de modele par penalisation (ridge, Lasso)

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 23: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision

Hypotheses du Modele lineaire

Echantillon taille n : (x1i , . . . , x

pi , yi); i = 1, . . . , n

Yi = β0 + β1X1i + β2X2

i + · · ·+ βpXpi + εi; i = 1, . . . , n

HypothesesE(εi) = 0,Var(ε) = σ2IXj deterministes ou bien ε independant des Xj

β0, . . . , βp constantsOption ε ∼ N (0, σ2I)

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 24: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision

OX1

X2

Xp

Y

Y

ε

θ

Projection Y de Y sur l’espace vectoriel Vect{1,X1, . . . ,Xp}

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 25: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision

Inference sur la PrevisionPour x0 :

y0 = b0 + b1x10 + · · ·+ bpxp

0.

Intervalles de confiance des previsions de Y et E(Y)

y0 ± tα/2;(n−p−1)s(1 + v′0(X′X)−1v0)1/2

y0 ± tα/2;(n−p−1)s(v′0(X′X)−1v0)1/2

avec v0 = (1|x′0)′ ∈ Rp+1

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 26: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision

Proprietes de la regression ridge1 X′X + λIp est inversible, mieux conditionnee2 β0 n’intervient pas : centrer X3 Depend des unites : reduire X4 Forme equivalente :βRidge = arg minβ

{‖Y− Xβ‖2 ; ‖β‖2 < c

}5 Chemin de regularisation6 Optimisation de λ par V-fold validation croisee

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 27: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision

Optimisation (validation croisee) de la regression ridge polynomiale

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 28: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision

Cookies : Regression avec penalisation ridge de donnees NIR.

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 29: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision

Selection de modele par penalisation LASSO

Ridge toujours calculable mais probleme d’interpretationObjectif : associer penalisation et selection

βLasso = argminβ∈Rp

{∑ni=1(Yi −

∑pj=0 X(j)

i βj)2 + λ

∑pj=1 |βj|

}βLasso = argminβ,‖β‖1≤t(‖Y− Xβ‖2)

λ est le parametre de penalisationλ = 0 : estimateur des moindres carres.λ tend vers l’infini, βj = 0, j = 1, . . . , p.

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 30: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision

Ozone : optimisation de regularisation lasso par validation croisee.

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 31: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision

Cookies : Regression Lasso de donnees NIR.

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 32: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision

Penalisation Ridge vs. Lasso

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 33: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision

Introduction aux arbres binaires de decisionClassification and regression trees (CART)Breiman et col. (1984)Xj explicatives quantitatives ou qualitativesY quantitative : regression treeY qualitative a m modalites {T`; ` = 1 . . . ,m} : classification treeObjectif : construction d’un arbre de decision binaire simple a interpreterMethodes calculatoires : pas d’hypotheses mais des donnees

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 34: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision

�� ��@@@@@

���

���� ��@@@@

��

��

�� ��@@@@

��

��Tj T` Tj

�� ��

Revenu < 10000 Revenu > 10000

Sexe=H Sexe=FAge < 50 Age > 50

Exemple fictif : arbre binaire de classification

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 35: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision

C8 C9

C4 C5

C2 C3

C1

X1 � d3 X1 > d3

X2 � d2 X2 > d2

X1 � d1 X1 > d1

d3 d1

d2

X1

X2

C4

C3

C8 C9

Exemple fictif : pavage dyadique de l’espace

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 36: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision

Y quantitative : heterogeneite en regression

Heterogeneite du nœud κ :

Dκ =1|κ|∑i∈κ

(yi − yκ)2

ou |κ| est l’effectif du nœud κ

Minimiser la variance intra-classeLes nœud fils κG et κD minimisent :

|κG|n

∑i∈κG

(yi − yκG)2 +

|κD|n

∑i∈κD

(yi − yκD)2.

Heterogeneite et deviance dans le cas gaussien(Breiman et al. 1984) INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 37: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision

Y qualitative : heterogeneite en discrimination

Heterogeneite du nœud κ :Entropie avec la notation 0 log(0) = 0

Dκ = −2m∑`=1

|κ|p`κ log(p`κ)

p`κ : proportion de la classe T` de Y dans κ.Concentration de Gini : Dκ =

∑m`=1 p`κ(1− p`κ)

Entropie et deviance d’un modele multinomial (Breiman et al. 1984)

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 38: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision

Ozone : arbre de discrimination elague par validation croisee

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 39: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

Ensemble d’arbres : introduction historique

Strategies adaptatives (boosting) ou aleatoires (bagging)Combinaison ou agregation de modelesMachine Learning) et StatistiqueComparatifs heuristiques et proprietes theoriquesBagging pour bootstrap aggregating (Breiman, 1996)Boosting (Freund et Shapiro,1996) deterministe et adaptatifRandom Forest (Breiman, 2001)Gradient Boosting Machine (Friedman, 2001)Extrem gradient boosting (Chen et Guestrin, 2016)Methodes efficaces : Fernandez-Delgado et al. (2014), Kaggle

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 40: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 41: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

Forets aleatoires : principe

Amelioration du bagging d’arbres binairesVariance de B variables correlees : ρσ2 + 1−ρ

B σ2

Ajout d’une randomisation pour rendre les arbres plus independantsChoix aleatoire des variablesInteret : grande dimension

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 42: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

Forets aleatoires : algorithme

Soit x0 a prevoir et z = {(x1, y1), . . . , (xn, yn)} un echantillon pour b = 1 a BTirer un echantillon bootstrap z∗bEstimer un arbre avec randomisation des variables :Pour chaque nœud, tirage aleatoire de m predicteurs

Calculer l’estimation moyenne fB(x0) = 1B

∑Bb=1 fzb(x0)

ou le vote

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 43: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

0 100 200 300 400 500

0.12

0.16

0.20

0.24

Index

Err

.oob

0 100 200 300 400 500

0.10

0.15

0.20

0.25

Index

Err

.test

Banque : Evolution du taux de mal classes ”out-of-bag” et sur l’echantillon test enfonction du nombre d’arbres de la foret

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 44: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

Boosting : principes

Ameliorer les competences d’un faible classifieur (Schapire, 1990 ; Freund etSchapire, 1996)Agregation d’une famille de modeles recurents Chaque modele est uneversion adaptative du precedent en donnant plus de poids, lors de l’estimationsuivante, aux observations mal ajusteesFriedman (2001)

equivalence avec optimisation pas a pasGBM : descente de gradient

Chen et Guestrin (XGBoost, 2016)Tailor, penalisations L1, L2Parallelisation (GPU)

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 45: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

Intelligence Artificielle : historique

1943 que Mc Culloch et Pitts neurone formel1959 Rosenblatt perceptron1970 Approche symbolique vs connexionisteConnaissance localisee vs repartie

Systemes expertsBase de connaissance, base de faitsMoteur d’inference

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 46: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

Reseaux de neuronesAnnees 80 :

Algorithme de retropropagation de l’erreurModele markovien d’apprentissageDeveloppement considerable

Annees 90 : mise en veilleuse (boosting, SVM...)2010 ; le retour : deep learning

DefinitionUn reseau est un graphe de neurones formels se distinguant par le type desneurones et l’architectureAnalogie biologique avec les axones, dendrites et noyaux.

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 47: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

Σ | g

x1QQQQs

x2PPPPqxj -

...xp �

���3

- y

Representation d’un neurone formel

Notations

s = h(x1, . . . , xp) = g(α0 +

∑pj=1 αjxj

)= g(α0 +α′x)

[α0, . . . , αp] : vecteur de poidsMemoire ou connaissance repartie du reseau

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 48: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

Fonction d’activation d’un neuroneLineaire g(x) = x (identite)

Seuil g(x) = 1[0,+∞[(x)

Sigmoıde g(x) = 1/(1 + ex)

ReLu g(x) = max(0, x) (REctified Linear unit)

softmax g(x)j = exj∑Kk=1 exk

pour tout k ∈ {1 . . .K}

Radiale g(x) =√

1/2πe−x2/2

Stochastique g(x) = 1 avec probabilite 1/(1 + e−x/H)sinon g(x) = 0

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 49: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

x1 -HHHHjJJJJJJ

LLLLLLLLLL

x2 - ����*

HHHHj

JJJJJJ

...xj - H

HHHj

����*

...xp - �

���*

����������Σ | g

Σ | g...

Σ | g

Σ | g

@@@@R-

�����

- y

Perceptron elementaire avec une couche cachee et une couche de sortie.

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 50: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

Apprentissage par retropropagation du gradientInitialisationPoids bjk` uniforme sur [0, 1]

Normaliser dans [0, 1] x1, . . . , xp; ytant que Q > errmax ou niter < itermax

Ordre aleatoire de l’echantillon d’apprentissagepour i = 1 . . . n

ε(i) = yi − φ(x1i , . . . , x

pi ; (b)(i − 1))

bjk`(i) = bjk`(i − i) + ∆bjk`(i) pour tout j, k, l

fin pour

fin tant que

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 51: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

Deep Learning

Yan le Cun : MNIST, de 12% (1989) a 0.3% (2012)Convolutional neural network (ConvNet)Bases de donneesPuissance de calcul (GPU)Logiciels Caffe, Torch, Tensorflow, Theano, Keras...Applications vedettes des reseaux :ConvNet, LSTM, AutoEncoder...

Traitement d’images : reconnaissance d’objetsSignal : reconnaissance de la paroleTraduction automatique

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 52: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

MNIST Database (Le Cun, 1989)

Couches de reseau de convolutionINSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 53: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

Couche de convolutionProprietes d”invariance” localeTranslation, rotation, homothetie,Scattering et cascades d’ondelettes (S. Mallat)

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 54: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

ImageNet Database

Concours chaque annee depuis 201015 millions d’images avec labels, 22000 categoriesSous-ensemble : 1,2 millions d’images, 1000 categories50 000 images de validation, 150 000 de test

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 55: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

Premiers succes

Y. le Cun, tutoriel StatLearn

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 56: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

Mieux que l’expert humain

Année de publication2010 2011 2012 2013 2014 2015 2016

0

5

10

15

20

25

30

35 152 couches152 coucheserreur top-5 en %nombre de couchesperformance humaine

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 57: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

Support Vector Machine : principe

Separateur a vaste margeOptimisation quadratique sous contraintePenalisation dans le cas non separableProbleme : optimisation avec n contraintes

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 58: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

Separateur non lineaire et astuce du noyau

Solution lineaire

f (x) =

n∑i=1

λ∗i yi 〈x, xi〉+ b∗

Solution non lineaire avec Φ implicite

〈Φ(x),Φ(xi)〉 = 〈x, xi〉H = k(x, xi)

Optimiser le choix du noyau et la penalisation

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 59: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine

SVM : Probleme quadratique dans R2, lineaire dans R3

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 60: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

PerformancesEn resume

Ozone : comparaisons des erreurs en regression

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM

Page 61: @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique ˆApprentissage Automatique (Machine Learning) ˆIA Facteursde risque epid´ emiologiques,´

Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques

Conclusion

PerformancesEn resume

En resumeInevitables algorithmes d’apprentissage statistiqueControle de la complexite / choix de l’algorithme : validation croiseeLineaires vs. non lineaires dont arbres, random forest, boostingApprentissage profond et masses d’images, masses de donneesDetection d’anomalies (OC classification, novelty detection)IA hybride avec modeles physique ou stochastique

ComplementsSupports de cours : http://wikistat.frTutoriels : http://github.com/wikistat

INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM