Apprentissage Statistique, Modélisation, Prévision, Data Mining
@let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique...
Transcript of @let@token Apprentissage Statistique de la Régression à l ... · Apprentissage Statistique...
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Apprentissage Statistiquede la Regression a l’IA hybride
PHILIPPE BESSE
Universite de ToulouseINSA – Dpt GMM
Institut de Mathematiques – ESPUMR CNRS 5219
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision
Apprentissage Statistique ⊂ Apprentissage Automatique (Machine Learning) ⊂ IA
Facteurs de risque epidemiologiques, biomarqueursScore d’appetence ou d’attrition en GRC, de credit en financeReconnaissance d’une activite humaineAdaptation statistique en prevision meteoSysteme de recommandation de ventes en lignePolice, justice predictiveDetection de defaillance, fraude, intrusion (anomalies)...
Donnees→ Estimer un modele / entraıner un algorithme→ prevision→ decision
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision
Buzzwords : de la Statistique a l’IA hybride par la Science des Donnees
Statistique Informatique Algos–Technos1930-60s HO Statistique Inferentielle Debut de l’IA (1955) Regression / Perceptron
1970s KO Exploratory Data Analysis Systemes experts Composantes Principales
1980s MO Statistique fonctionnelle Reseaux de neurones CARTrees
1990s GO Data mining donnees pre-acquises Boosting, SVM
2000s TO p >> n Machine Learning Lasso, random forest
2008 Data Scientist2010s PO p et n tres grands Big Data Hadoop
2012 Deep Learning ConvNet, TensorFlow
2016 Intelligence Artificielle AlphaGo, Zero... XGBoost
2019 IA hybride ANITI, Deep4Cast...
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision
Objectif ?
Explorer : representer, decrire, taxonomieExpliquer ou tester, prouverPrevoir et selectionner, interpreterPrevision ”brute”Detection d’anomalies
But ?Publication academique (Benchmarks — UCI repository)Solution industrielleConcours de type Kaggle
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision
Concours Kaggle : Identify people who have a high degree of Psychopathy basedon Twitter usage.
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision
Pourquoi l’IA hybride : Classification superviseeINSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision
IA Hybride elementaire au CNRM : Adaptation Statistique
Donnees Meteo France (2002-2003)Besse P., Milhem H., Mestre O., Dufour A., Peuch V.-H. (2007). Comparaisonde techniques de Data Mining pour l’adaptation statistique des previsionsd’ozone du modele de chimie-transport MOCAGE, Pollution Atmospherique,195, 285-292.Prevision deterministe Mocage : O3, humidite, temperature, vent, NO2...Prevoir pour le lendemain
taux de concentration ozonedepassement du seuil legal
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision
Human activity recognition HAR
Donnees publiques de l’UCI repository6 signaux : accelerometre et gyroscope en x, y, z
p = 128 mesures : 2.52 secondes a 50 HzObjectif : Identifier l’activite : couche, assis, debout, marcher, monter &descendre escalier
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision
Human activity recognition : accelerometre en y reparti par activites
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision
Human Activity Recognition
Phase 1 : variables ”metier”p = 561 nouvelles variables : features engineering
Domaine temporel : min, max, moyennes, variances, correlations...Domaine frequentiel : plus grande, moyenne, energies par bande...
Base d’apprentissage : n = 10300
Phase 2 : signaux bruts et deep learningPhase 3 a suivre : reconnaissance en ligne
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision
HAR : Analyse en composantes principales sur les variables ”metier”INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision
MNIST : quelques exemples d’images de caracteres
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision
Preparation des donnees ou data mungingExtraction, nettoyageStatistiques elementaires univariees, bivarieesValeurs atypiques & incoherences, Donnees manquantesNouvelles variables ou caracteristiques (feature engineering)
Exploration multidimensionnelle des donnees
Reduction de dimension, representations : ACP, AFD, AFC, MDSClassification non supervisee (clustering)
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision
Apprentissage supervise : objectifs
Donnees : p + 1 variables Y,Xjj=1,p sur n individus
Apprendre ou estimer : Y = f (X)
Minimiser risque ou erreur de previsionY quantitative (regression) : erreur quadratique moyenneY qualitative (discrimination) : nb de mal classes
AttentionDistinguer erreur d’ajustement et erreur de previsionMinimiser l’erreur de prevision
Optimiser la complexite du modele (parcimonie)Meilleur compromis Biais – Variance
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision
Sur-apprentissage en regression polynomiale
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision
Sur-apprentissage en classification supervisee
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision
Strategie de l’Apprentissage1 Partition aleatoire de l’echantillon : apprentissage, (validation), test2 Pour chacune des methodes considerees :
Apprentissage (estimation) fonction de θ (complexite)Optimisation de θ par validation croisee (VC)
3 Comparaison des methodes : erreur de prevision sur echantillon test4 Iteration eventuelle (VC Monte Carlo)5 Choix de la methode (prevision vs. interpretabilite).6 Re-estimation du modele, exploitation
Possible : combinaison de modeles
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision
Estimer sans biais une erreur de prevision
Partager l’echantillon : Apprentissage, (Validation), TestPenalisation de l’erreur empirique (Cp, AIC, BIC)dans les modeles statistiquesSimulation
Validation croisee Monte CarloV-fold cross validationEchantillons Bootstrap
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision
Estimation sans biais sur un echantillon independant
Partition : Dn = DApprn1 ∪ DTest
n2avec n = n1 + n2
Rn(f (DApprn1 ),DAppr
n1 ) pour estimer un modele choisi f (DApprn1 )
Rn(f ,DTestn2
) pour comparer les meilleurs modeles
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision
V-fold cross validationPermutation aleatoire et separation en V parts
V estimations du modele et de l’erreurMoyenne des V erreurs : RCV = 1
n
∑ni=1 l(yi, f (−τ(i))(xi))
Choix de V : n (variance), petit (biais), 10 par defautChoix de modele : θ = arg minθ RCV(θ)
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Definitions, objectifsCas d’usageStrategie de la Science des DonneesEstimation de l’erreur de prevision
Echantillons Bootstrap ou re-echantillonnage
Echantillonner dans l’echantillon
B fois n tirages avec remiseRBoot = 1
B
∑Bb=1
1n
∑ni=1 l(yi, fz∗b(xi))
Erreur out of bag :Roob = 1
n
∑ni=1
1Bi
∑b∈Ki
l(yi, fz∗b(xi))
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision
Objectifs
Expliquer Y quantitative avec X1, . . . ,Xp
Modele gaussien et lineaire generalChoix de modele par selection de variablesChoix de modele par penalisation (ridge, Lasso)
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision
Hypotheses du Modele lineaire
Echantillon taille n : (x1i , . . . , x
pi , yi); i = 1, . . . , n
Yi = β0 + β1X1i + β2X2
i + · · ·+ βpXpi + εi; i = 1, . . . , n
HypothesesE(εi) = 0,Var(ε) = σ2IXj deterministes ou bien ε independant des Xj
β0, . . . , βp constantsOption ε ∼ N (0, σ2I)
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision
OX1
X2
Xp
Y
Y
ε
θ
Projection Y de Y sur l’espace vectoriel Vect{1,X1, . . . ,Xp}
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision
Inference sur la PrevisionPour x0 :
y0 = b0 + b1x10 + · · ·+ bpxp
0.
Intervalles de confiance des previsions de Y et E(Y)
y0 ± tα/2;(n−p−1)s(1 + v′0(X′X)−1v0)1/2
y0 ± tα/2;(n−p−1)s(v′0(X′X)−1v0)1/2
avec v0 = (1|x′0)′ ∈ Rp+1
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision
Proprietes de la regression ridge1 X′X + λIp est inversible, mieux conditionnee2 β0 n’intervient pas : centrer X3 Depend des unites : reduire X4 Forme equivalente :βRidge = arg minβ
{‖Y− Xβ‖2 ; ‖β‖2 < c
}5 Chemin de regularisation6 Optimisation de λ par V-fold validation croisee
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision
Optimisation (validation croisee) de la regression ridge polynomiale
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision
Cookies : Regression avec penalisation ridge de donnees NIR.
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision
Selection de modele par penalisation LASSO
Ridge toujours calculable mais probleme d’interpretationObjectif : associer penalisation et selection
βLasso = argminβ∈Rp
{∑ni=1(Yi −
∑pj=0 X(j)
i βj)2 + λ
∑pj=1 |βj|
}βLasso = argminβ,‖β‖1≤t(‖Y− Xβ‖2)
λ est le parametre de penalisationλ = 0 : estimateur des moindres carres.λ tend vers l’infini, βj = 0, j = 1, . . . , p.
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision
Ozone : optimisation de regularisation lasso par validation croisee.
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision
Cookies : Regression Lasso de donnees NIR.
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision
Penalisation Ridge vs. Lasso
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision
Introduction aux arbres binaires de decisionClassification and regression trees (CART)Breiman et col. (1984)Xj explicatives quantitatives ou qualitativesY quantitative : regression treeY qualitative a m modalites {T`; ` = 1 . . . ,m} : classification treeObjectif : construction d’un arbre de decision binaire simple a interpreterMethodes calculatoires : pas d’hypotheses mais des donnees
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision
�� ��@@@@@
���
���� ��@@@@
��
��
�� ��@@@@
��
��Tj T` Tj
�� ��
Revenu < 10000 Revenu > 10000
Sexe=H Sexe=FAge < 50 Age > 50
Exemple fictif : arbre binaire de classification
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision
C8 C9
C4 C5
C2 C3
C1
X1 � d3 X1 > d3
X2 � d2 X2 > d2
X1 � d1 X1 > d1
d3 d1
d2
X1
X2
C4
C3
C8 C9
Exemple fictif : pavage dyadique de l’espace
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision
Y quantitative : heterogeneite en regression
Heterogeneite du nœud κ :
Dκ =1|κ|∑i∈κ
(yi − yκ)2
ou |κ| est l’effectif du nœud κ
Minimiser la variance intra-classeLes nœud fils κG et κD minimisent :
|κG|n
∑i∈κG
(yi − yκG)2 +
|κD|n
∑i∈κD
(yi − yκD)2.
Heterogeneite et deviance dans le cas gaussien(Breiman et al. 1984) INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision
Y qualitative : heterogeneite en discrimination
Heterogeneite du nœud κ :Entropie avec la notation 0 log(0) = 0
Dκ = −2m∑`=1
|κ|p`κ log(p`κ)
p`κ : proportion de la classe T` de Y dans κ.Concentration de Gini : Dκ =
∑m`=1 p`κ(1− p`κ)
Entropie et deviance d’un modele multinomial (Breiman et al. 1984)
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Modele lineaire gaussienAlgorithmes de selection de modeleArbres binaires de decision
Ozone : arbre de discrimination elague par validation croisee
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
Ensemble d’arbres : introduction historique
Strategies adaptatives (boosting) ou aleatoires (bagging)Combinaison ou agregation de modelesMachine Learning) et StatistiqueComparatifs heuristiques et proprietes theoriquesBagging pour bootstrap aggregating (Breiman, 1996)Boosting (Freund et Shapiro,1996) deterministe et adaptatifRandom Forest (Breiman, 2001)Gradient Boosting Machine (Friedman, 2001)Extrem gradient boosting (Chen et Guestrin, 2016)Methodes efficaces : Fernandez-Delgado et al. (2014), Kaggle
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
Forets aleatoires : principe
Amelioration du bagging d’arbres binairesVariance de B variables correlees : ρσ2 + 1−ρ
B σ2
Ajout d’une randomisation pour rendre les arbres plus independantsChoix aleatoire des variablesInteret : grande dimension
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
Forets aleatoires : algorithme
Soit x0 a prevoir et z = {(x1, y1), . . . , (xn, yn)} un echantillon pour b = 1 a BTirer un echantillon bootstrap z∗bEstimer un arbre avec randomisation des variables :Pour chaque nœud, tirage aleatoire de m predicteurs
Calculer l’estimation moyenne fB(x0) = 1B
∑Bb=1 fzb(x0)
ou le vote
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
0 100 200 300 400 500
0.12
0.16
0.20
0.24
Index
Err
.oob
0 100 200 300 400 500
0.10
0.15
0.20
0.25
Index
Err
.test
Banque : Evolution du taux de mal classes ”out-of-bag” et sur l’echantillon test enfonction du nombre d’arbres de la foret
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
Boosting : principes
Ameliorer les competences d’un faible classifieur (Schapire, 1990 ; Freund etSchapire, 1996)Agregation d’une famille de modeles recurents Chaque modele est uneversion adaptative du precedent en donnant plus de poids, lors de l’estimationsuivante, aux observations mal ajusteesFriedman (2001)
equivalence avec optimisation pas a pasGBM : descente de gradient
Chen et Guestrin (XGBoost, 2016)Tailor, penalisations L1, L2Parallelisation (GPU)
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
Intelligence Artificielle : historique
1943 que Mc Culloch et Pitts neurone formel1959 Rosenblatt perceptron1970 Approche symbolique vs connexionisteConnaissance localisee vs repartie
Systemes expertsBase de connaissance, base de faitsMoteur d’inference
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
Reseaux de neuronesAnnees 80 :
Algorithme de retropropagation de l’erreurModele markovien d’apprentissageDeveloppement considerable
Annees 90 : mise en veilleuse (boosting, SVM...)2010 ; le retour : deep learning
DefinitionUn reseau est un graphe de neurones formels se distinguant par le type desneurones et l’architectureAnalogie biologique avec les axones, dendrites et noyaux.
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
Σ | g
x1QQQQs
x2PPPPqxj -
...xp �
���3
- y
Representation d’un neurone formel
Notations
s = h(x1, . . . , xp) = g(α0 +
∑pj=1 αjxj
)= g(α0 +α′x)
[α0, . . . , αp] : vecteur de poidsMemoire ou connaissance repartie du reseau
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
Fonction d’activation d’un neuroneLineaire g(x) = x (identite)
Seuil g(x) = 1[0,+∞[(x)
Sigmoıde g(x) = 1/(1 + ex)
ReLu g(x) = max(0, x) (REctified Linear unit)
softmax g(x)j = exj∑Kk=1 exk
pour tout k ∈ {1 . . .K}
Radiale g(x) =√
1/2πe−x2/2
Stochastique g(x) = 1 avec probabilite 1/(1 + e−x/H)sinon g(x) = 0
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
x1 -HHHHjJJJJJJ
LLLLLLLLLL
x2 - ����*
HHHHj
JJJJJJ
...xj - H
HHHj
����*
�
...xp - �
���*
�
����������Σ | g
Σ | g...
Σ | g
Σ | g
@@@@R-
�����
- y
Perceptron elementaire avec une couche cachee et une couche de sortie.
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
Apprentissage par retropropagation du gradientInitialisationPoids bjk` uniforme sur [0, 1]
Normaliser dans [0, 1] x1, . . . , xp; ytant que Q > errmax ou niter < itermax
Ordre aleatoire de l’echantillon d’apprentissagepour i = 1 . . . n
ε(i) = yi − φ(x1i , . . . , x
pi ; (b)(i − 1))
bjk`(i) = bjk`(i − i) + ∆bjk`(i) pour tout j, k, l
fin pour
fin tant que
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
Deep Learning
Yan le Cun : MNIST, de 12% (1989) a 0.3% (2012)Convolutional neural network (ConvNet)Bases de donneesPuissance de calcul (GPU)Logiciels Caffe, Torch, Tensorflow, Theano, Keras...Applications vedettes des reseaux :ConvNet, LSTM, AutoEncoder...
Traitement d’images : reconnaissance d’objetsSignal : reconnaissance de la paroleTraduction automatique
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
MNIST Database (Le Cun, 1989)
Couches de reseau de convolutionINSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
Couche de convolutionProprietes d”invariance” localeTranslation, rotation, homothetie,Scattering et cascades d’ondelettes (S. Mallat)
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
ImageNet Database
Concours chaque annee depuis 201015 millions d’images avec labels, 22000 categoriesSous-ensemble : 1,2 millions d’images, 1000 categories50 000 images de validation, 150 000 de test
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
Premiers succes
Y. le Cun, tutoriel StatLearn
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
Mieux que l’expert humain
Année de publication2010 2011 2012 2013 2014 2015 2016
0
5
10
15
20
25
30
35 152 couches152 coucheserreur top-5 en %nombre de couchesperformance humaine
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
Support Vector Machine : principe
Separateur a vaste margeOptimisation quadratique sous contraintePenalisation dans le cas non separableProbleme : optimisation avec n contraintes
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
Separateur non lineaire et astuce du noyau
Solution lineaire
f (x) =
n∑i=1
λ∗i yi 〈x, xi〉+ b∗
Solution non lineaire avec Φ implicite
〈Φ(x),Φ(xi)〉 = 〈x, xi〉H = k(x, xi)
Optimiser le choix du noyau et la penalisation
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
Random ForestBoostingDu Perceptron au Deep LearningSupport Vector Machine
SVM : Probleme quadratique dans R2, lineaire dans R3
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
PerformancesEn resume
Ozone : comparaisons des erreurs en regression
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM
Introduction a la Science des DonneesModeles statistiques interpretablesAlgorithmes non lineaires opaques
Conclusion
PerformancesEn resume
En resumeInevitables algorithmes d’apprentissage statistiqueControle de la complexite / choix de l’algorithme : validation croiseeLineaires vs. non lineaires dont arbres, random forest, boostingApprentissage profond et masses d’images, masses de donneesDetection d’anomalies (OC classification, novelty detection)IA hybride avec modeles physique ou stochastique
ComplementsSupports de cours : http://wikistat.frTutoriels : http://github.com/wikistat
INSA Toulouse – Philippe Besse Apprentissage Statistique – R&D 2019 CNRM