Machine Learning - Spark / MLlib

download Machine Learning - Spark / MLlib

of 39

Embed Size (px)

Transcript of Machine Learning - Spark / MLlib

  • 1. MACHINELEARNING INTRODUCTIONMLLIB HayssamSaleh

2. ANALYTICS Ladcouvertedepa5ernsdanslesdonnes Sappuiesurlanalyseetlagrga=ondedatasets consquents Pourextrairedesfaitsdupass Prdiredestendances Enu=lisantlemachinelearning 3. CASDUTILISATION Recommanda=on Classica=ondecontenuengroupesprdnis Regroupementdecontenussimilaires Iden=ca=ondetopicsclefs Dtec=ondefraudeetdanomalies Ranking 4. DELADONNELACONNAISSANCE Deladonne laconnaissance Dois-jeaccordercecrditceclientsurlabasedeses bilans? Celmest-ilunlmdhumour? Cemailest-ilunspam? Donnes Hypothses ML Connaissance 5. TYPESDAPPRENTISSAGE Appren=ssageSupervis Classica=on LersultatestunvaleurparmiNsansordrequelconqueetdansun ensembleprdni Exemple:Celmest-ilunlmdhorreurouunlmdac=onsouun lmroman=que Prdirelelabeldenouvellesdonnespar=rdeslabelsdesdonnes existantes Rgression Lersultatestunevaleurdansunensembledevaleurscon=nues Exemple:Quelestleprixprvisionneldecetappartementdansles6 prochainsmois? Appren=ssagenonsupervis Clustering Lesdonnesenentredelalgorithmedappren=ssagenesontpas labellises Grouperlesdonnesenfonc=ondeleursimilarit 6. APPRENTISSAGESUPERVIS Prdireleslabelsdedonnesfuturespar=rdelabels dedonnesexistantes Salaire Statut Propritaire OK/KO 100 Clibataire Oui OK 120 Mari Non OK 100 Divorc Non KO 80 Clibataire Non KO 70 Mari Non KO 100 Clibataire Oui OK x y Con=nue Catgorie Binaire Label x1 x2 x3 7. DMARCHE Echan=llonlablis Sous-Echan=llon lablis Sous-Echan=llondont lelabelatoccult Algorithme dappren=ssage Modle Performance Lemodlegnrelesprdic=ons Lemodleestcorriglorsquelesprdic=onssonterrones Lemodleestconsidrsa=sfaisantlorsqueleniveaudeprcisionestconsidrcomme tantsa=sfaisant 80% 20% Trainingset Testset 8. ARBREDEDCISION 9. LEMEILLEURARBREDEDCISION OK 3 KO 3 Impuret=0,5 Statut Statut? Mari Clibataire/Divorc OK 1 2 KO 1 2 Gini(mari)=1-((1/2)2+(1/2)2)=0,5 Gini(Cl/Div)=1-((2/4)2+(2/4)2)=0,5 Impuret=((1+1)/6)*Gini(mari)+((2+2)/6)*Gini(Cl/Div)=0,5 1 1 2 2 Mari Clibataire/Divorc U=lisa=ondelindexGini OK KO OK KO 10. LEMEILLEURARBREDEDCISION Propritaire? Oui Non OK 2 1 KO 0 3 Gini(Oui)=1-((2/2)2+(0/2)2)=0 Gini(Non)=1-((1/4)2+(3/4)2)=0,375 Impuret=((2+0)/6)*Gini(Oui)+((1+3)/6)*Gini(Non)=0,25 Margederreur 1-max(2/2,0/2)=0 1max(1/4,3/4)=0,25 OK 3 KO 3 Impuret=0,5 Propritaire 2 0 1 3 Oui Non U=lisa=ondelindexGini 11. LEMEILLEURARBREDEDCISION Propritaire? Oui Non OK 2 1 KO 0 3 Entropie(Oui)=-(2/2)log2(2/2)(0/2)log2(0/2)=0 Entropie(Non)=-(1/4)log2(1/4)(3/4)log2(3/4)=0,5+0,31=0,81 Gain=((2+0)/6)*Entropie(Oui)+((1+3)/6)*Entropie(Non)=0,4 Margederreur 1-max(2/2,0/2)=0 1max(1/4,3/4)=0,25 OK 3 KO 3 Impuret=0,5 Propritaire 2 0 1 3 Oui Non U=lisa=ondelentropie 12. ARBREDEDCISION Commentestconstruitlarbrededcision Recherchedelameilleurecondi=ondesegmenta=on Ensappuyantsurlimpuret Questcequelamesuredimpuret Mesurelaqualitdelaspara=on Lasegmenta=onsarrtelorsque: Tousleschan=llonsdunnudappar=ennentlammeclasse Ilnyaplusdenouveauxa5ributs Classica=onlamajorit Ilnyaplusdchan=llonsclasser QuelletechniqueGiniouEntropie? Lali5rature: Ginipourlesa5ributscon=nus,lentropiepourlescatgories Lentropiemoinsperformante? Monavis: Essayerlesdeuxetchoisircellequifonc=onnelemieux. 13. CLASSIFICATIONNAVEBAYSIENNE ThormedeBayes p(y|x)= p(x|y)p(y) p(x) p(y|x) Probabilitquexsoitdelaclassey p(x|y) Quelleestdanslchan=llonlabellis,laprobabilitquexsoitdanslaclassey p(y) Quelleestdanslchan=llonlabellis,laprobabilitdoccurrencedelaclassey p(x)= quelleestdanslchan=llonlabellis,laprobabilitdoccurrencedex 14. CLASSIFICATIONNAVEBAYSIENNE Statut OK/KO Clibataire OK Mari OK Divorc KO Clibataire KO Mari KO Clibataire OK P(OK|Clibataire)=p(Clibataire|OK)p(OK) p(Clibataire) P(OK|oui)=2/3*3/6 =0,67 3/6 15. CLASSIFICATIONNAVEBAYSIENNE Client Salaire Statut Propritaire OK/KO C1 100=2 Clibataire Oui OK C2 120=2 Mari Non OK C3 100=2 Divorc Non KO C4 80=1 Clibataire Non KO C5 70=1 Mari Non KO C6 100=2 Clibataire Oui OK C7 90=1 Mari Non p(x|y)=p(x1|y)p(x2|y)p(x3|y) p(C7|OK)=p(1|OK)p(Mari|OK)p(Non|OK)=0*0.5*0.25 16. RGRESSIONLOGISTIQUE Consistedonnerunpoidschaqueprdicteur. Pourobtenirunrapportdechances. ln P(y=1|x) P(y=0|x) = a0+a1x1+a2x2+a3x3 ln pi(x) 1pi(x) = a0+a1x1+a2x2+a3x3 pi(x)= e(a0+a1x1+a2x2+a3x3) 1-e(a0+a1x1+a2x2+a3x3) e(a0+a1x1+a2x2+a3x3) 17. RGRESSIONLOGISTIQUE Client Salaire Statut Propritaire OK/KO C(X) PI(Score) C1 100 Clibataire Oui OK 1,99 0,87 C2 120 Mari Non OK 1,3 0,55 C3 100 Divorc Non KO -2,7 0,12 C4 80 Clibataire Non KO -1,5 0,01 C5 70 Mari Non KO -0,38 0,42 C6 100 Clibataire Oui OK -0,49 0,21 18. RGRESSIONLOGISTIQUELACOURBEROC Client Salaire Statut Proprit aire OK/KO C(X) PI(Score) TVP TFP C1 100 Clib. Oui OK 1,99 0,87 1/3=0,33 0/3=0 C2 120 Mari Non OK 1,3 0,55 2/3=0,66 0/3=0 C5 70 Mari Non KO -0,38 0,42 2/3=0,66 1/3=0,33 C6 100 Clib. Oui OK -0,49 0,21 3/3=1 1/3=0,33 C3 100 Divorc Non KO -2,7 0,12 3/3=1 2/3=0,66 C4 80 Clib. Non KO -1,5 0,01 3/3=1 3/3=1 AUC>0.9 AUC AUC=0.5 Pasdediscrimina=on 0.7