Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique...

44
Reg. logistique Introduction à la régression logistique Introduction à la régression logistique A. Fermin et E. Matzner-Løber

Transcript of Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique...

Page 1: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Introduction à la régression logistique

A. Fermin et E. Matzner-Løber

Page 2: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Rappels régression MC

Objectif

Modéliser la variable d’intérêt Y par une fonction des variables(potentiellement) explicatives X

I modéliser la concentration en ozone en fonction des variablesmétéorologiques

I modéliser la hauteur d’un arbre en fonction de son diamètreI ...

Page 3: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Rappels régression MC

Rappels de la démarche

1. Graphes2. Ecriture du modèle théorique3. Estimation des paramètres4. Analyse des résidus5. Choix de variables6. Modèle(s) final(aux)

Page 4: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Rappels régression MC

Modélisation

X = (X1, · · · ,Xp) p variables explicativesY variable quantitative à expliquerEcriture du modèles

Y = Xβ + ε

sous les hypothèsesI (H1) le rang de X vaut pI (H2) ε ∼ N (0, σ2I )

sous l’hypothèse de normalité des résidus, on a

Y ∼ N (Xβ, σ2I )

Nous prendrons les notations suivantes : point x , Ex(Y ) = x ′β.

Page 5: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Rappels régression MC

Estimations

Estimateur de MC, estimateur qui minimise

‖Y − Xβ‖2.

Estimateur du MV, estimateur qui maximise

logL(Y , β, σ2) = −n

2log σ2 − n

2log 2π − 1

2σ2 ‖Y − Xβ‖2.

Estimateur des MCO ou du MV identiques (sauf pour σ2)

Page 6: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Introduction et rappels

Nouveaux problèmes

I expliquer la présence/absence d’une maladie cardiovasculaire (notée aussi CHD), par l’âge X des patients

I prédire l’état d’une machine outil (fonctionnement/arrêt) enfonction de son ancienneté afin de faire de la maintenanceprédictive par exemple

Page 7: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Introduction et rappels

Nouveaux problèmes suite

I prédire l’état d’un porcelet (vivant/mort) en post-sevrage dansune station en fonction de la saison (4 modalités), de ladensité (nb d’animaux par case, 3 modalités), race, poidsd’entrée en post-sevrage, gain de poids moyen quotidien prispar l’animal, indice de consommation (quantité d’aliment enkg pour 1kg de croissance)

I analyser les espèce d’Iris : setosa, versicolor et virginica, enfonction de la longueur et largeur des pétales

Page 8: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Introduction et rappels

Nouveaux problèmes suite

Quelle est la différence entre ces problèmes et ceux que nous avonsdéjà résolus ?

La variable Y est qualitative

Page 9: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Introduction et rappels

Nouveaux problèmes suite

Quelle est la différence entre ces problèmes et ceux que nous avonsdéjà résolus ?

La variable Y est qualitative

Page 10: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Les données

Exemple : maladie cardio-vasculaire

Y sain / malade d’une maladie cardio-vasculaire, par l’âge X despatients. n = 100 observations

Id age chd1 20 sain2 23 sain3 24 sain4 25 malade...

...97 64 sain98 64 malade99 65 malade100 69 malade

Page 11: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Les données

Représentation graphique

● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ●● ●●● ●●●● ●● ●● ● ● ●● ● ● ● ●

20 30 40 50 60 70

age

chd

sain

mal

ade

Page 12: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Les données

Première estimation, découpage en classes d’âge

Age n Absent Présent Proportion[19, 29[ 10 9 1 .10[29, 34[ 15 13 2 .13[34, 39[ 12 9 3 .25[39, 44[ 15 10 5 .33[44, 49[ 13 7 6 .46[49, 54[ 8 3 5 .625[54, 59[ 17 4 13 .76[59, 69[ 10 2 8 .8

Page 13: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Les données

Représentation graphique

20 30 40 50 60 70 80

0.0

0.2

0.4

0.6

0.8

1.0

Age

Chd

Page 14: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Les données

pour aller plus loin

On souhaiterait trouver une fonctionI un peu plus régulièreI qui utilise toutes les données (sinon faire des classes qui

varient avec x)pour obtenir par exemple

Page 15: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Les données

Fonction souhaitée

20 30 40 50 60 70 80

0.0

0.2

0.4

0.6

0.8

1.0

Age

Chd

Page 16: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Les données

Equation d’une courbe en SUne première façon d’obtenir une courbe en S est de considérer

x → exp(x ′β)

1 + exp(x ′β)

ββββ

====

1020.50

0.0

0.2

0.4

0.6

0.8

1.0

proba

x β

−10 5 0 105

Page 17: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Modélisation

Y variable binaire

Ici la variable Y prend 2 valeurs, modélisons

(Y |X = x) ∼ B(p(x))

P(Y = 1|X = x) = p(x) et P(Y = 0|X = x) = 1− p(x)

Nous avons donc

Ex(Y ) = p(x)

Varx(Y ) = p(x)(1− p(x)) hétéroscédasticité

Page 18: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Modélisation

Y variable binaire

Ici la variable Y prend 2 valeurs, modélisons

(Y |X = x) ∼ B(p(x))

P(Y = 1|X = x) = p(x) et P(Y = 0|X = x) = 1− p(x)

Nous avons donc

Ex(Y ) = p(x)

Varx(Y ) = p(x)(1− p(x)) hétéroscédasticité

Page 19: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Modélisation

Comparaison modèle linéaire

Dans le modèle linéaire

E(Y |x) = x ′β

Quand Y est binaire, on a

E(Y |x) = p(x) à valeurs dans [0, 1]

mais il existe des transformations g (appelées fonctions de lien) tq

g(p(x)) = x ′β

Page 20: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Modélisation

La fonction « logit »

E(Y |X = x) = p(x) =exp(x ′β)

1 + exp(x ′β)

La fonction « logit » :

p 7→ g(p) = log(p

1− p)

est bijective (dérivable) et nous avons

g(p(x)) = log(p(x)

1− p(x)) = x ′β

Page 21: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Régression logistique

Définition

1. « Choix » d’une loi pour (Y |X = x) : Bernoulli2. Choix d’une fonction g : fonction logit3. Modéliser E(Y |X = x) = P(Y = 1|X = x) grâce à

g {P(Y = 1|X = x)} = x ′β

Les paramètres β sont inconnus !

Page 22: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Régression logistique

Estimation de β par MV

DefinitionLa vraisemblance du modèle est définie par :

Ln(y1, . . . , yn, β) =n∏

i=1

P(Y = yi |X = xi )

que nous noterons simplement Ln(β).

Page 23: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Régression logistique

Ecriture de la vraisemblance

Exprimons la vraisemblance en fonction de β :

Ln(β) =n∏

i=1

P(Y = yi |X = xi ) =n∏

i=1

p(xi )yi (1− p(xi ))1−yi .

En passant au log, on obtient

Ln(β) =n∑

i=1

{yi log(p(xi )) + (1− yi ) log(1− p(xi ))}

après quelques calculs à faire en exercice

=n∑

i=1

{yix ′iβ − log(1 + exp(x ′iβ))}

Page 24: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Régression logistique

On cherche le maximum

On calcule les dérivées partielles et on les annule pour obtenir leséquations normales :

n∑i=1

[xi (yi − p(xi )] = X ′(Y − Pβ) = 0

Rappels du modèle linéaire

X ′(Y − Xβ) = 0

Page 25: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Régression logistique

Maximisation de la vraisemblance

Malheureusement...Il n’existe pas de solutions explicites pour maximiser lavraisemblance (on n’aura donc pas d’écriture explicite pour β).

MaisLa vraisemblance possède (généralement) un unique maximum, et ilexiste des algorithmes numériques itératifs permettant d’obtenir cemaximum :

I algorithme de Newton ;I algorithme du score de Fisher.

Page 26: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Régression logistique

L’exemple du chd

Sur R le modèle logistique s’ajuste avec la fonction glm :

> model <- glm(chd ~ age,data=donnees,family=binomial)> summary(model)Coefficients:

Estimate Std. Error z value Pr(>|z|)(Intercept) -5.30945 1.13365 -4.683 2.82e-06 ***

age 0.11092 0.02406 4.610 4.02e-06 ***–-

Number of Fisher Scoring iterations: 4

I Il est possible de vérifier si l’algorithme itératif a bienconvergé :

> model$converged [1] TRUE

Page 27: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Régression logistique

Modèle ajusté

P(Y = 1|age) =exp(−5.30945 + 0.11092× age)

1 + exp(−5.30945 + 0.11092× age).

Page 28: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Régression logistique

Fonction estimée

20 30 40 50 60 70

0.0

0.2

0.4

0.6

0.8

1.0

age

chd

Page 29: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Régression logistique

Interprétation directe

Quand le coefficient βj associé à la variable Xj estI positif : Xj augmente → p augmenteI négatif : Xj augmente → p diminue

Ici, βage = 0.11, donc la probabilité augmente avec l’âge !

Page 30: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Régression logistique

Questions ?

I règle d’affectation ?I doit-on découper les variables quantitatives en classes ?I peut-on rajouter des transformations des variables initiales

dans le modèle ?I ....

Page 31: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Loi des estimateurs

Comportement asymptotique des estimateursI Contrairement au modèle linéaire, on ne connaît pas la loi des

estimateurs βj pour le modèle logistique.I Néanmoins, la théorie du maximum de vraisemblance nous

permet permet d’obtenir la loi limite du vecteur aléatoire β :√n(β − β)

L→ N (0, I(β)−1).

Remarques

I I(β), matrice d’information de Fisher du modèle au point β ;I Cette matrice est inconnue mais possibilité de "bien" l’estimer.I En pratique, on fait l’approximation

√n(β − β)

L≈ N (0, I(β)−1).

Page 32: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Loi des estimateurs

Comportement asymptotique des estimateursI Contrairement au modèle linéaire, on ne connaît pas la loi des

estimateurs βj pour le modèle logistique.I Néanmoins, la théorie du maximum de vraisemblance nous

permet permet d’obtenir la loi limite du vecteur aléatoire β :√n(β − β)

L→ N (0, I(β)−1).

Remarques

I I(β), matrice d’information de Fisher du modèle au point β ;I Cette matrice est inconnue mais possibilité de "bien" l’estimer.I En pratique, on fait l’approximation

√n(β − β)

L≈ N (0, I(β)−1).

Page 33: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Loi des estimateurs

Intervalles de confiance et testsLoi de βj

On déduit du théorème précédent

√nβj − βjσj

L≈ N (0, 1),

où σ2j désigne le je terme de la diagonale de I(β).

Applications :

I Intervalle de confiance de niveau 1− α pour βj :[βj − q1−α/2

σj√n

; βj + q1−α/2σj√n

].

I Tests : H0 : βj = 0 contre H1 : βj 6= 0.

Page 34: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Loi des estimateurs

L’exemple du chdI Le modèle :

logP(chd = 1|age)

1− P(chd = 1|age)= β0 + β1age.

I La sortie R :Estimate Std. Error z value Pr(>|z|)

(Intercept) -5.30945 1.13365 -4.683 2.82e-06 ***age 0.11092 0.02406 4.610 4.02e-06 ***

pc = 4.02e−06, au risque 5%, on rejette l’hypothèseβ1 = 0.

I Intervalle de confiance :> confint(model)

2.5 % 97.5 %(Intercept) -7.72587162 -3.2461547

age 0.06693158 0.1620067

Page 35: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Loi des estimateurs

L’exemple du chdI Le modèle :

logP(chd = 1|age)

1− P(chd = 1|age)= β0 + β1age.

I La sortie R :Estimate Std. Error z value Pr(>|z|)

(Intercept) -5.30945 1.13365 -4.683 2.82e-06 ***age 0.11092 0.02406 4.610 4.02e-06 ***

pc = 4.02e−06, au risque 5%, on rejette l’hypothèseβ1 = 0.

I Intervalle de confiance :> confint(model)

2.5 % 97.5 %(Intercept) -7.72587162 -3.2461547

age 0.06693158 0.1620067

Page 36: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Qualité de l’ajustement

Résidus

1. Résidus bruts, variances différentes

ε = yi − pi

2. Résidus de Pearson

εPi =yi − pi√pi (1− pi )

En général, on travaille avec les résidus de déviance

Page 37: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Qualité de l’ajustement

La déviance

1. Le meilleur modèle en terme d’ajustement est appelé modèlesaturé

2. Déviance

D = 2

[n∑

i=1

(Lsatur«e − L(β))

]≥ 0.

-

Ajustementparfait

0 Déviance

bon moyen mauvais Qualité d’ajustement

Page 38: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Qualité de l’ajustement

La vraisemblanceRappelons

Ln =∑n

i=1{yi log(p(xi )) + (1− yi ) log(1− p(xi ))}

et donc calculée

Ln(p(xi )) =∑n

i=1{yi log(p(xi )) + (1− yi ) log(1− p(xi ))}

A comparer avec le meilleur modèle possible

Definition (Modèle saturé, 1 observation à chaque Xi .)C’est le modèle qui a pour log-vraisemblance Lsatur«e définie par :

Lsatur«e =n∑

i=1

1{Yi=1} logYi + 1{Yi=0} log(1− Yi ).

Page 39: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Qualité de l’ajustement

Modèle saturé et régression logistique simpleExemple CHD si on ne garde qu’une observation par âge

20 30 40 50 60 70 80

0.0

0.2

0.4

0.6

0.8

1.0

Age

Chd

Page 40: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Qualité de l’ajustement

Modèle saturé et régression logistique simple : CHD

20 30 40 50 60 70 80

0.0

0.2

0.4

0.6

0.8

1.0

Age

Chd

Lsatur«e =n∑

i=1

1{Yi=1} log Yi + 1{Yi=0} log(1− Yi ).

Page 41: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Qualité de l’ajustement

Résidus

1. Résidus de Pearson

εPi =yi − pi√pi (1− pi )

2. Résidus de déviance

εi = signe(yi − pi )

√2(lsatur«e(yi )− l(yi , β))

Page 42: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Qualité de l’ajustement

Graphique en fonction de pSans répétitions, on observe souvent ce type de graphique :

0.2 0.4 0.6 0.8

−2

−1

01

2

prevision

resid

us

Page 43: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Qualité de l’ajustement

Index plot

0 20 40 60 80 100

−2

−1

01

2

prevision

resid

us

Page 44: Introduction à la régression logistiquelepennec/enseignement/DSSP_Orange2/… · Reg. logistique Introduction à la régression logistique Rappels régression MC Objectif Modéliserlavariabled’intérêtY

Reg. logistique

Introduction à la régression logistique

Analyse des erreurs

Les erreurs

PPPPPPPPPRéaliséPrévu

OUI NON

OUI TP FNNON FP TN

I Sensibilité TTP = TP/#OUI = TP/(TP + FN)

I Spécificité TTN = TN/#NON = TN/(FP + TN)

I Taux de faux positifs FPR = FP/#Oui = FP/(FP + TN)

I précision (accuracy)ACC = (TP + TN)/(TP + TN + FP + FN)

Courbe ROC : taux de vrais positifs en fonction du taux de fauxpositifs.