R egression lin eaire multiple -...

79
. . egression lin´ eaire multiple Micha¨ el Genin Universit´ e de Lille 2 EA 2694 - Sant´ e Publique : Epid´ emiologie et Qualit´ e des soins [email protected]

Transcript of R egression lin eaire multiple -...

.

......Regression lineaire multiple

Michael Genin

Universite de Lille 2EA 2694 - Sante Publique : Epidemiologie et Qualite des soins

[email protected]

Plan

...1 Introduction a l’etude de deux variables quantitatives

...2 Coefficient de correlation (Rappels)

...3 Regression lineaire simple (Rappels)

...4 Regression lineaire multiple

...5 References

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 1 / 91

Introduction a l’etude de deux variables quantitatives

Introduction

Croisement de deux variables quantitativesage et frequence cardiaqueConsommation et poids d’un vehiculeCapacite d’epargne et revenus

Etude du lien entre ces deux variablesRepresentation graphiqueIndicateur statistique (Coefficient de correlation)Modele de prediction (Regression lineaire)

Notations

On considere n individus sur lesquels on mesure X et Y deux variablesquantitatives.

Pour chaque individu i (1 ≤ i ≤ n), on dispose d’un couple d’observations (xi , yi )qui represente les valeurs prises par X et Y pour l’individu i .

Remarque : les slides suivantes sont uniquement des rappels sur les principes decorrelation et de regression lineaire simple et ne constituent en aucun cas uncours !

→ Lien cours complet ←

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 3 / 91

Introduction a l’etude de deux variables quantitatives

1ere etape

Representation graphique

Graphique pour representer deux variables quantitatives ⇒ nuage de points

1ere etape de toute analyse de liaison : apprecier la forme de la relation entre lesdeux variables

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

−60 −40 −20 0 20 40 60

−50

050

X

Y

●●

●●

●●

●●

● ●

● ●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

−60 −40 −20 0 20 40 60

−30

00−

2500

−20

00−

1500

−10

00−

500

0

X

Y

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

−40 −20 0 20 40

−3

−2

−1

01

2

X

Y

liaison lineaire liaison polynomiale pas de liaison

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 4 / 91

Coefficient de correlation (Rappels) Definition

Coefficient de correlation lineaire

Coefficient de correlation theorique

.

......ρXY =

σXY

σXσY∈ [−1; 1]

Coefficient de correlation de Bravais-Pearson

ρ est estime par

.

......

r =sxysxsy

=

∑ni=1(xi − x)(yi − y)√∑n

i=1(xi − x)2∑n

i=1(yi − y)2

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 7 / 91

Coefficient de correlation (Rappels) Test du coefficient de correlation

Test de la significativite de ρ

Principe du test : Test de la nullite du coefficient de correlation.Si ρ = 0 alors il n’y a pas de liaison lineaire entre X et YSi ρ = 0 alors il existe une relation lineaire entre X et Y

Condition d’application : X ∼ N (µ1, σ1) et Y ∼ N (µ2, σ2)

En pratique : Verification de X et Y ”a peu pres normales” (symetrique) car testrobuste (n grand)

Hypotheses du test {H0 : ρ = 0

H1 : ρ = 0

Statistique de testSous H0,.

......T =

R√n − 2√

1− R2∼ Tn−2 ddl

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 9 / 91

Coefficient de correlation (Rappels) Conclusions

Conclusions

Le coefficient de correlation permet de mesurer le lien lineaire entre deuxvariables quantitatives X et Y .

On peut egalement cherche a modeliser le lien entre X et Y afin de realiserdes predictions :

Exprimer Y en fonction de XEx : Predire la FCM d’un patient en ne connaissant que son age

Le coefficient de correlation n’est pas suffisant

Recours a la regression lineaire :

Y = β1X + β0 + ϵ

Ou Y est la variable a expliquer et X la variable explicative

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 11 / 91

Regression lineaire simple (Rappels)

Cadre d’etude

Y est un caractere non controle (caractere explique)

X est un caractere controle (caractere explicatif)

Considerons un echantillon de n observations i.i.d. : I = {1, . . . , n}yi est la valeur observee pour l’individu i

xi est la valeur fixee pour l’individu i

Objectif : Exprimer le lien entre Y et X .

Y = f (X ) + ϵ

Il existe une infinite de liaisons fonctionnelles −→ la plus simple est lineaire

Regression lineaire simple...1 Modele de regression...2 Droite de regression au sens des moindres carres

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 13 / 91

Regression lineaire simple (Rappels) Modele de regression lineaire simple

Modele de regression lineaire

∀i ∈ I , yi est la realisation de la v.a.r. Yi telle que

.

...... Yi = β1xi + β0 + ϵi

Avec

ϵi : erreur du modele (v.a.r.) (part de variabilite de Y qui n’est pas expliqueepar le lien fonctionnel lineaire)

β0, β1 : coefficients du modele, constantes (valeurs fixes dans la population).

Hypotheses du modele

E[ϵi ] = 0, V[ϵi ] = σ2 (hypothese d’homoscedasticite)

L’erreur est independante de X → Cov(xi , ϵi ) = 0

Les ϵi , 1 ≤ i ≤ n, sont mutuellement independantes (absenced’autocorrelation des residus) → Cov(ϵi , ϵj) = 0 si i = j .

ϵi ∼ N (0, σ2) (normalite des residus) → tests dans le modele

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 15 / 91

Regression lineaire simple (Rappels) Methode des moindres carres ordinaires

Droite de regression au sens des moindres carres

Objectif : estimer β0 et β1 grace a leur estimateurs B0 et B1 et leur realisations b0et b1 sur un echantillon d’observations i.i.d. de taille n.

Trouver b0 et b1 qui minimisent un critere d’ajustement.

⇒ Methode des moindres carres ordinaires.

......

S(β0, β1) =n∑

i=1

(ei )2 =

n∑i=1

(yi − (β1xi + β0))2

→ minS(β0, β1)

Derivees partielles → Systemes aux equations normales

.

......Solutions : b1 =

sxys2x

et b0 = y − b1x

.. Details

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 17 / 91

Regression lineaire simple (Rappels) Methode des moindres carres ordinaires

Droite de regression au sens des moindres carres

La droite de regression au sens des moindres carres a pour expression :

.

...... yi = b1xi + b0

C’est une estimation du modele de regression par la methode des moindres carres.

Les erreurs observees sur l’echantillon sont appeles residus.

.

...... ei = (yi − yi ) = yi − b1xi − b0

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 18 / 91

Regression lineaire simple (Rappels) Qualite de l’ajustement

Qualite de l’ajustement

Equation d’analyse de la variance

yi − y = (yi − y) + (yi − yi )

(yi − y)2 = (yi − y)2 + (yi − yi )2

n∑i=1

(yi − y)2 =n∑

i=1

(yi − y)2 +n∑

i=1

(yi − yi )2

.

......

n∑i=1

(yi − y)2︸ ︷︷ ︸Somme des carres

totaleSCT

=n∑

i=1

(yi − y)2︸ ︷︷ ︸Somme des carres

expliqueeSCE

+n∑

i=1

(yi − yi )2

︸ ︷︷ ︸Somme des carres

residuelleSCR

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 20 / 91

Regression lineaire simple (Rappels) Qualite de l’ajustement

Qualite de l’ajustement

Evaluation de la qualite d’ajustement du modele

⇒ Coefficient de determination.

......R2 =

SCE

SCT∈ [0, 1]

Interpretation : Part de variabilite de Y expliquee par le modele de regressionlineaire.

Remarque importante : le carre du coefficient de correlation lineaire est egal aucoefficient de determination :

r2 = R2

Consequence : deux tests statistiques equivalents pour evaluer la liaison lineaireentre X et Y .

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 21 / 91

Regression lineaire simple (Rappels) Validite du modele

Etude de la validite du modele

Etude des residus : Verification des hypotheses du modele faites sur les erreurs

Verifier la normalite des residus observes (Droite de Henry)

Verifier que les residus ne contiennent pas d’information structuree(V[ϵ] = σ2)

Les residus ne dependent pas de X (Graphiques)

Verifier que les residus ne sont pas auto-correles entre eux (les ϵi sontmutuellement independantes) (Test de Durbin Watson)

→ Ces hypotheses vont permettre par la suite de realiser des tests dans lemodele lineaire.

Observations aberrantes / influentes

Valeur aberrante de x (Descriptif univarie)

Observation i mal reconstituee par la regression → (ei eleve) (residusstudentises)

Observation i presentant un poids exagere dans la regression (prediction /coefficients) (distance de Cook)

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 23 / 91

Regression lineaire simple (Rappels) Validite du modele

Conclusion sur l’etude de la validite du modele

Etape tres importante !!

...1 Descriptif univarie

...2 Estimation des coefficients du modele

...3 Verification des hypotheses sur les erreurs

...4 Detection d’observations influentes

Si OUI : Correction ou suppressionNouvelle estimation des coefficients

Apres ces etapes : Inference statistique

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 24 / 91

Regression lineaire simple (Rappels) Inference statistique

Evaluation globale de la regression

Tableau d’analyse de variance - Test de significativite globale

R2 permet d’evaluer la qualite de l’ajustement. L’information emmenee par laregression de Y par X traduit-elle une relation qui existe vraiment dans lapopulation ?

Table : Tableau ANOVA

Source de variation Somme des carres DDL Carres moyens

Expliquee SCE =∑

i (yi − y)2 1 CME = SCE1

Residuelle SCR =∑

i (yi − yi )2 n − 2 CMR = SCR

n−2

Totale SCT =∑

i (yi − y)2 n − 1 -

Degres de liberte :

SCT necessite l’estimation y → n − 1 ddl

SCR necessite l’estimation de β0 et β1 pour yi → n − 2 ddl

SCE par deduction : (n − 1)− (n − 2) = 1 ddl

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 26 / 91

Regression lineaire simple (Rappels) Inference statistique

Evaluation globale de la regression

Tableau d’analyse de variance - Test de significativite globale

Le test F permet d’evaluer la significativite globale de la regression.{H0 : La variabilite expliquee est identique a la variabilite residuelle

H1 : La variabilite expliquee est superieure a la variabilite residuelle

Sous H0

.

......F =

CME

CMR∼ F1,n−2 ddl

Interpretation : {H0 : ”Le modele est non explicatif”

H1 : ”Le modele est explicatif”

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 27 / 91

Regression lineaire simple (Rappels) Inference statistique

Evaluation des coefficients - β1

Test de significativite de β1

Idee : tester la nullite de β1.{H0 : β1 = 0 ”X n’a aucun pouvoir explicatif sur Y”

H1 : β1 = 0 ”X a un pouvoir explicatif sur Y”

Nous savons que B1−β1

σB1∼ Tn−2, par consequent sous H0

.

......

B1

σB1

∼ Tn−2

Intervalle de confiance de β1

.

......

IC1−α

β1=

b1 ± t(1−α/2;n−2)sn−2√∑n

i=1(xi − x)2

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 28 / 91

Regression lineaire simple (Rappels) Inference statistique

Evaluation des coefficients - β1

Equivalence avec le test de significativite globale

Uniquement dans le cas de la regression lineaire simple, observons que

F =SCE/1

SCR/(n − 2)=

∑ni=1(Yi − Y )2

S2n−2

=

∑ni=1(B1xi + B0 − Y )2

S2n−2

F =

∑ni=1(B1xi + (Y − B1x)− Y )2

s2n−2

=B21

∑ni=1(xi − x)2

s2n−2

=B21

S2n−2∑n

i=1(xi−x)2

F =B21

σ2B1

=

(B1

σB1

)2

.

Note : Equivalence entre la loi de Student et la loi de Fisher.(T(n−2)

)2 ≡ F(1,n−2)

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 29 / 91

Regression lineaire simple (Rappels) Inference statistique

Evaluation des coefficients - β1

Equivalence avec le test de significativite de ρ

Observons que

F =SCE/1

SCR/(n − 2)=

(n − 2)SCE

SCR=

(n − 2)SCE

SCT − SCR=

(n − 2)R2

1− R2

T =r√n − 2√1− r2

or R2 = r2 doncF = (T )2

Et comme F =(

B1

σB1

)2

, on conclue que

F = (T )2 =

(B1

σB1

)2

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 30 / 91

Regression lineaire simple (Rappels) Inference statistique

Evaluation des coefficients - β1

Dans le cas d’une regression lineaire simple de type :

Y = β1X + β0 + ϵ

.

......

Tester la significativite globale du modele

Tester la significativite de β1

Tester la significativite de ρ

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 31 / 91

Regression lineaire simple (Rappels) Inference statistique

Evaluation des coefficients - β1

Lien entre test et intervalle de confiance

IC1−α

θ = {θ0/H0 = {θ = θ0} est accepte au niveau de confiance 1− α}

Consequences : pour tester H0 : β1 = 0 au risque α, on peut simplement verifiersi 0 appartient ou non a l’intervalle de confiance :

Si 0 ∈ IC alors on conserve H0

Si 0 /∈ IC alors on rejette H0

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 32 / 91

Regression lineaire simple (Rappels) Inference statistique

Evaluation des coefficients - β0

Test de significativite de β0

Idee : tester la nullite de β0.{H0 : β0 = 0 ”L’ordonnee a l’origine n’est pas significative”

H1 : β0 = 0 ”L’ordonnee a l’origine est significative”

Nous savons que B0−β0

σB0∼ Tn−2, par consequent sous H0

.

......

B0

σB0

∼ Tn−2

Intervalle de confiance de β0

.

......

IC1−α

β0=

[b0 ± t(1−α/2;n−2)sn−2

√1

n+

x2∑ni=1(xi − x)2

]

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 33 / 91

Regression lineaire simple (Rappels) Prediction

Intervalle de prediction d’une observation

Contexte : Le modele de regression ayant ete valide, il est possible d’estimer lavaleur de yn+1 pour une observation xn+1 n’appartenant pas a l’echantillon :

yn+1 = b1xn+1 + b0

Or yn+1 n’est qu’une estimation de la ”vraie droite de regression” dans lapopulation. Une estimation ponctuelle ne suffit pas, il faut lui associer unintervalle de confiance :.

......

IC1−α

yn+1=

[yn+1 ± t(1−α/2;n−2)sn−2

√1 +

1

n+

(xn+1 − x)2∑ni=1(xi − x)2

]

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 35 / 91

Regression lineaire simple (Rappels) Prediction

Intervalle de prediction d’une observation

.

......

IC1−α

yn+1=

[yn+1 ± t(1−α/2;n−2)sn−2

√1 +

1

n+

(xn+1 − x)2∑ni=1(xi − x)2

]

Quelques remarques

La taille du rayon de l’intervalle de confiance sera d’autant plus faible que

s2n−2 est faible → la regression est de bonne qualiten est elevexn+1 est proche de x ↔ (xn+1 − x)2 est faible∑n

i=1(xi − x)2 est eleve → les xi sont bien disperses

Attention : utiliser des valeurs de x qui sont dans le cadre d’etude(relativement proches de x pour obtenir de bonnes predictions.

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 36 / 91

Regression lineaire simple (Rappels) Mise en evidence d’un probleme

Mise en evidence d’un probleme

Vente de CD et cas de grippe H1N1 en 2009

Region Nb cas de grippe H1N1 Nb ventes CD M.J.

Region 1 . .Region 2 . .

. . .

. . .Region n . .

Il existe une liaison lineaire significative . . .

Test de ρ : p < 1.10−4, Test de β1 : p < 1.10−4

. . . mais pas de relation de cause a effet !

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 38 / 91

Regression lineaire simple (Rappels) Mise en evidence d’un probleme

Mise en evidence d’un probleme

Existence de Facteurs de confusion (ici : la periode de temps)Exemple : vente de CD de MJ les plus fortes en automne alors

Pour la meme periode :

{↗ ventes

↗ cas de grippes

Grippe

Temps

Ventes

Moyenne d’une V.A. continueX ! L(µ,!2)

Figure : Diagramme de correlation

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 39 / 91

Regression lineaire simple (Rappels) Mise en evidence d’un probleme

Mise en evidence d’un probleme

Necessite de pouvoir ajuster sur des facteurs de confusion

Dans de nombreuses situations, plusieurs facteurs peuvent expliquer uncaractere

Y = f (X1,X2, . . . ,Xp)

Regression lineaire multiple

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 40 / 91

Regression lineaire multiple

Cadre d’etude

Y est un caractere non controle (caractere explique)

X1,X2, . . .Xp sont des caracteres controles (caracteres explicatifs)

Considerons un echantillon de n observations i.i.d. : I = {1, . . . , n}yi est la valeur observee pour l’individu i

xij est la valeur fixee pour l’individu i et la variable j , j ∈ {1, 2, . . . , p}

Objectif : Exprimer le lien entre Y et les Xj .

Y = f (X1,X2, . . . ,Xp) + ϵ

Il existe une infinite de liaisons fonctionnelles −→ la plus simple est lineaire

Regression lineaire multiple...1 Modele de regression...2 Hyperplan de regression au sens des moindres carres

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 42 / 91

Regression lineaire multiple Modele de regression lineaire multiple

Modele de regression lineaire multiple

∀i ∈ I , yi est la realisation de la v.a.r. Yi telle que.

......

Yi = β0 + β1xi1 + β2xi2 + . . . βpxip + ϵi = β0 +

p∑j=1

βjxij + ϵi

Avec

ϵi : erreur du modele (v.a.r.) (part de variabilite de Y qui n’est pas expliqueepar le lien fonctionnel lineaire)

β0, β1, . . . , βp : coefficients du modele, constantes (valeurs fixes dans lapopulation).

Hypotheses du modele

E[ϵi ] = 0, V[ϵi ] = σ2 (hypothese d’homoscedasticite)

L’erreur est independantes des Xj → COV(xij , ϵi ) = 0

ϵi ∼ N (0, σ2) (normalite des residus) → tests dans le modele

Les ϵi , 1 ≤ i ≤ n, sont mutuellement independantes (absenced’autocorrelation des residus) → Cov(ϵi , ϵj) = 0 si i = j .

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 44 / 91

Regression lineaire multiple Modele de regression lineaire multiple

Ecriture du modeleSur un echantillon de n observations i.i.d. :

Y1 = β0 + β1x11 + β2x12 + . . .+ βpx1p + ϵ1

Y2 = β0 + β1x21 + β2x22 + . . .+ βpx2p + ϵ2...

Yn = β0 + β1xn1 + β2xn2 + . . .+ βpxnp + ϵn

Ecriture matricielle

Y =

Y1

...Yn

β =

β0

...βp

X =

1 x11 x12 · · · x1p...

......

. . ....

1 xn1 xn2 · · · xnp

ϵ =

ϵ1...ϵn

Y = X. β + ϵn × 1 n × (p + 1) (p + 1)× 1 n × 1

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 45 / 91

Regression lineaire multiple Methode des moindres carres ordinaires

Hyperplan de regression au sens des moindres carres

Objectif : estimer β0, β1, . . . , βp grace a leur estimateurs B0,B1,B2, . . . ,Bp etleur realisations b0, b1, b2, . . . , bp sur un echantillon d’observations i.i.d. de taillen.

β =

β0

...βp

B =

B0

...Bp

b =

b0...bp

Trouver b qui minimisent l’erreur :

.

......

S(β0, . . . , βp) =n∑

i=1

(ϵi )2 =

n∑i=1

yi − β0 −p∑

j=1

βjxij

2

= ||ϵ||2

.

...... Solution : b =(XTX

)−1XTY

Remarque : B est appele estimateur des moindres carres de β. .. Details

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 47 / 91

Regression lineaire multiple Methode des moindres carres ordinaires

Hyperplan de regression au sens des moindres carres

L’ hyperplan de regression au sens des moindres carres a pour expression :

.

......

yi = b0 +

p∑j=1

bjxij

C’est une estimation du modele de regression multiple par la methode desmoindres carres.

Les erreurs observees sur l’echantillon sont appeles residus.

.

......

ei = (yi − yi ) = yi − b0 −p∑

j=1

bjxij

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 48 / 91

Regression lineaire multiple Methode des moindres carres ordinaires

Proprietes des estimateurs - Moments (1)

.

...... E[B] = β estimateur sans biais

.

...... V[B] = σ2(XTX

)−1

.. Details

V[B](p+1)×(p+1) est appelee matrice de variances - covariances des coefficients :σ2B0

COV (B0,B1) . . . COV (B0,Bp)· σ2

B1. . . COV (B1,Bp)

... · . . . ·· · . . . σ2

Bp

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 49 / 91

Regression lineaire multiple Methode des moindres carres ordinaires

Proprietes des estimateurs - Moments (2)

La matrice de variances - covariances V[B] fait intervenir la variance de l’erreurσ2.

Cette variance est inconnue

Elle est estimee par S2n−p−1 au moyen du tableau d’ANOVA.

On montre que

.

......S2n−p−1 =

SCR

n − p − 1=

∑ni=1 (Ei )

2

n − p − 1

est un estimateur non biaise de σ2.

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 50 / 91

Regression lineaire multiple Methode des moindres carres ordinaires

Proprietes des estimateurs - Distributions d’echantillonnage

De par les hypotheses du modele et l’estimation de σ2, on montre que∀j ∈ {0, 1, . . . , p}.

......

Bj − βj

σBj

∼ Tn−p−1 d.d.l.

avec σBj tire de la matrice de variances-covariances.

Ces distributions vont nous permettre de realiser une inference statistique sur lescoefficients (tests de nullite et intervalles de confiance).

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 51 / 91

Regression lineaire multiple Qualite de l’ajustement

Qualite de l’ajustement

Equation d’analyse de la variance

yi − y = (yi − y) + (yi − yi )

(yi − y)2 = (yi − y)2 + (yi − yi )2

n∑i=1

(yi − y)2 =n∑

i=1

(yi − y)2 +n∑

i=1

(yi − yi )2

.

......

n∑i=1

(yi − y)2︸ ︷︷ ︸Somme des carres

totaleSCT

=n∑

i=1

(yi − y)2︸ ︷︷ ︸Somme des carres

expliqueeSCE

+n∑

i=1

(yi − yi )2

︸ ︷︷ ︸Somme des carres

residuelleSCR

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 53 / 91

Regression lineaire multiple Qualite de l’ajustement

Qualite de l’ajustement

Evaluation de la qualite d’ajustement du modele

⇒ Coefficient de determination.

......R2 =

SCE

SCT∈ [0, 1]

Interpretation : Part de variabilite de Y expliquee par le modele de regressionlineaire multiple.

Remarque importante : R2 est fonction du nombre variables explicatives dans lemodele (meme non pertinentes)

p ↗ → R2 ↗

Aussi : tests de significativite des coefficients, selection de variables (modeleparcimonieux)

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 54 / 91

Regression lineaire multiple Validite du modele

Etude de la validite du modele

Etude des residus : Verification des hypotheses du modele faites sur les erreurs

Verifier la normalite des residus observes

Verifier que les residus ne contiennent pas d’information structuree(V[ϵ] = σ2)

Les residus ne dependent pas des Xj

Verifier que les residus ne sont pas auto-correles entre eux (les ϵi sontmutuellement independantes)

→ Ces hypotheses vont permettre par la suite de realiser des tests dans lemodele lineaire.

Observations aberrantes / influentes

Valeur aberrante d’une observation (diagnostic univarie, multivarie)

Observation i mal reconstituee par la regression → (ei eleve)

Observation i presentant un poids exagere dans la regression (prediction /coefficients)

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 56 / 91

Regression lineaire multiple Validite du modele

Etude des residus

Verification de la normalite des residus

histogramme ⇒ la distribution doit etre unimodale et symetrique autour de 0.

Tests (Kolmogorov-Smirnov, Shapiro Wilks, . . . ) mais souvent tests peupuissants (peu aptes a rejeter H0)

Droite de Henry ⇒ confronte les quantiles theoriques de la loi normale et ladistribution cumulee estimee sur les donnees

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 57 / 91

Regression lineaire multiple Validite du modele

Etude des residus

Verification de l’homoscedasticite des residus

Les residus sont dits homoscedastiques si leur dispersion est homogene et nedepend pas des valeurs de la variable explicative xj (et donc pas non plus desvaleurs predites).On verifie que les residus n’ont pas de structure particuliere en tracant un graphedes residus :

Introduction Correlation Regression lineaire simple Conclusion

Etude des residus

Verification de l’homoscedasticite des residus

Les residus sont homoscedastiques si leur repartition est homogeneet ne depend pas des valeurs de la variable explicative (et donc pasnon plus des valeurs predites).On verifie que les residus n’ont pas de structure particuliere entracant un graphe des residus :

●●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

●●

−40 −20 0 20 40

−4−2

02

4

Residus non correles

X

Residus

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

●●

−40 −20 0 20 40

−2−1

01

2

Residus correles

X

Residus

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 58 / 91

Regression lineaire multiple Validite du modele

Etude des residus

On peut localiser des points du nuage mal expliques par la relation lineaire entracant les deux droites d1 = 2sn−p−1 et d2 = −2sn−p−1

on peut considerer ces points, si ils ne sont pas trop nombreux, comme despoints exceptionnels, les eliminer et recalculer b1 et b0.

on peut aussi attribuer un poids moindre aux points aberrants ⇒ moindrescarres ponderes (fonction de l’ecart |y − y |/2s2n−p−1). Methode plus robuste

si il y a beaucoup de points mal expliques (en dehors de la bande), c’est quele modele est mal choisi.

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 59 / 91

Regression lineaire multiple Validite du modele

Etude des residus

● ●

25 30 35 40 45 50 55

−6

−4

−2

02

46

graphe des residus

age

resi

dus

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 60 / 91

Regression lineaire multiple Validite du modele

Etude des residus

Verification de l’independance entre les residus

Test de Durbin Watson{H0 : il n’y a pas de correlation entre ϵi et ϵi−1

H1 : il y a une correlation entre ϵi et ϵi−1

.

......d =

∑ni=2(ei − ei−1)

2∑ni=1 e

2i

La valeur de d est toujours comprise entre 0 et 4, d = 2 quand il n’y a pasd’autocorrelation.La loi de d est tabulee : DL et DU bornes au risque α.

0 4 4-DU DU DL 2 4-DL

AC Positive Rejet H0

AC Négative Rejet H0

Pas d’AC Non Rejet de

H0

? ?

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 61 / 91

Regression lineaire multiple Validite du modele

Observations aberrantes / influentes

Valeur aberrante de xj (Univarie) → Boxplot

Effet important sur l’estimation de l’hyperplan de regression

Mauvais ajustement aux donnees

Solution : descriptif univarie → boxplot

1020

3040

50

Probleme : Ne prend pas en compte les interactions possibles entre les Xj .

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 62 / 91

Regression lineaire multiple Validite du modele

Observations aberrantes / influentes

Valeur aberrante (Multivarie) → Levier

Principe : Pour une observation i , mesure la distance avec le centre de gravite dunuage defini par les Xj , j ∈ {1, , . . . , p}Le levier d’une observation i se lit sur la diagonale de la matrice H (hat matrix) :

H = X(XTX

)−1XT

En pratique

.

...... hii = hi = xi(XTX

)−1xTi

avec xi la ieme ligne de la matrice X.

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 63 / 91

Regression lineaire multiple Validite du modele

Observations aberrantes / influentes

Valeur aberrante (Multivarie) → Levier

Regle de decision

.

......R.C . : hi > 2× p + 1

n

Permet de detecter des observations aberrantes / influentes d’un point de vuemultivarie

Effet nefaste sur l’estimation des βj par les MCO

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 64 / 91

Regression lineaire multiple Validite du modele

Observations aberrantes / influentes

Residus studentises internes

Idee : Mettre en evidence les observations dont le residu ei est important Pour uneobservation i , le residu studentise interne est defini par :

.

......ti =

ei

sn−p−1

√1− hi

avec hi levier de l’observation i . On montre que

Ti ∼ T(n−p−1).

D’ou :RC : |ti | > t

1−α/2n−p−1

Probleme : L’observation evaluee a participe a la construction de la droite (Jugeet partie).

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 65 / 91

Regression lineaire multiple Validite du modele

Observations aberrantes / influentes

Residus studentises externes

Idee : Estimer le modele sans l’observation i (−i) et comparer la valeur observeede yi a celle predite par le modele (yi (−i) : prediction pour une nouvelleobservation).Pour une observation i , le residu studentise externe est defini par :

.

......t∗i =

yi − yi (−i)sn−p−1(−i)

√1− hi (−i)

On montre queT ∗i ∼ T(n−p−1).

D’ou :RC : |t∗i | > t

1−α/2n−p−1

Remarque :

t∗i =

√n − p − 2

n − p − 1− t2i

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 66 / 91

Regression lineaire multiple Validite du modele

Observations aberrantes / influentes

Distance de Cook

Idee : Evaluer l’influence d’une observation i sur l’estimation des coefficients.Comparaison des predictions du modele complet et du modele sans l’observation i .La distance de Cook pour une observation i est definie par

.

......Di =

∑nj=1(yj − yj(−i))2

(p + 1)s2n−p−1

Regle de decisionRC : Di > 1

RC : Di >4

n − p − 1(Ajustement sur le nombre de variables)

Si la difference entre les predictions est elevee, l’observations i joue un role surl’estimation des coefficients.

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 67 / 91

Regression lineaire multiple Validite du modele

Observations aberrantes / influentes

DFBETAS

Idee : Si la distance de COOK a identifie une observation ayant une influence surl’estimation des coefficients, on peut aller plus loin pour determiner quelcoefficient est affecte.Pour une observation i et pour chaque coefficient βj , j ∈ {0, 1, . . . , p}, leDFBETAS est defini par :

.

......

DFBETASi,j =bj − bj(−i)

sn−p−1(−i)√(XTX)

−1j

Regle de decision

RC : |DFBETASi,j | >2√n

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 68 / 91

Regression lineaire multiple Inference statistique

Evaluation globale de la regression

Tableau d’analyse de variance - Test de significativite globale

R2 permet d’evaluer la qualite de l’ajustement. L’information emmenee par laregression de Y par les Xj traduit-elle une relation qui existe vraiment dans lapopulation ?

Table : Tableau ANOVA

Source de variation Somme des carres DDL Carres moyens

Expliquee SCE =∑

i (yi − y)2 p CME = CMEp

Residuelle SCR =∑

i (yi − yi )2 n − p − 1 CMR = CMR

n−p−1

Totale SCT =∑

i (yi − y)2 n − 1 -

Degres de liberte :

SCT necessite l’estimation y → n − 1 ddl

SCR necessite l’estimation des βj pour yi → n − (p + 1) ddl

SCE par deduction : (n − 1)− (n − p − 1) = 1 ddl

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 70 / 91

Regression lineaire multiple Inference statistique

Evaluation globale de la regression

Tableau d’analyse de variance - Test de significativite globale

Le test F permet d’evaluer la significativite globale de la regression.{H0 : β1 = β2 = . . . = βp = 0

H1 : ∃j/βj = 0

Sous H0

.

......F =

CME

CMR∼ Fp,n−p−1 ddl

Interpretation : {H0 : ”Le modele est non explicatif”

H1 : ”Le modele est explicatif”

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 71 / 91

Regression lineaire multiple Inference statistique

Evaluation des coefficients - βj

Test de significativite de βj

Idee : tester la nullite de βj .{H0 : βj = 0 ”Xj n’a aucun pouvoir explicatif sur Y”

H1 : βj = 0 ”Xj a un pouvoir explicatif sur Y”

Nous savons queBj−βj

σBj∼ Tn−p−1, par consequent :

Sous H0

.

......

Bj

σBj

∼ Tn−p−2

Intervalle de confiance de βj

.

...... IC1−α

βj=

[bj ± t(1−α/2;n−p−1)σBj

]Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 72 / 91

Regression lineaire multiple Prediction

Intervalle de prediction d’une observation

Contexte : Le modele de regression ayant ete valide, il est possible d’estimer lavaleur de yn+1 pour une observation Xn+1 n’appartenant pas a l’echantillon :

Xn+1 = (xn+1,1, xn+1,2, . . . , xn+1,p)

yn+1 = b0 +

p∑j=1

bjxn+1,j

yn+1 = Xn+1.b

Or yn+1 n’est qu’une estimation du ”vrai hyperplan de regression” dans lapopulation. Une estimation ponctuelle ne suffit pas, il faut lui associer unintervalle de confiance :.

......IC

1−α

yn+1=

[yn+1 ± t(1−αr ;n−p−1)sn−p−1

√1 + Xn+1 (XTX)

−1XT

n+1

]

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 74 / 91

Regression lineaire multiple Detection et traitement de la colinearite

Definition et consequences de la colinearite

Definition

Une variable explicative Xj est colineaire a une autre variable Xk lorsquerXj ,Xk

> 0.8.Une variable explicative Xj est multicolineaire aux autres variables lorsque

Xj = β′

0 + β′

1X1 + . . .+ β′

j−1Xj−1 + β′

j+1Xj+1 + . . .+ β′

pXp,

elle peut s’ecrire comme une combinaison lineaire des autres variables explicatives.

Consequences

Valeurs/Signes des coefficients contraires a l’intuition

Variances estimees des coefficients trop importantes

Coefficients non significatifs (inference statistique)

Instabilite du modele

Risque de passer a cote d’une variable importante (redondance)

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 76 / 91

Regression lineaire multiple Detection et traitement de la colinearite

Detection de la colinearite

Variance Inflation Factor - VIF

Principe : Pour chaque Xj , realisation de la regression de Xj avec les autresvariables explicatives. On note R2

j le coefficient de determination associe a cetteregression.Pour une variable Xj , le VIF est defini par

.

......VIFj =

1

1− R2j

La valeur du VIF sera d’autant plus forte que Xj est une combinaison lineaire desautres variables.

Regle de decisionVIFj ≥ 4

Rq : Determination des variables incriminees dans la combinaison lineaire →Cercle des correlations (ACP)

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 77 / 91

Regression lineaire multiple Detection et traitement de la colinearite

Detection de la colinearite

Variance Inflation Factor - VIF

Remarque :

σ2Bj

=σ2

nVIFj

Donc :

Plus la valeur de VIFj est importante plus σ2Bj

sera importante

Estimation instable

Probleme de significativite du coefficient

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 78 / 91

Regression lineaire multiple Detection et traitement de la colinearite

Traitement de la colinearite

Approche ”metier”

Mise en evidence de plusieurs variables explicatives colineaires (VIF + ACP)

Discussion et choix de la (ou les) variable(s) la (les) plus pertinente(s) pourl’analyse

Approche statistique

Methode de selection de variables (Forward, Backward, Stepwise)

Mais si toutes les variables sont pertinentes ?

Regression sur les composantes principales de l’ACP

Regression ridge

Regression PLS

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 79 / 91

Regression lineaire multiple Selection de variables

Motivations - Critere de selection de variables

Motivations

Selection d’un sous-ensemble de Xj pertinentes et non redondantes quiexpliquent au mieux Y

Principe du rasoir d’Occam → Modeles parcimonieux

Modele plus simple, lisible, robuste, stableNombre restreint de variables explicatives (collecte des donnees)

Traitement de la multicolinearite

Critere de selection de variables

Retrait ou ajout d’une variable Xj dans le modele en fonction de sa valeur du Fj

partiel de Fisher :

.

......Fj =

(Bj

σBJ

)2

∼ F1,n−p−1

.. Details

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 81 / 91

Regression lineaire multiple Selection de variables

Motivations - Critere de selection de variables

Autres criteres de selection de variables

R2 ajuste

R2 = 1− SCR/(n − p − 1)

SCT/(n − 1)

AIC (a minimiser)

AIC = n ln

(SCR

n

)+ 2(p + 1)

BIC de Schwartz (a maximiser)

BIC = n ln

(SCR

n

)+ ln(n)(p + 1)

etc. . .

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 82 / 91

Regression lineaire multiple Selection de variables

Methodes de selection de variables

Methode ascendante (Forward)

Principe : On part du modele sans Xj . On ajoute successivement les Xj qui sontsignificatifs au sens du F partiel de Fisher et on s’arrete lorsqu’on ne peut plusajouter de Xj (NS dans le modele)

TANT QUE Condition d’arret = FAUX FAIRE

Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arret)Choix de F ∗

j tel que F ∗j = max{F1, . . . ,Fp}

SI P(F ∗j > f ∗j

)< αsle ALORS

Ajout de Xj au modele

SINON Arret

Fin TANT QUE

Remarques :

Plus αsle est eleve plus le nombre de variables dans le modele sera important

En pratique : αsle = 0.2

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 83 / 91

Regression lineaire multiple Selection de variables

Methodes de selection de variables

Methode ascendante (Forward) - Exemple

Soient Y et X1,X2,X3 sur un echantillon de n = 50 observations

Etape Modele ddl F (p-value)

1 Y = β0 1 ;50-1-1 X1 → 43 (3, 51.10−8)X2 → 150 (2, 22.10−16)X3 → 12 (1, 11.10−3)

2 Y = β0 + β2X2 1 ;50-2-1 X1 → 9 (4, 31.10−3)X3 → 2 (0.1639)

3 Y = β0 + β2X2 + β1X1 1 ;50-3-1 X3 → 0.7 (0.4071)

X3 n’est plus significative dans le modele. Modele final :

Y = β0 + β2X2 + β1X1

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 84 / 91

Regression lineaire multiple Selection de variables

Methodes de selection de variables

Methode descendante (Backward)

Principe : On part du modele sature (toutes les Xj). On retire successivement lesXj qui sont non significatifves au sens du F partiel de Fisher et on s’arretelorsqu’on toutes les Xj sont significatives.

TANT QUE Condition d’arret = FAUX FAIRE

Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arret)Choix de F ∗

j tel que F ∗j = min{F1, . . . ,Fp}

SI P(F ∗j > f ∗j

)> αsls ALORS

Retrait de Xj du modele

SINON Arret

Fin TANT QUE

Remarques :

Plus αsls est faible plus le nombre de variables dans le modele sera faible

En pratique : αsls = 0.2

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 85 / 91

Regression lineaire multiple Selection de variables

Methodes de selection de variables

Methode Stepwise

Principe : ”Mix” entre les methodes ascendante et descendante. On debut par lemodele sans Xj et on choisit le Xj le plus significatif au sens du F partiel de Fisher(αsle). Dans les etapes suivantes, on verifie que l’ajout d’une variable de conduitpas a la non significativite (αsls) des autres deja presentes dans le modele (phasedescendante).Le processus se termine quand aucune Xj n’est significative lors de la phaseascendante.

Avantage : Contrairement la methode ascendante, une Xj introduite dans lemodele peut etre remise en cause lors des etapes suivantes.

En pratique :αsle = αsls = 0.2

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 86 / 91

Regression lineaire multiple Selection de variables

Methodes de selection de variables

Methode Stepwise

On part du modele : Y = β0

TANT QUE Condition d’arret = FAUX FAIRE

Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arret)Choix de F ∗

j tel que F ∗j = max{F1, . . . ,Fp}

SI P(F ∗j > f ∗j

)< αsle ALORS

Ajout de Xj du modelePOUR Chaque Xj inclue dans le modele FAIRE

Calcul de Fj pour chaque Xj

Choix de F ∗j tel que F ∗

j = min{F1, . . . ,Fp}SI P

(F ∗j > f ∗j

)> αsls ALORS

Retrait de Xj du modele

FIN POUR

SINON Arret

Fin TANT QUE

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 87 / 91

Regression lineaire multiple Conclusions

Processus de modelisation...1 Estimation des coefficients (MCO)...2 Mesure de la qualite d’ajustement (R2)...3 Etude la validite du modele

Si hypotheses sur les erreurs non verifiees → STOPSi observations aberrantes/influentes →

Correction/SuppressionRetour a l’Etape 1

...4 Inference statistique

Test de significativite globaleTests de significativite des coefficients

...5 Evaluation de la multicolinearite

...6 Selection de variables (Modele parcimonieux)

Modele restreintReiteration des Etapes 1, 2, 3, 4

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 89 / 91

References

References

Livres

Probabilites Analyses des donnees et Statistique, G. Saporta, TECHNIP

Dodge, Y, Rousson, V., Analyse de regression appliquee, Dunod, 2eme edition,2004.

Supports en ligne

Econometrie - Regression lineaire simple et multiple, R. Rakotomalalahttp://eric.univ-lyon2.fr/~ricco/cours/cours/econometrie_regression.pdf

Pratique de la regression lineaire multiple - Diagnostic et Selection devariables, R. Rakotomalalahttp://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf

Regression lineaire, A. Guyaderhttp:

//www.sites.univ-rennes2.fr/laboratoire-statistique/AGUYADER/doc/regression/poly.pdf

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 91 / 91

Annexe 1 - Systeme aux equations normales

min S(β0, β1) = minn∑

i=1

(yi − (β1xi + β0))2

= minn∑

i=1

[y2i − 2xiyiβ1 − 2yiβ0 + β2

1x2i + 2β0β1xi + β2

0

]S(β0, β1) est strictement convexe donc elle admet un minimum au point unique(b0, b1) determine en annulant les derivees partielles de S :

∂S(β0, β1)

∂β0= 0⇒

n∑i=1

−2yi + 2b1xi + 2b0 = 0 (1)

∂S(β0, β1)

∂β1= 0⇒

n∑i=1

−2xiyi + 2b1x2i + 2b0xi = 0 (2)

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 1 / 11

Annexe 1 - Systeme aux equations normales

De (1) on deduit que

b0 =

∑ni=1 yi − b1

∑ni=1 xi

n= y − b1x (3)

De (2) on deduit que

b1

n∑i=1

x2i + b0

n∑i=1

xi =n∑

i=1

xiyi (4)

En utilisant (3) nous obtenons

b1

n∑i=1

x2i + (y − b1x)n∑

i=1

xi =n∑

i=1

xiyi (5)

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 2 / 11

Annexe 1 - Systeme aux equations normales

En divisant par n les deux termes :

b11

n

n∑i=1

x2i + (y − b1x)x =1

n

n∑i=1

xiyi (6)

b1

[1

n

n∑i=1

x2i − x2

]=

1

n

n∑i=1

xiyi − x y (7)

b1 =sxys2x

(8)

.. Retour

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 3 / 11

Annexe 2 - RLM : MCO

Observons que ||ϵ||2 = ||Y − Xβ||2. Aussi

||ϵ||2 = (Y − Xβ)T (Y − Xβ) = YTY − YTXβ − βTXTY + βTXTXβ.

Or comme la transposee d’un scalaire est egale a lui-meme :(YTXβ

)T= βTXTY,

nous avons donc

S(β0, . . . , βp) = ||ϵ||2 = YTY − 2βTXTY + βTXTXβ

Minimiser la fonction S revient a annuler les derivees differentielles par rapport aβ. L’annulation de la derivation matricielle nous donne

∂S

∂β= −2

(XTY

)+ 2

(XTX

)b = 0

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 4 / 11

Annexe 2 - RLM : MCO

Aussi (XTX

)b =

(XTY

).

Or rg(X) = p et p ≤ n donc(XTX

)est inversible. Aussi

b =(XTX

)−1 (XTY

).. Retour

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 5 / 11

Annexe 3 - RLM : moments des estimateurs

Esperance

E[B] = E[(XTX

)−1XTY

]=

(XTX

)−1XTE[Y]

E[B] =(XTX

)−1XTE[X.β + ϵ] = β

Variance

V[B] = V[(XTX

)−1XTY

]= X

(XTX

)−1 V[Y](XTX

)−1XT

V[B] = X(XTX

)−1 V[ϵ](XTX

)−1XT = σ2

(XTX

)−1

.. Retour

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 6 / 11

Annexe 4 - F partiel de Fisher

L’egalite

F =

(Bj

σBJ

)2

∼ F1,n−p−1

se base sur un cas particulier du test de nullite d’un bloc de q coefficients.{H0 : Y = β0 + β1X1 + . . .+ βjXj + βj+q+1Xj+q+1 + . . .+ βpXp + ϵ

H1 : Y = β0 + β1X1 + . . .+ βpXp + ϵ{H0 : Modele sans les q variables (modele restreint)

H1 : Modele complet

Posons

R2(0) : Coefficient de determination du modele restreint (H0)

R2(1) : Coefficient de determination du modele complet (H1)

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 7 / 11

Annexe 4 - F partiel de Fisher

Notons F la statistique de test associee. On montre que sous H0,

F =

(R2(1) − R2

(0)

)/q(

1− R2(1)

)/(n − p − 1)

∼ Fq,n−p−1

Autre interpretation : si l’accroissement(R2(1) − R2

(0)

)>

q

n − p − 1fq,n−p−1

alors la place des q variables dans le modele est justifiee.

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 8 / 11

Annexe 4 - F partiel de Fisher

Cas particulier quand q = 1

On veut tester la nullite d’un coefficient βj{H0 : Y = β0 + β1X1 + . . .+ βj−1Xj−1 + βj+1Xj+1 + . . .+ βpXp + ϵ

H1 : Y = β0 + β1X1 + . . .+ βpXp + ϵ{H0 : Modele sans Xj (modele restreint)

H1 : Modele complet

Posons

R2(0) : Coefficient de determination du modele restreint (H0)

R2(1) : Coefficient de determination du modele complet (H1)

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 9 / 11

Annexe 4 - F partiel de Fisher

Cas particulier quand q = 1

Notons F la statistique de test associee. On montre que sous H0,

F =

(R2(1) − R2

(0)

)/1(

1− R2(1)

)/(n − p − 1)

∼ F1,n−p−1

Or

T =Bj

σBJ

∼ Tn−p−1

Donc

F = T 2 =

(Bj

σBJ

)2

Remarque : test de la significativite du coefficient et son apport au R2.

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 10 / 11

Annexe 4 - F partiel de Fisher

Cas particulier quand q = 1

Autre interpretation : si l’accroissement(R2(1) − R2

(0)

)>

1

n − p − 1f1,n−p−1

alors la place de Xj dans le modele est justifiee.

Note : Tests de type III sous SAS.

.. Retour

Michael Genin (Universite de Lille 2) Regression lineaire multiple Version - 19 fevrier 2015 11 / 11