STAT-G204 Chapitre II: La r gression...

19
STAT-G204 Chapitre II: La r ´ egression multiple Caroline Verhoeven

Transcript of STAT-G204 Chapitre II: La r gression...

STAT-G204Chapitre II: La regression multiple

Caroline Verhoeven

Table des matieres

1 Regression simple

2 Principe de la regression multiple

3 Resolution avec SPSS

ULBBeamerlogo

Caroline Verhoeven STAT-G204 2 / 19

1. Regression simple

La regression lineaire

Y : La variable que l’on veut predire (variable dependante)X : La variable explicative (variable independante)

Determination de la droite de regression :Mesures : x1,y1, x2,y2, xN ,yN

La pente b1 et l’ordonnee b0 a l’origine de la “meilleure droite”

d1

d2

d3 d4

d5

0,10 0,15 0,20 0,25 0,30

2

3

4

Porportion noir

Age yi : valeur d’Y pour le sujet i

yi= b0 + b1xi

di = yi − yi : “residu”

La “meilleure” droite : celle qui minimise

Q =N∑

i=1

d2i =

N∑

i=1

(yi − yi)2

ULBBeamerlogo

Caroline Verhoeven STAT-G204 3 / 19

2. Principe de la regression multiple

Utilite de la regression multiple

Un variable peut dependre de plusieurs facteurs a la fois.

Exemple 1

Predire la taille d’une personne a partir de la taille du pere, de la mere etde son sexe

But : Predire les valeur d’Y a partir de plusieurs variables X1, X2,. . ., Xk

X1, X2, . . .Xk sont en general quantitatives ou ordinales, quelques unespeuvent etre nominales

Exemple 1

Le sexe est une variable nominale :

0=femme

1=homme

ULBBeamerlogo

Caroline Verhoeven STAT-G204 4 / 19

2. Principe de la regression multiple

Principe et exemple

Etude du lien lineaire entre Y et les variables X1, X2,. . ., Xk :

y = b0 + b1x1 + b2x2 + · · ·+ bkxk .

On cherche : b0, b1, b2, . . . ,bk

Exemple 2

Prediction des recettes d’un film hollywoodientire d’un livre sur base de :

Couts de production

Couts publicitaires

Recettes du livres

On considere 10 films.

ULBBeamerlogo

Caroline Verhoeven STAT-G204 5 / 19

2. Principe de la regression multiple

Conditions pour la regression multiple

1 Il existe un lien lineaire entre Y et les Xi

2 Pas de multi-colinearite : Il ne peut pas y avoir une grandecorrelation entre les Xi

3 Il faut beaucoup de sujets dan l’echantillon.Minimum : 5k , k : le nombre de variables predictives

ULBBeamerlogo

Caroline Verhoeven STAT-G204 6 / 19

3. Resolution avec SPSS

Exemple

Exemple 2

Donnees pour les 10 films, en millions de dollars

Recette film Cout film Cout pub Recette livre

85.1 8.5 5.1 4.7106.3 12.9 5.8 8.850.2 5.2 2.1 15.1

130.6 10.7 8.4 12.254.8 3.1 2.9 10.630.3 3.5 1.2 3.579.4 9.2 3.7 9.791.0 9.0 7.6 5.9

135.4 15.1 7.7 20.889.3 10.2 4.5 7.9

ULBBeamerlogo

Caroline Verhoeven STAT-G204 7 / 19

3. Resolution avec SPSS

Donnees en SPSS

ULBBeamerlogo

Caroline Verhoeven STAT-G204 8 / 19

3. Resolution avec SPSS

Menu regression en SPSS I

Analyze → Regression ⇒ Linear

ULBBeamerlogo

Caroline Verhoeven STAT-G204 9 / 19

3. Resolution avec SPSS

Menu regression en SPSS II

Analyze → Regression ⇒ Linear

ULBBeamerlogo

Caroline Verhoeven STAT-G204 10 / 19

3. Resolution avec SPSS

Choisir les variables

Choisir la variable dependante et les variables independantes

ULBBeamerlogo

Caroline Verhoeven STAT-G204 11 / 19

3. Resolution avec SPSS

Les methodes pour la regression I

Methode “Enter” : Methode qui introduit toutes les variablesindependantes simultanement

A utiliser si on veut determiner l’equation de la droite de regressionavec toutes les variables independantes

Les autres methodes sont des methodes hierarchiques.

Seulement a utiliser si on pense qu’une des variable est plusimportante que les autres

ULBBeamerlogo

Caroline Verhoeven STAT-G204 12 / 19

3. Resolution avec SPSS

Les methodes pour la regression II

Methode “Forward” :Introduction d’une variable independante a la foisL’ordre est determine en fonction de la correlation avec la variabledependanteS’il n’ameliore pas le modele significativement, elle est eliminee

Methode “Backward”On introduit toutes les variablesOn retire la variable independante la plus faibleSi cela affaiblit significativement le modele elle est reintroduiteOn repete la procedure jusqu’a ce que l’on n’a que les variables utiles

Methode “Stepwize”Les variables independantes sont introduites une a uneOn teste si la nouvelle est significative, et on refait un test sur lesautresLes variables non significatives son eliminees

ULBBeamerlogo

Caroline Verhoeven STAT-G204 13 / 19

3. Resolution avec SPSS

Regression avec la methode Enter

ULBBeamerlogo

Caroline Verhoeven STAT-G204 14 / 19

3. Resolution avec SPSS

Resultat de la regression avec SPSS

ULBBeamerlogo

Caroline Verhoeven STAT-G204 15 / 19

3. Resolution avec SPSS

Resultat : La methode

Nous donne la methode et les va-riables eliminees

ULBBeamerlogo

Caroline Verhoeven STAT-G204 16 / 19

3. Resolution avec SPSS

Resultat : R2

R2 : Proportion de la variabilitedans la variable dependanteexpliquee par le modele

R2 a tendance a surestimer leresultat

Adjusted R2 : Tient compte dunombre de variablesindependantes et du nombre desujets

ULBBeamerlogo

Caroline Verhoeven STAT-G204 17 / 19

3. Resolution avec SPSS

Resultat : ANOVA

Que test cette ANOVA ?

H0 : β1 = β2 = · · · = βk = 0

Ha : Il y a au moins un βi 6= 0

Si p < 0,05 : RH0

Si p > 0,05 : NRH0

ULBBeamerlogo

Caroline Verhoeven STAT-G204 18 / 19

3. Resolution avec SPSS

Resultat : Coefficients

X1 : cout prod., X2 : cout pub., X3 : recette livre

y = 7,676 + 3,662x1 + 7,621x2 + 0,828x3

Beta: Analyse avec les variables reduites (s = 1)

p (Sig.) : la valeur p testant si la variable est significative ou non

ULBBeamerlogo

Caroline Verhoeven STAT-G204 19 / 19