STAT-G204 Chapitre II: La r gression...
Transcript of STAT-G204 Chapitre II: La r gression...
Table des matieres
1 Regression simple
2 Principe de la regression multiple
3 Resolution avec SPSS
ULBBeamerlogo
Caroline Verhoeven STAT-G204 2 / 19
1. Regression simple
La regression lineaire
Y : La variable que l’on veut predire (variable dependante)X : La variable explicative (variable independante)
Determination de la droite de regression :Mesures : x1,y1, x2,y2, xN ,yN
La pente b1 et l’ordonnee b0 a l’origine de la “meilleure droite”
d1
d2
d3 d4
d5
0,10 0,15 0,20 0,25 0,30
2
3
4
Porportion noir
Age yi : valeur d’Y pour le sujet i
yi= b0 + b1xi
di = yi − yi : “residu”
La “meilleure” droite : celle qui minimise
Q =N∑
i=1
d2i =
N∑
i=1
(yi − yi)2
ULBBeamerlogo
Caroline Verhoeven STAT-G204 3 / 19
2. Principe de la regression multiple
Utilite de la regression multiple
Un variable peut dependre de plusieurs facteurs a la fois.
Exemple 1
Predire la taille d’une personne a partir de la taille du pere, de la mere etde son sexe
But : Predire les valeur d’Y a partir de plusieurs variables X1, X2,. . ., Xk
X1, X2, . . .Xk sont en general quantitatives ou ordinales, quelques unespeuvent etre nominales
Exemple 1
Le sexe est une variable nominale :
0=femme
1=homme
ULBBeamerlogo
Caroline Verhoeven STAT-G204 4 / 19
2. Principe de la regression multiple
Principe et exemple
Etude du lien lineaire entre Y et les variables X1, X2,. . ., Xk :
y = b0 + b1x1 + b2x2 + · · ·+ bkxk .
On cherche : b0, b1, b2, . . . ,bk
Exemple 2
Prediction des recettes d’un film hollywoodientire d’un livre sur base de :
Couts de production
Couts publicitaires
Recettes du livres
On considere 10 films.
ULBBeamerlogo
Caroline Verhoeven STAT-G204 5 / 19
2. Principe de la regression multiple
Conditions pour la regression multiple
1 Il existe un lien lineaire entre Y et les Xi
2 Pas de multi-colinearite : Il ne peut pas y avoir une grandecorrelation entre les Xi
3 Il faut beaucoup de sujets dan l’echantillon.Minimum : 5k , k : le nombre de variables predictives
ULBBeamerlogo
Caroline Verhoeven STAT-G204 6 / 19
3. Resolution avec SPSS
Exemple
Exemple 2
Donnees pour les 10 films, en millions de dollars
Recette film Cout film Cout pub Recette livre
85.1 8.5 5.1 4.7106.3 12.9 5.8 8.850.2 5.2 2.1 15.1
130.6 10.7 8.4 12.254.8 3.1 2.9 10.630.3 3.5 1.2 3.579.4 9.2 3.7 9.791.0 9.0 7.6 5.9
135.4 15.1 7.7 20.889.3 10.2 4.5 7.9
ULBBeamerlogo
Caroline Verhoeven STAT-G204 7 / 19
3. Resolution avec SPSS
Menu regression en SPSS I
Analyze → Regression ⇒ Linear
ULBBeamerlogo
Caroline Verhoeven STAT-G204 9 / 19
3. Resolution avec SPSS
Menu regression en SPSS II
Analyze → Regression ⇒ Linear
ULBBeamerlogo
Caroline Verhoeven STAT-G204 10 / 19
3. Resolution avec SPSS
Choisir les variables
Choisir la variable dependante et les variables independantes
ULBBeamerlogo
Caroline Verhoeven STAT-G204 11 / 19
3. Resolution avec SPSS
Les methodes pour la regression I
Methode “Enter” : Methode qui introduit toutes les variablesindependantes simultanement
A utiliser si on veut determiner l’equation de la droite de regressionavec toutes les variables independantes
Les autres methodes sont des methodes hierarchiques.
Seulement a utiliser si on pense qu’une des variable est plusimportante que les autres
ULBBeamerlogo
Caroline Verhoeven STAT-G204 12 / 19
3. Resolution avec SPSS
Les methodes pour la regression II
Methode “Forward” :Introduction d’une variable independante a la foisL’ordre est determine en fonction de la correlation avec la variabledependanteS’il n’ameliore pas le modele significativement, elle est eliminee
Methode “Backward”On introduit toutes les variablesOn retire la variable independante la plus faibleSi cela affaiblit significativement le modele elle est reintroduiteOn repete la procedure jusqu’a ce que l’on n’a que les variables utiles
Methode “Stepwize”Les variables independantes sont introduites une a uneOn teste si la nouvelle est significative, et on refait un test sur lesautresLes variables non significatives son eliminees
ULBBeamerlogo
Caroline Verhoeven STAT-G204 13 / 19
3. Resolution avec SPSS
Regression avec la methode Enter
ULBBeamerlogo
Caroline Verhoeven STAT-G204 14 / 19
3. Resolution avec SPSS
Resultat de la regression avec SPSS
ULBBeamerlogo
Caroline Verhoeven STAT-G204 15 / 19
3. Resolution avec SPSS
Resultat : La methode
Nous donne la methode et les va-riables eliminees
ULBBeamerlogo
Caroline Verhoeven STAT-G204 16 / 19
3. Resolution avec SPSS
Resultat : R2
R2 : Proportion de la variabilitedans la variable dependanteexpliquee par le modele
R2 a tendance a surestimer leresultat
Adjusted R2 : Tient compte dunombre de variablesindependantes et du nombre desujets
ULBBeamerlogo
Caroline Verhoeven STAT-G204 17 / 19
3. Resolution avec SPSS
Resultat : ANOVA
Que test cette ANOVA ?
H0 : β1 = β2 = · · · = βk = 0
Ha : Il y a au moins un βi 6= 0
Si p < 0,05 : RH0
Si p > 0,05 : NRH0
ULBBeamerlogo
Caroline Verhoeven STAT-G204 18 / 19
3. Resolution avec SPSS
Resultat : Coefficients
X1 : cout prod., X2 : cout pub., X3 : recette livre
y = 7,676 + 3,662x1 + 7,621x2 + 0,828x3
Beta: Analyse avec les variables reduites (s = 1)
p (Sig.) : la valeur p testant si la variable est significative ou non
ULBBeamerlogo
Caroline Verhoeven STAT-G204 19 / 19