(Cours régression)

50
Statistique 1 e année bachelor, 2009-10 Chapitre 4.3 Régression linéaire multiple 1 / 50 Chapitre 4 : RÉGRESSION 4.3 Régression linéaire multiple 4.3.1 Equation et Estimation 4.3.2 Inférence 4.3.3 Coefficients de détermination 4.3.4 Spécifications

Transcript of (Cours régression)

Page 1: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 1 / 50

Chapitre 4 : RÉGRESSION 4.3 Régression linéaire multiple

4.3.1 Equation et Estimation 4.3.2 Inférence 4.3.3 Coefficients de détermination 4.3.4 Spécifications

Page 2: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 2 / 50

Chapitre 4 : RÉGRESSION 4.3 Régression linéaire multiple

4.3.1 Equation et Estimation 4.3.2 Inférence 4.3.3 Coefficients de détermination 4.3.4 Spécifications

Page 3: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 3 / 50

L’équation de la régression (1)

• Un modèle de régression multiple contient 1 1K n< < − variables indépendantes, 1 2, ,..., Kx x x . (On utilisera k comme indice pour une variable particulière.)

→ Les paramètres sont estimables quand 1K n= − , mais l’ajustement est alors parfait et l’inférence est impossible. En pratique, on doit veiller à ce que n K>> .

• L’équation de la régression linéaire multiple (ou le « modèle de régression ») s’écrit donc de la façon suivante :

0 1 1 2 2 ... K Ky x x xβ β β β ε= + + + + + , où E(ε) = 0,

→ ( ) 0 1 1 2 2 ... K KE y x x xβ β β β= + + + + , → ( )1 2 0 1 1 2 2, ,..., ...K K KE y x x x x x xβ β β β= + + + + ,

où 0 1 2, , ,..., Kβ β β β sont les paramètres du modèle, et le terme d’erreur ε est une variable aléatoire.

Page 4: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 4 / 50

L’équation de la régression (2)

• Tout comme dans le cas de la régression linéaire simple, β0 représente le point, où 1 2 ... 0Kx x x= = = = (« constante »).

• La valeur d’un paramètre βk > 0 donne le nombre d’unités supplémentaires de y associées à une augmentation par une unité de xk lorsque toutes les autres variables indépendantes sont constantes (variation « ceteris paribus »).

• ( )1 2, ,... KE y x x x est la moyenne de y pour un vecteur de valeurs des variables indépendantes { }1 2, ,..., Kx x x donné.

Page 5: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 5 / 50

L’équation de la régression (3)

• Si K > 2, on ne peut plus représenter le modèle de régression de façon graphique.

• Avec K = 2, une représentation graphique est possible, puisqu’il n’y a que trois dimensions : x1, x2 et y. L’équivalent à la droite de régression en régression linéaire simple est alors appelé « surface de réponse » :

Page 6: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 6 / 50

L’équation estimée

• Les statistiques d’échantillon 0 1 2, , ,..., Kb b b b servent d’estimations de 0 1 2, , ,..., Kβ β β β .

• Ainsi, l’équation estimée de la régression est donnée par :

0 1 1 2 2ˆ ... K Ky b b x b x b x= + + + + ,

où y est l’estimation ponctuelle de ( )1 2, ,... KE y x x x .

Page 7: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 7 / 50

Processus d’estimation

Page 8: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 8 / 50

Estimation par les moindres carrés

• Tout comme pour la régression linéaire simple, la méthode la plus répandue pour calculer 0 1 2, , ,..., Kb b b b est l’estimateur des moindres carrés.

• Formellement, la méthode est alors la suivante :

{ } ( )0 1 2

2

0 1 21, , ,...

ˆ, , ,..., argminK

n

K i iib b b b

b b b b y y=

= −∑

( )0 1 2

2

0 1 1 2 21, , ,...

...argminK

n

i i i K Kiib b b b

y b b x b x b x=

= − − − − −∑

L’estimateur des moindres carrés pour une régression multiple suit la même logique que celle de la régression linéaire simple, mais sa formulation est plus compliquée, nécessitant l’utilisation de l’algèbre matricielle. De plus, l’estimation est trop compliquée pour être faite « à la main » avec un effort raisonnable et est donc toujours effectuée avec l’aide d’un ordinateur.

Page 9: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 9 / 50

Chapitre 4 : RÉGRESSION 4.3 Régression linéaire multiple

4.3.1 Equation et Estimation 4.3.2 Inférence 4.3.3 Coefficients de détermination 4.3.4 Spécifications

Page 10: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 10 / 50

Hypothèses de l’estimateur MCO

• Tout comme pour la régression linéaire simple, la légitimité des tests d’hypothèse repose sur les cinq hypothèses faites à propos du terme d’erreur du modèle de régression, ε .

• En fait, on peut démontrer que, sous condition que ces hypothèses soient satisfaites, l’estimateur des MCO est le meilleur des estimateurs concevables, dans le sens suivant (théorème de Gauss-Markov ):

o Les coefficients estimés 0 1 2, , ,..., Kb b b b sont des estimations non-biaisées des paramètres 0 1 2, , ,..., Kβ β β β .

o L’estimateur MCO implique les variances des coefficients estimés

0 1 2

2 2 2 2, , ,...,kb b b bs s s s les plus petites de tous les estimateurs

linéaires et non-biaisés concevables.

Page 11: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 11 / 50

Test du t de Student (1)

• Si les hypothèses sur ε sont satisfaites, on peut se servir de la loi du t de Student pour tester des hypothèses sur des paramètres individuels βk.

• Statistique de test : 1

k

n Kk kk

b

bt

sβ − −−= ∼ t

o Le calcul de l’erreur type des coefficients estimés kbs est trop

compliqué pour être effectué « à la main », mais sa logique est la même que dans le cas de la régression linéaire simple.

o Notamment, kbs tend à diminuer avec n.

• L’intervalle de confiance autour d’un paramètre estimé individuel est alors donné par :

1 *

k

n Kk bb t sα

− −±

Page 12: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 12 / 50

Test du t de Student (2)

• Dans la plupart des applications, l’hypothèse la plus importante concerne la signification statistique de xk comme facteur « explicatif » des variations de y.

→ H0 : βk = 0 ; H1 : βk ≠ 0

→ statistique de test : 1

k

n Kkk

b

bt

s− −= ∼ t

• Ces statistiques de test sont fournies par tous les logiciels statistiques pour chacun de coefficients estimés 0 1 2, , ,..., Kb b b b . Puisque 0.05 1.96t ∞ = , une façon de tester la significativité statistique à 5% d’un coefficient estimé d’une régression multiple basée sur un grand échantillon est de vérifier si 1.96kt > . Pour tester la significativité à 1%, on vérifie si 2.58kt > .

Page 13: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 13 / 50

Test du F de Fisher • Si les hypothèses sur ε sont satisfaites, on peut se servir de la loi

du F de Fisher pour déterminer s’il existe une relation significative entre y et l’ensemble des variables indépendantes ; on parle du test de signification globale .

→ H0 : 1 2 ... 0kβ β β= = = =

H1 : au moins un des paramètres n’est pas égal à zéro

• Statistique de test : ( ), 1

1

K n K

SCRegKF

SCResn K

− −=

− −

∼ F

Page 14: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 14 / 50

Multicolinéarité (1)

• Il est possible qu’aucun des coefficients estimés bk soit individuellement statistiquement significatif (selon le test du t de Student), mais que le modèle soit quand même globalement statistiquement significatif (selon le test du F de Fisher).

• L’explication de ce phénomène apparemment paradoxal est la multicolinéarité : le fait que les variables indépendantes xk, tout en étant indépendantes de y, peuvent parfaitement être corrélées entre elles.

• Plus les variables indépendantes sont corrélées, plus il devient difficile de déterminer l’effet propre d’une variable indépendante particulière sur la variable dépendante. Autrement dit, quand la multicolinéarité est forte, les erreurs type des coefficients

kbs sont

grands, et le risque peut être fort que les coefficients estimés prennent le signe opposé à celui du vrai paramètre.

Page 15: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 15 / 50

Multicolinéarité (2)

• En pratique il peut être utile d’inspecter la matrice de corrélation entre les variables indépendante. Comme valeur pratique (très) approximative, on utilise parfois un seuil de 0.7ˆ

k lx xρ = pour

déterminer s’il y a un problème potentiel de multicolinéarité entre deux variables.

• La multicolinéarité peut prendre la forme d’une relation linéaire entre plusieurs variables indépendantes, càd elle peut être présente même si les corrélations entre paires de variables individuelles sont toutes relativement faibles. Des tests plus avancés existent pour vérifier la présence de ce phénomène.

• Le meilleur moyen pour pallier au problème de multicolinéarité est d’augmenter la taille de l’échantillon n.

• S’il y a colinéarité parfaite entre deux ou plusieurs variables indépendantes, leurs paramètres ne peuvent pas être estimés.

Page 16: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 16 / 50

Chapitre 4 : RÉGRESSION 4.3 Régression linéaire multiple

4.3.1 Equation et Estimation 4.3.2 Inférence 4.3.3 Coefficients de détermination 4.3.4 Spécifications

Page 17: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 17 / 50

R-carré (1) • La définition du R-carré (aussi : « coefficient de détermination

multiple ») est identique à celle pour la régression linéaire simple :

( )

( )

2

2 1

2

1

ˆn

iin

ii

y ySCReg SCReg

RSCReg SCRes SCToty y

=

=

−= = =

+−

( )

( ) ( )

2 2

1 1

2 2

1 1

ˆ1 1 1

n n

i i ii in n

i ii i

y y u

SCToty y y y

= =

= =

−= − = − = −

− −

∑ ∑

∑ ∑

SCRes

Page 18: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 18 / 50

R-carré (2)

• Le R-carré exprime le pourcentage de la somme des carrés totaux « expliqué » (dans le sens d’une explication géométrique et non causale !) par l’équation estimée de la régression.

• Le R-carré ne peut pas être décomposé en « contributions explicatives » de chacune des K variables explicatives.

→→→→ Exception : cas de zéro colinéarité entre les variables explicatives (qui sont donc « orthogonales »)

→→→→ Exemple : vecteurs de variables binaires par pays et par année dans un modèle des différences de taux de chômage ⇒ décomposition du R-carré en une composante « conjoncturelle » (contribution au R-carré des différences temporelles) et une composante « structurelle » (contribution au R-carré des différences inter-pays)

Page 19: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 19 / 50

R-carré et test du F de Fisher

• Il existe une relation mathématique entre le R-carré et la statistique de test de signification globale (du F de Fisher) :

( )

( )2

2

1

11

SCRegn K RKF

SCRes K Rn K

− −= =

−− −

• Étant donné n et K, un R-carré élevé implique une statistique F élevée.

• De plus, la statistique F varie en fonction de n et de K. Pour un R-carré donné, plus n K− est grand, plus la statistique F est élevée. Intuitivement, cela représente le fait que plus il y a d’observations par rapport au nombre de variables indépendantes, plus il semble invraisemblable qu’une certaine qualité d’ajustement du modèle (càd un certain R-carré) se soit produit aléatoirement.

Page 20: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 20 / 50

R-carré ajusté (1) • Puisque la méthode des MCO minimise la somme des carrés des

résidus (SCRes), le R-carré augmente si on ajoute des variables indépendantes (ce qui ne change pas SCTot) même si ces variables ne sont pas statistiquement significatives.

• La valeur du R-carré dépend donc de K, ce qui complique la comparaison de la qualité d’ajustement de différent s modèles de régression si le nombre de variables indépendantes n’est pas identique.

• Pour cette raison, il est courant de calculer le « R-carré ajusté » :

( )

( ) ( )2 21 11 1 1

1 1n K n

R RSCTot n n K

− − −= − = − −− − −

SCRes , 2 1R ≤

Page 21: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 21 / 50

R-carré ajusté (2)

• ( )1n K− −SCRes est la variance estimée des résidus, 2us ; et

( )1SCTot n − est la variance estimée de y. On peut donc aussi

écrire le R-carré ajusté de la façon suivante : ( )2 2 21 u yR s s= − .

• Si l’ajout d’une variable indépendante diminue SCRes proportionnellement moins qu’il n’augmente K, alors 2

us augmente, et le R-carré ajusté diminue. Le R-carré ajusté peut donc diminuer ou augmenter quand on ajoute des variables indépendantes. Il est même possible que le R-carré ajusté prenne des valeurs négatives (si K est grand et le R-carré est petit).

• On peut démontrer que l’ajout d’une variable indépendante augmente le R-carré ajusté si la statistique du t de Student de cette variable est supérieure à 1. Pour augmenter le R-carré ajusté, une variable indépendante supplémentaire n’a donc pas besoin d’être statistiquement significative, même au seuil de 10%.

Page 22: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 22 / 50

ind. revenu âge expérience1 52125.0 48.1 5.52 50955.9 38.7 2.53 53382.9 48.6 18.94 51286.9 37.5 13.55 55243.6 54.7 25.56 53384.7 40.7 7.37 53488.2 50.1 2.38 54134.1 45.9 18.89 52706.4 55.9 19.0

10 42144.3 25.1 5.511 52665.2 36.9 5.012 51656.7 34.5 15.5

Moyenne 51931.2 43.1 11.6Ecart type 3314.9 9.1 7.8

Exemple Statville (1)

• Le syndic cherche à savoir si l’effet de l’âge sur le revenu des habitants de sa commune reste statistiquement significatif si on contrôle aussi pour la durée d’expérience des travailleurs dans leur fonction actuelle. Il recense donc la variable « expérience » pour les 12 individus de son échantillon aléatoire simple.

Page 23: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 23 / 50

RAPPORT DÉTAILLÉ

Statistiques de la régressionCoefficient de détermination multiple 0.766580532Coefficient de détermination R^2 0.587645712Coefficient de détermination R^2 0.496011426Erreur-type 2353.302134Observations 12

ANALYSE DE VARIANCEDegré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F

Régression 2 71030184.72 35515092.36 6.4129458 0.018565956Résidus 9 49842278.42 5538030.936Total 11 120872463.1

Coefficients Erreur-type Statistique t ProbabilitéLimite inférieure

pour seuil de confiance = 95%

Limite supérieure pour seuil de

confiance = 95%

Constante 40034.4147 3500.343207 11.43728267 1.158E-06 32116.08826 47952.74114âge 269.9022708 89.3203627 3.021732813 0.0144387 67.84557296 471.9589687expérience 23.47323377 103.1785424 0.227501118 0.8251181 -209.9328446 256.8793121

Exemple Statville (2)

Excel : Outils - Utilitaire d’analyse - Régression linéaire – cocher Intitulé présent

2R 2R

2R SCRessu

Page 24: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 24 / 50

Exemple Statville (3)

• Le syndic conclut que, étant donné l’âge, les années d’expérience dans la fonction ne constituent pas un déterminant statistiquement significatif du salaire. Le modèle prédit donc que deux travailleurs qui ont le même âge mais des durées d’expérience différentes auront le même salaire en moyenne.

• On note que par rapport à l’estimation de la régression linéaire simple (avec l’âge comme unique variable indépendante), le R-carré a augmenté (de 0.585 à 0.588). Par contre, puisque la valeur de la statistique t de la variable « expérience » est inférieure à 1, le R-carré ajusté a diminué (de 0.544 à 0.496).

• Malgré l’augmentation du R-carré, la valeur de la statistique F a diminué (de 14.1 à 6.4) et celle de l’erreur type de la régression a augmenté (de 2239 à 2353). L’augmentation de K (de 1 à 2) a donc plus que compensé la diminution de SCRes (de 50.1 mn à 49.8 mn).

Page 25: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 25 / 50

Exemple Statville (4)

• Corrélation entre les variables « âge » et « expérience » :

12 0.77ρ = ⇒ La multicolinéarité pourrait jouer un rôle (càd les variations dans le valeurs de la variable « expérience » ne sont pas suffisamment indépendantes de l’âge, ainsi qu’avec seulement 12 observations on arrive pas à identifier statis-tiquement un effet spécifique dû à « expérience ».

→ Excel : =COEFFICIENT.CORRELATION(âge; expérience)

• Prédiction du salaire pour une personne de 55 ans avec 15 ans d’expérience :

( ) ( )1 2 1 2ˆ ˆ55, 15 55, 15y x x E y x x= = = = =

40034 269.9 * 55 23.5 *15 55231= + + = → La construction d’un intervalle de confiance autour de cette

prévision n’est pas possible avec Excel.

Page 26: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 26 / 50

Exemple Statville (5)

• Dans les tableaux publiés de résultats de la régression, il est utile de présenter les coefficients ainsi que leurs erreurs types et des symboles indiquant le niveau de signification statistique du test bilatéral de H0 : 0kβ = .

• Une telle présentation des résultats facilite des tests d’hypothèse alternatifs, H0 : k zβ = .

o Le syndic pourrait s’intéresser si la véritable hausse salariale moyenne par année d’âge est égale à 500 francs (α = 5%) :

1

1

1500

500 269.9 5002.58

89.3xb

bt

s=− −= = = − ; 1 9

0.05 2.26n Kt tα− − = =

o Intervalle de confiance de 95% approximatif pour n ≥ 60 : b ± 21bs

Variables indépendantes :

269.9*(89.3)

23.4(103.2)

40034.4*(3500.3)

R-carré 0.59R-carré ajusté 0.50Erreur type de la régression 2353.3Observations 12

expérience

Constante

Les déterminants salariaux à Statvillevariable dépendante: salaires;

estimateur: MCO

âge

Remarques : erreurs types entre paren-thèses ; * : significatif à 5%

Page 27: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 27 / 50

Chapitre 4 : RÉGRESSION 4.3 Régression linéaire multiple

4.3.1 Equation et Estimation 4.3.2 Inférence 4.3.3 Coefficients de détermination 4.3.4 Spécifications

Page 28: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 28 / 50

Bases

• Par « spécification », on entend la formulation du modèle empirique, càd de l’équation de la régression.

• La spécification linéaire est suffisamment flexible pour permettre l’estimation d’une large gamme de modèles théoriques, dont certains sont non linéaires à la base (mais « intrinsèquement linéaires »). Nous présenterons quelques spécifications particulières très utiles : o spécification polynomiale o variables indépendantes binaires o spécification logarithmique o interactions

• Il existe des modèles théoriques non linéaires qui ne peuvent être transformés en une spécification linéaire et nécessitent donc l’utilisation d’un estimateur non linéaire (pas traité dans ce cours).

→ Exemple : ( ) 10 1 3y xβ β β −= + +

Page 29: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 29 / 50

Spécification polynomiale • La spécification de base de la régression linéaire multiple peut être

considérée comme un cas particulier d’une classe de fonctions plus large, les fonctions polynomiales :

2 3

0 1 2 3 ... KKy x x x xβ β β β β ε= + + + + + +

→ K : le « degré » du polynôme

→ K = 2 : polynôme du deuxième degré (ou « parabole »)

• Si ε satisfait les hypothèses du modèle des MCO, cette spécification peut être estimée avec la méthode des moindres carrés :

( ) 2 30 1 2 3ˆ ... K

Ky E y x b b x b x b x b x= = + + + + +

Page 30: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 30 / 50

Exemple Statville (1)

• Le syndic se rend compte que sa spécification initiale n’est pas satisfaisante. En particulier, l’hypothèse d’une relation linéaire entre l’âge et le revenu des habitants n’est pas plausible.

• Il décide donc d’estimer un modèle polynomial du deuxième degré pour la variable indépendante « âge » :

20 1 1 2 1 3 2y x x xβ β β β ε= + + + + ,

où x1 = âge, et x2 = expérience

Page 31: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 31 / 50

Statistiques de la régressionCoefficient de détermination multiple 0.956286456Coefficient de détermination R^2 0.914483786Coefficient de détermination R^2 0.882415205Erreur-type 1136.692321Observations 12

ANALYSE DE VARIANCE

Degré de liberté Somme des carrés Moyenne des carrés FValeur critique de

FRégression 3 110535907.7 36845302.56 28.5165036 0.000127026Résidus 8 10336555.45 1292069.432Total 11 120872463.1

Coefficients Erreur-type Statistique t ProbabilitéLimite inférieure

pour seuil de confiance = 95%

Limite supérieure pour seuil de

confiance = 95%Constante 3932.56245 6744.300766 0.583094169 0.57589379 -11619.82299 19484.94789âge 2077.513837 329.7370239 6.300517339 0.00023266 1317.138897 2837.888777âge^2 -22.07705908 3.992584707 -5.529515516 0.00055414 -31.28397592 -12.87014225expérience 97.9923741 51.6272887 1.89807322 0.09424716 -21.06036705 217.0451152

Exemple Statville (2)

• b1 et b2 sont statistiquement significatifs • « expérience » devient statistiquement significative (à 10%)

⇒ spécification parabolique semble justifiée

Page 32: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 32 / 50

40000

44000

48000

52000

56000

25 30 35 40 45 50 55

âge

reve

nu

Exemple Statville (3)

• Prédictions impliquées par les coefficients estimés pour une personne avec dix ans d’expérience : ( ) 2

2 1 1ˆ 10 3932.6 2077.5 * 22.1* 98 *10y x x x= = + − +

• Prédiction de l’âge auquel le revenu est maximal, max

1x :

max1 2 1

1

ˆ2 0

yb b x

x∂ = + =∂

∴ max1 1 22x b b= −

∴ ( )max1

2077.547

2 * 22.1x

−= =−

Page 33: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 33 / 50

Variables indépendantes binaires

• Une variable indépendante binaire (aussi : variable « muette », « indicatrice », ou « dummy ») ne prend que deux valeurs : 0 ou 1 .

• Les variables binaires sont utilisées pour distinguer deux niveaux mutuellement exclusifs des valeurs d’une variable quantitative ou qualitative. Quelques exemples : o dimension temporelle : bonne/mauvaise conjoncture ; été/non-

été ; avant/après campagne publicitaire… o dimension spatiale : nord/sud ; ville/campagne ;

Suisse/étranger… o variables qualitatives : homme/femme ; employé/non-employé… o variables quantitatives groupées : ménages à plus/moins de

50000 de revenu ; firmes avec plus/moins de 10 employés… • Le niveau pour laquelle la variable binaire est définie comme égale

à zéro, est appelée le « niveau de référence ».

Page 34: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 34 / 50

ind. revenu âge expérience femme1 52125.0 48.1 5.5 12 50955.9 38.7 2.5 03 53382.9 48.6 18.9 14 51286.9 37.5 13.5 05 55243.6 54.7 25.5 16 53384.7 40.7 7.3 07 53488.2 50.1 2.3 08 54134.1 45.9 18.8 19 52706.4 55.9 19 1

10 42144.3 25.1 5.5 011 52665.2 36.9 5 012 51656.7 34.5 15.5 0

Moyenne 51931.2 43.1 11.6 0.42Ecart type 3314.9 9.1 7.8 0.51

Exemple Statville (4)

• Le syndic cherche à savoir si, au-delà de l’âge et de l’expérience (càd « en contrôlant pour » x1,

21x et x2), le sexe des travailleurs

influence leur salaire moyen. Il définit alors la variable muette x3 suivante : o individu i est une femme ⇔ x3 = 1 o individu i est un homme ⇔ x3 = 0 (niveau de référence)

Page 35: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 35 / 50

Statistiques de la régressionCoefficient de détermination multiple 0.973087042Coefficient de détermination R^2 0.946898391Coefficient de détermination R^2 0.916554614Erreur-type 957.5655371Observations 12

ANALYSE DE VARIANCE

Degré de liberté Somme des carrés Moyenne des carrés FValeur critique de

FRégression 4 114453940.8 28613485.21 31.2056868 0.000148858Résidus 7 6418522.304 916931.7578Total 11 120872463.1

Coefficients Erreur-type Statistique t ProbabilitéLimite inférieure

pour seuil de confiance = 95%

Limite supérieure pour seuil de

confiance = 95%Constante 3468.379446 5685.929397 0.609993407 0.56113791 -9976.707094 16913.46599âge 2038.603283 278.4121524 7.322249642 0.00015968 1380.263156 2696.943411âge^2 -20.82811623 3.417246482 -6.094999684 0.00049351 -28.90862013 -12.74761233expérience 148.3984189 49.86108402 2.976237317 0.02062455 30.49569049 266.3011474femme -2054.157981 993.7297586 -2.067119318 0.07754583 -4403.955467 295.6395053

Exemple Statville (5)

• En moyenne, une femme gagne 2054.2 francs de moins qu’un

homme du même âge et avec le même nombre d’années d’expérience.

• Cet effet est statistiquement significatif au seuil de 10% mais non au seuil de 5%.

Page 36: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 36 / 50

40000

44000

48000

52000

56000

25 30 35 40 45 50 55âge

reve

nu

femmes

hommes

40000

44000

48000

52000

56000

25 30 35 40 45 50 55âge

reve

nu

femmes

hommes

Exemple Statville (6)

• Prédictions impliquées par les coefficients estimés o pour une femme avec dix ans d’expérience : ( ) 2

2 3 1 1ˆ 10, 1 3468 2038.6 * 20.8 * 148 *10 2054.2y x x x x= = = + − + − o pour un homme avec dix ans d’expérience : ( ) 2

2 3 1 1ˆ 10, 0 3468 2038.6 * 20.8 * 148 *10y x x x x= = = + − +

b3 = 2054.2

Page 37: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 37 / 50

Exemple Statville (7) • Plutôt qu’estimer les paramètres du modèle de régression (des

corrélations conditionnelles ), le syndic pourrait s’intéresser aux corrélations « pures » ˆklρ entre toutes les paires de variables indépendantes kl (les corrélations inconditionnelles ).

→ examiner la matrice de corrélation

• Excel : Outils - Utilitaire d’analyse – Analyse de corrélation – Intitulés en première ligne

revenu âge âge^2 expérience femmerevenu 1âge 0.765032264 1âge^2 0.69672771 0.993137906 1expérience 0.411455189 0.482058499 0.50549735 1femme 0.422675732 0.738416719 0.75563342 0.667095592 1

!

Page 38: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 38 / 50

Variables binaires pour niveaux multiples

• Des variables indépendantes binaires peuvent aussi servir pour représenter des variables qualitatives ou des variables quantitatives groupées avec C >>>> 2 niveaux . Dans ce cas on crée C − 1 variables binaires, une pour chaque niveau sauf un, appelé « catégorie de référence ».

• Exemple Statville : Trois tranches d’âge

o 0 − 30 : 1 20 ; 0x x= = o 31 − 55 : 1 21 ; 0 x x= = o 56 − 65 : 1 20 ; 1x x= =

⇒ β0 est le salaire moyen des jeunes (0 − 30) ⇒ β1 est la différence entre le salaire moyen du groupe des 31 à

55 par rapport à celui des jeunes. ⇒ β2 est la différence entre le salaire moyen du groupe des 56 à

65 par rapport à celui des jeunes.

( ) 0 1 1 2 2E y x xβ β β= + +

Page 39: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 39 / 50

Spécifications logarithmiques (1)

• Un modèle non linéaire mais « intrinsèquement linéaire » est

l’équation Cobb-Douglas , 1

k

K

kk

y a xβ

== ∏ , souvent utilisée en

microéconomie pour représenter l’origine des courbes d’offre (fonction de production) et de demande (fonction d’utilité).

→ version stochastique (K = 2) : 1 2

1 2y ax x eβ β ε= , où ε satisfait les cinq hypothèses du modèle des MCO

• Ce modèle devient linéaire quand on le transforme en logarithmes naturels : 0 1 1 2 2ln ln lny x xβ β β ε= + + + , où β0 = lna.

o Puisque pour estimer ce modèle on transforme la variable dépendante ainsi que les variables indépendantes, on parle de la « double transformation logarithmique » ou de la « spécification log-log ».

Page 40: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 40 / 50

Spécifications logarithmiques (2) • Un grand atout de la spécification log-log est que les coefficients

estimés peuvent être interprétés comme des élasticités . On parle donc aussi du « modèle à élasticité constante ».)

o élasticité de y par rapport à xk : lnln

kk

kk k

k

yxy yy

xx y xx

β∂

∂ ∂ = = = ∂∂ ∂

o Tout comme les coefficients standardisés, les coefficients d’un modèle log-log peuvent être comparés à travers les variables indépendantes k, puisque par définition les élasticités sont toutes exprimées dans les mêmes unités (càd en termes de déviations en pourcentage de y et de xk).

( ) ( )ln 1 ln

y yy

y y y∂ ∂= ⇒ = ∂

Page 41: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 41 / 50

Spécifications logarithmiques (3) • Un autre modèle « intrinsèquement linéaire » est donné par

0 1 1 2 2 ... k kx x xy eβ β β β+ + + += .

→ version stochastique (K = 2) : 0 1 1 2 2x xy eβ β β ε+ + += , où ε satisfait les cinq hypothèses du modèle des MCO

• Ce modèle devient linéaire quand on le transforme en logarithmes naturels : 0 1 1 2 2ln y x xβ β β ε= + + + .

o Puisque pour estimer ce modèle on ne transforme que la variable dépendante, on parle de la « spécification semi-logarithmique ».

Page 42: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 42 / 50

Spécifications logarithmiques (4)

• Les paramètres d’une telle spécification sont des semi-elasticités : il représentent la variation en pourcentage de la variable dépendante par rapport à une variation d’une unité de la variable indépendante en question. Puisque ces semi-elasticités dépendent des unités de mesure des variables indépendantes, elle ne sont pas directement comparables à travers les différentes variables indépendantes.

• La spécification semi-logarithmique est utilisée en macroéconomie afin de modéliser des taux de croissance stables :

o Soit 0 1xy eβ β ε+ += , où y est un agrégat économique (PIB, niveau des prix,…), et x est la variable « temps » (en mois, trimestres, années,…).

o Alors 1lnd ydx

β = est le taux de croissance moyen de y.

Page 43: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 43 / 50

Statistiques de la régressionCoefficient de détermination multiple 0.825687981Coefficient de détermination R^2 0.681760643Coefficient de détermination R^2 0.649936707Erreur-type 0.04086423Observations 12

ANALYSE DE VARIANCEDegré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F

Régression 1 0.035773766 0.035773766 21.422889 0.000938341Résidus 10 0.016698853 0.001669885Total 11 0.052472619

Coefficients Erreur-type Statistique t ProbabilitéLimite inférieure pour seuil

de confiance = 95%Limite supérieure pour

seuil de confiance = 95%Constante 9.92017321 0.202446229 49.00152131 3.025E-13 9.469094904 10.37125152ln(âge) 0.25009325 0.054033481 4.628486685 0.00093834 0.129699151 0.370487348

Exemple Statville (8)

• Spécification log-log (régression simple) : ln(revenu) = β0 + β1*ln(âge) + ε

→ par pourcent d’âge supplémentaire, le revenu moyen augmente de 0.25 pourcent

→ R-carré (0.68) plus élevé que dans la régression avec y et x non transformées (0.59, voir ch. 4.2.4) ⇒ spécification log-log (non-linéaire) mieux ajustée aux données

Page 44: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 44 / 50

Exemple Statville (9)

• Spécification semi-logarithmique (régression simple) : ln(revenu) = β0 + β1*âge + ε

→ par année d’âge supplémentaire, le revenu moyen augmente de 0.57 pourcent

→ R-carré (0.57) moins élevé que dans la régression avec y et x non transformés (0.59, voir. ch. 4.2.4) ⇒ spécification semi-logarithmique moins bien ajustée aux données

Statistiques de la régressionCoefficient de détermination multiple 0.756007595Coefficient de détermination R^2 0.571547483Coefficient de détermination R^2 0.528702231Erreur-type 0.047415214Observations 12

ANALYSE DE VARIANCEDegré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F

Régression 1 0.029990593 0.029990593 13.3398092 0.004444832Résidus 10 0.022482026 0.002248203Total 11 0.052472619

Coefficients Erreur-type Statistique t ProbabilitéLimite inférieure pour seuil

de confiance = 95%Limite supérieure pour

seuil de confiance = 95%Constante 10.60757468 0.069273957 153.1249996 3.4657E-18 10.45322269 10.76192668âge 0.005758884 0.001576753 3.652370354 0.00444483 0.002245661 0.009272108

Page 45: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 45 / 50

15000

25000

35000

45000

55000

0 10 20 30 40 50 60âge

reve

nu

Exemple Statville (10)

ˆ 39885 279.7y x= +

( )( )ˆ exp 9.92 0.25 * lny x= +ˆ exp(10.61 0.006 )y x= +

Page 46: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 46 / 50

Interactions (1) • L’équation de régression linéaire multiple implique des effets isolés

de chaque variable indépendante : kk

yk

xβ∂ = ∀

• En ajoutant des produits de variables indépendantes (« termes d’interaction »), on peut modéliser des interdépendances entre les effets des variables indépendantes :

0 1 1 2 2 3 1 2y x x x xβ β β β ε= + + + +

⇒ 1 3 21

yx

xβ β∂ = +

∂, 2 3 1

2

yx

xβ β∂ = +

Page 47: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 47 / 50

Interactions (2) • 1β (β2) représente l’effet de x1 (x2) sur y quand x2 (x1) est égal à

zéro. Puisque une valeur de zéro n’est souvent pas très réaliste ou informative (p.ex. dans une estimation des déterminants salariaux), on estime souvent une spécification transformée :

( ) ( )0 1 1 2 2 3 1 1 2 2y x x x x x xβ β β β ε= + + + − − +ɶ ɶ .

1βɶ ( 2βɶ ) est alors l’effet de x1 (x2) sur y quand x2 (x1) prend sa valeur moyenne.

• Si x1 est une variable continue et x2 une variable binaire, alors β2 représente le déplacement de l’intercept, et β3 représente le changement de la pente de y par rapport à x1, quand x2 passe de 0 à 1.

Page 48: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 48 / 50

ind. commune revenu âge âge*commune1 0 52125.0 48.11629 02 0 50955.9 38.7 03 0 53382.9 48.6 04 0 51286.9 37.5 05 0 55243.6 54.7 06 0 53384.7 40.7 07 0 53488.2 50.1 08 0 54134.1 45.9 09 0 52706.4 55.9 010 0 42144.3 25.1 011 0 52665.2 36.9 012 0 51656.7 34.5 0

moyenne 0 51931.2 43.1 0écart type 0 3314.9 9.1 0

13 1 52115.3 42.4 42.414 1 44234.5 36.5 36.515 1 55381.3 42.7 42.716 1 56091.4 41.1 41.117 1 52160.0 33.9 33.918 1 46920.1 35.9 35.919 1 49522.2 34.7 34.720 1 53446.7 44.1 44.121 1 50557.1 28.5 28.522 1 51202.0 48.7 48.723 1 51905.6 49.8 49.824 1 46352.9 25.4 25.4

moyenne 1 49977.9 38.6 38.6écart type 0 3576.0 7.5 7.5

Exemple Statland (1) • Les syndics de Statville et

Statdorf cherchent à savoir si les salaires moyens croissent à un rythme différent avec l’âge dans leurs deux communes.

• Ils collectionnent des données pour des échantillons aléatoires simples dans les deux communes (n = 12).

Page 49: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 49 / 50

Statistiques de la régressionCoefficient de détermination multiple 0.655120807Coefficient de détermination R^2 0.429183271Coefficient de détermination R^2 0.343560762Erreur-type 2769.816554Observations 24

ANALYSE DE VARIANCEDegré de liberté Somme des carrés Moyenne des carrés F Valeur critique de F

Régression 3 115366070.9 38455356.96 5.012505176 0.009414488Résidus 20 153437674.8 7671883.742Total 23 268803745.7

Coefficients Erreur-type Statistique t ProbabilitéLimite inférieure pour seuil

de confiance = 95%Limite supérieure pour

seuil de confiance = 95%Constante 39885.01609 4046.721199 9.856131452 4.03454E-09 31443.70361 48326.32857commune 1476.081811 5953.907628 0.247918158 0.80672532 -10943.55183 13895.71546âge 279.6979321 92.10788803 3.036633865 0.006515058 87.56424498 471.8316191âge*commune -34.74704321 144.3440856 -0.240723706 0.812219723 -335.8435288 266.3494424

Exemple Statland (2)

• revenu = β0 + β1*commune + β2*âge + β3*âge*commune + ε, où commune = 0 ⇔ Statville ; commune = 1 ⇔ Statdorf

⇒ 1 279.7 34.7 245revenu

communeâge

∂ = = − = ∂

(différence non significative du point de vue statistique)

Page 50: (Cours régression)

Statistique 1e année bachelor, 2009-10

Chapitre 4.3 Régression linéaire multiple 50 / 50

42000

44000

46000

48000

50000

52000

54000

56000

25 30 35 40 45 50 55 60

âge

reve

nu

revenu estimé: Statville

revenu estimé: Statdorf

revenu observé: Statville

revenu observé: Statdorf

Exemple Statland (3)