Analyse de régression multiple

ANALYSE DE RÉGRESSION LINÉAIRE MULTIPLE

Université Larbi Ben M’hidi, Oum El Bouaghi, AlgérieFaculté des sciences de la terre et de l’architecture

Prof. Adad Mohamed Chérif 2017

y= a₁x₁ + a₂x₂ + a₃x₃ +...+ apxp + b + Ɛ

la relation doit être linéaire Les variables explicatives (variables indépendantes) et la variable à expliquer (variable

dépendante) sont indépendantes Les variables explicatives sont indépendantes entre elles. Les variables indépendants ne doivent pas avoir de relation linéaire parfaite elles

( pas de multicolinéarité parfaite) la distribution de la variable à expliquer y et les variables explicatives x₁, x₂, x₃,…..xp

suivent une loi normale dans le cas où l’une de ces dernières est continue. Un bon modèle de régression comprend un nombre optimal de variables indépendantes,

cela signifie qu’il faut prendre les meilleurs variables indépendante en vue d’une prédiction fiable.

Le modèle doit prendre en compte des variables énoncées dans les objectifs Une variable indépendante pourrait être exclue du modèle si le degré d’association avec

la variable indépendante n’est pas assez fort.

Conditions d’utilisation de l’analyse de régression linéaire multiple

Principes de l’analyse de régression

y= a₁x₁ + a₂x₂ + a₃x₃ +...+ apxp + b + Ɛ

x₁

x₂

x₃

xp

YVariable

dépendante

VI 1

VI 2

VI 3

VI P

• Il est possible d’utiliser l'équation de régression pour pouvoir prédire les données de la variable dépendante dont les mesures n'ont pas encore été obtenues ou pourraient être difficiles à obtenir.

La régression nous donne un pas au-delà de la corrélation qui s’intéresse seulement à la force de l'association, mais nous voulons être en mesure de décrire sa nature avec une précision suffisante pour pouvoir faire des prédictions, Pour être en mesure d’accomplir cette tache, nous devons être capables de définir les variables indépendantes et la variable dépendante dans le cas de la régression multiple. Cette dernière est plus complète et plus sophistiquée.

L'objectif général de la régression multiple est de tester la relation qui existe entre plusieurs variables indépendantes (quantitatives et/ou qualitatives ) et une variable dépendante (quantitative et continue) .

VI= Variable Indépendante

YVariable

dépendante VI

Simple régression

Multiple régression

Y= ax + b

Relations entre VI à éviter

Pour atteindre cet objectif, on doit se référer à l’équation de régression.

a₁ : la pente de la variable 1a₂ : la pente de la variable 2a₃ : la pente de la variable 3ap : la pente de la variable px₁ : la variable indépendante 1x₂ : la variable indépendante 2x₃ : la variable indépendante 3xp : la variable indépendante pb: la constanteƐ : erreur y: la variable dépendante

y= a₁x₁ + a₂x₂ + a₃x₃ +...+ apxp + b + Ɛ

En termes plus clairs, la relation entre x1, x2, x3…xp et y est matérialisée par une ligne droite dont les pentes sont « a₁, a₂, a₃, … ap » et la constante est b .

• Les variables x₁, x₂, x₃,….,xp = Variables explicatives continues ou

catégorielles (variables indépendantes) y = la seule variable à expliquer continue (variable

dépendante) . Y représente les valeurs possibles de la variable dépendante qui peuvent être expliquées par le modèle général de régression. Par contre Ɛ ne peut être expliquée par ce même modèle,

Cette équation de la droite exprime une relation linéaire entre x₁, x₂, x₃,..., xp et y, la valeur de la variable dépendante (y) est fonction de la valeur de la ou des variable(s) indépendante(s) (x), y=f(x).

•Régression multiple / 2 ou plusieurs variables indépendantes (x₁, x₂,x3,x4) sont associées à une seule variable dépendante (y) tel que

y= a₁x₁+ a₂x₂+ a3x3+ a4x4 + b 1ère exemple température intérieure (ti)=f[température extérieure (te) , humidité relative (H%), vitesse de l’aire, l’isolation thermique ]. ti= a₁(te)+ a₂(H%)+ a₃(va) + a4(it)+ b

Selon cette équation, la température intérieure dépend de la température extérieure, l’humidité relative , la vitesse de l’air et l’isolation thermique.

2ème exemple Revenu (y)= a₁ (expérience en année)+ a₂ ( niveau scolaire en année)+ b Le revenu, la variable à prédire, dépend de l’expérience au travail et le niveau scolaire (les variables prédicteurs).

Exemples de régression multiple

Les méthodes de régression

La méthode de régression nous guide versla manière d’introduire les variables dans le modèle de régression.

A- La régression hiérarchique

B- La régression avec entrée forcée : toutes les variables sont entrées simultanément. C- La régression avec entrée progressive:

1. la méthode pas-à-pas (stepwise)2. descendante (backward): la variable ayant la plus faible contribution au

modèle est éliminée du modèle automatiquement si la variation du R2 n’est pas significative.

3. la méthode ascendante (forward) Habituellement, la méthode Entrée est utilisée à moins d'a priori théoriques particuliers. (a première variable indépendante soit incluse dans le modèle).

Analyse de régression multiple

Nous allons donc voir maintenant comment il est possible de prédire la variance d’une variable dépendante y à l’aide d’une combinaison linéaire de variables indépendantes x1, x2, x3,…..xp

Hypothèse nulle

L’hypothèse nulle: il n’y a pas de relation linéaire entre la combinaison des variables prédicteurs (x1, x2, x3… xp) et la variable à prédire (Y).

Hypothèse alternative

L’hypothèse alternative (ou de recherche): l’association combinée des variables indépendantes est statistiquement significative à la variable dépendante (l’observation).

Dans notre cas d’étude

Variable dépendante y (Résultat)La moyenne d'espérance de vie d'un homme

Variable indépendant x1 Les personnes qui lisent (%)

Variable indépendant x2Apport calorique quotidien

Variable indépendant x3Produit intérieur brut / capita

1 variable indépendante 3 variables indépendantes continues

L’hypothèse nulle Il n’y a pas de relation linéaire entre la combinaison des variables indépendantes « les personnes qui lient », «l’apport calorifique quotidien », «le produit intérieur brut » et la variable dépendante « la moyenne d’espérance de vie d’un homme ». L’hypothèse alternative Il y a une relation linéaire significative entre la combinaison des variables

indépendantes « les personnes qui lient », «l’apport calorifique quotidien », « le produit intérieur brut » et la variable dépendante « La moyenne de l’espérance de vie d’un homme ».

Utilisons l’analyse de régression multiple….

1

Données: World95.sav

…. dans le but de tester la relation qui pourrait exister entre les 3 variables prédicteurs ensemble pour prédire la moyenne de l’espère de vie d’un hommes.

Les variables indépendantes et la variable dépendante sont insérées séparément dans des boites différentes : la variable dépendante dans «Dépendant:» et les variables indépendantes dans « Variables indépendantes: »

Pour « la méthode de régression », Choisir « Entrée » , ici toutes les variables sont entrées simultanément. . C’est la méthode standard . Appuyez sur l’option « statistiques » et cocher comme indiquer puis poursuivre .

Mesure et corrélations partielles : Corrélation entre chaque VI et la VD. Corrélation partielle entre chaque VI et VD

Tests de colinéarité : évaluation de la multicolinéarité dans l’analyse (Variance Inflation Factor ). variables indépendantes ne doivent pas être parfaitement associées entre elles d’où les corrélations ne doivent pas être trop fortes ou la multicolinéarité parfaite n’est recommandée. Ceci est vérifié par le VIF. Si, arbitrairement, VIF<10, notre modèle est à l’abri de ce Qualité de l’ajustement: le test pour évaluer l’ensemble du modèle (F), le R multiple, le R2 correspondant et le R2 ajusté, Variation de R-deux: changement du R2 après l’ajout d’un

nouveau bloc de VI Estimations: la constante b pour toutes les variables

indépendantes et le test de signification Intervalles de confiance à 95%

2

Appuyez sur l’option « Diagrammes »- Insérer dans le camps Y * ZRESID (résiduel) - Insérer dans le champs X *ZPRED (Prédiction)- Diagramme de répartition gaussien- Poursuivre

Appuyez sur l’option « Options »

3

Cocher « Exclure seulement les composantes non valides », C-à-d que tout sujet, qui manque une des variables, qu’elle soit indépendant ou dépendante, sera exclu de l’analyse .

Pour l’option « Enregistrer », on garde ce qui est par défaut.

Cliquer sur OK,

4

Remarque: la version la plus simple de la régression multiple consiste à garder toutes les options telles qu’elles se présentent par défaut. En d’autres termes, ne rien toucher aux options, insérer uniquement les variables dans leurs champs correspondants. C’est une méthode assez acceptable pour la majorité des régressions multiples.

Ennnfin…

Cette analyse de corrélation ne fait pas parti du test de régression multiple. Dans ce tableau, le résultat de l’analyse de corrélation simple. Nous pouvons dire que la corrélation entre la VD et chaque VI est très forte (0.765,0.639, 0.809) et la relation est aussi très significative (.000 <0,05). Aussi les corrélation entre les VI ne sont pas très élévées , inférieur à 0.7 , sauf pour un seul cas.

3

Interprétation des résultats

Test de corrélation VD

VI

Analyse de corrélation simple entre la VD et chaque variable indépendante (VI)

5

Grâce à ce tableau, nous pouvons vérifier nos hypothèses , VD et les VI , si elles sont fortement corrélées ou non.

La base de données

Dans ce tableau, toutes les 3 VI sont indiquées.

Ce qui nous intéresse ici R et R² :R= coefficient de corrélation de la régression multiple . C’est l’association de toutes les variables indépendantes . Il est très élevé (0.862). Cela signifie que les VI prédisent la variable dépendante ( R est global, il se pourrait qu’une VI ne contribue pas au résultat, donc il faut voir le tableau « Coefficients » pour se rendre compte). R²=0.744 (=74.4%). Ce coefficient indique de combien les 3 VI ont agi sur la VD. Dans ce cas, les 3 VI ensembles expliquent la VD dans un fort pourcentage de 74.4.

La variable à prédire (VD)

6

Avec la très faible valeur de la probabilité, on peut dire que le modèle de régression s’adapte bien p-value=0.000 <0.05 et que la prédiction n’est pas due au hasard.

Tests de colinéarité : le VIF < 10 « Variance Inflation Factor », donc avec ces

mesures, nous pouvons dire que la multicolinéarité n’est pas de rigueur. Les variables indépendantes ne doivent pas être parfaitement associées entre elles. Cela est exigée par notre modèle.

La tolérance > 0.10, les valeurs indiquées sur le tableau sont supérieures à 0.10. Ces mesures aussi indiquent que la multicolinéarité n’est pas de rigueur.

Si une VI a ses indices non conformes à ce qui est exigé, alors il faut la supprimer ou la remplacer par une autre.

Dans la colonne A , nous avons la constante b=32.430 si x=0, et les pentes a1=0,005,a2=0.000, a3=0.215.

On peut faire appel à l’équation de régression multiple pour rédire les différente y de la VD.

Toutes les VI ont une relation significative avec VD , sauf VD , « Produit intérieur brut », Sig = 0.289 > 0,05. Cela signifie que cette variable ne contribue pas significativement à la prédiction du résultat obtenu (VD).

Aussi Bêta cette variable « Produit intérieur brut » est 0.098, cela signifie qu’il n’a pas de contribution de celle-ci à la prédiction du résultat, à l’inverse des 2 autres variables 0.330 et 0.529 (on fait abstraction du signe).

7

On continue notre interprétation

Une autre information utile les corrélations Corrélation partie de chaque VI: cela montre la contribution de chaque VI à la corrélation totale R (0.862, coefficient de la régression multiple indiquée dans le tableau « récapitulatif des modèles »). D’où si, par exemple, on retire la VI« Les personnes qui lisent » du modèle, la corrélation totale va diminuer. Ainsi, 0.386 [coefficient individuel (partie)] de la VI « Les personnes qui lisent »] retranché de 0.744, on aura donc 0.744 - 0.386= 0.358, d’où l’intensité de la corrélation totale a considérablement diminué, R²= 0.358 est sa nouvelle valeur. Les 2 VI restantes participent à la prédiction du résultat que de 35.8% . Aussi, si on porte 0.386 au carré (0.386)² =0.148 , cela signifie que cette corrélation individuelle participe à 14.8 % à l’explication du

résultat final (VD) « Moyenne d’espérance de vie d’un homme » . Il faut aussi noter que la somme des corrélations parties n’est pas égale à R² = 0,744 car la régression multiple prends en compte la

combinaison de toutes les VI prédire le résultat. Par ailleurs comme vous pouvez le voir R de la VI « Produit intérieur brut/capitat » est très significatif (0.639) qui dénote l’existence

d’une forte corrélation entre cette variable et la VD « Moyenne d’espérance de vie d’un homme » , prises séparément mais ce même R est très faible (0.065) dans le modèle de régression multiple , cela signifie que cette variable n’est plus significativement associée à dans le cadre de la régression multiple. Pourquoi ? la régression multiple prends en compte la combinaison de toutes les VI ensemble et non séparées pour prédire le résultat. Cela est une façon plus fiable en comparaison avec les VI prises séparément.

On peut dire à la fin que les 2 VI « Apport calorifique quotidien » (0.002 < 0.05) et « Les personnes qui lisent » (0.000 < 0.05) ont une contribution statistiquement significative à la prédiction des résultats alors que la VI « Produit intérieur brut » (0.289 > 0.05) n’a pas de contribution statistiquement significative au modèle . Aussi, le modèle tout entier a une corrélation multiple de 0.862 , ce qui est une grande valeur et une amélioration substantielle par rapport à la corrélation de chaque VI prise séparément. ( 0.91, 0.065, 0.386)

8

Merci pour votre attention

Prof. Adad Mohamed Chérif

Université d’Oum El Bouaghi Faculté des sciences de la terre et de l’architecture

Analyse de régression multiple

Education

Transcript of Analyse de régression multiple