Regressão Linear - Introduçãofiles.cfleiria.webnode.com/200000015-45ed446e79/SPSS - Slides... ·...
Transcript of Regressão Linear - Introduçãofiles.cfleiria.webnode.com/200000015-45ed446e79/SPSS - Slides... ·...
1
Regressão Linear - Introdução
•Na análise de regressão linear pretende-se estudar e modelar a relação (linear) entre duas ou mais variáveis.
• Na regressão linear simples relacionam-se duas variáveis, x e Y, através do modelo linear
À variável Y chama-se variável dependente e à variável x variável independente ou explicativa.
Exemplos:1º) O número de horas de estudo poderá está relacionado com a nota obtida pelo aluno. As horas de estudo é a variável independente (x) e a nota obtida será a variável dependente (Y).
2º) A relação entre o nº de fogos florestais (Y) e a temperatura máxima mensal (x).
2
Regressão Linear - Introdução
• Na regressão linear múltipla pretende-se relacionar uma variável dependente Y com diversas variáveis independentes x1, x2, …, xk
através do modelo linear
Exemplos:1º) O peso de uma pessoa depende da sua altura, mas certamente também dependerá da sua idade, densidade dos ossos e perímetro da cintura. 2º) O consumo de energia dependerá da temperatura mas também dependedo preço da electricidade.
kk xxxY ββββ ++++= ...22110
3
Regressão Linear Simples - Correlação
O ponto de partida da análise da regressão linear deve ser o estudo da existência (ou não) de uma relação linear entre as variáveis. Para estudar a relação entre duas variáveis existem métodos:
- gráficos: diagramas de dispersão- numéricos: coeficiente de correlação de pearson
Método gráfico: Os diagramas de dispersão consistem na representação gráfica dos pares ordenados (xi;Yi) num sistema de eixos cartesianos, de modo a observamos uma nuvem de pontos correspondentes à amostra obtida. Quanto mais os pontos representados se ajustarem a uma recta, melhor será a relação linear entre as variáveis.
4
Regressão Linear Simples - Correlação
Exemplo: Num estudo realizado a 10 pessoas registaram-se as suas idades e os níveis de colesterol, tendo-se obtido:
20 30 40 50 60 70
idade
1,60
2,00
2,40
2,80
cole
ster
ol
Idade Colesterol30 1,6060 2,5040 2,2020 1,4050 2,7030 1,8040 2,1020 1,5070 2,8060 2,60
Diagrama
de dispersão:
De uma forma intuitiva podemos concluir que parece existir uma relação linear entre as variáveis, que matematicamente se traduzirá através de uma recta.
5
Regressão Linear Simples - Correlação
Através dos seguintes gráficos pode-se concluir que:
Y
xHá uma forte correlação linear positiva.
Y
xHá uma forte correlação linear negativa.
Y
xHá uma fraca correlação linear.
6
Regressão Linear Simples - Correlação
Método numérico: O coeficiente de correlação (amostral), ou coeficiente de correlação linear de Pearson, é uma medida habitual do grau de associação linear das variáveis:
( )( )
( ) ( ) YYXX
XY
n
i
n
iii
n
iii
SQSQSQ
yyxx
yyxxR =
∑ ∑ −−
∑ −−=
= =
=
1 1
22
1
onde SQXY, SQXX e SQYY também podem ser definidos por:
( )( )2
2
11
2
11
2
111 1
11
∑−∑=
∑−∑=∑∑−∑=
==
==
=== n
ii
n
iiYY
n
ii
n
iiXXn
ii
n
ii
n
iiiXY
yn
ySQ
xn
xSQyx
nyxSQ
7
Regressão Linear Simples - Correlação
Interpretação do coeficiente de correlação (amostral):
• Este coeficiente varia entre -1 e 1:
• Quanto maior for o valor absoluto de R, mais forte será a associação linear entre as variáveis. Se R estiver próximo de zero então as variáveis serão não correlacionadas.
• Se R for positivo então a relação linear é positiva (x e Y variam no mesmo sentido) e se R for negativo a relação linear é negativa (x e Yvariam em sentidos opostos).
• Se R for igual a 1 ou -1 a relação linear será perfeita!
11 ≤≤− R
-1 -0,8 0,8 10
Forte correlação linear positiva
Forte correlação linear negativa
Fraca correlação linear
8
Regressão Linear Simples – O modelo
Objectivo: Quando existe uma forte correlação entre as variáveis em estudo qual é a melhor relação linear entre as elas?
Método dos mínimos quadrados:
Um dos métodos mais utilizados para estimar a recta que melhor se ajusta aos valores observados é o método dos mínimos quadrados. Este método consiste em determinar os valores de e queminimizam a soma do quadrado dos erros (desvios dos valores observados Yi dos valores obtidos pelo modelo ).
ℜ∈+= 1010ˆ,ˆ;ˆˆˆ ββββ xY
0β 1β
iY
9
Regressão Linear Simples – O modelo
Y
xix
iY
iY iexY 10
ˆˆˆ ββ += Os valores de e que minimizam a soma do quadrado dos erros
são dados por:
0β 1β
( )∑ −−=∑===
n
iii
n
iiE xYeSQ
1
2
101
2 ˆˆ ββ
xYSQSQ
XX
XY101
ˆˆeˆ βββ −==
10
Regressão Linear Simples – O modelo
Exemplo: Pegando novamente no exemplo das variáveis Idade/Colesterol, verifica-se que:
Idade Colesterol30 1,6060 2,5040 2,2020 1,4050 2,7030 1,8040 2,1020 1,5070 2,8060 2,60
Coefficientsa
,924 ,142 6,516 ,000,028 ,003 ,955 9,071 ,000
(Constant)Idade
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Colesterola.
– ordenada na origem
– declive da recta
92400 ,^
=β
02801 ,^=β
969;4.47;20400
2.21;42010
1
10
1
210
1
2
10
1
10
1
=∑=∑=∑
=∑=∑
===
==
ii
ii
ii
i
ii
ii
yxyx
yx
11
Regressão Linear Simples – O modelo
Sendo a recta de regressão dada por:
Idade*,,Colesterol 02809240 +=
12
Regressão Linear Simples – Avaliação do modelo
Estando o modelo de regressão linear estabelecido torna-se necessário avaliar a sua qualidade. Para isso existem vários métodos, gráficos e numéricos:
• Coeficiente de determinação
• Análise de resíduos
•Teste ao declive da recta
13
Regressão Linear Simples – Avaliação do modelo
Coeficiente de determinação – R2:
• É uma medida da proporção da variabilidade de Y explicada pelo modelo de regressão linear, já que consiste na razão entre a soma dos quadrados dos resíduos e a soma dos quadrados total.
• Por definição, o coeficiente de determinação é:
T
R
YYXX
XY
SQSQ
SQSQSQR ==
2
2
( ) ( )2
1
2
1eˆ ∑ −=∑ −=
==
n
iiT
n
iiR YYSQYYSQ
onde já foram definidos anteriormente e se tem: YYXXXY SQSQSQ e,
14
Regressão Linear Simples – Avaliação do modelo
• O coeficiente de determinação é simplesmente o quadrado do coeficiente de correlação amostral.
• R2 só pode assumir valores entre 0 e 1:
• Em geral, se a relação entre x e Y for fortemente linear R2 deve assumir um valor próximo de 1 (superior a 0.9).
• No entanto, se R2 estiver próximo de zero deve-se ter cuidado com as conclusões a tirar. Pode não significar que o modelo de regressão linear esteja desajustado.
10 2 ≤≤ R
15
Model Summary
,955a ,911 ,900 ,16493Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), Idadea.
Coeficiente de correlação
Coeficiente de determinação
Exemplo: Considerando novamente no exemplo das variáveis Idade/Colesterol, verifica-se que :
Regressão Linear Simples – Avaliação do modelo
logo .
6.78;456.2;2769 === XYYYXX SQSQSQ
911.0e955.0 2 == RR
No SPSS:
16
Regressão Linear Simples – Avaliação do modelo
Análise dos resíduos:
• Este método de análise da qualidade do modelo de regressão consiste em representar graficamente os valores preditos versus resíduos, .
• Se ajustamento for bom, os pontos representados não devem apresentar qualquer correlação ou padrão: devem ser normais, comvariância constante e independentes.
• O diagrama de resíduos deve apresentar uma mancha de pontos aleatórios e com a mesma dispersão em torno do eixo dos xx.
( )ii eY ;ˆ
17
Regressão Linear Simples – Avaliação do modelo
Exemplo: No exemplo que tem sido considerando, efectuando as previsões e calculando os erros correspondentes obtém-se:
30 1,6 1,76 -0,16
60 2,5 2,60 -0,10
40 2,2 2,04 0,16
20 1,4 1,48 -0,08
50 2,7 2,32 0,38
30 1,8 1,76 0,04
40 2,1 2,04 0,06
20 1,5 1,48 0,02
70 2,8 2,88 -0,08
60 2,6 2,60 0,00
ix iYiY iii YYe ˆ−=
18
Regressão Linear Simples – Avaliação do modelo
Teste ao declive da recta:
• Esta análise da qualidade de ajustamento do modelo de regressãolinear é no fundo a resposta à questão:
Será que Y depende mesmo de x?
• Para responder a esta pergunta realiza-se o teste de hipóteses:
A forma mais simples de se tomar uma decisão é usando a estatística e o p-value que resultam da tabela ANOVA.
• Deve-se rejeitar a hipótese nula, e portanto assumir que x influencia Y, se o p-value for baixo (menor do que 0.05).
0:0: 1110 ≠= ββ HvsH
E
R
MQMQ
F =
19
Regressão Linear Simples – ANOVA
ANOVA – Analysis of Variance
• A análise da variância, num modelo de regressão linear, consiste em separar a variabilidade das observações em duas parcelas: variabilidade devida à regressão e a variabilidade residual.
( ) ( ) ( )∑ −+∑ −=∑ −===
n
iii
n
ii
n
ii YYYYYY
1
2
1
2
1
2 ˆˆ
ERT SQSQSQ +=
• O significado da regressão é tanto maior quanto maior for SQR e menor for SQE.
• Usualmente esta informação é agrupada numa tabela: tabela ANOVA.
20
Regressão Linear Simples – ANOVA
Tabela ANOVA
n – 1SQTTotal
n – 2SQEResidual
MQR = SQR1SQRRegressão
Desvios Quadráticos
Médios
Graus de Liberdade
(Nº de variáveis independentes)
Variações
(Somas dos desvios
quadráticos)
Fontes de variação
2−=
nSQ
MQ EE
21
Regressão Linear Simples – ANOVA
Exemplo: A tabela ANOVA do exemplo das variáveis Idade/Colesterol é dada (no SPSS) por:
ANOVAb
2,238 1 2,238 82,291 ,000a
,218 8 ,0272,456 9
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), Idadea.
Dependent Variable: Colesterolb.
Conclusão:
• A estatística F toma o valor 82,291 e o p-value do teste é nulo. Por assumir um valor baixo, pode-se concluir que faz sentido utilizar um modelo de regressão linear entre estas variáveis.
( )027,0/238,2≈
22
Regressão Linear Múltipla – O modelo
Um modelo de regressão linear múltipla descreve a relação (linear) entre um conjunto de variáveis independentes, X1,X2,…,Xk, e uma variável dependente Y:
kk xxxY ββββ ++++= ...22110
• Para estimar coeficientes do modelo, , pode-se aplicar novamente o método dos mínimos quadrados e minimizar a soma do quadrado dos erros:
kβββ ,...,, 10
( )∑ ++−−==
n
ikikii xxYSQE 1
2
110ˆ...ˆˆ βββ
23
Regressão Linear Múltipla – O modelo
• Após a realização dos cálculos adequados, os estimadores dos coeficientes são dados pelas soluções das igualdades:
onde .
kk
YXXXkXX
YXXXkXX
xxY
SQSQSQ
SQSQSQ
kkkk
k
βββ
ββ
ββ
ˆ...ˆˆ
ˆ...ˆ...
ˆ...ˆ
110
1
1
1
1111
−−−=
=++
=++
( ) ∑∑−∑=∑ −=i iq
i ipi iqip
i iqipqXpX XXn
XXXXSQ 12
24
Regressão Linear Múltipla – O modelo
Exemplo: Supondo agora que o nível de colesterol numa pessoa depende da sua idade e também do seu peso, registou-se o peso das 10 pessoas analisadas anteriormente.
Idade Peso Colesterol30 57 1,6060 65 2,5040 78 2,2020 67 1,4050 72 2,7030 63 1,8040 84 2,1020 64 1,5070 59 2,8060 68 2,60
Coefficientsa
,188 ,411 ,458 ,661,029 ,003 ,958 10,438 ,000,011 ,006 ,172 1,878 ,103
(Constant)idadepeso
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: colesterola.
21 011.0029.0188.0ˆ xxY ++=
Considerando x1 como sendo a variável Idade e x2 a variável Peso, o modelo é:
25
Regressão Linear Múltipla – Avaliação do modelo
Novamente existem diversos métodos para analisar a qualidade de ajustamento do modelo de regressão linear múltipla e a sua significância:
• Coeficiente de determinação (ajustado)
• Análise gráfica das previsões e dos resíduos
• Teste ao significado da regressão
26
Regressão Linear Múltipla – Avaliação do modelo
Coeficiente de determinação (ajustado):
• O coeficiente de determinação, para a regressão múltipla, é definido de forma análoga ao da regressão simples:
• Tal como anteriormente se o ajustamento do modelo for bom, R2
estará próximo de 1.
No entanto:• Na regressão múltipla já não se tem o quadrado de nenhum coeficiente de correlação.
• Ao introduzirmos novas variáveis independentes no modelo o valor de R2 aumenta, o que pode induzir em erro uma vez que muitas variáveis pode não significar um melhor modelo. Para contornar o problema é usual considerar o coeficiente de determinação ajustado.
T
R
SQSQR =2
27
Regressão Linear Múltipla – Avaliação do modelo
O coeficiente de determinação ajustado define-se pela expressão:
onde k representa o nº de variáveis independentes no modelo.
( )( ) T
Ea SQkn
SQnR
11
12
−−−
−=
Model Summaryb
,970a ,941 ,924 ,14379Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), peso, idadea.
Dependent Variable: colesterolb.
Exemplo: No exemplo anterior tem-se R2 = 0.924, o que representa boas indicações quanto à qualidade do modelo.
28
Regressão Linear Múltipla – Avaliação do modelo
Análise gráfica:
• Como o modelo de regressão múltipla é uma hipersuperfície, nem sempre é possível verificar simultaneamente o comportamento de Y em função das diversas variáveis independentes. Normalmente analisa-se a relação entre Y e cada uma das variáveis x individualmente, através dos respectivos diagramas de dispersão.
• Um outro método gráfico muito utilizado consiste em representargraficamente as observações versus os valores previstos . Se o modelo for adequado, os valores previstos devem estar próximos dos observados e portanto o diagrama de dispersão deve conter todos os pontos próximos da recta .
iYiY
xY =
29
Regressão Linear Múltipla – Avaliação do modelo
Exemplo: No exemplo anterior verifica-se que os pontos estão próximos da recta , o que sugere que o modelo considerado não será desajustado.
xY =( )
ii YY ˆ;
ColesterolObservado Previsto
1,60 1,662,50 2,612,20 2,171,40 1,482,70 2,401,80 1,732,10 2,241,50 1,452,80 2,832,60 2,64
iYiY
30
Regressão Linear Múltipla – Avaliação do modelo
• A análise dos resíduos é completamente análoga à da regressão linear simples: quanto mais aleatória for a disposição dos pontos em torno do eixo das abcissas melhor será a qualidade do modelo.
( )ii eY ;ˆ
Exemplo: Ao lado encontra-se
representado o diagrama dos
resíduos do exemplo anterior.
31
Regressão Linear Múltipla – Avaliação do modelo
Teste ao significado da regressão:
• Pretende-se com esta análise testar se tem significado considerar no modelo de regressão todas as variáveis independentes x1,…,xk. As hipóteses a considerar são:
• Mais uma vez deve-se usar a estatística e o p-value que decorre da tabela ANOVA para tomar uma decisão.
• Rejeita-se a hipótese nula, e assume-se que há variáveis independentes a influenciar Y, se o p-value for baixo (≤ 0.05).
0Algum:0...: 110 ≠=== jk HvsH βββ
E
R
MQMQ
F =
32
Regressão Linear Múltipla – ANOVA
A interpretação da tabela ANOVA é análoga ao caso da regressão simples e no contexto da regressão linear múltipla é dada por:
n – 1SQTTotal
n – k – 1SQEResidual
kSQRRegressão
Desvios Quadráticos
Médios
Graus de Liberdade
(Nº de variáveis independentes)
Variações
(Somas dos desvios
quadráticos)
Fontes de variação
kSQ
MQ RR =
1−−=
knSQ
MQ EE
33
Regressão Linear Múltipla – ANOVA
Exemplo: A tabela ANOVA do exemplo considerado é dada por:
Como o p-value do teste é zero, poderá fazer sentido utilizar um modelo de regressão linear com todas estas variáveis independentes.
ANOVAb
2,311 2 1,156 55,897 ,000a
,145 7 ,0212,456 9
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), peso, idadea.
Dependent Variable: colesterolb.