IV – Regressão e correlaçãodocentes.fe.unl.pt/~acsilva/TratDados/IV_4_Sig_Reg_Mult.pdf · IV...
Transcript of IV – Regressão e correlaçãodocentes.fe.unl.pt/~acsilva/TratDados/IV_4_Sig_Reg_Mult.pdf · IV...
Tratamento de Dados 2º Semestre 2005/2006
IV – Regressão e correlação
IV.4. (cont.) Significância Estatística e Regressão Múltipla
Tratamento de Dados 2º Semestre 2005/2006
Significância Estatística
Existe uma estatítica, o t-estatístico, associadoa cada estimativa
O t-estatístico mede a distância do valor estimado a zero em termos de desvio padrão
Se o valor do t-estatístico for igual ou superior a 2 em valor absoluto, então o coeficienteassociado tem significância estatística
Tratamento de Dados 2º Semestre 2005/2006
Cálculo de t-estatístico
O t-estatístico é igual ao valor da estimativa do coeficiente a dividir pelo desvio padrão do coeficiente.
Porque existe um desvio padrão associado a cadacoeficiente da regressão linear?
O que significa ter significância estatística? Acreditamos que o coeficiente é diferente de zero para um determinado nível de confiança.
Tratamento de Dados 2º Semestre 2005/2006
Exemplo: Golfe e Performance
Handicaps and Corporate Performance
y = -0.1734x + 55.137R2 = 0.0017
0
20
40
60
80
100
120
0 5 10 15 20 25 30 35 40
Handicap
Perf
orm
ance
Regressão linear entre performance financeira da empresa e golfe handicapdo CEO da empresa (amostra de 51 empresas das 500 maiores da Fortune)
Tratamento de Dados 2º Semestre 2005/2006
Excel Output: Golfe e PerformanceSUMMARY OUTPUT
Regression StatisticsMultiple R 0.042R Square 0.002Adjusted R Square -0.019Standard Error 25.38Observations 51
ANOVAdf SS MS
Regression 1 55.05295154 55.0529515Residual 49 31567.65293 644.237815Total 50 31622.70588
CoefficientsStandard Error t StatIntercept 55.1373367 9.790428944 5.63175904Handicap -0.17343047 0.593277937 -0.2923258
Tratamento de Dados 2º Semestre 2005/2006
Problema Geral em Estatística
Os dados provêm de uma amostra retirada da população
Usamos características da amostra comoestimativa das características da população
Uma amostra diferente implica estimativasdiferentes
Tratamento de Dados 2º Semestre 2005/2006
Caso de Golfe e Performance
Com uma amostra diferente de CEOs, não obteríamos uma estimativa de -0.1734
O desvio padrão da estimativa mede a precisão com que a estimativa é feita
Existe uma probabilidade de cerca de 95% de que a estimativa esteja até 2 desvios padrão do verdadeiro valor do parâmetro
Tratamento de Dados 2º Semestre 2005/2006
Distribuição do valor do coeficienteassociado a Handicap
Seria uma surpresa se o verdadeiro valor do declive fosse igual a zero?
H 420-2-4
0.6
0.5
0.4
0.3
0.2
0.1
0
Tratamento de Dados 2º Semestre 2005/2006
Detalhes sobre t-estatístico*Calculado como o valor da estimativa do coeficiente a dividir pelo desvio padrão do coeficiente estimado
O t-estatístico tem distribuição t com N - k - 1 grausde liberdade, sendo k o número de variáveisexplicativas
O valor de t é aproximadamente igual a 2 para um teste a nível de significância de 5% (2-tail)
Para obter precisão, verifiquem se o p-value < 0.05
* (nas aulas de estatística irão discutir este tema em teste de hipóteses)
Tratamento de Dados 2º Semestre 2005/2006
Regressão linear com mais de uma variável explicativa:
xis corresponde ao valor da variável i para a observação s
O Excel determina os coeficientes de xis que minimizam a soma dos quadrados dos erros da regressão (SSE)
Regressão Múltipla
y b b x b xs s k ks s= + + + +0 1 1 ... ε
Tratamento de Dados 2º Semestre 2005/2006
Excel Output
Verificamos que a estimativa do declivecorresponde à diferençaentre as médias
b = - 3,166.67 a = 60,983
FbIay +=ˆ
Relebrem caso discriminaçãosalarial
Average of EarningsGender TotalF 57816.67M 60983.33Grand Total 59400
Tratamento de Dados 2º Semestre 2005/2006
Adicionando ExperiênciaTabela de Contingência
Gender Male/FemalExperience Data F M Grand Total Difference
10 Average of Earnings 57150 59650 57983.33 2500Count of Earnings 40 20 60
20 Average of Earnings 59150 61650 60816.67 2500Count of Earnings 20 40 60
Total Average of Earnings 57816.67 60983.33 59400 3166.67Total Count of Earnings 60 60 120
Experiência medida por anos de trabalho
Tratamento de Dados 2º Semestre 2005/2006
Regressão Linear com ExperiênciaSUMMARY OUTPUT
Regression StatisticsMultiple R 0.39R Square 0.15Adjusted R Square 0.14Standard Error 4389.67Observations 120.00
ANOVAdf SS MS F
Regression 2.00 407500000.00 203750000.00 10.57Residual 117.00 2254500000.00 19269230.77Total 119.00 2662000000.00
Coefficients Standard Error t Stat P-valueIntercept 57650.00 1525.90 37.78 0.00Experience 200.00 85.01 2.35 0.02Female -2500.00 850.06 -2.94 0.00
Tratamento de Dados 2º Semestre 2005/2006
Gender Male/Fem.IQ Data F M Grand Total Diff.101-110 Average of Earnings 51816.66667 54983.33333 53400 3166.667
Count of Earnings 12 12 24111-120 Average of Earnings 54816.66667 57983.33333 56400 3166.667
Count of Earnings 12 12 24121-130 Average of Earnings 57816.66667 60983.33333 59400 3166.667
Count of Earnings 12 12 24131-140 Average of Earnings 60816.66667 63983.33333 62400 3166.667
Count of Earnings 12 12 24141-150 Average of Earnings 63816.66667 66983.33333 65400 3166.667
Count of Earnings 12 12 24Total Average of Earnings 57816.66667 60983.33333 59400 3166.667Total Count of Earnings 60 60 120
Adicionando IQ – Coeficiente de InteligênciaTabela de Contingência
Tratamento de Dados 2º Semestre 2005/2006
Regressão Linear com IQSUMMARY OUTPUT
Regression StatisticsMultiple R 0.98R Square 0.96Adjusted R Square 0.96Standard Error 954.82Observations 120.00
ANOVAdf SS MS F
Regression 2.00 2555333333.33 1277666666.67 1401.44Residual 117.00 106666666.67 911680.91Total 119.00 2662000000.00
Coefficients Standard Error t Stat P-valueIntercept 23333.33 767.08 30.42 0.00Female -3166.67 174.33 -18.17 0.00IQ 300.00 6.03 49.73 0.00
Tratamento de Dados 2º Semestre 2005/2006
Pontos Chave na Interpretação
Adicionar uma variável permite controlar o seu efeito na regressão: permite manter a variável a níveis constantes
Semelhante a análise através de tabelas de contingência
Adicionar uma variável pode alterar a estimativa dos coeficientes de outras variáveis (ex. ao adicionar experiência altera-se a estimativa do coeficiente do indicador ‘female’)
Controlar uma variável correlacionada com outra variável explicativa elimina ‘bias’ ou enviezamento na estimativa dos efeitos dessas variávies (ex. experiência e female)Controlar uma variável não correlacionada com outra variável explicativa melhora o “ajustamento” mas não elimina ‘bias’ (por exemplo, IQ e Female)
Tratamento de Dados 2º Semestre 2005/2006
Como escolher as variáveis a incluirna regressão?
Número de variáveis
Critério estatístico
Critério lógico
Tratamento de Dados 2º Semestre 2005/2006
Número de variáveis
Restrição de ordem técnicaO número de observações tem deve ser pelo menos igual ao número de variáveis explicativas mais dois
Restrição de ordem prácticaDevemos ter pelo menos 10 observações porvariável explicativa para obtermos estimativasprecisas
Tratamento de Dados 2º Semestre 2005/2006
Critério estatístico
Adicionar uma variável sempre fará o R2 aumentar. Portanto, um aumento do R2 não pode ser usado como base para concluir que uma variável deve ser incluída.
O R2 ajustado é uma medida modificada que impõe uma “penalidade” sobre variáveis extras.
Tratamento de Dados 2º Semestre 2005/2006
Critério Lógico
Adicionar variáveis altera a interpretação dos coeficientes. Exemplo:
Preço = b0 + b1 Quartos• b1 mede a diferença entre, por exemplo, apartamentos com 3
quartos e apartamentos com 4 quartos
Preço = b0 + b1 Quartos + b2 m2
• b1 mede a diferença entre, por exemplo, apartamentos com 3 quartos e apartamentos com 4 quartos com a mesma àrea em m2
Escolha da variável pode depender do tipo de comparação que se pretende efectuar
Tratamento de Dados 2º Semestre 2005/2006
Multicolinearidade
As variáveis explicativas podem ter algumacorrelação entre elasUma variável explicativa não pode ser uma funçãolinear de outras variáveis explicativas (correlaçãolinear perfeita)Demasiada correlação entre as variáveis explicativastorna as estimativas imprecisas - (problema com osdados)
Tratamento de Dados 2º Semestre 2005/2006
How will simple and multiple regression results differ?
050000
100000150000200000250000300000350000400000450000
0 1000 2000 3000 4000
Size
Pric
e