AGA 0505 - Análise de Dados em Astronomia I 5. Testes de ...laerte/aga0505_20/aula5.pdf · 3.erros...
Transcript of AGA 0505 - Análise de Dados em Astronomia I 5. Testes de ...laerte/aga0505_20/aula5.pdf · 3.erros...
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
AGA 0505 - Análise de Dados em Astronomia I
5. Testes de Hipóteses e Análise de Correlação
Laerte Sodré Jr.
1o. semestre, 2020
1 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
aula de hoje:
1. testes de hipóteses: procedimentobásico
2. o valor p
3. erros nos testes de hipótese
4. decisão nos testes de hipótese
5. comparação da média de duasdistribuições
6. comparação de variâncias
7. teste do χ2: comparação de distribuiçõesdiscretas
8. comparação de distribuições comKolmogorov-Smirnov
9. correlação entre duas variáveis10. a gaussiana bivariada e o coeficiente de
correlação11. coeficiente de correlação de Pearson12. coeficiente de correlação de Spearman
That is the curse of statistics, that it can never prove things, only disprove them!
Numerical Recipes- Press, Teukolsky, Vetterling & Flannery
2 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
teste de hipóteses: procedimento básico usando o ’valor p’
• suponha que queremos saber se, porexemplo, uma amostra X tem um valorconsistente com a média que umapopulação
• para tomar uma decisão aplicamos testes dehipótese:
• defina a estatística que se quer usar:por exemplo, a média
• suponha conhecida a distribuição dessaestatística: por exemplo, umagaussiana
• estabeleça a hipótese nula H0 que sequer testar: por exemplo, a medida Xtem a mesma média que a população
• escolha um nível de confiança α:por exemplo, 0.01 (1%)
• calcule p, a probabilidade de sedescartar H0, dado α
• p: área sob a distribuiçãocorrespondente à estatística testada
• α: área sob a distribuiçãocorrespondente ao nível de confiança
• tome uma decisão sobre H0comparando p e α:por exemplo, se p ≤ α rejeita-se H0
3 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
teste de hipóteses: procedimento básico
• os dados são consistentes com umacerta hipótese?• exemplo: a amostra foi extraída de
N(µ, σ)?• H0: hipótese nula: a amostra é
consistente com N(µ, σ)• sempre supomos que conhecemos a pdf
associada a H0• F(x): distribuição cumulativa da pdf de x
• qual é a probabilidade de se ter um valormaior que xi?
• valor p: p = P(x > xi) = 1− F(xi)para o exemplo da figura: o teste envolvesó o lado direito da distribuição
• toma-se uma decisão comparando-se pe α: H0 é rejeitada se p ≤ α
• note que falhar em rejeitar H0 nãoimplica que H0 é verdadeira!ex: nossa amostra pode ser muitopequena para se detectar o efeito
4 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
decisão no teste de hipóteses- o valor p
• testes podem ser “unilaterais” ou “bilaterais”
• em inglês: testes right-sided, left-sided,two-sided
• exemplo: queremos saber se
• uma medida é maior que a média?teste right-sided: área a direita
• uma medida é menor que a média?teste left-sided: área a esquerda
• uma medida é diferente da média?teste two-sided: área dos dois lados
• p: área sob a distribuiçãocorrespondente à estatística testada-área na parte direita, esquerda, ou nasduas partes da distribuição
• para uma hipótese ser rejeitada, a área, p,deve ser pequena!
5 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
polêmica!! Nature, 21/03/2019
uma semana depois:
6 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
duas distribuições têm a mesma média?
• Student era o pseudônimo de WilliamSealy Gosset, um químico trabalhandopara a cervejaria Guinness na Irlanda
• ele desenvolveu a estatística t paramonitorar a qualidade do stout!
7 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
duas distribuições têm a mesma média?
• queremos verificar se a média µ de Nmedidas é consistente com um certo valoresperado µ0
• para testar a média de uma populaçãousa-se a estatística t:
t =µ− µ0
σs/√
N
• usa-se uma distribuição t com ν = N − 1graus de liberdade para se estimar p:
P(t) =Γ[(ν + 1)/2]√πνΓ(ν/2)
(1 +
t2
ν
)−(ν+1)/2
8 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
duas distribuições têm a mesma média?
• Exemplo: o movimento próprio de umaglomerado estelar na literatura é µ0 = 0.075arcsec/yr
• em uma amostra de N=15 estrelas medimosµ = 0.078 arcsec/yr e σs = 0.005 arcsec/yr
• esta medida é consistente com a anterior?• estatística t = 2.5, ν = 14• teste: H0: µ = µ0 × H1: µ > µ0
p=0.0127• com nível de confiança α = 0.05, rejeitamos
H0• com α = 0.01, a hipótese nula não seria
rejeitadaLindegren et al., A&A 356, 1119, 2000
9 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
comparação de variâncias
• dados dois conjuntos de dados, {xi} e{yi}, com N e M elementos,respectivamente, queremos testar H0:σx = σy
• para distribuições gaussianas aestatística-teste é a F
• a estatística-teste
F∗ =
∑Ni=1(xi − x)2/(N − 1)∑Mj=1(yi − y)2/(M− 1)
=σ2
xσ2
y
segue uma distribuição F com ν1 = N− 1e ν2 = M− 1 graus de liberdade
F(x) =Γ(ν1+ν2
2 )(ν1ν2
)ν12 x
ν12 −1
Γ(ν12 )Γ(ν2
2 )(1 + ν1ν2
x)ν1+ν2
2
10 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
exemplo: a estrela X é variável?
• considere uma série de imagens CCD de umcampo estelar tomadas em diferentesépocas
• cada imagem tem centenas de estrelas; asmagnitudes em cada época são medidas eas variâncias das magnitudes de cadaestrela em todas as épocas são medidas
• como a maioria das estrelas não sãovariáveis (na escala de tempo considerada)vamos assumir inicialmente que uma certaestrela X não é variável:“hipótese nula” H0: X não é variável
• intuitivamente, nossa decisão sobre X vaidepender de como a variância dasmagnitudes de X (σ2
X) se compara com asdas demais estrelas (σ2
∗)
• se σ∗ = 0.10 mag, você aceitaria ou rejeitariaH0 se σX = 0.08 mag?e se σX = 0.48?
11 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
erros no teste de hipótese
• hipótese nula H0:• H0: X não é variável• H1: uma hipótese alternativa
• note que:• a rejeição de H0 não implica que H1 seja verdadeira• a não rejeição de H0 não implica que H0 seja verdadeira
• tipos de erro:• erro tipo I: H0 é rejeitada quando é verdadeira (falso positivo)• erro tipo II: H0 não é rejeitada quando é falsa (falso negativo)
• note que esses erros dependem apenas de H0, não de H1
variabilidade verdadeiradecisão não variável variávelnão variável ok! erro tipo IIvariável erro tipo I ok!
verdadedecisão H0 H1H0 ok! erro tipo IIH1 erro tipo I ok!
12 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
tipos de variáveis
convém distinguir entre 3 tipos de variáveis:• nominal: os valores são membros de um conjunto não-ordenado:
Ex.: tipos morfológicos de galáxias; os nomes dos estados do Brasil• ordinal: os valores são membros de um conjunto ordenado discreto:
Ex.: a ordem dos planetas, a sequência de pré-requisitos de uma disciplinao que importa é que os valores estão intrinsecamente ordenados• contínua: os valores são números reais
Ex.: distâncias, tempouma variável contínua pode ser transformada em ordinal por binagem e em nominal se aordem dos bins for desconsiderada
13 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
comparação de duas distribuições discretas com o χ2
comparação de um histograma com um modelo:
• suponha que temos uma distribuiçãodiscreta com Ni eventos em cada bin e queni é o número esperado de acordo com umadistribuição conhecida (os Ni são inteirosenquanto que os ni podem ser reais ≥ 0)
• nossa hipótese nula é que as distribuiçõessão iguais
• nesse caso a estatística χ2 é definida como
χ2 =
Nbin∑i=1
(Ni − ni)2
ni
(termos com Ni = 0 e ni = 0 devem seromitidos da soma), com ν graus de liberdade
• se o χ2 é calculado com os ni determinadospelo modelo (isto é, sem renormalizar tal que∑
ni =∑
Ni), então ν = Nbin; caso contrárioν = Nbin − 1
14 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
comparação de duas distribuições discretas com o χ2
comparação de dois histogramas:• caso de dois conjuntos binados e com o
mesmo número de bins, {Ni} e {Mi} inteiros:
χ2 =
Nbin∑i=1
(Ni −Mi)2
Ni + Mi
• o teste supõe que os desvios entre Ni e Mi(ou entre Ni e ni) são devidos a flutuaçõesestatísticas de Poisson que ocorrem poracaso
• qual é a probabilidade de um valor de χ2
igual ou maior que o observado?
• definindo-se um nível de significância, podese fazer um teste de hipótese usando-se ovalor p
15 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
o teste do χ2 para distribuições discretas
• o χ2 foi proposto por Pearson em 1900 e é uma das técnicas de maior impacto naciência!• o χ2 é fácil de ser computado e de ser interpretado, pois a média do χ2 é igual ao
número de graus de liberdade ν e sua variância é igual a 2ν• exemplo: para um número de bins ≥ 4, se o valor de χ2 for da ordem de ν, aceite H0, se
for o dobro disso, você provavelmente deverá rejeitar H0• é comum usarmos o χ2 reduzido, χ2/ν:
se for da ordem da unidade aceita-se H0, se for muito maior, rejeita-se• problemas com este teste:
• os dados devem ser divididos em intervalos (binados)• os intervalos devem ser suficientemente grandes para evitar flutuações estatísticas muito
grandes• regra: mais de 80% dos intervalos devem ter Ni > 5; se necessário, combine intervalos para
garantir que isso se verifique (para N pequeno ver Numerical Recipes sec. 14.3.2)16 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
comparação de duas distribuições: teste de Kolmogorov-Smirnov
• o teste KS se aplica a conjuntos de dadosnão binados que representam uma certavariável, x(mas é comum aplicá-lo também adistribuições discretas!)
• SN(x): distribuição cumulativa dos dados (N)elementossendo xi o conjunto de dados ordenados domenor para o maior,
SN(x) =
∑ixi≤x xi∑N
i xi
• o teste KS compara duas distribuiçõescalculando a distância máxima entre suasdistribuições cumulativas
• se St(x) for a distribuição cumulativa de ummodelo, calcula-se
D = max|SN(x)− St(x)|
• para duas distribuições diferentescumulativas de dados a estatística KS é
D = max|SN1(x)− SN2(x)|
17 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
comparação de duas distribuições: teste de Kolmogorov-Smirnov
• a estatística D é útil pois sua distribuiçãopode ser calculada no caso de H0: “as duasdistribuições são iguais”, permitindo aaplicação de um teste do valor p
• KS tem duas vantagens em relação ao χ2:não perde informação por conta deagrupamento/binagem e funciona bem paraamostras pequenas
• KS não é sensível nos extremos dadistribuição: ver Numerical Recipes, seção14.3.4, para versões “turbinadas” do teste
18 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
Correlação entre duas variáveis
• vamos considerar agora medidas deassociação entre duas variáveis• uma variável está correlacionada ou
depende da outra?• o conhecimento de uma variável ajuda a
saber o valor da outra?
• cuidado: correlações podem nãosignificar que as variáveis estejamintrinsecamente correlacionadas
exemplo: efeitos de seleção!
19 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
distribuição de probabilidades bivariada
• P(x, y)dxdy: probabilidade de se encontrar x entre x e x + dx ey entre y e y + dy ∫ ∞
−∞
∫ ∞−∞
P(x, y)dxdy = 1
• médias:µx =
∫∞−∞
∫∞−∞ xP(x, y)dxdy
µy =∫∞−∞
∫∞−∞ yP(x, y)dxdy
• variâncias:Vx =
∫∞−∞
∫∞−∞(x− µx)2P(x, y)dxdy
Vy =∫∞−∞
∫∞−∞(y− µy)2P(x, y)dxdy
• covariância:Cov(x, y) = Vxy =
∫∞−∞
∫∞−∞(x− µx)(y− µy)P(x, y)dxdy
• variância da soma z = x + y:Vz = Vx + Vy + 2Vxy
• variância da subtração w = x− y:Vw = Vx + Vy − 2Vxy
• distribuições marginais:P(x) =
∫∞−∞ P(x, y)dy
P(y) =∫∞−∞ P(x, y)dx
• desvios padrão:
σx = V1/2x , σy = V1/2
y , σxy = Vxy
• se x e y são não-correlacionados (σxy = 0), x e y são independentes:P(x, y) = P(x)P(y)
20 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
distribuição gaussiana bivariada
• gaussiana bivariada:
P(x, y|µx, µy, σx, σy, σxy) =1
2πσxσy√
1− ρ2exp
(−
Z2
2(1− ρ2)
)
onde
Z2=
(x− µx)2
σ2x
+(y− µy)2
σ2y
− 2ρ(x− µx)(y− µy)
σxσy
• coeficiente de correlação:
ρ =σxy
σxσy
• contornos P(x, y) = cte: elipses
• vamos supor que temos um conjunto de Ndados {xi, yi} e queremos saber se x e yestão correlacionados
• o coeficiente de correlação de Pearson édado por:
r =1
N − 1
N∑i=1
(xi − x
σs,x
)(yi − y
σs,y
)
• σs,x e σs,y: desvios padrão da amostra:
σ2s,x =
1
N − 1
N∑i=1
(xi − x)2
σ2s,y =
1
N − 1
N∑i=1
(yi − y)2
21 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
coeficiente de correlação linear de Pearson
• o coeficiente de correlação de Pearsonmede a força de uma correlação• para se determinar a significância de um
valor não nulo de r calcula-se aestatística
ts = r√
N − 21− r2
• para variáveis independentes edistribuídas como gaussianas bivariadas:ts obedece a distribuição t de Studentcom ν = N − 2 graus de liberdade
22 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
coeficiente de correlação não-paramétrico de Spearman
• testes não-paramétricos: nãopressupõem uma forma para adistribuição dos dados
• suponha que se ordene os dados {xi} e{yi} tal que {Xi} e {Yi} representem aposição dos dados na sequênciaordenada: 1 < Xi < N e 1 < Yi < N
• coeficiente de correlação de ordem deSpearman:
rS = 1− 6∑N
i=1(Xi − Yi)2
N3 −N
• Spearman é mais robusto quecorrelação linear: se a correlação édetectada, provavelmente é real
• Spearman mede monotonicidade: rs é omesmo para a relação entre x e y e paralog x e log y (por exemplo, para x e ypositivos)
• para N > 30 a estatística
tS = rS
√(N − 2)/(1− r2
S) se distribuicomo t(ν = N − 2) de Student
23 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
exercícios
1. Um estudante precisa testar as hipóteses H0 : µ = 80 e H1 : µ > 80 com α = 0.05. Analisando a amostra, ele calcula o valor p, 0.214, e conclui que "esteresultado prova que H0 é verdadeiro”. Comente esta conclusão e a reescreva corretamente.
2. Observamos algumas estrela que achamos que podem ser variáveis e uma outra de comparação que achamos que não é. Observamos 10 noites seguidasobtendo as seguintes medidas (os vetores correspondem a noites sucessivas):estrela1 = c(14.99, 14.73, 15.18, 15.10, 15.20, 14.89, 15.50, 14.69, 15.25, 14.85)estrela2 = c(15.55, 15.48, 15.68, 15.53, 15.43, 15.54, 15.70, 15.57, 15.60, 15.65)comparacao = c(15.28, 15.30, 15.32, 15.35, 15.26, 15.28, 15.30, 15.27, 15.26, 15.28)a) Faça box plots para visualizar as distribuições das magnitudes de cada um desses objetos.b) Adotando um nível de confiança de 1%, o que você concluiria sobre a variabilidade dessas duas estrelas?c) Suponha que você conseguiu observar apenas as n primeiras noites (choveu nas demais!). Qual o número mínimo de noites que permite, com esse nível deconfiança, rejeitar H0? Considere 3, 4,...n noites onde, para n=3 por exemplo, considere os 3 primeiros elementos dos vetores acima.
3. A função ks.test do R permite fazer testes comparando duas amostras (two-sample test) ou comparando os dados com uma distribuição (one-sample test).Considere a sequência de pontos: 1.41, 0.25, 0.26, 1.97, 0.33, 0.55, 0.77, 1.46, 1.18, 0.23. Existe alguma evidência de que estes dados não resultem de umadistribuição uniforme entre 0 e 2? Faça um teste de Kolmogorov-Smirnov.
24 / 25
Teste de Hipóteses comparação de médias e variâncias o χ2 correlação entre duas variáveis
Bibliografia
• a maior parte deste capítulo é baseada no livro Numerical Recipes, por Press, Teukolsky,Vetterling & Flannery• o livro tem uma versão eletrônica paga, mas edições anteriores são de livre acesso• ex.: http://apps.nrbook.com/fortran/index.html• a maior parte da aula de hoje está no capítulo 14, Statistical Description of Data• não se preocupem com o código em fortran; o que interessa é o texto• este livro é uma das bíblias que cientistas que trabalham com dados devem conhecer!
25 / 25