Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde...
Transcript of Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde...
Universidade Federal FluminenseFaculdade de MedicinaMestrado Profissional em Saúde Materno-Infantil2011
BIOESTATÍSTICA-aula 6Prof. Cristina Ortiz ValeteProf. Adjunta de Pediatria Doutora em Epidemiologia
•Análise de variância-ANOVA▫Quando precisamos comparar mais de dois
grupos de médias, precisamos lançar mão de outros testes, ao invés de comparar cada grupo de pares pelo teste t.
▫Uma única análise pode olhar para todo o conjunto de dados-ANOVA one-way (um fator-os grupos) ou two-way (dois fatores-os grupos + outro fator)
▫Teste paramétrico
• Sabemos que existe uma variabilidade entre indivíduos de um mesmo grupo mas em geral o que interessa é buscar diferença entre grupos
• A análise baseia-se no pressuposto que as amostras vem de uma população com distribuição próxima a normal e são independentes
• Faz-se a estimativa da variação dentro de cada grupo
• A hipótese nula é de que as amostras não são diferentes, ou seja, possuem a mesma média e variância
• Trabalhamos com tabelas de distribuição F
•Após rodar a análise de variância, observamos a variação dos indivíduos “ao redor” da média do grupo. A média do grupo é o valor ajustado (fitted) e a diferença entre os valores observados e ajustados é chamada de resíduo. Devemos construir gráficos dos resíduos para observar o pressuposto de normalidade (homocedasticidade)
•Obs: se rodarmos uma análise de variância para dois grupos, será o mesmo que um teste t
•A variabilidade total é medida pelo total da soma dos quadrados, que baseia-se na soma dos quadrados das diferenças das observações em relação a media
•Este total surge da soma das diferenças dentro dos grupos e entre os grupos. Cada soma dos quadrados é transformada em mean square (media dos quadrados) através da divisão pelos graus de liberdade
variação Graus de liberdade
Soma dos quadrados
Mean squares
F pvalor
Entre grupos
2 (3 grupos)
15 515.88 7757.9 3.71 (é a razão entre as mean squares)
0.04
Dentro grupos
19 (retira-se uma observação de cada grupo)
39 716.09 2090.3
total 21 55 231.97
Exemplo de uma saída comentada: nivel de folato em três grupos de cardiopatas independentes submetidos a diferentes doses de óxido nitroso (oneway).
Altman
Desvio padrão dos resíduosOs grupos não precisam ter o
mesmo n
•Sob a hipótese nula de igualdade de variâncias, a razão das variâncias seria 1 e Ho=1= 2= 3;
•Ha: pelo menos um dos grupos é diferente•Como a razão foi de 3.71 (valor de F 2,19,
0.95=3.52), dizemos que a variância observada entre os grupos é 3.71 vezes maior do que a esperada (se a hipótese nula fosse verdadeira) e que há diferença entre as médias pois 3.71>3.52)
•Comparando o valor 3.71 na tabela F com 2 e 19 graus de liberdade, achamos valor p<0.05
•Existe também a análise de variância não paramétrica-Kruskal Wallis (extensão do Mann Whitney)
•Este, não trabalha com a distribuição F
•Se há dois fatores de classificação, a análise é chamada ANOVA two-way
•Neste tipo de análise é necessário ter o mesmo n em cada grupo, portanto, não pode haver missings
sujeito Tempo (minutos) média SD
0 30 60 120
1 96 92 86 92 91.50 (4.1)
2 110 106 108 114 109.50 (3.4)
3 89 86 85 83 85.75 (2.5)
4 95 78 78 83 83.50 (8.0)
5 128 124 118 118 122.00 (4.9)
6 100 98 100 94 98.00 (2.8)
7 72 68 67 71 69.50 (2.4)
8 79 75 74 74 75.50 (2.4)
9 100 106 104 102 103.00 (2.6)
média 96.56 92.56 91.11 92.33 93.14
(SD) (16.4) (17.8) (17.2) (16.5) (16.4)
Exemplo: efeito do enalapril no batimento cardíaco em vários momentos
Altman
•Novamente, existe variabilidade, intra individuos (o 1 com ele mesmo em outros momentos-within subjects) e entre sujeitos (between)
•É uma extensão do teste t pareado...
variação Graus de liberdade
Soma dos quadrados
Mean squares
F pvalor
sujeitos 8 8966.556 1120.819 90.6 (compara-se com 8 e 24 graus de liberdade)
<0.0001 (este é o resultado principal)
tempos 3 150.972 50.324 4.07 (compara-se com 3 e 24 graus de liberdade)
0.018
resíduo 24 296.778 12.366
total 35 9414.306Neste caso, o valor de F será obtido pela divisão dos mean squares pela variância dos resíduos
Hipótese nula rejeitada; há diferença da frequência cardíaca em duas horas
•Trabalhamos então neste caso com ▫A média global▫O efeito do paciente▫O efeito do tempo▫Erro aleatório normal de média zero e
variância constante
•A diferença entre os valores observados e o valor ajustado, chamamos de resíduos, conforme citado; devem ter média zero e variância constante
•Não há necessidade de haver distribuição normal no ANOVA two-way, mas os resíduos devem ter distribuição normal
•Chamada também de repeated measures ANOVA
•Outro exemplo: medidas de PC fetais por quatro examinadores
obs 1 obs2 obs3 obs4
Feto 1 14.3 13.6 13.9 13.8
14.0 13.6 13.7 14.7
14.8 13.8 13.8 13.9
Feto 2 19.7 19.8 19.5 19.8
19.9 19.3 19.8 19.6
19.8 19.8 19.5 19.8
Feto 3 13.0 12.4 12.8 13.0
12.6 12.8 12.7 12.9
12.9 12.5 12.5 13.8
variaçao Graus de liberdade
Soma dos quadrados
Mean squares
F pvalor
fetos 2 324.009 162.004 2103 <0.0001
observadores
3 1.199 0.400 5.19 0.006
Fetos x obs (interação)
6 0.562 0.094 1.22 0.33
resíduos 24 1.840 0.077
total 35 327.610Como a interação feto-observador não foi significativa, refaz-se o modelo sem esta variável
•Modelos de regressão▫Linear-modelagem estatística da associação
entre variáveis contínuas▫Logística
▫Deve ser sempre observado o gráfico de dispersão entre as variáveis
•Para construir modelos de regressão linear simples precisamos observar o diagrama de dispersão e o método dos mínimos quadrados
•Modelo de regressão simples▫Uma amostra com n observações▫Duas variáveis contínuas, X e Y▫Queremos saber como os valores de Y mudam
em média a medida que X assume valores diferentes
▫Existe uma função de regressão de Y (variável dependente) em X (variável independente)
•O modelo de regressão linear simples supõe que E (Y X =x)= + x, com distribuição normal e variância constante e as observações são não-correlacionadas, ou,
•Yi=E (Yi X =xi) + i= + xi + i
•Os estimadores e
• O valor de deve ser interpretado como o valor esperado da variável dependente Y quando a variável X for igual a zero. Na prática isso muitas vezes não faz sentido (ex. peso ao nascer). Por isso, substitui-se o conjunto de valores centrados na média;
• é o acréscimo esperado quando X – X=0• é o acréscimo esperado na variável
dependente Y quando o valor da variável independente X é acrescido de uma unidade; pode ser diminuição
• e são os coeficientes de regressão
• Método dos mínimos quadrados▫É um critério de estimação de , e 2 que
consiste em minimizar a soma dos quadrados dos erros
▫A estimação dá origem a , e s2 (erro quadratico médio)
▫Yi= + xi
▫A reta de regressão é definida na expressão acima e passa entre os n pontos do diagrama de dispersão e minimiza a soma dos quadrados das distâncias dos pontos a reta de mínimos quadrados
•O estimador dos minimos quadrados é a razão entre a soma dos quadrados dos resíduos e o respectivo número de graus de liberdade
•A partir da reta de regressão pode-se obter as previsões e os erros de previsão (residuos)
•O teste de hipótese mais importante é o que estabelece a significância de , que é a inclinação da reta de regressão (Ho: =0; H1: 0)
•Diagnóstico do modelo de regressão▫Fundamental!▫Exame gráfico dos resíduos- não deve
mostrar padrão definido
Resíduos x previsões
• Na regressão linear múltipla são introduzidas n variáveis explicativas
• O estimador dos mínimos quadrados neste caso é obtido em notação matricial
• Ho:i=0• Ha: i0
• A estatística do teste é a razão t ou de Wald• A ANOVA desempenha papel importante nos
modelos lineares• A soma dos quadrados das respostas (pela média-
SQT) é igual a soma dos quadrados dos resíduos (SQE) mais a soma dos quadrados das previsões (do modelo-SQR)
Para cada um dos parâmetros do modelo
•Quanto menor SQE, melhor o modelo•R2=SQR quanto maior, melhor SQT
R2 ajustado: quanto maior o numero de variaveis explicativas, maior será o R2. Por isso, o consideramos quando há muitos parâmetros
R2 ajustado= 1 – (1 - R2) n-1 n-p
•Yi=0 + 1x1 + 2x2 + ....... + i
•Faça sempre a regressão linear simples isolada de cada variável e depois rode o conjunto. Muitas variáveis significativas isoladamente, deixam de ser em conjunto (isso ocorre quando há multicolinearidade-as (variáveis possuem relações lineares). A matriz de correlação de Pearson pode sugerir associações prévias.
•Seleção do melhor modelo▫Pela análise dos resíduos (graficos var x
resíduos studentizados e Q-Q plot ou gráfico de probabilidade normal)
▫Pela parcimônia (o menor número de parâmetros com maior poder de explicação)
▫Pelo R2 ajustado (quanto maior, melhor)
•Procedimentos em modelos de regressão▫Stepwise forward-o modelo começa a ser
construído pela variável mais significativa e daí por diante
▫Stepwise backward-o modelo é construído excluindo-se a variável independente de menor poder explicativo
▫O procedimento se encerra quando todas as variaveis incluidas são significativas de acordo com o estabelecido