Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde...

Universidade Federal FluminenseFaculdade de MedicinaMestrado Profissional em Saúde Materno-Infantil2011

BIOESTATÍSTICA-aula 6Prof. Cristina Ortiz ValeteProf. Adjunta de Pediatria Doutora em Epidemiologia

•Análise de variância-ANOVA▫Quando precisamos comparar mais de dois

grupos de médias, precisamos lançar mão de outros testes, ao invés de comparar cada grupo de pares pelo teste t.

▫Uma única análise pode olhar para todo o conjunto de dados-ANOVA one-way (um fator-os grupos) ou two-way (dois fatores-os grupos + outro fator)

▫Teste paramétrico

• Sabemos que existe uma variabilidade entre indivíduos de um mesmo grupo mas em geral o que interessa é buscar diferença entre grupos

• A análise baseia-se no pressuposto que as amostras vem de uma população com distribuição próxima a normal e são independentes

• Faz-se a estimativa da variação dentro de cada grupo

• A hipótese nula é de que as amostras não são diferentes, ou seja, possuem a mesma média e variância

• Trabalhamos com tabelas de distribuição F

•Após rodar a análise de variância, observamos a variação dos indivíduos “ao redor” da média do grupo. A média do grupo é o valor ajustado (fitted) e a diferença entre os valores observados e ajustados é chamada de resíduo. Devemos construir gráficos dos resíduos para observar o pressuposto de normalidade (homocedasticidade)

•Obs: se rodarmos uma análise de variância para dois grupos, será o mesmo que um teste t

•A variabilidade total é medida pelo total da soma dos quadrados, que baseia-se na soma dos quadrados das diferenças das observações em relação a media

•Este total surge da soma das diferenças dentro dos grupos e entre os grupos. Cada soma dos quadrados é transformada em mean square (media dos quadrados) através da divisão pelos graus de liberdade

variação Graus de liberdade

Soma dos quadrados

Mean squares

F pvalor

Entre grupos

2 (3 grupos)

15 515.88 7757.9 3.71 (é a razão entre as mean squares)

0.04

Dentro grupos

19 (retira-se uma observação de cada grupo)

39 716.09 2090.3

total 21 55 231.97

Exemplo de uma saída comentada: nivel de folato em três grupos de cardiopatas independentes submetidos a diferentes doses de óxido nitroso (oneway).

Altman

Desvio padrão dos resíduosOs grupos não precisam ter o

mesmo n

•Sob a hipótese nula de igualdade de variâncias, a razão das variâncias seria 1 e Ho=1= 2= 3;

•Ha: pelo menos um dos grupos é diferente•Como a razão foi de 3.71 (valor de F 2,19,

0.95=3.52), dizemos que a variância observada entre os grupos é 3.71 vezes maior do que a esperada (se a hipótese nula fosse verdadeira) e que há diferença entre as médias pois 3.71>3.52)

•Comparando o valor 3.71 na tabela F com 2 e 19 graus de liberdade, achamos valor p<0.05

•Existe também a análise de variância não paramétrica-Kruskal Wallis (extensão do Mann Whitney)

•Este, não trabalha com a distribuição F

•Se há dois fatores de classificação, a análise é chamada ANOVA two-way

•Neste tipo de análise é necessário ter o mesmo n em cada grupo, portanto, não pode haver missings

sujeito Tempo (minutos) média SD

0 30 60 120

1 96 92 86 92 91.50 (4.1)

2 110 106 108 114 109.50 (3.4)

3 89 86 85 83 85.75 (2.5)

4 95 78 78 83 83.50 (8.0)

5 128 124 118 118 122.00 (4.9)

6 100 98 100 94 98.00 (2.8)

7 72 68 67 71 69.50 (2.4)

8 79 75 74 74 75.50 (2.4)

9 100 106 104 102 103.00 (2.6)

média 96.56 92.56 91.11 92.33 93.14

(SD) (16.4) (17.8) (17.2) (16.5) (16.4)

Exemplo: efeito do enalapril no batimento cardíaco em vários momentos

Altman

•Novamente, existe variabilidade, intra individuos (o 1 com ele mesmo em outros momentos-within subjects) e entre sujeitos (between)

•É uma extensão do teste t pareado...

variação Graus de liberdade

Soma dos quadrados

Mean squares

F pvalor

sujeitos 8 8966.556 1120.819 90.6 (compara-se com 8 e 24 graus de liberdade)

<0.0001 (este é o resultado principal)

tempos 3 150.972 50.324 4.07 (compara-se com 3 e 24 graus de liberdade)

0.018

resíduo 24 296.778 12.366

total 35 9414.306Neste caso, o valor de F será obtido pela divisão dos mean squares pela variância dos resíduos

Hipótese nula rejeitada; há diferença da frequência cardíaca em duas horas

•Trabalhamos então neste caso com ▫A média global▫O efeito do paciente▫O efeito do tempo▫Erro aleatório normal de média zero e

variância constante

•A diferença entre os valores observados e o valor ajustado, chamamos de resíduos, conforme citado; devem ter média zero e variância constante

•Não há necessidade de haver distribuição normal no ANOVA two-way, mas os resíduos devem ter distribuição normal

•Chamada também de repeated measures ANOVA

•Outro exemplo: medidas de PC fetais por quatro examinadores

obs 1 obs2 obs3 obs4

Feto 1 14.3 13.6 13.9 13.8

14.0 13.6 13.7 14.7

14.8 13.8 13.8 13.9

Feto 2 19.7 19.8 19.5 19.8

19.9 19.3 19.8 19.6

19.8 19.8 19.5 19.8

Feto 3 13.0 12.4 12.8 13.0

12.6 12.8 12.7 12.9

12.9 12.5 12.5 13.8

variaçao Graus de liberdade

Soma dos quadrados

Mean squares

F pvalor

fetos 2 324.009 162.004 2103 <0.0001

observadores

3 1.199 0.400 5.19 0.006

Fetos x obs (interação)

6 0.562 0.094 1.22 0.33

resíduos 24 1.840 0.077

total 35 327.610Como a interação feto-observador não foi significativa, refaz-se o modelo sem esta variável

•Modelos de regressão▫Linear-modelagem estatística da associação

entre variáveis contínuas▫Logística

▫Deve ser sempre observado o gráfico de dispersão entre as variáveis

•Para construir modelos de regressão linear simples precisamos observar o diagrama de dispersão e o método dos mínimos quadrados

•Modelo de regressão simples▫Uma amostra com n observações▫Duas variáveis contínuas, X e Y▫Queremos saber como os valores de Y mudam

em média a medida que X assume valores diferentes

▫Existe uma função de regressão de Y (variável dependente) em X (variável independente)

•O modelo de regressão linear simples supõe que E (Y X =x)= + x, com distribuição normal e variância constante e as observações são não-correlacionadas, ou,

•Yi=E (Yi X =xi) + i= + xi + i

•Os estimadores e

• O valor de deve ser interpretado como o valor esperado da variável dependente Y quando a variável X for igual a zero. Na prática isso muitas vezes não faz sentido (ex. peso ao nascer). Por isso, substitui-se o conjunto de valores centrados na média;

• é o acréscimo esperado quando X – X=0• é o acréscimo esperado na variável

dependente Y quando o valor da variável independente X é acrescido de uma unidade; pode ser diminuição

• e são os coeficientes de regressão

• Método dos mínimos quadrados▫É um critério de estimação de , e 2 que

consiste em minimizar a soma dos quadrados dos erros

▫A estimação dá origem a , e s2 (erro quadratico médio)

▫Yi= + xi

▫A reta de regressão é definida na expressão acima e passa entre os n pontos do diagrama de dispersão e minimiza a soma dos quadrados das distâncias dos pontos a reta de mínimos quadrados

•O estimador dos minimos quadrados é a razão entre a soma dos quadrados dos resíduos e o respectivo número de graus de liberdade

•A partir da reta de regressão pode-se obter as previsões e os erros de previsão (residuos)

•O teste de hipótese mais importante é o que estabelece a significância de , que é a inclinação da reta de regressão (Ho: =0; H1: 0)

•Diagnóstico do modelo de regressão▫Fundamental!▫Exame gráfico dos resíduos- não deve

mostrar padrão definido

Resíduos x previsões

• Na regressão linear múltipla são introduzidas n variáveis explicativas

• O estimador dos mínimos quadrados neste caso é obtido em notação matricial

• Ho:i=0• Ha: i0

• A estatística do teste é a razão t ou de Wald• A ANOVA desempenha papel importante nos

modelos lineares• A soma dos quadrados das respostas (pela média-

SQT) é igual a soma dos quadrados dos resíduos (SQE) mais a soma dos quadrados das previsões (do modelo-SQR)

Para cada um dos parâmetros do modelo

•Quanto menor SQE, melhor o modelo•R2=SQR quanto maior, melhor SQT

R2 ajustado: quanto maior o numero de variaveis explicativas, maior será o R2. Por isso, o consideramos quando há muitos parâmetros

R2 ajustado= 1 – (1 - R2) n-1 n-p

•Yi=0 + 1x1 + 2x2 + ....... + i

•Faça sempre a regressão linear simples isolada de cada variável e depois rode o conjunto. Muitas variáveis significativas isoladamente, deixam de ser em conjunto (isso ocorre quando há multicolinearidade-as (variáveis possuem relações lineares). A matriz de correlação de Pearson pode sugerir associações prévias.

•Seleção do melhor modelo▫Pela análise dos resíduos (graficos var x

resíduos studentizados e Q-Q plot ou gráfico de probabilidade normal)

▫Pela parcimônia (o menor número de parâmetros com maior poder de explicação)

▫Pelo R2 ajustado (quanto maior, melhor)

•Procedimentos em modelos de regressão▫Stepwise forward-o modelo começa a ser

construído pela variável mais significativa e daí por diante

▫Stepwise backward-o modelo é construído excluindo-se a variável independente de menor poder explicativo

▫O procedimento se encerra quando todas as variaveis incluidas são significativas de acordo com o estabelecido

Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde...

Documents

Transcript of Universidade Federal Fluminense Faculdade de Medicina Mestrado Profissional em Saúde...