Apostila Teorica Parte 2

50
APOSTILA DE BIOESTATÍSTICA BÁSICA PARTE 2 Professores: Prof a . Luégya A. Henriques Knop Prof. Ricardo Lima Shintcovsk 2009

Transcript of Apostila Teorica Parte 2

Page 1: Apostila Teorica Parte 2

APOSTILA DE BIOESTATÍSTICA

BÁSICA

PARTE 2

Professores:

Profa. Luégya A. Henriques Knop

Prof. Ricardo Lima Shintcovsk

2009

Page 2: Apostila Teorica Parte 2

APOSTILA DISCIPLINA BIOESTATÍSTICA BÁSICA – PARTE 2

INTRODUÇÃO

Nesta segunda parte da apostila, serão estudados

probabilidades, Bioestatística Indutiva e testes estatísticos.

2. PROBABILIDADES

Embora o cálculo das probabilidades pertença ao campo da Matemática,

sua inclusão nesta apostila se justifica pelo fato de a maioria dos fenômenos de

que trata a Estatística ser de natureza aleatória ou probabilística.

Conseqüentemente, o conhecimento dos aspectos fundamentais do cálculo de

probabilidades é uma necessidade essencial para o estudo da Estatística

Indutiva ou Inferencial. Procuramos resumir aqui os conhecimentos que

julgamos necessários para termos um ponto de apoio em nossos primeiros

passos no caminho da Estatística Inferencial.

2.1.1. EXPERIMENTO ALEATÓRIO

Em quase tudo, em maior ou menor grau, vislumbramos o acaso. Assim,

da afirmação ”é provável que o meu time ganhe a partida de hoje” pode

resultar: a). que, apesar do favoritismo, ele perca; b) que, como pensamos, ele

ganhe; c) que empate. Como vimos, o resultado final depende do acaso.

Fenômenos como esse, são chamados fenômenos aleatórios ou experimentos

aleatórios.

Experimentos ou fenômenos aleatórios são aqueles que, mesmo

repetidos várias vezes sob condições semelhantes, apresentam resultados

imprevisíveis.

Page 3: Apostila Teorica Parte 2

2.1.2. ESPAÇO AMOSTRAL

A cada experimento correspondem, em geral,vários resultados

possíveis. Assim, ao lançarmos uma moeda, há dois resultados possíveis:

ocorrer cara ou ocorrer coroa. Já ao lançarmos um dado há seis resultados

possíveis: 1, 2, 3, 4, 5 ou 6.

Ao conjunto desses resultados possíveis damos o nome de espaço

amostral ou conjunto universo, representado por S.

Os dois experimentos citados anteriormente têm os seguintes espaços

amostrais:

– Lançamento de uma moeda: S = (Ca, Co);

– Lançamento de um dado: S = (1, 2, 3, 4, 5, 6).

Do mesmo modo, como em dois lançamentos sucessivos de uma

moeda podemos obter cara nos dois lançamentos, ou cara no primeiro e coroa

no segundo, ou coroa no primeiro e cara no segundo, ou coroa nos dois

lançamentos, o espaço amostral é:

S = {(Ca, Ca), (Ca, Co), (Co, Ca), (Co, Co)}.

Cada um dos elementos de S que corresponde a um resultado

recebe o nome de ponto amostral. Assim:

2 ∈ S → 2 é um ponto amostral de S.

2.1.3. EVENTOS

Chamamos de evento qualquer subconjunto do espaço amostral S

de um experimento aleatório.

Assim, qualquer que seja E, se E ⊂ S (E está contido em S), então E é

um evento de S.

Se E = S, E é chamado evento certo. Se E ⊂ S e E é um conjunto

unitário, E é chamado evento elementar.

Se E = Ø, E é chamado evento impossível.

No lançamento de um dado, onde S = {1, 2, 3, 4, 5, 6}, temos:

Page 4: Apostila Teorica Parte 2

A = (2, 4, 6) ⊂ S; logo, A é um evento de S.

B = { l, 2, 3, 4, 5, 6} ⊂ S; logo, B é um evento certo de S (B = S).

C = {4} ⊂ S; logo, C é um evento elementar de S.

D = Ø ⊂ S; logo, D é um evento impossível de S.

Um evento é sempre definido por uma sentença. Assim, os eventos

acima podem ser definidos pelas sentenças:

“Obter um número par na face superior”.

“Obter um número menor ou igual a 6 na face superior”.

“Obter o número 4 na face superior”.

“Obter um número maior que 6 na face superior”.

2.2. PROBABILIDADES

As decisões nos negócios são freqüentemente baseados na análise de

incertezas tais como as seguintes:

a) Quais são as chances de as vendas decrescerem se aumentarmos os

preços?

b) Qual a plausibilidade de um novo método de montagem aumentar a

produtividade?

c) Qual a probabilidade de o projeto terminar no prazo?

d) Quais são as chances de um novo investimento ser lucrativo?

A probabilidade é uma medida numérica da plausibilidade de que um

evento ocorrerá. Assim, as probabilidades podem ser usadas como medidas do

grau de incerteza associado aos quatro eventos previamente listados. Se as

probabilidades estiverem disponíveis, poderemos determinar a plausibilidade

de cada evento ocorrer.

Os valores da probabilidade são sempre atribuídos numa escala de 0 a

1. A probabilidade próxima de zero indica um evento improvável de ocorrer;

uma probabilidade próxima de 1 indica um evento quase certo.

Page 5: Apostila Teorica Parte 2

2.2.1. DEFINIÇÃO CLÁSSICA OU “A PRIORI”

Se um evento pode ocorrer de h maneiras diferentes, em um total de n

maneiras possíveis (todas igualmente prováveis), então a probabilidade do

evento é h/n.

Suponha-se que desejemos determinar a probabilidade do aparecimento

de 1 cara em uma jogada de uma moeda. Como há dois resultados igualmente

prováveis, a saber, “cara” e “coroa” (admite-se que a moeda não se detenha

sobre seu bordo), e como só há uma maneira de aparecer “cara”, dizemos que

a probabilidade do evento “cara” na jogada de uma moeda é ½. Naturalmente,

para que tal conclusão seja válida, é preciso que a moeda seja “honesta”, ou

“não-viciada”.

Dado um experimento aleatório, sendo S o seu espaço amostral, vamos

admitir que todos os elementos de S tenham a mesma chance de acontecer,

ou seja, que S é um conjunto equiprovável.

Chamamos de probabilidade de um evento A (A ⊂ S) o número real

P(A), tal que:

onde:

n(A) é o número de elementos de A;

n(S) é o número de elementos de S.

Page 6: Apostila Teorica Parte 2

Exemplos:

Considerando o lançamento de uma moeda e o evento A ”obter cara”,

temos:

Logo:

O resultado acima nos permite afirmar que, ao lançarmos uma moeda

equilibrada, temos 50% de chance de que apareça cara na face superior.

Considerando o lançamento de um dado, vamos calcular:

- a probabilidade do evento A ”obter um número par na face superior”.

Temos:

Page 7: Apostila Teorica Parte 2

- a probabilidade do evento B ”obter um número menor ou igual a 6 na face

superior”.

Temos:

- a probabilidade do evento C ”obter um número 4 na face superior”.

Temos:

- a probabilidade do evento D ”obter um número maior que 6 na face superior”.

Temos:

Page 8: Apostila Teorica Parte 2

Considerando o jogo de cartas (52 cartas):

Um baralho de 52 cartas tem quatro naipes: copas, espadas, paus, ouros.

Cada naipe tem 13 cartas sendo três figuras. Doze figuras no total. Veja a

figura abaixo.

- a probabilidade do evento C(sair uma figura na retirada de uma carta)

Page 9: Apostila Teorica Parte 2

Temos:

Considerando um jogo de futebol ou basquetebol ou handebol:

Qualquer um desses jogos acima tem três

resultados possíveis: S = {Vencer, perder, empatar}.

- a probabilidade de um time vencer é:

S = {Vencer, perder, empatar}.

D = {Vencer}

Temos:

Pelos exemplos que acabamos de ver, podemos concluir que, sendo

n(S) = n:

a) a probabilidade do evento certo é igual a l:

P(S) = 1

b) a probabilidade do evento impossível é igual a zero:

P(Ø) = 0

c) a probabilidade de um evento E qualquer (E ⊂ S) é um número real P(E), tal

que:

0 ≤ P(E) ≤ 1

Page 10: Apostila Teorica Parte 2

d) a probabilidade de um evento elementar E qualquer é, lembrando que n(E)

= 1:

2.3. PROBABILIDADE CONDICIONAL

O problema da interseção entre eventos não mutuamente exclusivos

requer o emprego da probabilidade condicional, expressa matematicamente

assim:

P(B│A) ou probabilidade de ocorrer o evento B desde que (dado que)

tenha ocorrido o evento A. A probabilidade condicional é utilizada para

determinar a ocorrência de um evento quando este é afetado por outra

condição.

Por exemplo, no caso da retirada de um rei no jogo de cartas,

considerando-se um total de 52 cartas, sendo 13 de cada naipe:

A probabilidade de retirar um rei, tendo sido previamente retirado um rei,

é assim determinada:

que é o mesmo valor determinado inicialmente (p/2º Rei)=0,0588.

Page 11: Apostila Teorica Parte 2

2.4. EVENTOS DEPENDENTES E INDEPENDENTES

A utilização da probabilidade condicional P(B|A) está intimamente

relacionada ao conceito de eventos dependentes e independentes. De um

modo geral, dizemos que dois eventos são independentes quando a ocorrência

de um não tem o menor efeito na probabilidade de ocorrência do outro. Dando

um exemplo do nosso cotidiano, se um casal tem três filhos do sexo masculino

e deseja que o próximo seja do sexo feminino, a ocorrência anterior de três

filhos do sexo masculino influi na probabilidade de que, na quarta gestação, a

criança seja do sexo feminino? Evidentemente não, pois a chance de nascer

uma menina continua sendo p = ½, independentemente do sexo dos filhos que

nasceram anteriormente.

Consideremos mais um exemplo de probabilidade condicional

relacionando-o aos eventos dependentes e independentes. Seja um

experimento de lançar dois dados: A é o evento em que, no primeiro dado,

aparece um número par, e B o evento em que a soma dos pontos de ambos os

dados é quatro.

A = {2, 4, 6} B = {1,3; 2,2; 3,1}

O espaço amostral do evento A abrange três elementos: dois, quatro e

seis; como o total de possibilidade é seis, temos P (A) =3/6=1/2 . Em relação

ao evento B, o espaço amostral compreender os seguintes elementos: 1,3; 2,2;

3,1, cada soma totalizando quatro. Cada dado tem seis números. A

combinação dos seis números dois a dois, pois trata-se de dois dados, leva a

trinta e seis resultados.

Como são três elementos em 36 combinações possíveis, teremos para o

evento B: P(B) = 3/36=1/12.

Examinemos agora a probabilidade condicional para essa situação. Os

eventos são dependentes, pois desejamos saber a probabilidade de uma soma

de quatro pontos dos dois dados, sendo que no primeiro ocorreu um número

par. Traduzindo esta frase para a linguagem da probabilidade condicional

teremos:

P(B|A) = 1/36.

Page 12: Apostila Teorica Parte 2

Então, ao fazermos 36 lançamentos de dois dados, apenas o elemento

(2,2) atende aos critérios referidos nos eventos A e B. Temos, como regra

geral, que para eventos dependentes, P (B) ≠ P(B|A); isto quer dizer que o fato

de um evento influir no outro afeta a probabilidade de ocorrência desse outro.

Neste caso constatamos que realmente

No exemplo a seguir, ilustraremos o assunto utilizando uma mesma situação

em que podem ocorrer eventos dependentes ou independentes: é o caso do

jogo de cartas, que se presta aos dois tipos de ocorrências. Vejamos a primeira

possibilidade, relativa a retirada sucessiva de duas cartas de um baralho, sem

que a primeira seja nele reposta. Seja A o evento em que a primeira carta é um

rei e B o evento em que a segunda carta é um ás. Os eventos são

dependentes, pois a retirada de uma carta diminui o total de cartas de 52 para

51. Temos, então, como probabilidade de retirar em primeiro lugar um rei P (A)

= 4/52, pois existem 52 quatro reis no baralho. Já na segunda retirada,

contamos com um total de 51 cartas e quatro ases, então P(B|A) = 4/51.

Observamos aí que a segunda retirada de carta sofreu efeito da primeira.

Convém ainda destacar que, neste exemplo, P (A) = 4/52 e P(B|A) = 4/51, o

que confirma matematicamente a dependência dos eventos.

O que ocorreria se a primeira carta retirada, o rei, fosse recolocada no

baralho, que voltaria a ter 52 cartas?

Neste caso, teríamos dois eventos independentes, pois a retirada da

primeira carta não influi na probabilidade de retirada da segunda. Obteríamos,

então:

Neste contexto, as probabilidades de retirada de um rei e logo após de

um ás são equivalentes.

Page 13: Apostila Teorica Parte 2

2.5. REGRAS DE MULTIPLICAÇÃO (TEOREMA DO PRODUTO)

A interseção de dois eventos A e B de um espaço amostral é designada

por P (A ∩ B). A ocorrência conjunta de A e B implica na observação apenas

dos elementos comuns aos dois eventos.

Para determinar matematicamente esta interseção, utilizamos a regra de

multiplicação, que difere conforme os eventos sejam dependentes ou

independentes. Para eventos independentes, a regra é a seguinte:

A probabilidade de que ocorra um evento e o outro – ênfase na

conjunção E – é obtida pelo produto das probabilidades dos dois eventos.

Vejamos um exemplo: suponhamos que, ao lançar dois dados, queremos que

no primeiro apareça o número 6 (A) e no segundo o número 4 (B). Os dois

eventos são independentes? Sim, pois a ocorrência de um não influi na

ocorrência do outro. Como resolver então o problema?

Em primeiro lugar, temos que P (A) = 1/6, pois existe uma única face

dentre as seis existentes que pode apresentar o número seis. P(B)=1/6, por

razões similares. Aplicando a fórmula acima teremos:

Assim, a probabilidade de que no lançamento de dois dados seja

retirado um seis e um quatro, no primeiro e no segundo dado, respectivamente

é de 1/36.

Examinemos agora um exemplo da regra de multiplicação para eventos

dependentes. Estes, como já foram mencionados, requerem a utilização da

probabilidade condicional. Como um evento influi na probabilidade do outro, o

segundo elemento da fórmula para o produto é modificado, ficando assim:

A situação é a seguinte: ao se retirar duas cartas de um baralho, sem

reposição, queremos que uma e outra sejam ás. Estes eventos são

Page 14: Apostila Teorica Parte 2

independentes? Não, pois há uma diminuição no total de cartas (de 52 para 51)

e no total de ases (de quatro para três). Neste caso, a retirada da primeira carta

influi na probabilidade da segunda. Aplicando a fórmula, teríamos:

Na mesma situação de jogo de cartas, desde que haja reposição (o que

caracteriza os eventos independentes), se queremos obter um ás (A) e um rei

(B), a determinação de sua probabilidade conjunta se simplificada. Voltando-se

a utilizar a primeira fórmula de produto, temos:

2.5. REUNIÃO DE EVENTOS (TEOREMA DA SOMA)

Até agora nos preocupamos em aprender a determinar a probabilidade

de ocorrência conjunta de dois eventos, expressa como probabilidade de A e B

– P(A B). Examinemos, agora, outro ângulo a ser considerado: a ocorrência de

um evento ou outro ou ambos. Consideremos o seguinte exemplo: estamos

fazendo uma primeira entrevista com um paciente e suspeitamos de que ele

possa ter problemas na área familiar ou social; isto não quer dizer que ambas

as áreas não possam estar comprometidas. Então, o paciente pode ter

dificuldades na área familiar ou social ou em ambas. Este exemplo ilustra, com

bastante clareza, a diferença entre interseção - multiplicação de eventos e

reunião - adição de eventos. Enquanto no primeiro caso lidamos com pelo

Page 15: Apostila Teorica Parte 2

menos dois eventos, em que nosso único interesse é o que há de comum entre

eles – expresso por um E – no segundo focalizamos apenas um evento,

propondo várias alternativas possíveis – o que é caracterizado pela expressão

OU. A expressão P (A ou B) é formulada matematicamente assim: P (A ∪ B).

Da mesma forma que para a multiplicação de probabilidades a adição

também apresenta duas estratégias, relacionadas ao fato de os eventos serem

ou não mutuamente exclusivos. O uso da palavra OU tem então dois sentidos

diferentes, sendo freqüente que tenhamos de adivinhar a qual delas nos

referimos. Se Joaquim diz: “Vou levar Patrícia ou Lúcia ao baile de sábado”,

presumimos que levará uma ou outra, mas não ambas. Nesse contexto, os

eventos são mutuamente exclusivos e o uso do OU é denominado ”ou

exclusivo”, pois fica excluída a possibilidade de ambos os eventos ocorrerem

simultaneamente.

Já quando um professor diz aos seus alunos: ”Darei um MB (muito bom) a

todos os que obtiverem notas superiores a 89 nas provas mensais ou a todos

cuja nota seja superior a 94 no exame final”, qual o significado de sua

afirmação?

O aluno que obtiver ambas as notas superiores a esses valores mínimos

ficará excluído do MB? O aluno só ganhará um MB se obtiver nota superior a

89 nas provas mensais ou nota superior a 94 no exame final? Neste caso,

configura-se o ”ou inclusivo”, pois os eventos não são mutuamente exclusivos.

O aluno pode ter nota superior a 89 nas provas mensais ou superior a 94 no

exame final ou ambos.

Estando claras as duas situações - eventos mutuamente exclusivos ou não –,

como aplicar a elas as regras de adição ou reunião de eventos?

Ao retirarmos uma carta de um baralho, os eventos rei (A) e ás (B) são

mutuamente exclusivos, pois não podem ocorrer simultaneamente.

Neste caso, a probabilidade de tirar um rei ou um ás é a seguinte:

Page 16: Apostila Teorica Parte 2

A regra de adição para dois eventos mutuamente exclusivos é, portanto,

a seguinte:

Page 17: Apostila Teorica Parte 2

3. PROBABILIDADE E TESTE DE HIPÓTESE

O objetivo do emprego da estatística em pesquisas científicas

não se resume apenas à descrição dos valores e à caracterização

da distribuição dos dados da amostra. É importante e imprescindível

que o pesquisador busque estabelecer inferências sobre a

população, com base na amostra estudada. Entretanto, como a

investigação científica tem suas limitações, não se pode considerar

que todas essas inferências estejam absolutamente corretas. Dessa

forma, para se estabelecer conclusões científicas válidas, é

necessário definir o risco assumido pelo pesquisador ao se

estabelecer conclusões a partir da amostra pesquisada. Para tanto,

o estabelecimento de inferências estatísticas se baseia no

conhecimento de princípios probabilísticos a partir da distribuição de

probabilidades dos dados (distribuição normal ou curva de Gauss,

distribuição t de Student, distribuição F de Snedecor, distribuição

qui-quadrado, etc.).

A figura 3 corresponde à probabilidade de ocorrência de um

evento e ilustra o problema da inferência. Observa-se que a

probabilidade de ocorrência de um valor é maior próximo do ponto

central da distribuição normal, correspondente à média. À medida

que os valores se distribuem, para mais ou para menos em relação

à média, sua probabilidade de ocorrência se torna menor quanto

mais extremo for esse valor. O desvio padrão corresponde ao ponto

de inflexão da curva, separando os valores mais comuns (mais

próximos da média) dos valores menos comuns (mais distantes da

média).

Page 18: Apostila Teorica Parte 2

A curva normal é definida a partir de dois parâmetros: média e

desvio padrão. A distribuição normal é a distribuição contínua de

probabilidade mais importante, em função de que:

a) representa com boa aproximação as distribuições de freqüências

observadas de muitos fenômenos naturais e físicos;

b) tanto as distribuições de médias como de proporções em

grandes amostras tendem a ser distribuídas normalmente, o que

tem grande importância em amostragem.

Se os dados se distribuem segundo a curva normal, pode-se

afirmar que:

a) aproximadamente 68,26% dos dados se localizam entre a média

mais ou menos um desvio padrão;

b) aproximadamente 95,44% dos dados se localizam entre a média

mais ou menos dois desvios padrões;

c) aproximadamente 99,74% dos dados se localizam entre a média

mais ou menos três desvios padrões.

Para se obter resultados conclusivos a partir de amostras de

uma população é necessário estabelecer certas hipóteses iniciais

que serão testadas utilizando métodos estatísticos apropriados que

Page 19: Apostila Teorica Parte 2

permitirão aceitá-las ou rejeitá-las. O objetivo de se testar uma

hipótese é permitir, a partir de uma única amostra, generalizações

para a população da qual a amostra foi extraída.

3.1 DEFINIÇÃO DA HIPÓTESE ESTATÍSTICA

Freqüentemente precisamos tomar decisões sobre

populações, com base em informações amostrais, as quais são

chamadas de decisões estatísticas. Por exemplo, com base em

resultados amostrais, podemos querer decidir se determinada

resina é melhor do que outra, se um processo educacional é mais

eficiente, se determinado medicamento é mais eficiente, etc. Assim,

admite-se inicialmente, um valor hipotético para um parâmetro

populacional desconhecido (média, mediana, desvio padrão,

proporção) e, a seguir, baseando-se em informações obtidas da

amostra, aceita-se ou não esse valor.

Os testes de hipóteses podem ser divididos em paramétricos

e não-paramétricos. Os testes de hipóteses paramétricos se

referem às hipóteses sobre os parâmetros populacionais e

dependem de pressuposições sobre a forma da distribuição da

população (distribuições normais ou amostras maiores que 30). Por

outro lado, os testes de hipóteses não-paramétricos se referem às

hipóteses sobre os parâmetros populacionais e não dependem de

pressuposições sobre a forma da distribuição da população.

O processo de testar a significância estatística envolve seis

passos básicos:

1º Estabelecer a hipótese nula Ho;

2º Estabelecer a hipótese alternativa H1;

Page 20: Apostila Teorica Parte 2

3º Fixar o nível de significância α;

4º Determinar a região de rejeição da hipótese nula Ho;

5º Definir o tamanho da amostra, coletar os dados e calcular o valor da

estatística correspondente;

6º Rejeitar ou aceitar Ho, conforme o valor da estatística baseada na

amostra cair na região de rejeição ou na região de aceitação.

Admitindo-se que duas amostras tenham sido obtidas de uma população

e se deseje testar, em relação a uma determinada característica, se a diferença

encontrada entre as duas amostras é devida ao acaso, como conseqüência da

variabilidade dos dados, ou se, de fato, as amostras são diferentes, a aplicação

do teste consiste na definição de duas hipóteses iniciais: a hipótese nula (H0),

afirmando que não há diferença entre os dois grupos, trata-se de uma hipótese

que atribui ao acaso a ocorrência do resultado observado; e a hipótese

alternativa (H1), afirmando que há diferença entre eles. Após a aplicação de um

teste estatístico apropriado para a comparação das médias, se há evidência

amostral para se rejeitar a hipótese nula, então se conclui pela hipótese

alternativa. Por outro lado, se o teste não evidencia diferença entre os grupos,

a hipótese nula não é rejeitada. O fato da hipótese nula não ser rejeitada não

implica, necessariamente, que ela seja verdadeira, mas que as evidências

obtidas a partir da amostra analisada não são suficientes para rejeitá-la.

3.2. DETERMINAÇÃO DO NÍVEL DE SIGNIFICÂNCIA ALFA PARA O TESTE

ESTATÍSTICO E DO VALOR DE P

O nível de significância alfa, representado pela letra grega alfa (α),

corresponde à probabilidade máxima assumida pelo pesquisador para fazer

uma inferência estatística. O nível de significância α corresponde à

probabilidade de se rejeitar incorretamente a hipótese nula quando ela é, na

realidade, verdadeira. Como é extremamente indesejável se rejeitar uma

hipótese nula verdadeira, esse risco assumido deve ser baixo. Os valores

normalmente utilizados são 0,05 (5%) e 0,01 (1%).

Page 21: Apostila Teorica Parte 2

O nível de significância α está intimamente relacionado ao valor de p,

obtido com a aplicação do teste estatístico. O valor de p é considerado a

probabilidade do resultado observado ser devido apenas ao acaso. Se o valor

de p for menor ou igual que o valor de α estabelecido a priori, a hipótese nula é

rejeitada.

Considera-se, nesse caso, que há diferença estatisticamente significante

entre as médias das amostras. Caso ocorra o contrário, ou seja, se o valor de p

for maior que o valor de α, a hipótese nula não é rejeitada e a diferença entre

as médias das amostras é, então, considerada não significante.

3.3. ERRO ESTATÍSTICO

Em função de vários fatores como imprecisões nos métodos de coleta

dos dados, influência de fatores externos ou mesmo à variabilidade natural que

ocorre nos dados, existe a possibilidade do pesquisador decidir erroneamente

ao testar uma hipótese.

Dois erros são possíveis:

Erro tipo I – É o erro cometido quando se rejeita a hipótese nula, sendo que a

mesma é verdadeira. Também denominado erro alfa (α) ou erro falso-positivo.

Erro tipo II – É o erro cometido quando se aceita a hipótese nula, sendo que a

mesma é falsa, também denominado erro beta (β) ou erro falso-negativo.

A adoção de um valor de α pequeno (p ≤ 0,05) é necessária para evitar o

erro tipo I. Amostras pequenas e análises sucessivas podem aumentar o risco

de se incorrer em erro do tipo I, ou seja, de se encontrar uma diferença quando

ela, na verdade, não existe. Se o valor de p é pequeno, a diferença encontrada

tem pouca chance de ser devida ao acaso – variabilidade inerente das

amostras – conclui-se, portanto que as populações são, com grandes

probabilidades, diferentes, e espera-se que em menos de cinco vezes em 100

de que tal resultado seja devido ao efeito do acaso na composição das

amostras.

O erro tipo II (β) ocorre devido à presença de grande variabilidade dos

dados, amostras pequenas e métodos experimentais incorretos. Esses fatores

Page 22: Apostila Teorica Parte 2

aumentam a possibilidade de não se detectar uma diferença quando, na

verdade, ela ocorre. Um valor de β considerado aceitável é de 10 a 20%.

Considerando β como sendo a probabilidade de erro tipo II, é possível

determinar o poder do teste como sendo igual a (1-β). É a probabilidade de

corretamente rejeitar uma hipótese nula quando ela for falsa. Um teste

estatístico tem mais poder quanto mais for capaz de rejeitar uma hipótese nula

quando ela, de fato for falsa, ou seja, o poder corresponde à capacidade do

estudo em detectar diferenças. O poder do estudo é muitas vezes utilizado

para o planejamento do tamanho da amostra e para ajudar na interpretação de

um experimento em que a diferença encontrada não foi estatisticamente

significante.

Quando a diferença encontrada não foi estatisticamente significante, é

interessante calcular que poder tem o teste realizado para detectá-la.

Quando da aplicação de um teste de hipótese, o erro estatístico pode

ser minimizado evitando-se amostras muito pequenas, comparações

demasiadas, muitos subgrupos e reduzindo-se a variabilidade dos mesmos

(C.V. ≤ 30%).

Para fins práticos, n > 100 pode ser considerada amostra grande. 30 ≤ n

≤ 100 é considerada amostra média. 10 ≤ n < 30 é considerada amostra

pequena e, n < 10 são amostras muito pequenas.

Para a aplicação de um teste de hipótese paramétrico quando a variável

é quantitativa (contínua), é importante considerar que para amostras em que n

< 30 , a população de onde a amostra foi obtida, com relação à variável de

interesse, deve ter distribuição normal. Quando não se sabe se a população

tem distribuição normal, pode-se testar a normalidade da amostra através do

teste de normalidade de Kolmogorov-Smirnov ou Shapiro-Wilk.

Para amostras em que n ≥ 30 não existe restrição com relação à

normalidade ou não da população, pois a distribuição amostral de médias é

normal ou tende para a normal, para n ≥ 30.

Page 23: Apostila Teorica Parte 2

3.4 ESCOLHA DO TESTE ESTATÍSTICO

Dentre os inúmeros testes e técnicas estatísticas que se apresentam no

contexto de um trabalho de pesquisa, é natural um certo grau de desorientação

quanto à identificação daqueles que são ou não aplicáveis a cada situação. A

utilização correta de um teste de hipótese se baseia em cinco parâmetros que

orientam a decisão do pesquisador.

3.4.1 Natureza da Variável

A identificação das variáveis do estudo é o passo inicial para a escolha

do teste estatístico apropriado para a análise dos dados. As variáveis devem

ser inicialmente identificadas quanto ao tipo de escala: nominal, ordinal ou

quantitativa (discreta, intervalar ou escala de razão).

3.4.2 Distribuição de Probabilidade dos Grupos

Quando a variável apresenta escala ordinal ou quantitativa e o tamanho

da amostra em cada grupo é menor que 30, testes adicionais devem ser

aplicados para definir se a distribuição de probabilidade dos dados seguem o

padrão da distribuição normal (ou curva de Gauss) ou se a distribuição dos

dados é desconhecida ou diferente da distribuição normal.

3.4.3 Número de Grupos incluídos no Estudo

Inicialmente deve-se definir o número de grupos (um, dois ou mais

grupos) e o tamanho da amostra dentro de cada grupo, selecionado através de

técnicas de amostragem apropriadas.

3.4.4 Dependência ou Independência dos Grupos incluídos no Estudo

A forma de organização dos grupos também tem grande influência na

escolha do tipo de teste estatístico a ser aplicado. Essa organização é definida

quando do planejamento da pesquisa e pode dispor os grupos de três

maneiras: dependente (emparelhada), independente (não-emparelhada) ou

ambas (dependente e independente).

Page 24: Apostila Teorica Parte 2

Considere em primeiro lugar, que um estudo tem como objetivo

identificar diferença entre dois grupos de pacientes em relação a uma

determinada doença. No caso em questão, um grupo tem a doença (caso),

enquanto o outro grupo não apresenta a doença (controle). Assim, os dois

grupos são considerados independentes (ou não-emparelhados) porque são

compostos de diferentes indivíduos.

Por outro lado, considere um estudo representado por um grupo de

pacientes que é avaliado duas vezes, antes e após a instituição de um

tratamento.

Nesse caso cada indivíduo é avaliado duas vezes, atuando como seu

próprio controle.

Nesse caso, obtêm-se dois grupos (antes e após a instituição do

tratamento), considerados dependentes (ou emparelhados) uma vez que são

compostos pelos mesmos indivíduos.

Finalmente, considere um estudo que tem como objetivo identificar

diferença entre dois grupos de pacientes em relação a uma determinada

doença, em dois momentos. No caso em questão, um grupo apresenta a

doença (caso), enquanto o outro grupo não apresenta a doença (controle).

Assim, os dois grupos são considerados independentes (ou não-

emparelhados) porque são compostos por diferentes indivíduos, enquanto que

dentro de cada grupo, em relação aos dois momentos as amostras são

dependentes (ou emparelhadas), uma vez que são compostas pelos mesmos

indivíduos em T1 e T2.

3.4.5 Tipo de Inferência Desejada

O objetivo principal de uma pesquisa científica é realizar inferências, a

partir de uma amostra, que possam ser extrapoladas para a população da qual

a amostra foi extraída. Tendo em vista o tipo de inferência desejada, o

planejamento da pesquisa é orientado segundo um ou mais objetivos:

a) comparar grupos;

b) verificar a associação entre variáveis;

Page 25: Apostila Teorica Parte 2

c) medir a variabilidade na obtenção de dados.

A comparação entre grupos é utilizada quando se deseja avaliar se diferentes

tratamentos promovem efeitos diferenciados ou se a prevalência ou incidência

de uma determinada característica é a mesma em diferentes grupos ou em

diferentes momentos, ou qualquer outro tipo de análise comparativa.

Uma pesquisa para avaliar o grau de associação entre diferentes

variáveis é utilizada quando se deseja verificar a influência de uma variável

sobre a outra, ou até mesmo, estabelecer a relação de causa e efeito de uma

ou mais variáveis sobre a outra. O conhecimento de uma ou mais variáveis

contribui ou não para o conhecimento de outras variáveis do estudo, ou seja,

buscar na teoria se as variáveis são associadas ou independentes entre si.

Por outro lado, o pesquisador pode estar interessado em avaliar se

fatores externos influenciam a obtenção de dados. Desta forma, testes

estatísticos são empregados visando estabelecer a concordância nos valores

obtidos por diferentes examinadores, por avaliações distintas realizadas pelo

mesmo examinador, ou para comparar a concordância de diferentes métodos

ou critérios de avaliação. Incluem-se também nessa categoria os testes

empregados para determinação da acuidade de métodos de diagnóstico.

3.5 TESTE DE COMPARAÇÃO ENTRE GRUPOS

A seguir serão apresentados os testes de hipóteses para comparação

entre grupos a partir de variáveis qualitativas.

3.5.1 Variáveis Qualitativas

Ao se comparar grupos que são medidos numa escala nominal

categórica (dicotômica ou politômica), tem-se as seguintes opções de aplicação

de testes estatísticos, conforme quadro 6.

O Teste de Qui-Quadrado é o teste mais empregado para a

comparação de dados em escala nominal categórica (dicotômica ou

politômica), representado por χ2. Como os dados para o teste são definidos em

categorias e pela freqüência com que ocorrem, não podem ser utilizados dados

Page 26: Apostila Teorica Parte 2

quantitativos. O teste de χ2 pode ser utilizado tanto para testar diferença entre

duas proporções, quanto para avaliar a independência entre duas variáveis

categóricas.

A hipótese a ser comprovada é a de que os dois grupos diferem em

relação à determinada característica e, consequentemente, com respeito à

freqüência relativa com que os componentes dos grupos se enquadram nas

diversas categorias.

Para a realização do teste, os indivíduos de uma amostra são estudados

segundo duas variáveis qualitativas e os dados são organizados em uma

tabela de contingência C x L, na qual as colunas e as linhas representam as

categorias das duas variáveis em análise, conforme quadro 7.

Vários procedimentos de pesquisa dão origem às freqüências

apresentadas no quadro 7: ensaios clínicos, estudos prospectivos, estudos

retrospectivos e estudos transversais.

Page 27: Apostila Teorica Parte 2

Para a realização de um ensaio clínico controlado, o pesquisador deve

definir uma amostra de n pacientes, ao acaso, em dois ou mais grupos: cada

grupo recebe certo tratamento. Se o tratamento de cada paciente tem apenas

duas possibilidades de resultado, como sucesso e fracasso e dois grupos

experimentais, os dados do experimento devem ser apresentados em uma

tabela 2 x 2.

A incidência pode ser definida como sendo a freqüência (número) de

transições de saudável para doente, de não-acidentado para acidentado ou de

vivo para morto em um estudo populacional durante um determinado período

de tempo.

O risco relativo, ou razão de incidências, expressa o quociente entre o

risco de adoecer em um grupo exposto a um fator qualquer e o risco

correspondente em um grupo não-exposto ao mesmo fator.

O risco atribuível, ou diferença de incidência, resulta da diferença entre

dois indicadores de ocorrência, informando o excesso, ou resíduo, de um sobre

o outro. Avalia quanto da incidência na população em estudo pode ser

imputado ao efeito do suposto fator de risco. É dado pela diferença entre o

risco no total da população e o risco no grupo não-exposto.

No estudo retrospectivo, o pesquisador necessita de um grupo de

pessoas com determinada doença e um grupo comparável de pessoas sem

essa doença.

O pesquisador calcula a proporção de pessoas com a característica

suspeita em cada grupo, visando identificar se foram ou não expostas a

determinado fator. Existe a suspeita de que o câncer de pulmão ocorra mais

em pessoas fumantes. Se o pesquisador não tem condições em função de

tempo e recursos de acompanhar um grupo de fumantes e não-fumantes até

que alguns deles desenvolvam a doença (estudo prospectivo), pode tomar um

grupo de pessoas com a doença e outro grupo comparável, de pessoas sem a

doença (estudo de caso-controle), para obter o número de fumantes e não-

fumantes em cada grupo. Assim sendo, os efeitos das variáveis intervenientes

– como sexo, idade, nível socioeconômico – ficam controlados.

Page 28: Apostila Teorica Parte 2

Com base nesse estudo, o pesquisador pode comparar a probabilidade

de uma pessoa ser fumante dado que têm a doença, com a probabilidade de

uma pessoa ser fumante, dado que não têm a doença. Essas probabilidades

podem ser iguais (hipótese da nulidade) ou diferentes (hipótese alternativa),

sendo possível a obtenção de estatísticas como odds ratio, além da aplicação

do teste de Qui-Quadrado e Mantel-Haenszel.

O odds ratio, ou razão de produtos cruzados, é dado pelo quociente

entre a chance de exposição no grupo doente pela chance de exposição no

grupo não-doente.

Nos estudos transversais, o pesquisador obtém uma amostra

representativa de uma população e classifica cada indivíduo amostrado

segundo variáveis de interesse. Com base no exemplo anterior, se o

pesquisador considera as variáveis: ser ou não ser fumante e apresentar ou

não câncer de pulmão, e classifica cada uma segundo a presença ou não da

doença e o fato de ser ou não fumante.

Os dados obtidos permitirão verificar se o fato de a pessoa ter a doença

está associado ao fato de ser fumante. Assim sendo, o pesquisador pode testar

a hipótese de que o aparecimento da doença está associado ao fato da pessoa

ser fumante; ou de que o aparecimento da doença não depende de a pessoa

ser fumante. Nesse tipo de estudo, é possível a obtenção de estatísticas como

prevalência, razão de prevalência, além da aplicação de testes de diferença de

proporções e o teste de Qui-Quadrado.

A prevalência é o número de pessoas, em uma determinada população,

que tem uma doença específica ou condição em um ponto do tempo.

Em tabelas de contingência, devemos observar as seguintes condições:

a) tabela 2 x 2: O tamanho da amostra deve ser maior que 20. Se a amostra for

menor que 40, nenhum valor esperado pode ser menor do que 5. Além disso,

deve-se utilizar a correção de continuidade de Yates no cálculo do χ2 , gerando

assim um resultado mais conservador, ou seja, um teste com menor

probabilidade de rejeitar a hipótese nula. Se existir células com valor esperado

menor do que 5, utilizar o Teste Exato de Fisher; b) quando n < 20, utilizar o

Teste Exato de Fisher; c) tabelas 2 x L: o χ2 pode ser calculado se todos os

Page 29: Apostila Teorica Parte 2

valores esperados forem maiores do que 1 e se o número de células com

freqüência inferior a 5 é de no máximo 20% do total de células; d) tabelas C x

L: o teste χ2 é um procedimento seguro se o número esperado médio for maior

ou igual a 6, para testes com nível de significância de 5% e 10% ou maior do

que 6 para testes com nível de significância de 1%. O número médio esperado

pode ser obtido dividindo-se o total de indivíduos da amostra pelo número de

celas.

O Teste de Mantel-Haenszel se aplica a dados categóricos, em

situações como a do teste de Qui-Quadrado. Contudo, em alguns casos, pode

existir alguma variável independente associada à variável dependente (fator

discriminante), que esteja também exercendo influência sobre a variável

independente (fator discriminado). Dessa forma, poderia ser desejável entender

o efeito isolado da variável dependente sobre a independente, isto é, eliminar o

efeito não desejado da variável independente interveniente (de confundimento)

associada à variável dependente. O teste consiste no cálculo do quociente

entre a soma das freqüências observadas e esperadas que relacionam

positivamente a variável dependente e a variável independente, para todas as

possíveis condições da variável independente interveniente e a soma das

variâncias para todas as possíveis condições da variável independente

interveniente.

O Teste Exato de Fisher é empregado para comparar dados

categorizados em tabelas 2 x 2 quando o número total de casos é menor que

20 e existem células cujo valor esperado é menor do que 5.

O Teste de Igualdade de Duas Proporções é um teste equivalente ao

teste de χ2, para tabelas 2 x 2, com a diferença de que as freqüências absolutas

são convertidas em proporções. Para tanto, as amostras devem ser

relativamente grandes e as freqüências esperadas maiores que 5.

O coeficiente de Contingência (C) é uma medida da associação ou

relação entre dois conjuntos de atributos. É indicado quando tem-se apenas

informações categóricas (escala nominal) sobre os dois conjuntos de atributos.

Os dados podem consistir de qualquer número de categorias, isto é, pode-se

calcular um coeficiente de contingência com base em uma tabela de

contingência C x L. Para testar a hipótese de associação, compara-se os

Page 30: Apostila Teorica Parte 2

valores observados com os valores esperados caso a hipótese nula seja

verdadeira. Quanto maior a discrepância entre esses valores esperados

(teóricos) e os valores observados nas células, maior o grau de associação

entre as duas variáveis e, assim, maior o valor de C.

Para qualquer tabela de contingência C x L pode-se determinar a

significância do grau de associação determinando a probabilidade de

ocorrência, sob H0, de valores tão grandes quanto o valor observado de χ2. Se

essa probabilidade não supera α , pode-se rejeitar a hipótese de nulidade,

àquele nível.

Se o valor de χ2 obtido com base na amostra é estatisticamente

significante, pode-se concluir que, na população, a associação entre os dois

conjuntos é estatisticamente diferente de zero.

A variação do coeficiente de contingência C não segue o mesmo padrão

do coeficiente de correlação linear de Pearson, uma vez que seu valor varia

entre zero e um limite superior menor do que um, dependendo do número de

categorias. Seu cálculo somente deve ser realizado se os pressupostos para a

aplicação do teste de χ2 forem satisfeitos. É importante ressaltar que a

comparação de dois coeficientes de contingência só é possível quando forem

obtidos a partir de tabelas de contingência com o mesmo número de

categorias.

O Coeficiente ψ (fi) é uma medida muito utilizada pelos pesquisadores

visando estimar o grau de associação entre duas variáveis categóricas

nominais (dicotômicas ou politômicas), uma vez que o teste de χ2 serve apenas

para verificar a significância da associação, mas não para medir o grau de

associação entre as duas variáveis. Se o coeficiente ψ = 0, indica que a

associação é nula. Quanto mais próximo de 1, maior será o grau de associação

entre as variáveis. Da mesma forma que o coeficiente de correlação de

Pearson, se 0 < ψ < 0,30, existe fraca associação. Se 0,30 ≤ ψ < 0,60, existe

associação regular. Se 0,60 ≤ ψ < 0,90, existe associação forte. Finalmente, se

0,90 ≤ ψ < 1, existe associação muito forte.

O Coeficiente V de Cramér, assim como o coeficiente de contingência

C, é uma medida de associação entre duas variáveis categóricas nominais

Page 31: Apostila Teorica Parte 2

(dicotômicas ou politômicas). Se o coeficiente V = 0, indica que a associação é

nula. Quanto mais próximo de 1, maior será o grau de associação entre as

variáveis.

O Teste das Significâncias das Mudanças de Mc-Nemar é indicado

para duas variáveis categóricas dicotômicas (Presença e Ausência) com o

objetivo de avaliar diferenças na freqüência de discordância entre os pares de

dados, para amostras em que n ≥ 25. É um teste adequado para experimentos

do tipo antes e depois (amostras emparelhadas), em que cada indivíduo é

utilizado como seu próprio controle, visando detectar as mudanças de uma

categoria para a outra. O teste deve ser aplicado desde que as freqüências

esperadas sejam pelo menos igual a 5. Para comprovar a significância de

qualquer mudança observada, constrói-se uma tabela de freqüências de dupla

entrada (quatro casas) para representar o primeiro e o segundo conjunto de

reações das mesmas unidades observacionais.

O Teste dos Sinais é empregado na comparação dos resultados de

amostras emparelhadas de dados nominais categóricos dicotômicos, baseados

na distribuição binomial, para amostras em que n < 25 O teste converte a

diferença em cada par selecionado nos sinais de mais (+) ou de menos (–).

Quando um par não acusa diferença (sem sinal), o mesmo é desprezado na

análise, reduzindo-se, assim, o tamanho da amostra n. Se a hipótese nula é

verdadeira, espera-se encontrar uma ocorrência de aproximadamente 50% de

sinais positivos e 50% de sinais negativos.

O Teste Q de Cochran é indicado para se testar a hipótese de que três

ou mais condições experimentais têm o mesmo efeito sobre os elementos que

compõem a amostra. As variáveis dependentes são dicotômicas e devem ser

medidas sobre os mesmos indivíduos (amostras emparelhadas) ou quando o

pesquisador conseguir emparelhar indivíduos semelhantes em relação a uma

série de variáveis (sexo, idade, altura, peso, hábitos, etc.). O teste consiste em

avaliar se a proporção ou freqüência de resposta de determinado tipo é a

mesma para cada condição experimental, excetuadas as diferenças devidas ao

acaso. Se Ho é rejeitada, as comparações duas a duas podem ser feitas

utilizando o teste das significâncias das mudanças de Mc-Nemar.

Page 32: Apostila Teorica Parte 2

3.5.2 Variáveis Quantitativas ou Ordinais

A comparação de grupos relacionados a variáveis quantitativas ou

ordinais é realizada utilizando testes estatísticos diferentes das variáveis

qualitativas. A identificação de uma variável medida numa escala numérica não

é suficiente para se definir o tipo de teste indicado para a comparação dos

grupos. É necessário verificar quando n < 30 se a distribuição dos dados para

cada grupo segue a distribuição normal (paramétrica) ou se a distribuição dos

dados é desconhecida ou diferente da distribuição normal.

Uma forma de se testar o padrão de distribuição dos dados é utilizando

os testes de normalidade de Kolmogorov-Smirnov ou Shapiro-Wilk.

O Teste de Kolmogorov-Smirnov compara a distribuição de freqüência

real acumulada dos dados da amostra com uma distribuição normal acumulada

gerada a partir da média e do desvio padrão supostamente conhecidos

(populacionais). Esta comparação é efetuada com base na maior diferença

entre as freqüências observadas acumuladas e as freqüências esperadas

acumuladas dessas duas curvas.

O teste de Kolmogorov-Smirnov quando efetuado sob a suposição de

que os parâmetros populacionais da normal são desconhecidos, e utiliza a

estimativa da média e desvio padrão a partir da amostra, é denominado de

teste de Kolmogorov-Smirnov com a correção de Lilliefors. É mais poderoso

que o teste qui-quadrado para a bondade do ajustamento, uma vez que pode

ser aplicado para pequenas amostras.

O Teste de Shapiro-Wilk compara a distribuição de freqüência real dos

dados da amostra com uma distribuição normal gerada a partir do cálculo da

média e do desvio padrão obtidos a partir da amostra, utilizando assim a

variante de Lilliefors do teste de Kolmogorov-Smirnov. É um teste mais

conservador do que o teste de Kolmogorov-Smirnov.

Admitindo que a distribuição dos dados seja normal ou

aproximadamente normal, quando n < 30, são indicados os testes paramétricos

para comparação entre grupos. O quadro 8 apresenta os principais testes

utilizados para variáveis quantitativas ou ordinais, que seguem a distribuição

normal ou quando n ≥ 30 para cada grupo.

Page 33: Apostila Teorica Parte 2

O Teste t de Student se baseia num tipo de distribuição de dados

semelhante à distribuição normal, conhecida como distribuição t de Student. É

uma distribuição simétrica, porém mais platicúrtica, recomendada para

pequenas amostras (n < 30).

O teste t de Student pode ser utilizado para verificar se uma única

amostra provém ou não de uma população cuja média é conhecida.

Normalmente é empregado para testar a hipótese nula de que as médias de

duas amostras são iguais. Nesse tipo de teste, a primeira questão é observar o

tipo de experimento envolvido, ou seja, se as amostras são dependentes

(emparelhadas) ou independentes (não-emparelhadas).

O Teste t de Student para grupos Independentes utiliza para o seu

cálculo a diferença entre as duas médias, o desvio padrão dos grupos, o

tamanho de cada amostra e o erro padrão das diferenças das médias entre os

dois grupos.

Page 34: Apostila Teorica Parte 2

Considerando a hipótese nula de que não há diferença entre as médias

dos grupos, após a obtenção de t calculado e a definição do nível de

significância α desejado, compara-se o valor de t calculado com o valor de t

tabelado. Se o valor de t calculado for maior que o valor crítico fornecido pela

tabela, rejeita-se a hipótese nula de igualdade de médias entre os grupos,

evidenciando diferença estatisticamente significante entre as médias dos

grupos.

O teste t para grupos independentes somente deve ser aplicado quando

a distribuição dos dados for normal ou a amostra de ambos os grupos for maior

ou igual a 30.

Quando as variâncias das amostras não forem homogêneas, uma

modificação do teste t de Student, denominada correção para graus de

liberdade de Aspin-Welch deve ser aplicada. Para avaliar se os grupos

apresentam variâncias homogêneas pode ser utilizado o Teste de

Homogeneidade de Variâncias de Levene.

O Teste de Homogeneidade de Variâncias de Levene compara se os

grupos analisados possuem variabilidades semelhantes ou diferentes. Quando

as variâncias são homogêneas, as populações são chamadas de

homocedásticas, enquanto que no segundo caso as populações são chamadas

heterocedásticas.

O valor do quociente entre a maior e a menor variância amostral fornece

a estatística F de Snedecor. Evidentemente, se as variabilidades amostrais

forem próximas, o valor de F torna-se mínimo e igual a um, conduzindo a

aceitação da hipótese nula e consequentemente da homocedasticidade das

populações.

O Teste t de Student para grupos dependentes é aplicado para

comparação das médias de dois grupos emparelhados que utiliza para o seu

cálculo a média das diferenças entre cada um dos pares formados pelas duas

amostras, o desvio padrão das diferenças, o erro padrão das diferenças e o

tamanho da amostra das diferenças. Considerando a hipótese nula de que a

diferença média entre os dois grupos é zero, após a obtenção de t calculado e

a definição do nível de significância α desejado, compara-se o valor de t

Page 35: Apostila Teorica Parte 2

calculado com o valor de t tabelado. Se o valor de t calculado for maior que o

valor crítico fornecido pela tabela, rejeita-se a hipótese nula de igualdade de

médias entre os grupos, evidenciando diferença estatisticamente significante

entre as médias dos grupos.

O teste t para grupos dependentes somente deve ser aplicado quando a

distribuição das diferenças dos dados for normal ou a amostra de ambos os

grupos for maior ou igual a 30.

A Análise de Variância – ANOVA, a um ou mais critérios de

classificação, é a estatística indicada para a comparação de três ou mais

grupos de dados com escala pelo menos intervalar com distribuição normal ou

aproximadamente normal.

Constitui-se de um conjunto de técnicas estatísticas para descobrir

"fatores" que produzem mudanças sistemáticas em alguma variável de

interesse. Os fatores propostos são atributos ou variáveis qualitativas,

enquanto que a variável dependente é quantitativa e é observada dentro das

classes dos fatores visando analisar se difere de forma significativa.

Trata-se de uma generalização do teste para a diferença entre duas

médias (teste t de Student), para o caso de compararmos simultaneamente K

médias (K > 2), supondo que as mesmas foram calculadas sobre amostras

aleatórias extraídas da população.

O problema está em concluir se algum, ou alguns desses K grupos são

estatisticamente diferentes uns dos outros. Poderiam ser comparados os

grupos, dois a dois, por meio do teste t de Student, o que poderia revelar uma

diferença significante entre quaisquer dois grupos. Porém, proceder dessa

forma seria incorrer num erro do tipo I, pois ao aceitar 5% de erro, a

comparação de 4 grupos envolve a aplicação do teste t de Student seis vezes

separadamente, incorrendo numa chance de 30% (6 x 5%) de encontrar, por

mero acaso, uma diferença estatisticamente significante.

Existem dois modelos de análise de variância: o de um critério, em que

há apenas uma variável independente (ou fator), e o de dois ou mais critérios,

com ou sem interação, em que há duas ou mais variáveis independentes (ou

fatores).

Page 36: Apostila Teorica Parte 2

O termo um critério indica que os dados foram avaliados segundo uma

variável independente, como por exemplo, a dureza de uma restauração é

medida segundo três materiais (resina híbrida, ionômero fotoativo e ionômero

ativo). Como existe um fator de variação, material (com três níveis), uma

questão pode ser formulada: 1) há diferença nos valores médios da resistência

entre os três materiais, mantido todos os demais fatores constantes?

O termo dois critérios indica que os dados foram avaliados segundo

duas variáveis independentes, como por exemplo, a dureza de uma

restauração é medida segundo três materiais (resina híbrida, ionômero

fotoativo e ionômero ativo) e três formas de irradiação (sem irradiação,

irradiado com 30 Gy e irradiado com 50 Gy).

Como existem dois fatores de variação, materiais (com três níveis) e

irradiação (com três níveis), três questões podem ser formuladas: 1) há

diferença entre os três materiais, independente da forma de irradiação?, 2) há

diferença entre as três formas de irradiação, independente do tipo de material?,

e; 3) há interação entre tipo de material e forma de irradiação?. O segundo

caso, quando todos os materiais estão na presença de todas as formas de

irradiação, envolve o modelo de ANOVA a dois critérios, modelo fatorial

completo.

Para a aplicação do modelo de análise de variância, os dados das

amostras devem cumprir três pré-requisitos básicos:

a) os dados devem apresentar distribuição normal dentro de cada grupo

quando n < 30;

b) os dados devem apresentar homogeneidade de variâncias entre os grupos;

c) os dados de cada grupo devem ser aleatórios e independentes, ou seja,

cada observação individual não deve ter qualquer relação com outra

observação do grupo.

No entanto, nem todos os pré-requisitos têm igual importância. Na

verdade, os resultados do teste são pouco afetados quando há desvios

moderados em relação à distribuição normal, especialmente quando o tamanho

da cada grupo for de pelo menos n ≥ 30. Por outro lado, o teste não-

paramétrico de Kruskal-Wallis, correspondente à análise de variância a um

Page 37: Apostila Teorica Parte 2

critério, é indicado quando os dados apresentam uma distribuição com

assimetria forte, principalmente quando o tamanho da amostra for menor que

30.

Os requisitos de homogeneidade das variâncias entre os grupos e

independência das observações são de particular importância. Para o controle

desses problemas recomenda-se que o tamanho da amostra seja igual ou

semelhante dentro de cada grupo e que se evite estudos envolvendo medidas

repetidas na mesma unidade observacional, a menos que o pesquisador saiba

que a ocorrência de um valor independe da ocorrência de qualquer outro valor.

Quando os grupos apresentarem variâncias heterogêneas e o teste da

ANOVA indicar diferenças entre os grupos, recomenda-se para identificar quais

grupos diferem entre si, a utilização de um teste de comparações múltiplas

paramétricas admitindo variâncias heterogêneas, como por exemplo, o teste de

comparações múltiplas paramétricas de Games-Howell ou o teste de Dunnett´s

T3.

A comparação dos grupos pelo método da ANOVA é feita aplicando-se a

estatística F de Snedecor, através do estudo das causas de variação. Essas

causas provêm basicamente de duas fontes. A primeira causa de variação é

devida ao fato dos tratamentos aplicados a cada grupo serem diferentes, ou

seja, relacionada à diferença das médias dos grupos. A Segunda causa é

devida ao acaso (variabilidade residual), como resultado das diferenças no

interior de cada grupo.

A aplicação da estatística F de Snedecor visando não rejeitar a hipótese

nula de igualdade entre as médias dos grupos consiste em mostrar que a

variância de cada grupo é semelhante à variância entre os grupos. Essa

análise fornece um valor de F. Quanto maior for esse valor, maior será a

variação entre os grupos em relação à variação dentro de cada grupo e,

portanto, maior a probabilidade de se rejeitar a hipótese de igualdade entre os

grupos.

A partir dos dados do experimento, a valor calculado da estatística F é

comparado com o valor tabelado. Para tanto, é necessário definir o nível de

significância α e calcular o número de graus de liberdade do teste.

Page 38: Apostila Teorica Parte 2

Considerando a hipótese nula de que não há diferença entre as médias dos

grupos, após a obtenção de F calculado e a definição do nível de significância

α desejado, compara-se o valor de F calculado com o valor de F tabelado. Se o

valor de F calculado for maior que o valor crítico fornecido pela tabela, rejeita-

se a hipótese nula de igualdade de médias entre os grupos, evidenciando

diferença estatisticamente significante entre as médias dos grupos.

A análise de variância serve para verificar se existe diferença

significativa entre pelo menos dois grupos. Porém, se houver diferenças, não

se sabe, através dela, quais grupos diferem entre si. A identificação de

diferenças entre médias, tomando-as duas a duas, deve ser feita usando um

dos vários testes de comparações múltiplas entre médias existentes na

literatura. Estes testes são semelhantes ao teste t de Student, com a diferença

de que controlam o nível de significância α ao levar em conta o número de

comparações feitas no experimento. Além disso, nesta técnica estatística, a

variância dentro dos grupos é estimada usando o quadrado médio do resíduo,

do quadro da ANOVA, que é baseado em todas as amostras, enquanto em um

teste t a variância dentro dos grupos é estimada com base em duas amostras

apenas.

Vários procedimentos têm sido propostos para prosseguir na análise dos

dados, admitindo variâncias homogêneas e heterogêneas entre os grupos, e

diferem entre si quanto à maior ou menor capacidade de reduzir erros do tipo I

ou do tipo II.

Serão descritos a seguir, cinco dos mais usados (Tukey HSD, SNK,

Bonferroni, Scheffé e Dunnett), os quais analisam todas as comparações

possíveis, admitindo variâncias homogêneas entre os grupos e o teste de

comparações múltiplas paramétricas de Games-Howell, o qual analisa todas as

comparações possíveis, admitindo variâncias heterogêneas entre os

grupos.Tais procedimentos podem ser usados na condição de que o resultado

do teste F do quadro da ANOVA seja estatisticamente significante.

O Teste de Tukey HSD (Honestly Significant Difference) é empregado

para se determinarem as diferenças significantes entre as médias de todos os

grupos analisados no teste ANOVA, tomadas duas a duas, quando existir

homogeneidade de variâncias entre os grupos. O método de Tukey HSD

Page 39: Apostila Teorica Parte 2

protege os testes de um aumento no nível de significância α devido ao grande

número de comparações efetuadas. Inicialmente, ordenam-se as médias da

maior à menor. Se uma diferença entre duas médias não é significativa, não há

razão para existir diferença entre as médias compreendidas entre essas duas.

Assim sendo, as diferenças englobadas por uma diferença estatisticamente

não significante não devem ser testadas. É fornecido um valor crítico e a

diferença entre as médias dos grupos comparados é considerada significante

quando exceder esse valor crítico.

O Teste de Student-Newman-Keuls (SNK) é empregado com o mesmo

objetivo que o teste de Tukey HSD, com exceção de que o valor crítico

depende não do número K de tratamentos envolvidos no experimento, mas do

número K* de médias incluídas na amplitude de médias que está sendo

testada. Deve ser utilizado quando existir homogeneidade de variâncias entre

os grupos. Baseia-se na ordenação das médias e no estabelecimento do

número de graus de liberdade que separam as médias entre si. Se o valor

calculado da estatística do teste for maior do que o valor tabelado, rejeita-se a

hipótese nula de igualdade entre as médias dos dois grupos comparados.

O Teste de Bonferroni baseia-se na estatística t de Student, admitindo

existir homogeneidade de variâncias entre os grupos. Consiste em corrigir o

nível de significância α , devido ao fato de múltiplas comparações estarem

sendo realizadas, o que aumenta a possibilidade de erro tipo I (encontrar

diferença significante devido ao acaso). É necessário que a escolha das

comparações – se não forem todas – seja feita a priori e não após a inspeção

dos resultados. O procedimento consiste em calcular uma diferença entre

médias denominada t de Bonferroni. Se o valor calculado t Bonf for maior do

que o valor tabelado, rejeita-se a hipótese nula de igualdade das médias entre

os dois grupos comparados.

O Teste de Scheffé avalia todas as combinações possíveis entre os

grupos e não apenas comparações aos pares, admitindo existir

homogeneidade de variâncias entre os grupos. É especialmente útil no caso

dos contrastes múltiplos, quando se quer comparar um grupo de tratamentos

com outro, por exemplo, G2 + G3 contra G1. É considerado um método

conservador pois, quando compara os grupos aos pares requer diferenças

Page 40: Apostila Teorica Parte 2

maiores entre as médias para estabelecer significância estatística. O

procedimento consiste em calcular o módulo da diferença entre médias. Se o

valor calculado for maior do que o valor tabelado, rejeita-se a hipótese nula de

igualdade das médias entre os dois grupos comparados.

O Teste de Dunnett é empregado quando se deseja comparar vários

tratamentos com um grupo controle, não sendo possível a comparação dos

tratamentos entre si. É recomendado quando existir homogeneidade de

variâncias entre os tratamentos e o grupo controle.

O Teste de Games-Howell é empregado para se determinarem as

diferenças estatisticamente significantes entre as médias de todos os grupos

analisados no teste ANOVA, tomadas duas a duas, quando não existir

homogeneidade de variâncias entre os grupos. É fornecido um valor crítico e a

diferença entre as médias dos grupos comparados é considerada significante

quando exceder esse valor crítico.

A Análise de Covariância – ANCOVA, a um ou mais critérios de

classificação, é a estatística indicada para a comparação de três ou mais

grupos de dados numéricos com distribuição normal ou aproximadamente

normal. Constitui-se de um conjunto de técnicas estatísticas para descobrir

"fatores" que produzem mudanças sistemáticas em alguma variável de

interesse. Enquanto na ANOVA os fatores propostos são variáveis qualitativas,

na ANCOVA os fatores propostos podem ser variáveis quantitativas ou

atributos (qualitativas), enquanto que a variável dependente é quantitativa e é

observada dentro das classes dos fatores visando analisar se difere de forma

significativa. O procedimento da ANCOVA ajusta a variável dependente com

base na variável ou nas variáveis contínuas independentes, realizando assim

uma ANOVA a dois ou mais critérios sobre a variável dependente ajustada. O

procedimento ANCOVA remove o efeito da variável ou das variáveis

independentes contínuas da análise do efeito das variáveis categóricas sobre a

variável dependente. O controle para a variável contínua independente significa

que artificialmente todos os grupos estudados serão iguais com relação à

variável ou variáveis contínuas independentes, eliminando assim o efeito das

variáveis intervenientes.

Page 41: Apostila Teorica Parte 2

Existem situações em que um estudo é feito visando não somente

comparar grupos entre si, mas também avaliar o efeito de uma ou mais

variáveis sobre outra ou mesmo para se predizer o valor de uma característica

em função de uma ou mais variáveis. Testes estatísticos apropriados são

empregados para se determinar se esse relacionamento entre variáveis é

estatisticamente significante ou não, considerando o tipo de escala das

variáveis envolvidas: nominal, ordinal ou contínua.

O Coeficiente de Correlação Linear de Pearson (r). é uma medida de

associação linear e varia de -1 ≤ r ≤ +1. Descreve a associação entre duas

variáveis, não fazendo julgamento sobre se uma é causa ou conseqüência da

outra. Para se explicar a influência de uma variável sobre a outra, um outro

valor denominado Coeficiente de Determinação (r2), correspondente ao valor

de r elevado ao quadrado, é normalmente utilizado. O coeficiente de correlação

linear de Pearson independente das unidades de medidas das variáveis X e Y.

Trata-se de um número desprovido de unidade de medida (adimensional). Se

for igual a zero indica que não há associação linear entre as duas variáveis

envolvidas. Quando r = -1, tem-se correlação linear negativa perfeita, enquanto

que para r = 1, a correlação linear é positiva e perfeita. Para r = 0, não existe

correlação linear entre as variáveis, podendo existir associação de outro tipo.

Se 0 < |r| < 0,30, existe fraca correlação linear. Se 0,30 ≤ |r| < 0,60, existe

correlação linear regular. Se 0,60 ≤ |r| < 0,90, existe correlação linear forte.

Finalmente, se 0,90 ≤ |r| < 1, existe correlação linear muito forte. Um valor de r

= 0,90 apresenta um coeficiente de determinação r2 = 0,81, o que significa que

as variações da variável independente X explicam 81% das variações da

variável dependente Y, restando 19% para outras variáveis não incluídas no

modelo.

O sinal do coeficiente de correlação de Pearson indica se as variáveis

caminham no mesmo sentido (correlação positiva), ou em sentidos opostos

(correlação negativa).

Quando calcula-se o coeficiente de correlação linear r, obtém-se a

estimativa do coeficiente de correlação populacional ρ , a partir de uma

amostra de tamanho n.

Page 42: Apostila Teorica Parte 2

Dessa forma é possível através de um teste de hipótese, utilizando o

valor de r, concluir se a correlação linear entre as variáveis X e Y é

estatisticamente diferente de zero.

A Análise de Regressão, ao contrário do coeficiente de correlação, que

indica apenas o grau de associação entre duas variáveis, é uma técnica

estatística utilizada para investigar e modelar o relacionamento funcional entre

as diversas variáveis de um processo. O objetivo principal da análise de

regressão é predizer o valor de uma variável (a variável resposta ou

dependente), dado que seja conhecido o valor de uma ou mais variáveis

associadas (as variáveis independentes ou explicativas).

A Regressão Simples envolve a predição da variável dependente com

base em apenas uma variável independente, enquanto a Regressão Múltipla

diz respeito à predição da variável dependente em função de duas ou mais

variáveis independentes.

Basicamente, um problema de regressão envolve variáveis que podem

ser controladas, expressas no modelo de regressão pelas variáveis

independentes, e variáveis que não podem ser controladas (variação aleatória),

expressas no modelo pelo erro.

A Regressão Logística Binária é uma técnica estatística utilizada para

investigar e modelar o relacionamento funcional entre uma variável dependente

(nominal binária), dado que seja conhecido o valor de uma ou mais variáveis

associadas (as variáveis independentes ou explicativas, nominais ou

contínuas).

A Regressão Logística Multinomial é uma técnica estatística utilizada

para investigar e modelar o relacionamento funcional entre uma variável

dependente (nominal politômica), dado que seja conhecido o valor de uma ou

mais variáveis associadas (as variáveis independentes ou explicativas,

nominais ou contínuas).

Basicamente, um problema de regressão envolve variáveis que podem

ser controladas, expressas no modelo de regressão pelas variáveis

independentes, e variáveis que não podem ser controladas (variação aleatória),

expressas no modelo pelo erro.

Page 43: Apostila Teorica Parte 2

Em todos os casos em que os requisitos prévios para aplicação de

testes paramétricos não forem satisfeitos pode-se optar pela utilização de um

teste nãoparamétrico equivalente.

Os testes não-paramétricos são comumente empregados para dados

ordinais, uma vez que na grande maioria das vezes não apresentam

distribuição normal. Além do não cumprimento do requisito de normalidade, a

seleção do teste não-paramétrico adequado se baseia no número de grupos a

serem comparados e na presença ou ausência de independência dos grupos.

O quadro 9 a seguir apresenta os testes não-paramétricos para comparações

de grupos para variáveis quantitativas ou ordinais, que não apresentam

distribuição normal.

A estatística não-paramétrica se baseia na conversão dos dados

originais da amostra em postos (ranks) ou sinais positivos e negativos. Um

posto é considerado como sendo a posição de um determinado dado quando

todos os valores que compõem a amostra estão ordenados de forma

crescente. O princípio da comparação entre grupos a partir de postos baseia-se

na idéia de que se as amostras a serem comparadas são iguais, a ordenação

de todos os dados tende a misturá-los de maneira que a média dos postos

tende a ser igual em todos os grupos. Porém, ao contrário, se à medida em que

os valores ordenados das amostras separam os dados de cada grupo, a

probabilidade de igualdade entre as médias dos postos em cada grupo se torna

pequena.

O Teste U de Mann-Whitney serve para testar a hipótese de que os

dois grupos em comparação têm a mesma distribuição de probabilidades. É

indicado para a comparação de dois grupos independentes (não-

emparelhados) cujos requisitos para aplicação do teste t de Student para

amostras independentes não foram atendidos, ou porque os dados dos dois

grupos não apresentam distribuição normal ou quando a mensuração atingida

é inferior à da escala de intervalos. O valor de U calculado avalia o grau de

entrelaçamento dos dados dos dois grupos após a ordenação, do menor para o

maior, sem levar em consideração se as observações são oriundas do primeiro

grupo ou do segundo grupo. Em seguida, as n1 e n2 observações dos grupos 1

e 2 são identificadas e a soma dos postos dos dois grupos é calculada.

Page 44: Apostila Teorica Parte 2

Para testar a diferença entre as somas dos postos, calcula-se a

estatística U1 e U2. Chama-se de U observado o menor dos valores obtidos

para U1 e U2, o qual deve ser comparado com o U crítico, obtido em tabela

específica, a partir do tamanho da amostra e do nível de significância α. Quanto

maior a diferença entre a soma dos postos U1 e U2 maior será a probabilidade

de que as amostras sejam desiguais, rejeitando-se a hipótese de igualdade das

duas populações.

O Teste de Wilcoxon é indicado para comparação de dois grupos

dependentes (emparelhados). É usado na mesma situação que o teste t para

amostras emparelhadas, quando os pressupostos para a aplicação do teste t

de Student para amostras emparelhadas não são satisfeitos. O teste pressupõe

que a variável dependente seja medida, para cada tratamento, pelo menos, em

escala ordinal. O processo consiste em calcular os valores numéricos da

diferença entre cada par, podendo ocorrer: acréscimo (+), decréscimo (-) ou

igualdade (=).Quando um par não acusa diferença (di = 0), o mesmo é

desprezado na análise, reduzindose, assim, o tamanho da amostra n, que será

dada pelo número de pares excluindo aqueles cuja diferença é nula.

Pode ocorrer ainda outro tipo de empate. Quando duas ou mais

diferenças apresentarem o mesmo valor. Neste caso cada posto será

Page 45: Apostila Teorica Parte 2

representado pela média aritmética dos postos que teriam sido atribuídos se as

diferenças fossem diferentes.

Uma vez obtido o vetor de todas as diferenças para cada par de dados,

essas diferenças são ordenadas pelo seu valor absoluto (desprezando o sinal),

substituindo-se então os valores originais pelos postos que ocupam na escala

ordenada. Em seguida, a cada posto atribui-se o sinal da diferença, indicando

quais postos decorrem de diferenças negativas e quais postos decorem de

diferenças positivas. O teste da hipótese de que as medidas feitas no mesmo

par são iguais é baseado na soma dos postos das diferenças negativas e

positivas. Se a hipótese nula é verdadeira, a soma dos escores positivos e

escores negativos deve ser próxima de zero. Se, entretanto, a soma dos postos

positivos é muito diferente da soma dos postos negativos, o valor de p será

pequeno, e a hipótese nula será rejeitada, concluindo assim que o tratamento A

difere do tratamento B.

O Teste de Kruskal-Wallis é o equivalente não-paramétrico da ANOVA

a um critério, ou seja, serve para testar a hipótese de que vários grupos

independentes têm a mesma distribuição de probabilidades. É um teste para

comparação de três ou mais grupos independentes, quando os requisitos para

aplicação do teste de ANOVA não foram atendidos. A técnica comprova a

hipótese de nulidade de que k amostras provenham da mesma população ou

de populações idênticas com relação a médias.

O teste pressupõe que a variável dependente tenha distribuição

contínua, e exige mensuração, pelo menos, em escala ordinal. A aplicação do

teste utiliza os valores numéricos transformados em postos e agrupados num

só vetor de dados. Quando ocorrer empates entre as observações, deve-se

atribuir a cada uma delas o valor médio dos postos em que ocorreram os

empates. A comparação dos grupos é realizada utilizando a soma dos postos

de cada amostra.

O teste de Kruskal-Wallis é mais eficiente do que o teste da mediana

porque utiliza mais as informações contidas nas observações. Converte os

escores em postos, enquanto que a prova da mediana converte os escores

apenas em sinais “mais” e “menos”. Assim, a prova de Kruskal-Wallis preserva

a magnitude dos escores, sendo mais sensível para detectar diferenças entre

Page 46: Apostila Teorica Parte 2

as K amostras de escores. É a prova não-paramétrica mais eficiente. Tem

poder-eficiência de 95,5% quando comparada com a ANOVA, quando os

pressupostos para aplicação da ANOVA foram atendidos.

Apesar do teste de Kruskal-Wallis ser indicado para apenas um fator de

variação, pode-se utilizá-lo também quando há mais de um fator de variação,

desde que se faça a combinação dos fatores e proceda a análise isolada de

cada uma das novas combinações, comparando os grupos gerados a partir das

combinações realizadas anteriormente. Uma vez que esse procedimento não

permite avaliar as significâncias das interações entre os fatores, tal análise

pode ser feita visualmente a partir da construção de gráficos envolvendo os

escores médios segundo os fatores. O teste de Kruskal-Wallis, da mesma

forma que a ANOVA, serve para verificar se existe diferença estatisticamente

significante entre os escores médios de pelo menos dois grupos. Porém, se

houver diferenças, não se sabe, através dele, quais grupos diferem entre si. A

identificação de diferenças entre escores médios, tomando-os dois a dois, deve

ser feita usando o teste de comparações múltiplas nãoparamétricas de Dunn.

Este teste é semelhante ao teste de Tukey-Kramer HSD, o qual analisa todas

as comparações possíveis, dois a dois, a partir dos postos médios de cada um

dos grupos. É fornecido um valor crítico tabelado, e a diferença entre os postos

médios dos grupos comparados é considerada significante quando exceder

esse valor crítico.

O Teste da Mediana serve para testar a hipótese de que dois ou mais

grupos independentes tenham provindo de populações com a mesma mediana.

O teste da mediana é útil quando existem grupos que apresentam dados

censurados (alguns dados ficam além dos limites estabelecidos pelo

procedimento definido no experimento). O teste pressupõe que a variável

dependente seja medida, pelo menos, em escala ordinal.

Para aplicar o teste da mediana, determina-se primeiro a mediana global

a partir dos escores de todos os grupos. Em seguida, os escores de cada

grupo são dicotomizados em dois conjuntos, obtendo-se o número de escores

acima e abaixo da mediana global. Se os grupos comparados provem de

populações com a mesma mediana, é de se esperar que cerca da metade dos

Page 47: Apostila Teorica Parte 2

escores de cada grupo esteja acima da mediana global e cerca da metade

abaixo.

O Teste de Friedman é um teste não-paramétrico equivalente à ANOVA

com medidas repetidas, para comparação de três ou mais grupos dependentes

(emparelhados), quando o mesmo indivíduo é avaliado mais de duas vezes.

Serve para testar a hipótese de que três ou mais grupos relacionados têm,

todos, a mesma distribuição de probabilidades. Pressupõe que a variável

dependente seja medida, pelo menos, em escala ordinal. O teste não utiliza os

dados numéricos diretamente, mas sim os postos ocupados pelas unidades

observacionais, para cada um dos tratamentos. Após a obtenção dos postos

para cada linha, é testada a hipótese de igualdade das médias dos postos dos

grupos. O teste de Friedman, da mesma forma que o teste de Kruskal-Wallis,

serve para verificar se existe diferença estatisticamente significante entre as

médias dos postos de pelo menos dois tratamentos. Porém, se houver

diferenças, não se sabe, através dele, quais tratamentos diferem entre si. A

identificação de diferenças entre as médias dos postos, tomando-os dois a

dois, deve ser feita usando o teste de comparações múltiplas não-paramétricas

modificado por Dunn para o teste de Friedman. Este teste é semelhante ao

teste de Tukey HSD, o qual analisa todas as comparações possíveis, dois a

dois, a partir dos postos médios de cada um dos grupos. É fornecido um valor

crítico tabelado, e a diferença entre os postos médios dos grupos comparados

é considerada estatisticamente significante quando exceder esse valor crítico.

O Teste de Kendall W é indicado para se testar a hipótese de que as

várias condições experimentais têm o mesmo efeito sobre os elementos que

compõem a amostra. As variáveis dependentes são contínuas ou ordinais e

devem ser medidas sobre os mesmos indivíduos. Além da comparação entre

as diferentes condições experimentais, o teste fornece o coeficiente de

concordância de Kendall, cujo objetivo é avaliar o grau de associação entre os

diferentes tratamentos.

Quando se deseja avaliar a associação entre duas variáveis em que n <

30 e os dados de uma ou de ambas as variáveis não apresentam distribuição

normal e/ou as variáveis não são contínuas (ambas com escala ordinal ou uma

Page 48: Apostila Teorica Parte 2

ordinal e outra contínua), existem outros coeficientes de correlação amostrais

não-paramétricos como o de Spearman (rs) e o de Kendall (rt).

O Coeficiente de Correlação de Spearman (rs) é uma medida do grau

de associação entre duas variáveis quando os dados observados apresentam

escala ordinal ou quando pelo menos uma das variáveis não apresenta

distribuição normal. Parte da obtenção da diferença entre cada par de postos.

Seu valor varia entre –1 e +1, sendo sua interpretação semelhante ao

coeficiente de correlação de Pearson. Outra medida de associação entre

variáveis ordinais semelhante ao coeficiente de correlação de Spearman, é o

Coeficiente de Correlação de Kendall (rt). A correlação por postos de

Spearman e kendall corresponde à versão não-paramétrica da correlação

linear de Pearson e apresenta cerca de 91% da eficiência do coeficiente de

correlação linear de Pearson quando as pressuposições para a aplicação do

mesmo são satisfeitas.

O Coeficiente γ (gama) mede o grau de associação entre duas variáveis

categóricas ordinais, organizadas em uma tabela de contingência. Como o

coeficiente γ varia entre –1 e +1, o resultado é interpretado da mesma forma

que o coeficiente de correlação de Pearson. Se o coeficiente γ = 0, indica que a

associação é nula. Quando |γ| = 1, tem-se associação positiva ou negativa

perfeita. Quanto mais próximo de 1, maior será o grau de associação entre as

variáveis. se 0 < |γ| < 0,30, existe fraca correlação linear. Se 0,30 ≤ |γ|< 0,60,

existe correlação linear regular. Se 0,60 ≤ |γ| < 0,90, existe correlação linear

forte. Finalmente, se 0,90 ≤ |γ| < 1, existe correlação linear muito forte.

Page 49: Apostila Teorica Parte 2

4. REFERÊNCIAS BIBLIOGRÁFICAS

ARANGO, H. G. Bioestatística teórica e computacional. Rio de Janeiro: Guanabara Koogan, 2001. 235p.

CALLEGARI-JACQUES, S.M. Bioestatística: princípios e aplicações / Sídia M. Callegari-Jacques – Porto Alegre : Artmed, 2003. 255p.

COCHRAN, W.G. Sampling techniques. 3.ed. New York: John Wiley & Sons, 1953. 422p.

CONOVER, W. J. Practical nonparametric statistics. 3.ed. New York: John Wiley & Sons, 1999. 584p.

COSTA NETO, P.L..O. Estatística. São Paulo: Edgar Blücher, 1977. 264p.

DORIA FILHO, U. Introdução à bioestatística para simples mortais / Ulysses Doria Filho. São Paulo: Elsevier, 1999. 7a reimpressão. 158 p.

ESTRELA, C. Metodologia científica. São Paulo: Artes Médicas, 2001. 469 p.

FILHO, N.A.; ROUQUAYROL, M.Z. Introdução à epidemiologia. 3.ed. Rio de Janeiro: Guanabara Koogan S.A., 2002. 293p.

GUERRA, M.J.; DONAIRE, D. Estatística indutiva : teoria e aplicações. 3.ed. São Paulo: Ciência e Tecnologia, 1986. 312p.

DAHLBERG, G.. Statistical methods for medical and biological students. London: George Allen & Unwin LTD, 1990. 232 p.

IGNÁCIO, S.A. Estatística como ferramenta para análise de dados quantitativos e qualitativos para Ciências biológicas e da saúde. 2008, 77p.

JEKEL, J.F. Epidemiologia, bioestatística e medicina preventiva / James F. Jakel, Joann G. Elmore e David L. Katz; trad. Ricardo savaris. – Porto Alegre: Artes Médicas Sul, 1999. 328 p.

JERROLD, H.Z. Bioestatistical analysis. Prentce Hall: Upper Saddle River, New Jersey, 1996. 662 p.

Page 50: Apostila Teorica Parte 2

SIEGEL, S. Estatística não paramétrica para as ciências do comportamento. São Paulo: McGraw-Hill, 1975. 350p.

SPIEGEL, M. R. Probabilidade e estatística. São Paulo: Mc Graw-Hill, 1978. 518p.

SUKHATME, P.V. et. al. Sampling theory of survey, with applications. Ames, Iowa, Iowa State College Press, 1984. 526 p.

THOMPSON, S.K. Sampling. Pensylvania. John Wiley & Sons, Inc. 1992. 343p.

TOLEDO, G.L.; OVALLE, I.I. Estatística básica. São Paulo: Atlas, 1991. 459p.

TRIOLA, M.F. Introdução à Estatística. LTC Livros Técnicos e Científicos Editora, 1999.

VIEIRA, S.M. Bioestatística: tópicos avançados. 1.ed. São Paulo: Campus, 2003. 228p.

VIEIRA, S.M. Introdução a bioestatística. 3.ed. São Paulo: Campus, 1998. 296p.

WERKEMA, M.C.C. Como estabelecer conclusões com confiança: entendendo inferência estatística. Belo Horizonte, MG: Fundação Christiano Ottoni, Escola de Engenharia da UFMG, 1996. 279 p. (Série Ferramentas da Qualidade).

WONNACOTT, R.J.; WONNACOTT, T.H. Fundamentos de estatística: descobrindo o poder da estatística. Rio de Janeiro: Livros Técnicos e Científicos, 1985. 356p.