Analise Em Biologicas

110
8/16/2019 Analise Em Biologicas http://slidepdf.com/reader/full/analise-em-biologicas 1/110 A Condução da Análise 2014/1 © Thierry R. Gasnier/ Universidade Federal do Amazonas Thierry R. Gasnier Universidade Federal do Amazonas          2          0          1          4          /          1  A Condução da Análise em Ciências Biológicas I - Base Conceitual

Transcript of Analise Em Biologicas

Page 1: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 1/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

Thierry R. GasnierUniversidade Federal do Amazonas

         2         0         1         4         /         1

 

A Condução da Análiseem Ciências Biológicas I - Base Conceitual

Page 2: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 2/110

A Condução da Análise I- 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

Sumário 

Introdução ............................................................................................ 3 

1. 

Estatística na perspectiva do usuário ........................................... 4 

1.1 

A necessidade de estatística .................................................... 4 

1.2  Complexidade estatística ........................................................ 4 

1.3 

Questão, hipótese, previsão e evidência. ................................ 6 

1.4 

Tipos de evidências .................................................................. 9 

1.5 

Validação de evidências ........................................................ 12 

1.6 

Estatísticas intuitiva e frequentista ...................................... 16 

1.7 

Da amostra à população. ....................................................... 18 

2. 

Do problema biológico ao estatístico. ......................................... 20 

2.1 

Entidades ................................................................................ 20 

2.2  Propriedades .......................................................................... 21 

2.3 

Tabelas e gráficos EPR ......................................................... 22 

2.4 

Relações entre variáveis ........................................................ 22 

2.5 

A estatística para estabelecer relações. ................................ 23 

3. 

Confiança na medida e independência ....................................... 27 

3.1 

Níveis e escalas de medida .................................................... 27 

3.2 

Atribuição de níveis nominais e ordinais ............................. 29 

3.3 

Exatidão, precisão e acurácia. .............................................. 30 

3.4  Distribuições de frequências ................................................. 34 

3.5 

Parâmetros populacionais .................................................... 36 

3.6 

Intervalos de confiança de parâmetros. ............................... 37 

3.7 

Independência para parâmetros univariados ..................... 41 

3.8 

Independência em análises de relações ................................ 42 

3.9 

Considerações complementares ........................................... 44 

4. 

A lógica dos testes de hipóteses ................................................... 50 

4.1 

O método hipotético dedutivo............................................... 50 

4.2  Estabelecendo hipóteses de trabalho ................................... 52 

4.3 

Descartando “hipóteses” com procedimentos ..................... 54 

4.4 

Descartando a “hipótese” do acaso ...................................... 56 

4.5 

Nível de significância e tipos de erros. ................................. 58 

4.6 

Considerações complementares ........................................... 60 

Page 3: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 3/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

5. 

Diversidade de testes e suas premissas ....................................... 68 

5.1  “Ecologia” e diversidade dos testes estatísticos. ................. 68

 

5.2 

Testes com apenas uma variável .......................................... 68 

5.3 

Testes com duas variáveis ..................................................... 69 

5.4 

Premissas dos testes paramétricos ....................................... 70 

5.5 

Transformação de dados ....................................................... 74 

5.6 

Outras premissas ................................................................... 74 

5.7 

Contrastes .............................................................................. 76 

6. 

Planejamento Amostral ............................................................... 78 

6.1 

Independência entre unidades amostrais ........................... 78 

6.2 

A coleta parecia apropriada, mas... ..................................... 78 

6.3 

Tipos de variáveis dentro de mapas conceituais. ................ 81 

6.4  Controle: tratamento, função e estratégia ........................... 84 6.5 

Escolha a sua abordagem ...................................................... 89 

6.6 

O experimento como modelo na pesquisa de relações. ....... 89 

6.7 

Abordagens quase experimentais. ........................................ 90 

6.8 

Abordagens não experimentais ............................................ 91 

6.9 

Independência pela distância ............................................... 94 

7. 

Maximizando o poder do teste .................................................... 97 

7.1 

Testes unicaudais e testes bicaudais ..................................... 97 

7.2  Testes pareados e testes em blocos ....................................... 98 

7.3 

Níveis fixos e níveis livres .................................................... 100 

7.4 

Relações retilineares, curvilineares e monotonicidade. .... 101 

7.5 

O poder e os tipos de teste ................................................... 101 

7.6 

O poder e os níveis das variáveis em estudo ...................... 103 

7.7 

Perdas voluntárias de poder ............................................... 104 

7.8 

Testes múltiplos ................................................................... 104 

8. 

Glossário ..................................................................................... 107 

9. 

Bibliografia citada e recomendada ........................................... 110 

Anexo:  Chaves e Guias para uso de testes e gráficos

Page 4: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 4/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

Introdução

No título “A Condução da Análise”, o termo “Condu-ção” serve para reforçar uma analogia entre análisena pesquisa e dirigir um veículo (carro, bicicleta,

etc.) que foi utilizada no texto. Talvez o principalaspecto desta analogia seja que dirigir é uma ativi-dade quase assustadoramente complexa a princípio,mas, depois de algum tempo de treinamento, vaificando cada vez mais fácil, mesmo sem deixar deser complexa, tendendo a tornar-se agradável. Omesmo pode ocorrer com o conhecimento sobremedida, planejamento e análise dos dados, ao pas-so que deixam de ser uma preocupação incômodapara se tornar parte natural do cotidiano da pesqui-sa. O termo “análise” deve ser compreendido em umsentido bem amplo, pois a confiança em um resulta-do não depende apenas da análise matemática. Um

bom estatístico sempre pergunta como os dadosforam medidos e coletados antes de ajudar na análi-se, de forma que não é inapropriado utilizar estesentido amplo para deixar o título mais compacto.

Este livro não é uma introdução à estatística, é umaintrodução à bioestatística aplicada, isto é, ao usode ferramentas estatísticas para a resolução deproblemas biológicos. É importante separarmos doiscontextos da estatística, o contexto da criação efundamentação matemática e o contexto da aplica-ção. Há profissionais que desenvolvem ferramentasestatísticas e avaliam suas aplicações e limitações,mas há também pessoas que sabem utilizar estasferramentas com competência apenas com a basenecessária para o seu uso. O primeiro é como umengenheiro de carros ou um construtor de instru-mentos musicais e o segundo é como um piloto ouum músico. Quando uma pessoa que conhece afundamentação e a aplicação vai ajudar outra pes-soa com um problema estatístico, não se esperaque a primeira explique noções de cálculo de proba-bilidade e faça demonstrações de fórmulas (ques-tões mecânicas), espera-se que ela vá direto aoassunto e explique qual é a ferramenta apropriada,quais suas premissas e limitações, como se realizao teste em um programa estatístico e quais são osgráficos mais apropriados para comunicar os resul-tados (questões de condução). Por isto, o conteúdode um livro de apoio na formação de estatísticos(como para engenheiros ou construtores de instru-mentos) deve ser diferente de um livro de apoio parausuários (como para pilotos ou músicos). Ainda quealguns livros de bioestatística tenham esta proposta,

alguns autores (e. g. Motulsky 2010, Magnusson &Mourão 2005) propõem uma ênfase ainda menor namatemática e ainda maior nos conceitos associadosao uso da estatística. Podemos ganhar muito se“terceirizamos” a parte matemática da estatísticapara os computadores e nos concentramos nas

questões conceituais sobre a forma correta de utili-zá-la.

Para a parte prática, apresentamos um texto anexocom instruções para a escolha de muitos testes egráficos; é uma “caixa de ferramentas” básica paraanálises e apresentação de resultados. Estas instru-ções servem para qualquer programa estatístico.Adicionalmente, incluímos neste anexo as instru-ções específicas sobre como fazer esses teste egráficos no programa MYSTAT12, que pode serbaixado gratuitamente pela internet.

Este livro foi desenvolvido ao longo de mais de 15anos ministrando aulas de bioestatística em gradua-ção e pós-graduação na Universidade Federal doAmazonas (UFAM) e no Instituto Nacional de Pes-quisas da Amazônia (INPA). Devo aos alunos peloestímulo e ajuda na busca de conteúdos mais apro-priados para uma estatística aplicada à pesquisa. Oamadurecimento do texto foi um processo longo ese deveu muito à contribuição de várias pessoas.Pelas discutições de questões básicas que nortea-ram a redação, agradeço a William Magnusson,Donald Macnaughton, Cintia Cornélius, José LuizCamargo e Paulo Estefano. Agradeço pelas suges-tões e críticas a versões anteriores do texto a BrunoSpacek, Cecilia Roma, Erika Portela, Fabrício Bac-caro, José Cardoso Neto e Sérgio Rodrigues daSilva. 

Este texto usado em disciplinas da UFAM continuará em processo deaperfeiçoamento. Versões mais recentes poderão ser obtidas no sitewww.intertropi.ufam.edu.br/ docs.html. Neste site também estão asúltimas versões das apostilas para escolha de gráficos e testes e outrosanexos. Sugestões poderão ser enviadas para o email [email protected]. Os direitos autorais desta apostila pertencem ao autore à Universidade Federal do Amazonas. É permitida a cópia sem finslucrativos desde que a fonte seja citada.

Page 5: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 5/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

4

1. Estatística na perspectivado usuário

1.1  A necessidade de estatística

Em um sentido amplo, a Estatística é uma áreado conhecimento que lida com a medida, coleta,organização, apresentação e interpretação dedados. O termo costuma ser utilizado em umsentido mais estrito referindo-se prioritariamenteà matemática da análise dos dados. A Estatísti-ca Aplicada deve ter ênfase didática e priorizaro uso correto das técnicas estatísticas em situa-ções concretas e contextualizadas em umadeterminada área do conhecimento. Ade-quadamente integrada aos conhecimentos daárea, pode deixar de ser apenas uma técnica

para tornar-se parte de uma filosofia de análisede dados.

A ciência avançou por muito tempo semestatística, então por que agora seu aprendi-zado é considerado uma necessidade? Há pes-soas que se recusam a aprender a dirigir umcarro, mas sabem usar transporte público, ima-gine então uma pessoa que se recusasse ausar qualquer meio de transporte, até uma bici-cleta ou um elevador. Esta pessoa poderia es-colher um estilo de vida compatível com um

deslocamento exclusivamente a pé, não é im-possível, mas certamente sua autonomia seriamuito limitada. A estatística é uma ferramentapara ajudar na pesquisa, assim como um meiode transporte ajuda no deslocamento. Há situa-ções na pesquisa em que não precisamos deestatística, assim como há situações no cotidia-no em que só podemos nos deslocar a pé, masisto não é argumento para optarmos por evitar aestatística ou os meios de transporte.

Também podemos comparar a estatística comum microscópio, outra ferramenta de pesquisado biólogo. O microscópio é necessário paravermos organismos e estruturas muito peque-nos e a estatística é necessária para vermos oque há por trás dos dados. É verdade que nemsempre o microscópio ou a estatística são ne-

cessários, mas é preciso ter claro que é o pro-blema que define esta necessidade. Uma pes-soa que optou por não aprender estatística estálimitando sua capacidade de analisar dados ede resolver problemas. 

A boa notícia, principalmente para quem nãogosta de fazer cálculos, é que dominar o uso daestatística hoje depende muito pouco de seentender as suas bases matemáticas, em fun-ção do desenvolvimento dos programas aplica-tivos de estatística, o que permite um melhoraprofundamento nas questões conceituais es-senciais de análise.

1.2  Complexidade estatística

Muitas pessoas consideram a estatística como

uma especialidade da matemática, mas pode-mos considerá-la um ramo da lógica que fazuso intensivo de matemática. Vista em seu sen-tido amplo, a estatística lida com pensamentocomplexo. Isto não significa que seja uma formadiferente de pensar, pois também é complexonosso pensamento cotidiano.

Por exemplo, chegar a um lugar determinadoem uma cidade é uma atividade complexa(Fig. 1.1). Em primeiro lugar você precisa co-nhecer a cidade, ou ter um mapa dela e saber

se orientar pelo mapa. Depois, você precisasaber o local exato onde você está e aondequer chegar. Se for de carro, precisa saber diri-gir o veículo, o que inclui aspectos de “legisla-ção” (como saber que não se deve dirigir nacontramão), aspectos “psicomotores” (comosaber dominar o veículo em uma curva) e o usocorreto dos instrumentos (como o freio ou olimpador de para-brisa). Estamos utilizandopensamento complexo quando temos queintegrar conhecimentos de diversos aspec-tos da realidade para atingir um determinado

objetivo.  Complexo não significa necessaria-mente difícil. Muita gente consegue chegar aum endereço sem muita dificuldade, emboraseja um problema que envolve vários tipos deconhecimento. Lidamos com problemas com-plexos no dia a dia e precisamos aprender alidar com problemas complexos na pesquisa.

Page 6: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 6/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

5

Hoje em dia não precisamos termuito conhecimento de mecânicapara dirigir um carro e chegar aum endereço. Normalmente bastasaber que temos que colocar ga-solina, trocar o óleo e calibrar os

pneus ocasionalmente. Pessoascom conhecimento de mecânicade automóveis fazem a manuten-ção de nossos carros. Engenhei-ros desenvolvem novas tecnologi-as com base em um conhecimentode física e de química que os cien-tistas estão aprofundando nosinstitutos de pesquisa e universi-dades. Estas pessoas, portanto,nos ajudam a atingir nossos obje-tivos, pois nos entregam resolvi-

dos os níveis mais “moleculares”ligados ao funcionamento do veí-culo. A nossa responsabilidade nacondução de um veículo, portanto,deve se concentrar no domíniodos níveis mais “globais”  do pro-blema de como chegar ao endereço.

Uma concepção equivocada da maioria doslivros e cursos de Bioestatística dos últimos 40anos é que é necessário e suficiente dominar onível molecular da matemática, como o cálculo

de probabilidades, para conduzir uma análisede dados. Nesta concepção, coloca-se um pesodesproporcional neste nível de análise em de-trimento de níveis mais importantes para quemconduz uma análise de dados.

Para formar usuários, é necessária uma abor-dagem que leve em conta que a pesquisa ésemelhante à forma cotidiana complexa de sepensar. Quando fazemos pesquisa precisamos,em primeiro lugar, ter conhecimento do referen-cial teórico do assunto de pesquisa, pois sem

ele estamos perdidos. Nosso referencial teóricoé como um mapa necessário a cada momento,e é dele que nascem as questões de pesquisa.Cada pesquisa tem o seu referencial, por isto,neste texto começaremos com o passo seguin-te, discutindo algo sobre questões e hipótesesde pesquisas (cap. 1 e 4). Nem todas as pes-

quisas pedem análises estatísticas de dados,mas quando isto ocorre, é necessário algumpreparo em organização dos dados (cap. 2).Precisamos entender bem as medidas e asformas de coletar os dados apropriadas pararesponder questões (Cap. 3 e 6). E finalmente,precisamos saber realizar testes e preparargráficos para uma análise e comunicação apro-priadas (cap. 5 e Guia de testes e gráficos). Éisto que um usuário de estatística precisa saberfazer bem. Para a maioria dos problemas, ousuário não precisa lidar diretamente com fór-mulas ou com algoritmos complexos e menosainda com a compreensão de por que as fórmu-las são válidas. Este conhecimento matemáticoe de programação pode ajudar, mas tambémpodem atrapalhar, por desviar a atenção doprincipal. É necessário que se reconheça queos conhecimentos fundamentais para o estatís-tico não coincidem com os conhecimentos fun-damentais necessários para o usuário de esta-tística.

Figura 1.1- A solução de problemas complexos envolvediferentes níveis de conhecimento, desde os mais "molecu-lares" até os mais "globais", como ocorre quando condu-zimos um carro até um endereço ou quando conduzimosuma pesquisa. A explicação sobre o que é um problemaEPR será apresentada no capítulo 2. 

Page 7: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 7/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

6

1.3  Questão, hipótese, previsão eevidência.

As contribuições para a ciência costumam co-meçar com questões (ou com observações depadrões incomuns que levam a questões). As

questões na pesquisa são perguntas temáti-cas relevantes sobre a realidade, que geral-mente começam com “como”, “por que”, “oque”, “quando”, “onde” ou “qual”, cuja res-posta não é óbvia. Por exemplo, ao perceberque a maioria das trepadeiras em uma florestasobe na hospedeira girando em sentido anti-horário, surge a questão “por que a maioria dastrepadeiras sobe em sentido anti- horário?”. Aresposta para esta pergunta não é óbvia e aquestão é relevante porque pode revelar algumaspecto de fisiologia e ecologia vegetal de tre-padeiras que são um componente importantedas florestas.

As questões podem ser simples, mas as res-postas podem ser muito complexas. Exemplosde questões de pesquisa: a) Como é possível acoexistência de duas espécies de aranhas ar-madeiras muito semelhantes em uma determi-nada floresta?; b) Por que os dinossauros seextinguiram?; c) Quais os motivos das notasbaixas do Brasil no exame Pisa (Programme forInternational Student Assessment)? Algumasvezes as questões surgem inesperadamente,como quando surgem pessoas com uma doen-ça estranha desconhecida, mas o mais comumna atividade científica é irmos atrás das ques-tões. Levantar boas questões envolve a capaci-dade de observação e o conhecimento do refe-rencial teórico, inclusive para perceber que aquestão é relevante e merece ser estudada. Aboa questão não garante uma boa pesquisa,mas é difícil imaginar uma pesquisa boa e origi-nal sem uma questão bem definida boa e origi-

nal.Em função disto, é importante refletirmos umpouco sobre como criamos questões. Sabercriar boas questões é uma arte, mas há algu-mas diretrizes que ajudam a desenvolver estacapacidade (ver texto paradidático “Writing goodquestions”). Durante a elaboração de um projeto

você precisa construir seu mapa mental concei-tual sobre o assunto, isto é, consolidar a baseconceitual consultando pessoas e com umapesquisa bibliográfica séria. Levantamento bi-bliográfico é uma tarefa inútil se você não estu-dar o material. Estudar não é apenas ler, dificil-

mente se consegue elaborar um projeto interes-sante sem um grau de envolvimento emocionalcom o problema. A informação não vem apenasde livros, é necessário desenvolver a capacida-de de observar. Isto significa estar atento, pro-curar oportunidades de ver fenômenos de inte-resse e tentar aplicar a teoria aprendida na leitu-ra para interpretar suas observações. Este é omomento de gestação da pesquisa, quando elaprecisa tomar forma. Esta etapa demanda tem-po e muita concentração, esqueça o estilo devida “Fast Food” quando estiver elaborando um

projeto.

Na pesquisa há respostas de dois tipos: descri-tivas e hipotéticas. As respostas descritivas nãoenvolvem hipóteses, como na questão “como éo tubo digestivo desta espécie de formiga?”.Basta desenhar ou fotografar e destacar o quefor considerado mais importante. Algumas des-tas descrições diretas envolvem ferramentasestatísticas, como veremos no capítulo 3. Adescrição direta de objetos de interesse científi-co, mesmo considerando a complexidade técni-

ca, costuma ser simples, no sentido de nãoenvolver hipóteses formais. Talvez por estasimplicidade, as questões descritivas frequen-temente são consideradas “inferiores” na pes-quisa por algumas pessoas. Para derrubar estaideia, basta considerar o impacto que foi a in-venção do microscópio para a biologia, quandotodo um novo mundo de microorganismos emicroestruturas foi descoberto, ou a atual revo-lução resultante da descrição de genomas, in-clusive o humano.

Nossas descrições da realidade param no mo-mento que aparecem dúvidas sobre o que es-tamos vendo. O que pensou o primeiro biólogoque viu células em um microscópio? Provavel-mente foi “o que são estas caixinhas?”. Quandohá questões sem resposta imediata pela “sim-ples”  observação, criamos alternativas de res-

Page 8: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 8/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

7

postas possíveis e investigamos se estão corre-tas ou não. Estas respostas possíveis são cha-madas de Hipóteses. Talvez a primeira hipótesesobre as “caixinhas” tenha sido que eram merasornamentações casuais do primeiro organismoobservado, mas esta hipótese teria caído com

as observações posteriores de outros organis-mos. Em algum momento surgiu a hipótese queas caixinhas eram uma espécie de divisão naorganização de todos os organismos. Esta hipó-tese não se sustentou realmente para todos osorganismos, mas sustentou-se para os orga-nismos pluricelulares. Hoje a teoria celular nãoé mais tratada como uma possível respostapara aquela questão, mas como um fato inques-tionável e um dos pilares da Biologia moderna.Portanto, o que era hipótese tornou-se descri-ção, pois faz parte do que aceitamos como rea-

lidade.

Hipóteses que não podem ser avaliadas atravésda observação de fatos não entram na ciênciaempírica, por isto, vamos nos referir a “hipótese”como sinônimo de “hipótese empírica”. Hipóte-se (empírica) significa “qualquer afirmaçãosimples ou complexa que tenha consequên-cias empíricas constatáveis” (Diez & Molines,2008). Neste contexto, tanto a teoriada evolução como a sugestão quedeterminado comportamento de um

inseto indica territorialidade sãohipóteses, pois ambas têm conse-quências empíricas constatáveis.Entretanto, é mais comum se usar otermo para ideias relativamentesimples (como o exemplo do inseto),ficando o ter mo “Teoria” para umarede complexa de ideias. Pela defi-nição acima, mesmo hipóteses e-xaustivamente corroboradas sãotecnicamente hipóteses, mas naprática, estas se tornam ideias acei-tas com o acúmulo de evidências,como vimos com a teoria celular.Não há verdades definitivas na ciên-cia, mas podemos falar que umahipótese transforma-se em con-ceito cientificamente estabeleci-do, quando há um conjunto de

evidências que apoia fortemente a hipótesecomo resposta correta a uma questão. Narealidade, não testamos diretamente hipóteses,testamos as previsões das hipóteses.

Previsões são consequências empíricas

esperadas de hipóteses, e algumas delaspodem ser usadas nos testes das hipóteses.Uma coisa é a previsão, que é o esperado pelahipótese, e outra é o observado. As evidênciassão os resultados observados em testes de(previsões de) hipóteses. As comparaçõesdas Previsões com as Evidências são denomi-nadas Contrastes PE  e costumam seguir re-gras pré-estabelecidas de análise que podemterminar com um aumento ou redução da credi-bilidade das hipóteses. Se a credibilidade deuma hipótese aumentou muito, podemos dizer

que respondemos à questão. Usarmos o termo“Resposta” para denominar o “final” do processode criação científica centrado em questões. Nãoestamos implicando com isto que a hipótesetransformou-se, de forma definitiva, na respostapara uma questão, apenas que ela passou porum teste de qualidade rigoroso e a evidênciaindicou que é recomendável a sua aceitação

Figura 1.2- Uma hipótese é avaliada pelo contraste entre suas previsões eas observações (evidências). Neste exemplo, as evidências não apoiam ahipótese que passar sob uma escada dá azar. (Não tente repetir esteexperimento sem as condições de segurança apropriadas).

Page 9: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 9/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

8

como Resposta, ainda que provisoriamente.

Se as observações correspondem ao previstopor uma hipótese, então elas apoiam a hipóte-se, mas isto não basta. Algumas vezes outrahipótese concorrente é compatível com a mes-

ma previsão. Por isto, quando temos hipótesesconcorrentes, temos de procurar previsõesexclusivas. Esta comparação entre previsõesde hipóteses é denominada “Contraste de Hi-póteses”. Por exemplo, ao observar que duasespécies de plantas tendem a ocorrer juntas,um pesquisador levanta a hipótese que elas temuma relação mutualista. Para testar a hipóteseele faz a previsão que quanto mais plantas deuma espécie houver em um local, maior será onúmero das plantas da outra espécie. Então, elerecolhe dados de 100 locais distantes e encon-

tro uma forte correlação positiva. O resultadoparece apoiar a hipótese de mutualistmo, mashá um problema. Podemos sugerir outra hipóte-se, que as plantas não são mutualistas, sãoindiferentes ou até competidoras, e que pode seesperar uma correlação positiva entre as suasabundâncias porque as duas respondem damesma forma à fertilidade do solo. Como aevidência é compatível com as duas hipóteses,

o resultado não permite uma escolha segura.Um teste mais efetivo de mutualismo seria plan-tar as duas juntas em densidades variáveis. Aprevisão pela hipótese de mutualismo é quehaveria um maior crescimento de cada umadelas em função do aumento na abundância da

outra. Se isto for observado, a única hipótesealternativa que resta para explicar a evidência éque a diferença foi em direção ao esperado pormero acaso. A estatística é útil nesta situação,como ferramenta para a exclusão da possibili-dade do resultado coincidir com a previsão ape-nas por acaso.

Embora existam estudos puramente descritivos,como a descrição de uma espécie nova para aciência, geralmente os estudos são parcialmen-te descritivos e parcialmente envolvem hipóte-

ses. Alguns estudos descritivos terminam comuma proposta de explicação para o que foi en-contrado. Por exemplo, um estudo com síntesede dados sobre muitos aspectos do ensino quepoderiam explicar a posição do Brasil em umranking de educação dificilmente deixaria depropor uma interpretação para estes dados.Esta interpretação construída a partir de dadosdescritivos não deixa de ser uma hipótese com-

plexa. Há divergências sobre considerarum estudo realizado assim como umteste de hipótese, já que foi principal-

mente uma construção de hipótese. En-tretanto, o que importa é que um estudodeste contribuiria para a compreensãodo fenômeno. A inclusão de uma fasedescritiva, em uma fase preliminar oucomo parte programada do projeto depesquisa, é algo muito importante. Difi-cilmente geramos hipóteses interessan-tes antes de conhecer um pouco maissobre o sistema de estudo.

Figura 1.3- Uma hipótese é uma possível resposta para uma questão.Para avaliar se efetivamente ela é a resposta correta, precisamoscontrastar previsões exclusivas dela com os dados (evidências).Frequentemente a estatística é uma útil ferramenta para realizar estecontraste. 

Page 10: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 10/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

1.4 Tipos de evidências

A estatística é uma ferramenta poderosa pararealizar contrastes em muitas situações de pes-quisa. Entretanto, é importante reconhecer quenem sempre ela é aplicável. Sua utilidade de-

pende do tipo de evidência envolvida no con-traste.

“Evidência Factual”.  Uma evidência é factualquando uma ou poucasobservações são suficientespara convencer que umahipótese está correta.

Considere primeiro um exemplo cotidiano. Su-ponha que seu telefone tenha deixado de fun-cionar. Sua questão é: “o que causou a inter-

rupção no funcionamento?”. Então, você pensanas possibilidades (hipóteses): mau contato natomada, aparelho quebrado, falta de serviço nobairro, conta não paga, banco não repassoupagamento, etc. Vimos que uma hipótese é umasuposição de um cenário possível do qual setira uma ou mais consequências. Então, vocêtesta cada hipótese, por suas previsões, atédescobrir qual a correta. Para a hipótese demau contato, você meche nos contatos e verifi-ca se a linha volta. Para a hipótese de problemana rede telefônica, você vai ao vizinho ver se

ele também está com problema. E assim pordiante, até resolver o problema.

Agora um exemplo biológico. Algumas pessoaslevantaram a hipótese que pombos conseguiri-am se orientar sem referenciais terrestres (pos-sivelmente usando magnetismo). Sua previsãoera que um pombo levado em uma caixa fecha-da de seu ninho na França encontraria o cami-nho de volta se levados à Inglaterra, atraves-sando o mar sem referenciais terrestres. Oexperimento foi feito e o pombo conseguiu re-

tornar em uma semana. Não seria impossívelque uma tempestade o arrastasse exatamentepara o local do seu ninho, mas isto seria tãoimprovável que a evidência foi consideradaconclusiva. De fato, outros pombos cruzaram orio, eliminando até as dúvidas menos razoáveis.Note que uma única observação tem uma força

de convencimento muito forte, pois qualquerhipótese alternativa seria extremamente impro-vável.

Evidências factuais importantes são comuns nahistória. Quando cientistas observaram anoma-

lias na órbita de Netuno ao redor do Sol levanta-ram a hipótese que poderia ser uma perturba-ção gravitacional causada por um planeta comórbita mais externa, calcularam aonde o planetadeveria estar e encontraram um novo planetaque chamaram de Urano. A passagem do co-meta Halley no ano previsto provou que come-tas são corpos celestes com passagens periódi-cas; Pasteur derrubou a teoria da geração es-pontânea com um simples experimento. A ideiaque a terra era redonda foi comprovada com acircunavegação.

Algumas vezes, uma descoberta é uma evi-dência factual que gera uma “hipótese” que elamesma sustenta. É o caso da descoberta dopeixe primitivo chamado Celacanto em 1938 Aideia que este peixe não estava extinto nasceue se comprovou no mesmo momento em que opeixe foi identificado como um verdadeiro Cela-canto. Esta foi uma das maiores descobertas dapaleontologia, em função da posição deste pei-xe na filogenia dos tetrápodes. Dificilmente estaideia gerada da própria evidência seria chama-

da de hipótese, mas a evidência é certamentedo tipo factual, pois bastou uma observaçãopara termos convicção da afirmação.

Uma “Evidência Factual” não significa uma evi-dência definitiva e verdadeira, Colombo achavaque a terra era redonda e mostrou que o mundonão terminava em um abismo no meio do Atlân-tico, mas errou ao achar que tinha chegado àsÍndias. Evidências factuais, como todas as ou-tras, dependem de premissas válidas, isto é, decondições explicitas ou não que justifiquem a

confiança na afirmação. Ainda que estejamossempre sujeitos a erros, não é preciso muitoesforço para encontrar inúmeros exemplos deevidências factuais que revolucionaram a ciên-cia e que foram utilizadas para construir nossascertezas de muitas questões do cotidiano.

Page 11: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 11/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

10

“Evidência Estatística Simples”. Uma evidên-cia é estatística simplesquando se baseia emvárias unidades amostraisconsideradas “indepen-dentes”.

Você se questiona: o que é a febre? Seria umaresposta do corpo para ajudar na cura da doen-ça? Ou seria uma reação induzida pelo agenteinfeccioso que prolonga a doença? As duashipóteses fazem sentido, mas como saber qualé a verdadeira? O fato de se observar uma curarápida em um paciente cuja febre não foi tratadaé uma evidência favorável à primeira hipótese,mas é muito fraca. Entretanto, um conjunto demuitos pacientes escolhidos aleatoriamentesem tratamento contra a febre com cura rápida

comparado com muitos pacientes escolhidosaleatoriamente com tratamento e cura lentaseria uma evidência forte a favor da primeirahipótese.

A rigor, as evidências estatísticas simples apli-cam-se a estudos experimentais, nos quais aindependência entre unidades amostrais é ga-rantida pela aleatorização de qual unidade a-mostral receberá qual tratamento (isto seráexplicado no Capitulo 3).

“Evidência Contextual”. Uma evidência é con-textual quando se baseiaem unidades amostrais“dependentes”, de for-ma que é necessárioincorporar informações

destas unidades amostrais na análise ou redo-brar cuidados na forma de coletar dados.

Existe uma relação entre a precipitação no es-tado do Amazonas e o nível da água no RioNegro ao longo do ano? A unidade amostral na

figura 1.4 é “registro por momento” (uma obser-vação de precipitação e de nível de água pormês). O gráfico não apenas mostra que existeuma relação, mostra ainda que a defasagem éde cerca de três a quatro meses. Ao contrárioda evidência estatística simples, os registrosneste caso não são independentes, pois pode-

mos prever que os valores de chuva e de nívelda água de um mês tendem a ser similares aosregistrados no mês anterior. Entretanto, isto nãoé necessariamente uma desvantagem, pois é justamente pelo fato de um mês seguir o outroque podemos perceber as dinâmicas defasadas

das chuvas e do nível de água. A informação domês do registro é necessária para avaliar ainfluência da precipitação sobre o nível da água.

Assim como vimos para a evidência factual, hácasos em que a evidência gera a própria hipó-tese que ela sustenta. É o caso da hipótese quehouve uma extinção abrupta da diversidade dosdinossauros há cerca de 50 milhões de anosdepois de reinarem por mais de 100 milhões deanos (apenas restaram as aves como descen-dentes). É um caso de evidência contextual

porque a redução abrupta na abundância dedinossauros baseia-se em várias medidas su-cessivas de abundância de dinossauros (unida-des amostrais dependentes de “momentos”seguidos no tempo) cuja magnitude de variaçãopôde ser considerada não aleatória. As quedasde meteoros eram eventos comuns durante aformação da terra, mas foram tornando-se rarosaté serem muito raros. Esta também é uma

Figura 1.4- Variação da precipitação média e do nívelmédio do Rio Negro ao longo dos meses do ano. Fonte:Key Environments: Amazonia, 1985 

Page 12: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 12/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

11

interpretação contextual temporal. Portanto, ofato de haver fortes indícios de uma grandecolisão de um meteoro com a terra nesta épocadá muita força à hipótese da grande extinçãoser consequência do impacto de um meteoro.

As evidências são do tipo contextual principal-mente nos fenômenos em que há uma depen-dência espacial ou temporal importante. Nestesexemplos utilizamos avaliações contextuaisqualitativas, mas há casos em que são utiliza-das técnicas estatísticas mais precisas e com-plexas que são específicas para diferentes situ-ações (e. g. Geoestatística, Análises de sériestemporais). Não abordaremos estas técnicas,mas dedicaremos o capítulo 6 a estudos obser-vacionais em que o cuidado redobrado com ocontexto pode permitir a utilização de uma esta-

tística mais simples.

“Evidência Sistêmica” (ou Evidência por Coe-rência em Rede). .Evidências sistêmicassão aquelas que encon-tram suporte principal-mente na força da arti-

culação de ideias e/ou fatos de natureza dife-rente.

O que determina a perda da fertilidade em mu-

lheres na menopausa? A maioria das pessoasacredita que é apenas uma consequência natu-ral da idade, como se isto fosse evolutivamenteinevitável. Diamond (2010) sugere uma hipótesediferente, que a menopausa é um fenômenoadaptativo para a espécie humana. Não hácomo se testar esta hipótese experimentalmen-te, mas a análise é possível e também se ba-seia em comparação de previsões. Se a meno-pausa fosse mero resultado do envelhecimento,o que poderíamos prever? Por exemplo, pode-ríamos prever que a interrupção da fertilidade

fosse comum em outras espécies. Entretanto,não é o que ocorre, na grande maioria das es-pécies, as fêmeas não param a reprodução ousó deixam de reproduzir ao quando estão muitovelhas, quase morrendo. E se a hipótese deDiamond estiver certa, o que podemos prever?Poderíamos prever que haveria vantagem na

menopausa relacionada a características distin-tas de nossa espécie. Diamond destaca duascaracterísticas: a) um bebê tão grande que achance de morte da mãe e do bebê no partosempre foi alta (só reduziu recentemente devidoà evolução da medicina); b) o cuidado parental

dura anos, incluindo a educação. Daí concluique a interrupção da fertilidade após certa idadeseria vantajosa pelo aumento da probabilidadeda mãe conseguir sobreviver para criar todos osfilhos, mesmo perdendo a chance de ter maisalguns filhos. Em resumo, parar a reproduçãoaumentaria o sucesso reprodutivo. O importantea notar aqui é que a conclusão não depende deum fato ou de unidades amostrais independen-tes ou dependentes, ela é mais ou menos con-vincente pela articulação das ideias.

As análises que envolvem evidências sistêmi-cas sempre foram importantes na ciência. Umadificuldade em trabalhar com evidências sistê-micas é que nem sempre é fácil convencer pes-soas, mesmo com vários bons argumentos. Odesenvolvimento da estatística frequentista noséculo XX possibilitou a criação de critériospoderosos e objetivos de avaliação de umaevidência (quando a evidência for um conjuntode dados “independentes”), a ponto de influen-ciar o conceito do que é ciência. Para muitosiniciantes, a ciência verdadeira é aquela que

envolve estudos experimentais, repetições etestes estatísticos. O problema é que nem sem-pre a realidade se apresenta como um conjuntode dados independentes, como ocorre em umlaboratório. Como usar estatística para analisara revolução francesa? A exigência de testespara considerarmos uma teoria como científicaé válida somente se utilizarmos o termo “teste”com um significado mais amplo que o de testeestatístico. Hipóteses na História, Arqueologia,Sociologia, Geografia Humana, Economia, As-tronomia, Evolução e outras áreas predominan-temente não experimentais podem ser testadaspor contraste com outras hipóteses comparandoa coerência do conjunto de cada uma delas, elembrando que cada conjunto deve possuirelementos empíricos envolvidos. (e. g.  docu-mentos e fatos históricos, objetos arqueológi-cos, observações de corpos celestes).

Page 13: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 13/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

12

Embora as evidências possam ser divididas emquatro tipos, as pesquisas geralmente são sis-têmicas, incluindo evidências factuais, estatísti-cas ou contextuais, pois as questões normal-mente envolvem diversas hipóteses que devemestar articuladas de forma coerente. Além disto,

há situações intermediárias (fig. 1.5). Por exem-plo, três evidências factuais podem ser maisfortes que uma evidência factual; não chega aser uma evidência estatística, mas vai nestadireção. A dependência entre unidades amos-trais pode ser considerada tão fraca que umproblema contextual pode ser tratado como umproblema estatístico simples, mas na verdadeesta é uma situação intermediária. Uma evidên-cia factual rica em detalhes pode ser vista comouma evidência sistêmica. Há sempre considera-ções sistêmicas em qualquer tipo de evidência.

Por exemplo, você confia que os dados de umestudo são verdadeiros com base na reputaçãodo pesquisador. Portanto, todas as evidênciassão parcialmente sistêmicas.

1.5 Validação de evidências

Quando a polícia chega à cena de um crimeimediatamente isola a área. A entrada de algu-ma pessoa que mudasse a posição da arma docrime poderia anular a validade de uma evidên-

cia. Também na pesquisa é necessário se veri-ficar a validade de evidências. Após a apresen-tação se seus resultados, as pessoas podem teperguntar: “você tem certeza que os instrumen-tos estavam calibrados corretamente?”; “Comovocê coletou estas amostras?”; “Que teste esta-tístico você usou na análise?”, etc. A validaçãoda evidência é uma argumentação defendendoque podemos confiar nela a partir da formacomo procedemos para obtê-la. Há diferentestipos de validação:

1) Validação da medida. As medidas foramrealmente confiáveis? Se há dúvidas sobre acalibragem de um instrumento, a medida teráque ser descartada e o experimento repetido.Na hora de entrar dados em um computador énecessário redobrar a atenção e ainda assimtemos que verificar cuidadosamente que nãohouve erros de digitação. Nem é preciso seexplicar a importância destes procedimentos emuma pesquisa séria. Estes são os aspectosmais óbvios da validação da medida, o que nãosignifica que não sejam muito importantes.

O que abordaremos aqui é um aspecto maissutil da validação da medida: a preocupaçãocom variáveis operacionais tendenciosas emrelação às respectivas variáveis teóricas. Asvariáveis teóricas são aquelas da hipótese eque dizem respeito à relação em estudo,ainda que não possam ser diretamente medi-das. As variáveis operacionais são aquelasefetivamente medidas  (são as variáveis daprevisão e da evidência). Quando uma variávelda hipótese pode ser medida diretamente, não

existe a distinção, mas é comum que haja aseparação. Vejamos um exemplo. Sua hipóteseé que a Taxa de Atividade (TA) de um lagartoinsetívoro muda em relação à disponibilidade dealimento (DA). Para isto, você mede quantocada lagarto se deslocou em uma hora (D) epesa os insetos (PI) que capturou com armadi-

Figura 1.5- A divisão das evidências em quatro tipos é uma

simplificação didática útil. Entretanto, existem situaçõesintermediárias entre estes quatro tipos. Em geral as pesquisassão sistêmicas, pois envolvem várias hipóteses relacionadasentre si 

Page 14: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 14/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

13

lhas de cola no centro do seu território de forra-geio. As medidas de D e PI parecem ser equiva-lentes a TA e DA, mas não são idênticas e asdiferenças podem comprometer a interpretação.Por exemplo, você não encontra relação e con-sidera isto evidência contrária à sua hipótese.

Entretanto, isto poderia ser um erro de escolhade variável operacional. Imagine que a mudan-ça de atividade ocorresse na duração da ativi-dade diária e não em deslocamento por hora eos insetos capturados nas armadilhas podemnão ser as mesmas espécies da dieta do lagar-to. A má escolha de variáveis operacionais podelevar a erros de interpretação sobre relaçõesprevistas para variáveis teóricas.

A validação da medida não é um problema ape-nas de variáveis quantitativas. Imagine que

perguntamos para estudantes se eles sabemnadar, juntamos os dados, analisamos comtestes estatísticos e concluímos que os meninossabem nadar com frequência significativamentemaior que as meninas. Mas será que o resulta-do indica uma maior habilidade em nadar oumais vergonha de admitir que não sabe?

Em muitos estudos, a medida é a maior fonte deincertezas. Quando nós utilizamos um coeficien-te de inteligência, estamos realmente medindointeligência? O número de pegadas de predado-

res em uma praia pode ser considerado umindicador de pressão de predação sobre ovosde tartaruga? A concentração medida de fósforototal no solo realmente reflete o fósforo disponí-

vel para uma planta? As espécies do estudoforam identificadas corretamente? Se as incer-tezas sobre medidas são uma fonte de dúvida(e isto é bastante comum), é essencial explicarbem como ela é feita nos métodos e por quevocê acredita que sua medida representa bem oque ela deveria representar. Algumas vezes,parte do estudo inclui uma verificação disto. Noexemplo do estudo comparando a capacidadede nadar de meninos e meninas, você poderiapedir para uma parte dos estudantes nadar emuma piscina rasa. Sua medida será válida semeninos e meninas não diferirem na taxa derespostas falsas nos questionários. (Obs: Avalidação da medida refere-se a medidas indivi-duais; a validação de medidas coletivas é “Vali-dação Externa”, o que será explicado adiante.)

2) Validação de análise.  A abordagem mate-mático-estatística escolhida é realmente apro-priada para a interpretação dos resultados?Podemos errar na escolha e na forma de aplicartestes estatísticos, mas é fácil aprender a evitaristo para as análises mais comuns na pesquisa.Nos capítulos 4 e 5 apresentaremos as basesconceituais para a escolha e aplicação de tes-tes. Exemplos de erro: utilizar um teste semconsiderar suas premissas ou basear-se ape-nas em gráficos de barras ou em proporçõespara concluir algo que exige um teste ou inter-

valos de confiança. A utilização de testes fracosonde testes poderosos poderiam ser aplicadostambém é um erro, embora seja menos grave(cap. 7). A figura 1.7, tirada da apostila de práti-ca, simboliza esta forma de validação pela es-colha correta do tipo de teste em função danatureza dos dados.

V. dep→  Binário(Categ. de 2)

CategóricoOrdinal ou

QuantitativoCondição NP

QuantitativoCondição P

V. ind.↓ 

Binário(cat. de 2)

Teste de 2 prop.,T. Exato de

Fisher ou T.C. (a)Graf: Seção III

Tabela deContingência (TC)(b) Graf: Seção III

Mann- Whitney;Cochran’s TT (c)Graf: Seção IV

Teste t (de 2grupos) (d)

Graf: Seção IV

CategóricoTabela de

Contingência (b)Graf: Seção III

Tabela deContingência (b)Graf: Seção III

Kruskal-Wallis(e)

Graf: Seção IV

 Análise deVariância (f)

Graf: Seção IV

OrdinalMann- Whitney;Cochran’s TT (c)Graf: Seção VI

Dicotomizar VI ouVD e usar teste

apropriado (Max.Balanço) (g)

Correlação dePostos/ RNL(h)Graf: Seção V

Correlação dePostos/ RNL(h)Graf: Seção V

QuantitativoRegressãoLogística (i)

Graf: Seção VI

Dicotomizar VI ouVD (Max. Balanço)

(g)

Correlação dePostos/ RNL(h)

Graf: Seção V

Pearson/Regressão

Linear/ RNL (j)Graf: Seção V

e

II

Tabela deontingência (raf: Seç o II

rr

Figura 1.6- Um paquímetro simbolizando a validação damedida. 

Figura 1.7- Esquema de uma tabela para escolha de testessimbolizando a validação de análise.

Page 15: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 15/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

14

3) Validação Interna ou Independência Inter-na.  A forma como os dados foram coletadosprevine explicações alternativas à conclusão?Se eu sempre pescar muitos peixes no lago A evocê sempre pescar poucos peixes no lago Bpodemos afirmar com segurança que no lago A

tem mais peixes? Quem garante que nós doistemos a mesma habilidade de pescar? Dúvidasdeste tipo podem anular a validade de umapesquisa científica. Note que estamos analisan-do a possibilidade de um problema “interno”comprometer a validade de um estudo. Esteproblema seria resolvido se nossos esforçosamostrais fossem iguais nos dois lagos, tornan-do o resultado independente de uma eventualdiferença de habilidade de pescar. Sem plane- jamento amostral, existe o risco de que todos osdados de um estudo precisem ser coletados

novamente. A independência interna é geral-mente simples em estudos experimentais e umadas mais complexas em estudos observacio-nais. Ela será discutida nos capítulo 3 e 6.

4) Validação Externa ou Independência Ex-terna.  Até que ponto as conclusões com baseem uma amostra (dados efetivamente coleta-dos) podem ser extrapoladas? Você poderia ter

uma amostra de intenções de voto para presi-dente de 1000 pessoas do Amazonas e umaamostra de 1000 pessoas bem espalhadas portodo o Brasil. Qual delas é uma amostra maisconfiável para falarmos da intenção de votosdos brasileiros? Você se surpreenderia se os

resultados fossem muito diferentes? Os de den-tro (a amostra) são igualmente representativosdos “externos”  (toda a população) nas duassituações? Há dois tipos de Validação Externa:

Validação Externa por Representatividade. Medidas coletivas (ou parâmetros populacio-nais) são aquelas obtidas com um conjunto dedados de uma variável, como o peso médio decrianças recém-nascidas ou a frequência deintenções de votos em determinado local, mo-mento ou situação particular. Elas geralmente

são feitas com base em amostras. A validaçãoexterna de medidas coletivas depende basica-mente de técnicas de se obter uma amostrarepresentativa da população, como no exemplodas intenções de votos. Fala-se em “Indepen-dência” Externa quando se aplica estas técnicasporque a representatividade anula os efeitostendenciosos de agrupamentos espaciais, tem-porais e de situação. Voltaremos a discutir re-

presentatividade no capítulo 3.

Validação Externa por Razoabilidade.  Mui-

tas vezes é impraticável ou até impossível serealizar uma amostra representativa, entretan-to, pode ser razoável se generalizar a partir depremissas teóricas. Esta situação é mais justi-ficável quando o estudo aborda relações entrevariáveis.

Até onde podemos ir com as conclusões deum estudo? Se eu concluir que machos deuma espécie de borboleta são mais ativos quefêmeas da mesma espécie em uma determi-nada área de estudo baseado em coletas fei-

tas em janeiro de 2006, o que é razoável sesupor?: a) Os machos desta espécie são maisativos que as fêmeas todos os anos?; b) Osmachos desta espécie são mais ativos que asfêmeas durante o ano todo?; C) Os machossão mais ativos que as fêmeas 1 km dali? (e

10? e 100? e 1000?); d) Outras espécies do

igura 1.8- Esquema de coleta simbolizando o planeja-ento amostral que é objeto de análise da validação

nterna. 

Page 16: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 16/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

15

mesmo gênero têm machos mais ativos em janeiro?; e) Espécies desta família têm machosmais ativos em janeiro? E se o estudo do com-portamento da borboleta fosse feito em um la-boratório? As observações ainda seriam repre-sentativas do comportamento na natureza?

Obviamente, quanto mais distante da situaçãoestudada, maior o risco da extrapolação, maseste risco pode ser avaliado, ainda que grossei-ramente, com base no que você já sabe sobreborboletas. Se restringirmos nossas generaliza-ções ao universo amostrado, não há problemade validação externa. Entretanto, qual é o inte-resse do comportamento de borboletas da suaárea de estudo em janeiro de 2006 se não po-demos generalizar? Poderíamos coletar emoutras épocas e outros locais, mas isto pode

não ser praticável e permaneceria a limitaçãode não poder generalizar além das épocas elocais dos estudos. Generalizar além do razoá-vel é um erro, mas não generalizar também éum erro.

Tomemos um exemplo mais extremo, a genera-lização a partir de uma observação. Imagineque você encontrou uma tartaruga de uma es-pécie rara colocando seus ovos em um ninhoem uma praia. Você leva estes ovos para olaboratório para verificar se a determinação do

sexo é influenciada pela temperatura durante odesenvolvimento. Ao final do experimento, nas-ceram apenas fêmeas dos 20 ovos mantidos a

temperaturas altas e apenas machos dos 20ovos mantidos a temperaturas baixas e vocêconclui que nesta espécie o sexo é determinadopela temperatura no desenvolvimento. Se estafor sua conclusão, você estará extrapolandopara a espécie com base em apenas uma fê-

mea e a partir de um experimento em condiçõesartificiais de laboratório. Se esta não for a suaconclusão, cuidado, você está sofrendo de umadoença comum chamada “paranoia metodológi-ca” disseminada até mesmo em alguns cursosde metodologia e de estatística superficiais.Generalizar a partir de um indivíduo é algo ina-ceitável em muitas situações, mas não em to-das, e não nesta em particular. Ao demonstrarestatisticamente que isto ocorre em um indiví-duo, temos evidência factual para a espécie,pois sabemos que a determinação do sexo é

uma característica da espécie que não variaentre indivíduos. As condições artificiais de umlaboratório precisam ser levadas em conta emmuitos casos, mas é difícil imaginar como elaspoderiam influir na razão sexual se ela fossecromossômica do tipo 1:1. O contexto biológiconunca deve ser esquecido quando seguimosdiretrizes metodológicas.

A generalização por razoabilidade é parte intrín-seca da pesquisa. Por exemplo, é comum seutilizar ratos para iniciar estudos sobre remédios

para humanos porque: a) a ética nos impede decomeçar com humanos; b) o custo de manuten-ção de ratos em biotérios é relativamente baixo;c) os ratos também são mamíferos, e devem teruma fisiologia semelhante em algum grau. Pre-cisamos avaliar caso a caso até que ponto érazoável generalizar e ter consciência que ageneralização pode estar errada. A validaçãoexterna por razoabilidade inclui argumentos,citações e dados adicionais que justifiquem ageneralização.

Figura 1.9- Esquema representando a generalização de umestudo específico para conclusões mais gerais, simboli-zando a validação externa.

Page 17: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 17/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

16

1.6  Estatísticas intuitiva efrequentista

Alguns textos sugerem que cursos de esta-tística são necessários devido à “dificuldadedos cérebros humanos em lidar com proba-

bilidades”. Será que nossa estatística intui-tiva é tão ruim assim? Ao contrário, somosmuito bons, pois a sobrevivência de animaisem geral e dos animais com melhores ca-pacidades cognitivas em particular dependedestes cálculos intuitivos. Acontece que háuma diferença entre a estatística intuitiva ea formal mais utilizada em pesquisas. Ve-remos nesta seção como esta estatísticaintuitiva está em nosso cotidiano e como aestatística formal mais comum difere dela.

Quando atravessamos uma rua, calculamos avelocidade do carro que vem em nossa direção,a sua distância, o tamanho da rua e o tempoque levaremos para chegar ao outro lado eentão cruzamos a via, com a maior naturalida-de. Imagine a complexidade e rapidez dos cál-culos que realizamos durante uma partida detênis ou para dirigir um automóvel no meio deoutros carros e dos pedestres que atravessam arua. Esta matemática instantânea e sem núme-ros desenvolveu-se ao longo da evolução, poisquanto mais precisos os cálculos intuitivos,maior a chance de sobrevivência, sucesso soci-al e reprodutivo.

Parte desta matemática intuitiva é transformadaem estatística intuitiva, utilizada na tomada dedecisões do cotidiano. Por exemplo, você estásaindo de casa e percebe que há nuvens carre-gadas, volta e pega um guarda chuva. No mer-cado você vai pagar as compras, escolhe a filacom menos carrinhos, mas muda de fila porquepercebe que os carrinhos da frente estão muitocheios. No caminho de volta, você reconhece ecumprimenta uma pessoa que não via há uns10 anos; ela está um pouco diferente, mas qua-se não envelheceu. Preparando a janta, vocêavalia que o peixe no forno ainda não está pron-to com base no cheiro e na consistência. Con-clui ainda que está demorando e que a demorapode ter sido por não ter coberto o peixe, mas

acha que valeu a pena porque ele está ficandomais dourado que no seu preparo usual. Sua

mãe deveria ter chegado há meia hora, estaobservação te faz ligar para ela para saber sehouve algum problema. Cada uma destas atitu-des simples está carregada de estatística intuiti-va.

Não nos damos conta da complexidade doscálculos envolvidos nas decisões do cotidiano.Usamos nossa estatística intuitiva para atribuirvalores, sintetizar as informações, decidir seexiste uma relação entre determinadas variáveise construir modelos de previsão e de controle.O termo “estatística intuitiva” não implica quenascemos com ela, da mesma forma que nãonascemos andando, na verdade nascemos como potencial, mas é uma capacidade que vamosdesenvolvendo. Se pensarmos bem a estatísti-ca intuitiva, é algo tão impressionante como anossa capacidade de andar sobre duas pernasou de nos comunicar com palavras.

Podemos dividir estas decisões em três tipos deValor, de relação e de ação (Fig. 1.10). Há deci-sões  de valor , como nas expressões “nuvensmuito carregadas”, “carrinhos muito cheios” ouno reconhecimento de uma pessoa (esta pes-soa=João). Parece natural, mas pense na com-plexidade que é reconhecer uma pessoa. Oatraso da mãe foi percebido em função de umamedida de tempo médio e de atraso médio quepermitiu “medir”  o atraso como “acima do nor-

Figura 1.10- Três tipos intuitivos de decisão utilizados em problemasdo cotidiano que também são usados na pesquisa.

Page 18: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 18/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

17

mal”. Outras decisões são de relações  entrevariáveis, que nos são ensinadas ou que apren-demos ou percebemos por conta própria. Porexemplo, a relação entre a quantidade de nu-vens e a probabilidade de chover ou entre ocheiro do peixe e ele estar pronto para ser con-

sumido. Outras decisões são de ação, comopegar o guarda chuvas, mudar de fila ou telefo-nar para a sua mãe.

Para entender como uma decisão envolve umcálculo, analise o exemplo do guarda chuva.Depois da decisão de valor de considerar que oque você viu eram “nuvens muito carregadas” edepois de ter estabelecido (ainda na sua infân-cia) a relação entre a quantidade de nuvens e aprobabilidade de chuvas, você vai aplicar esteconhecimento a uma decisão de ação. A deci-

são de ação de pegar o guarda chuva dependeda avaliação do custo de pegar o guarda chu-vas e não chover contra o custo de não pegar oguarda chuva e chover. Comecemos pelos ex-tremos: se pegar chuva fosse extremamenteperigoso e o guarda chuva fosse muito leve,você simplesmente o levaria sempre; se pegarchuva não incomodasse em nada e carregar umguarda chuvas fosse um estorvo, você nunca olevaria. Em casos intermediários, precisamos deum cálculo, intuitivo ou formal. Ilustremos comum cálculo formal. Se você acha que escapar

de uma chuva vale R$10,00 e que pagariaR$2,00 para não ter que carregar o guarda chu-vas por um dia, então não levaria o guarda chu-vas se a chance de chover fosse de 50% (pois0,5 x R$10,00 > 0,5 x R$2,00), mas levaria se achance de chuva fosse de 90% (pois 0,1 xR$10,00 < 0,9 x R$2,00). Não dê importânciaao cálculo exato, o objetivo aqui é perceber quea decisão depende de duas coisas: do custoque representa cada alternativa de decisão e daprobabilidade de cada alternativa no momentoda decisão.

É importante iniciarmos valorizando nossa ca-pacidade de tomar decisões, para entendermosque nossa lógica intuitiva não está errada, ape-nas difere na aplicação com o que é mais feitona ciência. Imagine que seu namorado ou na-morada lhe pede em casamento. Digamos que

você gostaria de casar, mas teme muito a pos-sibilidade separação; qual é a chance distoocorrer? Se você quisesse uma avaliação dotipo que se usa mais nas pesquisas científicas,você teria que casar com ele (a) umas 30 vezesem condições semelhantes à atual e verificar a

taxa de sucesso para tomar uma decisão com otipo de estatística que vamos trabalhar nestecurso. Naturalmente que isto é impossível nesteexemplo e em muitas situações do cotidiano,mas é bem mais comum isto ser possível napesquisa, especialmente em estudos experi-mentais.

Na decisão sobre um casamento, só lhe restauma abordagem sistêmica na qual você recolheinformações relevantes e procura fazer um cál-culo aproximado de probabilidades. Você pode-

ria partir das estatísticas de uma taxa recentede divórcios no Brasil de 20% nos 10 anos inici-ais. Entretanto, considerando sua faixa etária eclasse social, você verifica na pesquisa que ataxa é de 30%, portanto, esta é uma estimativamais apropriada. Este é um risco alto, o que tecoloca em dúvida. Então, você conversa comamigos que te tranquilizam lembrando que seu(sua) pretendente teve relacionamentos anterio-res estáveis e que não terminaram devido aalguma briga irracional. Portanto, você conside-ra que a probabilidade de divórcio com ele (a) é

bem inferior aos 30% e aceita a proposta. Estaprobabilidade estimada considerando as infor-mações contextuais não é utilizada apenas nocotidiano, também é bastante usada em pro-blemas aplicados, como no cálculo do valor deapólices de seguros, utilizando uma versãomatemática mais precisa de nossa estatísticaintuitiva chamada Estatística Bayesiana. Suautilização na pesquisa tem sido relativamenterestrita, mas tem crescido nos últimos anos, àmedida que os pesquisadores vão entendendoa sua utilidade para uma diversidade de situa-ções de tomada de decisão.

A estatística intuitiva mais comum é uma formacomplexa válida de pensar, tanto que tem umequivalente formal, que é a estatística Bayesia-na. Entretanto, em condições especiais, quandopodemos obter informações de dados com re-

Page 19: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 19/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

18

petições de unidades amostrais independentes,e dentro de premissas metodológicas bem defi-nidas, temos uma alternativa bem mais objetivae poderosa para estabelecer relações que échamada Estatística Frequentista. Vamosexplicar o seu funcionamento a partir do capítu-

lo 3. Neste livro, como na grande maioria doscursos básicos de estatística, apenas tratare-mos de cálculos de probabilidades frequentis-tas. Entretanto, a estatística intuitiva também éusada quando utilizamos a frequentista. Nãofaremos cálculos matemáticos Bayesianos, masutilizaremos avaliações de premissas qualitati-vas que chamaremos de “Razoabilidade”, comofizemos na seção 1.5 na validação externa porrazoabilidade.

1.7  Da amostra à população.

O objetivo da análise estatística frequentista dedados é fazer as conclusões mais fortes possí-veis com segurança sobre uma populaçãoestatística  com base nos dados disponíveis(amostra ou amostras) (Motulsky, 2010).

Já falamos superficialmente em populações eamostras na seção anterior, vamos aprofundarum pouco mais. Uma população estatística éum conjunto completo de entidades que sepretende estar envolvendo em uma análise.

Em contraste, a amostra é o subconjunto dapopulação estatística efetivamente utilizadona análise. 

É importante não confundir o termo biológico/geográfico de população com o termo “Popula-ção Estatística”. Em um estudo sobre intençõesde votos para presidente do Brasil, a populaçãoestatística é o conjunto de “intenções” (imagineuma caixa com papéis com declarações deintenção de voto de cada eleitor em determina-do momento). Se preferir imaginar como pesso-

as, então imagine uma “pessoa-momento”. Noteque a população estatística não é realmente apopulação brasileira, pois a população que vaivotar praticamente não muda de um mês paraoutro, mas as intenções podem mudar bastanteao longo do tempo.

O ideal é que a população estatística seja muitobem delimitada, como no exemplo das inten-ções de voto, mas nem sempre isto é possível.No exemplo de borboletas da seção anteriordificilmente se conseguiria coletar em toda suaárea de ocorrência, e não seria possível se

coletar borboletas no futuro ou no passado. Poristo, a delimitação assumida como “borboletaspertencentes a determinada espécie” tem apremissa que as do presente e do local do es-tudo são representativas também de outroslugares e tempos, premissa cuja validade de-pende de reflexão com base na razoabilidadebiológica.

Os elementos da população estatística queconstituem a amostra são denominados Unida-des Amostrais. A amostra com todos os ele-

mentos que entraram no estudo pode ser dividi-da em amostras menores com base em algumacaracterística das unidades amostrais. Por e-xemplo, podemos dividir a amostra borboletasem função do sexo e obtemos uma amostra demachos e uma amostra de fêmeas. Podemosdividir a amostra de intenções de votos de umaampla pesquisa no Brasil em 27 amostras (umapara cada estado). Ao fazermos isto, tambémestamos dividindo a população estatística empopulações estatísticas. Não podemos dizerque há uma população biológica de machos de

borboletas, mas podemos dizer que há umapopulação estatística de machos de borboletas.

Frequentemente, as conclusões estatísticasenvolvem parâmetros populacionais. Um Parâ-metro  é uma medida coletiva quantitativa dealguma propriedade da população, como a mé-dia do tamanho das borboletas macho. Outrosparâmetros incluem número de indivíduos dapopulação, a razão sexual, o grau de dimorfis-mo sexual, a proporção de eleitores dispostos avotar em certo candidato e coeficientes de mo-

delos que descrevem relações. Abordaremosmais profundamente parâmetros populacionaisno capítulo 3.

Esta seção apenas introduz um assunto queserá tratado mais profundamente no capítulo 3.Em geral, trataremos de análises de estudos

Page 20: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 20/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

19

com coletas dirigidas para testes de hipóteses,entretanto, é conveniente destacar que nemsempre é assim. Muitas pesquisas estão cen-tradas em uma coleta temática, como o “Censo”do Instituto Brasileiro de Geografia e Estatística.Trata-se de uma pesquisa planejada que abor-

da muitas perguntas ao mesmo tempo, queserão avaliadas de uma forma integrada. Háainda pesquisas em que os dados vêm antesdas perguntas, como no caso de descobertasacidentais ou no caso de uma coleta de recicla-gem  na qual estudamos uma base de dadosque não coletamos, como um estudo sobre aevolução da caça em uma determinada regiãocujos dados são provenientes dos registros decomércio de peles.

Exercícios:

1.1- O uso da estatística na pesquisa foi comparadocom o uso de meios de transporte e de um micros-cópio. Explique a analogia.

1.2- O que é um problema complexo e por que ofato dele ser complexo não implica que seja de difícilsolução.

1.3- Algumas pessoas afirmam que os homens nãoconseguem desenvolver atividades complexas comoas mulheres. Puro preconceito. Se for dado temposuficiente e assessoria adequada, os homens po-dem desenvolver atividades igualmente complexas.Explique por que preparar uma festa de criança éum problema complexo e quais partes deste pro-blema podemos “terceirizar”.

1.4 Reflita sobre os temas abaixo e pense em umestudo (para cada um) na forma de um problema(um aspecto relevante do tema a ser desenvolvido).Com base nisto: a) defina o problema que será a-bordado; b) levante uma hipótese dentro deste pro-blema; c) faça uma previsão para testar esta hipóte-se.

1.4- a. Micorrizas: Suponha que você descobriu asEndomicorrizas*, mas ainda não sabe o que são. Oque você percebeu foi a existência de muitos espo-ros de fungos no solo que aparentemente estãoligados às raízes. (Se não sabe o que são endomi-corrizas, comece com uma pesquisa na internet) 

1.4- b. Ninhos de cupins. Você percebe que algu-mas espécies de cupins fazem seus ninhos no altode árvores enquanto outras espécies fazem ninhosno solo com uma parte do ninho acima do solo e umterceiro grupo de espécies fazem ninhos completa-mente subterrâneos.

1.4- c. Lua: Você sabe que a variação nas fases dalua tem efeitos sobre muitos animais. Então você sepergunta, será que a lua também tem efeito sobreplantas? 

1.5- Explique o que é uma previsão exclusiva

1.6- Cite problemas originais que envolvam umaevidência: a) factual; b) estatística simples; c) con-textual d) sistêmica.

1.7- Explique um exemplo original de pesquisa emque as conclusões são suspeitas devido a incerte-

zas na validade das medidas. 

1.8- Qual é a diferença entre um problema de vali-dação interna e um problema de validação externa? 

1.9- O que é paranoia metodológica? 

1.10- Por que os problemas de validação da medidae de validação interna normalmente são mais gravesdo que problemas de validação analítica e de vali-dação externa ao longo de uma pesquisa?

1.11- Por que evoluímos com uma alta capacidade

de realizar cálculos estatísticos intuitivos e falhamosem algumas questões estatísticas cotidianas banais. 

1.12- Cite exemplos originais de decisões: a) devalores; b) de relações; c) de ações. 

1.13- Explique a diferença entre a estatística intuitivae a estatística mais utilizada em pesquisas científi-cas (frequentista). 

1.14- Por que nem sempre é possível delimitar bemuma população estatística? Em que sentido istoatrapalha na obtenção de uma amostra representa-

tiva e na determinação de um parâmetro populacio-nal?

Page 21: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 21/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

20

2. Do problema biológico aoestatístico.

Os livros de estatística vêm com exemplosprontos para a análise de dados. Entretanto,uma das maiores dificuldades dos estudantes éa transformação de problemas biológicos (ou deoutras ciências, ou cotidianos) em problemasestatísticos. Neste capítulo, descreveremossucintamente a Abordagem EPR (Entidade,Propriedade e Relação) de Macnaugton (2002)que ajuda a transformar problemas biológicos (eoutros) em problemas estatísticos. Macnaugh-ton mostrou que há alguns conceitos tão bási-cos que passam despercebidos, e que são cha-ves para se compreender como se “monta” umproblema antes de iniciar o planejamento de

coleta de dados e para determinar quais serãoos testes mais adequados à análise dos dadosobtidos. Vejamos estes conceitos.

2.1  Entidades

Se você prestar atenção aos seus pensamentoscotidianos em um dado momento, provavelmen-te concordará que estamos pensando sobrediversos tipos de “coisas”. Por exemplo, nesteminuto você poderia estar pensando em umamigo ou em um compromisso que tem marca-

do para a tarde. Estas “coisas” são exemplos deentidades (Fig. 2.1).

Existem muitos tipos de entidades: Objetosfísicos reais simples (montanhas, automóveis,lagos, pessoas, árvores) ou coletivos (cadeiasde montanhas, florestas, alcateias, turma dealunos; população; conjunto de elementos emum grupo, espécie biológica); Objetos imaginá-rios (fadas, universos paralelos, teorias, concei-tos); Processos/ações  (um experimento, umareação química, uma reunião, um beijo; uma

viagem, a força necessária para levantar certoobjeto). Cada tipo de entidade é uma categoriaque nomeia diversas entidades unitárias (mon-tanha 1, montanha 2, etc.)

As entidades têm um papel fundamental nopensamento. Na gramática são sempre subs-tantivos, tanto para os tipos de entidades (ga-

tos), como para uma entidade particular (gatono23). Trata-se de um conceito tão básico, queraramente é discutido em metodologia e estatís-tica. Entretanto, como veremos, é útil deixá-loexplícito. As entidades também podem serchamadas de casos, membros de uma popula-

ção, indivíduos, itens, espécimes, objetos, ob-servações, unidades amostrais, etc.

Alguma confusão pode surgir quando há umaderivação imprópria de um substantivo para umadjetivo ou vice-versa. Por exemplo, a palavra“burro” designa um animal, mas pode ser usadacomo adjetivo, referindo-se a uma pessoa, e apalavra “azul” é normalmente um adjetivo, masna frase “o azul é lindo” ela é um substantivo.Na frase “o pássaro é da cor azul” a expressão“da cor azul” tem a função de adjetivo para pás-

saro. Na frase “este pássaro é da espécie Pi-tangus sulphuratus”, estamos qualificando aentidade pássaro com a expressão “da espécieP. sulphuratus”, enquanto na frase “P. sulphura-tus  é uma espécie com distribuição ampla”, P.sulphuratus é uma entidade.  O que vale emEPR é a classe gramatical no contexto.

Figura 2.1- Entidades são "coisas" em que pensamos, comoárvores, beijos e unidades amostrais, às quais podemos atribu-ir propriedades 

Page 22: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 22/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

21

2.2  Propriedades

Cada tipo de entidade tem associado a ela umagama de atributos ou propriedades (Fig. 2.2).Carros têm peso, cor, marca e ano de fabrica-ção. Árvores têm altura, nome da espécie, posi-

ção em um mapa. Bandos de passarinhos têmum nome da espécie, um número de indivíduos,uma razão sexual. Cada entidade tem um valorpara cada propriedade (não existe carro sempeso, podemos até não saber o valor, mas eleexiste).

Propriedades também são chamadas de aspec-tos, atributos, características, fatores, qualida-des ou tratamentos. Os nomes das proprieda-des geralmente são substantivos que nomeiamqualificadores (localização, cor, beleza, idade,

velocidade, quantidade, valor de pH). As propri-edades também podem ser ações realizadas ousofridas (ou não) por uma entidade. Por exem-plo, “tomar chocolate” (sim ou não) é proprieda-de na frase “fulano tomou chocolate”. Os nomesde propriedades também podem ser abrevia-ções de ações. Por exemplo, a propriedade“tomou chocolate” (s/n) torna-se apenas “Cho-colate” (s/n).

Os valores das propriedades  são adjetivos(vermelho, velho, rápido, grande, brasileiro,

estudioso), advérbios  (aqui, agora, longe, mal,sim, não, talvez, muito, pouco), numerais  comfunções quantitativas, ordinais ou de rótulo-planta no  135 e datas), às vezes símbolos (♂,☺, ♠ ou O+), e até substantivos. Quando osvalores são substantivos, eles têm função quali-ficadora, isto é, tem papel de adjetivo. As pro-priedades origem, local de formação e espéciepara a entidade pessoa tem os valores Brasil,USP e Homo sapiens que substituem os adjeti-vos brasileiro, “Uspiano” e humano. Como vi-mos na seção anterior, a espécie Pitangus sul-

 phuratus  é um substantivo, mas faz parte dafunção qualificadora na expressão após o verbona frase “este pássaro é da espécie P. sulfura-tus”.

Os valores das propriedades podem ou nãovariar entre as entidades dentro de um estudo.Por exemplo, em um estudo sobre pessoas,todas as entidades necessariamente possuemas propriedades comuns aos Homo sapiens,como respirar com pulmões e ser incapaz de

voar batendo os braços. No seu estudo, todosos indivíduos poderiam compartilhar a mesmanacionalidade e o fato de possuírem sapatos,seja pela contingência da população acessívelao estudo, seja por uma definição prévia esta-belecida por você acerca de que característicasteriam os indivíduos selecionados para fazerparte da amostra.

Outras propriedades variam entre entidades,como a altura, o sexo e o meio de transportemais utilizado por pessoas. Estas propriedades

são chamadas “Variáveis”. A variação nestaspropriedades tem causas e consequências quepodem ser investigadas. As propriedades aserem avaliadas precisam variar no banco dedados do estudo. Você não poderia estudar adiferença na utilização de transporte públicoentre os sexos se apenas entrevistar pessoasde um sexo, nem poderia estudar o efeito de umtratamento se não tiver indivíduos sem o trata-mento (controle).

Figura 2.2- Propriedades são atributos das entidades. 

Page 23: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 23/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

22

2.3  Tabelas e gráficos EPR

As tabelas ou planilhas EPR  são as tabelas comnossos dados organizados em entidades (li-nhas), propriedades (colunas) e valores (célulasda tabela). Em uma tabela EPR cada entidade

aparece apenas uma vez  e as propriedadessão variáveis que serão relacionadas ou queparticiparão da análise de outra forma. A tabelaEPR é mais que umlocal para depositaros dados, ela é umatabela conceitual quesumariza o planeja-mento do nosso pro- jeto, de forma quedeve ser planejadapreferencialmente

antes da coleta dedados, tendo emvista as relaçõesque queremos veri-ficar.

Os gráficos EPR  são gráficos cartesianos cujoseixos são propriedades (as variáveis em estudo)e as entidades são representadas, cada umadelas, por um ponto situado no gráfico em fun-ção dos seus valores das propriedades (e. g. diagrama de dispersão e “dot density”). Além

dos eixos, as propriedades também podem serrepresentadas por diferentes cores ou símbolos(e. g. ♀  e ♂).São gráficosmais ricos eminformação quemuitos gráficostradicionaisutilizados naapresentação

de resultados.

2.4  Relações entre variáveis

Hipóteses são testadas a partir de suas previ-sões, e as previsões mais comuns na pesquisa

envolvem a relações entre duas variáveis, aVariável Preditora  (ou “Independente”), cujavariação influi sobre os valores de uma VariávelResposta  (ou “Dependente”), se sua hipóteseestiver correta. Para determinar quais são estasvariáveis em seu estudo, pergunte a si próprio:pela minha hipótese o quê (qual fator ou variá-vel) influencia sobre o quê (qual variável)? Porexemplo, se estamos testando a capacidade deborboletas distinguirem entre cores semelhan-tes pela previsão que a cor da armadilha (ver-melhas ou amarelas- variável preditora) atrai

uma quantidade diferente de borboletas (variá-vel resposta).

Os termos variável preditora e variável respostase aplicam quando há uma Relação Conse-quente  (ou causal fig. 2.5) entre elas, isto é,quando a causa da variação da segunda é,direta ou indiretamente, a primeira. Quando estaas duas variáveis tem uma relação “próxima”,ela é chamada Relação de Causa Proximal, equando é distante, é chamada  Relação deCausa Final. Por exemplo, em anos com pouca

chuva, alguns lagos secam causando a mortali-dade generalizada dos peixes. A causa proximalda morte dos peixes é a falta de água para ospeixes poderem respirar e não ressecar e acausa final é a variação climática. Uma pessoapode perder seu emprego porque a sua produti-vidade foi abaixo da média (causa proximal),mas isto só aconteceu em função da necessi-dade do banco cortar custos devido à crise ban-cária (causa final). Em estudos biológicos, acausa proximal costuma ser fisiológica ou com-portamental e a causa final costuma ser ecoló-

gica ou evolutiva.

Tamanho Sexo

12 m

10 m

11 f 

11 f 

Figura 2-3- Nas tabelas EPR, aslinhas são entidades e as colunassão propriedades. A seta indicauma relação. 

   T  a  m  a  n   h  o

Machos Fêmeas

Janeiro ( ) Julho ( )

Figura 2-4- Nos gráficos EPR, as variáveis (propriedades)são os eixos dos gráficos e as entidades são os pontos.Variáveis adicionais podem ser apresentadas na forma decores ou simbolos. 

Page 24: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 24/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

23

Algumas previsões envolvem duas variáveis(Covariáveis) que tem uma Relação Inconse-quente (ou correlação), isto é, a variação emuma não influi sobre o valor da outra, mas asduas podem covariar (variar ao mesmo tempo)em resposta a uma terceira variável. Por exem-

plo, podemos verificar se existe uma relaçãoentre as cores das roupas que uma pessoaprefere vestir e o seu sucesso em desempenhartarefas em grupo. A constatação que a relaçãoexiste não implica que as cores causam o su-cesso, é mais provável que uma terceira variá-vel, talvez o grau de otimismo da pessoa tenhainfluência sobre as cores que ela usa e sobre asua tendência a ter sucesso em tarefas emgrupo. Estudos com previsões conscientes so-bre relações inconsequentes são válidos, comono exemplo acima, entretanto, uma falha co-

mum é achar que a existência de uma relaçãoimplica uma causalidade, isto é, mesmo encon-trando a relação entre roupa e sucesso, nãopodemos prever que mudando a cor da roupade uma pessoa haverá mudança no sucessoem atividades em grupo. Uma expressão impor-tante em estatística é “Correlação não implicacausalidade”, isto é, cuidado para não confundirrelações inconsequentes com relações conse-quentes.

A relação entre duas variáveis pode ser obscu-

recida ou confundida pela existência de outrosfatores (conhecidos ou não) influenciando nosvalores da variável resposta, por isto, um dosdesafios em um estudo é conseguir estabelecer

a relação entre as variáveis preditora e resposta“eliminando” ou “controlando” o efeito das ou-tras relações. Em estudos experimentais, nosquais manipulamos o valor da variável preditora(e. g. quantidade de certo elemento químico emvasos) e medimos a velocidade de crescimento

de uma planta, é possível ter segurança que arelação encontrada, se houver, é uma relaçãoconsequente. Em estudos não experimentais,isto é, naqueles em que não manipulamos avariável preditora, normalmente não podemoster esta segurança. Por exemplo, se você com-parar a taxa de crescimento de plantas em fun-ção da quantidade de certo elemento químicono solo na natureza, você não pode ter certezaque a relação encontrada, se houver, é causal,pois é possível que as duas variáveis sejaminfluenciadas por uma terceira variável. Possi-

velmente a umidade no solo tenha um efeitosobre o crescimento da planta e sobre a quanti-dade de algum elemento químico, causandouma relação inconsequente entre estas duasvariáveis. Embora correlação não implique cau-salidade, ela pode ser uma evidência importantedentro de um estudo sobre relações causais,desde que tenhamos a consciência que as con-clusões em estudos não experimentais depen-dem de cuidados redobrados (cap. 6). 

2.5  A estatística para estabelecerrelações.

Muitos estudos biológicos envolvem previsõescom uma variável preditora e uma resposta oucom duas covariáveis. O conjunto de técnicasutilizadas nesta situação é denominado Estatís-tica Bivariada (Fig. 2.6). Alguns problemas sãomais complexos, ou tratados de forma maiscomplexa, incluindo na análise mais de duasvariáveis ao mesmo tempo para uma descriçãoou teste. O conjunto de ferramentas para estes

problemas é denominado Estatística Multivari-ada. A estatística multivariada inclui análisescom uma variável resposta e múltiplas predito-ras e análises com múltiplas variáveis preditorase respostas (muitas pessoas utilizam a expres-são estatística multivariada exclusivamente nosegundo caso). Há ainda a Estatística Univari-ada, que inclui as técnicas para problemas que

Figura 2-5- Esquema representando diferentes tipos derelações (setas) entre variáveis (letras “A” a “F”). As

relações R1 a R5 são consequentes e as relações r1 a r4são inconsequentes. As relações ligadas diretamente

 por apenas uma seta são de causa proximal e as rela-ções entre “A” e “D” e entre “A” e “F” são de causa

final.

Page 25: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 25/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

24

envolvem apenas uma variável. Na estatísticaunivariada, a relação avaliada não é com outravariável, mas com um valor único (ou uma dis-tribuição de valores) de referência ou esperado.Por exemplo, quando queremos saber se onúmero médio de mosquitos da dengue por

armadilha em casas de um bairro está acima dopadrão que indica risco de epidemia. Nestelivro, trabalharemos apenas com técnicas deestatística univariada e bivariada (com ênfasena bivariada).

O primeiro passo no estudo das relações bivari-adas (e multivariadas em geral) é montar umatabela EPR. Comece com a hipótese (e. g. aingestão de chocolate causa espinhas), passepara uma previsão com uma variável preditora(“tomou chocolate”- sim/não) e uma variável

resposta (“número de espinhas”). A entidadeinicialmente é alguém ou algo a quem estaspropriedades podem ser atribuídas, no caso,pessoa (pessoa 1, pessoa 2, etc.). Faça umacoluna para numerar as entidades (opcional),

uma coluna para a variável preditora e outrapara a variável resposta e entre os valores paracada entidade (Tab. 01). Outras colunas comvariáveis adicionais (e. g. idade e sexo da pes-

soa) também podem ser incluídas, desde quesejam apropriadas para a entidade em questão.Uma única planilha pode ser utilizada para tes-tar todas as hipóteses que tem a mesma enti-dade em um estudo, basta que as variáveis

envolvidas estejam entre as colunas.

Na tabela EPR, uma entidade não podeaparecer duas vezes. Se a mesma pes-soa tomou chocolate mais de uma vez,então a entidade é ingestão-pessoa-dia(ingestão 1, ingestão 2, etc.), e “pessoa” 

opcionalmente pode entrar na tabelacomo mais uma propriedade (quemingeriu). (Considerando a importância daindependência entre unidades amostrais(cap. 6), normalmente se evita incluir amesma pessoa em uma amostra devárias pessoas; a tabela pode ser mon-tada, mas a análise apropriada pode sercomplexa.) Outra possibilidade seriarealizar todo o estudo com uma únicapessoa, utilizando como entidade “dia”(dia 1, dia 2, etc.). Pode parecer estra-

nho que “tomou chocolate” seja proprie-dade de dia, mas pense bem, no dia 3alguém “tomou chocolate” = sim e no dia

7 alguém “tomou chocolate” = não. Esta abor-dagem de usar apenas uma pessoa tem vanta-gens e desvantagens que serão discutidas de-pois, o ponto a ressaltar aqui é que diferentes

Figura 2-6- A estatística bivariada é a mais utilizada na pesquisa, incluindo apenas uma variável preditora e umaresposta, entretanto, também há análises que lidam commais variáveis ou com apenas uma variável.

Tabela 2.1- Tabela EPR para avaliar a questão se aingestão de chocolate causa espinhas

Page 26: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 26/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

25

planilhas EPR podem ser utilizadas para anali-sar “a mesma” previsão (embora não seja exa-tamente a mesma quando as entidades sãodiferentes).

Nem sempre a determinação da entidade é tão

fácil como no exemplo do chocolate. Se suahipótese é que o pH da água onde as larvas demosquitos se desenvolve afeta a sua sobrevi-vência, a variável preditora é o pH da água e aresposta é a sobrevivência do mosquito, masqual a entidade? Pode ser frasco, se você tivervários frascos diferindo no tipo de água e comlarvas cuja sobrevivência será calculada ao finaldo experimento. Há outras possibilidades de-pendendo do que foi sua unidade amostral.Cuidado com o que vai definir como unidadeamostral. Se você quer saber se o investimento

em merenda escolar por escola influi no rendi-mento acadêmico, sua unidade amostral é es-cola, não é aluno. Portanto, cada linha é umaescola e você vai utilizar a média do rendimentoacadêmico por escola.

Algumas hipóteses envolvem apenas uma vari-ável, o que implica em uma coluna na planilhaEPR. Considere a hipótese “a resistência depeixes ornamentais ao transporte é influenciadapelo sexo do peixe”. Podemos testa-la com aprevisão que partindo de uma população de 50

machos e 50 fêmeas, a proporção de fêmeas aofinal será maior. Sobrevivem 25 machos e 40fêmeas, que é uma diferença estatisticamentesignificativa. A forma de determinar isto seráabordada no capítulo 5, o que nos importa ago-ra é que a conclusão baseia-se apenas na vari-ável “sexo”  (a entidade é peixe). Há hipótesescom variável preditora e variável resposta queutilizam testes univariados (testes pareados).Considere a hipótese: “a agilidade de adultos dosexo masculino diminui após a ingestão de a-penas uma lata de cerveja”. Sua previsão é que

a velocidade na execução de certa tarefa com-plexa é menor depois da ingestão de uma latade cerveja. Então você mede a diferença develocidade antes e depois da cerveja para vá-rias pessoas. Repare que sua análise vai sebasear apenas em uma variável, a diferença develocidade, mas há uma variável preditora im-

plícita (tomou cerveja?- antes/ depois) e umavariável resposta implícita (velocidade).

Para MacNaughton (2002), o papel da pesquisaempírica é descrever relações para predizer econtrolar valores de propriedades. A seu ver, as

hipóteses são sobre relações (entre variáveis ouem relação a um padrão). O teste de sua hipó-tese é feito com base em predições. Se as evi-dências apoiam uma hipótese, então ela podeser utilizada como base para outras hipóteses eem na aplicação em problemas práticos, poisnos permite prever valores.

Pense em problemas práticos. Neste lago pega-remos bastante peixe? Este paciente será cura-do? A plantação produzirá mais se plantarmosem abril ou se esperarmos até setembro? Neste

local encontraremos cobras venenosas? Se nãosabemos as respostas (pois não temos umamáquina de viajar no tempo ou um oráculo) enão podemos esperar o futuro para tomar deci-sões, o que fazer? Se conseguirmos identificarrelações entre variáveis, podemos fazer previ-sões. Se soubermos que lagos de água brancasempre tem muito peixe, e que um determinadolago tem água branca, então podemos preverque provavelmente haverá muito peixe nele. Sesoubermos que pessoas que têm temperaturaalta geralmente estão com infecções, e que

uma determinada substância controla infecções,podemos predizer que ela provavelmente terádiminuição na febre e se sentirá melhor se to-mar esta substância. Esta ação aparentementebanal de estabelecer relações  é um dos pila-res que sustenta a ciência. A explicação é outroobjetivo da ciência, mas se pensarmos bem, elaestá intimamente ligada ao estabelecimento derelações.

Page 27: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 27/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

26

Exercícios:

2.1- Cite exemplos originais de entidades do tipoobjeto físico, do tipo entidade coletiva e do tipo pro-cesso, com duas propriedades inerentes a cada tipode entidade. 

2.2- Explique, com um exemplo original, por quealgumas palavras podem ter significados compatí-veis com entidades (substantivo) ou com valores depropriedades (e. g. adjetivos) dependendo do con-texto.

2.3- Monte uma tabela EPR que contenha quatropropriedades cujos valores das propriedades sejamrespectivamente adjetivos, advérbios, numerais esímbolos. Duas destas propriedades devem servariáveis e as outras duas não. 

2.4- Defina uma hipótese, uma previsão e faça umesquema de uma tabela EPR com duas colunas, avariável preditora na coluna da esquerda e a variá-vel resposta na coluna da direita. Inclua valores paracinco entidades.

2.5- Faça um gráfico EPR para a tabela da questãoanterior com os 5 valores da tabela e outros 15adicionais. 

2.6- Qual é a diferença entre variáveis teóricas eoperacionais e entre hipóteses de relações e hipóte-ses existenciais?

2.7- A frase “correlação não implica causalidade” está relacionada com a diferença entre relaçõesconsequentes e inconsequentes? Explique a frasecom exemplos originais de relações consequentes einconsequentes.

2.8- De um exemplo original de uma relação proxi-mal e uma final para explicar o mesmo fenômeno.

2.9- Qual é a diferença entre as estatísticas bivaria-da, univariada e multivariada.

2.10) Elabore tabelas e gráficos EPR para a listade hipóteses/ previsões a seguir:

a) 

O tamanho de indivíduos da espécie de tar-tarugas  Podocnemis expansa  influi nataxa reprodutiva.

b) 

A temperatura durante o desenvolvimentoembrionário afeta a razão sexual em ni-nhos artificiais de P. expansa. 

c)  Motoristas que utilizam insulfilme em seuscarros costumam realizar maior númerode contravenções em ambiente urbano.

d) 

A taxa de decomposição da serrapilheiravaria em função do ambiente (Campina-rana, Baixio e Platô) na Amazônia Cen-tral.

e) 

A temperatura na sala de aula influi sobre odesempenho de estudantes em provas.

f) 

O pH de um local no qual há acúmulo deágua de chuva afeta a sobrevivência demosquitos.

g)  Há dimorfismo sexual de tamanho nas bor-

boletas Capronnieria abretia. h)

 

A sobrevivência de gafanhotos verdes émaior do que de gafanhotos marrons naépoca chuvosa na caatinga.

i) 

Cigarro causa câncer.

 j) 

Passar por baixo de uma escada dá azar.

k) 

Olho gordo seca pimenteira.

2.11) Construa uma tabela e um gráfico EPRpara cada relação entre as variáveis operacio-

nais com dados imaginários verossímeis.(Quando necessário, substitua variáveis teóri-cas por operacionais).

2.12) Escolha uma relação para explicar dificul-dades com validação da medida, validaçãointerna e validação externa.

2.13) Construa uma tabela EPR e dois gráficosEPR para avaliar relações em seu campo depesquisa (preferencialmente um trabalho queesteja desenvolvendo).

Page 28: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 28/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

27

3. Confiança na medida eindependência

Neste capítulo abordaremos: a) a incerteza emmedidas de valores individuais em função daforma de atribuir uma categoria ou da falta deprecisão ou de acurácia em instrumentos ouprocedimentos de medida; b) a variação naturalem valores quantitativos na forma de distribui-ções de frequências; c) a incerteza na estimati-va de parâmetros populacionais e d) a impor-tância da “independência entre unidades amos-trais” na estimativa de parâmetros populacio-nais. Para discutir estes assuntos serão apre-sentados alguns termos.

3.1  Níveis e escalas de medida

Dizer que uma pessoa é “alta” ou que mede1,80m são duas formas válidas de falar sobrealtura, mas com poder informativo diferente eque recebem tratamentos estatísticos diferen-tes. Nas duas formas, estamos falando de vari-áveis, pois são propriedades que variam entreunidades amostrais. Se você divide as pessoasem dois grupos, altas e baixas, terá dois níveisde medidas; se você dividir em 3 grupos, altas,médias e baixas, terá três níveis. Se medir comuma fita métrica, terá vários níveis de medida

(e. g. 1,73 m, 1,82 m).Níveis efetivos de medida são osdiferentes valores de uma variávelefetivamente incluídos em umaanálise. Para saber o número deníveis efetivos (NE) em variáveiscategóricas ou ordinais (veremosa diferença adiante), basta con-tarmos as categorias utilizadas.Em variáveis quantitativas ele écalculado com esta fórmula sim-

ples: NE= (max-min+1)/precisão(ou conta-se diretamente do gráfi-co ou da base de dados). Porexemplo, na figura 3.1, a variável“Mês”  tem 6 níveis efetivos e avariável “Tamanho da Aranha” tem19 níveis efetivos. Cuidado, não

são todos os 25 do eixo Y, pois a menor medidafoi 4 mm, a maior 22 mm, e a precisão da medi-da foi de 1mm (como pode se ver no gráfico).Se a precisão fosse de 0,5mm, teríamos apro-ximadamente o dobro de níveis efetivos.

Em função do tipo de valor utilizado, as variá-veis dividem-se em “escalas de medida” daseguinte forma:

Binárias: Possuem apenas dois níveis efetivos.Por exemplo: sim ou não; presença ou ausên-cia; macho ou fêmea; macrofauna ou mesofau-na; “controle” ou “tratamento”. Também sãobinárias as variáveis quantitativas que assumemapenas dois valores em uma analise (e. g. com-paração entre tratamentos com 1 mg ou 2 mgde um medicamento).

Categóricas:  Assumem valores “qualitativos” (não quantitativos) sem uma ordem intrínsecanatural entre os níveis, ou possuem uma ordem,mas esta pode ser ignorada na análise. Porexemplo: tipos sanguíneos (A, B, AB e O), mar-cas de fertilizante, habitat e nome do coletor(podem ser ordenadas alfabeticamente, porexemplo, mas esta ordem é irrelevante para aanálise). Números podem ser utilizados para“rotular” entidades (e. g. 135= planta # 135), poristo a propriedade “número da planta” é categó-

  Phoneutria reidyi 

 Ago  Out  Jan   Abr    Ago 0 

10 

15 

20 

25 

   T  a  m  n   h  o   d  a  a  r  a  n   h  a   (  m  m   )

Jun 

Mês da coleta 2001/2002

v  ♂♀

?

Figura 3.1-  Neste gráfico EPR há seis níveis na variável “Mês da coleta”, 19

níveis na variável “Tamanho da aranha” e três níveis na variável “Sexo”. 

Page 29: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 29/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

28

rica, já que não é uma quantidade sujeita aoperações matemáticas (a planta #1 não é igualà planta#136 menos a planta#135). Variáveisbinárias sempre podem ser tratadas como cate-góricas, mas diferem das categóricas com maisde dois níveis efetivos por possuir uma maior

flexibilidade em análises estatísticas, o que justifica uma escala separada. As escalas Biná-ria e Categórica juntas são chamadas de Esca-la Nominal. 

Ordinais: Existe uma sequência ordenada rele-vante entre os níveis na análise. A diferençaentre um nível e o próximo é de posição ape-nas, não há uma quantificação. Por exemplo,não podemos saber se o segundo lugar em umacorrida chegou mais próximo do primeiro ou doterceiro apenas com a posição da chegada.

Outros exemplos: abundância na escala “nula,rara, intermediária, comum ou muito comum”;vento na escala “fraco, moderado, forte, violentoe furacão”; notas na escala “A, B, C, D ou r e-provado”; idade na escala “filhote, jovem préreprodutivo, adulto novo, adulto velho”; tipo desolo na escala “arenoso, intermediário arenoso,intermediário argiloso ou argiloso”. Você podeusar números nestas escalas, mas é precisolembrar que estes números não são quantida-des.

Quantitativas: Variáveis quantitativas possuemvalores numéricos que efetivamente represen-tam quantidades. Não são variáveis quantitati-vas aquelas que possuem valores numéricosque representam apenas ordem ou rótulo deuma categoria.

Muitos livros de estatística dividem a escalaquantitativa em duas: Razão e Intervalar. Estaseparação envolve um detalhe matemático queraramente é relevante para o uso das técnicasestatísticas que abordaremos, de forma que não

a utilizaremos. Outra separação comum naescala quantitativa é entre números “contínuos” (números Reais) e “descontínuos”  (númerosInteiros). A questão da continuidade é relevanteporque os “saltos” dos números  entre níveispodem exigir ajustes nos cálculos estatísticos. Écomo se fossem buracos na estrada de nossos

carros estatísticos. Por exemplo, o número deovos é uma variável quantitativa descontínua,pois não existem “3,5 ovos”, há um “salto” entreos níveis 3 e 4. Segundo estes livros, o peso deum ovo seria uma variável quantitativa contínua,pois há valores intermediários entre 40 e 41 g

(como 40,555 g).

A descontinuidade é efetivamente algo quedeve ser levado em conta em análises estatísti-cas. Entretanto, o problema não se resolve comesta divisão em dois tipos de números. Estadivisão é inapropriada porque: a) na prática, nãoexiste nenhuma medida continua, tudo é conta-gem, pois todo equipamento ou procedimentotem um limite de precisão. Por exemplo, nocaso de pesos nós contamos as microgramasdo último dígito de uma balança, com “saltos”

de 40,555 para 40,556 mg; b) contagens commuitos níveis (e. g. posturas de peixes com 623,1.544, etc., em número de ovos) têm proprieda-des matemáticas semelhantes em análisesestatísticas às dos números “descontínuos”(equivalem a 0,623 e 1,544, etc., em milharesde ovos); c) mesmo para uma variável conside-rada contínua (números Reais), pode haverproblema de descontinuidade até para instru-mentos de precisão se o número de níveis efeti-vos for pequeno. Por exemplo, se você obtiverapenas os três níveis efetivos 0,01; 0,02 e 0,03

g em todas as suas medidas (note que não sãonúmeros Inteiros) haverá descontinuidade. Aoinvés de separar as estradas em “lisas” (contí-nuas) e “esburacadas”  (descontínuas), seriamelhor classificar as estradas em função dostamanhos dos buracos, pois microburacos sem-pre existem sem ser necessariamente um pro-blema. Veremos no capítulo 5 que na prática oproblema da descontinuidade na variável res-posta é irrelevante acima de 20 níveis efetivos,pequeno até 10 níveis e vai tornando-se gradu-almente grave a muito grave à medida que te-mos menos níveis efetivos, exigindo ajustes natécnica de análise.

Outras escalas. Há três escalas de medidaespeciais com as quais não trabalharemos, masque precisam ser conhecidas, uma vez querequerem métodos estatísticos próprios. Algu-

Page 30: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 30/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

29

mas vezes estas escalas podem ser tratadascomo se fossem uma das escalas apresentadasanteriormente, entretanto, não é o ideal. A Es-cala “Proporção” é para valores do tipo “x de n”(e. g. 15/28 sementes sobreviveram no vaso 1)ou do tipo que varia de 0 a 1 ou de 0 a 100%.Muitas vezes estes valores são tratados comoquantitativos, mas há formas mais apropriadasde lidar com eles (Warton & Hui, 2011). Na Es-cala Hierárquica a “ordem”  entre os níveisefetivos é hierárquica (grupos dentro de gru-pos). O exemplo mais comum em biologia é a

variável “espécies”  (pois as espécies se agru-pam de forma hierárquica em gêneros, famílias,etc.). A variável “local”, como em casas em umestudo sobre dengue em vários municípiostambém é hierárquica, pois as casas podem seragrupadas em vários níveis espaciais (bairro,município, estado). As técnicas específicas sãodiversas em função do problema específico (e.g.  Anova hierárquica; Regressão Filogenética,Análise de Correspondência Canônica). NaEscala Circular os níveis são cíclicos, isto éseguem uma determinada ordem até chegar a

um último nível e retornar ao primeiro. Os e-xemplos mais comuns envolvem medidas detempo, como “hora do dia”, “dia da semana”,“mês”. Direções angulares (como a direção dovoo indivíduos em migração) também estão emescala circular. Métodos de “Estatística Circular ” (Zar, 1984) são necessários para analisar dados

nesta escala. Entretanto, variáveis como mesese horas deixam de ser circulares se há umareferência sequencial adicionada à informação(e. g.  fevereiro de 2008, 23 horas do terceirodia).

As escalas de medida normalmente são trata-das como se fossem excludentes entre si, istoé, que se um valor pertencesse a uma não per-tenceria a outra, mas não é assim (Fig. 3.2).Uma escala quantitativa é também ordinal, poisos números que representam quantidades estãoordenados (mas nem toda sequência ordinal équantitativa). As escalas quantitativa e ordinal,também são categóricas, pois cada valor numé-rico ou de ordem, pode ser visto como umacategoria. A binária está incluída em todas, poisdois valores podem ser obtidos em qualquer

escala. Muitos textos dividem os valores emquantitativos e qualitativos, o que nos induz apensar que quantidades não são qualidades.Entretanto, dizer que uma pessoa tem 1,80 m ésó uma maneira mais precisa de dizer que ela éalta. Portanto, quantidades também são quali-dades. A compreensão que algumas escalas demedida estão “dentro” de outras e que qualqueratribuição de valor é uma atribuição de umaqualidade será importante quando abordarmoslógica e a flexibilidade na escolha de testesestatísticos (capítulo 5).

3.2  Atribuição de níveis nominais eordinais

Em escalas nominais (binárias ou categóricas) eordinais não há uma quantificação; os níveissão atribuídos por um reconhecimento ou inter-pretação que determinada unidade amostralpertence a uma categoria ou grupo definido ouque está dentro de uma posição em uma escalaordinal. Muitas vezes isto é simples, como aoregistrar o local de uma coleta ou o se um peixemorreu ou está vivo ao final de um experimentode ecotoxicologia. Entretanto, frequentemente aatribuição de níveis nominais ou ordinais é umadas partes mais sensíveis de um estudo.

Figura 3.2-. Do ponto de vista lógico, as escalas de medidanão são auto excludentes, algumas estão contidas emoutras, e a Binária (Bi) se encontra dentro de todas.

Page 31: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 31/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

30

Imagine que você quer saber se a proporção demeninos que sabe nadar é diferente da propor-ção de meninas que sabem nadar. Você realizaentrevistas e pergunta a muitas crianças se elassabem nadar. Dos 300 meninos, 66% responde-ram “sim” (sabem nadar), muito mais que os

33% de 300 meninas que responderam “sim”.Embora a diferença seja estatisticamente signi-ficativa, há uma dúvida importante antes de seconcluir que mais meninos que meninas sabemnadar. O significado de um “sim” de um meninoé realmente comparável ao significado de um“sim” de uma menina? Possivelmente os meni-nos tenham mais vergonha em admitir que nãosabem nadar e respondam “sim”  mesmo semsaber, enquanto as meninas apenas respondem“sim” se nadam bem. Este exemplo ilustra o tipode problema que pode acontecer em entrevis-

tas, mas o problema não se restringe a entrevis-tas.

Por serem interpretações, as atribuições nomi-nais e ordinais sempre estão sujeitas a erros,como na identificação de uma espécie, na de-terminação de qual doença um paciente teve,ou no sentido de um “sim” no parágrafo anterior .É importante definir cuidadosamente os critériosde atribuição, principalmente quando a subjeti-vidade pode ter um papel importante na decisãode valor. Em muitos estudos de comportamento,

é importante se detalhar o significado de cate-gorias de comportamento utilizadas para permi-tir comparações (etograma). Se você chamar de“comportamento agressivo” apenas quandoanimais efetivamente lutam, vai considerar ocomportamento mais raro do que outra pessoaque considere qualquer demonstração de a-gressividade.

Quando trabalhamos com níveis ordinais osresultados são muito mais confiáveis se sempreforem definidos pela mesma pessoa suficiente-

mente treinada, ou se houver uma tabela dereferência bem definida (como uma tabela decores de solo). Mais difícil é interpretar níveisordinais que variam entre pessoas ou circuns-tâncias envolvidas na coleta dos dados. Se 60%das pessoas entrevistadas de uma cidade gos-tam da qualidade de vida e apenas 30% das

pessoas entrevistadas de outra cidade gostamda qualidade de vida, não podemos saber se aqualidade de vida é melhor na primeira cidadeou se as pessoas são mais exigentes na se-gunda. Uma pessoa pode achar que há “pou-cas”  aves em um local quando estiver come-

çando a observar aves, e perceber que há “mui-tas” depois de adquirir mais experiência.

Abordamos aqui as incertezas na atribuição devalores nominais e abordaremos na próximaseção incertezas em precisão e acurácia devalores quantitativos. Terminamos esta seçãodestacando que também os valores quantitati-vos podem ter incertezas de atribuição, porexemplo, o número de ações agressivas por diadependerá do que se considera um comporta-mento agressivo, como já foi discutido acima.

Portanto, é sempre importante refletir bem so-bre a possibilidade de erros de atribuição com-prometendo a interpretação no seu estudo.

3.3  Exatidão, precisão e acurácia.

Uma medida é um valor de uma propriedade deuma entidade obtido com o uso de instrumen-tos, protocolos e procedimentos que podem serbons ou ruins em diferentes graus e aspectosque serão tratados aqui.

A exatidão de uma medida, na teoria, é a pro-ximidade entre o valor obtido e o valor real. Naprática, uma medida é considerada mais oumenos exata conforme o procedimento (instru-mento, protocolo, etc.) para obtê-la for conside-rado mais ou menos exato. Imagine que vocêcomprou um medidor de pressão arterial digitalbaratinho na farmácia. Chegando em casa,como qualquer consumidor ávido, a primeiracoisa que você faz é medir a tua pressão com onovo brinquedo. O resultado te assusta: pres-são alta, de 140:90 (mmHg sistólica: diastólica),

acima do “ideal” de aproximadamente 120:80. Será que você terá que ir ao médico? ...ou seráque é a medida que está errada? Para saber sea medida está errada, você teria de saber amedida real. Mas se você soubesse a medidareal, não precisaria do aparelho. Se um espe-cialista tiver te recomendado este aparelho por-

Page 32: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 32/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

31

que além de barato ele é muito exato, entãovocê aceitaria a medida sem questionar. Docontrário, você mesmo pode avaliar a exatidãoinstrumental nos seus dois aspectos: sua preci-são e sua acurácia.

A PRECISÃO de um procedimento é o grau emque conseguimos com ele medidas quantitati-vamente próximas entre si em condições está-veis e homogêneas. A primeira coisa que faría-mos com nosso medidor de pressão seria repe-tir a medida várias vezes. É improvável que atua pressão varie muito em poucos minutos, deforma que podemos desprezar a variação natu-ral, e o esperado seria várias medidas iguais oumuito próximas se o aparelho for muito bom.Para simplificar, vamos considerara apenas osvalores da pressão sistólica. Se você obtivesse

os valores 140, 139, 140, 140, 141, 140, 140,139, isto indicaria que o instrumento tem muitaprecisão. Se os resultados fossem 140, 113,125, 99, 137, 119, 121, 108, isto estaria mos-trando que a precisão do instrumento é baixa.

A ACURÁCIA de um procedimento é o seu graude ajustamento médio em relação ao valor “r e-al”. Uma balança pode ter alta precisão, porquesempre dá o mesmo resultado, mas pode estardescalibrada e dar um resultado 15 gramassuperior ao real em todas as medidas. Um reló-

gio de alta precisão atrasado 10 minutos vaiapresentar este erro por anos se não for ajusta-do para o horário correto. Alguns equipamentosde medida, como uma trena, não precisam decalibragem, outros, como balanças e pHmetros,precisam de verificações periódicas, por isto,são vendidos juntos com padrões para calibra-ção, como metais com pesos conhecidos. Mascomo faríamos no caso do nosso aparelho demedir pressão? O ideal seria comparar umamedida deste aparelho com a medida para amesma pessoa imediatamente depois com ou-

tro aparelho reconhecidamente preciso e cali-brado. Se não houver outro aparelho deste tipodisponível, uma alternativa seria medir a pres-são de outras pessoas ao seu redor. Se todostiverem pressão normal e você for o único compressão alta, é provável que o aparelho estejacorreto. Se todos tiverem pressão alta, é bem

possível que o aparelho está descalibrado. Nes-te caso, talvez seja bom ir ao hospital e obteruma medida confiável. Se o hospital confirmar apressão alta, pelo menos você sabe que podeconfiar na acurácia do aparelho para as próxi-mas medidas.

Uma forma didática de representar a precisão ea acurácia é através de tiros a um alvo. Quantomaior a precisão menor a dispersão dos valo-res. A precisão nos tiros ao alvo com o instru-mento “espingarda”  costuma ser alta compara-da com a baixa precisão com o instrumento“revolver ” para o mesmo atirador à mesma dis-tância (Fig. 3.3). O resultado é que os tiros daespingarda ficam mais concentrados que os dorevolver (alvos superiores). Entretanto, a espin-garda pode estar desajustada (alvo superior

direito), o que significa que a mira precisa serajustada para obter maior acurácia. Note quenão podemos distinguir se o desvio de um tirofoi por falta de precisão ou por falta de acuráciase não tivermos um conjunto de tiros.

Precisão e a acurácia podem ser medidas. Noexemplo da espingarda e do revolver, conside-rando que o número de tiros é semelhante, vocêpode dizer que a espingarda tem mais precisãoporque o tamanho do segmento entre os tirosmais distantes é menor na espingarda que no

Figura 3.3- Ilustração sobre dois conceitos de incertezainstrumental pela analogia com tiros de uma espingarda(acima) e de um revolver (abaixo). 

Page 33: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 33/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

32

revolver. Você pode dizer que a acurácia daespingarda é maior quanto menor a à distânciaentre o centro do alvo e o centro dos tiros (fig.3.4).

A medida da acurácia é útil para corrigir distor-ções pela calibragem. Em equipamentos, comovimos acima, é comum haver padrões para acalibragem, mas ocasionalmente precisamoscalibrar procedimentos de outras formas. Imagi-ne que você tivesse que estimar visualmente

tamanhos de jacarés à distância. Neste caso,você pode calibrar esta capacidade estimandotamanhos de objetos semelhantes a jacarés(como troncos) à distância e depois verificarcomo está se saindo medindo os objetos comuma trena. Se tiver tendência a superestimar otamanho, reduza suas estimativas e se tivertendência a superestimar, aumente as estimati-vas. Se puder capturar jacarés, é convenienterepetir a avaliação para melhorar a sua capaci-dade de estimar. Ninguém consegue acertarprecisamente todas as medidas, mas você pode

se considerar “calibrado” quando a quantidadede subestimativas é semelhante à quantidadede superestimativas.

A precisão costuma ser medida pelo seu inver-so, a dispersão dos valores (Fig. 3.4-2). Quan-to menor a precisão, mais dispersos serão os

dados ao redor do valor central. A medida maissimples de dispersão é a amplitude total, istoé, a diferença entre o maior e o menor valor(Fig. 3.5). Podemos comparar a precisão de umaparelho de medir pressão com outro pela am-plitude das medidas tiradas da mesma pessoa

em poucos minutos. Um aparelho que apresen-tasse os valores {140, 139, 140, 140, 141, 140,140, 139 em mmHg} teria uma amplitude totalde 2mmHg, enquanto um aparelho com os valo-res {140, 113, 125, 109, 137, 119, 121, 118mmHg} teria uma amplitude total de 31 mmHg,isto é, o segundo teria uma precisão bem me-nor. Esta medida de dispersão (e precisão) temalguma utilidade quando há muitos dados, masé simplista demais e ruim para a maioria dassituações, pois a amplitude total não varia ape-nas com a precisão do instrumento, ela também

varia (tende a aumentar) com o número de me-didas.

Uma solução para este problema é utilizar umaamplitude parcial central dos dados por exclu-são de uma porcentagem dos extremos. Nestecontexto descritivo de precisão, o mais comumcostuma ser a amplitude parcial central excluin-do-se ¼ dos menores valores e ¼ dos maioresvalores, que é chamada Amplitude do Interva-lo Interquartil  (fig. 3.5). Com a exclusão deuma proporção fixa de extremos, a amplitude

parcial dos dados não aumenta com o númerode dados, como costuma acontecer com a am-

Figura 3.4- Representação de medidas relacionadas à exatidão:1) desvio de um tiro (ou inexatidão pontual); 2) imprecisão deuma espingarda (dispersão de valores ou imprecisão instrumen-tal); 3) descalibragem ou tendenciosidade instrumental (inacurá-cia instrumental). A imprecisão e a inacurácia são os dois aspec-tos da inexatidão instrumental. 

Figura 3.5- Medição da precisão de um aparelho de medir pressão arterial por múltiplas medidas de pressão em con-dições estáveis. A Amplitude do Intervalo Interquartil,obtido pela exclusão de 25% dos valores inferiores e 25%dos valores superiores é uma medida melhor que a Ampli-tude Total porque não tende a aumentar com o número demedidas. 

Page 34: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 34/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

33

plitude total. Isto é, a amplitude Interquartil nãotende a ser maior ou menor se for determinadocom oito dados ou com 80; o maior número dedados apenas aumenta a precisão desta medi-da de dispersão. Portanto, a amplitude do inter-valo interquartil é uma forma apropriada de

medir a dispersão dos dados. Apesar disto, estaforma de medir a dispersão dos dados é poucoutilizada.

Quanto maior a dispersão dos dados, maior adistância de cada ponto do centro. Com basenisto, foi criado outro índice de dispersão cha-mado de Desvio Absoluto Médio (DAM) (Quadro3.1). Esta medida é uma forma bastante intuitivade medir dispersão, mas também é pouco utili-zada. A medida de dispersão mais utilizada ésemelhante na essência: a raiz quadrada da

média dos desvios ao quadrado, que é chama-da de Desvio Padrão. O desvio padrão é real-mente uma excelente medida de dispersão emmuitas situações, inclusive na medida da preci-são de instrumentos e procedimentos, mas énecessário algum cuidado. Primeiro quanto aonúmero de valores usados em seu cálculo. Bas-tam dois valores para um cálculo de desviopadrão, mas cálculos com menos que cincodados são muito pouco confiáveis como medidade dispersão. Além disto, ele pode não ser umaboa medida de dispersão dependendo da distri-

buição de frequências da variável em questão,como veremos na próxima seção.

Na prática, precisamos estar atentos para aacurácia de nossos procedimentos, mas não étão comum precisarmos avaliar a precisão dasmedidas que utilizamos. Em algumas situações,como no exemplo das estimativas de tamanhosdos jacarés, a imprecisão da medida pode sermuito importante e merece atenção especial.Entretanto, em muitos estudos, os procedimen-tos e instrumentos são plenamente satisfatórios,isto é, sua imprecisão é irrelevante em compa-ração à variações naturais em estudo. Se suaplanta cresce 10cm entre cada medida, a preci-são de 1 mm é mais que suficiente para as tuasanálises. Em outros casos, a precisão não é tãoboa, mas ela pode ser compensada por umtamanho amostral maior. Embora o conheci-

mento sobre precisão seja importante, aindamais importante é o conceito de dispersão devalores que serve como base para entendermoso assunto da próxima seção: a variação naturale as distribuições naturais de frequências.

Quadro 3.1- A média aritmética (1) é um parâmetro popula-cional utilizado em cálculos de muitas medidas paramétricas.

Quando estimada com base em uma amostra, ela é geralmentesimbolizada com um X ou um Y com uma barra encima. ODesvio Absoluto Médio (2) é uma medida simples e intuitivade dispersão. O Desvio Padrão (3) é uma medida bem maisutilizada, com a mesma essência do DAM. A fórmula de DPapresentada é utilizada quando o determinamos com base emuma amostra, que é a situação mais comum. N= Tamanhoamostral; xi= cada valor registrado na amostra; Ʃ= símbolo

matemático de somatório que significa que deve se somar ostermos a seguir na fórmula. Curiosidade matemática: a estatís-tica paramétrica utiliza estimativas inicialmente tendenciosasque necessitam ajustes. É o caso do desvio padrão da amostracom seu denominador (N-1). Por que não calculamos a médiados desvios elevados ao quadrado com o denominador N? Defato, no cálculo de um desvio padrão de um conjunto completode dados o denominador é N. O problema é que para determi-

nar o desvio padrão populacional com base em uma amostraestaremos subestimando a dispersão com o denominador N,

 porque nossa média não é a média real, mas uma estimativaque necessariamente é mais central ao conjunto de dados emquestão. Ao dividir por (N-1) temos um valor mais aproxima-do do DP da população. 

Page 35: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 35/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

34

3.4  Distribuições de frequências

A partir do momento em que temos procedimen-tos calibrados e com precisão conhecida, po-demos nos despreocupar com as medidas indi-viduais e voltar a nossa atenção para a Varia-

ção Natural .

Não se deve confundir a variação de medidasem função da precisão de instrumentos com avariação natural. Poucas pessoas têm umaaltura que coincide com a média da população,mas isto não significa que a altura da maioriadas pessoas esteja errada. Não é uma questãode erro de medida, é algo natural. No exemplodas sementes do início da seção 3.3, estáva-mos realmente nos referindo a uma variação deprecisão de medida, ou erro de medida, porque

eram medidas da mesma semente. Entretanto,se os alunos estivessem medindo sementesdiferentes, a variação encontrada seria também

resultado da variação natural dos tamanhos dassementes. Ocasionalmente esta variação com-binada (erro de medida + variação natural) échamada de “erro”. Este é um termo infeliz, poisnos induz a pensar que a variação natural éparte de um erro da mesma forma que os erros

de instrumentos ou de métodos de medida. Sea precisão de medida for muito baixa, o erro demedida pode prevalecer e obscurecer a varia-ção natural, mas se a precisão de medida forboa, a variação encontrada não é um erro, masuma característica importante da população emestudo.

O gráfico mais comum para mostrar a variaçãonos valores de uma variável quantitativa é cha-mado Histograma. Trata-se de um gráfico dedistribuição de frequências. Vamos ilustrar com

um conjunto de valores de tamanhos de peixese de salários de uma amostra representativa defuncionários em uma grande corporação (Fig.3.6). Analise o gráfico com atenção, veja que noeixo X (horizontal) da figura temos valoresquantitativos divididos em intervalos iguais e noeixo Y (vertical) temos frequência, que pode sera contagem das entidades por intervalo (fre-quência absoluta) ou uma percentagem porintervalo do total de entidades (frequência rela-tiva). Na figura 3.5 temos outra forma de apre-sentar dados de uma variável, mas em histo-

gramas o eixo Y com a frequência dá melhorvisibilidade à forma como os dados se distribu-em, especialmente quando temos muitos dadose intervalos de classes pequenos, geralmentelembrando uma “montanha”  (distribuição uni-modal- como nos dois gráficos da figura).

Os histogramas mostram bem os dados deamostras, mas são limitados para fazermosinferências populacionais. Por isto, geralmentese faz inferências modelando a distribuiçãocom curvas matemáticas teóricas ajustadas aos

valores obtidos, ou por procedimentos de rea-mostragem (seção 3.6), ou simplesmente as-sumindo um modelo matemático, como vere-mos adiante. Na figura 3.6 as linhas com umaforma de montanha foram construídas a partirde modelos matemáticos ajustados aos valores.Na figura 3.7 são apresentados gráficos de

Figura 3.6- Duas distribuições de frequência com formatosdiferentes. Na figura A, a distribuição tem o formato apro-ximado de um sino. Na figura B a distribuição é fortementeassimétrica. As amplitudes com 95% dos dados foramdeterminadas com cálculo paramétrico em (1) e por exclu-são de extremos em (2).

Page 36: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 36/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

35

modelos matemáticos que podem ser ajustadosaos dados quantitativos obtidos. Naturalmente,o modelo se aplica bem apenas em uma situa-ção estável, isto é, quando a amostra foi retira-da em uma condição na qual qualquer outraamostra deveria mostrar um resultado bastantesimilar. Por exemplo, se o tamanho médio dospeixes varia entre anos, não podemos modelarapropriadamente para um ano com base nosdados de outro ano.

As distribuições de frequência tem importânciadireta e indireta em estudos biológicos. A impor-tância direta está na interpretação de causas econsequências do formato da distribuição. Por

exemplo: a) uma distribuição bimodal (fig. 3.7)pode indicar uma seleção natural disruptiva emum caráter biológico; b) pirâmides etárias sãouma forma especial de histograma que revelamimportantes características de populações, co-mo o grau de desenvolvimento social de umpais. A importância indireta está em permitir a

verificação de premissas para a utilização dedeterminadas ferramentas de análise estatísti-ca, como veremos a seguir.

É comum que a “montanha” da distribuição defrequência tenha um formato bastante simétrico

que lembra um sino, como vemos na figura3.6 A e na figura 3.7. O modelo matemático quedescreve esta forma de curva é chamado mode-lo de Distribuição Normal  (ou Gaussiano).Muitas ferramentas estatísticas foram desenvol-vidas para serem utilizadas quando os dadostem “normalidade” (isto é, quando é razoávelassumir que a população tem distribuição nor-mal). Na prática, nunca obtemos uma distribui-ção perfeitamente normal com nossos dados,pois um modelo é sempre uma aproximação darealidade. Por exemplo, na natureza há limites

para tamanhos, mas na distribuição normal nãohá. Para uma distribuição de frequência de da-dos ser considerada do tipo “normal” não é ne-cessário uma forma perfeita de sino, basta o“jeitão” (como na figura 3.6 A). Quando os da-dos não são suficientes para definir o “jeitão”,ainda podemos assumir a normalidade combase na razoabilidade, isto é, em motivos teóri-cos ou de experiência anterior com dados damesma natureza. Mesmo quando é evidenteque a distribuição não tem normalidade, masela não se afasta muito da distribuição normal,

ainda é razoável se utilizar técnicas estatísticasque tem a premissa da distribuição normal. Oproblema é trabalhar com dados assumindouma distribuição normal sem verificar a compa-tibilidade dos dados com esta distribuição ousem uma base na razoabilidade.

Quando temos uma distribuição normal, ouaproximada, o desvio padrão é uma excelentemedida de dispersão dos dados. Conhecendo amédia e o desvio padrão de uma população,pode-se determinar a proporção aproximada da

população a um, dois ou três desvios padrõesda média (Fig. 3.8). O desvio padrão é calcula-do a partir da média, que é um parâmetro popu-lacional, por isto, é uma medida chamada deparamétrica.

Figura 3.7- Exemplos gráficos que ilustram modelos dedistribuições de probabilidades teóricas. Estes modelosservem como bases para utilização de ferramentas estatís-ticas se podemos assumir que eles realmente são compa-tíveis com a distribuição na população.

Page 37: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 37/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

36

A vantagem do desvio padrão (DP) é que é umaexcelente medida de dispersão para variáveisque tem normalidade. A desvantagem é quesimplesmente não é uma medida apropriadaquando a distribuição não é normal. Você podedeterminar o intervalo que contém 95% dos

dados por exclusão de extremos (seção 3.3) oude forma paramétrica com base no desvio pa-drão (Amplitude 95%= média±1,96 DP), comresultados semelhantes se a distribuição fornormal (Fig. 3.6 A). Entretanto, ao utilizarmos oDesvio Padrão para descrever uma distribuiçãoque não é normal podemos chegar a resultadosestranhos, como incluir salários negativos noslimites de uma amplitude parcial central(Fig. 3.6 B), o que nunca acontece com interva-los determinados por exclusão de extremos.Quando não há normalidade, há algumas alter-

nativas: a) utilizar a amplitude interquartil comomedida de dispersão; b) realizar uma transfor-mação dos dados de forma a obter normalidade(Cap. 5); c) apresentar a distribuição de fre-quência ao invés de uma síntese numérica.

3.5  Parâmetros populacionais

Na Biologia, geralmente estamos mais interes-sados em características de populações ou deconjuntos de observações ou eventos do queem indivíduos ou em eventos singulares. Algu-

mas destas características são valores quantita-tivos denominados parâmetros.

Quando temos um conjunto de valores (popula-ção estatística) com distribuição de frequênciaestatisticamente estável, podemos estimar a-propriadamente alguns parâmetros a partir desubconjuntos representativos (amostras). Isto émuito útil, já que raramente temos acesso atoda a população estatística em que estamosinteressados em um estudo. Nesta seção serãoapresentados os parâmetros populacionais mais

importantes. Os parâmetros podem ser univari-ados (de contagem, de proporção, de variáveisordinais, de variáveis quantitativas) ou multiva-riados (de relação).

Os parâmetros de contagem são totais paratoda a população, como número total de indiví-

duos da população estatística (não confunda onúmero de indivíduos da população com tama-nho de uma amostra desta população).

Os parâmetros de proporção são contagens deunidades amostrais de uma categoria divididospor um total de unidades amostrais, como arazão sexual de adultos e a taxa de sucessosem um estudo sobre aprendizado (sucessos/tentativas). Em variáveis binárias só se apre-senta um parâmetro de proporção relevante (e.g. razão sexual= machos/ total), pois o parâme-

tro da outra categoria (fêmeas/ total) seria re-dundante, de forma que você pode escolherqualquer um. Quando há mais de duas catego-rias em uma variável, pode haver mais de umparâmetro relevante (e. g.  “azul/total”, “ver-de/total”, “amarelo/total”). Embora isto possa seraplicado para categorias ordinais, normalmenteé preferível se usar outro parâmetro que seráapresentado adiante para esta escala.

Os parâmetros de variáveis quantitativas envol-vem contagens, como o número médio de célu-

las brancas por campo em uma lâmina de san-gue, ou medidas “contínuas”, como o desviopadrão no tamanho (em μm) de indivíduos deuma população de  Artemia salina. Note que ascontagens neste tipo de parâmetro não são deunidades amostrais, mas de algo que está emcada unidade amostral. No exemplo da lâmina

Figura 3.8- Quando temos uma distribuição normal, pode-mos determinar com base na média e no desvio padrão(DP), como os dados se distribuem e a proporção a cadaintervalo entre um, dois e três desvios padrões acima eabaixo da média.

Page 38: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 38/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

37

de sangue, a unidade amostral era campo e apopulação eram os campos daquela lâmina.

Os parâmetros de variáveis ordinais e de variá-veis quantitativas mais importantes são de trêstipos: de tendência central, de dispersão e ex-

tremos. As três medidas de tendência centralprincipais são a média, a mediana e a moda. Amédia comum (também chamada de médiaaritmética) é a soma dos valores divididos pelonúmero de observações (a princípio não deveriaser aplicado para variáveis ordinais). A medianadivide os valores ordenados pela metade. Porexemplo, se colocarmos 25 valores em ordemcrescente, a mediana será o 13º valor. A modaé o valor mais frequente quando os dados quan-titativos estão agrupados em intervalos. A me-diana geralmente é considerada uma medida

mais apropriada de “centralidade” quando nãotemos uma distribuição normal ou aproximada-mente normal, entretanto, a média é sempreuma medida significativa para medidas quantita-tivas, mesmo na ausência de normalidade, poisreflete um aspecto de centralidade que a medi-ana não reflete.

Nas seções anteriores vimos medidas de dis-persão como o Desvio Padrão e a Amplitude doIntervalo Interquartil. Se a imprecisão da medidafor pouco relevante em relação à variação natu-

ral, estas medidas também são parâmetrospopulacionais (quando toda a população foiamostrada), ou estimativas de parâmetros po-pulacionais (quando o cálculo foi feito por umaamostra), pois a variação é uma característicade uma população.

Parâmetros quantitativos extremos são o máxi-mo e o mínimo populacional para uma variável.Não nos referimos a médias de mínimos ou demáximos, mas a estimativas de mínimos e má-ximos absolutos a partir de amostras. Sua de-

terminação é bem mais incerta e complexa doque para medidas de centralidade e de disper-são. Por este motivo, raramente são tratadosem cursos básicos, entretanto, são parâmetrosextremamente importantes. Por exemplo, preci-samos ter estimativas do valor máximo da en-

chente de um rio para construirmos uma barra-gem segura.

Parâmetros multivariados envolvem mais deuma variável ao mesmo tempo. Por exemplo, adiferença nos tamanhos médios de machos e

fêmeas de ratos silvestres em uma população(parâmetro de grau de dimorfismo sexual emtamanho) ou a inclinação (coeficiente angular)da reta que descreve a relação entre o peso deindivíduos uma população de ratos silvestres ea quantidade de recursos alimentares em suaárea de vida (parâmetro em um modelo mate-mático). São parâmetros, pois são característi-cas quantitativas relacionadas a estas popula-ções, e são importantes nos estudos de rela-ções. Há análises em que diversos parâmetrossão determinados ao mesmo tempo, como em

equações que descrevem a relação entre umavariável resposta e diversas variáveis preditoras(regressão múltipla).

3.6  Intervalos de confiança deparâmetros.

Como já vimos, raramente trabalhamos comparâmetros, trabalhamos com estimativas deparâmetros e estas estimativas tem utilidadelimitada sem um intervalo de confiança.

Se você está estudando um pequeno bando degirafas de uma reserva, basta contá-las paraobter o valor do parâmetro “número de indiví-duos”. Entretanto, se quiser estimar a popula-ção de gafanhotos na mesma área, a contagemde todos provavelmente seria impraticável. Vo-cê poderia dividir a área em muitas partes, sor-tear algumas, realizar contagens apenas nes-tas, tirar uma média e multiplicar pelo númerode partes. Neste caso, você não teria o valor doparâmetro, mas uma estimativa. A chance devocê acertar exatamente é extremamente baixa,por isto qualquer estimativa de parâmetro épraticamente inútil sem um intervalo de confian-ça.

Um intervalo de confiança é uma extensão danossa estimativa para uma amplitude ao invésde um valor pontual, tendo um grau de rigor pré-

Page 39: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 39/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

38

estabelecido para seu cálculo. Os intervalor deconfiança mais utilizados são IC99%, IC95%,IC90% e o erro padrão (ou IC68,27%). UmIC95% de um parâmetro significa que o interva-lo foi calculado de forma a ter 95% de chancedo intervalo de conter o parâmetro. Por exem-

plo, uma estimativa de média de gafanhotos por100 m2 de 12,3 com IC95% entre 8,5 e 20,3 nosdá uma ideia bastante precisa de até que pontonossa estimativa pontual é confiável. A figura3.9 ilustra uma utilização de intervalos de confi-ança para mostrar mudanças temporais. Osintervalos permitem avaliar as mudanças nasmédias de volume de néctar por horário de for-ma objetiva. O aumento entre 5:00 e 6:00 horasé incerto, mas podemos dizer com segurançaque houve redução entre 6:00 e 7:00 horas.

Quanto menor o intervalo de confiança obtidopara um parâmetro, melhor é a estimativa, isto émaior é a sua precisão. A precisão de um pa-râmetro depende da precisão das medidas indi-viduais, da variação natural entre unidades a-mostrais e da representatividade de cobertura.Abordamos precisão das medidas individuais naseção 3.3. É bom termos medidas individuaisprecisas, mas a im-precisão e a variaçãonatural no cálculo deparâmetros podem

ser compensadas poruma maior represen-tatividade de cobertu-ra. A representativi-dade de cobertu-ra.tem dois elemen-tos principais, o ta-manho da amostra(número de unidadesamostrais) e o tama-nho da unidade a-mostral (quando elavaria em tamanho).Basicamente, quantomaior o tamanho daamostra, maior é acerteza de que aestimativa do parâ-metro está próxima

do valor real da população. No exemplo dosgafanhotos, quanto mais áreas de certo tama-nho você tiver, maior precisão terá. Neste e-xemplo, também teremos maior precisão quantomaior for cada área, pois isto tende a diminuir avariação nos valores entre áreas e a represen-

tatividade de cobertura da área coletada. (Arepresentatividade em distribuição é um concei-to diferente relacionado com acurácia da esti-mativa que será tratado na próxima seção.)

O conceito de intervalo de confiança é essencialao usuário de estatística, mas o seu cálculo nãoé, por isto não entraremos em detalhes sobre aforma de calcular intervalos de confiança deparâmetros de contagens e de parâmetros deproporções. Estes intervalos podem ser facil-mente calculados em sites como

www.graphpad.com/quickcalcs/confInterval1 (Motulsky, 2010). Entretanto, entraremos umpouco nos detalhes de como obter intervalos deconfiança de parâmetros de variáveis ordinais equantitativas, pois há conceitos relevantes aousuário que precisam ser tratados.

Há diferentes formas de se determinar interva-

   0   5  :   0   0

   0   6  :   0   0

   0   7  :   0   0

   0   8  :   0   0

   0   9  :   0   0

  1   0  :   0   0

Horário da manhã

0

2

4

6

8

10

12

   V  o   l  u  m  e   d  e   N  e  c   t  a  r   (       μ   L   )

   0   5  :   0   0

   0   6  :   0   0

   0   7  :   0   0

   0   8  :   0   0

   0   9  :   0   0

  1   0  :   0   0

Horário da manhã

0

2

4

6

8

10

12

   V  o   l  u  m  e   d  e   N  e  c   t  a  r   (       μ   L   )

Figura 3.9- Variação na quantidade de néctar (μL) em flores de Ficus devendus entre as 5:00e as 10:00 horas da manhã. A barra horizontal representa a medida paramétrica do Intervalode Confiança de 95% da Média. O IC95% paramétrico é simétrico, mas foram omitidos os

alores negativos no gráfico.

Page 40: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 40/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

39

los de confiança. As mais utilizadas para o pa-râmetro média têm sido o Erro Padrão (Quadro3.2) e uma estimativa paramétrica do Intervalode Confiança da Média (ICM) de 95% (ouIC95% da média) calculada a partir do valor doerro padrão. É importante não confundir o erro

padrão com o desvio padrão. O desvio padrão éuma medida de dispersão de valores da popu-lação; é uma característica desta população queganha precisão quanto maior a amostra usadapara estimá-lo. O erro padrão é um intervalo deconfiança da média (equivale a um IC68%) quediminui quanto maior for o tamanho da amostrautilizada na estimativa. Sempre que usar um ououtro é obrigatório explicitar de qual se trata.

O erro padrão e o intervalo de confiança para-métrico são simétricos acima e abaixo da medi-

a. Este é um dos problemas desta forma decalcular intervalos de confiança que fica clarono exemplo da figura 3.8. Note que foi omitida aparte negativa do intervalo de confiança nohorário 10:00hs. Isto foi feito porque sabemosque não existe quantidade negativa de néctar.Quando a distribuição de frequências é muitoassimétrica, como ocorreu neste exemplo, me-didas paramétricas de intervalos de confiançadevem ser evitadas.

A técnica chamada Bootstrap  (Quadro 3.3)

permite obter uma estimativa não paramétricade intervalos de confiança assimétricos ajusta-dos aos dados. A lógica do funcionamento doBootstrap  é bastante intuitiva e é apresentadana legenda do Quadro 3.3. Quando há normali-dade, suas estimativas são tão boas quanto as

obtidas por métodos paramétricos e quando nãohá normalidade suas medidas são sempre me-lhores. Outra vantagem do Bootstrap é que estatécnica não se restringe a avaliações da média,permite a determinação de intervalos de confi-ança para qualquer parâmetro das escalasquantitativa e ordinal.

Embora seja uma técnica antiga, raramente éapresentada em cursos introdutórios de estatís-tica, porque os conteúdos destes cursos foramdefinidos há uns 30 anos, quando o acesso ao

poder de computação era mais restrito, e estatécnica exige este poder. Entretanto, já faz tem-po que isto não é um fator limitante e trata-se deuma técnica valiosa, de forma que lentamenteestá vencendo o tradicionalismo e começando aser incorporada aos cursos básicos.

Mesmo o intervalo determinado por Bootstrap ésuspeito quando o tamanho amostral é peque-no. De quantos dados precisamos para obterum intervalo de confiança confiável? O ideal émais de 30. Entretanto, assim como no exemplo

da figura 3.9, é comum que tenhamos bem me-nos. Considerando que esta precisão varia como tipo de distribuição, podemos recomendar ummínimo de 5 quando há forte expectativa dedistribuição de frequências aproximadamentenormal, um mínimo de 10 quando há um desviobastante forte da normalidade (e. g. 2, 2, 3, 3, 3,4, 4, 5, 5, 5, 5, 7, 8, 10, 14, 15) e um mínimo de15 quando há um desvio maior (e. g. 0, 0, 0, 0,0, 1, 1, 3, 5, 9, 20). Quando temos tamanhosamostrais menores, o intervalo de confiançapode ser utilizado, mas é muito importante tam-

bém apresentar os dados brutos, como foi feitona figura 3.9, onde os pontos todos são mostra-dos. Tamanhos amostrais pequenos não sãoum pecado acadêmico, mas está errado escon-der do leitor as incertezas nos dados.

Quadro 3.2- Cálculo paramétrico do Intervalo de Confian-ça IC95% da média. O cálculo do Desvio Padrão foi apre-sentado no Quadro 3.1.

Page 41: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 41/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

40

Quadro 3.3- Determinação de Intervalos de Confiança pela técnica de Reamostragem chamada  Bootstrap. Funcionacomo se o computador “clonasse” os dados várias vezes, “recriando” algo semelhante à população original (como os

números na tabela acima). Tendo esta população, o computador retira uma amostra do mesmo tamanho amostral daamostra inicial (representada em destaque na tabela) e calcula o valor do parâmetro ( e. g.  a média). Depois repete o

 processo muitas vezes (e. g. 1000 vezes), obtendo repetições de estimativa do parâmetro. Então retira uma porcentagemdos valores extremos (e. g.. 5% para obter um IC95%) e obtêm os limites do Intervalo de Confiança. 

Page 42: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 42/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

41

3.7  Independência para parâmetrosunivariados

Os valores de parâmetros univariados e seusIntervalos de Confiança apenas são válidos seas amostras utilizadas para as estimativas fo-

rem baseadas em amostras representativasem distribuição na população em questão.

Uma amostra com representatividade em distri-buição é aquela obtida de forma a se obter umaestimativa não tendenciosa de um parâmetrounivariado. A forma mais conhecida de se obteruma amostra representativa em distribuição épela aleatorização (isto é, pelo sorteio) de quaisunidades amostrais de toda a população serãoincluídas na amostra. Esta não é a única formaválida de obter amostras representativas em

distribuição, uma coleta sistemática apropriadatambém permite isto (Fig. 3.11). Por que isto éimportante? Suponha que você quisesse esti-mar a produtividade vegetal média em umafazenda e realizasse todas as coletas na mar-gem leste desta fazenda por uma questão deconveniência (proximidade da estrada de aces-so). O problema é que esta produtividade pode-ria ser influenciada pela fertilidade do solo quenão é necessariamente homogênea e poderia*variar em gradiente de uma margem a outra daárea. Isto não é uma questão de paranoia me-todológica (seção 1.5), é uma possibilidadeconcreta que não pode ser desprezada. A pos-sibilidade da estimativa do parâmetro ser desvi-ada por qualquer variável de confundimento quepossa ter algum padrão espacial ou temporal éanulada se a coleta for feita de uma forma a-propriada, como em uma coleta aleatória ousistemática na área de estudo. Algo semelhanteacontece com coletas realizadas ao longo dotempo.

A qualidade de uma estimativa de parâmetrounivariado depende, primariamente, das unida-des amostrais terem sido obtidas de uma formabem distribuída no universo amostral (represen-tatividade em distribuição) e, secundariamente,da porcentagem da população que foi amostra-da (representatividade em cobertura). Por e-xemplo, se você conseguir dados de altura de

Figura 3.11- Três formas de coletar dados. X= unidadesamostrais selecionadas para compor a amostra. Nestecaso, a amostra sistemática não é representativa da bordada área e a amostra de conveniência só é representativa deuma borda. 

Page 43: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 43/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

42

0,01% da população masculina adulta do Brasilpor sorteio de toda a população terá uma amos-tra excelente para calcular a média de alturas.Se você utilizar os dados de toda a populaçãomasculina adulta de um único estado, comoSão Paulo, esta medida não será representativa

da média nacional, mesmo contendo cerca de20% da população do Brasil. Quando há repre-sentatividade em distribuição as unidades a-mostrais, frequentemente se diz que são “inde-pendentes”. O que significa independentes?Independentes umas das outras? Não, nempoderiam, já que estamos falando de uma popu-lação e todas devem pertencer à mesma popu-lação. O termo Independência significa fora dainfluência de um fator de confundimento.

3.8  Independência em análises de

relações

As análises mais comuns em estudos biológicosenvolvem a avaliação de relações que implicamcausalidade (relações consequentes). Nestasanálises são calculados parâmetros multivaria-dos (e seus intervalos de confiança), incluindodiferenças de médias entre grupos, coeficientesde correlação ou coeficientes para cada variávelde uma equação em modelos matemáticos maiscomplexos. Nesta situação, podemos falar emindependência quando há representatividadeparalela (Fig. 3.12). Na representatividadeparalela ideal, os conjuntos de unidades amos-trais de cada nível da variável preditora (ou

combinações de níveis das variáveis preditoras,se houver mais de uma) possuem representati-vidade em distribuição válida em relação à po-pulação estatística. Esta situação é rara, comoveremos adiante, de forma que geralmente sebusca nesta situação uma representatividade

paralela parcial e generalizações com base narazoabilidade. Na representatividade paralelaparcial, os conjuntos de unidades amostrais decada nível da variável preditora possuem amesma representatividade em distribuição entresi, ainda que nenhum destes níveis seja válidocomo representatividade em distribuição detoda a população estatística. Esta situação seráexplicada com exemplos experimentais, poisneles é mais simples se obter esta condição.

Vamos comparar três experimentos para testar

a hipótese que a Vermiculita (um mineral seme-lhante à mica usado na agricultura) adicionadaao solo influi sobre a produtividade de soja.Para testar esta hipótese você vai comparar ocrescimento de plantas em vasos sem vermicu-lita (controle) com o crescimento de plantas emvasos com 50 g de Vermiculita adicionada aosolo. No primeiro experimento você utiliza ape-nas sementes saudáveis de soja de um pacoteque comprou em um supermercado. Ao final, asplantas nos vasos com o tratamento cresceramsignificativamente mais e a resposta para sua

questão, dentro de critérios estatísticos, é sim, pelo menos para este pacote. Note que umpacote não pode ser considerado representativodas plantas de soja do mundo, entretanto oresultado positivo pode ser considerado umaevidência relevante do efeito da vermiculita paraalém deste pacote. A lógica é que, neste con-texto, costuma ser mais razoável imaginar que adiferença é uma característica genérica da sojado que particular ao pacote. Voltaremos a istoadiante.

Agora imagine que você tem dois pacotes desementes de soja, um de um lote brasileiro eoutro de um lote japonês. Você escolhe (ousorteia) qual deles vai ser utilizado no controle eo outro vai para o tratamento. Ao final, as plan-tas nos vasos com o tratamento cresceramsignificativamente mais. O problema é que você

Figura 3.12- A representatividade paralela ocorre quandoos conjuntos de unidades amostrais de cada nível da

ariável preditora (linhas paralelas) possuem a mesmarepresentatividade de distribuição. Isto ocorre, por exem-

 plo, quando selecionamos aleatoriamente as unidadesamostrais que serão utilizadas em cada tratamento em umexperimento. 

Page 44: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 44/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

43

não sabe se cresceram mais em função dotratamento ou em função do lote. Não há repre-sentatividade paralela porque os níveis da vari-ável preditora diferem em algo que relevantealém da própria variável em estudo. O sorteiofoi uma aleatorização irrelevante, pois não foi

para cada semente e sim para cada pacote, deforma que não permitiu a homogenização darepresentatividade entre os níveis. A variável“lote” neste caso é uma variável de confundi-mento  porque gera uma indefinição, já que éuma explicação alternativa ao tratamento comVermiculita para explicar a diferença entre tra-tamento e controle. Portanto, este segundoexperimento é inconclusivo.

Em um terceiro experimento, você sorteia dequal dos dois lotes, do Brasil ou do Japão, sairá

cada uma das sementes que irá para o trata-mento e para o controle. Desta forma, terá umamistura dos dois lotes tanto no controle como notratamento. Ao final, as plantas nos vasos como tratamento cresceram significativamente maise a resposta para sua questão é sim, pelo me-nos para esta mistura de dois pacotes. Assimcomo o primeiro experimento, este também éválido.

Note que em nenhum desses experimentostemos garantia de representatividade em distri-

buição das amostras em relação a todas asplantas de soja do mundo, mas isto não é tãoimportante quanto a representatividade paralela.Vejamos por quê.

Nos estudos de relações entre uma variávelpreditora e uma variável resposta não há ape-nas duas variáveis em jogo, há muitas outrasvariáveis influindo sobre a variável resposta,que podem atrapalhar na avaliação sobre arelação em estudo. O primeiro e o terceiro expe-rimentos são considerados válidos porque a

representatividade em distribuição entre osníveis da variável preditora é idêntica. Isto é,ainda que não tenham representatividade emdistribuição da população, não diferem de formapotencialmente tendenciosa, pois não existe umfator que afeta o grupo do tratamento de formadiferente da que afeta o grupo controle. Assim,

o único fator que influi no sentido de causaruma diferença entre o tratamento e o controle éo próprio efeito do tratamento em estudo.

No segundo experimento o potencial efeito dolote tornou o resultado inconclusivo, mas no

terceiro experimento o efeito do lote foi anuladoporque o sorteio garantiu a representatividadebalanceada, isto é, a distribuição do efeito dolote igualmente entre tratamento e controle.Tecnicamente dizemos que “realizamos atribui-ção aleatória de qual semente vai para cadanível de tratamento”. Em uma linguagem maissimples, a gente simplesmente mistura bem assementes e distribui entre os tratamentos. Ape-nas em estudos experimentais temos este po-der de atribuição aleatória de tratamentos. Emestudos não experimentais precisamos encon-

trar outras formas de anular ou reduzir o efeitode variáveis de confundimento que trataremosno capítulo 6, mas a essência de se buscarrepresentatividade paralela é a mesma.

Além de anular o efeito de potenciais variáveisde confundimento, há uma segunda preocupa-ção que precisa ser levada em conta em estu-dos de relações: a representatividade. Como jácomentamos acima, o experimento 1 com assementes foi considerado válido, mas baseou-se em apenas um lote de sementes de soja. O

ideal não seria que fosse utilizada uma amostraaleatória de todas as sementes de soja domundo? Isto seria muito difícil, mas pelo menosnão deveríamos tentar misturar vários lotesdiferentes?

Para responder estas perguntas, precisamoslevar em conta conhecimentos biológicos erazoabilidade. A rigor, a conclusão a que che-gamos com um lote aplica-se apenas ao lote desementes que estudamos. Entretanto, este nívelde rigor é exagerado. Podemos e devemos

utilizar a validação externa por razoabilidade(seção 1.5). Com base em nossos conhecimen-tos biológicos, devemos ser cautelosos em ge-neralizar o resultado para toda a espécie emqualquer clima e solo, mas é muito razoávelgeneralizar para a variedade e para o mesmoclima e solo. Poderíamos ter feito uma mistura

Page 45: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 45/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

44

de lotes diferentes, o que realmente aumenta opoder de generalização, entretanto, isto introduzruído na análise. Ruído é a variação ocasionadapor incluir o efeito de outras variáveis, ainda quede forma não tendenciosa, o que leva ao obscu-recimento do efeito em estudo. A decisão de

misturar alguns lotes é razoável e precisa serponderada pelo pesquisador, levando em contase irá priorizar o poder do teste ou a generaliza-ção. Entretanto, considerando que normalmentequeremos generalizar nossas conclusões para ofuturo, e que não podemos viajar no tempo, arepresentatividade paralela ideal raramente épossível e geralmente teremos que julgar combase na razoabilidade até onde podemos gene-ralizar as conclusões de um estudo.

Em resumo: em estudos de relações, o aspecto

mais importante é proceder de forma a anulartodas as potenciais variáveis de confundimento(aquelas que podem causar tendenciosidades).Desta forma, teremos a segurança de que asdiferenças significativas nas variáveis respostasapenas possam ser atribuídas às variáveis pre-ditoras estabelecidas no estudo. Adicionalmen-te, é preciso refletir até que ponto as unidadesamostrais representam o universo amostralinferido pelo estudo.

3.9  Considerações complementares

3.9.1- Sobre o significado do termo “Indepen-dência”.

Como vimos, o termo “independência”  tem sig-nificados diferentes, o que gera confusão. Nestaseção analisaremos o uso do termo e sintetiza-remos o que vimos nas duas seções anteriores.Mesmo nos melhores textos de bioestatística oconceito de independência é apresentado deforma pouco esclarecedora.

Definição 1: “Por independência queremos dizerque as observações coletadas em uma réplicanão tem influência sobre as observações cole-tadas em outra” (Gotelli e Elison 2010). Mesmoneste excelente livro, a definição não é clara. Édifícil entender como observações coletadaspodem influir sobre outras observações coleta-

das. Com esta definição, somos induzidos aachar que não haveria problema de indepen-dência no segundo experimento da seção ante-rior, pois não há nenhuma influência de umasemente sobre a outra, cada uma está em umvaso separado. Entretanto, o problema das

sementes não estaria na influência presente deuma réplica sobre outra durante o experimento,mas em potenciais diferenças nos “passadoscompartilhados” que são fatores comuns a cadalote de sementes (constituição genética, riquezado solo onde foram geradas, tempo de armaze-namento, qualidade obtida em função da formade colheita e transporte, etc.).

Definição 2: “Em probabilidade e estatística,independência entre variáveis aleatórias oueventos significa que a partir do resultado de

um deles não é possível inferir nenhuma con-clusão sobre o outro” (Wikipédia). A Wikipédia éuma valiosa fonte para tirar dúvidas de estatísti-ca, mas não ajudou. O que significa “a partir doresultado de um deles”? Com dependência ousem, nunca podemos inferir um valor a partir deoutro. E se considerarmos vários valores, oconceito não se sustenta logicamente nem nosexemplos de jogos de azar. O que significa “nãoé possível inferir nenhuma conclusão sobre ooutro”? Se eu jogar um dado muitas vezes (e-ventos independentes) posso verificar que há

seis números diferentes com frequências seme-lhantes de ocorrência e posso concluir que achance de cair qualquer um deles na próxima jogada é de 1/6, ao contrário do que propõe adefinição.

É surpreendente que um termo tão importantena estatística não seja definido de forma maisapropriada. Estas definições provavelmenterefletem uma visão de estatística predominan-temente inspirada em jogos, mas que não seencaixa bem em situações de pesquisa.

A dificuldade existe porque se utiliza um termopara quatro conceitos diferentes: a independên-cia genérica, a independência absoluta, a inde-pendência induzida de amostragens e a inde-pendência induzida de relações.

Page 46: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 46/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

45

A Independência (genérica) é um termo que seaplica quando se obtém as condições necessá-rias para análises estatísticas não tendenciosas.Entretanto, o termo normalmente não é utilizadoestritamente com este sentido. A expressão“independência entre unidades amostrais” é

utilizada com frequência, como se fosse umacaracterística intrínseca das unidades amos-trais. Mas é importante entendermos que duasunidades amostrais nunca são independentessob todos os aspectos imagináveis. Você pode-ria considerar independentes duas unidadesamostrais obtidas em lados opostos do mundo,mas elas seriam dependentes em algum outroaspecto, como, por exemplo, por terem sidomedidas no mesmo ano. Na realidade, entre asunidades amostrais tem que haver uma depen-dência fundamental: todas devem pertencer à

mesma população, que é delimitada por muitascaracterísticas comuns. Na forma como o termocostuma ser usado, não fica claro que estascondições variam em função do tipo de análiseque estamos fazendo.

Dois eventos são “absolutamente independen-tes” se a ocorrência de ambos é aleatória dentrodo mesmo universo de possibilidades delimita-do. Depois de tirar uma carta do baralho (e vero que ela era), o universo de possibilidades dasegunda retirada é diferente (uma carta conhe-

cida está fora), logo os dois eventos não sãoabsolutamente independentes, pois um influisobre o outro. Apenas com condições idênticastemos independência absoluta entre eventos.Este conceito de independência é aplicável em jogos e em muitos experimentos em física equímica. Algo próximo a isto pode ocorrer emlaboratórios de biologia quando é possível con-siderar todas as condições biológicas idênticas(condições climáticas estritamente controladas,ao se utilizar clones, eficiência do manipuladorpadronizada, etc.). Se houver qualquer dúvidasobre eventuais efeitos de mudanças temporais,espaciais, genéticas, de eficiência, etc., dentrodo laboratório, que não seja o tratamento emestudo, é melhor realizar a pesquisa com oconceito de representatividade balanceada.

Existe independência induzida de amostragem quando as unidades amostrais incluídas naamostra foram selecionadas de forma represen-tativa do universo amostral (representatividadeem distribuição). O modelo ideal de indepen-dência induzida de amostragem é a amostra

aleatória na qual cada unidade amostral temigual chance de ser escolhida para fazer parteda amostra. Entretanto, há outras formas de seobter independência induzida de amostragem.Esta forma de independência é necessária paraestimativas de medidas coletivas (parâmetros)de uma população.

Existe independência induzida de relação  porrepresentatividade balanceada em estudos comvariáveis preditoras e variável resposta quandoa relação entre cada variável preditora e a vari-

ável resposta não é influenciada ou por umavariável de confundimento ou até mesmo peloefeito de uma variável preditora sobre a outra. Aforma ideal de se obter isto é pela aleatorizaçãoda atribuição de tratamentos descrita na seçãoanterior que pode ser obtida em estudos expe-rimentais, mas há outras abordagem que po-dem se aproximar deste ideal.

Page 47: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 47/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

46

3.9.2- O preço a pagar pela qualidade.

Alta precisão e acurácia são característicasdesejáveis em medidas, mas não existe medidaperfeita e qualidade tem seu preço, sejam elasmedidas de propriedades de unidades amos-

trais ou medidas de propriedades de popula-ções. Por exemplo, vale a pena gastar metadedo dinheiro de um projeto para trocar um ins-trumento de baixa precisão por outro de altaprecisão, comprometendo uma verba que per-mitiria mais idas ao campo? É razoável delimi-tarmos o tamanho de um transecto de 200 musando passos, ou é necessário sempre utili-zarmos da precisão de uma trena? Se umaamostra aleatória é inviável, podemos utilizaruma amostra menos representativa ou é melhordesistir do estudo? Um experimento deve ser

cancelado se questões logísticas nos impedemde realizar as medidas do tratamento e do con-trole na mesma semana?

Administrar projetos de pesquisa é uma ativida-de complexa, de forma que não podemos igno-rar custos, tempo, praticidade e questões logís-ticas na determinação da precisão e acuráciaque será utilizada. É importante conhecer ideaismetodológicos (e. g. medidas precisas e nãotendenciosas, tamanhos amostrais grandes,amostragens aleatórias, etc.), mas estes ideais

não são leis metodológicas absolutas, são ape-nas diretrizes que devem ser levadas muito asério. Acontece que há limites logísticos, físicose morais que ocasionalmente nos impedem demedir e coletar dados da forma ideal. É essen-cial entender a diferença entre um comporta-mento cuidadoso para evitar interpretaçõesequivocadas e uma paranoia metodológica (se-ção 1.5). Um treinamento metodológico nãopode te proibir de agir nestas condições, masensinar como redobrar o cuidado quando fornecessário. Não existe uma única metodologia

correta, existem metodologias apropriadas (ounão) considerando o contexto e as alternativasdisponíveis para resolver um problema.

Vamos abordar situações concretas. É necessá-rio diferenciar três situações nas medidas indi-viduais: a) quando há uma decisão importante a

cada medida; b) quando há dificuldade em seobter os objetos a serem medidos; c) quando oestudo permite obter várias medidas “indepen-dentes”.

Nas duas primeiras situações, a prioridade na

precisão é mais alta que na terceira. Por exem-plo, se estivermos selecionando atletas parauma olimpíada, não é aceitável a exclusão deum atleta por erro de medida (cada medida levaa uma decisão importante). Quando temos difi-culdade em obter os objetos ou encontrar assituações de interesse da pesquisa, cada opor-tunidade deve ser aproveitada ao máximo. Oque se ressalta aqui é que apenas nos casosem que cada medida for muito importante oudifícil de ser obtida, a alta precisão justifica altaprioridade de investimento. Naturalmente, não é

uma questão de investir ou não na qualidade,mas de quanto investir.

Na terceira situação, temos que separar preci-são de acurácia. Por causar desvios aleatórios(i. e.  não tendenciosos), a falta de precisãonormalmente não é um problema tão grave napesquisa. É um problema indesejável, mas fre-quentemente pode ser compensado por umaamostragem maior (com a vantagem de melhorrepresentatividade). Isto ocorre porque nostestes de hipóteses estatísticas, as conclusões

são tomadas quando uma tendência (relaçãoem estudo) é tão forte que pode ser distinta devariações aleatórias, sejam elas naturais ou demedida. A falta de precisão pode contribuir paranão termos sucesso em “provar” uma determi-nada relação, em função de uma amostrageminsuficiente. Isto é considerado um erro menossério do que “provar” equivocadamente umarelação que não existe, como veremos no capí-tulo 4. Em outras palavras, a falta de precisãopode atrasar a obtenção de resultados significa-tivos, mas não aumenta a chance de um falso

positivo. Por outro lado, a falta de acurácia nãopode ser compensada por um aumento no nú-mero de unidades amostrais medidas. Portanto,é uma fonte de preocupações nas três situa-ções.

Page 48: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 48/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

47

É importante que o cuidado com a qualidade damedida não se torne obsessivo, isto é, prejudi-cial ao próprio estudo. Por exemplo, digamosque você esteja fazendo um trabalho de ecolo-gia vegetal no Pico da Neblina e seu tempo émuito curto por questões logísticas. É válido

medir transectos com passos para economizaro tempo de estender a trena em cada transec-to? Vimos que a falta de precisão não é umproblema sério, mas e se neste processo in-conscientemente obtivermos uma medida ten-denciosa que subestima o tamanho do transec-to? Digamos que esta falta de acurácia resulteem transectos com 190 m em média ao invésde 200 m. Qual a gravidade disto? Depende daquestão em estudo. Se você estiver querendocomparar a densidade de plantas em diferentesaltitudes e cometer o mesmo erro, então a falta

de acurácia seria irrelevante, pois todos os tran-sectos serão do mesmo tamanho, que é o queimporta para que sejam comparáveis. Entretan-to, se o objetivo for obter medidas precisas dedensidade para comparar com outros locais,então quanto maior for o desvio, maior será oproblema com o resultado. Provavelmente, umasub-estimativa de 5% na área de cada transectonão tenha muita relevância, neste exemplo emparticular.

Alguns dos problemas mais graves ligados à

qualidade dos dados aparecem quando esta-mos tomando uma medida por outra. Um exem-plo clássico é a utilização de provas para medircoeficientes de inteligência, como se uma provadestas conseguisse captar conjuntamente acomplexidade dos diferentes tipos de inteligên-cia. O máximo que estes testes poderiam mediré a capacidade das pessoas de se saírem bemneste tipo de teste. Podemos considerar pro-blemas deste tipo como falta de acurácia porindefinição de um padrão de referência paracalibrar as medidas. Na seção 1.5 vimos outrosproblemas de validação da medida ligados aesta falta de acurácia inclusive um com variávelbinária. Ao perguntarmos a meninos se elessabiam nadar, a resposta (sim ou não) era ten-denciosa (muitos não sabiam, mas tinham ver-gonha de responder a verdade), a das meninastambém era, mas de forma menos intensa. Des-

ta forma, mesmo sem diferença na habilidadede nadar, concluiríamos que os meninos têmmais habilidade. Este exemplo ilustra os riscosda falta da acurácia em medidas em qualquerescala.

Os conceitos de precisão e acurácia aplicam-semelhor a valores quantitativos, mas podem sergeneralizados para outras escalas de medida.Quando estamos com uma variável ordinal,podemos obter maior precisão quanto maior foro número de categorias ordinais. Por exemplo,se queremos avaliar a sensação térmica depessoas, teremos menos precisão com umaescala de três níveis efetivos (quente, agradá-vel, frio) do que uma de cinco níveis efetivos(muito quente, quente, agradável, frio e muitofrio). Entretanto, escalas ordinais exigem um

cuidado redobrado na análise, pois muitas ve-zes é difícil avaliar acurácia nestas condições(e. g. qual o valor real de “muito frio”?). Quandofalamos em escala categórica, temos uma situ-ação similar. Nem sempre os limites de umacategoria são claros. Qual é o limite onde overmelho deixa de ser vermelho para se tornarlaranja? O resultado de um exame de sanguepode ser positivo ou negativo (logo binário) paramalária, entretanto, há uma incerteza (pode serum falso positivo) que diminui em função daquantidade de amostras e da experiência de

quem analisa o exame. Por isto, os erros deatribuição de categorias também podem serconsiderados erros de precisão (se não foremtendenciosos) ou de acurácia (se forem tenden-ciosos).

Como vimos na seção 3.6, a acurácia na medi-da de um parâmetro é maximizada quanto me-lhor a representatividade amostral. Se a amos-tragem aleatória não é possível, o que é muitocomum, procure o método de coleta que maisse aproxima daquilo que você esperaria obter

em uma amostra que fosse aleatória. Há muitasformas sistemáticas de coletar os dados quepermitem obter amostras representativas. Tam-bém há formas de analisar os dados para obterresultados mais representativos (e. g. a médiaponderada). Se nada disto for possível, procurecoletar amostras o mais distante possível dentro

Page 49: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 49/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

48

da área de estudo. Tente evitar associar algumavariável que poderia dar um viés à coleta. Porexemplo, se quer investigar o interesse de umapopulação por futebol, o último lugar onde vaiobter uma amostra representativa é em umestádio de futebol. Entrevistar pessoas na rua

em diferentes bairros não é o ideal, pois excluigrupos de pessoas que andam pouco na rua,como idosos. Telefonar para pessoas tambémpode excluir pessoas que não tem dinheiro ouinteresse em ter um telefone. Entretanto, sevocê fizer as duas coisas e os resultados foremsemelhantes, então tem uma indicação queestas formas de amostrar não foram tão ruins.Outra opção é simplesmente reduzir o universode estudo ao grupo com o qual se pode traba-lhar e tirar conclusões apenas sobre este grupo.Por exemplo, seu estudo pode ser sobre o inte-

resse em futebol das pessoas que andam narua.

Como vimos na seção 3.8, a questão da inde-pendência no estudo de relações é um proble-ma fácil de resolver em abordagens experimen-tais normais, nas quais podemos escolher alea-toriamente quais entidades receberão quaistratamentos. Entretanto, quando isto não é pos-sível é bem mais complicado analisar causali-dade. Este assunto será aprofundado no capítu-lo 6.

Page 50: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 50/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

49

Exercícios:

1) O que são escalas de medida? Apresente umexemplo original de cada uma delas.

2) Faça um gráfico EPR com três níveis de me-

dida ordinais no eixo x e com cinco níveis quan-titativos no eixo Y. Represente 20 entidadesneste gráfico.

3) Explique por que dividir a escala quantitativaem “números contínuos” e “números descontí-nuos” não resolve o problema da descontinui-dade.

4) O fato de um valor pertencer a uma escalanão implica que ele não possa pertencer a outraescala ao mesmo tempo. Explique.

5) Explique e exemplifique as incertezas naatribuição de valores nominais e ordinais.

6) Faça uma ilustração representando alvosatingidos por uma espingarda com a) alta preci-são e alta acurácia; b) alta precisão e baixaacurácia; c) baixa precisão e alta acurácia;d) baixa precisão e baixa acurácia.

7) Explique porque o Intervalo Interquartil é umamedida de dispersão (ou imprecisão) melhor

que a amplitude total para comparar a dispersãode amostras com número de observações dife-rentes.

8) Em que o desvio padrão é mais convenienteque intervalos interquartis como medida dedispersão e quando a utilização de desviospadrões não é apropriada.

9) Alguns textos usam o termo “erro” para adispersão de dados em função da imprecisãoda medida e para a variação natural. Expliquepor que isto não é apropriado.

10) Faça um histograma com 24 valores querepresente uma distribuição bastante próximado esperado para uma população com distribui-ção normal e um segundo histograma com 24valores com uma distribuição muito fora do es-perado para uma população com distribuição

normal. Coloque nomes nos eixos ilustrando umexemplo de um estudo biológico imaginário.

11) Cite usando exemplos de variáveis originaisa) um parâmetro populacional para uma variávelbinária; b) dois parâmetros populacionais para

uma variável ordinal; c) três parâmetros popula-cionais para uma variável quantitativa; d) umparâmetro multivariado.

12) Quando a mediana e a moda são medidasmais úteis?

13) Para que utilizamos intervalos de confiançaem estudos biológicos?

14) Qual a diferença na utilidade do desvio pa-drão e do erro padrão.

15) No “Bootstrap”, o computador “cria” “pseu-dopopulações” pela clonagem dos dados. Expli-que como isto permite determinar intervalos deconfiança pela exclusão de extremos.

16) Explique por que acurácia é mais importanteque a precisão quando estamos estimandoparâmetros populacionais?

17) Explique as diferenças de definição e usoda representatividade em cobertura, da repre-sentatividade de distribuição e da representati-vidade paralela.

18) Explique a dificuldade que existe na defini-ção do termo “independência” em contextosestatísticos.

19) O que é “paranoia metodológica” e porquenem sempre podemos seguir ideais metodológi-cos?

20) Podemos falar em precisão e acurácia emescalas de medidas ordinal, categóricas e biná-

rias? 

Page 51: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 51/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

50

4. A lógica dos testes dehipóteses

Uma das funções mais importantes da estatísti-ca é fornecer ferramentas que ajudem a testarhipóteses. O assunto é tão central em livros ecursos de estatística que algumas pessoasacham que se trata de um assunto dentro daestatística (Fig. 4.1-A). Em função disto, é con-veniente chamar a atenção para o fato que nemtodos os testes de hipóteses envolvem estatísti-ca. Testes de hipóteses sem estatística sãoextremamente comuns, não apenas em filmesde Sherlock Holmes, como no seu cotidiano eem muitas pesquisas científicas (seção 1.4).Além disto, mesmo quando se utiliza estatística,

o teste de hipótese é algo mais amplo que oteste estatístico (Fig. 4.1-B). O assunto destecapítulo é a lógica dos testes estatísticos dentrodo contexto mais amplo dos testes de hipóte-ses.

Mais um esclarecimento para evitar outro malentendido comum. Quando dizemos que pro-vamos alguma coisa na pesquisa, estamos nosreferindo a provas empíricas. Provas “lógicaspuras” existem em campos como a geometria eo cálculo, onde há raciocínios inteiramente de-

dutivos e inquestionáveis. Uma prova empíricaé diferente, ela usa lógica, mas ela não é intei-ramente dedutiva, mesmo no método hipotético-dedutivo, pois ela não é logicamente necessária(Diez e Moulines, 2007). A prova empírica éuma prova considerada satisfatória dentro decritérios rígidos, e pode ser extremamente con-vincente, mas a ciência é sempre questionável,pois não é dedução pura. Se fosse deduçãopura, a observação não seria necessária. Écomum lermos frases como “é impossível vocêprovar uma hipótese na ciência”. A frase só está

correta se o termo “provar” estiver com o signifi-cado de “prova lógica pura”. Entretanto, não hánada de errado em se dizer que se provou em-

 piricamente uma hipótese se seguirmos os crité-rios de validação que a comunidade científicada área do assunto em questão tiver determina-do.

4.1  O método hipotético dedutivo

Chamaremos a hipótese empírica que quere-mos testar de hipótese de trabalho. Como vimosna seção 1.3, uma hipótese (de trabalho) empí-rica é uma afirmação que tem consequênciasempíricas constatáveis. O teste de uma hipóte-se baseia-se justamente na dedução de previ-

sões desta hipótese e na verificação que asprevisões realmente ocorrem. Parece fácil, mastem dois problemas.

O primeiro problema é que observar qualquercoisa que a hipótese prevê não é evidênciasuficiente para provar que a hipótese está corre-ta. As previsões para testes precisam definircondições especiais para reduzir incertezas aomínimo. A fase dedutiva do método hipotéticodedutivo termina na previsão; mas o que vemdepois? A prova empírica baseia-se na coerên-cia entre previsão e evidência e na exclusão por julgamento de grau de razoabilidade (qualitati-vo-sistêmico) e/ou cálculo de razoabilidade(probabilidade) de todas as outras possibilida-des de se obter esta mesma evidência. Esteserá o assunto na maior parte do capítulo.

Figura 4.1- O assunto teste de hipóteses não é algo que está

dentro da estatística como simbolizado na figura A. O testede hipóteses é algo mais amplo que pode utilizar importan-tes ferramentas estatísticas (área de sobreposição na figuraB).

Page 52: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 52/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

51

O segundo problema é que não observar o quea hipótese prevê também não prova que a hipó-tese esteja errada. O que fazemos quando nãoconseguimos provar a hipótese de trabalho?Devemos abandona-la? A decisão ao final doteste de hipótese nem sempre é um “sim” ou um

“não” claros, e temos que refletir sobre o quefazer com o “talvez”. Este assunto e outros liga-dos aos testes de hipóteses serão tratados maispara o final do capítulo.

Comecemos com o primeiro problema e vamosilustrar esta ideia com um exemplo cotidiano.Você sabe que estudar ajuda a tirar notas maisaltas, mas imagine que este fosse um fato des-conhecido e vamos tratar esta afirmação comouma hipótese de trabalho. Como mostrar queela é verdadeira? Uma previsão é que alguém

que estude muito terá uma nota mais alta quealguém que estude pouco. Então imagine queJoão estudou e tirou 9,0 e José estudou e tirou4,0, como seria esperado pela hipótese de tra-balho. Entretanto, podemos imaginar muitasoutras razões que poderiam explicar o sucessode João e o fracasso de José. Logo, não pode-mos afirmar com base nestes dados que estu-dar faz diferença. Por isto, a tua previsão nãopode se restringir a duas pessoas, sua previsãotem que ser que várias pessoas que estudaremmuito terão em média notas maiores que várias

pessoas que estudarem pouco. Você aindaprecisa eliminar outras possibilidades: “desdeque as provas sejam controladas para prevenircola”;  “desde que o grupo dos que estudaramseja equivalente ao grupo dos que não estuda-ram (por exemplo, por escolha aleatória dosmembros de cada grupo)”; “desde que a provaseja sobre o assunto estudado”, etc. Veja quehá uma série de condicionais para a sua previ-são ser considerada uma previsão válida parateste, isto é, uma previsão exclusiva da hipótesede trabalho. Alguém poderia invalidar a conclu-são do teu estudo se mostrasse que o grupoque estudou mais fez a prova em uma sala arcondicionado e o grupo que não estudou fez aprova em uma sala quente. A diferença poderiater sido pelo desconforto do segundo grupo, evocê não prova empiricamente uma hipóteseenquanto não mostrar que não há nenhuma

outra hipótese razoável para explicar a evidên-cia obtida.

Outro exemplo. Um biólogo estudava uma es-pécie de formiga que caça em grupos de cercade 20 indivíduos, captura cupins a até 200 m de

distância do ninho e depois retorna ao ninho.Ele se perguntou: como elas acham o caminhode volta? (Questão). Ele sabia que as formigasutilizam pistas químicas, mas há um risco altodelas acidentalmente perderem a trilha, por istoachou que elas poderiam estar utilizando outraspistas para encontrar seus ninhos. Então, elelevantou a hipótese que elas usavam tambémreferenciais espaciais (árvores e arbustos aoredor) para achar o caminho de volta. Para tes-tar a hipótese, ele esperou as formigas se afas-tarem 100 m do ninho e prendeu-as sob um

balde, retirou toda a camada superficial de soloda área ao redor do ninho, marcou as formigascom uma tinta não tóxica e soltou-as. No diaseguinte, ele voltou ao formigueiro e encontrouas formigas marcadas lá. Desta forma, ele con-cluiu que as formigas são capazes de encontraro ninho mesmo sem as pistas químicas e de-vem possuir uma capacidade de orientação combase em referências espaciais. Veja como esteprocedimento envolve contrastes de previsões.

A previsão da hipótese era que as formigas

conseguiriam retornar ao ninho (pois podemutilizar referenciais espaciais). Entretanto, amera observação das formigas de volta no ni-nho não teria nenhum valor sem a eliminaçãodos rastos com a remoção do solo, pois elaspoderiam ter retornado utilizando apenas aspistas químicas. O biólogo ainda marcou asformigas para eliminar a possibilidade de estarconfundindo os indivíduos do estudo com outrasformigas do ninho, ou até com formigas de outroninho que tivessem aproveitado a oportunidadedo ninho vazio. Alguém poderia questionar a

validade de um experimento que prendeu formi-gas sob um balde, trocou o solo e as marcoucom tinta, o que certamente poderia ter afetadoo comportamento delas. Entretanto, estas criti-cas não comprometem a interpretação do resul-tado, pois o que poderíamos prever desta per-turbações é que elas apenas poderiam atrapa-

Page 53: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 53/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

52

lhar as formigas, de nenhuma forma poderiamajudá-las. O fato é que mesmo com estas per-turbações, elas conseguiram chegar ao formi-gueiro. Outra pessoa poderia questionar a inter-pretação dizendo que as formigas poderiam terse orientado com base no eixo magnético da

terra, utilizando uma “bússola” interna. Ele po-deria ter respondido que esta possibilidade nãopode ser excluída, mas que não parece razoá-vel, pois já foi demonstrada a capacidade deorientação por referenciais espaciais em outroshimenópteros, mas nunca foi demonstrada acapacidade de orientação magnética em inse-tos. Algumas descobertas incríveis, como acapacidade de ecolocação em morcegos demo-raram a ser aceitas. Entretanto, geralmente éuma boa decisão não começar seriamente idei-as muito radicais sem ter bons motivos para

isto, especialmente quando sua hipótese detrabalho parece muito mais provável.

Ainda há uma hipótese a considerar: as formi-gas poderiam ter conseguido retornar por sorte.Poderiam ter andado a esmo pela área e poracaso encontrado a pequena abertura do formi-gueiro. Entretanto, procure imaginar a situação,não eram 2m ou 10 m, eram 100 m. É umadistância enorme para as formigas andarem aoacaso e encontrarem o formigueiro apenas porsorte. Seria muito mais provável que elas

simplesmente se perdessem se não tives-sem orientação. A hipótese de terem en-contrado ao acaso é tão improvável quepode ser tranquilamente descartada.

Para aprofundar a ideia do método hipoté-tico dedutivo, vamos representa-la deforma mais visual (fig. 4.2) e vamos ver aspartes envolvidas. A hipótese de trabalhotem uma posição central no processo, oque é natural, porque é ela que está sendotestada e é dela que partem as previsões

que serão utilizadas. Vemos no esquemaque existem várias “hipóteses” que pode-riam competir com ela como explicaçõesalternativas para o que se encontrou comoevidências. Não são hipóteses de interessepróprio de pesquisa, por isto utilizamos asaspas, são antes possibilidades que preci-

sam ser consideradas no processo, por istoutilizamos as aspas. Por outro lado, não estáerrado chamá-las de hipóteses, já que sãoafirmação que tem consequências empíricasconstatáveis.

Na realidade, o processo completo de teste dehipóteses começa antes da hipótese de traba-lho. A escolha de uma hipótese não é algo alea-tório, e é importante que não seja. A seleçãopreliminar de hipóteses relevantes e objetivas éparte essencial do processo de pesquisa.

4.2  Estabelecendo hipóteses detrabalho

A geração de hipóteses não tem regras, nãoimporta como você chega a uma hipótese. En-

tretanto, há diretrizes que podem ajudar a criarhipóteses mais interessantes. Talvez a diretrizmais importante seja: só teste hipóteses quemereçam ser testadas. Cada hipótese represen-ta um risco de falso positivo. Ficar testandohipóteses indiscriminadamente, sem pensar nasua razoabilidade é como sair dando tiros paratodos os lados: você pode atingir bandidos, masé mais provável que atinja um inocente.

Figura 4.2- Uma prova empírica no método hipotético dedutivo tem ahipótese de trabalho como centro e outras “hipóteses” que precisam ser

eliminadas por procedimentos, cálculos e/ou razoabilidade. Na realidade,o procedimento de escolher hipóteses relevantes já faz parte do processo,

 pois diminui a chance de falsos positivos.

Page 54: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 54/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

53

Pense no processo utilizado na solução de cri-mes. A princípio, qualquer habitante da terrapoderia ser o culpado de um determinado as-sassinato (= bilhões de hipóteses). Não pode-mos julgar o mundo inteiro, por isto precisamosde uma investigação para chegar a um suspeito

ou a um grupo de suspeitos que trabalhou juntopara realizar o crime (= 1 hipótese de trabalho).Depois, há uma busca de evidências que apoi-em a hipótese e então o caso é levado a julga-mento. No momento do julgamento nós nosconcentramos em uma única pessoa ou grupode pessoas que poderia ter trabalhado juntopara realizar o crime. Reduzimos bilhões dehipóteses a apenas duas: os réus são culpadosou os réus são inocentes.

A fase da determinação de qual é o principal

suspeito de cometer um crime pode ser tãosimples que acontece inconscientemente ou tãocomplexa que nem conseguimos chegar a umsuspeito qualificado. Nossa mente possui me-canismos de escolha tão rápidos que, em algu-mas situações, você nem percebe que fez umaescolha. Certamente nossa primeira opção re-cairá antes em uma pessoa agressiva do conví-vio da vítima que na possibilidade de ter sidouma simpática velhinha. Nesta fase, é difícilcolocar regras, pois até descobertas casuaispodem ser vitais. Entretanto, certamente há

diretrizes de ações, como entrevistar conheci-dos da vítima, recolher materiais da cena docrime, etc., juntando peças até começar a seformar um quadro. Em situações complexas, éimportante começar com a mente aberta paraqualquer possibilidade razoável e submetê-las ao processo de competição de hipóteses, comoem um campeonato para ver o melhor time,frequentemente com diferentes etapas até che-gar ao suspeito qualificado (ou grupo suspeitoque trabalhou junto).

Por que uma seleção preliminar de hipótesesrelevantes e objetivas é parte essencial do pro-cesso de pesquisa? Por que não sair por aicoletando dados simplesmente e depois veraonde chegamos? Seria apenas uma questãode custo do processo de testar muitas hipóte-ses? Acontece que as argumentações a favor

de hipóteses de trabalho se baseiam na proba-bilidade de hipóteses concorrentes. Algo impro-vável é algo raro, mas não algo impossível,senão nem seria testado. O problema é que aobservação ou um resultado raro não provanada se não soubermos quantas outras obser-

vações ou testes foram feitos para se chegar aeste resultado “raro”. Vamos entender isto ana-lisando dois exemplos.

Podemos analisar cientificamente se pessoascom alegadas capacidades extrassensoriaispodem ajudar na solução de crimes? Claro quesim. Chame a pessoa que diz ter estes poderes,escolha um crime não resolvido aleatoriamentee peça para ela predizer com precisão ondeestá um corpo desaparecido. Se ela conseguirprever que o corpo está enterrado do lado do

terceiro pinheiro à esquerda da caverna do ur-so, pode contratá-la. Alguém dirá: “Por queperder tempo com este teste se já há váriosregistros ‘confiáveis’  de pessoas que previramcoisas que resolveram crimes; estes registrosnão bastam para provar a existência da mediu-nidade?” O problema é que estes registros nãoteriam se tornado registros se a adivinhaçãonão fosse correta, teriam caído no esquecimen-to, de forma que não sabemos a taxa de fracas-so. Imagine que milhares de pessoas fazemcentenas de previsões ousadas. Fatalmente

algumas destas previsões serão corretas. Poristo, não basta te mostrarem alguns registrosimpressionantes, isto não prova nada. Não dápara confiar porque sabemos que houve umainflação de testes. Nossa estatística intuitiva éfraca para lidar com alguns tipos de cálculos deprobabilidade e há coisas em que queremosacreditar ignorando o razoável. Por que pesso-as com alegadas capacidades extrassensoriaisnunca decidem quebrar a banca dos cassinosao invés de tentar nos convencer dos seus po-deres? Tomamos decisões com base em pro-babilidades isoladas, mas tudo muda quandotemos muitos testes. As observações do passa-do são úteis para levantar hipóteses (e. g. depossíveis médiuns), mas devem ser vistas commuita desconfiança como provas se não tiver-mos informações adicionais suficientes.

Page 55: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 55/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

54

Na bolsa de valores há corretores que são con-siderados geniais com base na proporção dasações que eles recomendaram e que tiveramlucros excepcionais, e eles são contratados comsalários milionários. Será que eles valem estessalários ou são simplesmente os ganhadores na

loteria das bolsas? Estudos mostraram que,depois dos sucessos excepcionais, estes corre-tores “brilhantes” não tinham mais sucesso que corretores medianos. Não percebemos istoporque nossas convicções que o sucesso estáligado à competência são tão fortes que noscegam para perceber que muitas vezes o su-cesso é fortemente influenciado pelo acaso.Resultados extremamente positivos são evidên-cia de competência, mas a evidência torna-sefraca se o número de tentativas for elevado.Achamos que alguns corretores são brilhantes

com base em seus resultados extremamentepositivos porque esquecemos que há milharesde corretores realizando milhões de operaçõesdurante anos.

A inflação de testes certamente é principal cau-sa de falsas evidências não intencionais publi-cadas na ciência. Trata-se de um problema realque não recebe a atenção devida em cursos demetodologia. A principal forma de anulamos ouminimizamos a hipótese da inflação é evitar oteste de hipóteses irrelevantes e sem

uma justificativa. A “hipótese” da infla-ção de teses é um complemento dahipótese do acaso. Se você ficar tes-tando muitas possibilidades, você vaidistorcer no conjunto o significado decada teste individual. Uma pesquisanão precisa se restringir a uma hipóte-se de trabalho. Pode haver váriasquestões e hipóteses envolvendo otema em estudo, mas é importanterestringir os testes a hipóteses relevan-tes para não escolher apenas os resul-tados significativos. Voltaremos a esteassunto quando abordarmos testesmúltiplos no capítulo 7.

4.3  Descartando “hipóteses” comprocedimentos

A primeira preocupação de um avaliador sobreos resultados de um trabalho é se os procedi-

mentos foram válidos. Se houver dúvida sobrealgo importante nos procedimentos, o resultadofavorável à hipótese de trabalho perde seu va-lor. A diferença de nota entre dois grupos dealunos deixa de ser uma boa evidência do efeitode uma técnica de ensino sobre o aprendizadose a correção de cada grupo for feita por umavaliador diferente (considerando uma provacom perguntas subjetivas). O avaliador pensaassim: “De fato houve uma diferença de nota, oque apoia a hipótese. Entretanto, imaginandoque a hipótese fosse falsa, seria possível che-gar-se a este resultado por um erro de procedi-mento? Note que neste momento deixamos ahipótese de trabalho de lado e dirigimos nossaatenção para um teste de hipótese secundário.A hipótese secundária é que houve um erroprocedimental que levou à diferença entre osgrupos. Nem sempre um avaliador consegueperceber um erro, mas lendo os métodos, elepode imaginar onde um erro poderia estar es-condido, como ao verificar que não se detalhoucomo foi feita a correção da prova, e pedir para

Figura 4.3- Evidências favoráveis à hipótese de trabalho não tem validadese não houve procedimentos apropriados.

Page 56: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 56/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

55

o autor reescrever com mais detalhes para eli-minar esta potencial variável de confundimento.Se o erro de fato ocorreu, o pesquisador prova-velmente teria de refazer a coleta. O pesquisa-dor competente descarta estas hipóteses deerro procedimental planejando bem seu estudo

e o conduzindo com seriedade e depois defen-de que fez isto explicando tudo que for relevan-te para o avaliador poder concluir que realmenteo procedimento foi válido.

As validações da medida, interna e externa sãoas formas de se prevenir contra estas hipótesesde erros. Vamos recordá-las: A validação damedida envolve problemas de atribuição deníveis nominais e ordinais, calibragem de ins-trumentos e procedimentos e variáveis opera-cionais não apropriadas como medidas das

variáveis teóricas respectivas. A validação in-terna é o conjunto de procedimentos para evitarproblemas com a hipótese das outras causas(variáveis de confundimento). Este tipo de pro-blema pode ser facilmente eliminado em estu-dos experimentais, pela aleatorização da atribu-ição de tratamentos por unidade amostral (se-ção 3.8) e por cuidados posteriores à aleatori-zação para manutenção da representatividadeparalela. Em estudos amostrais o problema daspotenciais variáveis de confundimento é bemmais complexo e será tratado no Capítulo 6. No

que se refere a procedimentos, a validaçãoexterna lida com a representatividade dedistribuição. A amostra obtida no estabe-lecimento de um parâmetro precisa serbem distribuída (idealmente de forma a-leatória) no Universo Amostral. Normal-mente, isto se torna um problema comamostras com unidades amostrais agru-padas em uma situação de variações nosvalores da variável em estudo não distri-buídas homogeneamente no espaço e/ouno tempo. A melhor forma de lidar comisto é a busca de unidades amostrais es-colhidas aleatoriamente em toda a popu-lação estatística em consideração, masainda há outras técnicas válidas conformea situação (seção 3.7). Frequentemente,isto não é possível, e muitas vezes não éfeito por razões técnicas (redução de ruí-

do). Há situações em que se pode descartaresta hipótese por razoabilidade, mas, principal-mente em estudos com hipóteses univariadas, énecessário levar esta hipótese muito a sério.

A hipótese do acaso ocasionalmente é descar-

tada por procedimentos, criando uma situaçãoque dificilmente poderia ocorrer por acaso, co-mo no exemplo das formigas. Entretanto, sem-pre que for possível se obter várias observa-ções de um mesmo fenômeno, é recomendávelse utilizar uma abordagem estatística para lidarcom ela. Na próxima seção veremos como ahipótese do acaso pode ser descartada estatis-ticamente.

Antes de entrarmos no principal assunto docapítulo, que é o descarte da “hipótese do aca-

so”, é importante apontarmos outra possibilida-de, a “hipótese extra paradigmática”, para ter-minarmos nosso esquema. Esta é uma possibi-lidade muito rara em estudos, quando tudo pa-rece ficar sem sentido e de repente você des-cobre que algo extraordinário pode estar ocor-rendo e que conceitos básicos precisam serrevistos. No caso das formigas, você inicialmen-te pode achar que a única explicação para asformigas acharem o caminho de volta seria acapacidade delas de reconhecer referenciaisespaciais. Entretanto, novos experimentos po-

deriam demonstrar que elas não têm realmente

Figura 4.4- Algumas vezes uma pesquisa leva a descobertas que extrapo-lam o paradigma (concepção do mundo) vigente. Trata-se de algo raro,mas este esquema não estaria completo sem incluir esta possibilidade.

Page 57: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 57/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

56

esta capacidade. Surge um paradoxo. Entãocomo elas acharam o caminho? E então, vocêcomeça a considerar o inesperado, que as for-migas possivelmente possam se orientar porcampos eletromagnéticos da terra. Normalmen-te, nossas pesquisas são feitas dentro de um

paradigma, isto é, dentro de uma concepção demundo. Entretanto, há momentos em que aspesquisas mostram que o paradigma estavaerrado e que ele precisa ser reformulado. Porser uma situação rara, não entraremos em maisdetalhes sobre esta possibilidade.

4.4  Descartando a hipótese do acaso

Quando sua pesquisa permite a observação devários casos (entidades, unidades amostrais) deum mesmo tipo de fenômeno, a forma mais

tradicional de derrubar estatisticamente a hipó-tese do acaso é chamada de Teste de Signifi-cância de Hipótese Nula. (TSHN- Wood, 2012).A abordagem parte do princípio que os proble-mas na obtenção de dados discutidos anterior-mente foram todos eliminados por procedimento(a amostra é representativa, a medida foi apro-priada, não houve inflação de testes e o dese-nho amostral exclui a possibilidade de variáveisde confundimento). Portanto, se o observadocoincide com o previsto pela hipótese de traba-lho, restam apenas duas opções: a hipótese de

trabalho está certa ou foi uma coincidência (me-ro acaso). Neste ponto entra a característicamarcante do TSHN: o cálculo da probabilidadedo obtido ter ocorrido por acaso e a compara-ção desta probabilidade com um valor limitepré-definido.

A Hipótese Nula, geralmente simbolizada comoHo, é a negação de uma hipótese de trabalhoafirmativa prevendo diferenças ou prevendoresultados inferiores ou superiores a algumvalor ou entre grupos. Por exemplo, se sua

hipótese de trabalho é que certo remédio temum efeito melhor do que outro em determinadosintoma, e você prevê uma a cura mais frequen-te ou rápida com ele, então a hipótese nula seráque o remédio não é melhor (ele é igual ou pi-or). Problemas que envolvem hipóteses de tra-balho sobre semelhanças são menos comuns e

um pouco mais complexos. Não dá para provaruma hipótese de trabalho de igualdade (e. g. “o

efeito deste remédio é exatamente igual aooutro”), o que pode ser feito nesta direção éprovar uma hipótese de trabalho de semelhan-ça, desde que uma diferença máxima seja esta-belecida (e. g. “o efeito deste remédio não émais que 5% melhor do que o outro”). Esta nãoé uma situação comum, de forma que não cos-tuma estar em cursos mais básicos de estatísti-ca.

A hipótese nula é uma ideia que se transformaem um modelo matemático de frequências es-

peradas (probabilidades). Você faz de contaque ela é verdadeira, considera as característi-cas dos dados da sua amostra e calcula a pro-babilidade associada àquela situação. Podemoscalcular a probabilidade esperada de 8 de 10plantas terem alto crescimento no tratamentocontra 2 de 10 no controle quando não há efeitode tratamento (hipótese nula de proporçõesiguais; P<0.01- para diferenças iguais ou maisextremas; teste de 2 proporções de duas cau-das). Não se preocupe agora como se chega aestas probabilidades, o que importa é entender

que a previsão da hipótese nula são valores defrequência esperados para cada resultado pos-sível. Uma probabilidade bastante baixa servecomo justificativa para você rejeitar a hipótesenula. Você entende por quê? Se ainda não en-tendeu, não se preocupe, isto não é tão intuiti-

Figura 4.5- Depois de escolher bem a hipótese e de tomarcuidados com procedimentos, o processo de teste costumaterminar pela exclusão da hipótese do acaso, mais conhecida

 pelos estatísticos como Hipótese Nula.

Page 58: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 58/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

57

vo, procure entender acompanhando os próxi-mos exemplos.

A abordagem TSHN é poderosa a ponto de“provar o improvável”. Se uma pessoa disserque desenvolveu a habilidade de controlar a

forma de jogar a moeda para cair cara, vocêdesconfia. Qual é a probabilidade dela realmen-te ter a habilidade? Posso achar improvávelporque nunca ouvi falar que alguém pudessefazer isto e porque imagino que a precisão ne-cessária ao jogar uma moeda e obter uma faceescolhida esteja além da capacidade humana.Por outro lado, sei que a pessoa que disse istoé hábil. Ainda assim, acho extremamente im-provável e presto atenção na demonstração.Esta probabilidade intuitiva não deve ser subes-timada, como discutimos na seção 1.6. Entre-

tanto, a intuição pode ser muito subjetiva e in-certa. Há outra forma melhor de saber se éverdade: pedir para ela jogar a moeda. Tudobem, mas como avaliamos?

A pessoa te mostra que a moeda tem “cara” ecoroa (descartando a hipótese de moeda comduas caras). A moeda dá várias voltas no ar ecai com a face “cara” para cima. Você sorri, masnão se convence. Você sorri porque pensa quedeve ser uma coincidência, mas não se con-vence porque não é uma coincidência tão im-

provável para te impressionar. Você não acredi-ta que uma pessoa possa ter tanta habilidadepara contar o número de voltas e parar a moedado lado escolhido. Trata-se de uma hipóteseque parece muito improvável com base no seuconhecimento cotidiano. Entretanto, ela lança amoeda mais vezes e continua acertando. Vocêpara de sorrir e começa a ficar cada vez maisimpressionado (a) a cada novo acerto. E depoisde 10 lances você mudou de ideia, abandonoua hipótese do acaso completamente e está intei-ramente convencido que a pessoa possui a tal

habilidade. É verdade que não se pode descar-tar totalmente a hipótese do acaso, mas achance de acertar 10 vezes seguidas por acasoé menor que uma em 1.000 (Tab. 4.1). Emboraa habilidade de controlar o lance de moeda sejaimpressionante, é menos impressionante doque acertar um número em mil na primeira ten-

tativa. Se uma hipótese de trabalho estiver cer-ta, quanto mais informação obtiver, maior será oacúmulo de informação contrária à hipótese doacaso. É importante entender este conceito, queé a base do processo de rejeição do TSHN.(Não se preocupe com as fórmulas matemáticas

que eventualmente apareçam no texto, como naTab. 4.1 e no Quadro 4.1, mais importante éentender o processo.). Repare que não esta-mos calculando a probabilidade dela ter ahabilidade, mas dos dados apoiarem a hipó-tese que ela tem quando na realidade nãotem.

A situação foi colocada de forma muito rigorosana Tabela 4.1, a pessoa teria de acertar todasas vezes. Mas e se ela errar de vez em quan-do? Digamos que acerte 19 de 20 jogadas.

Ainda é convincente que ela tem a habilidade.Mas e se ela acertar 70%? E se ela acertar55%? Certamente seria algo bem menos con-vincente, mas pelo menos serve como evidên-cia de algum efeito de habilidade? Chega demoedas, passemos para um exemplo biológico.Não é muito diferente, mas imagine agora quesua hipótese é que as formigas rainha jovens ao

Tabela 4.1 Sabemos intuitivamente que a probabilidadede acertar ao acaso vários lances seguidos de moedadiminui com o número de lances, mas normalmentesubestimamos o quanto um resultado é improvável. Amatemática é uma ferramenta essencial para avaliações

 precisas e objetivas. Neste caso, a probabilidade é calcu-lada pela fórmula P= 1/(2)n..

Número de acertos

seguidos Probabilidade

1 0.5

2 0.25

3 0.125

4 0.0625

5 0.03125

6 0.015625

7 0.0078125

8 0.00390625

9 0.001953125

10 0.000976563

Page 59: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 59/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

58

fundar uma colônia preferem solo argiloso aosolo arenoso. Para testar isto, você pega rai-nhas recém fertilizadas e coloca-as em arenasque possuem solo argiloso de um lado e soloarenoso do outro, e ai você registra qual soloelas escavaram para iniciar seus ninhos. Vamos

imaginar possíveis resultados.

Suponha que tenhamos realizado o experimen-to com 8 rainhas jovens e tenhamos obtido 5(62,5%) que escavaram em solo argiloso e 3(37,5%) que escavaram em solo arenoso. Oesperado, supondo que não haja preferênciapor solos, seria que 50% das formigas escava-riam em solo arenoso e a outra metade em soloargiloso. O resultado obtido foi na direção daprevisão da hipótese de trabalho. O problema éque esta diferença também é compatível com a

hipótese nula. No quadro 4.1 realizamos o cál-culo de probabilidade para a mesma diferençapercentual com tamanhos amostrais diferentes.O que vemos é que a probabilidade de se obtera mesma proporção de formigas escavando emsolo argiloso sem ter escolhido este solo (isto é,ao acaso) vai diminuindo até valores absurda-mente improváveis. E quando a probabilidadedo resultado ocorrer ao acaso é muito pequena,ela é descartada.

4.5  Nível de significância e tipos deerros.

Vimos que a hipótese nula é rejeitada quandoobtemos um valor baixo de probabilidade combase nos dados obtidos. Isto naturalmente nos

leva a uma questão prática: qual é o valor dereferência abaixo do qual podemos rejeitar ahipótese nula?

Não existe um valor mágico universal que sepa-re meros indícios de evidência segura, a ideiade definir um valor é que regras objetivas preci-sam ser definidas “antes do jogo” (o termo téc-nico é “a priori ” ). O valor limite pré-determinadode probabilidade abaixo do qual se rejeita ahipótese nula é chamado Nível de Significân-cia, e é representado pela letra grega α  (alfa).

Os valores mais utilizados são 0,05; 0,01 e (ra-ramente) 0,001, dependendo do grau de rigorque se quer assumir. Algo parecido acontecequando determinamos a nota mínima abaixo daqual reprovamos o aluno, que pode ser 5, 6 ou7. Ao escolher um nível de significância vocêestá definindo sua chance de errar, ou melhor,você está definindo qual tipo de erro você estámais disposto a aceitar. É isto que será explica-do adiante.

Quadro 4.1 Probabilidade calculada pelo método χ 2com base no obtido (O) –  o esperado central (E). .

Page 60: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 60/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

59

Ao tomar uma decisão estatística, os dois tiposde erro que podemos cometer são o Falso Po-sitivo, ou Erro Tipo I, que consiste em rejeitara hipótese nula quando ela é verdadeira e oFalso Negativo, ou Erro Tipo II, que consisteem aceitar a hipótese nula quando ela é falsa.

Nas situações em que a prudência exige nãoaceitar uma mudança de posição sem forteevidência favorável à decisão, a prioridade éevitar o Erro Tipo I, como em tribunais e namaioria das situações de pesquisa. Nas situa-ções em que a prudência exige uma ação pre-ventiva, ainda que a evidência favorável sejafraca, a prioridade é evitar o Erro Tipo II, comoquando vigias ouvem um barulho estranho, ouquando uma criança chega ao hospital comsuspeita de intoxicação. E há situações em queos dois tipos de erro seriam graves, como ao se

decidir sobre o resultado de um exame sobreuma doença muito séria quando há indícios depositividade. Podemos ver na tabela 4.2 como aanálise e a ação de processos decisórios de-pendem da importância de cada tipo de erro edo tempo (etapas, oportunidades) que temospara obter mais dados. As situações mais co-muns na pesquisa estão em destaque na tabe-la. Abordaremos unicamente estas situaçõesneste livro, mas é importante termos consciên-cia que estes métodos não são os mais apropri-ados em outras situações, inclusive de pesqui-sa. Vamos analisar mais profundamente os doistipos de erro com ênfase na situação mais co-mum na pesquisa, mas ilustrando com o funcio-namento do processo decisório em um tribunal. 

Um assassino solto é algo ruim e deve ser evi-tado. Entretanto, um inocente preso por assas-sinato é algo mais grave. Por que assumir que ainocência de uma pessoa tem prioridade sobreo risco para resto da população? Parece estra-nho, mas esta foi a conclusão de um longo pro-

cesso civilizatório. Acontece que crimes costu-mam deixar pistas e é bom lembrar que um diapoderíamos ser nós mesmos em um banco deréus. Enfim, a regra é que toda pessoa deve serconsiderada inocente até que haja uma evidên-cia realmente convincente de que ela é culpada.Entretanto, por melhor que seja a justiça, elanunca será perfeita e há quatro resultados pos-síveis em um julgamento: 1) podemos mandarprender uma pessoa inocente (injustiça);2) Podemos mandar prender um assassino;3) Podemos libertar uma pessoa inocente e

4) podemos libertar um assassino (impunidade).A tabela 4.3 resume estas possibilidades.

Basicamente, queremos evitar erros. Uma for-ma de evitar erros de decisão é obter mais in-formação relevante. Há técnicas (subutilizadas)de amostragem até atingir critérios de decisão(e. g. amostragem sequencial). Entretanto, omais comum é que a informação seja limitada(por tempo, dinheiro ou porque todas as pistasforam exaustivamente exploradas). A forma deagir neste caso depende da prioridade que da-

mos em evitar o Erro Tipo I e em evitar o ErroTipo II. Ao assumir como premissa a inocênciado réu, estamos dando prioridade em evitar oErro Tipo I. A única forma de evitar o Erro Tipo Ide forma absoluta seria decidir pela inocênciasem julgamento e independente de provas, o

Realidade Inocente Culpado

Decisão 

Culpado InjustiçaDecisãoCorreta

InocenteDecisãoCorreta

Impunidade

Realidade H0 Verdadeira H0 Falsa

Decisão 

Rejeita H0 Erro tipo IDecisãoCorreta

 Aceita H0DecisãoCorreta

Erro tipo II

Tabela 4.3 Decisões e tipos de erros em um tribunal.. Tabela 4.4 Decisões e tipos de erros na pesquisa..

Page 61: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 61/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

60

que não é aceitável. Existe sempre o risco deinocentes serem presos, mas podemos e de-vemos reduzir esta probabilidade a uma possibi-lidade remota, e isto é feito ao dar ampla chan-ce de defesa e conservadorismo em aceitarapenas provas muito fortes e claras. A chance

de Erro Tipo I é limitada a priori   pelo princípioda inocência, e quanto mais rigorosos formosem evitar a chance de erro tipo I, maior a chan-ce de um erro do tipo II. É como se no jogoentre defesa e promotoria a defesa tivesse avantagem do empate. Cabe ao promotor a res-ponsabilidade de mostrar informação suficientepara virar o jogo, de forma a evitar o Erro TipoII.

Ao propor uma hipótese de trabalho, fazemosprevisões que algo acontecerá de certa forma.

Entretanto, o fato disto acontecer não significanada se o previsto puder acontecer por outrasrazões ou ao acaso. Vimos nas primeiras se-ções do capítulo que precisamos tomar algumasatitudes preventivas para excluir hipóteses con-correntes, mas ainda resta avaliar se as previ-sões poderiam ser obtidas por mero acaso. Naanalogia com o tribunal, é como se a hipótesenula fosse o réu. A princípio, a hipótese nuladeve ser considerada verdadeira até a prova docontrário, de forma a evitar o Erro Tipo I. Cabeao pesquisador obter informações suficientes

para derrubar a hipótese nula.

Uma diferença entre o tribunal e a pesquisa éque nesta muitas vezes podemos definir achance de Erro Tipo I de forma quantitativa. ONível de Significância (ou “alfa”) é a chance deErro Tipo I que estamos dispostos a aceitar, umgrau de rigor que se estabelece a priori . Napesquisa, o mais comum é se utilizar umα=0,05, que significa que aceitamos cometerum Erro do Tipo I para cada 20 testes em que ahipótese nula era verdadeira. É como aceitar

mandar uma pessoa inocente de cada 20 ino-centes que a gente julgar. Se utilizarmos umα=0,01, é como se estivéssemos mandando uminocente para cadeia de cada 100 inocentes julgados. Este nível é aceitável para a pesqui-sas, mas não é aceitável na justiça. As provasem um tribunal devem ser mais contundentes, a

chance de mandar um inocente para cadeiadeveria ser inferior a 1:1000. Não confunda, umα=0,01 não significa que vamos cometer umerro a cada 100 julgamentos, pois em muitos julgamentos o réu era realmente culpado. O fatode muitos julgamentos terminarem em conde-

nação reflete principalmente a obrigatoriedadede indícios fortes de culpa antes de se levar umréu a julgamento.

4.6  Considerações complementares

Nas seções anteriores vimos o essencial sobretestes de hipóteses que precisa ser entendidopor todos os usuários de estatística. Entretanto,há vários aspectos adicionais importantes parauma compreensão mais profunda do tema queserão tratados nesta seção.

a) adequando “alfa” à hipótese 

Vimos na seção anterior e na tabela 4.2 que emalguns contextos a prioridade não é evitar osfalsos positivos, mas em tribunais e na maioriadas pesquisas é. Por isto usamos valores bembaixos de “alfa” (Nível de Significância) em nos-sos testes. O valor mais tradicional é 0,05 (aquiestamos falando de testes isolados, a questãodo nível de significância de testes múltiplos serádiscutida no capítulo 7). Raramente se discute

em que situações devem ser utilizados os níveismais baixos de 0,01 ou 0,001. Testes com hipó-teses de trabalho tidas como quase certas nor-malmente tem uma função de apenas compro-var algo, podemos dizer que a hipótese nulaestá em um grupo de “alto risco” de ser rejeita-da. Uma hipótese de trabalho ousada é bemmais incerta, e está em um grupo de “risco in-termediário”  e uma hipótese muito ousada temum “risco muito baixo” de ser rejeitada. Combase nisto, deveríamos utilizar respectivamente0,05; 0,01 e 0,001 como Níveis de Significância

para cada um destes casos. Para entender porque, veja como devemos interpretar resultadosde exames considerando o grupo de risco (Mlo-dinov 2008).

Suponha que a probabilidade de um falso posi-tivo em um exame de AIDS tenha sido estabe-

Page 62: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 62/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

61

lecida em 0,7%. O que significa isto? Significaque a chance dela ter Aids é de 99.3%. Combase no resultado do exame qualquer pessoatem a mesma chance de receber um falso posi-tivo? As respostas são não e não. Muitos sesurpreendem ao saber que a chance de ser um

falso positivo depende de quem é a pessoa quefez o exame.

Acompanhe este raciocínio. Duas pessoas re-cebam um resultado positivo em um exame deAIDS, a primeira pertence a um grupo de risco(usuário de drogas que não pratica sexo seguroem uma metrópole com alta incidência deAIDS), e a segunda não pertence ao grupo derisco. Imagine que no grupo de risco a incidên-cia de AIDS seja de 1/10, enquanto no grupo debaixo risco ela seja de 1/10.000.

Milhares de pessoas fazem exames de AIDS.Quantos são os falsos positivos de cada grupo?Considere 10.000 pessoas no caso do grupocom incidência 1/10 (Quadro 4.2), teremos 1000positivos e 9000 negativos. Dos 9.000 negati-vos, 0.7% (63) terão falsos positivos. Portanto, achance deste “positivo” ser realmente um positi-vo é de 1000/(1000+63) isto é, 94%. Agora con-sidere 10.000 pessoas no grupo com incidência1/10.000. Teremos um positivo e 9.999 negati-vos. Destes, 0,7% terão falsos negativos (70

pessoas). Portanto, a chance deste “positivo”ser realmente um positivo é de 1/(1+70), isto é1,41%. Portanto, a probabilidade da primeirapessoa ter AIDS é quase 70 vezes maior!

O problema é que confundimos o que chama-

mos de falso positivo para um teste isolado coma chance de um positivo no meio a muitos tes-tes ser realmente um positivo. Um positivo ver-dadeiro pode ser muito mais raro que o númerode negativos multiplicado pela chance de falsospositivos isolados.

Uma situação análoga pode ser consideradapara a pesquisa. Uma hipótese razoável, comouma formiga preferir um tipo de solo (arenosoou argiloso) para fundar uma colônia cai nogrupo de risco das hipóteses razoáveis, das

quais boa parte deve ser realmente verdadeira,digamos em uma proporção entre 1/2 a 1/10.Entretanto, uma hipótese que testasse se ocomportamento da formiga é influenciado porpequenas diferenças nos teores de cobre ou porum leve campo magnético próximo das arenasexperimentais no solo soa estranho com baseno que se sabe sobre formigas. Estas hipótesesparecem muito improváveis, talvez 1/50 a1/1000 possam ser realmente ser corretas. Co-mo as situações são análogas, a chance de umfalso positivo em hipóteses ousadas ou bizarras

é muitas vezes maior para o mesmo alfa.

Não é fácil medir o quanto nossas hipótesessão razoáveis ou bizarras, entretanto, pode-mos chegar a uma diretriz aproximada. Sesua hipótese de trabalho tratar de uma ten-dência que você considera intuitivamentemuito razoável, pode usar um alfa de 0,05.Se for uma ideia um pouco mais ousada,mas não extraordinária, use 0,01. Se for umahipótese extravagante que abala conceitosestabelecidos dentro da sua área de pesqui-

sa, melhor utilizar 0,001. Hipóteses ousadasnão devem ser evitadas, pois muitas vezesmarcam revoluções na ciência, entretanto,devem ser tratadas com maior rigor para nãocriar falsos mitos. A estatística não é só um jogo, nossas expectativas precisam ser leva-

Quadro 4.2 Cálculos mostrando que a chance de um falso positivo émuito maior em um grupo de alto risco que em um grupo de baixo risco

 para o mesmo teste. A chance de falso positivo neste exemplo foi quase70 vezes maior no grupo de baixo risco. A mesma lógica pode ser aplica-da para testes estatísticos.

Page 63: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 63/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

62

das em conta.

b) O valor de P é uma medida de certeza?

Ao definir um nível de significância qualquer,digamos 0,05, existe uma diferença se nosso

teste apresentar uma probabilidade P=0,04 ouuma probabilidade P=0,0004? A resposta é nãoem termos do teste, a hipótese nula foi reprova-da em ambos, mas há uma diferença. Uma nota4,5 significa reprovação, mas é interessantesaber que o aluno não estava longe do limite.Uma nota Dez significa aprovação, mas é umaaprovação bem mais segura do que um “5,0”.Em síntese, devemos utilizar critérios definidosantecipadamente para decidir pelo sim ou pelonão, mas não devemos ignorar o valor da pro-babilidade calculada no teste. Como interpretar

o valor da probabilidade calculada (P) em umteste de significância da hipótese nula? Vimosque um valor baixo de “P” é uma evidência con-trária à hipótese nula. Podemos ir mais longe,quanto mais próximo de zero for o valor de “P”, mais forte é a evidência contra a hipótese nula

(Fig. 4.3). Para entender esta relação, faremosuma analogia com uma prova de alternativas.Como nos testes de hipóteses nulas, em umaprova com alternativas sempre existe um com-ponente de “sorte” (aleatoriedade). Uma pessoaque acertou a metade das perguntas em uma

prova do tipo “verdadeiro ou falso” não demons-tra nenhum conhecimento, pois este é o espe-rado de acertos por mero acaso. Portanto, sótemos indícios de conhecimento acima de 50%de acerto. Mesmo um acerto de 60 a 80% podeacontecer só por acaso em uma prova compoucas questões. Uma pessoa até poderia a-certar 100% das questões por pura sorte emuma prova com 5 questões, mas isto seria prati-camente impossível em uma prova com 50questões.

P é uma medida de certeza, mas deve ser vistacom cuidado. P=0,04 não significa que a chan-ce da hipótese de trabalho estar correta é de96%. É bem mais complicado que isto. Entre-tanto, podemos dizer que a chance da hipótesede trabalho estar correta é maior em P=0,0004

0.5 1

Probabilidade calculada (“P”)

Negativa?

0

Média

Forte

   E  v   i   d   ê  n  c   i  a  c  o  n   t  r  a   H  o

a) Peso da evidênciacontra a Hipótese Nula

0.05

Muito Forte

0.001 0.01

0

b) Analogia(prova de 100 questões de

“Verdadeiro ou Falso”)

50% 100%Erros

Negativo?

0

Médio

 Alto

   N   í  v  e   l   d  e

  a  p  r  e  n   d   i  z  a   d  o

Muito Alto

0

Figura 4.3 A probabilidade calculada em um teste estatístico serve como medida do peso da evidência contrá-ria à Hipótese Nula. Quanto menor o valor de “P”, maior a evidência contrária à Hipótese  Nula. Valores in-termediários de “P” indicam situação indefinida e valores muito altos são “estranhos”. Ver a explicação no

texto com uma analogia com uma prova com alternativas do tipo “verdadeiro ou falso”.  

Page 64: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 64/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

63

que em P=0,04.

c) O que significam valores altos de P?

E quanto aos valores altos de “P”? Voltando àanalogia, qual seria a interpretação para a prova

de uma pessoa que errou mais que 50% dasquestões? A princípio, significa duas coisas: apessoa não tem nenhum conhecimento e aindateve algum azar. Considerando que qualquerum pode ter azar, até quem tem algum conhe-cimento e acertou 50%, uma nota abaixo de50% é um indício mais forte de ausência deconhecimento que exatamente 50% de acerto,entretanto, não é indício de conhecimento nega-tivo, pois isto não existe. Agora uma nota pró-xima de 100% de erro seria algo muito estra-nho. Se o número de questões for grande, po-

demos até suspeitar que a pessoa sabia tudo eerrou propositalmente. É interessante verificar apossibilidade de alguma anomalia deste tipoquando temos valores muito altos de P (comoP>0,95). Entretanto, em geral, simplesmente éum acaso que acontece quando estamos fa-zendo muitos testes.

d) abordagens alternativas ao Teste de Sig-nificância de Hipótese Nula

O teste de significância de hipótese nula é uma

abordagem tão preponderante na análise esta-tística de dados que muita gente acha que é aúnica. É por isto que tanto espaço foi dedicadoa esta abordagem neste capítulo. Entretanto háoutras duas abordagens que estão crescendo epossivelmente vão superá-la em importância emtestes de hipóteses do acaso.

A primeira alternativa é a utilização de intervalosde confiança de parâmetros ao invés de cálcu-los de probabilidades associados a hipótesesnulas (van Belle, 2008; Wood 2012). Uma van-

tagem é a riqueza da informação fornecida. Aoinvés de dizermos “Houve um efeito significativodo tratamento em relação ao controle(F1,20=6,53; p<0.05)”, diríamos “Houve um efei-to significativo do tratamento em relação aocontrole (Diferença= 1,25; IC95%= 0.90 a1,60)”. A segunda vantagem é que esta é tam-

bém a forma mais natural para apresentar resul-tados que utilizam técnicas de reamostragem,como o “Bootstrap” (seção 3.6). A terceira van-tagem é que é mais fácil se realizar um teste dehipóteses de trabalho de semelhança.

Outra abordagem alternativa em crescimento éa utilização de Análises Bayesianas (Gotelli &Ellison, 2011), que é uma forma bem diferentede calcular probabilidade. No TSHN calculamosa probabilidade de obter uma diferença obser-vada se a hipótese nula for verdadeira, isto ésimbolizado como P (dados│hipótese nula). Naanálise Bayesiana, calculamos a probabilidadeda hipótese aplicando os dados fornecidos, oque é simbolizado P (hipótese de traba-lho│dados). É uma estatística mais semelhanteà nossa forma intuitiva de pensar. Na seção 4.1

comentamos que a escolha da hipótese de tra-balho baseia-se na nossa intuição. A escolha deuma hipótese que formigas usam referenciaisespaciais baseou-se em um “cálculo”. Pareceimprovável que formigas usem apenas pistasquímicas, aqui chove muito, a chance de perde-rem a trilha é grande, além disto, podem passarpor um tronco e ele cair. Já li que outros hime-nópteros (vespas) são capazes de usar referen-cias espaciais, etc. Por outro lado, a hipóteseque as formigas utilizam o magnetismo terrestrelhe parece muito improváveis. Você junta infor-

mações e pode tomar decisões sobre a “proba-bilidade” de uma hipótese estar correta. Estaabordagem também é mais apropriada quandoestamos comparando duas hipóteses de traba-lho concorrentes, para ver qual delas se ajustamelhor aos dados.

e) entre o sim e o não existe um vão 

Quando tomamos decisões, informações com-plexas podem ser transformadas em “Sim ouNão”, que levarão a duas diferentes possibilida-

des de ação. Ocasionalmente, temos três op-ções: “Sim”, “Talvez” ou “Não”. Podemos aindadecidir em mais categorias: o “sim forte”, o “simfraco”, o “Talvez”, o “não fraco” e o “não forte”.Eventualmente, há decisões em que se utilizauma escala quantitativa entre os extremos (e.g.custo de apólices de seguro em função do ris-

Page 65: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 65/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

64

co). Nesta seção, vamos nos concentrar emdecisões com três possibilidades.

No caso da pesquisa, vamos chamar de “Sim” arejeição da hipótese nula (Sim, a evidência ésuficiente para rejeitarmos a hipótese nula). No

tribunal, “Sim” significa “Sim, temos evidênciasuficiente para declará-lo culpado”. É importanteressaltar que o “Sim” não significa “Definitiva-mente sim”, significa “Tenho convicção quesim”, e os graus de convicção dependem dasituação, como vimos na seção anterior. Noteque no sistema de decisão que descrevemospara tribunais e para a maioria das pesquisas o“Talvez” é tratado como um “Não” (em caso dedúvida prevalece a inocência/ aceitamos a hipó-tese nula). Como nesta abordagem apenaslevamos em conta o “Alfa” (Nível de Significân-

cia), podemos denominá-la Abordagem “Alfa-cêntrica”. 

A abordagem alfacêntrica é apropriada quandotemos prioridade em evitar o Erro Tipo I e va-mos tomar uma decisão com a informação quefoi coletada em uma única etapa anterior aoJulgamento Centrado. Estas condições ocorremem tribunais e em projetos de pesquisa ou dis-sertações ou teses em que temos um tempodeterminado para coletar os dados. A desvan-tagem da abordagem alfacêntrica é que aceitar

a hipótese nula é um resultado de pouco valor,pois não sabemos se temos um “Não” ou “Tal-vez”, e um “Talvez” pode ser um “Sim” . Entre-tanto, vimos na Tabela 4.2 que há outras abor-dagens.

Vejamos agora uma situação em que precisa-mos separar o “Não” do “Talvez”. Imagine quevocê trabalha em um laboratório de análises

clínicas e tem em mãos um resultado com ní-veis elevados de uma substância que indicauma doença muito grave, como Câncer ouAIDS, mas os níveis não são tão elevados aponto de ter certeza. Se você apresentar o re-sultado como positivo e for um falso positivo, a

pessoa passará por uma angustia profundapara depois descobrir que não tinha a doença.Por outro lado, se apresentar o resultado comonegativo, pode estar adiando a chance da pes-soa se tratar e ter uma sobrevida mais longa emelhor ou até uma cura. O que fazer? Nestasituação, a ação em caso de “Sim” (iniciar otratamento) é diferente da ação no caso de“Não” (liberar o paciente), que também difere nocaso de “Talvez” (realizar mais exames).

Também há situações em que o Erro Tipo II é

um risco de gravidade muito maior que do ErroTipo I. Imagine que tenha havido um caso deDoença de Chagas aparentemente adquiridapelo consumo de açaí em um bairro de Manaus.Em casos deste tipo, é comum que a ação an-teceda a coleta de dados, com a proibição ime-diata da venda de açai. Em uma análise preli-minar, o órgão responsável pela vigilância sani-tária recolhe amostras de açaí de 10 vendedo-res e não encontra nenhuma amostra infectada.Portanto, não há evidência que a doença tenhasido transmitida desta forma. Entretanto, se este

resultado for um falso negativo (Erro Tipo II), hárisco de transmissão de uma doença grave paraoutras pessoas, portanto, o consumo não éliberado até o término de uma investigaçãoexaustiva. Lidar com alto custo de Erro Tipo II ésempre muito complicado. É difícil se definirquanto esforço de investigação será suficientepara uma conclusão segura, e temos que lem-brar que a suspensão da venda também está

prejudicando pessoas.

Para separar o “Não” do “Talvez”, normal-

mente precisamos de múltiplas etapas decoleta de dados, como mais exames noexemplo da suspeita de doença ou continu-ação exaustiva da coleta de dados no e-xemplo do açai. A nova coleta de dadosnão precisa ser da mesma natureza dosdados anteriores. No caso de exames sobre

Page 66: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 66/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

65

doenças, muitas vezes se realiza repete exa-mes de outra natureza para avaliar um sintomacomplementar da mesma doença. No caso doaçaí, é importante investigar outras possibilida-des de contágio. Se a coleta de dados for damesma natureza, a hipótese nula pode acabar

sendo aceita após uma coleta exaustiva, consi-derando que já deveria ter sido rejeitada sefosse falsa.

Só é possível se definir quantos dados precisa-mos coletar para considerar uma coleta “sufici-entemente exaustiva”  para dar um veredito“Não” se tivermos um valor de “efeito mínimo”de referência. Por exemplo, digamos que vocêqueira saber o efeito de uma substância sobre apressão sanguínea de ratos. Se a substânciaaumentar a pressão da grande maioria dos

ratos, terá rejeitado a hipótese nula. Se nãoobtiver nenhuma diferença significativa (isto é,além do que esperamos ao acaso), aceitará ahipótese nula. No entanto, não pode dizer quenão haja efeito, pois ele pode ser tão sutil quenão pôde ser detectado com o tamanho amos-tral do experimento. Por outro lado, se vocêperguntar se existe um efeito de aumentar pelomenos 10% a pressão sanguínea, e tiver algu-mas informações sobre os dados, então poderácalcular o tamanho amostral necessário a partirde uma probabilidade de Erro Tipo II (ou “Beta”,

β) pré definida por você.

Não entraremos nos detalhes de como se reali-zam as abordagens da Tabela 4.2. Entretanto, ébom ter consciência que a abordagem alfacên-trica não se aplica a todas as situações, atémesmo na pesquisa podemos ter que utilizaroutra abordagem.

f) Significativo é sinônimo de relevante?

O uso da estatística cresceu e as revistas cientí-

ficas e bancas de avaliação acadêmica passa-ram a exigir que testes fossem utilizados paramostrar que tendências tinham relevância esta-tística. Esta pressão pelo uso da estatísticacontribuiu para a qualidade da pesquisa, mastambém levou a alguns desvios, como a buscapelo resultado significativo independente da

questão. Alguns acreditam que o “melhor” testedentro de um estudo é aquele que foi mais sig-nificativo.

Um aspecto psicologicamente forte no teste deprevisão de hipóteses é que ele responde cate-

goricamente (com sim ou não) se evidênciaspara a existência de uma relação são significati-vas. Não temos um critério semelhante paraatribuirmos o valor biológico para um teste. Éuma questão de bom senso. A relação entretamanho de qualquer espécie e seu peso ésempre fortemente significativa, mesmo compoucos dados, de forma que não é nada sur-preendente obter-se um P<0,001 para estarelação. Um efeito significativo obtido apenascom um tamanho amostral imenso pode signifi-car variáveis de ruído interferindo muito ou sim-

plesmente um efeito biologicamente irrelevantede uma variável sobre outra. O valor calculadode “P” tem relação com a “força” da evidência,não tem relação com a relevância da questão.

g) Efeitos colaterais

Em algumas situações, particularmente no de-senvolvimento de remédios, alimentos ou pro-dutos que possam oferecer riscos ambientais ouà saúde humana, temos de ir além das conside-rações sobre o erro tipo I e tipo II. Imagine uma

substância com potencial para diminuir os enjô-os durante a gravidez. Podemos testar estatisti-camente se o remédio é efetivo fixando o errotipo I e até o erro tipo II, definindo um tamanhoamostral apropriado com base em coletas pre-liminares. Esta análise permitirá que se definadentro dos critérios discutidos neste capítulo seo remédio é efetivo ou não para reduzir o enjôo.Entretanto, este teste só avalia o enjôo, nãogarante que este remédio não tenha contraindicações. Um remédio chamado Talidomidafoi usado na década de 1960 contra enjôo na

gravidez e causou malformações em muitosbebês.

Ignorar efeitos colaterais não é cometer um errotipo I ou tipo II, é cometer um erro que extrapolao teste. Pelo princípio da prudência, temos atéque considerar provas circunstanciais, como

Page 67: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 67/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

66

uma acusação improvável de uma pessoa queconsumiu um remédio ou indícios de algumimpacto ambiental, como uma evidência que aatenção deve ser redobrada. A análise de efei-tos colaterais pode ser complexa. Embora hajaferramentas estatísticas para ajudar nesta tare-

fa, cada potencial efeito (podemos mesmo listartodos?) deveria ser analisado separadamente e,como vimos anteriormente, é difícil separar o“talvez” do “não”. Não é possível se obter umagarantia que nenhum efeito colateral vá ocorrer,mas é essencial que se considere qualquerindício de problema e se faça um levantamentoexaustivo de todas as possibilidades razoáveisde efeitos colaterais. Novas tecnologias, como atransgenia, já provaram que funcionam, entre-tanto, um acompanhamento é necessário poisainda não sabemos quais são os riscos ambien-

tais e para a saúde. Os farmacêuticos têm muitomais trabalho com a análise de cada possívelefeito colateral do que da comprovação dosefeitos positivos. É importante não se confundiro poder da estatística em avaliar efeitos especí-ficos com uma garantia sobre aspectos queextrapolam cada teste particular.

Exercícios

4.1- A lógica dos testes de hipóteses é um as-sunto mais amplo do que a utilização de cálcu-

los estatísticos em testes de hipóteses. Expli-que.

4.2- Qual é o risco da inflação de testes e comoele pode ser evitado?

4.3- Quais “hipóteses”  costumam ser descarta-das por procedimentos preventivos durante umplanejamento experimental?

4.4- Como é “descartada” a “hipótese do aca-so”? Utilize na sua resposta os conceitos de

a) Hipótese Nula; b) Probabilidade calculada;c) Nível de significância (α).

4.5- Por que precisamos de um nível de signifi-cância em um processo de decisão.

4.6- Explique a relação entre o valor calculadode probabilidade em um teste (“P”) e seu pesocomo evidência contra a hipótese nula.

4.7- Explique a diferença entre Erro Tipo I (falsopositivo) e Erro Tipo II (falso negativo) em pro-

cessos decisórios em tribunais e na pesquisacientífica.

4.8- Como devemos ajustar o Nível de Signifi-cância em função da “ousadia” de uma hipótesede trabalho.

4.9- Como devemos proceder quando o custodo Erro Tipo II é elevado?

4.10- O que são efeitos colaterais e como de-vemos lidar com eles?

Page 68: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 68/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

67

Custo

FalsoPositivo

Custo

FalsoNegativo

Tempo Exemplo Análise e Ação

Único

Tratamento de grave intoxi cação sem

causa bem definida (usar remédio

forte que tem com contra

indicações?)

Análise de risco emergencial; Priorizar a velocidade

da conclusão mas com o máximo de certeza possível.

Sobre o diagnóstico. Importante haver preparo

antecipado para decisões rápidas e corretas.

Poucas Etapas

Paciente com sintomas de possível

doença grave de tratamento

agressivo;

Avaliação em etapas (poucas). Indícios fracos de

positivo justificam exames complementares.

Continuar os testes até ter segurança suficiente sobre

o diaqgnóstico.

Muitas Etapas

Pesquisa de um remédio promissor

com potenciais efeitos colaterais

graves.

Avaliação em etapas (muitas); Descobrir um remédio

é algo importante, mas a certeza da ausência de

efeitos colaterais tem prioridade.

Único

Julgamento em tribunais criminais.

Estudos acadêmicos com propostas

polêmicas. O tempo único refere-se à

análise única (não dividida em etapas

decisórias) e à defesa única.

Assumir postura fortemente conservadora em

relação ao falso positivo (e.g. princípio da inocência a

 priori) ; Estatística com Alfa rigoroso (0,01) ou muito

rigoroso (0,001). Tamanhos amostrais e testes

geralmente definidos a priori .

Poucas Etapas

Exames complexos para possíveis

doenças de gravidade intermediária

em estágios iniciais.

Avaliação em etapas (poucas). Indícios de positivo

 justificam exames complementares. Continuar os

testes até ter segurança suficiente sobre o

diaqgnóstico.

Muitas Etapas

Pesquisa de mercado para lançar um

novo produto. Pesquisa sobre

intenções de votos durante processo

eleitoral.

Avaliação em etapas. Amostragem sequencial e

Métodos de controle de processos estatísticos

(detecção de anormalidades) podem ser úteis

conforme o problema.

Único

Maior parte dos trabalhos

acadêmicos; Problemas cotidianos

que exigem nível mediano de certeza

antes de afirmar algo.

Conservadorismo para prevenir falsos positivos, mas

não tão extremo a ponto de frear muito a pesquisa.

Estatística com Alfa Rigoroso (0,01) ou comum (0,05).

Em Etapas

Problemas cotidianos que exigem

nível mediano de certeza comevidência acumulada gradualmente.

Avaliação em etapas. Coletas preliminares +

Estatística alfacêntrica (duas etapas); Amostragemsequencial (testando uma questão); Métodos de

controle de processos estatísticos (detecção de

anormalidades); etc.

Único

Relatório de avaliação de impacto

ambiental e ecotoxicologica; Evento

suspeito durante vigil ia policial

(bandido ou só gato?). Emitir alarme

contra catástrofes (e.g. terremoto).

Assumir postura mais conservadora contra falsos

negativos. Análise de Risco rigorosa; Valorizar toda

informação relevante disponível. Considerar uso de

Estatística Bayesiana; Medidas preventivas rigorosas;

Em Etapas

Monitoramento ambiental e

sanitário. Monitoramento de

qualidade de processos de alto risco

(e.g. funcionamento de usína

Avaliação em etapas. Métodos de Controle de

Processos Estatísticos; Análise de Riscos; Medidas

preventivas rigorosas para falsos negativos;

Considerar uso de Estatística Bayesiana.

ÚnicoDecisão de realizar um evento com

base em previsão de tempo.

Análise de riscos simples; Medidas preventivas para

falsos negativos.

Em Etapas

Monitoramentos cotidianos de

qualidade de processos de médio ou

baixo risco (e.g. eficiência em linha

de produção e satisfação de

clientes).

Avaliação em etapas. Testes múltiplos em etapas.

Amostragem sequencial; Métodos de Controle de

Processos Estatísticos. Monitoramento simples.

   B   a   i   x   o   o   u   m    é    d   i   o

   M   u   i   t   o   A    l   t   o   o   u

   A    l   t   o

   B   a   i   x

   o

   M    é    d

   i   o

   M   u   i   t   o   A    l   t   o

   M   u   i   t   o   A    l   t   o   o   u   A    l   t   o

   M   u   i   t   o   A    l   t   o   o   u   A    l   t   o

   M    é    d   i   o

   A    l   t   o

   o   u   M    é    d   i   o

   B   a   i   x   o

Tabela 4.2 Análise e ação em diferentes situações em função do custo do Erro Tipo I (falso positivo) e do Erro Tipo II(falso negativo) e do número de etapas de coleta de dados. As formas de analisar os dados mais comuns na pesquisaestão em destaque.

Page 69: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 69/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

68

5. Diversidade de testes e suaspremissas

5.1  “Ecologia” e diversidade dos testes

estatísticos.No capítulo anterior, vimos que o teste estatísti-co de hipóteses envolve primeiro a escolha dehipóteses relevantes, pois ficar “brincando” detestar hipóteses é uma boa forma de multiplicaras chances de descobertas espúrias. Escolhidaa hipótese, entramos na frase da verificação dacompatibilidade entre o previsto e o observado.Não basta que tenha acontecido como a hipóte-se de trabalho previa, é necessário que outrasexplicações alternativas para este “sucesso” da

hipótese tenham sido descartadas. Precisamosverificar com cuidado que foram excluídos pos-síveis erros de procedimentos, desde a calibra-ção de instrumentos, o cuidado ao digitar osdados, o planejamento amostral e a avaliaçãoda representatividade dos dados. Finalmente,mesmo com todos os cuidados, ainda resta apossibilidade do “sucesso” por mero acaso.Esta possibilidade é eliminada calculando afrequência esperada de um valor igual ao ob-servado se a hipótese nula for/fosse verdadeira.Esta probabilidade é denominada probabilidadefrequentista. Se esta probabilidade for menorque um nível de significância pré-determinado,rejeitamos a hipótese nula e dizemos que aevidência favorável à hipótese de trabalho éestatisticamente significativa.

Há diferentes formas de calcular a probabilidadefrequentista, em função de particularidades dosdados, e estes diferentes tipos de testes estatís-ticos recebem nomes, como o teste kolmogo-rov-smirnov, o teste t, a regressão logística emuitos outros. O importante, em primeiro lugar éentender a unidade na diversidade. Todos estestestes fazem essencialmente a mesma coisa:calcular a probabilidade frequentista. É impor-tante ressaltar isto, porque as divisões de capí-tulos em muitos livros estatísticos podem atra-palhar esta percepção.

Compreendida a unidade, entramos em umaspecto técnico dos testes que é entender assituações em que cada um é utilizado, suaspremissas e alternativas quando eles não sãorecomendáveis. É como se houvesse “nichosecológicos” para cada espécie de teste dentro

de um ecossistema de situações problema. Oestatístico precisa conhecer a fisiologia do teste,mas o usuário de estatística precisa entendersua ecologia, isto é, as condições para suaaplicação.

5.2  Testes com apenas uma variável

Os testes de uma variável geralmente compa-ram valores obtidos com “valores esperados”,por isto são chamados de testes de aderênciaou de ajustamento (ou “goodness of fit” em in-

glês). Por exemplo, podemos comparar a razãosexual de 33 ♀♀: 12 ♂♂  (obtido) com umarazão esperada de 1♀:1♂. Valores, como estaproporção de 50% por sexo são chamados deesperados, mas seria mais apropriado dizer queo esperado é um intervalo ao redor deste valor,pois este valor central exato costuma ser bas-tante improvável, como seria obter exatamente500 machos de 1000 adultos. Em outras pala-vras, o valor “esperado”, na realidade é um“valor esperado central”; pois algum desvio estádentro do esperado.

Os testes estatísticos tradicionais utilizadosnestas condições estão listados na tabela 3 doguia de gráficos e testes: a) para variáveis biná-rias são o “Binomial Exato” e o “Teste Z” (apr o-ximado); para variáveis categóricas: o “Teste Χ2 ou o “Teste G”; para variáveis quantitativas, oteste mais utilizado é o “Teste T de uma amo s-tra” para avaliar se a média desta amostra dif e-re significativamente de um valor pré determi-nado. É interessante conhecer estes testes e

suas aplicações porque ainda são muito usa-dos, entretanto, o mais recomendado é substitu-í-los por determinações de Intervalos de Confi-ança, porque: 1) Em alguns casos são maisprecisos e poderosos em rejeitar a HipóteseNula; 2) são mais intuitivos e informativos;3) nas variáveis quantitativas o IC por “boots-trap” tem menos premissas e maior flexibilidade

Page 70: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 70/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

69

de aplicações (não é só para médias, servepara qualquer parâmetro). Ao invés de rejeitar-mos a hipótese nula porque P foi menor que α,rejeitamos porque o valor de referência não estácontido no Intervalo de Confiança. Pela formaanterior, o resultado era apresentado assim: “A 

razão sexual (33 ♀♀: 12 ♂♂) foi significativa-mente diferente de 1♀: 1♂ (teste binomial exa-to P<0,001)”.Pela forma atual: “O intervalo deconfiança da razão sexual ( 33 ♀♀: 12 ♂♂)não incluiu 0,5 ♂♂/ total (RS=0,22;IC95%=0,1280 a 0,3452).” 

Há testes com uma variável, como o “Kolmogo-rov Smirnov” e o “Shapiro-Wilk”,  que servempara verificar se a distribuição de frequênciaobservada em uma amostra difere do esperadocom base em uma frequência teórica discreta

(e. g. binomial, uniforme discreta, poison) outeórica contínua (e. g. normal, uniforme contí-nua). Uma das aplicações mais comuns destestestes é a verificação da compatibilidade dadistribuição dos dados com uma curva normalpara testes paramétricos. Muitos testes tem apremissa de normalidade, de forma que é co-mum que os testes de normalidade sejam re-comendados. Entretanto, é necessário explicaruma limitação destes testes. A Hipótese Nulados testes de normalidade é que a distribuiçãodos dados é normal, isto é, ao rejeitarmos estahipótese nula (P<α) temos elementos para umadecisão: não utilizar o teste paramétrico. Entre-tanto, quando não rejeitamos a hipótese nula,podemos afirmar que a distribuição é normal?Não. Este “detalhe” frequentemente é omitidoquando se recomenda a utilização destes tes-tes. Usuários mal esclarecidos utilizam esteteste com tamanhos amostrais insuficientespara rejeitar a hipótese nula do teste de norma-lidade e sentem-se confiantes para utilizar tes-tes paramétricos em situações inapropriadas.Qualquer tamanho amostral é suficiente se oresultado do teste for (P<α), entretanto, apenasdeveríamos ter confiança que uma distribuiçãoé compatível com a normalidade se o teste denormalidade não rejeitou a hipótese nula comN>30. Voltaremos a discutir isto adiante.5.3  Testes com duas variáveis

Nos testes de relações geralmente temos umavariável resposta e uma ou mais variáveis predi-toras. Os testes com apenas uma variável predi-tora predominam em estudos experimentais,são mais simples e têm menos premissas, deforma que serão analisados primeiro e em maior

profundidade. Neste capítulo apenas trataremosde estudos em que as unidades amostrais nãoestão organizadas em blocos, assunto que serátratado no capítulo 7.

A escolha dos testes com duas variáveis de-pende das escalas da variável preditora (inde-pendente) e da variável resposta (dependente),conforme a tabela a seguir. Quando há umavariável ordinal ou quantitativa, o número deníveis efetivos também influi na escolha do tes-te. Estas diferenças são explicadas caso a caso

no Guia de Testes e Gráficos. A parte da tabelaque discutiremos mais é no caso da variávelresposta ser quantitativa, o que abre duas pos-sibilidades de análise: a estatística paramétricae a estatística não paramétrica. A primeira tempremissas mais exigentes, mas, quando podeser aplicada, dá mais poder ao teste e permiteuma descrição muito mais completa da relação.A segunda tem premissas menos exigentes, deforma que pode ser aplicada em uma diversida-de maior de situações.

V. dep→  Binário

(Categ. de 2)Categórico

Ordinal ou

Quantitativo

Condição NP*

Quantitativo

Condição P*

V. ind.↓ 

Binário

(cat. de 2)

Teste de 2 prop.,

T. Exato de

Fisher ou T.C. (a)

Graf: Seção III

Tabela de

Contingência (TC)

(b) Graf: Seção III

Mann- Whitney;

Cochran’s TT (c)

Graf: Seção IV

Teste t (de 2

grupos) (d)

Graf: Seção IV

Categórico

Tabela de

Contingência (b)

Graf: Seção III

Tabela de

Contingência (b)

Graf: Seção III

Kruskal-Wallis

(e)

Graf: Seção IV

 Análise de

Variância (f)

Graf: Seção IV

Ordinal

Mann- Whitney;

Cochran’s TT (c)

Graf: Seção VI

Dicotomizar VI ou

VD e usar teste

apropriado (Max.

Balanço) (g)

Correlação de

Postos/ RNL(h)

Graf: Seção V

Correlação de

Postos/ RNL(h)

Graf: Seção V

Quantitativo

Regressão

Logística (i)

Graf: Seção VI

Dicotomizar VI ou

VD (Max. Balanço)

(g)

Correlação de

Postos/ RNL(h)

Graf: Seção V

Pearson/

Regressão

Linear/ RNL (j)

Graf: Seção V

Figura 1 Tabela para escolha de testes com uma variável preditora e uma resposta. A maior dificuldade na deter-minação do teste está ligada à avaliação das premissasdos testes paramétricos. 

Page 71: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 71/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

70

5.4 Premissas dos testes paramétricos Há duas premissas mais básicas para os testesparamétricos: normalidade e homocedasticida-de. O número de níveis efetivos da variávelresposta pode ser visto como um aspecto da

normalidade, mas vale a pena ser tratado àparte, pois é de fácil verificação. Estas premis-sas serão explicadas adiante. Note que na rea-lidade não há uma fronteira exata a partir daqual as condições permitem ou não um testeparamétrico. Para enfatizar isto, descrevemos 3situações:

Variável resposta quantitativa em condiçõesparamétricas. Situação: a) número de níveisefetivos superior a 10; e b) distribuição de valo-res da variável resposta “normal” em cada nível

da variável preditora; e  c) homogeneidade navariância da variável resposta entre os níveis davariável preditora.

Variável resposta quantitativa fora de condi-ções paramétricas. Situação: a) número deníveis efetivos igual ou menor que 5; ou b) dis-tribuição dos valores da variável dependente sedesviam fortemente da normalidade dentro decada nível da variável preditora; ou c) a variân-cia da variável resposta diferir fortemente entreos níveis da variável preditora.

Variável resposta quantitativa em condiçõesintermediárias. A variável está em condiçõesintermediárias se: a) o número de níveis efeti-vos está entre 6 e 9; ou  b) a distribuição dosvalores em cada nível da variável resposta temum certo desvio da normalidade; ou  c) A vari-ância da variável resposta não é similar, masnão é extremamente diferente entre os níveis davariável preditora.

Há uma exceção quanto a estas exigências.Quando a variável preditora for binária, pode-mos utilizar um teste t com variâncias separa-das, que é um teste paramétrico com a premis-sa de normalidade, mas sem a premissa dahomogeneidade das variâncias.

Normalidade.  Vamos relembrar e aprofundarconceitos que imos antes. Normalidade significaadequação de um conjunto de valores quantita-tivos a uma distribuição de frequência em formade sino denominada “Normal”. Uma distribuiçãode frequência é uma descrição de quantos valo-

res existem para cada intervalo de valor de umavariável quantitativa. A princípio, a distribuiçãonormal é uma distribuição contínua (“lisa”, sem“degrausinhos”), mas podemos ter uma aproxi-mação de distribuição normal como na figura aseguir. Ela é representada por um gráfico cujoeixo x mostra a variável em questão dividida emintervalos de valores e o eixo y é a frequênciaque pode ser em valores absolutos (contagens)ou relativos (porcentagem do total de casos ouproporção em relação ao valor máximo). Noteque é um padrão com distribuição com tendên-

cia simétrica, com moda, mediana e média a-proximadamente coincidentes e na forma de umsino. A figura seguinte mostra um padrão dife-rente, mais compatível com uma distribuiçãodenominada “Poisson”, mais comum quandotemos contagens com poucos níveis efetivos.Podemos também ter distribuições bimodais(dois “morrinhos”), que não são raros quandotrabalhamos com uma variável expressa emporcentagens.

0 1 2 3 4 5 6 7Número de peixes por pescador 

0.0

0.2

0.4

0.6

0.8

1.0

   F  r  e  q   ü   ê  n  c   i  a  r  e   l  a   t   i  v  a

0 2 4 6 8 10 12Número de peixes por pescador 

0.0

0.2

0.4

0.6

0.8

1.0

   F  r  e  q   ü   ê  n  c

   i  a  r  e   l  a   t   i  v  a

“Normal” 

Poisson

Figura 3 Duas distribuições de frequência comuns, a"Normal" e a “Poison". 

Page 72: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 72/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

71

A distribuição normal é especial porque muitasvariáveis assumem distribuições com esta for-ma, e esta informação incorporada ao testepermite maior poder de previsão. Podemosainda utilizar os testes paramétricos para variá-veis com pequeno desvio da normalidade, pois

estes testes são robustos, entretanto, isto temum limite. No caso de grandes desvios, os re-sultados dos testes não são confiáveis e podemlevar tanto ao erro tipo II como ao erro tipo I. Emalgumas circunstâncias, podemos transformaralgebricamente variáveis sem normalidade emvariáveis modificadas com normalidade (seção5.5). Quando a transformação for possível, ela érecomendada, em função das vantagens dostestes paramétricos.

Análise de normalidade em testes.

Situação 1: uma única variável quantitativa.Nesta situação vimos que a recomendação é autilização de Intervalos de Confiança ao invésde testes de significância comuns. Entretanto,mostraremos a análise, pois ela ajuda a enten-der como isto é feito para duas variáveis. Nocaso, o teste paramétrico seria um “Teste T deuma amostra” (e a melhor alternativa não para-métrica seria o próprio Bootstrap).

A análise depende do contexto:1a) Algumas variáveis simplesmente costumamter distribuição normal, e assumimos  (por ra-zoabilidade) que a distribuição é normal semrealizar uma análise de normalidade. Por exem-plo, tamanho costuma ter distribuição normal, epoucas pessoas questionariam presumir norma-lidade na maioria das situações. Entretanto, háum risco nesta premissa, até para variáveis quetipicamente têm “comportamento normal”.

1b) Se você não pode assumir tranquilamenteeste risco, então precisará colocar os dados emum gráfico e avaliar a distribuição para ver setêm um “jeitão” de curva normal, isto é, deve seraproximadamente simétrica na forma de umsino. Esta análise depende de pelo menos uns10 dados para caracterizar este “jeitão”. Nãoprecisa encontrar padrões perfeitamente nor-mais, mas já dá para perceber grandes desvios

da normalidade. Este segundo procedimentoainda é um pouco arriscado, por ser um poucosubjetivo, mas geralmente é aceito, pois ostestes que exigem normalidade são considera-dos robustos, isto é, eles “aguentam” desviosrazoáveis da normalidade.

1c) Se você tiver mais de 30 dados, você podeutilizar um teste de normalidade (e. g. “Shapi-ro-Wikes”), que determina se o desvio da nor-malidade é grande demais para considerar acurva normal. Se o teste mostrar um desviosignificativo da normalidade, então você aindapoderia tentar uma transformação dos dados(como veremos adiante).

Situação 2: uma variável resposta quantitativa euma variável preditora binária, categórica ou

ordinal.

Vale o mesmo que apresentamos acima parauma variável, podemos assumir normalidade,avaliar graficamente ou testar a normalidade.Entretanto, neste caso, a análise de normalida-de é feita dentro de cada um dos níveis da vari-ável preditora. Por exemplo, numa análise dealguma medida de resistência de pessoas (y)em função do tipo sanguíneo é necessário quehaja normalidade da distribuição dos valores de

 A AB B OTipo Sangüíneo

0

10

20

30

40

   R  e  s   i  s   t   ê  n  c   i  a

 A AB B OTipo Sangüíneo

0

10

20

30

40

   R  e  s   i  s   t   ê  n  c   i  a

Figura 3 Avaliação qualitativa de normalidade da variávelresposta dentro de cada nível da variável preditora. Os

 padrões neste gráfico são compatíveis com distribuiçõesnormais. 

Page 73: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 73/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

72

resistência para cada tipo sanguíneo (as curvasnormais ficam viradas em 90º no gráfico sobrecada nível de x). Novamente, não espere queos dados formem uma curva perfeitamentenormal se os tamanhos amostrais não foremmuito grandes, mas é necessário que a distribu-ição seja pelo menos aproximadamente simétri-ca e na forma de um sino para os testes para-métricos. No exemplo abaixo os quatro níveistêm padrão compatível com uma distribuiçãonormal.

Situação 3: Uma variável resposta quantitativa euma variável preditora quantitativa. Neste caso,a relação entre as variáveis é representada poruma linha. O esperado é que se encontre umacurva normal em cada nível da variável predito-ra e esta curva normal deve estar com a médiasobre o valor esperado para aquele nível davariável preditora. Na prática, o problema denormalidade mais comum nesta situação é amédia desta curva normal não estar no localesperado, porque o modelo usado não é apro-priado.

Suponha que o seu modelo é de regressãoretilinear, que é um modelo representado poruma linha reta. O esperado é que a média emcada nível esteja aproximadamente sobre alinha reta, e que os pontos tenham uma distribu-ição normal neste nível, como na figura ao lado.

Repare que os resíduos estão homogeneamen-te distribuídos ao longo do eixo da variável pre-ditora. Um desvio de normalidade ocorre quan-do aplicamos um modelo retilinear a uma rela-ção que na realidade é curvilinear (figura 5.4).Repare que os resíduos não se distribuem ho-mogeneamente ao longo do eixo da variávelpreditora, inicialmente eles são muito altos,depois muito baixos e ao final muito autos no-vamente. (*usamos o termo “retilinear ” porque otermo “linear” não se restringe a modelos comuma reta; vários modelos curvilineares também

entram nesta categoria segundo Zuug et al2009)

Caso a análise de resíduos indique uma relaçãonão retilinear, então a forma de agir dependerádo problema: a) se o objetivo for apenas saberse há uma relação com previsão de aumento ouredução monotônicos (sem reversão de tendên-cia), pode se utilizar o teste não paramétricocorrelação de Spearman; b) se o objetivo incluiuma descrição da relação, então você terá quecomparar estatisticamente os modelos alternati-vos ou verificar a existência de um modelo flexí-vel apropriado. Estes procedimentos estão des-critos em Zar (1984).

Número de níveis efetivos apropriados navariável resposta. A contagem do número de

0 1 2 3 4 5Var. Ind. Quantitativa

5

6

7

8

9

10

   V .   D  e  p .   Q  u  a  n   t

 

0 1 2 3 4 5Var. Ind. Quantitativa

-2

-1

0

1

2

   R  e  s   í   d  u  o  s   d  e   Y  e  m 

   X

 

9

10

  m 

   X

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

Var. Ind. Quantitativa

5

6

7

8

9

10

   V  a  r .   D  e  p .

   Q  u  a  n   t .

 

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

Var. Ind. Quantitativa

-2

-1

0

1

2

   R  e  s   í   d  u  o  s   d  e   Y  e  m    X

 

Tendência retilinear

Figura 5- Normalidade em relação linear (ver texto).  Figura 4- Normalidade e curvilinearidade (ver texto). 

Page 74: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 74/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

73

níveis efetivos substitui a tradicional categoriza-ção de variáveis em “discretas” e “contínuas”. Oconceito de variável contínua não se sustentaporque todo instrumento de medida tem umaprecisão limitada. O problema da continuidadeexiste, mas está ligado a um baixo número deníveis efetivos, não à natureza da medida.

A condição de número de níveis efetivos sufici-ente é uma extensão da premissa de normali-dade. Se houver menos que cinco níveis efeti-vos na variável resposta, então o “salto” de umnível para o outro é proporcionalmente grande,igual ou maior que 20% da amplitude (diferençaentre o menor e o maior valor). Portanto, não sepode falar em uma curva normal, o máximo éuma “escada  normal”, e estamos “forçando” o nosso algoritmo paramétrico devido à desconti-nuidade dos valores. Por isto, quando você tiverseis níveis efetivos ou menos na variável res-posta, deveria utilizar um teste não paramétrico.Quando você tiver 10 ou mais níveis efetivos,

então, dependendo das outras premissas, pode-rá utilizar um teste paramétrico. 

Homogeneidade de variâncias. Tambémchamada de homocedasticidade, a homogenei-dade (ou similaridade) de variâncias da variávelresposta entre níveis da variável preditora é

outra condição para podermos utilizar testesparamétricos. Isto também pode ser investigadograficamente. Em termos simples, as curvasnormais imaginárias sobre a distribuição dosdados devem ser aproximadamente igualmente“gordas”.A figura 5.5 mostra uma situação deheterogeneidade de variâncias com variávelpreditora categórica e a figura 5.6 com variávelresposta quantitativa.

 

Lidando com as “situações intermediárias” Se você tem 6 a 9 níveis efetivos de medida navariável resposta ou se há um desvio da norma-lidade, mas este desvio não for muito grande ou se há uma diferença entre as variâncias entre

os níveis das variáveis preditoras, mas estadiferença não for muito grande, então você estáem uma situação intermediária entre a situaçãoem que recomendamos um teste paramétrico ea situação em que recomendamos um teste nãoparamétrico. Não há uma fronteira definida.Caberá a você escolher conforme a situação,considerando: a) Se a situação exigir uma abor-dagem mais conservadora, ou se você tem umapersonalidade mais conservadora, dê preferên-cia aos testes não-paramétricos; b) se há umconhecimento de que a variável em estudo cos-

tuma ter um comportamento mais próximo àspremissas de testes paramétricos, então dêpreferência a estes; c) Leve em conta na esco-lha que esta região tem um forte gradiente, e. g. uma variável com 6 níveis efetivos está muitomais próxima da necessidade de testes nãoparamétricos do que uma variável com 9 níveis

 A AB B OTipo Sangüíneo

0

10

20

30

   R  e  s   i  s   t   ê  n

  c   i  a

Figura 5-5- Heterogeneidade de variâncias da variávelresposta entre níveis categóricos da variável indepen-dente. 

0  1  2  3  4  5  6 Var. Independente 

10 

20 

30 

   V  a  r .   D  e  p  e  n   d  e  n   t  e

 

Figura 6Heterogeneidade de variâncias da variável respos-

ta entre níveis quantitativos da variável preditora. 

Page 75: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 75/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

74

efetivos. d) Leve em conta os três critérios aomesmo tempo, uma circunstância com condiçãointermediária em apenas um critério tende a sermenos crítica que uma circunstância com con-dição intermediária nos três critérios.

5.5 

Transformação de dadosComo dissemos antes, havendo normalidade ehomocedasticidade, a estatística paramétrica émais poderosa. Em muitos casos em que aspremissas não se aplicam, é possível utilizaroperações matemáticas para transformar osdados e obter normalidade e homocedasticida-de. Este procedimento de tentar uma transfor-mação é recomendado para se obter o poder doteste paramétrico e quando se deseja obterdescrições com equações lineares.

A transformação utilizando logaritmo  é reco-mendada quando há uma relação positiva entrea média e a variância (quanto maior a média,maior a variância). Quando não há valores i-guais a zero, a fórmula utilizada é y’= LN(y);quando há valores iguais a zero é y’= LN(y+1).Em alguns casos, como na relação entre peso ealtura, costuma-se utilizar uma curva “log-log”,onde são utilizados os logaritmos tanto da vari-ável preditora como da resposta. A transforma-ção pela raiz quadrada é recomendada quandonão há normalidade e a variável resposta é umacontagem de casos, o que normalmente leva auma distribuição do tipo “Poison”, ou em outrassituações em que seja observada esta forma dedistribuição. Quando não há valores iguais azero, a fórmula utilizada é y’=SQR (y); e quandohá valores iguais a zero, a fórmula é y’=SQR(y+0,5) (SQR= Raiz Quadrada). Outrastransformações são mais complexas, como aBox-Cox são utilizadas quando não se aplicamas duas transformações anteriores, mas não

estamos lidando com proporções, e a transfor-mação de Arcoseno  quando os dados sãoproporções (0 a 1) ou porcentagens (0 a 100%).Nestes casos, deve se consultar um texto maisaprofundado (e. g. Sokal & Rohlf, 1988).

Estas transformações podem parecer que seestá “trapaceando” no “jogo” estatístico. Não é

trapaça, porque você realiza a transformaçãodurante a fase de avaliação das premissas,antes de ver o resultado do teste. Seria trapaçase o motivo da transformação fosse o resultadodo teste. Estas transformações são realmenteum procedimento recomendado para variáveis

quantitativas respostas antes da decisão de seutilizar um teste não paramétrico.

5.6  Outras premissas

Há outras premissas que envolvem testes derelações, algumas se aplicam a todos os testes(e. g. balanço) e outras a alguns testes em par-ticular (e. g. ortogonalidade, “empates” em ran-queamento, tamanhos amostrais em testes deproporções).

Balanço entre níveis da variável preditoraBalanço significa equilíbrio no número de dadosentre os níveis da variável preditora em testesde relações entre duas ou mais variáveis. Sequisermos comparar o tamanho de aranhas emfunção do sexo e vamos medir 20 aranhas, émelhor termos 10 machos e 10 fêmeas do que17 machos e três fêmeas.

O balanço se aplica a variáveis de qualquerescala de medida da variável preditora, binárias,

categóricas, ordinais ou quantitativas. No casode variáveis categóricas, o número de casospara cada categoria (cada nível categórico) nãodeveria ser muito diferente. No caso de variá-veis ordinais, cada categoria ordinal (cada nívelordinal) deve ter números aproximadamentesemelhantes. No caso de variáveis quantitati-

f m

Sexo

0

5

10

15

   T  a  m  a  n   h  o

Figura 7 Dados balanceados com 10 entidades por nível.  

Page 76: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 76/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

75

vas, a distribuição dos dados deveria ser apro-ximadamente homogênea ao longo do eixo x.Se dividirmos os dados da variável quantitativaem 3 a 5 intervalos, a quantidade de dados emcada um deles não deve ser muito diferente.

O balanço é algo que podemos controlar facil-mente em situações experimentais. Em situa-ções não experimentais em que temos possibi-lidade de coletar bastante, podemos estratificara amostra de forma a obter balanço (e. g. cole-tar 10 indivíduos de cada espécie, tanto dascomuns como das raras). Entretanto, quando hápoucos dados, podemos ter dificuldade paraobter balanço. Imagine que as aranhas do e-xemplo acima fossem fósseis raros, como obtermais fêmeas se são tão raras?

Não encontrei nenhum livro ou artigo na internetque fornecesse critérios para sabermos quantode desbalanço compromete uma análise comuma única variável preditora. Há bons livros deestatística com exemplos de análises com des-balanço superior ao dobro de casos entre onível com menos dados e o nível com maisdados, o que sugere que podemos assumirrobustez para desbalanços fortes, mas nãohaveria um mínimo? O teste Qui quadrado é oúnico teste que conheço que considera suspei-tos resultados com menos que 5 valores emalguma das combinações de níveis, e podemossugerir que este critério seja estendido a outrostestes da seguinte forma: no mínimo 5 unidadesamostrais em cada nível da variável preditoracategórica e pelo menos 5 unidades amostraisem cada extremidade de regressões lineares,para que não ocorra situações como esta dafigura abaixo. Caso haja menos que 5 unidades,então a categoria deveria ser eliminada da aná-lise ou aglutinada com outra categoria. Outraopção seria a utilização de um teste não para-métrico de permuta. No caso das regressões, aanálise deveria ser restrita à região do gráficoque possui dados suficientes.

Ortogonalidade. A falta de balanço em testescom uma única variável preditora só deve seruma preocupação em casos de desbalançosextremos. Entretanto, quando há mais de uma

variável preditora na questão, é necessário seter mais atenção, pois desbalanços podem ge-rar relações espúrias.

Por exemplo, se estamos querendo avaliar oefeito do nitrogênio e do cálcio sobre o cresci-mento de uma planta ao mesmo tempo (nor-malmente para verificar a existência de umainteração entre estes fatores), o ideal é utilizar-mos um número de vasos igual para cada com-binação dos níveis de cada fator. Por exemplo,se tivermos os níveis +0, +10 e +50mg de nitro-gênio e os níveis +0, +10 e +50g de cálcio, te-remos nove combinações de concentrações.Normalmente isto é possível em situações ex-perimentais. Há alternativas para tratar dadosdesbalanceados nesta situação, mas elas estãofora do escopo deste texto.

Balanço entre níveis da variável resposta emtestes não paramétricos por ranqueamento. Os testes não paramétricos que mostramosneste curso são do tipo mais comum, chamadotestes de ranqueamento, no qual os valoresabsolutos medidos são substituídos por valoresde posição. Este procedimento é mais apropria-do do que um teste paramétrico quando a distri-buição está muito fora da normalidade e/ou dahomogeneidade de variância. Entretanto, pou-cos textos de estatística destacam que estes

testes também são influenciados pela distribui-ção dos valores ranqueados em casos extre-mos. Por exemplo, imagine que você quer com-parar o deslocamento de uma espécie de sapoem dois ambientes. Você tem várias medidasde distância, mas cerca da metade dos saposnão se moveu. Este padrão com muitos zeros

Figura 8- Dados desbalanceados ao longo de variávelquantitativa. 

0 5 10 15 20 25VARIÁVEL X

0

5

10

15

20

   V   A   R   I    Á   V   E   L   Y

Page 77: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 77/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

76

empatados (“ties”) não é raro, e não deveria seranalisado por um teste de ranqueamento co-mum. Alguns autores (e. g.  Gotelli & Elisson,2010) recomendam que estes testes sejamabandonados e substituídos por procedimentosde permuta do tipo Monte Carlo. É uma posição

muito válida, entretanto, considerando que ain-da não há uma tradição consolidada do uso dostestes de permuta, ainda é razoável a manuten-ção do uso dos testes de ranqueamento emsituações em que não há um excesso de empa-tes em poucos níveis efetivos de testes nãoparamétricos de ranqueamento.

Tamanhos amostrais mínimos em testes deproporções. Cuidado ao aplicar testes de pro-porções, eles só são válidos em certas condi-ções. No caso do teste de uma proporção, a

condição é [n .p0 > 10 e n (1 − p0) > 10], sendon o tamanho amostral e p0 a proporção obtida.Por exemplo, se você quer saber se a propor-ção 3:5 é significativamente diferente de 50%,terá n=8 e p0=0,375. Como 8x0,375<10, esteteste não poderia ser aplicado. Entretanto, po-deríamos testar se 30:50 é significativamentediferente de 50% porque n=80 e 80x0,375>10.No caso de testes de duas proporções, a condi-ção é [(n1 p1) > 5 e n1(1 − p1) > 5 e (n2 p2) > 5e n2(1 − p2) > 5], sendo n1 e n2 os tamanhosamostrais e p1 e p2 as proporções. Assim, sequeremos testar se as proporções 1:5 e 40:50são diferentes, teríamos 6x0,2<5, o que tornariao teste suspeito. Tabelas de contingência tam-bém têm restrições para tamanhos amostraispequenos dentro de cada célula. No Mystatquando há menos que 5 observações em umacélula, o resultado é considerado suspeito peloprograma.

Se você está com um problema de tamanhoamostral em um teste deste tipo, e não pudercoletar mais dados, provavelmente possa utili-zar uma abordagem de permuta como o “boots-trap”, mas é bom considerar uma consulta a umestatístico.

5.7  Contrastes

Esta seção trata de um aspecto dos testes comvariável resposta quantitativa e variável predito-ra categórica. Nesta situação, o teste nos permi-te determinar se há uma diferença entre osníveis da variável preditora. Por exemplo, po-demos comparar o crescimento de galinhas

com três marcas de ração e descobrir que háefetivamente uma diferença. Entretanto, istonão costuma ser uma resposta satisfatória,normalmente queremos saber quais diferençassão significativas entre cada marca de ração.

Digamos que tenhamos os níveis A, B e C etenhamos obtido uma diferença estatisticamentesignificativa. Isto significa que: A>B>C ou queA>B=C ou que A=B>C? Para definir quais dife-renças são estatisticamente significativas énecessário um teste de contraste após um teste

de ANOVA ou Kruskal-Wallis. O teste mais usa-do para ANOVA chama-se Tukey. No caso doKruskal-Wallis pode se utilizar um teste MannWhitney entre cada nível. Existe a possibilidadedo teste não apontar diferenças significativasentre os níveis (A=B e B=C). Isto parece umcontra senso, mas é possível porque no conjun-to a diferença é significativa, mas que pode nãohaver dados suficientes para saber qual nível édiferente de outro nível.

Exercícios

5.1- Represente com um gráfico EPR uma situaçãocom uma variável preditora com 4 níveis efetivosordinais (não quantitativos) e uma variável respostaquantitativa com mais de 10 níveis efetivos e fortediferença na variância entre os níveis.

5.2- Represente com um gráfico EPR uma situaçãocom variável preditora binária em que um dos níveisapresenta uma distribuição de dados claramentediscrepante de uma distribuição normal e o outronível com uma distribuição claramente compatível

com uma distribuição normal com 10 entidades emcada nível. 

5.3- Represente com um gráfico EPR uma situaçãocom variáveis respostas e preditoras quantitativas. Avariável preditora deve ter quatro níveis e a relaçãonão deve ser compatível com uma relação retilinear. 

Page 78: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 78/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

77

5.4- A transformação de dados é um procedimentorecomendado em que situações?* 

5.5- Quais as diferenças entre as condições paratestes paramétricos e para testes não paramétricos.

5.6- Por que realizamos análise de contrastes quan-

do a variável preditora é categórica? 

5.7- Represente com um gráfico EPR uma situ-ação com uma variável preditora com 4 níveiscategóricos (não quantitativos ou ordinais) euma variável resposta quantitativa com mais de10 níveis efetivos. Neste gráfico deve haver umforte desbalanço (>50%) entre o nível mais re-presentado e o menos representado na variávelpreditora.

5.8- Quais as premissas dos testes paramétri-

cos apresentadas neste capítulo e qual testeparamétrico pode ser realizado sem homoge-neidade de variâncias entre os níveis das variá-veis preditoras.

 

Page 79: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 79/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

78

6. Planejamento Amostral

6.1  Independência entre unidadesamostrais

O planejamento amostral tem por objetivo de-terminar a melhor forma de coletar os dadosprevenindo relações espúrias (este capítulo) eobtendo o máximo de poder para a nossa análi-se (próximo capítulo) dentro das possibilidadeslogísticas do estudo. A introdução sobre coletade dados do capítulo 3 será aprofundada nestesdois capítulos.

Os cursos introdutórios de estatística, comoeste, lidam basicamente com “hipóteses estatís-ticas simples”  (seção 1.3), que tem como pre-missa a independência entre unidades amos-trais. As ferramentas para lidar com estas hipó-teses são diversificadas e se constituem nasformas predominantes da análise de dados embiologia. A premissa que lhe dá força é justa-mente seu Calcanhar de Aquiles: a indepen-dência entre unidades amostrais. Se não houvergarantia desta independência, o resultado daanálise não será confiável.

No caso de perguntas sobre uma única variável,

a independência significa que a amostra é re-presentativa da população. Por exemplo, sequisermos saber se a proporção de plantas comflores vermelhas ou brancas de uma espécieem um campo é compatível com a 1ª lei deMendel (3:1), o ideal é que a escolha das plan-tas na amostra seja aleatória. Entretanto, podeser inviável marcar todas as plantas para umsorteio, então poderíamos pensar em outraforma de amostrar, desde que tenhamos confi-ança que o resultado não seria tendencioso. Porexemplo, poderíamos ter um mapa detalhado

da área, criar um “grid” (gradeado) e escolheras plantas mais centrais em cada célula do“grid” (amostra sistemática). Há diversos tipospossíveis de amostras sistemáticas, mas nemtodas garantem a representatividade, de formaque devem ser pensadas primeiramente para

evitar alguma tendenciosidade e depois emfunção da conveniência logística.

No caso de perguntas sobre relações, que en-volvem duas ou mais variáveis (sendo pelomenos uma preditora e pelo menos uma res-

posta), a independência, significa que “Os valo-res da(s) variável (is) preditora(s) foram manipu-lados ou escolhidos de forma que as influênciasde relações com potenciais variáveis de con-fundimento sobre a relação em estudo foramtodas anuladas ou radicalmente reduzidas.”(cap.3).

A situação ideal para se obter a independênciaem estudos de relações é o experimento contro-lado, no qual manipulamos o valor da variávelpreditora e medimos o efeito na variável respos-

ta. Entretanto, em muitos estudos não é possí-vel se manipular a variável preditora. Vejamosalguns exemplos de problemas de confundi-mento.

6.2  A coleta parecia apropriada, mas...

Estudo 1. Pergunta: há diferenças no tamanhode machos e fêmeas de borboletas da espécieCapronnieria abretia (Satyrinae) ?

Procedimento: coleta de 20 borboletas em janei-ro e 20 em julho.Na figura ao lado representa-mos uma parte da tabela EPR. As entidadesseriam borboletas e as propriedades seriamtamanho e sexo. A relação está representadapela seta.

Tamanho Sexo

12 m10 m11 f 11 f 

Page 80: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 80/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

79

Há algo errado com este procedimento? O grá-fico abaixo mostra que o tamanho dos animaisem janeiro (verde) é maior que em julho (bran-co) Também vemos que em janeiro encontra-mos mais machos e em julho mais fêmeas.Machos e fêmeas de janeiro têm os mesmos

tamanhos; machos e fêmeas de julho têm omesmo tamanho. Portanto, não há dimorfismosexual de tamanho. Entretanto, se não levamosem conta as variações temporais de tamanho ede abundância, aparece uma falsa evidência dedimorfismo.

Isto ocorre quando há uma variável de con-fundimento. Uma variável de confundimento éaquela que influi sobre a variável resposta e avariável preditora ao mesmo tempo, criandouma relação inconsequente espúria entre elas.

Isto fica mais claro no esquema das flechasnesta figura

.

Estudo 2.  Pergunta: A abundância de peixesem lagos de várzea no amazonas varia entre afronteira com o Perú e Belém?

Amostragem: 6 meses coletando ao longo doRio Amazonas em diversos lagos com método

padronizado. Os lagos são escolhidos ao acasoà medida que o barco de coleta vai descendo orio. 

Há algo errado? A quantidade de peixes variamuito ao longo do ano nos lagos próximos aoRio Amazonas. Digamos que a coleta seja inici-ada quando há pouco peixe nos lagos e terminequando há muitos peixes no lago. Se a coleta éfeita à medida que o barco desce o rio, haverádiminuição da pesca à medida que o barco seafasta do Perú, não devido à variação espacial

da pesca, mas devido à variação temporal. Avariável de confundimento foi a época do anoque estava relacionada com a posição do barcoe com a quantidade de peixes.

Estudo 3. Pergunta: A temperatura do ar condi-cionado influi sobre a capacidade de concentra-ção durante uma avaliação?

Coleta de dados. 15 voluntários são colocadospara resolver problemas que exigem concentra-ção em 3 momentos. Sem que eles soubessem,a temperatura da sala foi ajustada em diferentesníveis em cada momento e a posição deles nasala foi determinada aleatoriamente. No primei-ro dia, a temperatura estava em 20ºC, no se-gundo dia em 24ºC e no terceiro dia em 28ºC. Amaioria dos estudantes obteve os piores resul-tados no primeiro dia e o melhor no último dia, oresultado foi fortemente significativo (P< 0,001).A interpretação do experimento é que os estu-dantes concentram-se melhor em salas maisquentes e recomendaram a exclusão dos condi-cionadores de ar das salas de aula da universi-dade.

Problema. Na realidade, os estudantes tendema se concentrar melhor a 20ºC, entretanto, noprimeiro dia eles tinham pouca experiência como teste. No segundo dia, eles aprenderam aindamais e no terceiro fizeram a sua melhor prova,

     T

    a    m    a    n     h    o

Machos Fêmeas

Janeiro ( ) Julho ( )

Tamanho Sexo Época12 m 110 m 111 f 1

11 f 1

Relação espúrea

Relações causais

Page 81: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 81/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

80

mesmo com o incômodo de uma temperaturaalta. A ordem dos exames foi a variável de con-fundimento, pois ela determinou a temperaturae a experiência. Seria melhor que a ordem dastemperaturas fosse aleatória, embora isto sejaum fator complicador na hora de realizar um

estudo destes, quando há uma variável de con-fundimento ligada à sequência de tratamentos,planejamentos experimentais como estes sãoum convite para relações inconsequentes espú-rias.

Estudo 4. Pergunta: Lagos de água branca têmmais peixes do que lagos de água preta?

Coleta: Instalamos 50 redes de coleta de peixesem um lago no centro de uma ilha em Anavilha-nas (bem representativo de lagos de água pre-

ta) e 50 redes de coleta em um lago semelhanteno centro da ilha da Marchantaria (bem repre-sentativo de lagos de água branca) na mesmaépoca do anoe com técnicapadronizada.Os dois lagosforam selecio-nados aleato-riamente deuma listagrande delagos repre-sentativos dosrespectivostipos de água.

A princípio, a estrutura da planilha para esteestudo seria esta ao lado, mas será que ela éválida nesta situação?

O problema é que todas as coletas de peixes deágua branca foram feitos no lago 1, e todas asde água preta foram feitos no lago 2. A diferen-ça de tipo de água certamente não é a únicadiferença entre estes dois lagos. Por exemplo, olago 1 secou há 4 anos, e a comunidade depeixes e de plantas que são refúgio para peixesforam severamente afetadas. O resultado doestudo é simplesmente se há diferença na taxade captura entre estes dois lagos. O lago 1 não

deve ser eliminado apenas porque secou há 4anos, isto acontece em lagos, trocar de lagonão é a solução. O errado é querer tirar mais deuma medida por lago se a questão é a diferençaentre lagos. Melhor seria ter uma coleta por lagoem 5 lagos de água branca e em 5 lagos de

água preta, preferencialmente de bacias hidro-gráficas diferentes. Dos exemplos apresenta-dos, este é o caso mais claro de Pseudoreplica-ção.

A pseudo-replicação é definida como o uso deestatística inferencial para testar efeitos de tra-tamentos com dados de experimentos que nãosão replicados ou quando as replicatas não sãoestatisticamente independentes (Hurlbert,1984). Em abordagens experimentais e emalguns estudos observacionais, como o citado

acima, é mais fácil se perceber quando hápseudo-replicação, mas nem sempre é assim. Otermo pseudo-replicação tornou-se muito popu-lar e tem sido muito importante para despertarmais nas pessoas o cuidado com replicatasindevidas. Entretanto, acredito que ele só possaser bem compreendido depois de se entendermelhor alguns os tipos de variáveis (em termosde sua influência na relação em estudo) e tiposde controle.

Taxa de

captura

Tipo de

água

local Lago

secou

nos

últimos 5

anos?23 branca Lago 1 não

29 branca Lago 1 não3 preta Lago 2 sim5 preta Lago 2 sim

Taxa de

captura

Tipo de

água

23 branca29 branca3 preta5 preta

Page 82: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 82/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

81

6.3  Tipos de variáveis dentro de mapasconceituais.

Como vimos anteriormente, algumas questõespodem ter apenas uma variável em análise.Neste caso, temos de nos preocupar apenas

com a representatividade (seção 3.3), não hávariáveis externas nem possibilidade de con-fundimento.

Algumas vezes investigamos a existência derelações entre duas variáveis sem relação cau-sal entre si, mas que poderiam estar respon-dendo à mesma variável preditora ou realiza-mos uma investigação preliminar sobre causali-dade sem a preocupação rigorosa com a possi-bilidade de variáveis de confundimento. Nestecaso, dizemos que estamos estudando a exis-tência de uma correlação. Variáveis que apre-sentam relações causais costumam apresentarcorrelação, desde que a variável preditora variesuficientemente, e desde que variáveis de ruídonão obscureçam muito a relação. Entretanto,correlações não implicam relações causais de-vido à possibilidade de confundimento. Por isto,em uma análise de correlação, não estamosnos preocupando muito com variáveis externas.

Você poderia comparar a correlação entre da-

dos climáticos efetivamente medidos (e. g. Cho-veu) e as previsões feitas por dois modelosclimáticos (um dizia que ia chover e o outronão). Note que as previsões de clima não cau-sam o clima, entretanto, tanto o clima como asprevisões são influenciadas pelas condiçõesatmosféricas anteriores. Aqui o estudo de corre-lação nos conduz a conclusões concretas

A correlação frequentemente é estudada comouma forma de obter indícios de relações cau-sais, mas a conclusão tende a ser menos con-

creta. Por exemplo, podemos verificar se a a-bundância de uma espécie (e. g.  uma presa)está correlacionada com a abundância de outraespécie (e. g.  seu predador). A existência deuma correlação negativa é um indício que opredador influi sobre a densidade da presa, masé um indício fraco, pois há outras explicações

alternativas razoáveis que poderiam levar aomesmo resultado, como a diferença na prefe-rência a algum fator ambiental (e. g.  umidade)ou à densidade de um predador comum às duasespécies que prefere alimenta-se mais da presaonde o predador for menos abundante.

É quando estamos realizando um estudo cuida-doso de relações causais que precisamos avali-ar variáveis externas. Vejamos os tipos de vari-áveis externas e como lidar com elas.

As variáveis externas são divididas em:b1) Variáveis Neutras, não afetam nem a vari-ável resposta nem a preditora; b2) VariáveisPré Explicativas, que afetam diretamente ape-nas a variável preditora; b3) Variáveis de Ruí-do (VR), são aquelas que afetam a variável

resposta, mas não afetam a(s) variável(is) predi-tora(s); b4) Variáveis de Confundimento (VC). São aquelas que afetam tanto a variável predi-tora como a variável resposta, criando umarelação inconsequente espúria entre as variá-veis em questão; b5) Variáveis de Caminho,são aquelas que explicam a relação consequen-te entre a variável preditora e a variável respos-ta.

Figura 9- Classificação dos tipos de variáveis em funçãoda sua participação em uma questão. 

Page 83: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 83/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

82

Vamos discutir esta classificação em um exem-plo. A figura 6.2 representa um mapa conceitualde uma questão sobre o efeito do tipo de águasobre a quantidade de tambaquis em lagos. Aideia é que água branca tem mais nutrientesque possibilitam uma maior produção de frutosdas árvores da borda que são o principal ali-mento para os peixes adultos.

Digamos que fizemos a coleta de dados em 15lagos de água branca e 15 de água preta eobtivemos uma relação significativa (P<0,05)entre o tipo de água e a abundância de peixes.Levamos o trabalho a um congresso e as pes-soas questionam sua conclusão.

1) 

Dra. Kaufman, economista da USP, obser-vou que os lagos de água preta estão maispróximos da metrópole e levanta a possibi-lidade da diferença na quantidade de peixesser causada mais pela pressão do consumodo que por diferenças ambientais.

2) 

Dr. Fisher pergunta sobre a experiência dospescadores que ajudaram no estudo e per-

gunta se isto poderia ter causado a diferen-ça.

3) 

Dr. Livinstone pergunta se poderia haveruma diferença entre as nascentes das fon-tes que alimentam o lago para causar as di-ferenças de cor da água.

4) 

Dr. Glenn pergunta se poderia ter havidoalgum efeito da fase da lua durante a cole-ta.

5) 

Dr. Traíra sugere que a causa da maiorabundância não seja a diferença de produ-ção de frutos, mas uma diferença de trans-parência da água, o que dificulta a ação dospredadores, pois são visualizados de longepelas presas. Outra possibilidade é que os jovens Tambaquis tenham mais alimentosem uma fase em que são predadores. Por-

tanto, o importante seria o alimento na fasede jovens e não de adultos.

O tipo de água e a abundância de tambaquiforam respectivamente a Variáveis preditora ea Variável resposta, as duas Únicas Variáveisem Questão; as outras são Variáveis Externas.

Figura 6-2- Mapa conceitual mostrando duas Variáveis em Questão (mais escuro) e diversas variáveis externas. 

Page 84: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 84/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

83

A proximidade da metrópole poderia ser causa-dora de uma relação inconsequente espúria(como sugere a Dra. Kaufman). Foi a perguntamais “perigosa” das que foram feitas porque éuma potencial Variável de Confundimento.

A experiência dos pescadores realmente podeafetar a eficiência da pesca e a quantidade depeixes capturados. Explicamos que não houveconfundimento porque os pescadores foramsempre os mesmos nos lagos de água branca enos de água preta, portanto, o efeito da diferen-ça de habilidade distribuído igualmente, preve-nindo uma relação inconsequente espúria poreste fator. Se os pescadores diferirem muito nasua habilidade, isto adiciona variância aos da-dos, e pode obscurecer a relação, por isto estavariável é chamada Variável de Ruído. Entre-

tanto, como a diferença foi significativa, o pro-blema do “ruído” foi superado pelo tamanhoamostral. De qualquer forma, o ruído é um pro-blema menos sério que a tendenciosidade.

A pergunta sobre as nascentes é aceitável co-mo curiosidade e pode até ser útil para especu-lações relacionadas à questão. Entretanto, éuma pergunta inofensiva para a questão especí-fica. A questão do estudo não era o que deter-minava o tipo de água entre os lagos. Partia-sedo fato de que elas são diferentes para se ques-tionar as consequências disto. Esta variávelafeta a variável resposta, mas justamente peloseu efeito na preditora, de forma que não criauma relação espúria. Por isto é chamada deVariável Pré-Explicativa

Nós nem pensamos em verificar a lua. Entretan-to, acreditávamos que ela realmente seria irre-levante. Nenhum estudo anterior chegou a su-gerir este efeito, este peixe tem hábitos diurnose as coletas entre lagos foram intercaladas,

sendo improvável que houvesse coincidido ummaior número de coletas em um tipo de águaassociado a um tipo de lua. Seja por questõesbiológicas ou por questões da forma como osdados foram coletados, consideramos que estavariável não seria uma fonte de relações espú-rias. Por isto esta variável foi considerada uma

Variável Neutra. Algumas vezes, simplesmentetomamos como premissa que algumas variáveissão neutras, o que envolve um risco. Na dúvida,é bom tentar neutralizar até os menores riscosde confundimento, entretanto, o bom sensoprecisa ser utilizado para não ficarmos paranói-

cos quando uma variável não puder ser contro-lada, mas puder ser considerada irrelevante. 

A sugestão do Dr. Traíra é válida. Nós sugeri-mos um “caminho” de causalidade e mostramosque nossos dados são coerentes com nossaproposta de explicação do funcionamento dosistema. Entretanto, há outros “caminhos” queseriam coerentes com nossos resultados. Ape-nas estudos mais profundos poderão nos permi-tir ter certeza do caminho real. Entretanto, istonão invalida o trabalho, a relação encontrada foi

pelo menos um avanço para se compreender ofuncionamento do sistema. As observações doDr. Traíra precisam ser anotadas para alternati-vas em estudos posteriores. Por isto, estasvariáveis são chamadas Variáveis de Cami-nho.

Em resumo, o único questionamento realmentecrítico para o seu trabalho foi o da Variável deConfundimento. Note sua característica no es-quema de mapa conceitual: é a única que formauma alça externa entre as variáveis preditora eresposta. É o seu calcanhar de Aquiles. Discuti-remos o que pode ser feito sobre isto depois.Pelo menos, nesta seção nós vimos que nãotemos que ficar paranóicos com quaisquer vari-áveis, apenas as potenciais variáveis de con-fundimento realmente colocam o estudo emrisco de ser considerado inválido.

Nas próximas seções abordaremos conceitosque serão úteis para compreendermos comolidar com as variáveis de confundimento.

Page 85: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 85/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

84

6.4  Controle: tratamento, função eestratégia

Quando nosso objetivo é determinar se umarelação existe e/ou descrever a relação, usamosum princípio básico (preliminar) de controle:“Precisamos variar a variável preditora, man-ter fixas todas as demais variáveis e ver co-mo muda a variável resposta”. Veremos adi-ante que este princípio é utópico, mas é umideal que serve como referência para entendero objetivo do planejamento amostral no estabe-lecimento de relações. Note que este objetivonão é compatível com a amostra representativa(aleatória) da população descrita na seção ante-rior. Não precisamos ter uma amostra represen-tativa de todas as sementes de soja do mundopara testar o efeito de um nutriente sobre o seudesenvolvimento, basta um lote. É verdade queas conclusões podem não valer para todos oslotes, ou todas as variedades, mas isto é umaquestão de validação externa que normalmenteé tratada em um segundo momento. A essênciado princípio é que temos que ter o máximo decontrole sobre as variáveis potenciais de con-fundimento.

Há três sentidos para a palavra controle, o sen-tido tratamento, o sentido de função e o sentido

de estratégia.

6.5.1 Controle no sentido de tratamento nulo. 

Para verificar o efeito de algum fator (uma vari-ável preditora) sobre “alguma coisa” mensur á-vel, temos que realizar uma comparação. Otermo tratamento é utilizado para abordagensexperimentais nas quais manipulamos a variá-vel preditora e significa cada nível da variávelpreditora. O controle no sentido de tratamento

divide-se em três tipos, o controle de tratamentonulo, o controle de tratamento processual nulo eo controle nulo reverso. No controle de trata-mento nulo simples, o controle significa gruposem intervenção, como quando não aplicamosnada em um grupo de ratos (chamado de con-trole) comparado com o grupo que recebeu uma

droga injetável. No controle de tratamentonulo processual, o controle significa um grupocom um procedimento mais próximo ao trata-mento alternativo, como quando aplicamos sorofisiológico em um grupo de ratos (controle)comparado com outro grupo que recebeu a

droga diluída no mesmo soro. No controle detratamento nulo reverso, cada tratamentofunciona como um controle do outro, comoquando injetamos drogas diferentes em doisgrupos de ratos. Algumas pessoas acreditamque sempre precisamos de “tratamentos nulos  simples ou processuais”, entretanto, para esta-belecermos uma relação, só o que precisamosé uma comparação.

6.5.2 Controle no sentido de função.

No sentido de função, há duas categorias decontrole, o controle de ruído e o controle detendenciosidade, que tem objetivos diferentes.

Quando estamos querendo estudar a relaçãoentre uma variável resposta e uma variávelpreditora* (variáveis em questão), temos tam-bém uma infinidade de variáveis externas quepodem influir sobre a variável preditora, sobre avariável resposta ou sobre ambas (Fig. 6.3).

Se a variável externa influir apenas sobre avariável preditora, temos uma Variável Pré Ex-plicativa (seção 6.3), que não influi diretamentesobre a relação R1. No exemplo daquela seção,tínhamos uma questão sobre a relação entre otipo de água (VI) e a abundância de tambaquis(VR), e vimos que o motivo das águas seremdiferentes era o tipo de solo nas nascentes(VE), que era irrelevante para a questão. O solonas nascentes não tinha uma relação direta (i.e. separada) com a abundância dos peixes,apenas tinha uma relação indireta através daprópria variável preditora.

Se a variável externa influir apenas sobre avariável resposta, não teremos uma Variável deConfundimento nem uma relação inconsequen-te espúria. Entretanto, quanto mais a variávelexterna variar, maior será a variação da variávelresposta, a ponto de poder “obscurecer” a rela-

Page 86: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 86/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

85

Figura 6 3. Efeitos de Variáveis Externas sobre uma relação em

estudo (R1). As relações entre estas variáveis e a Variável predito-ra (R2 a R5) são potenciais geradoras de confundimento. As rela-ções entre as Variáveis Externas e a Variável resposta em questãoR6 a R9 são causadoras de ruído. (*O mesmo se aplica com maisariáveis preditoras em estudo, mas é mais complexo, pois as

relações entre as variáveis preditoras em estudo também precisamser consideradas.) 

ção R1. Este efeito é denominado Ruído. Oruído, por definição, não é tendencioso, mas éprejudicial porque aumenta a chance de errotipo II. A manipulação de uma variável externapara reduzir o ruído é denominada ControleAnti Ruído, e consiste em fixar seu valor oupelo menos diminuir a variância desta variável.No exemplo dos tambaquis, diferenças nashabilidades dos pescadores poderiam obscure-cer a relação em estudo, de forma que seriamais indicado que apena um pescador realizas-se o trabalho ou que todos fossem treinados emtécnicas bem padronizadas.

Se a variável externa influir sobre a variávelresposta e sobre a variável preditora ao mesmotempo, temos que eliminar uma das duas rela-

ções. A relação entre a VE e a VR só pode seranulada fixando-se VE, o que também anulasua relação com VI. Entretanto, quando isto nãoé possível, ou em função de uma preocupaçãocom a validação externa do estudo, a opção éanular a relação entre VE e VI. No exemplo dosTambaquis, a habilidade dos pescadores nãotinha relação com a variável preditora porque

todos eles foram para todos os lagos, mas seum fossem para os lagos de água branca eoutro fosse para os lagos de água preta, entãoteríamos uma potencial variável de confundi-mento. Este controle contra relações inconse-quente espúrias, isto é, contra o aumento da

chance de erro tipo I (para além de α), é deno-minado Controle Anti Tendenciosidade. Asestratégias para se obter os dois tipos de con-troles serão discutidas na próxima seção.

6.5.3 Estratégias de controle

Os controles no sentido de estratégias envol-vem fixar, aleatorizar, sistematizar e/ou blocarvalores de variáveis ou incluir mais variáveis naquestão.

Controle por identidade das condições inici-ais. 

Se todas as variáveis com potencial de influirsobre a variável resposta tivessem valores ab-solutamente idênticos, ou tivessem um efeitoinsignificante, muito menor que o efeito da vari-ável preditora, e fizéssemos variar apenas avariável resposta, bastariam duas unidadesamostrais com dois níveis para a variável predi-tora para mostrarmos a existência de uma rela-ção (ou mais níveis para descrevermos a rela-ção).

É a premissa mais forte que se pode imaginarpara um teste, a menos razoável, e a que dá omaior poder possível a um teste. Apesar deparecer absurda, a premissa de “controle abso-luto” pode ser utilizada frequentemente em labo-ratórios de Física e de Química, com experi-mentos com objetos padronizados e em rea-ções com substâncias puras. Na realidade,controle absoluto não existe nem nestas ciên-cias exatas, o que ocorre é que em algumassituações já se conhece suficientemente umfenômeno para se saber que variáveis externasteriam dimensões tão irrelevantes que podemser simplesmente ignoradas. Em situações tãocontroladas, normalmente nem se está testandose uma relação existe, já se sabe que existe, o

Page 87: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 87/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

86

objetivo do estudo costuma ser descrever aforma da relação.

Em biologia, raramente é razoável se assumireste controle absoluto. Na física você podeutilizar um mesmo objeto duas vezes em um

experimento, na biologia você não pode fazeruma semente germinar duas vezes e duas se-mentes nunca são absolutamente idênticas,nem clones são absolutamente idênticos, nomáximo geneticamente idênticos, diferençaspodem surgir até durante o desenvolvimentoembrionário.

Controle por aleatorização simples.

Como vimos acima, se pegássemos duas se-mentes absolutamente idênticas, poderíamos

tirar conclusões sem replicatas (repetições) detratamentos. O problema é que não basta pare-cer igual, não temos condições de garantir queduas sementes são absolutamente iguais. Nãopodemos ter certeza se uma diferença ao finalresultou do próprio tratamento ou se foi resulta-do de diferenças intrínsecas não visíveis, isto é,elas talvez se tornassem diferentes mesmo semreceber os tratamentos diferentes.

Uma solução para este problema é trabalharcom várias sementes em um grupo tratamento evárias sementes em um grupo controle. Se con-seguíssemos dois grupos iguais, as diferençasentre as sementes se anulariam. Não há comose conseguir dois grupos idênticos, mas se assementes fossem escolhidas aleatoriamente,estes grupos seriam cada vez mais semelhan-tes quanto mais sementes fossem utilizadas, eseria possível se decidir estatisticamente dentrode critérios estabelecidos a priori   se uma dife-rença obtida está além do esperado por acaso.

A abordagem com este aleatorização contrastacom uma formação de dois grupos em que opesquisador escolhe as sementes. Inconscien-temente, ele poderia selecionar sementes me-lhores para um dos tratamentos. A estatísticatem muito poder para detectar diferenças sutis,mesmo que a causa seja uma variável de con-fundimento, de forma que a aleatorização é uma

forma de prevenir este tipo de tendenciosidade.Entretanto, quando a aleatorização é complica-da por questões logísticas, pode-se utilizar al-gum método alternativo, se houver uma justifi-cativa forte para se acreditar que ele não é ten-dencioso.

Após formarmos grupos iguais, aplicamos tra-tamentos diferentes em cada grupo. Portanto,esta abordagem só está disponível para estu-dos experimentais. Tecnicamente, o que fize-mos chama-se atribuição aleatória dos níveisda variável preditora. Se a diferença entre osgrupos for maior do que a esperada ao acasocomparado com uma probabilidade limite préestabelecida (α), dizemos que rejeitamos ahipótese nula e que temos uma prova estatísticapara nossa hipótese alternativa.

Esta forma de controle previne contra tenden-ciosidade, isto é, contra erro tipo I, mas nãocontra ruído. Por isto, Geralmente este controleé feito junto com outras formas de controle,como veremos na Abordagem Experimental(seção 6.6)

Controle sistemático simples.

Voltando ao exemplo das sementes de soja,imagine que você tem dois sacos de sementesde lotes diferentes. Os lotes podem ser diferen-tes em idade, tratamento, origem, etc. Se mon-tássemos os grupos aleatoriamente, podería-mos obter dois grupos comparáveis, como vi-mos acima. Entretanto, outra forma de se obteristo, seria se pegássemos alternadamente umasemente de cada saco até obtermos o númeronecessário para o tratamento e depois repetir aoperação para o controle. Os dois grupos foramfeitos equivalentes por intercalação. A interca-lação, ou outra forma de proceder que garanta aigualdade entre os grupos tratamento e controleé outra forma de se obter grupos semelhantes.

O controle aleatório é mais fiel às fórmulas esta-tísticas do que o controle sistemático, mas adiferença pode ser considerada mínima, e aamostragem sistemática apresenta algumasvantagens. Estatísticos divergem sobre qual dos

Page 88: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 88/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

87

dois modelo é mais apropriado. Acompanho oponto de vista de Hurlbert (1984), que defendeuque as vantagens práticas da intercalação deníveis em experimentos manipulativos superamas desvantagens de sutilezas matemáticas deuma abordagem estritamente aleatória, princi-

palmente para tamanhos amostrais pequenos.

Além disto, em estudos não experimentais (se-ção 6.8) não podemos manipular a variávelpreditora, portanto, não podemos atribuí-la alea-toriamente. Entretanto, podemos intercalar ní-veis no tempo e no espaço. Por exemplo, noexemplo da borboleta da seção 6.2 não poderí-amos marcar todas as borboletas da floresta esortear as que seriam coletadas, e, se fossepossível, isto só funcionaria para evitar umarelação inconsequente espúria se participassem

do sorteio as borboletas de todas as épocas.Entretanto, este problema seria contornadointercalando-se medidas de machos e fêmeas,isto é, ignorando borboletas que tivessem omesmo sexo que a borboleta coletada anterior-mente.

Assim como no controle aleatório, esta forma decontrole previne contra tendenciosidade apenase pode ser feita em conjunto com outras formasde controle que reduzem a chance de erro tipoII.

Controle com blocos VP 

Uma forma especial de controle sistemático é oestabelecimento de blocos, dentro dos quais hátodos os níveis da Variável preditora, que, ide-almente são atribuídos de forma aleatória parasubunidades amostrais (neste texto considera-mos cada bloco como a unidade amostral). Osblocos podem ser constituídos no espaço (cadaum em um local), no tempo (cada um em ummomento, no espaço-tempo (cada um em umlocal e tempo determinado) ou numa posição naescala de uma variável externa (cada um emum nível de uma variável categórica ou ordinalou em um “segmento de reta” de uma escalaquantitativa).

Dentro da abordagem experimental, em que osníveis da variável preditora é atribuída aleatori-amente entre as subunidades amostrais nosblocos, o efeito dos blocos é reduzir a chancede erro tipo II, pois a aleatorização já controloua chance de erro tipo I. A utilização de blocos é

recomendada quando há grande variação espa-cial ou temporal nas VEs mais relevantes, ouuma variável importante a ser controlada comos blocos. Do contrário, geralmente a aborda-gem sem blocos tem mais poder porque cada“subunidade” amostral torna-se uma unidadeamostral.

Os blocos permitem a realização de aleatoriza-ções múltiplas, o que pode ser muito importan-te, pois nem sempre as aleatorizações podemser feitas em um único momento. Por exemplo,

podemos não ter espaço suficiente em um únicomomento na casa da vegetação para todas asreplicatas necessárias para um experimento.Os blocos são especialmente úteis em aborda-gens não experimentais, pois podem controlartodas as variáveis externas ao bloco, o que nãoé pouco. Se todos os níveis da variável predito-ra puderem ser encontrados em um bloco dedimensões espaciais/ temporais muito menoresdo que as dimensões da área/ Período de estu-do, os blocos reduzem drasticamente o efeitode variáveis externas e são fortemente reco-mendáveis. Neste caso, eles servem para dimi-nuir tanto a chance de erro tipo I como de errotipo II.

Caso haja Variáveis Externas que sejam poten-ciais Variáveis de confundimento dentro deblocos, é recomendável a utilização de algumcontrole sobre estas variáveis.

Controle por fixação de variáveis externas.

Em estudos experimentais, a fixação de variá-veis externas é uma forma de controle de ruído.Quanto mais variáveis externas puderem serfixas, maior o poder do experimento. Portanto, éuma forma de reduzir erros tipo II.

Em estudos quase experimentais e não experi-mentais, a fixação de variáveis externas tam-

Page 89: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 89/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

88

bém tende a reduzir a chance de erro tipo II,mas é mais importante como uma forma deminimizar a chance de reduzir erro tipo I. Espe-cialmente quando não há um controle por blo-cos, é importante se levantar todas as potenci-ais variáveis de confundimento e tentar fixá-las

ou reduzir sua variância ao máximo, ou incluí-las no estudo (próximo item), pois estes tipos deestudos estão mais sujeitos a relações espúriasdo que os estudos experimentais.

Controle por inclusão de variável.A análisede Variáveis preditoras Múltiplas é um assuntoque está além do escopo deste texto básico,apresentamos apenas uma introdução concei-tual sobre esta forma de controle. 

A inclusão de uma variável pode ser de dois

tipos: inclusão de uma variável controlada (tra-

tamento) ou a inclusão de uma variável comníveis livres.

Em estudos experimentais, a inclusão de maisuma variável controlada normalmente leva adesenhos experimentais fatoriais, nos quais

temos as combinações dos níveis das variáveispreditoras com o mesmo número de unidadesamostrais e uma estatística simples e segurapara analisar a interação entre variáveis predito-ras em seus efeitos sobre a resposta. Por e-xemplo, se queremos ver se um nutriente con-tribui para o crescimento de uma plante, pode-mos fixar a quantidade de outros nutriente, maspode ser que o efeito do nutriente mude emfunção da concentração do outro nutriente. Parainvestigar isto montamos um desenho amostralcom combinações de concentrações dos dois

tipos de nutrientes.

Figura 10- Chave para a escolha de abordagens de pesquisa. VI= Variável Independente; VR= Variável resposta; VE=Variável Externa. 

Page 90: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 90/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

89

Em estudos experimentais ou não experimen-tais, a análise com níveis livres é mais comple-xa, de forma que é recomendada a ajuda deuma pessoa que entenda do assunto. De qual-quer forma, a inclusão normalmente tem um

papel principal de controle anti ruído no estudoexperimental e de controle anti tendenciosidadeno estudo não experimental. Um exemplo deinclusão de variável em um estudo não experi-mental foi apresentado na seção 6.2, na análisedo dimorfismo sexual de borboletas.

6.5  Escolha a sua abordagem

Como vimos no capítulo 1, normalmente a prio-ridade da pesquisa é evitar o erro tipo I, cuja

chance é ampliada pela influência de variáveisde confundimento. Portanto, a prioridade é evi-tar que estas variáveis possam influir na relaçãoem estudo. O ideal para isto é a abordagemexperimental, mas nem sempre pode ser apli-cada, pois as variáveis preditoras não podemser sempre manipuladas (não experimentos), oupodem ser manipuladas, mas a atribuição nãopode ser aleatória da forma necessária para umexperimento controlado estatisticamente (quaseexperimento). Quando temos um não experi-mento, ainda temos a chance de “atribuir” valo-

res para a variável preditora escolhendo estesvalores (níveis fixos multivalor). Quando nãoescolhemos os valores da variável preditora,podemos inferir independência pela distância,ou pelo menos controlar parte das variáveispreditoras. A figura acima sintetiza estas opçõesque serão explicadas nas próximas seções.

6.6  O experimento como modelo napesquisa de relações.

O primeiro registro de planejamento experimen-tal é de 1747, quando o médico James Lindverificou que a doença escorbuto, que era co-mum em marinheiros, poderia ser combatidacom uma dieta especial. Para isto, ele selecio-nou 12 homens doentes de uma tripulação edividiu-os em 6 grupos. Cada grupo recebeutodo dia respectivamente: a) um quarto de copo

de cidra por dia; b) um tipo de elixir usado pormarinheiros c) um pouco de água do mar; d)uma mistura de alho e mostarda; e) duas colhe-res de vinagre; f) duas laranjas e um limão. Oshomens que tomaram frutas cítricas melhora-ram radicalmente em 6 dias. Havia muitas idei-

as sobre formas de curar esta terrível doença,mas apenas com esta abordagem controlada foipossível separar especulações de evidênciaobjetiva. (*embora provavelmente não tenhahavido um processo de sorteio, isto não com-prometeu o resultado. É mais um exemplo histó-rico do que um exemplo ideal, pois a separaçãode tratamentos já representou um grande avan-ço metodológico).

Vimos na seção anterior que um experimentoenvolve a manipulação (aleatória ou sistemáti-

ca) nos valores de uma variável preditora (tra-tamento) para se verificar o seu efeito em umavariável resposta. Vamos reforçar a ideia de umexperimento com mais um exemplo. Para sa-bermos se café aumenta a produtividade, temosque dar café para algumas pessoas e não darnada (ou só água quente com açúcar) paraoutras (manipulação da variável preditora “inge-riu café?- (S/N)”) e ver a produtividade. A esco-lha de quem vai tomar café, a princípio, precisa-ria ser por sorteio; você não pode deixar aspessoas escolherem se vão tomar café ou não.São necessárias várias pessoas, porque hávários fatores que influem sobre a produtivida-de, mas a aleatorização distribui as diferençasigualmente entre os dois grupos e tornam acomparação confiável dentro de critérios esta-tísticos bem definidos.

Um sorteio pode controlar fatores “do passado”como origem, lote e condições da planta antesda aleatorização. Entretanto, se as plantas dotratamento crescerem mais próximas da fontede luz que as plantas do controle, o experimen-to fica comprometido por uma variável de con-fundimento pós Aleatorização. Por isto, é reco-mendado que a posição de plantas em umacasa de vegetação também seja determinadaaleatoriamente ou sistematicamente. Atitudessimilares precisam ser adotadas em outras situ-

Page 91: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 91/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

90

ações com potenciais variáveis de confundi-mento pós aleatorização.A atribuição aleatória ou sistemática dos níveisda variável preditora feita da forma apropriada eassociada a uma análise estatística é uma for-ma muito efetiva de se controlar todas as Variá-

veis de Confundimento de uma única vez contraqualquer tendenciosidade, portanto, protegecontra erro tipo I (que não ultrapassa o valor deα). A princípio, a única variável manipulada é avariável preditora. Entretanto, esta abordagemnão reduz ruído. Por isto, quase sempre se fixaoutras variáveis de forma a se reduzir a variân-cia do sistema. É o que se faz em laboratórioscom clima e ração controlados para ratos quepossuem pouca variabilidade genética ou aoexcluir todas as sementes de soja que boiam naágua (potencialmente estragadas) antes da

aleatorização, manter as plântulas crescendoem casas de vegetação com clima controladoetc. A padronização é um procedimento desejá-vel para aumento do poder, portanto, diminui achance de erro tipo II. É importante destacarque a padronização não é obrigatória para avalidação interna. Um resultado significativosem padronização, mas com controle de atribui-ção aleatória dos níveis da variável preditoranão pode ser questionado em sua validadeinterna.

O experimento com controle estatístico é consi-derado a abordagem ideal para se estabeleceruma relação entre duas variáveis devido a sua“imunidade” à tendenciosidade (mas não aoacaso estatístico). A estatística tradicional foi“construída” tendo em consideração o exper i-mento como modelo. Então por que nem toda apesquisa é experimental? Simplesmente porqueem muitos casos não é possível tecnicamente,eticamente ou economicamente se manipular avariável preditora ou realizar aleatorizações daforma ideal. Entretanto, é importante compreen-der que as outras abordagens que vamos apre-sentar são “aproximações” da abordagem expe-rimental. Quanto mais uma abordagem se as-semelhar da abordagem experimental maisconfiável ela tende a ser.

6.7  Abordagens quase experimentais.

Apenas quando há uma completa aleatorizaçãoda atribuição dos tratamentos temos uma abor-dagem dita “Experimental”, também denomina-da “Experimento Aleatorizado de Medida Pós

Teste”. Na notação de planejamentos experi-mentais (Trochim 2000), os mais simples sãosimbolizados da seguinte forma:

A X1  OA Xc  O

Onde cada “A” representa um grupo seleciona-do aleatóriamente. “X1”  representa um trata-mento e “Xc” outro tratamento ou o controle. “O”representa uma observação. Se houvesse maistratamentos seriam X2, X3, etc. Portanto, emcada linha temos um grupo escolhido aleatoria-mente, tratado de forma diferente e observadoposteriormente.

Há uma segunda categoria de experimentosdenominados “quase experimentos”, ou “expe-rimento de pré-teste e pós-teste de grupos nãoaleatórios”. Há várias abordagens escolhidasem função do tipo de limitação e de opçõespara mitigar os efeitos da falta de aleatorização.

A simples simples é representada assim:

N O X1  ON O Xc  O

Onde N é um grupo que não foi obtido de formaaleatória. As letras “O” antes e depois dos “X”indicam observações antes e depois para verifi-car mudanças. Exemplo de grupos não aleató-rios: a) alunos de duas classes, uma com umnovo método didático e a outra no método tradi-

cional; b) Coletas diárias padronizadas de pei-xes em dois lagos, um protegido contra pesca eoutro não, antes e depois da proteção; c) Cole-tas de invertebrados a montante e a jusante deuma fábrica potencialmente poluidora antes edepois de sua instalação. O ideal é que os gru-pos das duas linhas sejam tão semelhantes

Page 92: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 92/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

91

quanto possível, mas não é absolutamente ne-cessário. Frequentemente é desejável o menortempo possível entre o pré-teste e o pós-teste.Há uma série de premissas para esta aborda-gem ser considerada válida, e os esquemas sãoescolhidos em função das características de

cada problema específico.

O planejamento pode ser mais elaborado, porexemplo:

N O X1 O Xc ON O Xc O X1 O

Neste caso há trocas de tratamentos entre osgrupos, o que é considerado um planejamentobastante forte, desde que não haja influência da

ordem dos tratamentos.

Outra opção elaborada: N1 ON1 X1 ON2 ON2 Xc O

Neste caso a metade do primeiro grupo é ob-servada no pré- teste e a outra metade passapelo tratamento e é observada no pós-teste. Osegundo grupo tem metade medida no pré-testee a outra metade tem uma medida no pós-testecomo controle (Xc). Se sua observação inicialpode influir sobre a observação final (e. g. reali-zar uma prova prepara as pessoas para a se-gunda prova), você pode separar a classe 1 emduas partes, uma que faz a prova antes do mé-todo testado e outra que faz a prova depois. Asala 2 é um controle feito da mesma forma.Comparando as diferenças entre a linha 1 e alinha 2 com as diferenças entre a linha 3 e alinha 4 teremos uma avaliação sem o efeito doaprendizado da prova.

Há outros esquemas de “quase-experimentos”(ver Trochim, 2000). O importante aqui é verque há alternativas de estudos manipulativosem que não é possível se realizar a aleatoriza-ção da atribuição de tratamentos.

6.8  Abordagens não experimentais

Um estudo não experimental de relações é a-quele em que não se manipula a variável predi-tora, geralmente porque isto não é possíveldevido a restrições técnicas, éticas ou econômi-cas.

Na seção 6.3, vimos que em situações nãoexperimentais nossas conclusões sobre a rela-ção entre a Variável preditora e a Variável res-posta estão vulneráveis ao efeito de Variáveisde Confundimento. A forma de agir para diminu-ir muito a chance de uma relação espúria de-pende do tipo de amostragem que estamosutilizando. As abordagens não experimentais

dividem-se em três tipos: a) Amostragem FixaMultivalores da Variável preditora simples;b) Amostragem Fixa Multivalores da Variávelpreditora com Blocos; c) Amostragem de NíveisLivres.

Nas amostragens fixas multivalores simples ouem blocos, os valores da variável preditora sãoprocurados na natureza e se observa qual é ovalor da variável resposta naquele lugar (há umcaso em que é contrário, como veremos poste-riormente). No exemplo da seção 6.3, procura-

mos lagos de água branca para verificar sehavia mais peixes de uma determinada espéciedo que lagos de água preta. Note que não é umexperimento, pois não manipulamos a variávelpreditora, nem é uma coleta livre, pois escolhe-mos os lagos com base no valor da variávelpreditora.

A primeira potencial variável de confundimentoa ser considerada nas abordagens fixas é o“conhecimento do valor da variável respostaantes da escolha”. Se a pessoa que escolhe as

unidades amostrais conhecer os valores davariável resposta, sua escolha pode ser tenden-ciosa. Pensando no exemplo da seção 6.3, seescolhemos um lago porque ele tem água bran-ca e porque ouvimos que lá tem muito peixe, erejeitamos outro lago de água branca porqueouvimos que tem pouco peixe, então estaremos

Page 93: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 93/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

92

sendo tendenciosos na escolha. É necessáriomuito cuidado, pois até inconscientemente po-demos ser tendenciosos nas escolhas. Quandoé inevitável a observação dos valores da variá-vel resposta, o que possibilita uma coleta ten-denciosa, é recomendável que a escolha das

unidades amostrais seja feita por uma pessoaque desconheça a relação esperada, o que échamado de “escolha cega”. Este problema nãoexiste quando o valor da variável resposta fordesconhecido no momento da escolha.

Amostragem com VI fixa multivalores porescolha sem blocos 

A unidade amostral é simples, selecionada emfunção de valores pré-definidos da variável pre-ditora. Trata-se de uma das abordagens mais

comuns em estudos de campo. O controle esta-tístico é inexistente ou parcial por intercalação.Sem intercalação, (exemplo da fig. 6.2) estaamostragem tem os mesmos problemas (e so-luções) das amostragens de níveis livres ou aoacaso (ver abaixo), menos um, podemos definirbalanço no número de dados por nível da variá-vel preditora. Neste caso, é necessária alguma justificativa para inferir que as unidades amos-trais podem ser consideradas independentes(seção 6.9). Com intercalação, a amostragemcom VI fixa multivalores é uma forma sistemáti-ca de coleta recomendável contra tendenciosi-dade (Hulbert 1984), a menos que haja algumfator que varia de forma periódica que coincidacom a periodicidade da variável preditora, comopode ocorrer com avaliações temporais de fe-nômenos sujeitos à sazonalidade. Em relação àabordagem em blocos, a amostragem fixa mul-tivalores simples pode apresentar vantagens emtermos de poder do teste. Exemplo com interca-lação: podemos ver a relação entre a ocorrênciade chuvas à noite e a atividade de cupins de diaalternando contagens após uma noite de chuva,interrompendo as contagens nas noites seguin-tes com chuva, outra contagem após uma noitesem chuva e assim por diante. Também poderí-amos avaliar o efeito das quatro fases da luasobre a abundancia de mariposas. Teríamosuma medida para cada fase da lua por mês. Omesmo poderia ser feito sem intercalação (vari-

as medidas antes e depois de uma chuva ouvárias medidas por fase da lua em um únicomês) mas a chance de pseudo-replicação tem-poral ou espacial seria alta.

Amostragem com VI fixa multivalores por

escolha com blocos 

As unidades amostrais são blocos divididos emsubunidades (medidas repetidas) selecionadasa) em função dos valores (níveis) pré-definidosda Variável preditora (implícita) ou b) em funçãode valores da variável resposta.

Os blocos com níveis da VI pré definidos sãonormalmente áreas (espacial) ou momentos(temporais) nos quais encontramos cada nívelda variável preditora implícita. Exemplos,

1) Bloco= montanha, VI implícita= altura (0, 300,600), VR= produtividade de pinheiros, permi-tem que se verifique o efeito do “tratamento”(variável preditora implícita) isolando o efeito daheterogeneidade entre blocos; 2) Bloco=árvore,VI implícita= altura da flor (alta, média, baixa),VR= produção de néctar; 3) bloco=dia, VI=horasdo dia (8, 10, 12, 14, 16, 18), VR= número debois forrageando.

Vamos entender por um exemplo: Você quersaber se há uma relação entre a quantidade debaratas silvestres e a quantidade de serrapilhei-ra no chão em uma floresta. Suponha que nãoexiste uma relação consequente entre estasduas variáveis. Entretanto, sua área de estudo éampla, e há áreas muito úmidas onde há menosserrapilheira (devido à decomposição mais rápi-da) e em lugares mais úmidos as baratas sejammais abundantes, mas não em função da serra-pilheira. A umidade seria uma variável de con-fundimento a causar uma relação espúria. Nu-ma abordagem em blocos, poderíamos separarblocos com duas subunidades amostrais, umacom 1 a 5 litros de serrapilheira por m2  (poucaserrapilheira) e outra com 10 a 20 litros por m 2 (muita serrapilheira) dentro de uma mesma áreade 10 x 10 m. Neste desenho, o efeito das dife-renças de umidades seria praticamente elimina-do (pelo menos extremamente reduzido), poisteríamos locais com pouca e muita serrapilheira

Page 94: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 94/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

93

em locais secos e em locais úmidos. A aborda-gem em blocos não reduziria apenas o efeito daumidade, mas de todas as variações espaciaise temporais entre blocos. Quanto menores fo-rem os blocos (em termos espaciais ou tempo-rais) em relação ao tamanho da área/ tempo do

estudo, mais efetivo o controle dos blocos sobrevariáveis de confundimento em geral.

A abordagem com blocos com níveis de VRpré-definidos são menos comuns. Nenhumavariável é manipulada, mas os valores das su-bunidades amostrais são escolhidos. A opçãopor fixar a VR é recomendada em estudos nosquais a variável preditora não pode ser manipu-lada (não experimental) e que tem valores davariável resposta que raramente são diferentesde zero. Por exemplo, se queremos estudar

fatores de risco para Doença de Chagas asso-ciados a fazendas com extração de açaí, que éalgo pouco frequente, mas grave, podemoscomparar blocos constituídos por fazendas on-de houve registro de Doença de Chagas e umafazenda vizinha onde não houve. Comparandoestes pares quanto ao uso de tela na casa,cuidados em lavar os frutos de açaí, etc, pode-mos ter um levantamento bastante objetivo dosfatores de risco. Sem uma abordagem pareada,teríamos diversos costumes regionais de umaárea endêmica que poderiam ser confundidascom comportamentos de risco.O problema de fixar a variável resposta é queprovavelmente não teremos balanço para osvalores da maioria das variáveis em risco sele-cionadas. Provavelmente seja mais apropriadoconsiderar esta abordagem como uma boa fer-ramenta de levantar fatores de risco do quecomo um teste que comprova relações conse-quentes.

Amostragem de Níveis Livres

Nas amostragens de níveis livres, ou amostra-gens ao acaso, tanto VI como VR possuemníveis livres. Lembre que “ao acaso”’  não temum sentido de aleatória (por sorteio) e nem temo sentido de uma amostra representativa dapopulação. O termo “níveis livres”  refere-seunicamente à liberdade dos valores nos níveis

das variáveis em estudo, não a todas as variá-veis externas, pois algumas podem estar con-troladas.

Do ponto de vista estritamente lógico, a aborda-gem ao acaso no estudo de relações seria per-

da de tempo, pois sempre poderia haver variá-veis de confundimento em que sequer pensa-mos. Entretanto, testar hipótese não é só um jogo matemático, nosso conhecimento de biolo-gia também conta. Normalmente conhecemos osistema que estudamos o suficiente para imagi-nar quais são as principais candidatas a variá-veis de confundimento. Em um estudo sobre oefeito de um nutriente sobre o crescimento deplantas precisamos suspeitar do efeito da sazo-nalidade climática, não nos preocupamos muitocom um efeito da lua e consideramos irrelevan-

tes eventuais alterações no campo magnéticoda terra. Se pudermos controlar as variáveisexternas relevantes das formas descritas naseção 6.4, podemos assumir que um resultadosignificativo realmente corrobora a nossa hipó-tese alternativa.

Há diferentes tipos de amostragens ao acaso.Imagine um estudo sobre tamanho de broméliase a proporção de espécies predadoras na faunaassociada à água acumulada entre as suasfolhas. Você pode escolher: a) as primeiras 20bromélias que encontrar, todas próximas entresi; b) numerar 1000 bromélias e sortear 20;c) montar um “grid” na área de estudo e pegaras bromélias localizadas mais próximas às 20esquinas deste grid. Cuidado, embora o gridseja uma otimização da distribuição de amos-tras em uma área, não é um controle sistemáti-co de nenhuma variável no sentido da seção6.4.

Depois de ter controlado as variáveis de riscomais importantes, a princípio é desejável seposicionar as unidades amostrais o mais distan-te possível umas das outras, mas considerandorestrições inerentes ao estudo como o custoassociado à distância entre as coletas. Outrocritério de distância mínima é biológico, a dis-tância entre unidades amostrais em um estudode ácaros não precisa ser tanta como o que é

Page 95: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 95/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

94

necessário para um estudo de aves. A aleatori-zação é menos recomendável do que uma a-mostragem sistemática como um “grid”. Outrocritério é o da autocorrelação espacial ou tem-poral, em que se avalia se a variância entrevalores vizinhos é menor do que a variância

geral, indicando que a distância entre unidadesamostrais precisa ser aumentada. Avaliaçõesgráficas de ausência de autocorrelação podemser importantes complementos aos testes.

6.9  Independência pela distância

Vimos que independência entre unidades amos-trais significa que as medidas das variáveisrespostas foram obtidas em um contexto decoleta de dados em que o efeito de todas asvariáveis externas foi: a) anulado pela atribuição

aleatória dos níveis da variável preditora (abor-dagem experimental); ou b) suficientemente(será?) reduzido por um desenho quase expe-rimental, ou em blocos ou com intercalação deníveis da VI; ou c) reduzido pelo controle decada uma ou mais das variáveis externas con-sideradas relevantes por estratégias de fixaçãounivalor, fixação balanceada multivalores ouinclusão da variável na análise.

Entretanto, estas abordagens não resolvemtodos os problemas. Há situações em que nãopodemos controlar devidamente variáveis ex-ternas que variam no tempo e no espaço.

Normalmente, quanto mais próximas estiveremduas Unidades Amostrais (no tempo e no espa-ço), maior a chance delas estarem sob osmesmos valores de diversas variáveis externasde potencial confundimento. A composição dafauna de solo a 1 m da lagoa tende a ter maissemelhança com a fauna encontrada a 2m doque com a fauna encontrada a 100m da lagoa.

Não é só porque a lagoa influi sobre as condi-ções da sua vizinhança, há muitas razões Paraa semelhança, por exemplo, formigas do mes-mo formigueiro serão capturadas em duas uni-dades amostrais tão próximas.

No estudo 5 da seção 6.2 apresentamos umasituação extrema de várias medidas feitas em

apenas dois lagos para comparar o efeito dotipo de água sobre a abundância de peixes, echamamos a isto de pseudo-replicação. Apseudo-replicação é um problema porque asmedidas obtidas em um mesmo lago tendem aser semelhantes por compartilharem valores de

várias variáveis externas, de forma que não sãorepresentativas da variação que temos dentrode cada nível da variável preditora. Por exem-plo, por acaso, este lago de água preta secouhá 3 anos, e a população de peixes ainda nãovoltou ao normal, de forma que teremos váriasmedidas de abundância baixa para representaros lagos de água preta. Este é um exemploextremo de problema de proximidade de unida-des amostrais. Se tivéssemos 5 lagos de cadatipo, mas considerássemos cada dia de coletacomo uma amostra preditora, teríamos também

uma pseudo-replicação (chamada de pseudo-replicação “sacrificial”). E se tirássemos medi-das diárias de abundância de mosquitos contramedidas diárias de precipitação, teríamos pseu-do-replicação temporal, pois tanto a abundânciade mosquitos como a chuva tendem a ser se-melhantes de um dia para outro.

O que fazer para lidar com esta questão dadistância? Se temos um experimento de campo,isto é, a variável preditora for manipulável, en-

Figura 11- Desenhos amostrais mostrando a disposiçãodos níveis da variável independente (e. g. preto=tratamento e branco=controle). Considerando a

 possibilidade de um efeito espacial em gradiente, algumasopções são recomendáveis e outras deveriam ser evitadas(Hurlbert, 1984). 

Page 96: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 96/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

95

tão temos as possibilidades da figura abaixo,sendo a abordagem por blocos aleatórios amais recomendada, e a completamente aleató-rioa e a sistemática como boas. As outras abor-dagens são consideradas de forte risco de con-fundimento.

Se a variável preditora não for manipulável (es-tudo não experimental), podemos utilizar a es-tratégia de escolher os valores naturais dosníveis por intercalação ou com os níveis daVariável preditora ou da Variável resposta orga-nizados em blocos.

Se houver limitações em um estudo não expe-rimental que impressa a organização em blocos,a opção é se manipular as distâncias. Mas aque distância podemos considerar que nossas

unidades amostrais são independentes? Asrespostas para esta pergunta diferem muito emfunção dos contextos possíveis para um estudo.

a) Se você não tem limitações de custos dedeslocamento, mas tem limitação de tamanhoda área de estudo e de custo por medida emcada unidade amostral, simplesmente distribuasuas unidades da forma mais regular possível(normalmente um grid) para obter a maior dis-tância mínima possível entre amostras.b) Você pode coletar os dados ao longo de umtransecto e depois fazer teses de autocorrela-ção espacial (run test) para verificar a que dis-tância entre unidades amostrais não há autocor-relação.

c) Você pode coletar os dados ao longo de umtransecto e depois fazer uma análise gráficapara verificar a que distância entre unidadesamostrais não há autocorrelação. (Normalmentea associação entre (b) e (c) é mais poderosa.

d) Você pode partir de premissas biológicaspara assumir que determinada distância “segu-ramente” é suficiente para considerar as unida-des amostrais como independentes.

Na prática, a opção d é assumida na maioriados estudos não experimentais. Frequentemen-te, os pesquisadores têm conhecimento sufici-

ente para determinar distâncias suficientes paradefinir unidades amostrais independentes. En-tretanto, também é comum os pesquisadoressubestimarem o poder da estatística em detec-tar efeitos sutis de variáveis externas de con-fundimento.

Neste capítulo apresentamos uma série de téc-nicas para reduzir a chance de variáveis exter-nas obscurecerem os efeitos da variável predi-tora, ou pior, gerar relações espúrias. A diretrizmais genérica é que devemos planejar cuidado-samente e com bom senso. Como foi dito antes,a validação interna é uma fase crítica de umtrabalho. Vale a pena pensar bem antes decomeçar para não ter que recomeçar..

Exercícios:

6.1- A “independência entre unidades amos-trais”  é uma expressão infeliz para descreveruma premissa de testes estatísticos. Expliquepor que a expressão não é apropriada e qual aindependência que é premissa para qualquerteste estatístico.

6.2- Dê um exemplo de problema com umavariável de confundimento diferente dos apre-sentados na seção 6.2.

6.3- Quais são os tipos de variáveis em funçãodas suas participações em uma questão?

6.4- Qual é a diferença entre uma amostra-gem ao acaso e uma amostragem aleatória epor que apenas a segunda é garantia de re-presentatividade.

6.5- Qual é a diferença entre uma amostragemaleatória para caracterização de uma populaçãoe uma amostragem utiliza em estudos experi-mentais?

6.6- Explique as categorias de controle no sen-tido de tratamento

6.7- Explique as categorias de controle no sen-tido de função

Page 97: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 97/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

96

6.8- Explique as categorias de controle no sen-tido de Estratégia

6.9- Qual é a diferença entre uma abordagemexperimental e uma abordagem quase experi-

mental.

6.10- Explique as diferentes categorias de estu-dos não experimentais com níveis fixos multiva-lores

6.11- Explique as diferentes categorias de estu-dos não experimentais com níveis livres

6.12- Faça um mapa conceitual de um problemarelacionado com uma pesquisa que você reali-zou, está realizando ou pensa em realizar.

6.13- Analise no seu mapa da questão os tiposde variáveis conforme a seção 6.3.

6.14- Descreva três formas diferentes de coletaros dados eliminando o risco de confundimentopara o estudo 1 da seção 6.2

6.15- Considerando os custos e tempo de mobi-lidade, como proceder no estudo 2 da seção 6.2para obter uma avaliação válida da forma comovaria a abundância de peixes entre Perú e Be-lém?

6.16- Como poderíamos coletar os dados noproblema 3 da seção 6.2 e efeito da ordem dosexames sobre a relação entre temperatura eaproveitamento da prova?

6.17- Considere para o estudo 5 que você agoravai trabalhar com 5 lagos de água branca e 5lagos de água preta com 5 redes de pesca emcada lago e duas ocasiões de coleta. Monteuma tabela EPR para avaliar a se o tipo de á-gua influi sobre a abundância de peixes.

Page 98: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 98/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

97

7. Maximizando o poder doteste

Segurança, custo e poder. Estas são as trêspreocupações para se aperfeiçoar um carro de

corrida. As pessoas que apenas assistem àscorridas pensam que a ênfase está em conse-guir um carro mais potente (veloz). Entretanto,não dá para usar uma turbina se o carro nemfosse conseguir fazer curvas; o piloto precisachegar vivo para ganhar o campeonato. A segu-rança é a prioridade. O outro fator óbvio é ocusto. Por isto, o desafio é ter criatividade parasuperar limitações tecnológicas e aumentar opoder sem comprometer a segurança e dentrodos recursos que temos.

Algo semelhante ocorre com nossos testesestatísticos, queremos o máximo de segurança(menor chance de erro tipo I) e o máximo depoder (menor chance de erro tipo II) dentro dasnossas limitações de custos (em dinheiro, tem-po, paciência) e dentro de limitações relaciona-das com aspectos intrínsecos do estudo (limitesfísicos ou técnicos, questões éticas, etc). Achance de erro tipo I é definida a priori  ao esco-lhermos um α  (nível de significância) e sua se-gurança está garantida se as premissas daindependência das amostras (capítulos 3 e 6) e

dos testes forem válidas. Após os cuidados como erro tipo I, nossas preocupações devem recairna redução do erro tipo II. Evitar o erro tipo I étão importante como garantir a segurança dopiloto. Evitar o erro tipo II é tão importante comotornar o carro competitivo. Esta analogia mostraque o erro tipo II também é uma preocupaçãorelevante, mesmo que não seja definido a priori ,o erro tipo II deve ser minimizado.

O poder de um teste é sua capacidade de rejei-tar uma hipótese nula, isto é, quanto mais pode-

roso for um teste menor a chance de levar a umerro tipo II. Contribuem para um maior poder:a) Perguntas mais objetivas; b) Um maior tama-nho amostral; c) Medidas mais precisas;d) coletas feitas de forma a limitar o ruído (vari-ação não tendenciosa de variáveis que não sãoo objeto do estudo); e) Maior poder no tipo do

teste; f) Escolhas na definição dos níveis dasvariáveis em estudo. Evite perguntas desneces-sariamente complexas é a primeira diretriz parase chegar a um resultado significativo. Algumaslimitações de poder estão relacionadas a cus-tos, como o tamanho amostral, a precisão da

medida e algumas das ações para reduzir ruí-dos. Entretanto, pode se ganhar poder (a baixocusto) com escolha de testes apropriados, esco-lhas certas nas definições de níveis das variá-veis (este capítulo) e com um bom planejamen-to amostral..

7.1  Testes unicaudais e testesbicaudais

Quando uma questão tem duas possibilidadesopostas de resultado, e valores extremos emqualquer das duas direções forem resultadosrelevantes, então necessitamos um teste bicau-dal. Por exemplo, homens e mulheres usam adroga crack com a mesma frequência? Umafrequência significativamente maior de homensé um resultado tão relevante como uma fre-quência significativamente maior de mulheres.No teste bicaudal, a hipótese nula é sempre anegação de uma diferença (e. g.  Ho= não hádiferença entre sexos no consumo de crack).

Por outro lado, quando uma questão tem duaspossibilidades opostas de resultado e apenasem uma direção os valores extremos têm rele-vância, então necessitamos um teste unicaudal.Por exemplo, esta substância X reduz a febrede pacientes? (i.e. tem potencial para ser utili-zado como remédio anti-térmico?). A princípio,haveria duas possibilidades de resultados signi-ficativos, uma redução maior no grupo tratadocom a substância e uma redução maior no gru-po controle. Entretanto, uma redução maior nogrupo controle não é um resultado relevante

para quem busca um anti-térmico, seja ele de-vido a um mecanismo real de aumento da febreou devido ao acaso estatístico de obter valoresmaiores de redução de temperatura no grupocontrole. Apenas a redução significativa da fe-bre no grupo tratado é um resultado relevanteneste caso. No teste unicaudal, a hipótese nula

Page 99: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 99/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

98

é sempre a negação de uma desigualdade(maior ou menor- e. g. Ho= A redução de tem-peratura no grupo tratado não é maior do que aredução de temperatura do grupo controle).

A opção por testes unicaudais ou bicaudais

ocorre em contextos que pedem determinadostestes. Por isto, os testes binomiais de uma eduas proporções, o “Fisher exact test”, o TesteT simples, de “duas amostras” e pareado e tes-tes Z têm as opções de uma ou duas caudasenquanto tabelas de contingência, ANOVA etestes de Correlação não têm esta opção. Porser uma opção, podemos dizer “teste unicaudal”ou “teste na opção unicaudal”. Quando a ques-tão pede a opção “unicaudal” e utilizamos aopção “bicaudal”, perdemos poder no teste des-necessariamente. Por outro lado, ao utilizarmos

a opção unicaudal, não teria sentido discutir umresultado na direção oposta da hipótese alterna-tiva.

7.2  Testes pareados e testes emblocos

Qual é o refrigerante preferido pelos estudantes,“Gluglu” ou “Gostoso”? Vamos ver. Aborda-gem 1: Pegue 40 pessoas e ofereça para cadauma um copo de refrigerante de uma das mar-

cas e peça para dar uma nota de zero a dez.Abordagem 2: peque 20 pessoas e dê a cadauma delas um copo com Gluglu e um copo comGostoso (sem identificação) para elas daremnotas para cada um (a ordem é sorteada e apessoa está vendada). O primeiro procedimentoilustra um teste não pareado e o segundo ilustraum teste pareado.

Para a tabela EPR temos pessoa como entida-de nos dois procedimentos, mas as proprieda-des do primeiro são a variável preditora Refrige-

rante (Gluglu ou Gostoso) e a variável respostaNota (0 a a 10), enquanto na segunda aborda-gem as propriedades são uma variável para aprimeira coluna Nota do Gluglu (0 a 10) e umavariável para a segunda medida (nota do Gos-toso (0 a 10). Na segunda abordagem não te-

mos VR e VI, temos Variáveis de Medidas Re-petidas (VRM1 e VRM2).

O teste pareado parece um teste de duas variá-veis, mas é um teste com uma única variável, adiferença (quantitativa, ordinal ou binária) entre

os valores das variáveis de níveis. Em nossoexemplo, a diferença de nota entre Gluglu eGostoso, que será positiva se Gluglu tiver me-lhor nota e será negativa se Gluglu tiver menornota. A hipótese nula é que as notas não serãosignificativamente diferentes, isto é, que a dife-rença não será significativamente diferente dezero.

Se a distribuição das diferenças for semelhantea uma curva normal (ver seção 3.3- Análise denormalidade em testes), o teste utilizado é o

teste T pareado (ou o teste T simples sobre asdiferenças). Se a distribuição das diferençasnão for semelhante a uma curva normal, a al-ternativa é a utilização do teste Wilkoxon Pare-ado. Se não houver diferenças quantificadas,mas apenas uma diferença categórica (Gluglupreferido ou Gostoso preferido ou empate),elimina-se os dados do empate e aplica-se um“Sign test”, que é equivalente a um teste deproporção com hipótese nula que nenhum delesdifere estatisticamente de 50% das preferên-cias.

Qual abordagem é mais poderosa, a pareadaou a não pareada? Em primeiro lugar, nem to-dos os problemas podem ser abordados comtestes pareados. Você não pode pegar um ani-mal do sexo masculino, medir seu tamanho,trocar o sexo dele e medir seu novo tamanho.Para avaliar a existência de dimorfismo sexualem tamanho somos obrigados a utilizar umaabordagem não pareada. Em situações como oexemplo do refrigerante acima, as duas aborda-gens são válidas, entretanto, o teste pareadonormalmente é mais poderoso porque as pes-soas diferem muito em critérios, algumas pes-soas são muito críticas, e darão notas baixaspara as duas, outras muito generosas e darãonotas altas para as duas. A abordagem pareadaganha força neste caso porque diminui a chan-ce de se perder a sutileza em meio à variação

Page 100: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 100/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

99

entre pessoas. Se o crítico pegar um refrigeran-te e o generoso pegar o outro, esta diferençanão será tendenciosa, mas adicionará variânciaà análise, reduzindo o poder do teste.

Entretanto, suponha que o custo do estudo seja

nos copos de refrigerante e que as pessoas nãodiferem muito em critérios. Neste caso, a abor-dagem pareada terá um custo duas vezes mai-or, ou, se fixarmos por custo, teremos que redu-zir o número de pessoas, o que reduz o poderdo teste.

É necessário cuidado para não confundir a Uni-dade Amostral em estudos pareados e em es-tudos não pareados. Suponha que você queirasaber se baratas são mais abundantes na ser-rapilheira da mata de noite ou de dia. Em uma

abordagem não pareada, cada unidade amos-tral seria um quadrado de 1m2, as propriedadesseriam período da coleta (dia ou noite) e núme-

ro de baratas. Na abordagem pareada, a unida-de amostral seria um par de quadrados de 1m2,um medido de dia e outro medido de noite. Éuma abordagem duas vezes mais “cara” emtermos de m2 por unidade amostral. Se as dife-renças entre o número de dia e o número de

noite for sutil quando comparada à diferençasespaciais entre número de baratas, a aborda-gem pareada será mais poderosa. Se as dife-renças espaciais forem pequenas, então a a-bordagem não pareada pode chegar a ser duasvezes mais poderosa que a pareada. A amos-tragem pareada também é mais vantajosa emestudos observacionais em que há dúvidassobre a independência das unidades amostrais.Retornaremos a isto no capítulo 6.

Voltemos ao exemplo do refrigerante, o que

aconteceria se déssemos mais de dois tipospara as pessoas experimentarem? O teste pa-reado é um preparo conceitual para a aborda-

Figura 7.1- Esquema de desenho em bloco com 4 "subunidades" amostrais por bloco.  

Page 101: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 101/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

100

gem em blocos quetem mais de dois ní-veis. Como dissemosacima, nos testespareados temos doisníveis da variável

preditora implícita.Quando temos maisníveis, então temosuma ANOVA de me-didas repetidas e umplanejamento amos-tral em blocos. Asabordagens pareadase em blocos são abordagens fortes em termosde evitar relações inconsequentes espúrias(seção 2.4) que serão discutidas no capítulo 6.Entretanto, elas dependem de algumas condi-

ções que serão discutidas naquele capítulo.

7.3  Níveis fixos e níveis livres

Uma classificação de níveis é importante paradiferenciar diretrizes ligadas ao poder de testes,para diferenciar cálculos de probabilidade emANOVA, para determinar tipos de regressões epara questões relacionadas ao planejamentoamostral (capítulo 6).

Antes um esclarecimento. Usamos o termo“Níveis livres” ao invés do termo mais utilizado“Níveis ao Acaso” ou “Níveis Aleatórios” pois oprimeiro é mais claro porque: a) “livre” é antô-nimo de “fixo”, o que facilita a compreensão doconceito; b) níveis livres não são rigorosamentealeatórios (não são obtidos por sorteio), emborapossam ser considerados “ao acaso” (ver dif e-rença na seção 6.4); c) Porque este termo geramenos confusão. O sentido de “ao acaso” emníveis pode ser confundido com o sentido de“ao acaso” na “amostragem ao acaso” e na

“atribuição de níveis ao acaso”. Por exemplo,veremos na seção 6.1 que podemos atribuirníveis fixos ao açaso para uma unidade amos-tral em um experimento, mas não é possívelatribuir níveis livres ao acaso para uma unidadeamostral (dizer níveis “ao acaso” atribuídos aoacaso seria algo confuso em um assunto que játem alguma complexidade intrínseca). Para o

momento, concentremo-nos na diferença entre

níveis fixos e livres através de exemplos.

Definições: Uma variável preditora tem NíveisFixos se os valores dos níveis foram seleciona-dos para o teste e Níveis Livres se os valoresnão foram selecionados, isto é, se foram deter-minados “ao acaso” ou “livremente”.

Exemplo:

Problema 1- A pureza do café difere entre asmarcas A, B, C. D e E?Problema 2- A pureza do café varia entre mar-cas? [Você escolhe ao acaso (livremente) 5marcas de café (A, X, F, T e M) para represen-tar todas as marcas.]Problema 3- A produtividade do feijão muda aose adicionar 0 (controle), 2 e 4 mg de Nitrogênioao solo?Problema 4- A produtividade do feijão é diferen-te em função da concentração de nitrogênio nosolo (valores de campo variando ao acaso oulivremente entre 0 e 4 mg de N).

Os problemas 1 e 2 e os problemas 3 e 4 pare-cem iguais, mas não são. Nos problemas 1 e 3os valores dos níveis são definidos e fixos pelopesquisador e nos problemas 2 e 4 eles sãovalores "ao acaso".

Podemos ter níveis fixos em um único valor,como vimos no capítulo anterior para o controle

Figura 12- Classificação dos tipos de níveis de variáveis.

Page 102: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 102/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

101

0  10  20  30  40 0 

10 

20 

Tendência variável 

Tendência monotônical 

Variável Independente 

   V   a   r   i    á   v   e    l    d   e   p   e   n    d   e   n   t   e

Figura 13- Quatro tipos de relações monotônicas (azuis) e dois e-xemplos de relações com tendências variáveis.(vermelho). 

de variáveis externas, ou com diferentes valorespré determinados da variável preditora paraanalisar o efeito na variável resposta. Níveismultivalores da variável preditora podem ter osvalores atribuídos aleatoriamente ou sistemati-camente. Níveis livres são sempre multivalores

ao acaso. Os níveis fixos multivalores tambémpodem ser divididos na forma como é feita aatribuição do valor em Níveis Fixos por Mani-pulação, na abordagem Experimental (ex. duasconcentrações de uma droga que foram injeta-das em ratos) e Níveis Fixos por Seleção, naabordagem não experimental (e. g. a compara-ção de lagos com dois tipos de água para verqual tipo tem maior abundância de peixes.

A distinção em níveis fixos e livres não afeta ocálculo da probabilidade no caso de variáveis

categóricas em testes de ANOVA com umaúnica variável preditora, ou no caso de testes deANOVA com mais variáveis preditoras que pos-suam balanço prefeito. Em uma ANOVA commais de uma variável preditora sem balanço ecom alguma das variáveis com níveis livres, énecessária a utilização de uma ANOVA ModeloII ou Modelo III. Não vamos nos aprofundarneste caso, pois não é uma situação muito co-mum, entretanto, é essencialque o usuário de estatísticareconheça quando a situaçãonão permite uma ANOVA tradi-cional (Modelo I) e procure seinformar como agir (e. g. www.matstat.com/ss/).

Esta distinção é também impor-tante no caso de variáveis pre-ditoras quantitativas. O teste deuma regressão retilinear não éafetado pelo tipo de nível, masa reta que descreve a relaçãosó pode ser calculada por mí-nimos quadrados (Modelo I) sea variável for fixa. Se for umavariável com níveis livres deve-se utilizar um método diferente,por exemplo, por iteração (Mo-delo II). O mesmo se aplica aregressões curvilineares.

7.4  Relações retilineares, curvilinearese monotonicidade.

Quando temos uma relação entre duas variá-

veis que são ordinais ou quantitativas, estarelação pode ser descrita por uma linha em umgráfico EPR, e esta relação é denomina linear.Se uma reta descreve esta relação apropriada-mente, ela é chamada retilinear, do contrarioteremos uma relação curvilinear. Se a relaçãofor sempre ascendente ou sempre descendente,ela é chamada de tendência monotônica. Se elanão tiver esta característica, sendo ocasional-mente ascendente e ocasionalmente descen-dente (e. g. situações com “ótimos” ou situaçõescíclicas), ela é chamada de tendência variável.

7.5  O poder e os tipos de teste

As diretrizes para maximizar o poder de umteste, incluindo as mostradas nas seções ante-riores e outras que serão discutidas agora estãoresumidas na figura 7.4.

a) Utilize os testes paramétricos (Teste

Page 103: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 103/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

102

Figura 14 Resumo das diretrizes para maximizar testes estatísticos (ver texto).  

T,Análise de Variância, e Regressão Retilinear/Correlação) quando as premissas destes testesestiverem sendo atendidas. Se estas premissasnão forem satisfeitas considere a possibilidadede transformar os dados. Se ainda assim nãoatender as premissas, utilize os equivalentes

não paramétricos (Testes Mann-Whitney, Krus-kal-Wallis e correlação de Spearman). Não sepreocupe muito com as situações intermediá-rias, os testes paramétricos são relativamenterobustos e que os testes não paramétricos nor-malmente não são muito menos poderosos, deforma que os dois são aplicáveis (seções 3.3 e3.4).

b) Use testes unicaudais em questões que pe-dem esta opção;

c) Use testes pareados ou em blocos quando aquestão permite sua utilização e quando o fatorem estudo tenha um efeito sutil quando compa-

rado com a variação entre unidades amostraisque seriam utilizadas em um teste não pareado(do contrário prefira uma abordagem não pare-ada- seção 4.2);

d) Limite os testes múltiplos. Como foi dito no

capítulo anterior, testes múltiplos requeremcorreções no nível de significância, o que leva auma redução brutal no poder de um conjunto detestes A limitação do número de testes é umaforma recomendável de se lidar com este pro-blema. Ao invés de realizar um teste para 100espécies, escolha apenas as 10 melhor amos-tradas ou 10 que apresentem um interesse es-pecial. Outra abordagem seria repetir o estudoapenas com as espécies nas quais o Ho  foirejeitado e ver se acontecem os mesmos resul-tados. Se o mesmo resultado é significativo

para uma espécie em dois testes independen-tes, então ele provavelmente é verdadeiro. (se-ção 4.3)

Page 104: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 104/110

Page 105: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 105/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

104

do parágrafo anterior, Se quiséssemos descre-ver a relação, utilizaríamos 0, 5, 10, 15, ...95,100% de areia. Uma abordagem intermediáriaseria utilizar 0, 0, 0, 0, 25, 25, 25, 25, ... 100,100, 100, 100.

Caso não haja certeza que a relação seria mo-notônica, então a prioridade é obrigatoriamentea descrição da relação, mesmo que nosso inte-resse seja sobre a existência da relação.

Quando a variável for de natureza categórica(não ordinal), então, quanto menor o número deníveis mais poderoso tende a ser o teste. Aqui,naturalmente dependerá de quais níveis entra-rão na análise. Por exemplo, se queremos com-parar a eficiência de diferentes marcas de ra-ção, um teste com muitas marcas será pouco

poderoso, enquanto um teste comparando ape-nas duas marcas será mais poderoso para ummesmo número de amostras. Digamos que amarca A seja a melhor e a marca B seja a pior.A inclusão de 10 marcas pode levar-nos a acei-tar a hipótese nula que é a ausência de diferen-ças entre marcas. Comparações aos pares têmmaior poder individualmente, mas a compara-ção conjunta de cada par possível constituitestes múltiplos. Da mesma forma que foi suge-rido com os testes múltiplos, a abordagem maispoderosa seria escolher poucas comparaçõescom base em amostras preliminares ou algumoutro critério relevante.

7.7  Perdas voluntárias de poder

É sempre possível se manipular os dados nadireção de uma redução do poder da analise.Testes não-paramétricos podem substituir tes-tes paramétricos. Perguntas unicaudais podemser testadas com testes bicaudais. Variáveisquantitativas podem ser tratadas como ordinais

ou como categóricas (perda de informação).Variáveis ordinais podem ser tratadas comocategóricas. Medidas quantitativas com altaprecisão podem ser arredondadas, o que reduzo número de níveis. Níveis ordinais seguidospodem ser aglutinados (bom+muito bom-> satis-fatório); variáveis categóricas podem ser agluti-nadas por algum critério de semelhança (“dor

de cabeça”+”enjôo”-> “mal estar”). Um exemploextremo: duas variáveis quantitativas comotamanho de tartarugas e número de ovos po-dem ser transformadas em tamanhos “grandeou pequeno” e em número de ovos “muitos oupoucos”. A análise será mais grosseira, mas

não está errada. O contrário não é recomenda-do ou não é possível, por exemplo, é errado seutilizar testes paramétricos em situações queexigem testes não paramétricos e não se podetransformar uma variável categórica não ordinalem uma ordinal.

Reduções de poder normalmente devem serevitadas, porque costumam ser desvantajosas.Entretanto, há situações em que podemos re-duzir o poder em um aspecto da análise paramelhorá-la no seu conjunto, por exemplo: a) no

caso de testes múltiplos em que alguns dostestes têm as premissas para estatística para-métrica e outros não, é melhor utilizar testesnão paramétricos em todos por uma questão depadronização; b) Quando há um forte desbalan-ço no numero de medidas entre os níveis davariável preditora; c) Quando houver critériosracionais para a fusão de categorias de umavariável categórica de forma a se aumentar opoder do teste; d) no caso de uma transforma-ção de uma variável ordinal de poucos níveis (3ou 4) em uma categórica com os mesmos níveisporque a diversidade de ferramentas estatísti-cas para análises categóricas é bem maior e aperda de poder não é muito grande neste caso;e) nos casos em que a variável resposta forcategórica (não binária) e a preditora for quanti-tativa ou ordinal, porque não há testes simplesdiretos para estas situações (ver tabela de tes-tes); f) em testes não paramétricos de ranque-amento com muitos valores zero (>20% dosvalores) na variável resposta é mais apropriadotrabalhar com presença-ausência (mas aindamelhor seria usar um teste de permuta).

7.8  Testes múltiplos

Quando realizamos testes múltiplos para amesma questão genérica, alguns autores de-fenderam que o nível de significância (α) deve-ria ser corrigido porque a chance de rejeição

Page 106: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 106/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

105

inapropriada da hipótese nula (erro tipo I) émultiplicada pelo número de testes. Por exem-plo, quando testamos se a espécie 1, a espécie2, … e a espécie 100 são sensíveis uma deter-minada substância baseado em 100 experimen-tos, se rejeitarmos Ho para 10 espécies utilizan-

do um nível de significância de 5%, então, te-remos cerca de 5 falsos positivos e, portanto,apenas cerca de 5 seriam positivos verdadeiros.Cerca da metade das espécies consideradassensíveis seriam falsos positivos ou relaçõesespúrias, não devido a uma relação inconse-quente, mas devido ao aumento do risco resul-tante do excesso de testes.

A correção mais simples para testes múltiplos échamada de Correção de Bonferroni (o nome domatemático que a criou) e é a divisão do α pelo

número de testes. Entretanto, se você tiver 20testes e um valor inicial de α=0,05, o novo α será 0,001, o que um nível de significância ex-tremamente conservador. Rice (1989) reco-menda a utilização de um cálculo menos con-servador que ele descreve como um “BonferroniSequential” com um diferente valor de α  paracada teste. Ainda é uma correção conservado-ra, mas bem menos, e, portanto, muito útil.

Por outro lado, a utilização de correções emtestes múltiplos foi desaconselhada por algunsautores (e. g.  Moran, 2003; Gotelli & Elison,2010). Eles questionam a drástica redução depoder de testes com as correções e o limitelógico para o número de testes considerados nacorreção. Se aplicássemos a lógica da correçãorigorosamente, teríamos de corrigir pelo númerode testes de todo um artigo? Teríamos de corri-gir por todos os testes feitos durante a vida deum pesquisador? Claro que isto seria absurdo.Eles estão certos. Então, o que fazer, simples-mente esquecer a questão das correções? Não,a reflexão sobre este problema é essencial.

Em primeiro lugar, temos que reconhecer quehá um problema cultural na forma como as pes-soas interpretam qualquer conjunto de testes. Épreciso aprender a ver conjuntos de testes sa-bendo que teremos cerca um falso positivo paracada 20 vezes que rejeitamos Ho (não é a cada

teste, pois estaríamos desconsiderando quealguns testes levam a positivos verdadeiros) ,que podemos estimar pelo Bonferroni sequenci-al) em α=0,05. Entretanto, a maioria das pesso-as tende a considerar cada teste como um testeindependente. Por isto, no caso de tabelas com

uma sequência de testes relacionados, conside-ro recomendável se apresentar uma coluna comP (probabilidade calculada) e outra com a con-firmação da significância do teste após umacorreção semelhante à de Rice (1989). Istoajuda a dar uma referência de probabilidadedentro de um determinado contexto.

Em segundo lugar, devemos pensar bem antesde multiplicar desnecessariamente o número detestes em um estudo. Os críticos das correçõesestão certos ao dizer que não existem limites

lógicos para correções de testes múltiplos forade tabelas. Por outro lado, a credibilidade de umpositivo em cinco testes é certamente menorque a de um positivo em 50 testes. A valoriza-ção da estatística nos últimos anos acentuou atendência a se multiplicar exageradamente onúmero de testes dentro de cada estudo, àsvezes para todas as perguntas logisticamentetestáveis, sejam elas relevantes ou não. Oscursos de metodologia precisam enfatizar queisto é um problema e incentivar a atitude derestringir o número de testes após considera-ções teóricas ou coletas preliminares. Esta é aatitude mais poderosa, pois reduz o número detestes quando fazemos a correção ou suportaum mínimo de credibilidade aceitável se não afizermos.

Exercícios

7.1- O que é poder de um teste e por que apreocupação com o poder é geralmente secun-

dária na pesquisa, mas ainda assim é muitorelevante?

7.2- Cite seis aspectos em um estudo que con-tribuem para um maior poder.

Page 107: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 107/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

106

7.3- Em que situação é preferível utilizar umteste unicaudal e por que na dúvida devemosutilizar um teste bicaudal?

7.3- Dê um exemplo de previsão de hipóteseunicaudal pareada envolvendo diferenças de

dieta de gêmeos e sucesso escolar. Faça umatabela EPR para este exemplo.

7.4- Faça uma tabela EPR para avaliar se onúmero de baratas é maior em coletas noturnascomparada com coletas noturnas para um estu-do com amostras não pareadas e outra tabelaEPR para realizar a mesma comparação em umteste pareado. Explicite a entidade em cadatabela. Quais as vantagens e desvantagens decada abordagem?

7.5- Como decidir se aplicamos um teste para-métrico ou não paramétrico em uma abordagempareada?

7.6- O que são testes múltiplos e como é reali-zada a correção no nível de significância sequisermos evitar o aumento global na chancede erro tipo I?

7.7- Por que estudos experimentais quase sem-pre têm níveis fixos e estudos observacionaisgeralmente têm níveis livres. Cite um exemplode estudo observacional com níveis fixos.

7.8- Faça um gráfico mostrando uma relaçãoretilinear, uma relação curvilinear monotônica euma relação curvilinear variável.

7.9- Como varia o poder de um teste em funçãodo tipo de teste (paramétrico x não paramétrico;unicaudal x bicaudal) com uma hipótese nulaunicaudal com as premissas para testes para-métricos válidas.

7.10- Quando um teste pareado é mais podero-so que um não pareado e vice versa.

7.11- Quando os níveis são livres: a) quais asescalas de medida mais poderosas; b) em queescalas o poder aumenta com o número de

níveis e por quê? c) em que escala o poderdiminui e por quê?

7.12- Quando os níveis da variável preditorasão fixos em relações monotônicas, qual a for-ma de se obter o maior poder com a escolha

dos níveis?

7.13- Qual é o procedimento na escolha deníveis quando não se sabe qual é a forma darelação

7.14- Em que situações é recomendável tomaratitudes que reduzem o poder de um teste?

Page 108: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 108/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

107

8. Glossário

Abordagem Experimental- Pesquisa na qualos valores das variáveis preditoras são manipu-lados para verificar seu efeito sobre a Variável

resposta, em duas condições, com controleabsoluto de variáveis externas ou com controleestatístico por aleatorização na atribuição dosníveis da variável preditora.Abordagem Quase experimental- Pesquisacom manipulação dos valores da Variável predi-tora para verificar seu efeito sobre a variávelresposta, mas sem controle absoluto ou estatís-tico com atribuição aleatória de níveis.Abordagem Não Experimental- Pesquisa semmanipulação nos valores das variáveis predito-ras. 

Acurácia- é o grau de proximidade com a me-dida verdadeira.Aleatório- Por sorteio ou processo equivalente.Não é sinônimo de “ao acaso” .Alfa (α)- Nível de significância adotado antes derealizar um teste estatístico que indica a proba-bilidade de erro tipo I.“Ao acaso”- Devido a um conjunto de peque-nas causas preditoras entre si, que se prendema leis ignoradas e que determinam um aconte-cimento qualquer, não é sinônimo de aleatório.Autocorrelação- Relação entre valores medi-

dos em sequência espacial ou temporal, porexemplo, relação entre Xi e Xi+1, onde i é aiésima medida.Balanço- Igualdade (balanço perfeito) ou seme-lhança no número de entidades para cada nívelda variável preditora.Bloco- Conjunto de unidades amostrais quefuncionam como entidade em uma tabela EPR-Bloco. Nesta tabela, as linhas são os blocos eas colunas propriedades em cada unidade a-mostral.Contraste- Avaliação a posteriori em uma Ana-

lise de Variância paramétrica ou não paramétri-ca para determinar quais níveis são significati-vamente diferentes.Controle- Diferentes tipos de ações planejadaspara aumentar a confiabilidade e poder de umteste.

C. Estratégia Absoluto-  Estudo em condi-ções em que apenas a variável preditora temefeito relevante sobre a variável resposta.

C. E. Aleatorização VI- Estudo em condi-ções controladas estatisticamente pela atribui-ção aleatória dos níveis da variável preditora.

C. E. Sistematização VI- Estudo em condi-ções controladas estatisticamente pela atribui-ção sistemática dos níveis da variável preditora.

C. E. Blocos VI- Estudo em condições con-troladas estatisticamente pela atribuição aleató-ria dos níveis da variável preditora dentro deblocos.

C. E. Fixação VE- Estudo em condiçõesparcialmente controladas estatisticamente pelafixação dos níveis de uma variável externa.

C. E. Inclusão VE- Estudo em condiçõesparcialmente controladas estatisticamente pela

inclusão de uma variável externa.C. Função Anti-ruido  Ações de controle

com a finalidade de aumentar o poder de umteste pela redução do efeito aleatório de variá-veis externas.

C. F. Anti-tendenciosidade- Ações de con-trole com a finalidade de aumentar a confiabili-dade de um teste pela redução do efeito ten-dencioso de variáveis externas.

C. de Tratamento Nulo Simples- Amostrassem tratamento utilizadas para comparar comamostras que sofreram um determinado trata-mento.

C. T. Nulo Processual-  Amostras com tra-tamento parcial utilizadas para comparar comamostras que sofreram um determinado trata-mento completo.

C. T. Nulo Reverso- Amostras com diferen-tes tratamentos para terem seus efeitos compa-rados.Desenho Experimental/ Amostral-  Descriçãode parte ou de todos os procedimentos conside-rados relevantes para garantir as validaçõesinterna, da medida e analítica em um estudo. Oprimeiro termo é mais apropriado para estudosexperimentais e o segundo para estudos nãoexperimentais (i.e. sem manipulação da variávelpreditora)Entidade- Qualquer coisa que podemos imagi-nar e que possui propriedades.

Page 109: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 109/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

108

Escala de Medida- Categoria de tipo de medidade uma variável. As principais são binária, cate-górica, ordinal ou quantitativa.Estatística Descritiva-  Procedimentos mate-máticos e gráficos que permitem caracterizarum conjunto de dados e/ou formas de relações.

E. Inferencial-  Procedimentos matemáticosque permitem a tomada de uma decisão sobre aexistência de uma relação com base em crité-rios pré determinados.

E. Intuitiva- Processos intuitivos equivalen-tes à estatística formal utilizados para tomadade decisões cotidianas.Gráfico EPR- Gráfico cartesiano com a Variávelpreditora na abscissa, a resposta na ordenada epontos representando entidades.Hipótese- Uma possibilidade de resposta parauma pergunta com duas ou mais alternativas. 

Independência- Premissa de testes estatísticosgarantida por um desenho experimental apro-priado ou assumida por análise ou por conside-rações teóricas. Se a premissa de independên-cia for falsa, o teste não será confiável.Independência pela distância- premissa que adistância entre unidades amostrais é suficientepara tratar as unidades amostrais como se fos-sem independentes.Nível de Medida- Um valor assumido por umavariável dentro de um banco de dados.

NM Fixo- Um ou mais valores pré determi-nados assumidos por uma variável dentro deum banco de dados.

NM Fixo Univalor  Quando uma variável temum nível único pré-determinado.

NM Fixos Univalores Quando uma variáveltem mais de um nível pré-determinado.

NM Livre- Quando os níveis de uma variávelnão são pré-determinados.

NM Multivalor- Quando uma variável temmais de um nível pré-determinado ou não.

NM Unilote- Quando as entidades provêmde um único lote

NM Multilote  Quando as entidades provêmde mais de um lote.Nível de Significância- Ver Alfa.

Precisão- é o grau em que conseguimos umamedida quantitativamente próxima em condi-ções estáveis.

Probabilidade: Valor de uma expectativa dechance de uma determinada ocorrência.Propriedades-  Atributos que qualificam umaentidade. Em um estudo, uma propriedade quevaria costuma ser chamada de variável.Pseudo-replicação- o uso de estatística infe-

rencial para testar efeitos de tratamentos comdados de experimentos que não são replicadosou quando as replicatas não são estatisticamen-te independentesPlanejamento Amostral- O mesmo que dese-nho experimentalPremissa-  uma proposição que precisa serverdadeira para podermos chegar a uma dadaconclusão.Poder-  Em estatística significa a capacidadeque um teste ou um procedimento tem de rejei-tar a hipótese nula quando ela é falsa.

Relação: Qualquer tendência significativa queexista entre valores de propriedades de algumtipo de entidade. Com base na existência derelações que podemos fazer previsões comalgum grau de certeza.

R. Consequente-  A relação existente entreDuas variáveis que estão sobre a mesma linhade causalidade. Pode ser direta ou indireta, masnão apenas porque ambas são influenciadaspor uma terceira.

R. Curvilinear-  Relação linear entre duasvariáveis quantitativas (excepcionalmente ordi-nais) que é significativamente não retilinear.

R. Espúria- Uma relação encontrada entreduas variáveis interpretada como relação causalsem que haja realmente uma relação causalentre elas. É impossível garantir que não ocor-ram, mas elas podem ser reduzidas pelo nívelde significância assumido (um controle de riscoconhecido), com desenhos experimentais (umcontrole contra riscos desconhecidos) e corri-gindo os níveis de significância pelo número detestes (controle de inflação de risco).

R. Inconsequente- Uma relação entre duasvariáveis em função das duas serem influencia-das por uma terceira. Se houver conciência dafalta de causalidade entre as duas variáveis, arelação inconsequente não é considerada espú-ria, mas apenas uma correlação.

R. Linear - Relações descritas por modelosretilineares, quadráticos, exponenciais, logísti-

Page 110: Analise Em Biologicas

8/16/2019 Analise Em Biologicas

http://slidepdf.com/reader/full/analise-em-biologicas 110/110

A Condução da Análise 2014/1© Thierry R. Gasnier/ Universidade Federal do Amazonas

cos e outros (GLM), em contraste com modelosaditivos (GAM) que não abordamos.

R. Retilinear- Uma relação entre duas variá-veis quantitativas que é compatível com umareta.Resposta Contextual- Resposta baseada em

unidades amostrais com influência relevante defatores contextuais no espaço, tempo, filogeniaou outra condição análoga de posição.

R. Estatística- Resposta baseada em unida-des amostrais independentes sem influênciarelevante de fatores contextuais. 

R. Fato- Resposta que encontra sua força emapenas uma ou poucas observações.

R. Sistêmica- Ver resposta por coerência emrede. 

R. por Coerência em Rede- Resposta cujaforça ou fraqueza está no grau de coerência

entre ideias relacionadas tomadas como umconjunto. O mesmo que Resposta Sistêmica. Tabela EPR- Formato de entrada de dados emplanilhas no qual as entidades estão nas linhase as propriedades nas colunas. Cada entidadeaparece apenas uma vez na planilha.Teste estatístico- Uma decisão sobre a valida-de de uma hipótese a partir de critérios pré-estabelecidos utilizando algorrítimos matemáti-cos desenvolvidos para diferentes situações.

T. Bicaudal-  Teste estatístico com hipótesenula assumindo uma igualdade entre os níveisda variável preditora.

T. Não Paramétrico- Uma categoria de testescom premissas menos exigentes, mas compoder relativamente baixo.

T. Paramétrico- Uma categoria de testes comi i i t d l ti

linha de causalidade e que contribuem paradetalhar o funcionamento de um sistema.

V. Condicionalmente Correlacionadas- Duas variáveis que estão correlacionadas sobação de uma terceira variável, não havendocausalidade entre elas, de forma que fixando a

terceira variável a relação deixa de existir.V. de Confundimento-  Variável que influisobre a variável resposta e preditora de forma acriar uma relação espúria entre elas.

V. de Ruído-  Variável obscurece a relaçãoenter duas variáveis, mas que não tem influên-cia tendenciosa entre elas, isto é, não é umavariável de confundimento.

V. resposta  Uma variável tida hipotetica-mente como influenciada pelos os valores davariável denominada variável preditora (o queserá estabelecido durante o estudo.)

V. Externa-  Uma variável que não está nomodelo em questão, mas que pode interferirsobre o estudo, seja como variável de confun-dimento ou como variável de ruído.

V. em Estudo- As variáveis diretamente en-volvidas na questão e que estão no modelosendo testado.

V. Fixa- Uma variável cujo valor ou valoresforam pré- determinados para o estudo.

V. Livre Uma variável cujos valores não fo-ram pré- determinados para o estudo.

V. preditora-  Uma variável tida hipotetica-mente como um fator que influi sobre os valoresda variável denominada variável resposta (oque será estabelecido durante o estudo.)

V. Neutra- Uma variável que não influi sobrea variável preditora nem sobre a variável res-

t