Material Didatico
-
Upload
harrylondon -
Category
Documents
-
view
45 -
download
0
Transcript of Material Didatico
-
5/26/2018 Material Didatico
1/45
Unopar Virtual
1
ESPECIALIZAO EM ADMINISTRAO HOSPITALAR
Prof: Dr Leonardo Sturion - e-mail- [email protected]
Disciplina : BIOESTATSTICA
ESTATSTICA
statstica os primeiros resultados aparecempossivelmente contemporneas s primeirassociedades humanas, pois a histria nos indica, quenos anos 3.000 a.c. J se usava fazer os censos naBabilnia, China e Egito.
Pode-se ver na Bblia, no livro dosnmeros do Velho Testamento, uma instruo para se fazer o levantamentodos homens aptos a guerrear.
Um outro fato que consta da Bblia, o censo feito em todo oimprio romano, por ocasio do nascimento de Jesus Cristo, o que ocasionou aviagem de Jos e Maria a Belm.
A Estatstica era usada bem antes de ser batiza com essenome. A palavra Estatstica foi usada pela primeira vez no sculo XVIII, peloalemo Gottfued Achennall.
A palavra estatstica vem de status, que significa em latim
Estado. Com essa palavra faziam-se as descries e dados relativos aosEstados, fazendo da Estatstica um meio de administrao para osgovernantes. Mais recentemente se passou a falar em estatstica em vriascincias de todas as reas do conhecimento.
Onde pode-se definir a Estatstica como um conjunto demtodos e processos quantitativos que servem para estudar e medir osfenmenos coletivos, segundo Bernouille.
Ao se estudar os fenmenos coletivos, o que interessa so osfatos que envolvem os elementos desses fenmenos, como eles se relacioname qual o seu comportamento. Para que tal estudo possa acontecer com toda aseveridade que a cincia exige, necessrio que o levantamento seja feitoatravs de uma pesquisa cientfica, sendo ela definida como a realizaoconcreta de uma investigao planejada, desenvolvida e redigida de acordocom as normas de metodologia.
2 PESQUISA CIENTFICADefini-se Pesquisa Cientfica como sendo um procedimento
racional que utiliza mtodos cientficos para encontrar respostas s questesque so propostas.
E
-
5/26/2018 Material Didatico
2/45
Unopar Virtual
2
3 ROTEIRO PARA PESQUISAS DESCRITIVA E EXPERIMENTAL1. Escolha o assunto: Assunto significativo e adequado ao interesse e ao
nvel de formao e s condies do pesquisador.
2. Ttulo da pesquisa: deve deixar claro o tema que est sendo trabalho.3. Delimitao do assunto: Selecionar um tpico para ser estudado e
analisado em profundidade, tornado o assunto vivel de ser pesquisado.Evitar temas amplos que resultem em trabalhos superficiais.
4. Objetivos:Indicao do que se pretende alcanar com a pesquisa.5. Justificativa da escolha: Mostrar as razes da preferncia pelo assunto
escolhido e sua importncia face a outros temas.6. Reviso da literatura: a realizao de uma pesquisa bibliogrfica do
assunto e da questo delimitada. Tal estudo preliminar tem o objetivo demostrar os trabalhos realizados sobre o assunto, apresentar as informaes
sobre a situao atual do problema, e as opinies existentes. Estesconhecimentos prvios iro auxiliar o investigador nos passos seguintes.7. Formulao do problema:Redigir de forma interrogativa, clara, precisa e
objetiva, a questo cuja soluo vivel possa ser alcanada pela pesquisa.O problema levantado deve expressar uma relao entre duas ou maisvariveis. A elaborao clara do problema fruto da reviso da literatura eda reflexo pessoa.
8. Enunciado da hiptese: A hiptese, como resposta e explicaoprovisria, relaciona as duas ou mais variveis do problema levantado.Deve ser colocado prova e responder o problema. Num trabalho, onmero de hipteses no deve ser muito grande.
As variveis so aqueles aspectos, propriedades ou fatoresreais ou potencialmente mensurveis atravs dos valores que assumem epossveis de ser identificados em um objeto de estudo.9. Definio operacional das variveis: A hiptese orienta a execuo da
pesquisa. Por isso os termos empregados na hiptese devem esclarecercomo o mximo de preciso, o que eles significam no contexto concreto eobjetivo da pesquisa a ser feita. A definio operacional das variveis indicaas operaes a serem realizadas e os mecanismos a serem usados paraverificar a conexo entre as variveis.
10.Amostragem: A pesquisa procura estabelecer generalizaes a partir de
observaes em grupos ou conjuntos de indivduos chamados depopulao ou universo. Populao pode referir-se a um conjunto depessoas, animais ou objetos que representam a totalidade de indivduosque possuem as mesmas caractersticas definidas para um estudo.Geralmente, a pesquisa feita com uma parte representativa da populao,denominada amostra, e no com a totalidade dos indivduos. Portanto aamostra uma parte da populao, selecionada segundo uma tcnica deamostragem que garante sua representatividade.
11. Instrumentos de pesquisa:Na pesquisa descritiva relatar a tcnica a serusada para a coleta de dados, como por exemplo: a entrevista,
questionrio, formulrio. Quando se trata de pesquisa experimental sodescritos os instrumentos e materiais ou as tcnicas a serem usados.
-
5/26/2018 Material Didatico
3/45
Unopar Virtual
3
12.Procedimentos:Em pesquisas descritivas faz-se a descrio detalhada detodos os passos da coleta e registro dos dados: Quem? Quando? Onde?Como? Descrevem-se ainda as dificuldades, as precaues, a superviso eo controle.
Na pesquisa experimental detalhada a forma usada para
fazer a observao, a manipulao da varivel independente, o tipo deexperimento, o uso ou no de grupo de controle e a maneira do registro dosresultados.
No relatrio, os dados so apresentados depois declassificados sob forma descritiva e, de preferncia, em tabelas, quadros ougrficos. Os dados devem ser auto explicativos a fim de no exigir do leitorexames exaustivos que o obrigue a um grande esforo para sua interpretao.13.Anlise dos dados: Coletados os dados realizado uma anlise
exploratria dos mesmos e expostos em tabelas de forma sinttica, soagora submetidos ou no, conforme o caso, ao tratamento estatstico mais
profundo, onde todas as informaes reunidas nos passos anteriores socomparados entre si e analisadas.A anlise, atravs da classificao ordenada dos dados, do
confronto dos resultados das tabelas e dos testes estatsticos, quandoempregados, procura verificar a comprovao ou no das hipteses de estudo.14.Discusso dos resultados: a generalizao dos resultados obtidos pela
anlise. Na discusso, o pesquisador far as inferncias e generalizaescabveis, com base nos resultados alcanados. Os resultados tambmsero discutidos e comparados com afirmaes e posies de outrosautores. Finalmente, abordar e comentar os aspectos paralelos reveladospela pesquisa.
15.Concluso: A concluso apresentar um resumo dos resultados maissignificativos da pesquisa e sintetizar os resultados que conduziram comprovao ou rejeio da hiptese de estudo. Far inferncias que osdados alcanados permitem fazer e indicar aspectos que merecem maisestudo e aprofundamento.
16.Bibliografia: So as referncias bibliogrficas que serviram deembasamento terico.
17.Anexos: Os anexos so constitudos de elementos complementares, comoquestionrios e outras fichas de observao e registro utilizadas notrabalho, que auxiliam a anlise do leitor da pesquisa.
4 OBJETIVO DA ESTATSTICADependendo do objetivo da pesquisa pode-se classificar a metodologia
Estatstica em:
Descritiva ou Indutiva
-
5/26/2018 Material Didatico
4/45
Unopar Virtual
4
4.1 Estatstica descrit ivaUsualmente, a expresso Estatstica descritiva empregada
para se referir ordenao, exposio e sumarizao de registrosquantitativos, relativos aos atributos do fenmeno em estudo.
4.2 Estatstica indut ivaA estatstica indutiva objetiva a generalizao do que
estudado descritivamente, em subconjuntos, para o conjunto que as contm.
5 DESCRIO E APRESENTAO DE DADOSOs dados obtidos em pesquisas devem ser analisados e
interpretados com o auxlio de mtodos estatsticos.Na primeira etapa deve-se fazer uma anlise descritiva que
consiste na organizao e descrio dos dados, na identificao de valores querepresentem o elemento tpico e na quantificao da variabilidade presente nosdados.
5.1 Noes BsicasNa pesquisa cientfica coleta-se caracterstica de pessoas,
animais, empresas, indstrias, sistema de produo, fenmenos fsicos ouqumicos com a finalidade de verificar hipteses lanadas sobre umapopulao.
5.1.1 Populao um conjunto de elementos que detm pelo menos uma
caracterstica em comum.
5.1.2 Amostra uma parte retirada da populao para estudo, segundo
tcnica adequada, ou seja, um subconjunto representativo.
5.1.3 Amostragem o procedimento ou a tcnica de obteno de uma amostra
em uma populao.
5.1.4 Varivel qualquer quantidade ou caracterstica que pode assumir
diferentes valores numricos. Por exemplo, um questionrio de uma pesquisaem marketing, contm as seguintes perguntas:
-
5/26/2018 Material Didatico
5/45
Unopar Virtual
5
Qual a sua idade?Qual o nmero de pessoas desua famlia?Qual a renda familiar?
Qual o seu estado civil?Voc tem emprego fixo?Qual o tempo de trabalho naempresa?
Gereminformaesnas variveis
- Idade
- Tamanho da famlia- Renda familiar
- Estado civil- Emprego
Tempo de trabalho.
5.1.4.1 Classificao das Variveis
Ao fazer um estudo estatstico de um determinado fato ougrupo, tem-se que considerar o tipo de varivel. Pode-se ter variveis
qualitativas e variveis quantitativas.As variveis qualitativas so aqueles que descrevem os
atributos de um indivduo, por exemplo: sexo, estado civil, grau de instruo,etc. J as variveis quantitativas so as provenientes de uma contagem demensurao, por exemplo: idade, salrio, peso, etc.
As variveis qualitativas como as quantitativas dividem-se emdois tipos:
Variveis Tipos Descrio Exemplos
Nominal No existe nenhumaordenao cor dos olhos, sexo,estado civilQualitativas
ouCategricas
OrdinalExiste umaordenao I, II, III
nvel de escolaridade,estgio da doena
DiscretasValor pertence a umconjunto enumervel
nmero de filhos porcasal, quantidade deleitos
Quantitativas
Contnuas Quando o valorpertence a umintervalo real
medida de altura epeso, taxa de glicose
6 TIPOS DE AMOSTRAGEMAs tcnicas de obteno de uma amostra podem ser
classificadas como amostragem probabilsticas ou no-probabilsticas.
-
5/26/2018 Material Didatico
6/45
Unopar Virtual
6
6.1 Amostragens ProbabilsticasDestacam-se as Amostragens Simples ao Acaso, Sistemtica e
Estratificada.a) Amostragem Simples ao Acaso (ASA), tambm
conhecida como amostragem aleatria simples, quandotodos os elementos de uma populao tm a mesmachance (probabilidade) de ser selecionada. umprocedimento que pode-se tornar trabalhosos quando apopulao muito grande. aplicado quanto a populao considerada homognea. Para manter a propriedade deve-se numerar todos os elementos da populao e obter-se oselementos que comporo a amostra, atravs de um sorteioou do auxlio de uma tabela de nmeros aleatrios.
b) Quando a populao est organizada, em ordem alfabtica,
por exemplo, num fichrio ou uma lista telefnica, aplica-senestes casos aAmostragem Sis temtica, que consiste naseguinte tcnica: divide-se o tamanho da populao pelotamanho da amostra, obtendo-se assim o que se chama deSalto. Matematicamente tem-se:
n
NS=
S = SaltoN = tamanho da populao
n = tamanho da amostra
Tendo-se o S (salto), sorteia-se um elemento que compe oprimeiro elemento, a partir da basta ir somando S a posio do elementoretirado.
c) Quando se trabalha com uma populao heterognea, ondese tem elementos discrepantes, h a necessidade de sedividir a populao em grupos, com elementoshomogneos, que se chama estrato. Desses estratos so
sorteados os elementos que comporo a amostra, tendoassim o que se chama de Amostragem Estrat if icada. Onmero de elementos sorteados de cada grupo poder serproporcional ao tamanho do grupo, tendo dessa maneira aAmostragem Estrat if icada Proporcional.
d) Amostragem por Conglomerado, a populao total subdividida em vrios partes relativamente pequenas, ealgumas dessas subdivises, ou conglomerados, soselecionadas aleatoriamente para integrarem a amostraglobal, e finalmente, toma-se todos os elementos das
subdivises escolhidas.
-
5/26/2018 Material Didatico
7/45
Unopar Virtual
7
6.2 Amostragem No-Probabilst icaSo as que no permitem a retirada de uma amostra de forma
aleatria, pois em algumas situaes a amostragem se torna obrigatria, porexemplo: ensaios de drogas, vacinas, tcnicas cirrgicas, pesquisa de opinio.
Destacam-se as amostragens por Convenincia, porJulgamento e por Quota.
a) Amostra por convenincia o pesquisador seleciona osmembros da populao dos quais mais fcil obter informaes.
Esse tipo de amostragem, embora no aleatria, bastanteutilizada na rea de marketing, geralmente so amostras obtidas em teatros,cinemas, etc. Neste caso, importante o senso crtico do pesquisador paraevitar vieses, por exemplo, no selecionar sempre pessoas de mesmo sexo, demesma faixa etria, etc.
b) Amostra por julgamento o pesquisador utiliza seujulgamento para selecionar os membros da populao que apresentem boas
perspectivas de fornecerem as informaes precisas.c) Amostragem por quotas o pesquisador encontra e
entrevista um nmero predeterminado de pessoas em cada uma das vrias
categorias.
Observao:
A amostragem no-probabilstica, geralmente influenciada
por tendncias, preferncias e fatores subjetivos pessoais
diversos.
6.3 Cuidados com a AmostragemPara que no haja erros na amostragem convm observar o
seguintes:1) Definio do Universo que ser amostrado, face aos
objetivos e definio do problema de pesquisa.2) Definies das unidades amostram que ser a base do
processo de seleo. Exemplo: em uma pesquisa,poderamos utilizar como unidade amostral o domiclio ou afamlia, definido operacionalmente o que vem a ser afamlia, por exemplo, s entrevistaramos aqueles querealmente se ajuste s definies adotadas. Ex.: umarepblica de estudantes no considerada famlia emmuitas pesquisas porque cada indivduo isoladamentedecide o que consome, no existe gerao conjunta derecursos para ajudar no oramento de despesas e oprocesso decisrio no consistente como de uma famlia,de marido, mulher e filhos.
3) Confiabilidade. Se aplicarmos o estudo com metodologia
semelhante, deveremos conseguir resultados similares.
-
5/26/2018 Material Didatico
8/45
Unopar Virtual
8
4) Tamanho da amostra. Apesar da existncia de vriasfrmulas, a amostra varia muito de pesquisa para pesquisa.Porm deve levar em conta o tamanho da populao.
Todavia, algumas observaes podem ser levadas em
consideraes, a saber:a) quanto maior o nmero de elementos numa amostra, menor
os desvios dos parmetros em relao ao valor esperado dapopulao;
b) quanto maior o nmero de elementos, maior a aproximaoda distribuio amostral curva normal;
c) quanto maior a homogeneidade da populao, menor aamostra a ser pesquisada.
6.4 Tamanho da Amostra
Determinao do tamanho da amostra com nmero mnimo de elementos
AMOSTRA (n)POPULAO
(N)MARGEM DE ERRO
D=3%
MARGEM DE ERRO
D=5%
100 91 79
1000 516 277
5000 879 356
20000 1013 377
100000 1055 383
500000 1064 384
1000000 1067 384
Frmulas utilizadas para a colocao de n:
( )
N
n
nn
D
ppZn
0
0
2
2
0
1
1.
+=
=
Sendo:n0 Nmero dimensionadoZ Distribuio normalp probabilidadeD Margem de erro: 1% a 10%n Tamanho da amostraN Tamanho da populao
-
5/26/2018 Material Didatico
9/45
Unopar Virtual
9
6.5 - Representao grfica de variveis quantitativasResultados referentes a variveis contnuas freqentemente
so organizadas em tabelas de distribuies de freqncias por intervalos. Trstipos de grficos geralmente so utilizadas neste caso: histograma, polgono de
freqncia e ogivas.
Avaliao em Bioqumica de 267 alunos de odontologia - UEL
PorcentagemNotas Freqnci
aabsoluta
Simples Acumulada
P. mdio
3,0 |-- 3,5 2 0,7 0,7 3,253,5 |-- 4,0 15 5,6 6,3 3,754,0 |-- 4,5 33 12,4 18,7 4,254,5 |-- 5,0 40 15 33,7 4,755,0 |-- 5,5 54 20,2 53,9 5,255,5 |-- 6,0 47 17,6 71,5 5,756,0 |-- 6,5 38 14,2 85,7 6,256,5 |-- 7,0 16 6 91,7 6,757,0 |-- 7,5 15 5,6 97,3 7,257,5 |-- 8,0 3 1,1 98,4 7,758,0 |-- 8,5 1 0,4 98,8 8,258,5 |-- 9,0 3 1,1 100 8,75Total 267 100
a) Histograma
Aval iao em B io q u m ica
0
10
20
30
40
50
60
3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5 9
-
5/26/2018 Material Didatico
10/45
Unopar Virtual
10
b) Polgono de Freqncias
c) Ogiva
Aval iao em Biopqumca
0
20
40
60
80
100
120
2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5
8 SNTESE NUMRICA
Alm da construo de tabelas e grficos, a anliseexploratria de dados, consiste tambm de clculos de medidas que resumemas informaes que possibilitam uma viso global dos dados.
Esses valores so conhecidos como medidas descritivas, querecebem o nome genrico de estatsticas quando calculadas com dadosamostrais e de parmetros quando utilizados os dados populacionais.
Dentre as medidas descritivas a mais utilizadas so as detendncia central e de disperso (variabilidade).
8.1 Medidas de tendncia central
As medidas de tendncia central so aquelas que produzemum valor em torno do qual os dados observados se distribuem, e que visam
Avaliao em Bioqumica
0
10
20
30
40
5060
2,75 3,25 3,75 4,25 4,75 5,25 5,75 6,25 6,75 7,25 7,75 8,25 8,75 9,25
-
5/26/2018 Material Didatico
11/45
Unopar Virtual
11
sintetizar em um nico nmero o conjunto de dados. As medidas de tendnciascentral so: mdias aritmtica, mediana e moda.a) mdia aritmtica
A mdia aritmtica calculada pela soma de todos os nvalores amostrados e dividida pelo nmero de valores adicionados (n), ou seja,
n
x
n
xxxX
i
n
in 121 X.... =
=
++=
Exemplo: Foram levantados os dimetros de 10 peas (cm) da Empresa AALtda. As mdias foram as seguintes:
13,1 13,5 13,9 13,3 13,7 13,1 13,1 13,7 13,2 13,5.
O dimetro mdio :
=X
A mdia aritmtica possui algumas propriedades desejveis eno desejveis e so as seguintes:i. Unicidade. Para um conjunto de dados existe somente uma mdia
aritmtica.ii. Simplicidade. A mdia aritmtica fcil de ser interpretada e de ser
calculada.iii. Todos os valores entram para o clculo da mdia aritmtica, porm, os
valores extremos afetam no valor calculado, e em alguns casos pode haveruma grande distoro, tornando, neste caso, a mdia aritmticaindesejvel como medida de tendncia central.
b) MedianaA mediana o valor que ocupa a posio central de um
conjunto de valores ordenados, quando o conjunto possui quantidade par devalores temos dois valores centrais, neste caso, a mediana o valor mdio dosdois valores centrais do conjunto de dados ordenados.
Exemplo: Considere os dimetros ordenados do exemploanterior:
13,1 13,1 13,1 13,2 13,3 13,5 13,5 13,7 13,7 13,9
Nesta srie temos nmero par de observaes logo, temosdois valores centrais e so 13,3 e 13,5, ento, a mediana dada por:
Md =
Suponha, neste mesmo exemplo acrescentarmos o valor 14,0o que torna um rol de nmero mpar,
13,1 13,1 13,1 13,2 13,3 13,5 13,5 13,7 13,7 13,9 14,0Neste caso, a srie possui apenas um valor central logo, a
mediana igual a 13,5 cm.As propriedades da mediana incluem o seguinte:
i. Unicidade. Existe somente uma mediana para um conjunto de dados.ii. Simplicidade. A mediana fcil de ser calculada.
-
5/26/2018 Material Didatico
12/45
Unopar Virtual
12
iii. A mediana no to afetada pelos valores extremos como a mdiaaritmtica, por isso, se diz que a mediana uma medida robusta.
c) ModaModa de um conjunto de valores o valor que ocorre com
maior freqncia. Se todos os valores forem diferentes no h moda, por outrolado, um conjunto pode ter mais do que uma moda: bimodal, trimodal oumultimodal.
Exemplo: Para os dados dos exemplos anteriores a moda igual a 13,1 cm.
A moda pode ser utilizada para descrever dados qualitativos.Por exemplo, suponha que as empresas compradoras em uma regiometropolitana num determinado ano receberam uma das seguintesclassificaes: pequeno, mdio e grande. A classificao que ocorre com maiorfreqncia no grupo das empresas pode ser chamada de classificao modal.
8.2 Medidas de DispersoA disperso de conjunto de dados a variabilidade que os
dados apresentam entre si. Se todos os valores forem iguais, no h disperso;se os dados no so iguais, existe disperso. A disperso pequena quandoos valores so prximos uns dos outros. Se os valores so muito diferentesentre si, a disperso grande, ou seja, as medidas de disperso apresentam ograu de agregao dos dados.Tomemos por exemplo os valores das sries abaixo:
Repetio Srie A Srie B Srie C
1 1 1 12 1 44 83 2 45 114 3 46 145 5 48 286 6 48 307 6 49 378 7 50 489 93 50 5210 94 51 62
11 94 52 7012 95 52 7213 97 54 8414 98 55 9115 98 55 9216 100 100 100
Mdia 50 50 50Mediana 50 50 50
Valor mnimo 1 1 1Valor mximo 100 100 100
-
5/26/2018 Material Didatico
13/45
Unopar Virtual
13
As medidas descritivas mais comuns para quantificar a
disperso so amplitude, varincia e desvio-padro.
a) Ampl itude
Uma maneira de medir a variao em um conjunto de valores calcular a amplitude. A amplitude a diferena entre o maior e o menor valor
de conjunto de observaes.
At = nomaior nomenor
A utilidade da amplitude limitada. O fato dela levar em conta
somente dois valores torna-a uma medida pobre. A maior vantagem em us-la
a simplicidade do seu clculo.
b) VarinciaQuando os valores de um conjunto de observaes so
prximos do seu valor mdio, a disperso menor do que quanto esto mais
dispersos. O grau de disperso pode ser medido pelos desvios em relao
mdia usando a varincia cuja frmula :
( ) ( )
1
ou
1
22
2
2
2
=
=
n
n
XX
s
n
XXs
Esta estatstica isolada tem difcil interpretao por apresentar
unidade de medida igual ao quadrado da unidade de medida dos dados.
c) Desvio Padro
Devido dificuldade de interpretao da varincia, por ter
unidade de medida elevada ao quadrado, usual na prtica utilizar o desviopadro que a raiz quadrada da varincia, ou seja:
2ss=
d) Coefic iente de variao
Uma pergunta que pode surgir se um desvio-padro grandeou pequeno; questo relevante, por exemplo, na avaliao da preciso de
-
5/26/2018 Material Didatico
14/45
Unopar Virtual
14
mtodos. Um desvio-padro pode ser considerado grande ou pequeno
dependendo da ordem de grandeza da varivel. Por exemplo, um desvio-
padro de 10 pode ser insignificante se a observao tpica for 10.000, mas
ser um valor bastante significativo para um conjunto de dados cuja
observao tpica 100.
Portanto, por vezes, conveniente exprimir a disperso em
termos relativos, ou seja, expressar a variabilidade dos dados tirando a
influncia da ordem de grandeza da varivel.
Pode-se obter um ndice relativo de disperso comparando-se
o desvio-padro (s) com a mdia (X). A medida utilizada denominada
coeficiente de variaoe definida por
100.X
sCV=
O coeficiente de variao (CV) adimensional, isto , um
nmero puro e usualmente expresso em porcentagem. zero quando no
houver variabilidade entre os dados, ou seja, quando s = 0, o que ocorre
quando todos os valores da amostra so iguais.
Sua utilidade fornecer uma medida para a homogeneidade doconjunto de dados. Quanto menor o coeficiente de variao, mais homogneo
o conjunto.
Para exemplo apresentado na comparao das sries A, B e C.
CV =
O que indica um valor baixo, levando a concluir que a
disperso em relao mdia pequena, mostrando que o conjunto tem uma
composio homognea.Se por um lado pode ser difcil classificar um coeficiente de
variao como baixo, mdio, alto ou muito alto, esta medida pode ser bastante
til na comparao de duas variveis ou dois grupos que a princpio no so
comparveis (por exemplo, com ordens de grandeza das variveis diferentes).
-
5/26/2018 Material Didatico
15/45
Unopar Virtual
15
Exemplo: Comparao do colesterol em dois grupos
Em um grupo de jovens mdicos residentes obteve-se, ao
medir o colesterol, a mdia de 205 mg/dle um desvio-padro de 22 mg/dl. Para
um grupo de mdicos especialistas, entretanto, a mdia obtida foi de 244 mg/dle desvio-padro de 45 mg/dl. O grupo de mdicos mais idosos apresenta no
s uma mdia mais alta como tambm maior variabilidade em torno da mdia.
O coeficiente de variao capta esta diferena. Neste caso, o coeficiente de
variao 10,7% para os residentes e 18,4% para os especialistas.
8.3 Escore padronizadoVimos como relacionar a mdia e o desvio-padro para
caracterizar a homogeneidade de um grupo. Pode-se tambm relacionar estasduas estatsticas, mas para cada indivduo.
A idia que, na comparao dos resultados de dois
indivduos, importante a padronizao em relao ao grupo. A ttulo de
ilustrao, suponhamos que o exame final em curso de lnguas estrangeira
consista de duas partes, vocabulrio e gramtica, e que um estudante obtenha
66 pontos no vocabulrio e 80 pontos em gramtica. primeira vista, poderia
parecer que o estudante obteve resultado muito melhor em gramtica que emvocabulrio, entretanto, a mdia da turma em vocabulrio foi de 51 pontos com
desvio-padro 12, e na gramtica a mdia foi de 72 pontos com desvio-padro
16.
Pode-se ento, padronizar os resultados, utilizando-se.
s
XXZ
=
Assim, podemos argumentar que a nota do estudante na parte de vocabulrioest a
25,112
5166=
=Z
desvios-padro acima da mdia da turma, enquanto que sua nota na parte de
gramtica est a apenas
50,0
16
7280=
=Z
desvios-padro acima da mdia da turma.
-
5/26/2018 Material Didatico
16/45
Unopar Virtual
16
Embora a comparao das notas originais no tenha
significao, os novos escores expressos em termos de desvios-padro,
podem ser comparados. Fica evidente que o estudante obteve classificao
muito mais alta do que o resto da turma, em vocabulrio, de que em gramtica.
O escore padronizado, ou escore Z, o nmero de desvios-
padro pelo qual um valor X desta mdia (para mais ou para menos).
Surge ento o interesse em saber quando um escore Z deve
ser considerado grande ou incomum.
Para isso deve-se recorrer ao teorema de Tchebichev, que
afirma que, para qualquer conjunto de dados, ao menos 75% dos valores
devem estar a menos de dois desvios-padro da mdia, de qualquer lado dela.Poucas observaes esto alm de dois desvios-padro e raramente h uma
observao alm de trs desvios-padro.
Por exemplo, um grupo de 10 bebs recm nascidos, com
mdia de 3,1 Kg e desvio-padro de 0,49 Kg, para o peso ao nascer. Um beb
que nasa com peso de 4,1 Kg. Tem-se
04,2
49,0
1,31,4=
=Z
O peso est praticamente dois desvios-padro acima da mdia,
o que mostra que esse acontecimento incomum acontecer.
Devem-se procurar razes substantivas para este fato.
O escore Zpossibilita distinguir entre valores usuais e valores
incomuns, sendo que os que estiverem acima de dois desvios-padro distantes
da mdia so considerados incomum ou raros.
Analisemos o seguinte exemplo sobre:
-3 -2 -1 0 1 2 3
Valores Valore Valores
-
5/26/2018 Material Didatico
17/45
Unopar Virtual
17
Dosagens Laboratoriais
A tabela abaixo apresenta os resultados de exames
laboratoriais solicitados a duas pacientes, me (A) e filha (B), com
respectivamente 60 e 40 anos de idade. Tambm so apresentados osresultados padronizados pelo grupo de adultos do sexo feminino.
TABELA Mdia (X) e desvio-padro (s) para adultos do sexo feminino e
resultados de exames laboratoriais de me (A) e filha (B).
Exame X s ResultadoOriginal
EscorePadronizado
A B A B
Glicemia em jejum 85 12,5 90 79 0,40 -0,48
cido rico 4,2 0,9 3,5 3,1 -0,78 -1,22Triglicrides 105 30 97 66 -0,27 -1,30
Colesterol total 200 25 251 185 2,04 -0,60
A paciente A apresentou um resultado de colesterol bastante
alto (dois desvios-padro acima da mdia). A paciente B no apresentou
nenhum resultado preocupante.
8.4 Quartis, Decis e PercentisDados que produzem histogramas simtricos so
adequadamente descritos e sintetizados pela mdia e pelo desvio-padro.
Neste caso, vrias perguntas sobre o comportamento dos dados podem ser
respondidas usando-se somente estes dois nmeros.
Isto no ocorre quando os dados so assimtricos. Neste caso,
a mediana identifica mais adequadamente o centro de um conjunto de dados
com distribuio assimtrica. Alm disso, para entender bem uma distribuio,
precisamos conhecer valores acima ou abaixo dos quais se encontra uma
determinada porcentagem dos dados: os percentis, que permite dividir o
conjunto de dados em 100 grupos com cerca de 1% em cada grupo.
A mediana o percentil de ordem 50. Pois, define-se a
mediana como o valor que pelo menos 50% das observaes de acima de sie
pelo menos 50% abaixo.
-
5/26/2018 Material Didatico
18/45
Unopar Virtual
18
Os percentis de ordem 25, 50 e 75 so chamados,
respectivamente primeiro, segundo e terceiro quartis porque dividem a
distribuio em 1/4, 2/4 = 1/2 e 3/4 . So representados por Q1, Q2 e Q3 e,
evidentemente, Q2 outra notao para a mediana.
Enquanto que os decis so os que coincidem com os percentis
que permitem dividir os dados em grupos com cerca de 10% deles, assim tem-
se D1, D2, ..., D9, que corresponde no D1a diviso dos dados em 10% menores
que seu valor e 90% acima.
O processo de determinao do percentil correspondente a um
valor X dado pela seguinte expresso:
100.valoresdetotalnmero
XainferioresvaloresdenmeroXvalorPercentil =
Tendo o seguinte exemplo de coeficientes de liquidez.
O coeficiente de liquidez obtido da anlise financeira em 60
clinicas odontolgicas de So Paulo em forma ordenada abaixo.
4,44 4,47 4,48 4,51 4,54 4,54 4,61 4,64 4,66 4,684,68 4,69 4,71 4,73 4,76 4,78 4,79 4,81 4,86 4,86
4,87 4,88 490 4,90 4,95 4,95 4,96 4,97 4,98 4,98
4,99 5,00 5,01 5,01 5,01 5,02 5,04 5,05 5,08 5,09
5,09 5,10 5,11 5,11 5,16 5,17 5,18 5,18 5,19 5,24
5,24 5,26 5,27 5,27 5,29 5,32 5,35 5,46 5,50 5,85
Para determinar o percentil dos coeficientes, 5,08, deve-se
organizar os dados em ordem crescente, e verificar quantos valores esto
abaixo de 5,08, que so 38 valores, ento pede-se aplicar a expresso:
Percentil de 5,08 = 633,63100.60
38=
O coeficiente de liquidez 5,08 o 63 percentil, o que equivale
a dizer que aproximadamente 63% dos coeficientes tm valores menores que
5,08.
-
5/26/2018 Material Didatico
19/45
Unopar Virtual
19
Para o processo inverso, ou seja, determinar o valor
correspondente a um certo percentil, deve seguir a seguinte seqncia:
1) Ordenar os dados do menor para o maior.
2) Tabular o indicador de localizao (L), dado por:
100
.nkL=
onde
k o percentual desejado
n o nmero de valores do conjunto de dados.
Se o valor de Lfor decimal, arredonda o seu valor para o maior
inteiro mais prximo.
Quando o valor de L for inteiro, deve-se somar o valor
correspondente a Lao valor de L+1 e dividir o resultado por 2.
Por exemplo, para calcular o percentil 25, que corresponde ao
primeiro quartil, que deixa pelo menos 25% dos dados abaixo e pelo menos
75% dos dados acima dele, usa-se
15100
60.25
==L
Por se tratar de um nmero inteiro, deve-se usar os valores de
15 e 16, ou seja, 4,76 e 4,78.
77,42
78,476,425 =
+=P , logo o primeiro quartil Q1 4,77.
O percentil de ordem 78 (P78) deixa pelo menos 78% dos
dados abaixo, ou seja
8,46100
60.78==L , sendo decimal
deve-se arredondar para 47, logo o valor de P78 o que ocupa essa posio no
conjunto, 5,18, ento P78= 5,18.
Para finalizar, sabendo que o percentil 95 do coeficiente de
liquidez igual a 7,25, isto , P95= 7,25. Isto significa que cerca de 5% dos
coeficientes da amostra tm valores acima de 7,25.
-
5/26/2018 Material Didatico
20/45
Unopar Virtual
20
8.5 BoxplotUm tipo de grfico muito til para a descrio de dados,
visualizao de sua variabilidade, comparao entre diferentes grupos o
grfico em caixas, boxplot, em ingls. Foi introduzido pelo estatstico americano
John tukey em 1977.
Para a construo do boxplotobtm-se primeiro as seguintes
estatsticas: 1o quartil (Q1), mediana (Q2), 3o quartil (Q3) e a distncia
interquartlica (DQ), definida como DQ = Q3 Q1. O boxplot obtido seguindo-
se os seguintes passos:
1. Numa reta so marcados o 1oquartil (Q1), a mediana (Q2) e o 3oquartil (Q3).
2. Acima dessa reta constri-se um retngulo com limites iguais s posiesdo primeiro e terceiro quartis, cortado por um segmento de reta na posio
relativa mediana.
3. A partir dos limites do retngulo, traam-se linhas at:
a) encontrar um extremo (valor mximo ou mnimo) ou
b) um valor correspondente a 1,5 DQ, se o extremo correspondente estiver
a mais de DQ do quartil respectivo.
Os pontos que esto mais de 1,5 DQdo quartil corresponde at 3,0 DQ,
so chamados de pontos externose os que esto a mais de 3,0 DQ, pontos
soltos. Existem smbolos especiais para representar no boxplot os pontos
externos e soltos respectivamente. Um esquema de boxplot apresentado na
ValoreQ3MQ1
Ponto
0
PontoValor
1,5 DQ Valores
3,0DQ
-
5/26/2018 Material Didatico
21/45
Unopar Virtual
21
figura abaixo:
Figura 2 Esquema para construo do boxplot
O boxplot tambm fornece informaes importantes sobre o
comportamento do conjunto de dados, como simetria e variabilidade. Se aamplitude for muito maior que a distncia interquartlica e a mediana estiver
mais prxima do 1o quartil do que do 3o quartil, h forte indicaes de
assimetria positiva e de grande disperso das observaes.
Exemplo: Tendo a seguinte amostra:
3 15 17 18 21 21 22 25 27 30
38 49 68Xmin= 3 Q1= 18 Md= 22 Q3= 30 Xmax= 68 DQ = 12
Observaes atpicas(outlier)
muito comum aparecerem entre os dados coletados,
observaes atpicas (outliers), isto , valores muito grande ou muito pequeno
em relao aos demais. Um conjunto de dados pode apresentar apenas um ou
vrios outliers.
Observaes atpicas alteram enormemente as mdias e
variabilidade dos grupos a que pertencem e podem at mesmo distorcer as
concluses obtidas atravs de uma anlise estatstica padro. Portanto, de
fundamental importncia detectar e dar um tratamento adequado a elas.
sempre boa a prtica fazer-se uma inspeo dos dados no incio da anlise
estatstica. Tcnicas descritivas de dados tm um papel importante nesta fase.
Causas do aparecimento de outliers
Dentre as possveis causas do aparecimento de outliers,
podem-se citar as seguintes:
3 15 17 18 21 22 25 27 30 38 49 68
* 0
-
5/26/2018 Material Didatico
22/45
Unopar Virtual
22
Leitura, anotao ou transio incorreta dos dados. Erro na execuo do experimento ou na tomada da medida. Mudanas no controlveis nas condies experimentais ou dos pacientes. Caracterstica inerente varivel estudada (por exemplo, grande
instabilidade do que est sendo medido).
Como detectar outliersAs questes bsicas so quais observaes devem ser
consideradas como outliers e como detecta-los. Existem procedimentos pararesponder a essas perguntas.
Os outliers podem ser detectados simplesmente por umaverificao lgica dos dados, atravs de grficos especficos ou ainda atravsde teste apropriados. Uma forma grfica usual o boxplot.
Na verificao lgica dos dados, pode-se testar se as
observaes esto dentro de faixa de valores esperados, confirma-seclassificaes dos dados, entre outros procedimentos. Em conseqncia possvel eliminar inconsistncias e erros encontrados.
Exemplo:
TABELA Distribuio do tempo de adaptao em uma atividade X
PorcentagemTempo (meses) Freqnciaabsoluta
Simples Acumulada2 10 19,60 19,60
3 28 54,90 74,50
4 10 19,60 94,10
5 1 1,96 96,06
6 1 1,96 98,02
17 1 1,96 100,00
Total 51 100,00
O valor 17 meses est muito fora do padro (3 meses segundo
a literatura), o que confirmado no boxplotabaixo:
2 3 6 9 12 15 18
* 0
-
5/26/2018 Material Didatico
23/45
Unopar Virtual
23
Grfico 4 Boxplotda idade ao firmar a cabea (meses)
Foram identificados dois outliers: um ponto externo (o valor 6) e
um ponto solto (o valor 17). Baseado na experincia, o primeiro valor detectadono foi tido como aberrante e assim optou-se por no retira-lo da anlise. O
funcionrio que levou 17 meses para se adaptar atividade apresentava
dificuldade motora.
Medidas a serem tomadas
Quando um outlier detectado, duas medidas podem ser
tomadas abandona-lo ou conserva-lo. Existem justificativas para cada umadessas medidas e o tipo de anlise pode variar, dependendo se o outlierfoi ou
no eliminado.
Um outlierdeve ser eliminado da anlise quando houver uma
justificativa convincente para isto, por exemplo, quando a observao
incorreta ou houve erro na execuo do experimento ou na medida tomada.
Aps a eliminao do outlier pode-se fazer a anlise estatstica usando-se
apenas as observaes restantes, ou uma anlise mais sofisticada, que fogeao nvel deste texto.
Por outro lado, se nenhuma explicao pode ser dada
observao atpica, o outlierpode refletir uma caracterstica do que est sendo
estudado. Neste caso, tal observao deve ser includa na anlise e um
tratamento especial deve ser dado aos dados. Por exemplo, pode-se usar uma
ponderao da influncia das observaes ou alternativamente uma
transformao ( x , log, x, etc.) da varivel estudada.
8.6 AssimetriaEmbora as medias de posio e de variao possibilitam
descrever estatisticamente um conjunto de dados, necessrio verificar como
est se comportando de forma geral essa distribuio, o que possvel atravs
da distribuio de freqncia e de histograma. Sendo que as distribuies
possam tomar praticamente qualquer forma, a maioria que se encontra na
prtica so discretas por alguns tipos padro.
-
5/26/2018 Material Didatico
24/45
Unopar Virtual
24
de suma importncia que a distribuio seja em forma de
sino, ou seja, uma distribuio simtrica, pois metade da esquerda do seu
histograma aproximadamente a imagem-espelho da metade direita.
As distribuies consideradas assimtricas apresentam umacauda em uma das extremidades, quando est direita, positivamente
assimtrica, e se est esquerda, negativamente assimtrica.
Pode-se utilizar o coeficiente de assimetria de Pearson, que
dado por:
padrodesvio
medianamdiaSK
=)(3
Para uma distribuio perfeitamente simtrica, o valor de SKzero, de modo geral, os valores SKsituam-se entre 3 e 3.
Negativamente assimtrica
Simtrica em forma de Sino Positivamente assimtrica
-
5/26/2018 Material Didatico
25/45
Unopar Virtual
25
9 CORRELAO E REGRESSO
9.1 Introduo
Em muitas situaes de negcios, razovel sugerir que existam relaes entre as
variveis. Por exemplo, seria lgico supor que as vendas de um item produzido em
massa estejam relacionadas com seu preo e despesas de propaganda.
Para propsitos de tomada de deciso, til identificar se
existe uma relao linear entre duas variveisou entre mais de duas variveis
e, se apropriado, quantificar sua fora. Uma relao entre duas variveis pode
ser identificada por meio de um grfico chamado diagrama de disperso, e
sua fora pode ser quantificada utilizando-se uma medida estatstica chamada
de coefic iente de correlao.
Uma vez verificado que existe associao entre duas variveis,
pode ser muito til produzir um modelo de previso que possa ser utilizado
para prever uma varivel se a outra for conhecida, por exemplo, pode ser
possvel prever as vendas se as despesas com propaganda forem conhecidas.Pode-se, tambm, uma varivel est associada com duas ou mais variveis,
como por exemplo, os gastos da famlia em funo da renda e do nmero de
dependentes.
Diagrama de disperso
Um diagrama de disperso simplesmente uma representao
de pontos de dados em um grfico X-Y.
O eixo y utilizado para representar a varivel dependenteque
interessa a quem toma as decises, enquanto o eixo x para representar uma
varivel que pode ser controlada ou mediada por quem toma as decises,
chamada de varivel independente, como mostra o diagrama abaixo.
-
5/26/2018 Material Didatico
26/45
Unopar Virtual
26
0
50
100
150
200
250
300
0 5 10 15 20 25 30 35
Propaganda (R$)
Vendas(R$)
Diagrama de disperso das vendas e dos gastos com propaganda
No diagrama de disperso acima, nota-se que quanto mais
dinheiro for gasto em propaganda, maior ser o valor das vendas. O padro
dos pontos forma aproximadamente uma reta, sugerindo que possvel que
exista uma associao linear entre as duas variveis (vendas e propaganda).
Dependendo das variveis consideradas, a relao entre elas
pode ser fortemente linear, no linear ou mesmo inexistente. Portanto, um
diagrama de disperso uma primeira indicao til da possvel existncia de
uma associao entre duas variveis.
Relaes causaisAntes de realizar uma anlise mais profunda, relevante
levantar hipteses sobre a possibilidade da relao de causa e efeito entre as
variveis envolvidas e identificar claramente qual a varivel dependente.
Logo muito importante ser capaz de justificar com antecedncia que a
varivel y seja o efeitoresultante das mudanas em x, a varivel causa.
-
5/26/2018 Material Didatico
27/45
Unopar Virtual
27
9.2 Coefic ientes de correlao
A anlise de correlao uma tcnica matemtica utilizada
para medir a fora de associao entre duas variveis. Essa medio leva em
considerao o grau de disperso entre os valores dados. Quanto menos
dispersos estiverem os dados, mais forte ser a relao, isto , a correlao
entre as variveis.
O coeficiente de correlao denotado pelo smbolo r e
somente pode assumir um valor entre 1 e + 1 inclusive. Portanto;
Se r = 1, a correlao positiva perfeita;
Se r = -1, a correlao negativa perfeita;
Se r = 0, a correlao nula.
0
10
0
200
300
400
0 10 20 30 40 50 60
X
Y
0
100
200
300
400
0 10 20 30 40 50 60
X
Y
0
100
200
300
400
0 10 20 30 40 50 60
X
Y
0
100
200
300
0 10 20 30 40 50 60
X
Y
Correlao linear positiva r = 1 Correlao linear positiva
Correlao linear negativa No h correlao r = 0
-
5/26/2018 Material Didatico
28/45
Unopar Virtual
28
Portanto, o coeficiente de correlao linear tem por objetivo
medir o grau de relao entre duas variveis (X, Y) e definido pela frmula:
=
])(].[)([ 2222 yynxxn
yxyxnr
onde -1 r 1
9.3 Regresso linear s imples
Em pesquisas estatsticas, o objetivo principal estabelecer
relaes que possibilitem predizer uma ou mais variveis em termos de outras.
Assim que se fazem estudos para predizer as vendas futuras de um produto
em funo do seu preo, ou vendas e os gastos com
propagandas.Naturalmente, o ideal seria que pudssemos predizer uma
quantidade exatamente em termos de outra, mas isso raramente possvel.
neste caso que a anlise de regresso tem sua utilidade, j que ela tem por
objetivo descrever atravs de um modelo matemtico, a relao entre duas
variveis, partindo de n observaes. Neste caso, a equao tem o formato:
y = a + bx, onde a e b so os parmetros.
Uma vez que se trabalha com amostra, deve-se determinar os parmetros a
e b, atravs do mtodo dos mnimos quadrados, tal que;
=
22 )( xxn
yxyxnb
n
xb
n
ya = ou xbya =
-
5/26/2018 Material Didatico
29/45
Unopar Virtual
29
EXEMPLO
Certa empresa, estudando a variao de vendas de seus produtos em relao
variao de despesas com propaganda, obteve a tabela:
Vendas (R$) 24 34 27 20 36 16 27 16 28 30Despesas com propaganda (R$) 7 12 10 5 13 4 8 4 9 11
a) Estimar a equao de regresso;b) Qual a Venda para despesas com propaganda de R$ 6;c) Qual a Venda para despesas com propaganda de R$ 15;d) Calcular o coeficiente de correlao.
SOLUO
a) y = 8,647 + 2,067 x
b) P/ x = R$ 6,00 y = R$ 21,00
c) P/ x = R$ 15,00 y = 39,646
d) r = 0,982
2 . - TESTES NO-PARAMTRICOSNa rea odontolgica vimos que so muitos usados o teste tde
student, a anlise de varincia, o teste de tukey, a regresso linear,etc.
Tais testes exigem, para sua aplicao que a varivel emanlise seja numrica e as hipteses sejam feitas sobre osparmetros, da o nome: testes paramtricos. Mas os testesparamtricos tem ainda outras exigncias.
Os testes paramtricos exigem uma distribuio normal ouaproximadamente normal, que seja simtrica, a pressuposio de
homogeneidade de varincias (homocedasticia)O teste de Tukey e outros paramtricos exigem as mesmas
pressuposies:(t, F, Duncan, Cheff, etc.)O problema existe quando estas exigncias no so satisfeitas e
as amostras so pequenas.Os testes no paramtricos so menos exigentes no exigindo
normalidade e podendo trabalhar com variveis no numricas assimcomo pode trabalhar com os postos ocupados pelas variveis ou comsuas freqncias.
-
5/26/2018 Material Didatico
30/45
Unopar Virtual
30
A lgica dos testes no-paramtricos
So de execuo mais simples que os paramtricos, todavia necessrio muito cuidado pois so menos poderosos (menos
robustos) possui menor probabilidade do que os paramtricos para arejeio da hiptese nula quando esta falsa e muitas vezes nopermitem fazer inferncias estatsticas na populao.
Portanto quando o pesquisador optar pela utilizao de umteste no-paramtrico porque as pressuposies para um testeparamtrico no esto satisfeitos e o pesquisador estar limitado aouso de um teste com menor poder.
2- 1. 1 . Escolha do teste adequado
Quando dispomos de vrias provas estatsticas para resolverdeterminado problema, ou para determinado projeto de pesquisa,como acostuma ocorrer, necessrio termos em critrio a saber, ocritrio do poder.
Uma prova estatstica pode ser considerada boa se tempequena probabilidade de rejeitar H0quando H0 verdadeira., pormgrande probabilidade de rejeitar H0quando H0 falsa. Vale lembrarque a hiptese a ser testada H0 e nunca H1 que a hiptesealternativa.
Todavia h outros fatores, alm do poder, a serem levados em
conta na escolha de uma estatstica como por exemplo: A maneira como a amostra de valores foi extrada. A natureza da populao da qual se extraiu a amostra. O tipo de mensurao ou escala empregada nas definies
operacionais das variveis envolvidas. Isto , o conjunto devalores numricos.Todos esses aspectos devem ser levados em conta quando da
determinao da prova tima ou mais adequada para analisardeterminado conjunto de dados de pesquisa.
Analisados os aspectos levantados anteriormente fazemos a
opo pela aplicao de testes paramtricos (mais fortes e robustos)ou testes no paramtrico quando certas condies no sosatisfeitas tais como:
As observaes no serem independentes a escolha dedeterminado elemento na incluso da amostra pode influir na escolhade outros elementos.
A observaes forem extradas de populaes que no possuemuma aproximao com as distribuies normais .
As populaes no possuem varincias semelhantes e noapresentam uma relao conhecida entre elas.
-
5/26/2018 Material Didatico
31/45
Unopar Virtual
31
As variveis em estudo no apresentam medidas nemintervalar de modo a no possibilitar o emprego de estatsticas comoo calculo de mdias e de desvios.
No possuem homocedasticidade no permitindo efetuar ascombinaes lineares dos efeitos.
2.1.1 - Vantagens e Desvantagens da aplicao de testesno paramtricos
2 .1 .1 .1 - V a n t a g e n s:1)As afirmaes probabilsticas decorrentes da maior parte das
provas estatsticas no-paramtricas so probabilidades exatas(salvo no caso de grandes amostras, em que dispomos deaproximaes excelentes) independentemente da forma dadistribuio da populao do qual se extraiu a amostraaleatria. Em certos casos algumas provas no-paramtricasadmitem que a distribuio bsica seja contnua suposioigualmente feita no caso de provas paramtricas;
2)Se utilizamos tamanho de amostras muito pequenas, como porexemplo n=6, no existe alternativa para o emprego de umaprova paramtrica a menos que conheamos exatamente anatureza da distribuio da populao;
3)H provas estatsticas no-paramtricas adequadas para otratamento de amostras constitudas de observaes de vriaspopulaes diferentes. Nenhuma das provas paramtricaspermite-nos tratar dados em tais condies, a no ser quebaseamos o estudo em suposies irreais;
4)As provas estatsticas no-paramtricas prestam-se no s aotratamento de dados apresentados em postos como tambmqueles cujos escores aparentemente numricos tm narealidade a fora de postos.(ex. Ao estudar o nvel deansiedade de dois indivduos A e B, podemos concluir que A mais ansioso que B sem entretanto saber o quanto mais?). Oque se faz efetuar uma classificao por postos, ou se podem
classificar como positivos e negativos (mais ou menos; melhorou pior). A aplicao de mtodos paramtricos nestes cursosno oferece uma anlise (sustentvel, consistente) poisteremos de fazer suposies precrias e mesma irreais, sobreas distribuies bsicas o que levaria a um resultado totalmenteinviezado.
5)Os dados no-paramtricos aplicam-se ao tratamentosimplesmente classificatrio, sendo mensurados em escalanominal. Nenhuma tcnica paramtrica pode aplicar-se a taisdados;
-
5/26/2018 Material Didatico
32/45
Unopar Virtual
32
6)As provas estatsticas no-paramtricas so essencialmentemuito mais fceis de aprender e de aplicar em relao asprovas paramtricas.
2.1.2 D e sv an t a g e n s.
1)Se todas as suposies associadas ao modelo estatsticoparamtrico so satisfeitas pelos dados, e se as mensuraestm o nvel requerido, ento o emprego de uma prova no-paramtrica representa um desperdcio de dados. O grau dedesperdcio se exprime atravs do poder-eficincia do mtodono-paramtrico;
2)Ainda no existem mtodos no-paramtricos para testar
interaes no modelo de anlise de varincia, a menos que sefaam suposies especiais quanto aditividade.
3 - O Teste de 2
O teste de 2serve para testar a hiptese de que duas variveiscategricas independentesou, o que matematicamente o mesmo,testar a hiptese de que duas probabilidades so iguais. Presteateno nas exigncias:
1. Independncia dos grupos em comparao: os doisgrupos em comparao devem ser independentes como,por exemplo, um grupo controle e outro experimental,ou um grupo constitudo por portadores de uma doenae outro por no-portadores.
2. Tamanho da amostra: a amostra deve ser de tamanhoigual ou maior do que 20. Se a amostra for menor que40, as freqncias esperadas devem ser maiores que 5.
Nenhuma freqncia esperada pode ser inferior a 1.
Exemplo: mais fcil entender como se faz o teste de 2usando umexemplo. Na tabela a seguir, esto apresentados os dados de umestudo comparativo entre o tratamento no-operatrio e a cirurgiaconservadora no trauma esplnico.Tabela-6 : Participantes da pesquisa segundo tipo de tratamento e o
fato de ocorrerem ou no complicaes
-
5/26/2018 Material Didatico
33/45
Unopar Virtual
33
Tratamento Complicaes Sem ocorrncia TotalNo-operatrio 3 29 32Cirurgiaconservadora
25 79 104
Total 28 108 136
Para fazer o teste 2:Primeiro passo: Estabelea o nvel de significncia. Seja =0,05. Ahiptese da nulidade a de que a probabilidade de complicaes amesma, quer se faa tratamento no-operatrio ou cirurgiaconservadora.Segundo passo: Calcule os totais marginaise o total geral. Na tabela6, os totais esto em negrito.Terceiro passo: Calcule a proporo de participantes que tiveramcomplicaes. Foram 28 casos, no total de 136 pacientes. Logo:
20588,0136
28 ==p
Quarto passo: Sob a hiptese de que o mtodo de tratamento notem efeito sobre a probabilidade de o paciente ter complicaes,espera-se que 0,20588 dos pacientes tratados por qualquer dosmtodos tenham complicaes. Calcule, ento, a freqncia esperadade pacientes no-operados com complicaes. Mas como: Bastamultiplicar 0,20588 por 32, que o nmero de pacientes no-operados. O resultado 6,588.Quinto passo: Calcule a freqncia esperada de pacientes operados
com complicaes. Basta multiplicar 0,20588 por 104, que onmero de pacientes operados. O resultado 21,412.Sexo passo: Calcule a proporo de participantes sem ocorrncia, no
total de participantes. So 108 casos, no total de 136 pacientes.
Ento:
79412,0136
108==
q
Agora fcil calcular a freqncia esperadade pacientes no-
operados sem ocorrncia: basta multiplicar 0,79412 por 32. Oresultado 25,412. A freqncia esperada de pacientes operadossem ocorrncia 0,79412 x 104 = 82,576. Escreva as freqnciasesperadasem uma tabela.Tabela-7 : Freqncia esperada de pacientes segundo o tipo de
tratamento e o fato de ocorrerem ou no complicaes
-
5/26/2018 Material Didatico
34/45
Unopar Virtual
34
Tratamento Complicaes Sem ocorrncia TotalNo-operatrio 6,588 25,412 32Cirurgiaconservadora
21,412 82,588 104
Total 28 108 136
Stimo passo: Se os eventos so independentes, as freqnciasesperadas apresentadas na tabela 7 devem ser iguais aos valoresapresentados na tabela 6. Voc ficaria surpreso se as freqnciasobservadas fossem exatamente iguais s esperadas, j que semprese onta com alguma diferena. Mas quanta diferena razovelesperar:
Para responder a essa pergunta voc precisa medir adiscrepncia entre as duas tabelas e testar se essa discrepncia maior do que a esperada por simples acaso. A medida o 2 dePearson, definido pela frmula:
E
EO2
2 )( =
que, no caso de uma tabela 2x2, est associado a (2-1)(2-1) = 1grau de liberdade.
Para o exemplo que estamos desenvolvendo, vem:
588,82
)588,8279(
412,21
)412,2125(
412,25
)412,2529(
588,6
)5888,63( 22222 +
+
+
=
1504,06012,05066,09541,12 +++=
2124,32 = Oitavo passo: Compare o valor calculado do 2 com o valor crtico,com 1 grau de liberdade e ao nvel de significncia estabelecido. Parao exemplo em discusso, o valor calculado de 2 3,21. O valorcrtico de 2com 1 grau de liberdade e ao nvel de significncia de 5% 3,84. Como 3,21 < 3,84, a concluso de que os dados obtidosnessa pesquisa no permitem rejeitar a hiptese de que tratamentono-operatrio e cirurgia conservadora, nos casos de traumaesplnico, tm o mesmo risco de ocorrncias.
Observao: Muitos estatsticos recomendam, nos casos de umatabela 2x2, calcular o valor de 2 com correo de continuidade. Aestatstica conhecida como 2 corrigido de Yates em honra aoestatstico que a props, Frank Yates, :
E
EO2
2)5,0(
=
Associada a (2-1)(2-1) = 1 grau de liberdade.A correo de continuidade produz um teste mais conservador,
isto , um teste que tem menor probabilidade de rejeitar a hiptesede nulidade. Se a amostra pequena, o efeito da correo de
continuidade ainda maior, isto , faz o pesquisador no rejeitar ahiptese de nulidade mais vezes.
-
5/26/2018 Material Didatico
35/45
Unopar Virtual
35
Para os dados da tabela 6, o valor de 2 com correo decontinuidade :
2= 2,38.
3.1- Medidas de Associao nas Tabelas 2x2
Os pesquisadores em geral consideram que a anlise estatsticaest pronta logo que terminam de aplicar o teste de 2. No deveria,porque importante estimar o grau de associao entre duasvariveis. Afinal de contas, o teste de 2 serve para verificar asignificncia da associao, mas no para medir o grauda associaoentre duas variveis.
Por que isso acontece? simples: a significncia de todo testeestatstico depende muito do tamanho da amostra. Com o teste de 2no acontece diferente: a significncia depende no s das diferenasentre as propores, mas tambm do tamanho da amostra. O graude associao, no entanto, independe do tamanho da amostra: funo das propores observadas. Veja como se o grau deassociao entre duas variveis no caso de uma tabela 2x2.
3.1.1- O Coeficiente
O coeficiente (l-se fi - uma letra grega) uma medida daassociao bastante conhecida e muito usado pelos pesquisadoresdas reas de psicologia e sociologia. definido por:
n
2
=
em que 2 o valor no-corrigido do teste de 2e n o tamanho da
amostra.;Voc interpreta o resultado do coeficiente da seguinte forma:1. Se for igual a 1 o que, no caso de , s acontece quando as
amostras so de mesmo tamanho a associao perfeita;2. Se for igual a zero, a associao nula;3. Quanto mais prximo estiver de 1, maior ser o grau de
associao entre as variveis, e, quanto mais prximo de zero,menor a associao. Como regra prtica, valores de menores que 0,30 ou 0,35 podem ser tomados comoindicadores de pequena associao.
-
5/26/2018 Material Didatico
36/45
Unopar Virtual
36
3.1.2 - O Coeficiente
O coeficiente (l-se gama - uma letra grega)mede o grau de associao com que duas categorias ordenadas de
variveis tendem a crescer e, portanto, decrescer juntas. Ocoeficiente definido por:( )( )bcad
bcad
+
=
Como o coeficiente varia entre 1 e +1, voc interpreta oresultado da mesma forma que interpreta o coeficiente de correlao:
1. Se for igual a 1 ou 1, a associao perfeita, positiva ounegativa;
2. Se for igual a zero, a associao nula;3. Quanto mais prximo estiver de 1, maior ser o grau de
associao positiva entre as variveis, e, quanto mais prximode 1, maior ser o grau de associao negativa entre asvariveis.
4 ANLISE DE VARINCIA
4.1 Introduo
Este estudo constitui uma extenso da seo diferenas entre mdias,considerando-se que as diferenas observadas de mais de duas mdiasamostrais podem ser atribudas ao acaso. Por exemplo, pode-se quererdeterminar, com base em dados amostrais, se h realmente diferena naeficcia de trs variedades de soja, ou se h diferena na quilometragemobtida com cinco tipos de gasolina, ou se existe alguma diferena nadurabilidade de seis marcas de tinta para pintura externa.
A anlise de varincia pode ser utilizada para abordar vrias questessimultaneamente. Quanto a variedade de soja, por exemplo, pode-se perguntar
tambm se os resultados observados so causados por tipos de sementes eno por causa dos diferentes lotes de terra. A abordagem desses problemasnos conduz ao Planejamento Experimental,que nos permite formular questesde real significado e submet-las a teste.
O experimento ser designado como planejamento completamentealeatorizado, pois a aleatorizao nos protege contra os efeitos dos fatores queno podem ser controlados de modo perfeito. O pesquisador no est isento daresponsabilidade de planejar cuidadosamente o experimento simplesmenteporque vai utilizar a aleatorizao. Em sntese, deve-se utilizar a aleatorizaomesmo que o pesquisador ache que todos os efeitos esto cuidadosamentecontrolados.
-
5/26/2018 Material Didatico
37/45
Unopar Virtual
37
4.2 Anlise de Varincia
A anlise de varincia uma tcnica que pode ser empregada paratestar as diferenas entre k mdias. Uma suposio bsica implcita na anlisede varincia que as diversas mdias amostrais so obtidas de populaes
normalmente distribudas e que tm a mesma varincia. O teste se baseianuma amostra extrada de cada populao e testa as seguintes hipteses aonvel de significncia .
Ho: As mdias das populaes so iguaisH1: As mdias das populaes no so iguais.
SUPOSIES: As amostras devem ser aleatrias independentes; As amostras devem ser extradas de populaes normais; As amostras devem ter varincias iguais.
4.3 Anlise de Varincia com um Fator ou Inteiramente Casualizada
O modelo da anlise de varincia de um fator se relaciona com teste dediferenas entre as mdias amostrais, quando os sujeitos so colocadosaleatoriamente em cada um dos diversos grupos de tratamento.
A equao que representa o modelo da anlise de varincia de um fator:
Xi j= + ti+ ei j,onde
= mdia geral do experimento;
ti= efeito do tratamento do grupo especfico, do qual foi amostrado;ei j= erro experimental, isto , erro aleatrio relacionado com o processode amostragem.
As observaes de cada grupo ou tratamento so tabeladas para facilitara anlise segundo as hipteses lanadas.
Tratamentos (I)Repeties (J) 1 2 . . . I
1 x11 x21 . . . xi1
2 x12 x22 . . . xi2M M M M J x1j X2j . . . xij
Total T1 T2 . . . TI G (Totalgeral)
Mdias 1x 2x . . . Ix
-
5/26/2018 Material Didatico
38/45
Unopar Virtual
38
Onde: =
=J
1jJ11
XT =
=J
1jJ22
XT =
=J
j
IJI XT1
=
==I
1i ijiji
XTG
Quadro de Anlise de Varincia e Teste F.
Para testar as hipteses constri-se o seguinte quadro de anlise de
varincia:
Fontes de
Variao (FV)
Graus de
liberdade (GL)
Soma de
Quadrados (SQ)
Quadrados
Mdios (QM) Fcal Ftab
Tratamentos GLT SQT QMT QMT/QMR 5 %
Resduos GLR SQR QMR
Total GLTo SRTo
GLT = I 1 GLR = I(J-1) GLTo = IJ - 1
==ij
ijJI
GCCXSQTo
22
CJ
TSQT
I
1i
2
i
= = SQR = SQTo SQT
1I
SQTQMT
=
)1J(I
SQRQMR
=
QMR
QMTF
cal = )]1();1[(; JIIFtab
Assim se Fcal< FtabAceita-se a hiptese nula (Ho), assim conclui-se
que as mdias das populaes so iguais ao nvel de significncia . Caso
contrrio, isto , Fcal > Ftab Rejeita-se (Ho), logo as mdias populacionais
so diferentes.
No caso de rejeio de Ho, em nosso estudo, ser utilizado o teste de
Tukey, para verificar onde existem diferenas das mdias.
1 -
F5%
-
5/26/2018 Material Didatico
39/45
Unopar Virtual
39
4.4 Teste de Tukey
Quando no teste F rejeitar a hiptese nula (H0), pode-se fazer umacomparao entre as mdias, pois de acordo com hiptese alternativa (H1), as
mdias populacionais no so iguais. Assim devero ser encontradas asdiferenas consideradas significativas e, uma das maneiras atravs do testede Tukey, o qual consiste comparar as mdias duas as duas atravs de sua
diferena em valor absoluto: ,iiK xxD = , com a diferena mnima
significativa que dada por:
J
QMRq .= , onde q a amplitude total estudentizada, cujo valor
encontrado nas tabelas, em funo do nmero de tratamento (I) e do nmerode graus de liberdade do resduo, geralmente ao nvel 5% de probabilidade q [I; I(J 1)]
Se Dk > , conclui-se que existe diferena significativa ao nvel deprobabilidade testada, indicando que as duas mdias testadas diferem entre sia esse nvel de probabilidade.
4.5 Anlise de Varincia com dois Fatores ou Blocos Completos
Casualizados
A anlise de varincia com dois fatores est baseada em dois conjuntosde classificaes ou tratamentos. Por exemplo, analisar o rendimento de umasafra de soja, poderia considerar ambos os efeitos, a variedade da sementeutilizada (Tratamentos) e os diferentes lotes de terra (Blocos).
A equao que representa o modelo da anlise de varincia de doisfatores :
Xi j= + ti + bj+ ei j,
onde
= mdia geral do experimento;
ti= efeito do tratamento, do qual foi amostrado;bj= efeito do bloco, do qual foi amostrado;ei j= erro experimental, isto , erro aleatrio relacionado com o processo
de amostragem.
Neste delineamento, o controle local representado pelos blocos, ondecada um deles inclui todos os tratamentos.
Os blocos devem ser os mais homogneos possveis, podendo haverdiferena entre eles.
Ressaltamos aqui que dentro de cada bloco, os tratamentos so
casualizados.Neste delineamento pode-se efetuar as seguintes hipteses:
-
5/26/2018 Material Didatico
40/45
Unopar Virtual
40
a) Para o primeiro fator TratamentosHo: As mdias das populaes so todas iguaisH1: Pelo menos duas mdias das populaes diferem entre si.
b) Para o segundo fator BlocosHo: As mdias das populaes so todas iguaisH1: Pelo menos duas mdias das populaes diferem entre si.
As observaes de cada grupo ou tratamento so tabeladas para facilitar
a anlise segundo as hipteses lanadas.
Tratamentos (I)
Blocos (J)1 2 . . . I
Total bloco
Mdias1 x11 x21 . . . xi1 B1 1x
2 x12 x22 . . . xi2 B2 2x
M M M M M M
J x1j x2j . . . xij Bj Jx
Total tratamento T1 T2 . . . TI G
Mdias 1x 2x . . . Ix
Quadro de Anlise de Varincia e Teste F.
Para testar as hipteses constri-se o seguinte quadro de anlise de
varincia:
Fontes de
Variao (FV)
Graus de
liberdade (GL)
Soma de
Quadrados (SQ)
Quadrados
Mdios (QM)
Fcal Ftab
Tratamentos GLT SQT QMT QMT/QMR 5 %
Blocos GLB SQB QMB QMB/QMR 5 %
Resduos GLR SQR QMR
Total GLTo SRTo
GLT = I 1 GLB = J-1 GLR = (I-1)(J-1) GLTo = IJ - 1
==ij
ijJIGCCXSQTo
22
-
5/26/2018 Material Didatico
41/45
Unopar Virtual
41
CJ
T
SQT
I
i
i
=
=1
2
CI
B
SQB
J
j
j
=
=1
2
SQR = SQTo SQT SQB
1= ISQT
QMT 1= JSQB
QMB )1)(1( = JISQR
QMR
QMR
QMTFcalT= )]1)(1();1[( JIIF Ttab
QMR
QMBFcalB= )]1)(1();1[( JIJF Btab
Assim se Fcal < Ftab, aceita-se a hiptese nula (Ho), conclui-se que as
mdias das populaes so iguais. Caso contrrio, rejeita-se Ho, isto , existepelo menos duas mdias que diferem entre si. Neste caso deve-se aplicar oteste de Tukey.
4.6 -Teste de Tukey
Como j visto, quando no teste F rejeitar a hiptese nula (H0), pode-sefazer uma comparao entre as mdias, pois de acordo com hiptesealternativa (H1), as mdias populacionais no so iguais. Assim devero serencontradas as diferenas consideradas significativas e, uma das maneiras atravs do teste de Tukey, o qual consiste comparar as mdias duas as duas
atravs de sua diferena em valor absoluto: ,iiK xxD = , com a diferenamnima significativa que dada por:
a) Para os tratamentos: Aplica-se o teste de Tukey, tomando suasmdias duas a duas para verificar se existe diferena significativa, tal que:
J
QMRq .= , onde q [I; (I 1)(J 1)]
b) Para os blocos: Aplica-se o teste de Tukey, tomando suas mdias
duas a duas para verificar se existe diferena significativa, tal que:
I
QMRq .= , onde q [J; (I 1)(J 1)]
O procedimento de Tukey um complemento ANOVA e visa aidentificar quais as mdias que tomadas duas a duas, diferemsignificativamente entre si O mtodo de Tukey protege os testes de umaumento no nvel de significncia devido ao grande nmero de comparaesefetuadas. O que ocorreria com o teste t conforme mostra tabela a seguir.
1 -
FTab
-
5/26/2018 Material Didatico
42/45
Unopar Virtual
42
Tabela -1 Probabilidade de se cometer ao menos um erro do tipo I, usandotestes t para comparar duas a duas todas as mdias de umexperimento com k grupos
Nvel de significncia usado no testeNmero de
mdias (K) 0,05 0,01 0,001
2
3
4
5
6
10
0,05
0,14
0,26
0,40
0,54
0,90
0,01
0,03
0,06
0,10
0,14
0,36
0,001
0,003
0,006
0,010
0,015
0.044
Fonte: Zar,1999; p.178.
Intervalo de confiana para a mdia de um tratamento , ser dado por:
nr
sduoQMresduotX
Re),(
Exemplo: Plantam-se quatro tipos diferentes de semente de soja em cinco
lotes. A tabela abaixo indica a produo de soja em saca por alqueire. Ao nvel
de 5%, teste se a produo varia significativamente devido variedade da soja
(tratamento) e devido ao solo (bloco).Se houver variao, aplicar o teste de
Tukey.
Tratamento
Blocos I II III IV
A
B
C
D
E
150
190
180
160
170
120
150
140
110
160
100
120
150
120
110
140
110
120
160
140
-
5/26/2018 Material Didatico
43/45
Unopar Virtual
43
Exemplo: Resolvido usando o Excel:
Tabela 2 Comparao entre trs analgsicos na reduo de dor ps-
operatria controlando por classe de idade dos pacientes.
Analgsico A B C Total b loco
Classe de
idade
I
II
II
IV
0
1
2
3
5
5
7
8
1
0
3
3
6
6
12
14
Total de
Tratamento
6 25 7 38
2
x 14 163 19 196
x 1,5 6,25 1,75
Efetuar a anlise de varincia e se necessrio aplicar o
teste Tukey.
RESUMOGrupo Contagem Soma Mdia Varincia
A 4 6 1,5 1,666667
B 4 25 6,25 2,25C 4 7 1,75 2,25
ANOVAFonte davariao SQ gl MQ F valor-P F crtico
Entre grupos 57,16667 2 28,58333 13,90541 0,001767 4,256495Dentro dosgrupos 18,5 9 2,055556
Total 75,66667 11
-
5/26/2018 Material Didatico
44/45
Unopar Virtual
44
Tabela 3 tempo gasto por trs estagirios comparados com tempos de
profissionais com 5anos de experincia.
Tratamento
A B C CONTROLE TOTAL
25
21
29
24
31
32
25
18
19
22
20
17
23
16
Anova: fator nico
RESUMOGrupo Contagem Soma Mdia Varincia
A 3 75 25 16B 3 87 29 19C 4 84 21 10CONTROLE 4 76 19 10
ANOVAFonte davariao SQ gl MQ F valor-P F crtico
Entre grupos 200 3 66,66667 5,128205 0,021032 3,708265Dentro dosgrupos 130 10 13
Total 330 13
-
5/26/2018 Material Didatico
45/45
Unopar Virtual
45
Tabela 15 Nmero de repeties, d.m.s, de Tukey e valor absoluto da
diferena das mdias dos estagirios e do controle.
Comparao N o de
repeties
d.m.s Valor absoluto da
diferena
A B
A-C
A Controle
B-C
B Controle
C - Controle
3:3
3:4
3:4
3:4
3:4
4:4
9,01
8,43
8,43
8,43
8,43
7,83
42925 =
42125 =
61925 =
82129 =
*
101929 =
21921 =
Observe que apenas o tratamento B difere do controle os demais no
apresentam diferenas estatsticas significativas.
Teste de Tukey: d.m.s = q .2
11 Qmr
rjri
+