Estatistica Descritiva

35
UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE MATEMÁTICA - DEPARTAMENTO DE ESTATÍSTICA MAT 027 - ESTATISTICA IV APOSTILA 1: ESTATISTICA DESCRITIVA 1

description

Introdução a estatistica Apostila 01: estatistica descritiva Mat027apostila1; unidade I

Transcript of Estatistica Descritiva

Page 1: Estatistica Descritiva

UNIVERSIDADE FEDERAL DA BAHIAINSTITUTO DE MATEMÁTICA - DEPARTAMENTO DE ESTATÍSTICA

M A T 0 2 7 - E S T A T I S T I C A I V

A P O S T I L A 1: E S T A T I S T I C A D E S C R I T I V A

1

Page 2: Estatistica Descritiva

PREFÁCIO

Prefácio à primeria versão

A atual estrutura complexa de nossa sociedade introduziu a necessidade de um estudo cada vez mais de-talhado acerca das informações disponíveis. Assim, todos os cursos da Universidade têm, em algum momento,necessidade de fazer uso da Estatística, como metodologia, dado o caráter quantitativo de grande parte daspesquisas realizadas.

Assim, em alguma fase de seu trabalho, o pesquisador se vê às voltas com o problema de analisar e entenderuma massa de dados, relevante ao seu particular objeto de estudos. Se forem informações sobre uma amostraou população, ele necessitará resumir os dados para que estes sejam informativos, ou para compará-los comoutros resultados, ou ainda para julgar sua adequação a alguma teoria.

Segundo BERQUÓ et alii (1981), o papel da Estatística na pesquisa científica está em contribuir juntoao investigador: na formulação das hipóteses científicas e fixação das regras de decisão; no fornecimentode técnicas para um eficiente delineamento de pesquisa; na coleta, tabulação e análise dos dados empíricos(estatística descritiva) e em prover testes de hipóteses a serem realizados de tal modo que a incerteza dainferência indutiva possa ser expressa em um nível probabilístico pré-fixado (estatística indutiva).

Este curso de estatística de apenas um semestre objetiva primordialmente que o aluno conheça a linguagem(”jargão” da estatística) e as palavras-chave para poder trocar idéias e/ou consultar um estatístico, bem comoque o aluno tenha o mínimo conhecimento técnico para realização de uma futura análise, fornecendo com certasegurança as interpretações dos dados. Além disso, esse conhecimento permitirá uma leitura mais crítica deartigos de sua área de interesse.

Esperamos que, apesar da abordagem ampla e superficial, este curso possa contribuir para a formação dosfuturos licenciados e bacharéis no que tange à metodologia estatística.

Leila Denise Alves Ferreira em 2001.

Prefácio à segunda versão

Esta nova versão da apostila do curso Estatística IV, uma disciplina ministrada essencialmente aos alunosde graduação da área de saúde na UFBa, reapresenta o material inicialmente proposto pela professora Leila,agora com algumas correções que se fizeram necessárias a partir das experiências vividas pelos professores quea utilizou nesses 4 últimos semestres. Fundamentalmente, as diferenças entre as duas versões dizem respeito aalgumas falhas de impressão, detectadas principalmente em algumas fórmulas, além das figuras que receberamnova definição visual. A versão on line, agora apresentada no formato ’pdf’, pode ser ”baixada” a partir doendereço: www.est.ufba.br/mat027.

O curso está dividido em três módulos: Estatística Descritiva, Probabilidade e Inferência, cujo objetivoé proporcionar ao aluno o conhecimento básico de Estatística para uso em situações relacionadas com o seucampo de estudo.

Maristela D. de Oliveira e Angelo Marcio O. Sant’anna em 2002.

2

Page 3: Estatistica Descritiva

1 Introdução

A palavra estatística deriva da expressão status, em latim, e significa o ”estudo do estado”. Foi pensada pelosingleses, no século XVI, como uma ciência política, destinada a descrever características de um estado ou país,tais como população, área, riqueza e recursos naturais (Laurenti et al. 1985), envolvendo compilações de dadose gráficos. Em 1662, John Graunt publicou informes estatísticos sobre nascimentos e mortes. A partir daí deu-se início ao desenvolvimento da probabilidade e estatística, sobretudo a partir do século XVII, com o estudo dasgrandes epidemias que assolavam o mundo, dando ensejo ao desenvolvimento da demografia. Em cada séculoseguinte mais e mais áreas foram se incorporando ao conjunto das que faziam uso da estatística. Na últimadécada, com a grande revolução da informática, houve um avanço significativo das áreas de probabilidade eestatística, com o desenvolvimento de softwares mais poderosos, deixando à disposição do pesquisador muitasferramentas alternativas ao seu trabalho (BOTTER, et alii, 1996)

Hoje em dia a maior parte das decisões tomadas em quase todas as áreas de atividade humana moderna(por exemplo, avaliação de novos tratamentos médicos e de novos terminais de atendimento bancário, doplanejamento de pesquisas científicas, de estratégias de marketing e investimento, para citar algumas) têmsuas bases na estatística - definida, a grosso modo, como a coleta, análise e interpretação de dados, ou deforma mais ampla, como a ”ciência da tomada de decisão perante incertezas”.

Como já foi dito anteriormente, a Estatística engloba um grande leque de ferramentas de análise. Comfinalidade didática iremos dividir a estatística em dois grandes grupos:

a) Estatística Descritiva: Por conta da quantidade de dados geralmente ser tão grande, é extremamentedifícil captar intuitivamente as informações que os dados contêm. É necessário, portanto, que as informaçõessejam reduzidas até o ponto em que se possa interpretá-las mais claramente. A estatística descritiva vairesumi-las através do uso de certas medidas-síntese, que tornem possível a interpretação de resultados. Nosentido mais amplo, suas funções são:

• coleta de dados;• organização e classificação destes dados;• apresentação através de gráficos e tabelas;• cálculo de coeficientes (estatísticos), que permitem descrever resumidamente os fenômenos.

b) Indutiva ou Inferência Estatística : Consiste em obter e generalizar conclusões; ou seja, inferirpropriedades para o todo com base na parte, no particular. É tratada através de técnicas e métodos que sefundamentam na Teoria das Probabilidades.

• Em estatística utilizaremos extensivamente os termos população e amostra. Assim, definiremos essestermos no contexto da estatística:

• População: conjunto da totalidade dos elementos (valores, pessoas, medidas) a serem estudados. Con-grega todas as observações que sejam relevantes para o estudo de uma ou mais características dosindivíduos. Podem ser tanto seres animados ou inanimados.

• Amostra: um subconjunto de elementos extraídos de uma população.

• Censo: é uma coleção de dados relativos a todos os elementos de uma população.

O esquema a seguir tenta sintetizar, com um exemplo, as etapas de uma pesquisa estatística:

3

Page 4: Estatistica Descritiva

População Amostra

Tratamento de dados

Inferência estatística Estatística descritiva

Teoria das probabilidades

2 ESTATÍSTICA DESCRITIVA

2.1 FASES DO TRABALHO ESTATÍSTICO

A estatística está envolvida em todas as etapas de um projeto de pesquisa. A seguir as fases de um trabalhocientifíco são citadas do ponto de vista do trabalho estatístico.

As fases do trabalho estatístico são do âmbito da Estatística Descritiva, e são as principais fases asseguintes:

1. Definição do Problema: formulação completa do problema a ser estudado. Levantamento de outrostrabalhos realizados no mesmo campo e análogos, uma vez que parte da informação de que se necessitapode ser encontrado nestes últimos.

2. Planejamento: determinação do procedimento necessário para resolver o problema e, em especial, comolevantar informações sobre o assunto objeto de estudo. Preocupação com a formulação correta dasperguntas, qualquer que seja a modalidade de coleta de dados. É nesta fase que será escolhido otipo de levantamento a ser utilizado, que pode ser censitário ou por amostragem. Outros elementosimportantes a serem pré-estabelecidos desta fase são: o cronograma das atividades (fixação de prazopara as várias fases); os custos envolvidos; exame das informações disponíveis; o delineamento da amostra(se necessária); a forma como serão escolhidos os dados; elaboração do questionário.

3. Coleta de dados (quesitos específicos para obter informações desejadas): refere-se à obtenção, reuniãoe registro sistemático de dados, com um objetivo determinado. Além dos registros feitos pelo própriopesquisador, pode-se recorrer a fontes externas de dados.

4. Crítica dos questionários: leitura dos questionários, observação de respostas incompletas, erradas. Su-pressão de valores estranhos ao levantamento.

5. Apuração dos dados: consiste em resumir os dados, através de sua contagem e agrupamento. É umtrabalho de condensação e de tabulação dos dados, que chegam ao analista de forma desorganizada,tornando impossível a tarefa de apreender todo o seu significado pela simples leitura. Nos dias atuaisesta apuração tornou-se sinônimo de organização de base de dados, que é realizada em computadores.

6. Apresentação dos Dados: há duas formas de apresentação:

4

Page 5: Estatistica Descritiva

(a) Apresentação Tabular: apresentação numérica dos dados. As tabelas têm a vantagem de conseguirexpor, sinteticamente, e em um só local, os resultados sobre determinado assunto, de modo a seobter uma visão global mais rápida daquilo que se pretende analisar.

(b) Apresentação Gráfica: constitui uma apresentação geométrica. É de extrema importância, nosentido de permitir uma visão rápida, fácil e clara do fenômeno e sua variação.

7. Análise e Interpretação dos Dados: O interesse maior consiste em tirar conclusões que auxiliem opesquisador a resolver seu problema. A analise dos dados estatísticos está ligada essencialmente aocálculo de medidas, cuja finalidade principal é descrever o fenômeno. Assim, o conjunto de dadosa ser analisado pode ser expresso por números-resumos, as estatísticas, que evidenciam característicasparticulares desse conjunto. O significado exato de cada um desses valores será explicado posteriormente.

2.2 CLASSIFICAÇÃO DE VARIÁVEIS

Definiremos variável como qualquer atributo/característica que exerça influência no fenômeno estudado. Porexemplo, desejamos registrar a idade das pessoas ao morrer, a estatura ou peso dos indivíduos, o rendimentodas famílias em uma grande cidade, o número de empregados dispensados, por mês, em uma grande empresa,a distribuição dos alunos por sexo, etc.

Antes da escolha da análise descritiva apropriada é necessária a classificação da variável de interesse, poisa adequação da técnica está diretamente relacionada ao tipo de variável em questão.

De acordo com a estrutura numérica as variáveis podem ser classificadas em:

• Quantitativas - se os resultados das observações serão expressos sempre através de números, que repre-sentam contagens ou medidas. Ex: Idade, Altura, Peso, Número de nascidos vivos, População.

• Qualitativas - se os resultados das observações serão expressos através de categorias, que se distinguempor alguma característica não-numérica. Ex: Sexo, Nível de escolaridade, Cor da pele, Estado civil,Tipo sanguíneo.

As variáveis qualitativas podem ser classicadas, por sua vez, em:

1. Nominal - caracteriza-se por dados que consistem apenas em nomes, rótulos ou categorias. Os dadosnão podem ser dispostos segundo um esquema ordenado. Ex: Estado civil

2. Ordinal - envolve dados que podem ser dispostos em alguma ordem, mas as diferenças entre os valoresdos dados não podem ser determinadas ou não tem sentido. Ex: Nível de escolaridade.

Em relação às variáveis quantitativas, estas podem ser classificadas em:

1. Discreta - só pode assumir valores pertencentes a um conjunto finito ou enumerável. Ex: Número dealunos presentes às aulas de determinado professor; número de mortos em um surto de determinadadoença. Geralmente, seus valores são resultados de um processo de contagem, razão pela qual seusvalores são expressos através de números inteiros não-negativos.

2. Contínua - pode assumir qualquer valor pertencente a um determinado intervalo do conjunto dos Reais.Ex: Estatura e peso de atletas de um time de voley; temperatura máxima diária. Pode-se dizer que avariável contínua resulta normalmente de mensurações.

5

Page 6: Estatistica Descritiva

2.3 TIPOS DE SÉRIES ESTATÍSTICAS

Série estatística é uma sucessão de dados estatísticos que medem a intensidade do fenômeno, segundo suascaracterísticas qualitativas ou quantitativas. As séries estatísticas serão classificadas de acordo com a variaçãode três elementos: tempo, local e o fato. São elas:

• Série Histórica - É aquela em que o elemento que serve como base de classificação é a fração do tempo,como o dia, o mês, o ano, o século, etc.. Ex: : Taxa de mortalidade infantil nos últimos 10 anos nacidade do Salvador-Ba.

• Série Geográfica - É aquela que apresenta como elemento variável somente o local (fator geográfico).Ex: A produção de cereais no Brasil, em 1996, segundo os Estados produtores.

• Série Específica - É aquela série que apresenta como elemento ou caráter variável o fato(ou espécie), per-manecendo fixos a época e o local. Ex: Os alunos de uma Faculdade, em determinado ano, classificadossegundo o tipo sanguíneo.

• Série Mista - refere-se às séries que são combinações de outros tipos de séries já estudadas. Classificaçãoda população brasileira segundo as Unidades da Federação e o sexo.

2.4 APRESENTAÇÃO DOS DADOS

2.4.1 ELABORAÇÃO DE TABELAS

Após a apuração, há a necessidade de os dados e os resultados obtidos a partir daqueles serem dispostos deuma forma ordenada e resumida, a fim de auxiliar o pesquisador na análise e facilitar a compreensão dasconclusões apresentadas ao leitor. Os dados e os resultados são então apresentados na forma de tabelas.

Uma tabela deve ser auto-suficiente, isto é, deve ter significado próprio, de modo a prescindir, quandoisolada, de consultas ao texto. A elaboração de tabelas obedece à Resolução no 886, de 26 de outubro de 1966,do Conselho Nacional de Estatística.

Uma tabela possui elementos essenciais e complementares.Os elementos essenciais são:

• Título - É obrigatório. Deve conter a designação do fato observado, o local e a época em que foiregistrado. Deve ser claro e conciso. É colocado na parte superior da tabela.

• Corpo da tabela - É o conjunto de colunas e linhas onde se encontram as informações numéricas sobreo fato observado. Casa, célula ou cela - é o cruzamento de cada linha com uma coluna, onde se tem afrequência com que a categoria aparece.

• Cabeçalho - é a parte superior da tabela, onde se especifica o conteúdo de cada coluna.• Coluna indicadora - é a parte da tabela em que se especifica o conteúdo de cada linha.

• Os elementos complementares são:• Fonte - é a indicação da entidade responsável pelo fornecimento ou elaboração dos dados. É colocadono rodapé da tabela.

• Notas - são colocadas abaixo da fonte, se necessárias. Contém informações gerais destinadas a conceituarou esclarecer o conteúdo das tabelas.

• Chamadas - também colocadas no rodapé (se necessárias). Servem para esclarecer minúncias em relaçãoàs casas, colunas ou linhas.

6

Page 7: Estatistica Descritiva

Algumas observações fazem-se importantes na elaboração de uma tabela. São elas:

1. Nenhuma casa da tabela deve ficar em branco. Na ausência de um dado numérico, emprega-se alguns dossinais convencionais, como hífen, reticências, etc. (Veja explicação em sala de aula com seu professor).

2. As tabelas devem ser fechadas no alto e embaixo por linhas horizontais, não sendo fechadas à direita ouà esquerda por linhas verticais. É facultativo o emprego de traços verticais para a separação de colunasno corpo da tabela.

3. Em publicações que compreendem muitas tabelas, estas devem ser numeradas em ordem crescente,conforme a ordem do aparecimento.

4. Os totais e subtotais devem ser destacados.

5. Deverá ser mantida a uniformidade, quanto ao número de casas decimais.

2.4.2 DISTRIBUIÇÃO DE FREQUÊNCIA

As distribuições de frequências constituem-se num caso particular das séries estatísticas, nas quais todos oselementos são fixos. Agora os dados referentes ao fenômeno são apresentados através de gradações, onde éfeita a correspondência entre categorias ou valores possíveis e as frequências respectivas.

A definição de alguns conceitos será importante para o uso da linguagem apropriada ao elaborarmose analisarmos as distribuições de frequências. No total, são 9 conceitos a serem apresentados. A seguirdefiniremos 5 primeiros, válidos para quaiquer distribuição de freqüências, e mais adiante apresentaremos os4 últimos, específicos para dados agrupados em classes.:

1. Dados Brutos - É o conjunto dos dados numéricos obtidos após a coleta dos dados.

Ex: Idade dos alunos do curso de medicina veterinária da UFBA, no ano de 1993.

24 - 23 - 22 - 28 - 35 - 21 - 23 - 33 - 34 - 24 - 21 - 25 - 36 - 26 - 22 - 30 - 32 - 25 -

26 - 33 - 34 - 21 - 31 - 25 - 31 - 26 - 25 - 35 - 33 - 31

Como pode ser observado, os valores estão dispostos de forma desordenada. Em razão disso, poucainformação se consegue obter inspecionando-se os dados anotados. Mesmo uma informação tão simplescomo a de saber os valores mínimos e máximo requer um certo exame dos dados coletados.

2. Rol - É o arranjo dos dados brutos em uma determinada ordem crescente ou decrescente.

Ex: Utilizando os mesmos dados anteriores:

21 - 21 - 21 - 22 - 22 - 23 - 23 - 24 - 25 - 25 - 25 - 25 - 26 - 26 - 26 - 28 - 30 - 31 - 31 - 31 -32 - 33 - 33 -33 - 34 - 34 - 34 - 35 - 35 - 36

Apresenta vantagens concretas em relação aos dados brutos. Ela torna possível visualizar, de formabem ampla, as variações dos dados, uma vez que os valores extremos são percebidos de imediato. Mas,a análise com este tipo de disposição começa a se complicar quando o número de observações tende acrescer.

3. Amplitude total ou ”range” (A) - É a diferença entre o maior e o menor valor observado da variávelem estudo.

Ex: Utilizando os mesmos dados anteriores:

A = 36 - 21 = 15.

4. Frequência absoluta simples (fi) - É o número de vezes que o elemento aparece na amostra ou onúmero de elementos pertencentes a uma classe.

7

Page 8: Estatistica Descritiva

5. Frequência total (ft) - É a soma das frequências simples absolutas de todos os elementos observados.

Para condensarmos melhor os dados, é aconselhável a elaboração de distribuições de frequência. Umatabela com distribuição de frequência é uma tabela onde se procura fazer um arranjo dos valores e suasrespectivas frequências, onde a frequência de determinado valor será dado pelo número de observações ourepetições de um valor ou de uma modalidade. As tabelas de frequências podem representar tanto valoresindividuais como valores agrupados em classes.

Essas tabelas podem ser classificadas em:

• Distribuição de Frequências de Dados Tabulados Não-Agrupados em Classes - é uma tabelaonde os valores da variável aparecem individualmente. Esse tipo de distribuição é utilizado geralmentepara representar uma variável discreta, com pouca variedade de valores.

Exemplo : Utilizando os mesmos dados anteriores, a tabela a seguir representa a distribuição de frequênciasde dados não agrupados.

Tabela 1: Idade dos alunos do curso de medicina veterinária da UFBA, no ano de 1993.Idade (Xi) fi

21 322 223 224 125 426 328 130 131 332 133 334 335 236 1

TOTAL (fi) 30Fonte: (dados hipotéticos)

Este tipo de tabela não é aconselhável quando estamos trabalhando com variáveis que apresentam umagrande quantidade de valores distintos, uma vez que a tabela poderá ficar muito extensa, dificultando, alémde sua elaboração, as análises e conclusões dos dados pesquisados.

Note que a soma das frequências absolutas simples é sempre igual ao número total de valores observados.

• Distribuição de Frequências de Dados Agrupados em Classes.

Muitas vezes com o objetivo de resumir os dados originais em uma distribuição de frequências, utilizare-mos os dados agrupados em classes e não mais individualmente. Classe pode ser definida como sendo ossubintervalos da Amplitude Total de uma variável (grupo de valores).

Quando a variável objeto de estudo for contínua geralmente será conveniente agrupar os valores observadosem classes. Se, por outro lado, a variável for discreta e o número de valores representativos dessa variável formuito grande, recomenda-se o agrupamento dos dados em classes. Nesse último caso, o procedimento visa aevitar certos inconvenientes, como:

8

Page 9: Estatistica Descritiva

1. grande extensão da tabela, dificultando, tanto quanto os dados brutos, a leitura e a interpretação dosresultados apurados.

2. o aparecimento de diversos valores da variável com frequência nula.

3. impossibilidade ou dificuldade de visualização do comportamento do fenômeno como um todo, bemcomo de sua variação.

Este tipo de tabela informa, de imediato, a tendência de a série se concentrar em torno de um valor central,além de proporcionar uma visão panorâmica do comportamento da variável, o que seria impossível de se fazera partir da lista dos dados brutos.

Ex: Utilizando os mesmos dados anteriores, temos:

Tabela 2: Idade dos alunos do curso de medicina veterinária da UFBA, no ano de 1993.Idade Frequências (fi)

21 |– 24 724 |– 27 827 |– 30 130 |– 33 533 |– 36 9TOTAL 30Fonte: (dados hipotéticos)

O símbolo |– indica a inclusão do limite inferior do intervalo naquela classe.Outras possibidades são: –| , |–| , –Para construção de tabelas de frequência para dados agrupados em classe os 4 conceitos listados a seguir,

complementam os 5 primeiros já apresentados:

1. Definição do número de classes - É representado por k. É importante que a distribuição conte comum número adequado de classes. Se esse número for escasso, os dados originais ficarão tão comprimidosque pouca informação poderá ser extraída desta tabela. Se, por outro lado, forem utilizadas muitasclasses, haverá algumas com frequência nula ou muito pequena, apresentando uma distribuição irregulare prejudicial à interpretação do fenômeno.

Para determinar o número de classes há diversos métodos. Nós aprenderemos duas soluções:

(a) k = 5, para n ≤ 25 e k = √n , para n > 25.(b) Fórmula de Sturges: K = 1+ 3, 3 log10 n, onde n é o tamanho da amostra

Exemplo: Se n = 49 teríamos:

• pelo primeiro método: k = 7• pelo segundo método: k = 1 + 3, 3 log10 49 ==> k = 6, 58 ==> k ≈ 7Mesmo tendo outros critérios de determinação do número de classes, o que se deve ter emmente é que a escolha dependerá sobretudo da natureza dos dados e da unidade de medida emque eles se encontram, e não somente de regras muitas vezes arbitrárias e pouco flexíveis. Parafacilitar a análise é conveniente que se mantenham os intervalos de classe sempre constantes.

2. Limites de Classe - Os limites de classe são seus valores extremos. No exemplo anterior de dis-tribuição de frequência, o valor 21 é denominado limite inferior da primeira classe, enquanto o valor 24é denominado limite superior da primeira classe.

9

Page 10: Estatistica Descritiva

3. Amplitude do Intervalo de Classe (h) - A amplitude de um intervalo de classe corresponde aocomprimento desta classe. Numericamente, sua amplitude pode ser definida como a diferença existenteentre os limites superior (ou inferior) de duas classes consecutivas.

Ex: Utilizando os mesmos dados anteriores:

h = 24− 21 = 34. Pontos Médios ou Centrais da Classe (xj) - É a média aritmética simples entre o limite superiore o inferior de uma mesma classe.

Ex: Utilizando os mesmos dados anteriores:

x1 =24+212 = 22, 5

Para obter os pontos médios das demais classes, basta acrescentar ao ponto médio da classe precedentea amplitude do intervalo de classe.

TIPOS DE FREQUÊNCIAS

Frequências Simples½AbsolutaRelativa

Frequência Acumulada

“Abaixo de”(crescente)

½AbsolutaRelativa

“Acima de”(dcrescente)

½AbsolutaRelativa

1. Frequência Simples:

(a) Frequência Simples Absoluta (fi) - é o número de repetições de um valor individual ou de umaclasse de valores da variável. Trata-se do caso visto até o presente momento.

(b) Frequência Simples Relativa (fri) - representa a proporção de observações de um valor indi-vidual ou de uma classe, em relação ao número total de observações. Trata-se, portanto, de umnúmero relativo.

fri =fiPfi= fi

ft(1)

Desejando expressar o resultado em termos percentuais, multiplica-se o quociente obtido por 100:

fri =fin .100 (2)

2. Frequências Acumuladas:

(a) Frequências Acumuladas “Abaixo de ”:

i. Absoluta (Fiab) - é a soma da frequência simples absoluta de uma classe ou de um dadovalor com as frequências simples absolutas das classes ou dos valores anteriores. A expressão”abaixo de” refere-se ao fato de que as frequências a serem acumuladas correspondem aosvalores menores ou anteriores ao valor ou à classe cuja frequência acumulada se deseja obter,incluindo no cálculo a frequência do valor ou da classe. É utilizada toda vez que se procurasaber quantas observações existem até uma determinada classe ou valor individual.

10

Page 11: Estatistica Descritiva

ii. Relativa (Friab) - é a soma da frequência simples relativa dessa classe ou desse valor com asfrequências simples relativas das classes ou dos valores anteriores.

(b) Frequências Acumuladas ”Acima de”:

i. Absoluta (Fiac) - representa o número de observações existentes além do valor ou da classe,incluindo no cálculo as observações correspondentes a esse valor ou a essa classe. Para obter estetipo de frequência, basta somar à frequência simples absoluta da classe ou do valor individual,as frequências simples absolutas das classes ou dos valores individuais posteriores.

ii. Relativa (Friac) - igual à soma da frequência simples relativa dessa classe ou desse valor comas frequências simples relativas das classes ou dos valores posteriores.

Exemplo com as frequências apresentadas.

Tabela 3: Idade dos alunos do curso de medicina veterinária da UFBA, no ano de 1993.Idade Node alunos(fi) fri fri (%) Fiab Fiab (%) Fiac Fiac (%)

21 |– 24 7 0.23 23 7 23 30 10024 |– 27 8 0.27 27 15 50 23 7727 |– 30 1 0.03 3 16 53 15 5030 |– 33 5 0.17 17 21 70 14 4733 |– 36 9 0.30 30 30 100 9 30TOTAL 30 1.00 100 ... ... ... ...Fonte: (dados hipotéticos)

2.4.3 APRESENTAÇÃO GRÁFICA

A apresentação gráfica é um complemento importante da apresentação tabular. A principal vantagem de umgráfico sobre a tabela prende-se ao fato de que ele permite conseguir uma visualização imediata da distribuiçãodos valores observados. Propiciam os gráficos uma idéia preliminar mais satisfatória da concentração e dis-persão dos valores, uma vez que através deles os dados estatísticos se apresentam em termos de grandezasvisualmente interpretáveis.

Os gráficos devem ser auto-explicativos e de fácil compreensão, de preferência sem comentários inseridos.Devem ser simples, atrair a atenção do leitor e inspirar confiança. Todo gráfico deve apresentar um título euma escala, dispensando esclarecimentos adicionais no texto.

Os gráficos podem ser cartogramas ou diagramas. Identifiquemos cada um deles:

1. Cartogramas - são mapas geográficos ou topográficos em que as frequências das categorias de umavariável são projetadas nas áreas específicas do mapa, utilizando-se cores ou traçados cujos significa-dos constam em legendas anexadas às figuras. Em epidemiologia, os mapas alfinetados são de grandeemprego para apreciar o aparecimento e expansão de certas moléstias.

Esse tipo de representação gráfica é de grande utilidade em Saúde Pública, sobretudo na elaboração deinquéritos epidemiológicos em que se deseja conhecer a distribuição geográfica de casos e óbitos de umadeterminada doença epidêmica.

2. Diagramas - são gráficos em que a magnitude das frequências é representada por certa mensuração deuma determinada figura geométrica. São os gráficos mais usados na representação de séries estatísticase se apresentam através de uma grande variedade de tipos.

11

Page 12: Estatistica Descritiva

• Tipos de Diagramas:

(a) Gráficos em Linhas ou Gráficos Lineares - São frequentemente usados para a representaçãode séries temporais. As linhas são mais eficientes neste tipo de gráfico porque permitem a detecçãode intensas flutuações nas séries e também possibilitam a representação de várias séries em ummesmo gráfico.

(b) Gráficos Pictóricos (Pictogramas) - São gráficos construídos a partir de figuras ou conjuntode figuras representativas da intensidade ou das modalidades do fenômeno. São gráficos muitocomuns em jornais e revistas, tendo como principal vantagem o fato de despertar a atenção dopúblico leitor.

(c) Gráficos em Barras - Têm por finalidade comparar grandezas, por meio de retângulos de iguallargura e alturas proporcionais às respectivas grandezas. Cada barra representa a intensidade deuma modalidade ou atributo.

(d) Gráficos em Colunas - Prestam-se à mesma finalidade dos gráficos em barras horizontais, sendo,entretanto, preferíveis a esses últimos quando as legendas a se inscreverem sob os retângulos forembreves.

(e) Gráficos de Colunas Remontadas ou de Barras Agrupadas - São utilizados para estabelecercomparações entre duas ou mais categorias.

(f) Gráficos em Setores - São utilizados para representar valores absolutos ou porcentagens com-plementares. Utilizados quando se pretende comparar cada valor da série com o total.

A seguir podemos encontrar alguns tipos de diagramas, sendo que o Box-Plot será explicado mais adiante.

a. Gráfico em linha: c. Gráfico em barras

Gráfico 1. Quantidade de resíduos industriais jogados no rio Acushnet, em partes por milhão, em New Bedford, estado de

Massachussetts. 1990.

5,8 5,7

4,9

7,5

5,1

0

2

4

6

8

10

1980 1981 1982 1983 1984

Período

Freq

üênc

ia

Gráfico 2. A produção de cereais no Brasil, segundo os Estados produtores, em 1996.

10

27

38

21

0 10 20 30 40 50

Maranhão

Piauí

Sergipe

Bahia

Est

ados

Freqüências

12

Page 13: Estatistica Descritiva

d. Gráfico em colunas e. Gráfico em colunas remontadas

Gráfico 3. Consumo de gasolina, em milhas por galão (mpg) de 5 modelos compactos de automóvel, em Prince, estado de

Massachussetts. 1990

38

28

4135

26

0

10

20

30

40

50

Mazda 808 Vega ToyotaCorolla

Dodge Colt ToyotaCelica

Modelos

Cos

umo

(mpg

)

Gráfico 4. Consumo de equipamentos, em milhões de unidades, de uma determinada cidade, em Pernambuco.

1,2

2,73,6 3,8 4,2

8,5

5

32,42,7

1,20,5

0

2

4

6

8

10

Produtos

Freq

üênc

ias

19961997

f. Gráfico em setores g. Box-Plot

Gráfico 5. A produção de cereais no Brasil, segundo os Estados produtores, 1996.

10%

28%

40%

22%

MaranhãoPiauíSergipeBahia

100 100 N = Peso após 10 dias Peso ao Nascer

2100

2000

1900

1800

1700

1600

1500

1400

D istribuição do peso de todas as crianças prematuras ao nascer e após dez dias de aplicação da dieta alimentar. Hospital W W W ,

Salvador, 1998.

2.4.3.1 GRÁFICOS REPRESENTATIVOS DAS DISTRIBUIÇÕES DE FREQUÊNCIAA representação gráfica das distribuições de frequência é feita através do histograma e do polígono de frequên-cia.

1. Histograma - É um gráfico formado por um conjunto de retângulos justapostos, de forma que a áreade cada retângulo seja proporcional à frequência da classe que ele representa.

2. Polígonos de Frequência - Unindo por linhas retas os pontos médios das bases superiores dos retân-gulos do histograma, obtém-se outra representação dos dados, denominada polígono de frequência.

Maiores informações sobre esses e outros tipos de gráfico serão fornecidas em aula pelo professor.

CURIOSIDADE:

Florence NightingaleFlorence Nightingale (1820-1910) é conhecida por muitos como a fundadora da profissão de enfermeira,

mas ela também salvou milhares de vidas utilizando a estatística. Ao encontrar um hospital em más condições

13

Page 14: Estatistica Descritiva

sanitárias e sem suprimentos, tratou de melhorar essas condições e passou a utilizar a estatística para con-vencer as autoridades da necessidade de uma reforma médica mais ampla. Elaborou gráficos originais paramostrar que, durante a guerra da Criméia, morreram mais soldados em consequência de más condições san-itárias do que em combate. Florence Nightingale foi a pioneira na utilização não só da estatística social comodas técnicas de gráficos.

Fonte: TRIOLA, Mário. Introdução à Estatística. LTC Editora, 7aedição. Rio de Janeiro, 1999

2.5 MEDIDAS DE TENDÊNCIA CENTRAL

Vimos até agora a sintetização dos dados sob a forma de tabelas, gráficos e distribuições de frequências.Agora, vamos aprender o cálculo de medidas que possibilitem representar um conjunto de dados relativos àobservação de determinado fenômeno de forma resumida.

As medidas de tendência central são também chamadas de medidas de posição, e estabelecem o valor emtorno do qual os dados se distribuem.

Vale a pena chamar a atenção que, para o cálculo dessas medidas, é necessário que a variável seja quanti-tativa.

• As principais medidas de tendência central são:

2.5.1 Médias.

São as medidas de tendência central mais comumente utilizadas para descrever resumidamente uma dis-tribuição de frequência.

Média Aritmética

1. Média Aritmética Simples: É dada pelo quociente entre a soma dos valores observados e a frequênciatotal ( o número total de observações).

Genericamente, podemos escrever:

X =Pxin (3)

onde xi=valor genérico da observação

n = tamanho da amostra =no. de observações

Este tipo de média aritmética será calculada quando os valores não estiverem tabulados, ou seja, quandoaparecerem representados individualmente como é o caso dos dados brutos, por exemplo.

Ex: Temos uma amostra de 10 crianças de 5 anos de idade, com dados referentes a seus pesos (em kg):

23,0 20,0 22,0 19,0 25,0 28,2 24,0 21,0 27,0 21,0

n = 10

X =23, 0 + 20, 0 + 22, 0 + 19, 0 + 25, 0 + 28, 2 + 24, 0 + 21, 0 + 27, 0 + 21, 0

10=⇒ X = 23, 0

Isso significa que o peso médio é de 23,0 kg. É claro que foram obtidos pesos de crianças desta idade quese encontram abaixo ou acima do valor médio. No entanto, a média representa um valor típico (Soares& Siqueira,1999).

2. Média Aritmética Ponderada: É a média aritmética calculada quando os dados estiverem agrupadosem distribuições de frequência. Os valores x1, x2, ..., xn serão ponderados pelas respectivas frequênciasabsolutas f1, f2, ..., fn.

14

Page 15: Estatistica Descritiva

Então teremos:

X =Pxifin

Exemplos:

(a) Para tabelas de distribuição de dados não agrupados (TABELA 4):

Tabela 4: Número de cáries em criancas de 7 anos de idade. Candeias.1990.No de dentes careados (xi) Node crianças (fi) xifi

0 3 01 2 22 4 83 2 64 1 45 1 5

TOTAL 13 25Fonte: (dados hipotéticos)

X =0(3) + 1 (2) + 2 (4) + 3 (2) + 4 (1) + 5 (1)

13=2 + 8 + 6 + 4 + 5

13=25

13= 1, 923 ≈ 2, 0

O número médio de cáries por criança é 2,0 entre a população avaliada em Candeias, ou seja, emmédia cada criança de 7 anos apresenta 2 cáries.

(b) Para tabelas de distribuição de dados agrupados em classes (TABELA 5):

Tabela 5: Casos de Aids segundo faixa etária. Bahia. 1993.Faixa Etária fi(×1000) xi(ponto médio) xifi15 |– 25 25 20 50025 |– 35 30 30 90035 |– 45 15 40 60045 |– 55 10 50 500TOTAL 80 ... 2500

Fonte: (dados hipotéticos)

X =

Pxi fin

=2500

80... ==> X = 31, 25 ≈ 31, 0

Interpretação: A idade média dos pacientes de Aids na Bahia, em 1993, foi de 31 anos.A desvantagem da média aritmética relaciona-se com a existência de valores extremos (muitograndes ou muito pequenos), que podem distorcer o resultado final. Há casos em que outros tiposde média são mais adequados, como a média geométrica ou harmônica.

Média Geométrica

1. Também pode ser simples ou ponderada, conforme se utilize ou não em seu cálculo uma tabela defrequências.

2. Média Geométrica Simples: A média geométrica de n valores é definida, genericamente, como a raizn-ésima do produto entre eles.

Dados n valores x1, x2, ..., xn, a média geométrica desses valores será:

Xg = n√x1 x2..... xn (4)

15

Page 16: Estatistica Descritiva

3. Média Geométrica Ponderada: É a média geométrica quando os dados estiverem agrupados emuma distribuição de frequência. Será calculada por meio da expresssão:

Xg =Σfi

qxf11 x

f22 .....x

fnn (5)

A média geométrica é usada principalmente em problemas envolvendo mudanças proporcionais. Em De-mografia é utilizada para se estimar a população de determinada localidade, quando se supõe crescimentogeométrico. Também é utilizada em biologia para análises relacionadas com crescimento de organismos,como bactérias, por exemplo, ou contagem de ovos de parasitas.

Média Harmônica:

É o inverso da média aritmética dos inversos.

Os inversos dos valores ,X1, X2, ...,Xnserão: 1X1, 1X2 , .....

1Xn,Assim, como X =

nPi=1xi

n, temos:

Xh =1

nPi=1

1xi

n

=1

1X1+ 1X2+.....+ 1

Xn

n

=nnPi=1

1xi

De maneira análoga, temos a definição de média harmônica para dados agrupados em classes.Esse tipo de média é, sobretudo, usada para construção de índices econômicos.

Em geral, temos :Xh 6 Xg 6 X.

CURIOSIDADE:Um cidadão médioUm homem americano ”médio” chama-se Robert. Tem 31 anos, altura de 1,75 cm, pesa 78 kg, seu

manequim é 48, calça sapatos tamanho 43 e tem 85 cm de cintura. Consome anualmente 5,6 kg de massa,11,8 kg de bananas, 1,8 kg de batatas fritas, 8,15 kg de sorvete e 35,8 kg de carne. Em cada ano, vê televisãodurante 2567 horas e recebe 585 cartas ou assemelhados pelo correio. Após comer sua porção de batatas fritas,ler a correspondência e ver televisão, ele termina o dia com 7,7 horas de sono. O dia seguinte começa com21 minutos de transporte para um emprego, onde trabalha 6,1 horas.

Fonte: TRIOLA, Mário. Introdução à Estatística. LTC Editora, 7aedição. Rio de Janeiro, 1999

Mediana (Md) É definido como o valor que divide uma série ordenada de tal forma que pelo menos ametade dos itens sejam iguais ou maiores do que ela, e que a outra metada dos itens sejam menores do queela. Colocados em ordem crescente, a mediana é o elemento que ocupa a posição central.

Como a mediana divide os dados ordenados ao meio, ela não é sensível a valores discrepantes. A dependerde como estejam os dados, deve-se diferenciar a forma como encontra-se a mediana.

1. Determinação da Mediana de Valores não-tabulados.

Processa-se a partir de um rol ou lista ordenada dos dados. Podem ocorrer duas hipóteses com relaçãoao número de observações n: que ele seja ímpar ou par. Veremos os dois casos:

(a) Número ímpar de observações:Requer, em primeiro lugar, que se determine a ordem em que se encontra a mediana na série. Paraisto encontramos:

Emd =n+12 (6)

O passo seguinte será localizar a mediana na lista de valores, de acordo com o resultado obtido nocálculo do elemento mediano (Emd).

16

Page 17: Estatistica Descritiva

(b) Número par de observações:Neste caso, o elemento mediano será determinado através da expressão:

Emd =n2 (7)

A mediana será determinada pela média aritmética entre os valores que ocupam a posição definidapelo elemento mediano e a posição sucessora.

2. Determinação da Mediana de Valores Tabulados não-Agrupados em Classes.

Da mesma forma como foi calculado anteriormente, definiremos o elemento mediano. Em seguida,acrescentaremos à tabela de frequência uma coluna de frequências acumuladas ”abaixo de” absoluta.Com o uso destas frequências encontraremos a posição definida pelo elemento mediano, na qual estaráa mediana.

Exemplo: Cálculo da mediana para os dados da tabela 4 da secção de média.

Tabela 6: Número de cáries em crianças de 7 anos de idade. Candeias. 1990.

No de dentes careados (xi) Node crianças (fi) Fiab0 3 31 2 52 4 93 2 114 1 125 1 13

TOTAL 13 ...Fonte: (dados hipotéticos)

Solução: n = 13 ==> Emd =(n+1)2 =14

2 = 7.

Como n é ímpar —> a mediana é definida pelo valor que ocupa a 7aposição. Com base nas informaçõesda coluna que contém as frequências acumuladas ”abaixo de” absoluta, a mediana é igual a 2.

Interpretação: 50% das crianças de 7 anos apresentaram 2 oumenos cáries numa comunidade de Candeiasem 1990.

3. Determinação da Mediana de Valores Tabulados Agrupados em Classes.

Neste caso, encontramos o elemento mediano através da fórmula Emd = n2 , não se fazendo distinção

entre número par ou ímpar de observações. A partir daí, determinaremos a classe mediana, após a quala mediana será calculada através da seguinte expressão:

Md = l + h.Emd−Fantfmd(8)

onde,

l = limite inferior da classe mediana;h = amplitude do intervalo de classeEmd = elemento medianoFant = frequência acumulada até a classe anterior à classe medianafmd = frequência absoluta simples da classe mediana.

17

Page 18: Estatistica Descritiva

Exemplo: Cálculo da mediana para os dados da Tabela 5

Casos de Aids segundo faixa etária. Bahia. 1993Faixa Etária fi(×1000) Fiab15 |– 25 25 2525 |– 35 30 5535 |– 45 15 7045 |– 55 10 80TOTAL 80 ...

Fonte: (dados hipotéticos)

n = 80 ==> Emd =802 = 40.

O elemento que ocupa a 40aposição encontra-se na 2aclasse. Logo,Md = 25 + 10(40−25)

30 ==> Md = 30Interpretação: 50% dos pacientes de Aids na Bahia, em 1993, tinham idade igual ou inferior a 30 anos.

2.5.2 Moda (Mo)

A moda é outra medida de tendência central, sendo, no entanto a menos importante. Sua vantagem é que podeser usada para variáveis qualitativas. Genericamente, pode-se definir a moda como o valor mais frequente dadistribuição.

1. Determinação da Moda de Valores Não-Tabulados.

Considerando um conjunto ordenado de valores, a moda será o valor predominante, o valor mais fre-quente desse conjunto. Embora seu significado seja o mais simples possível, nem sempre a moda existe(distribuição amodal) e nem sempre é única. Se apresentar apenas uma moda diremos que é unimodal;se possuir duas modas diremos que é bimodal; se tiver várias modas (mais que duas) diremos que émultimodal.

2. Determinação da Moda para Valores Tabulados.

No caso de dados tabelados não agrupados em classe, a determinação da moda é imediata, bastandopara isso, consultar a tabela, localizando o valor que apresenta a maior frequência.

Exemplo:

Tabela 7: Indivíduos segundo o tipo sanguíneo.Tipo de Sangue Frequência

O 417A 292B 94AB 17

TOTAL 820Fonte: (dados hipotéticos)

Os dados apresentados mostram que na amostra o sangue tipo O ocorreu com maior frequência. Então,para esta amostra, a moda é sangue do tipo O.

Tratando-se de uma tabela de frequências com valores tabulados e agrupados em classes, o procedimentonão é imediato, sendo disponíveis alguns métodos de cálculo distintos. Qualquer que seja o método adotado,o primeiro passo para determinar a moda é localizar a classe que apresenta a maior frequência, comumentechamada de classe modal.

18

Page 19: Estatistica Descritiva

Nesse curso definiremos apenas o método da moda bruta, que consiste em tomar o ponto médio da classemodal como sendo a moda. A classe modal será aquela que apresentar a maior frequência absoluta simples.

Exemplo:

Tabela 8: Notas da 1a Avaliação dos Alunos de Estatística IV da UFBA. 1996.1Notas Alunos(fi) xi0 |– 2 3 12 |– 4 5 34 |– 6 7 56 |– 8 6 78 |–10 1 9TOTAL 22 ...Fonte: (dados hipotéticos)

Para este exemplo temos que a terceira classe é a classe modal (fi = 7)e a moda bruta será seu pontomédio:

Mo = 5. Interpretação: A nota mais frequente na 1aavaliação foi 5, 0.

2.6 SEPARATRIZES

São as medidas que separam o rol ou a distribuição de frequências em partes iguais. Vimos que a medianadivide a distribuição em duas partes iguais quanto ao número de elementos de cada parte. Agora vamosestudar outras medidas que dividem a distribuição em partes iguais, que serão as chamadas separatrizes. Sãoelas:

2.6.1 Quartis (Qi):

Os quartis dividem um conjunto de dados em quatro partes iguais. Assim: Q1 Q2 Q3

0% 25% 50% 75% 100%

Q1: 1o quartil. Deixa 25% dos elementos antes do seu valorQ2: 2o quartil. Deixa 50% dos elementos antes do seu valor. Coincide com a medianaQ3: 3o quartil. Deixa 75% dos elementos antes do seu valor.Genericamente, para determinar a ordem ou posição do quartil a ser calculado, usaremos a seguinte

expressão:

EQi =in4 (9)

onde:i = número do quartil a ser calculadon = número de observações.

Para dados agrupados em classes, encontraremos os quartis de maneira semelhante à usada para o cálculoda mediana:

Qi = l + h.[EQi−Fant]

fQi(10)

19

Page 20: Estatistica Descritiva

onde,l = limite inferior da classe que contém o quartil desejadoh = amplitude do intervalo de classeEQi = elemento quartílicoFant = frequência acumulada até a classe anterior à classe medianaf Qi = frequência absoluta simples da classe quartílica.

2.6.2 Decis(Di):

Os decis dividem um conjunto de dados em dez partes iguais. Assim: D1 D3

0%

D4

20% 40% 60% 80%

D2 D5 D6 D7 D8 D9

10% 30% 50% 70% 90% 100%

De maneira geral, para calcular os decis, recorreremos à expressão que define a ordem em que o decil seencontra:

EDi =in10 (11)

Para dados agrupados em classes, encontraremos os decis de maneira semelhante à usada para cálculo damediana e dos quartis.

2.6.3 Percentis ou Centis (Ci):

São as medidas que dividem a amostra em 100 partes iguais. Assim:

C1 C2 C3 C50 C97 C98 C99

0% 1% 2% 3% 50% 97% 98% 99%100%O elemento que definirá a ordem do centil será encontrado pelo emprego da expressão:

ECi =in100 (12)

onde:i = número identificador do centiln = número total de observaçõesPara dados agrupados em classes, encontraremos os centis de maneira semelhante à utilizada para cálculo

da mediana, dos quartis e dos decis.

Exemplo: Com base na tabela de distribuição de frequências abaixo encontre:a) Primeiro quartil ; b) Septuagésimo quinto centil ; c) Nono decil

Resolução:a) Q1Encontrar a posição do primeiro quartil:

20

Page 21: Estatistica Descritiva

Tabela 9: Consumo médio de eletricidade (kw/hora) entre usuários. Rio de Janeiro. 1980.Consumo (Kwh) Node usuários (fi) Fiab

5 |– 25 4 425 |– 45 6 1045 |– 65 14 2465 |– 85 26 5085 |– 105 14 64105 |– 125 8 72125 |– 145 6 78145 |– 165 2 80TOTAL 80 ...

Fonte: (dados hipotéticos)

EQ1 =n4 =

804 = 20

O Q1 está localizado na 20aposição, logo encontra-se na 3aclasse. Com base nesses dados, calcularemosQ1 da seguinte forma:

Q1 = 45 +20[20−10]

14 = 59.29Interpretação: 25% dos usuários consomem até 59,59 kwh. De maneira análoga, 75% dos usuários con-

somem mais de 59,59 kwh.b) C75Encontrar a posição do centil 75:EC75 = 75

n100 = 75

(80)100 = 60

O C75 está localizado na 60aposição, logo encontra-se na 5aclasse. Com base nesses dados, calcularemosC75 da seguinte forma:

C75 = 85 +20[60−50]

14 = 99.29Interpretação: 75% dos usuários consomem até 99,29 kwh. De maneira análoga, 25% dos usuários con-

somem mais de 99,29 kwh.c) D9Encontrar a posição do 9odecil:ED9 = 9

n10 = 9

(80)10 = 72

O D9 está localizado na 72aposição, logo encontra-se na 6aclasse. Com base nesses dados, calcularemosD9 da seguinte forma:

D9 = 105 +20[72−64]

8 = 125Interpretação: 90% dos usuários consomem até 125 kwh. De maneira análoga, 10% dos usuários consomem

mais de 125 kwh.

2.7 MEDIDAS DE DISPERSÃO

Para avaliar o grau de variabilidade ou dispersão dos valores de um conjunto de números, lançaremos mão dasestatísticas denominadas medidas de dispersão. Essas nos proporcionarão um conhecimento mais completodo fenômeno a ser analisado, permitindo estabelecer comparações entre fenômenos da mesma natureza emostrando até que ponto os valores se distribuem acima ou abaixo da medida de tendência central.

2.7.1 TIPOS DE MEDIDAS DE DISPERSÃO

1. Amplitude Total ou Intervalo Total (A) =>É a diferença entre os valores extremos da série.

A = Xmax −Xmın

21

Page 22: Estatistica Descritiva

A amplitude nos dá a idéia do campo de variação dos valores da série. No entanto, devemos frisar que aamplitude não é uma boa medida de dispersão porque seu cálculo se baseia apenas nos valores extremosda amostra e não em todos os dados.

2. Desvio-Padrão (S) => É a medida de dispersão mais usada e mais importante. Mede a concentraçãodos dados em torno da média. É dado pela soma dos quadrados dos desvios dividido pelo número totalde observações.

(a) Desvio-padrão de dados brutos:

S =

snPi=1

(xi − x)2n− 1 (13)

Exemplo: Calcular o desvio-padrão do conjunto A = {10, 12, 13, 20, 25, 34, 45}X = 22, 71

Tabela 10: Cálculo do Desvio Padrão.Xi di = (xi − x) d2i = (xi − x)210 -12,714 161,64612 -10,714 114,79013 -9,714 94,36220 -2,714 7,36625 2,286 5,22634 11,286 127,37445 22,286 496,666

TOTAL ...Pd2i = 1.007, 430

S =q

1.007,4306 = 12, 958

(b) Desvio-padrão de dados tabulados:Quando os valores vierem dispostos em uma tabela de frequências, o cálculo do desvio-padrão sefará através da seguinte fórmula:

S =

skPi=1

(xi − x)2fin− 1 (14)

onde xi = ponto médio da classeExemplo: Calcular o desvio-padrão para os dados da Tabela 12.

X =

kPi=1

xj fj

n = 63080 ==> X = 79, 5 S =

skPi=1

(xi − x)2 fin− 1 =

q80.78079 ==> S = 31, 977

3. Variância (S2) =>Será dada pelo quadrado do desvio-padrão.

S2 =nPi=1

(xi − x)2n− 1 (15)

22

Page 23: Estatistica Descritiva

Tabela 11: Distribuição de frequências do consumo de energia elétrica (kwh).Consumo (Kwh) No de Usuários (fi) xi xifi (xi − x) (xi − x)2 (xi − x)2fi

5 |– 25 4 15 60 -64,5 4160,25 16641,025 |– 45 6 35 210 -44,5 1980,25 11881,545 |– 65 14 55 770 -24,5 600,25 8403,565 |– 85 26 75 1950 -4,5 20,25 526,585 |– 105 14 95 1330 15,5 240,25 3363,5105 |– 125 8 115 920 35,5 1260,25 10082,0125 |– 145 6 135 810 55,5 3080,25 18481,5145 |– 165 2 155 310 75,5 5700,25 11400,5TOTAL 80 ... 6360 ... ... 80780

Fonte: (dados hipotéticos)

Interpretação do desvio-padrão (análoga à da variância):

• Devemos ter em mente que o desvio-padrão mede a variação entre valores. Assim:

• Se os valores estiverem próximos uns dos outros, então o desvio-padrão será pequeno, e conse-quentemente os dados serão homogêneos.

• Se os valores estiverem distantes uns dos outros, então o desvio-padrão será grande, e consequente-mente os dados serão heterogêneos.

• A desvantagem do uso da variância perante o uso do desvio-padrão é que a unidade de medidautilizada é igual ao quadrado da unidade de medida dos dados. No entanto, por conta da maiorfacilidade do trato algébrico com funções quadráticas, a variância será a medida de dispersão maisutilizada quando tratarmos da inferência estatística.

4. Coeficiente de Variação (CV) => Trata-se de uma medida relativa de dispersão, útil para compara-ção em termos relativos do grau de concentração em torno da média de séries distintas.

É dado por:

CV =S

X× 100. (16)

Como o CV é uma medida que exprime a variabilidade relativa à média, é usualmente expresso emporcentagem.

Exemplo:Grupo I —> CV = 66, 67%, S = 2,X = 3GrupoII —> CV = 3, 64%, S = 2,X = 55

Como vemos, a dispersão dos dados é a mesma para os dois grupos. Entretanto as médias são diferentes.Isso determina a diferença da dispersão relativa, medida pelo coeficiente de variação. Neste caso, o desvio 2é muito mais importante para o grupo I do que para o grupo II, o que é confirmado através do CV.

Obs: Para efeitos práticos, costuma-se considerar que o CV superior a 50% indica alto grau de dispersãoe, consequentemente, pequena representatividade da média. Enquanto que para valores inferiores a 50%, amédia será tanto mais representativa quanto menor for o valor de seu CV.

Exemplo: A Tabela 13 representa a distribuição de recém-nascidos vivos, segundo o peso, em gramas.Calcule o desvio-padrão, a variância e o coeficiente de variação, e compare os resultados encontrados com asrespostas apresentadas.

23

Page 24: Estatistica Descritiva

Tabela 12: Peso de recém-nascidos.Peso (em gramas) (fi) Xi500 |– 1000 1 7501000 |– 1500 3 12501500 |– 2000 22 17502000 |– 2500 115 22502500 |– 3000 263 27503000 |– 3500 287 32503500 |– 4000 99 37504000 |– 4500 32 4250TOTAL 80 ...

Fonte: SAME/ FCM/ UNICAMP

Solução:Inicialmente precisaremos calcular a média aritmética, cujo valor para este conjunto de dados é de 2998,8

gramas.Com esta informação pode-se, então, encontrar o desvio padrão (555,2 gramas) e a variância (308.240,6

gramas2).Para avaliar a variabilidade desses dados o coeficiente de variação é uma ferramenta fundamental, per-

mitindo uma análise mais clara sobre a importância da dispersão dos pesos desses recém-nascidos. Assim,o Coeficiente de Variação = 18,5%, o que indica que não há uma grande variabilidade entre os pesos dosrecém-nascidos avaliados, que se apresentam homogêneos.

2.8 MEDIDAS DE ASSIMETRIA

As medidas de assimetria são utilizadas para avaliar o grau de assimetria da distribuição de frequências, sendoque assimetria pode ser definida como o grau de deformação de uma curva de frequências.

Vamos aprender algumas formas de avaliar a assimetria das curvas de frequência dos dados:

2.8.1 Relação entre média, mediana e moda

Uma primeira verificação da assimetria pode ser feita através da comparação entre os valores observados paraa média, mediana e moda. Desta forma teremos abaixo esta relação, com a respectiva representação gráficaatravés de polígono de frequências.

a) Se a distribuição é simétrica: (X =Md =Mo)

M oda = M edia = M ediana

24

Page 25: Estatistica Descritiva

b) Se a distribuição é assimétrica positiva ou à direita: (X >Md > Mo)

Mo Med Media

c) Se a distribuição é assimétrica negativa ou à esquerda: (X <Md < Mo)

Media Med Mo

2.8.2 Coeficiente de Assimetria de Pearson (Sk)

Indica o grau de distorção da distribuição em relação à uma distribuição simétrica.É dado por:

Sk =X −MoS

(17)

Interpretação:Se Sk = 0, a distribuição é simétricaSe Sk > 0, a distribuição é assimétrica positivaSe Sk < 0, a distribuição é assimétrica negativa

2.8.3 Coeficiente Quartil de Assimetria (eQ)

O coeficiente Quartil de Assimetria (eQ)=> É um coeficiente muito útil, sobretudo quando não temoso desvio-padrão. É dado por:

eQ =Q3 − 2Md+Q1

Q3 −Q1 (18)

onde −1 < eQ< 1

Interpretação:Se eQ = 0, a distribuição é simétricaSe eQ > 0, a distribuição é assimétrica positiva

25

Page 26: Estatistica Descritiva

Se eQ < 0, a distribuição é assimétrica negativaExemplo: Avalie a assimetria da distribuição dos pesos de recém-nascidos vivos do exemplo anterior.a) Relação entre média, mediana e moda.

X = 2998, 8;Md = 3012, 2;Mo = 3250, 0

Logo : X <Md < Mo =⇒ curva assimétrica negativab) Coeficiente de assimetria de Pearson:Sk =

X−MoS = 2998,8−3250,0

555,2 = −0, 45 =⇒ curva assimétrica negativac) Coeficiente quartil de assimetria:eQ =

Q3−2Md+Q1Q3−Q1 = 3370,2−2(3012,2)+2622,6

3370−2662,6 = −0, 04 =⇒ curva assimétrica negativa

2.9 COMPARAÇÃO ENTRE PROPORÇÃO, RAZÃO E TAXA

Iremos realizar uma discussão breve destes termos e da distinção entre eles. Do ponto de vista estatísticorepresentam medidas simples, mas que permitem estabelecer comparação entre grupos.

2.9.1 PROPORÇÃO (frequência relativa simples)

A proporção de indivíduos de uma dada categoria é definida através do quociente entre o número de indi-víduos pertencentes a essa categoria e o número total de indivíduos considerados, devendo as categorias sermutuamente exclusivas e exaustivas. A proporção é expressa mais comumente em percentagem.

Algumas medidas importantes na análise do processo saúde-doença são definidas como proporções, como,por exemplo, as seguintes:

PROPORÇÕES UTILIZADAS EM MORTALIDADE

1. Mortalidade proporcional segundo a idade

Exemplo: Proporc. Mort..de menores de 1ano =node óbitos em menores de 1ano, áreaA, tempo t

total de óbitos, área A, tempo t

Tabela 13: Proporção de óbitos por acidentes de trânsito na faixa etária de 15-29 anos de idade. RegiãoNordeste. Brasil. 1980-1995.Ano NodeÓbitos por acid. trânsito entre 15 - 29 Nototal de óbtos por acid. trânsito Proporção1980 1025 3462 29,611995 1705 5543 30,76Fonte: MS/ DATASUS

2. Mortalidade proporcional segundo o sexo

Exemplo: Mort. Proporc. para o sexo feminino =node óbitos em ind. sexo feminino, área A, tempo t

total de óbitos, área A, tempo t

3. Mortalidade proporcional segundo causas

Serve para indicar a importância de determinada causa ou grupo de causas em uma determinada área e,até certo ponto, representam subsídio para o delineamento de prioridades no setor saúde.

Exemplo: Mort. Proporc. pela doença D =node óbitos pela doença D, área A, tempo t

total de óbitos, área A, tempo t

26

Page 27: Estatistica Descritiva

2.9.2 RAZÃO ( ou índice)

O termo razão é usado quando A e B representam características separadas e distintas, e calculamos oquociente entre o número de elementos que representam cada uma das categorias. Como exemplos de razõestemos: médicos/habitantes; leitos/habitantes; telefones/habitantes; cobertura vegetal/total área.

Exemplo:

Tabela 14: Populações masculina e feminina e razão de masculinidade (por 1000 mulheres), segundo as grandesRegiões do Brasil. 1980.

Sexo Masculino Feminino Razão de MasculinidadeRegiõesNorte 2992144 2893392 1034,1Nordeste 17054379 17801090 958,1Sudeste 25731364 26014954 989,1Sul 9529280 9509655 1002,1

Centro-Oeste 3838932 3705675 1036,0BRASIL 59146099 59924766 987,0

Fonte: LAURENTI, Estatística de Saúde, E.P.U. 1987

Interpretação: No Brasil, em 1980, a razão de masculinidade assumiu o valor de 987.0 homens para 1000mulheres.

2.9.3 TAXA ( ou Coeficiente)

É usual multiplicar-se o resultado obtido por um número múltiplo de 10, que constitui a chamada basedo coeficiente à qual deve, obrigatoriamente, ser acrescentada a unidade de referência usado no denominador(habitantes, mulheres, homens, nascidos vivos, etc...). Quando se calcular um coeficiente está implícita semprea noção de risco de acontecimento do fenômeno em estudo. Assim, um coeficiente é sempre calculado paradeterminado período de tempo bem especificado e para uma área delimitada.

Exemplo: Coeficiente geral de mortalidade =nototal de óbitos, área A, tempo tPopulação total, área A, tempo t

Tabela 15: Populacão, óbitos e coeficiente geral de mortalidade, em alguns subdistritos do Município de SãoPaulo. 1967).

Subdistrito População Óbtos Coefic. (por 1000 habitantes)Bela Vista 69000 1318 19,1Consolação 60300 4291 71,5

Jardim América 49300 7725 159,6Liberdade 62300 3413 54,7

Capela do Socorro 77764 280 3,6Moóca 52967 213 4,0Tatuapé 285000 811 2,9Tucuruvi 345918 839 2,4

Vila Formosa 101000 418 4,1Fonte: LAURENTI, R. A medida das doenças. In: FORATTINI, O P. Epidemiologia Geral.São Paulo, Edgard Blucher, Ed. Da Universidade de São Paulo, 1976.

Exemplo: Coeficiente de Prevalência =nocasos existentes, área A, tempo tPopulação total, área A, tempo t

27

Page 28: Estatistica Descritiva

Os coeficientes de morbidade referem-se à frequência e gravidade das doenças.Diferença entre taxa e razão: Na razão o que está expresso no denominador não está sujeito ao risco de vir a

apresentar o evento que está expresso no numerador. Assim, quando se apresenta a relação óbitos/população,trata-se de um coeficiente. Está indicando que aquilo que está expresso no denominador (população) estásujeito ao risco de apresentar o evento discriminado no numerador. Já a relação hospital/população nãoexpressa risco. Dá apenas a informação do número de hospitais por habitantes.

3 BOX-PLOT

O box-plot é um método alternativo ao histograma para representar os dados. O box-plot fornece informaçõessobre as características de posição, dispersão, assimetria, comprimento das caudas e outliers de um conjuntode dados. No entanto, a maior importância desse tipo de gráfico está na identificação de possíveis outliers noconjunto de dados.

A construção de um box-plot exige que tenhamos o valor mínimo, o primeiro quartil, a mediana, o terceiroquartil e o valor máximo. Como a mediana revela uma tendência central, ao passo que os quartis indicam adispersão dos dados (através do cálculo do intervalo interquartil), os box-plot têm a vantagem de não seremtão sensíveis a valores extremos como outras medidas baseadas na média e no desvio-padrão.

Um dos aspectos mais convenientes do uso dos box-plot é a possibilidade de comparação entre dois oumais conjuntos de dados.

Exemplo: Idade dos indivíduos, segundo o número de infecções por dengue. Salvador. 1998.

147814251466143714231484

157915841567145214491583153614711431

1534

15401578157514621504155115631445

655384476N =

Número de infecções

210

Idad

e (e

m a

nos)

120

100

80

60

40

20

0-20

Fonte: TEIXEIRA, Glória, et alii. Dinâmica de circulação do vírus do dengue em distintos espaçosintraurbanos de uma grande cidade submetida a um programa de combate vetorial. ISC/UFBA. 2000.

Em sala de aula serão apresentados mais detalhes sobre este tópico.

3.1 MEDIDA DE ASSOCIAÇÃO PARA VARIÁVEIS QUANTITATIVAS: CORRE-LAÇÃO LINEAR

Até o momento todas as análises foram discutidas para cada variável individualmente. A técnica a serestudada a seguir refere-se a problemas que envolvam conjuntos de dados que possuem duas ou mais variáveisquantitativas.

28

Page 29: Estatistica Descritiva

A verificação da existência e do grau de relação entre variáveis quantitativas é objeto do estudo da corre-lação. Por exemplo, pode-se desejar saber se existe relação entre o peso e a altura de um indivíduo; ou entrea temperatura do ambiente e a produção de frutas.

A investigação da relação de duas variáveis, tais como estas, usualmente começa com uma tentativa paradescobrir a forma aproximada dessa relação, representando-se graficamente os dados como pontos no planox, y. Tal gráfico denominamos gráfico de dispersão. Por meio dele pode-se prontamente verificar se existealguma relação pronunciada e, em caso positivo, se a relação pode ser tratada como aproximadamente linear.

Após esta verificação, pode-se medir o grau em que as variáveis estão relacionadas. A esta medida chamare-mos de coeficiente de correlação, r, que é definido pela seguinte fórmula:

r =

PXY − (

PX)(

PY )

nrhPX2 − (

PX)2

n

i hPY 2 − (

PY )2

n

i (19)

O coeficiente de correlação, r, mede a força da associação linear entre as duas variáveis avaliadas. Noentanto, vale a pena ressaltar que esta somente é uma medida válida se as duas variáveis estão relacionadaslinearmente, ou seja, se a relação visualizada no gráfico de dispersão deve lembrar o desenho de uma reta.

Como propriedade, o r deve satisfazer à seguinte condição: −1 ≤ r ≤ 1,onde os valores de r só serão iguaisa ±1 se os pontos estiverem totalmente sobre uma linha reta.

Sua interpretação dependerá do valor numérico e do sinal, podendo ser classifada como: correlação linearpositiva (0 < r < 1), correlação linear perfeita positiva (r = 1), correlação negativa (−1 < r < 0), correlaçãoperfeita negativa (r = −1), correlação nula (r = 0). Quando duas variáveis forem independentes, o coeficientede correlação será nulo.

3.2 MEDIDAS DE ASSOCIAÇÃO PARA VARIÁVEIS QUALITATIVAS

Como foi dito, o uso do coeficiente de correlação linear somente é valido para duas variáveis quantitativas. Noentanto, em muitas situações, o pesquisador se vê às voltas com variáveis qualitativas. Desta forma, a seguirapresentaremos algumas formas simples de análise da relação entre duas variáveis qualitativas.

Caso 1 Tabelas bidimensionais 2× 2Um pesquisador está avaliando duas variáveis qualitativas, sendo que cada uma delas apresenta apenas

duas modalidades mutuamente exclusivas. Deseja-se verificar independência entre as variáveis em estudo,ou seja, ausência de associação entre estas. Esta associação pode ser feita pela comparação das proporçõesem cada uma das categorias. No entanto, esta comparação não teria limites definidos para a indicação deassociação. Deste modo, estaremos propondo a utilização de uma medida singular, de limites bem definidos,que nos informe sobre a intensidade da associação, caso exista.

Tabela 16: Tabela teórica de associacão entre duas variáveis.Var2

Var1Cat 21 Cat 22 TOTAL

Cat 11 a b N1.Cat 12 c d N2.TOTAL N.1 N.2 N

Para tabelas 2× 2, uma medida adequada é o coeficiente de YULE, que pode ser definido por:

Y =ad− bcad+ bc

(20)

29

Page 30: Estatistica Descritiva

Na interpretação do coeficiente de YULE, é preciso saber:

1. O valor de Y está compreendido no intervalo fechado de −1 até +1.2. Y = 0 corresponde a independência

3. Y 6= 0 corresponde a associação entre as variáveis.

Em termos descritivos, o coeficiente de YULE apresenta a informação que permite a verificação de asso-ciação entre duas variáveis qualitativas. Do ponto de vista da inferência estatística, outras técnicas poderãoser utilizadas. No entanto, não farão parte do conteúdo programático deste curso.

Exemplo: Considere que um pesquisador toma, ao acaso, 2 amostras de cobaias isogênicas, susceptíveisa determinado vírus. As cobaias da primeira amostra são injetadas com uma vacina experimental, e asda segunda amostra são injetadas com uma substância inócua (grupo controle). Todos as cobaias são entãoexpostas ao vírus e, depois de determinado período de exposição, verificam-se os sobreviventes de cada amostra.É lícito concluir (ou pelo menos suspeitar) à luz destes dados que o uso da vacina está associado ao padrãode sobrevivência destes animais?

Sobreviventes TOTALVacinados Sim NãoSim 130 70 200Não 80 160 240

TOTAL 210 230 440

Solução: a = 130; b = 70; c = 80; d = 160

Cálculo do coeficiente de YULE: Y =ad− bcad+ bc

=(130x160)− (70x80)(130x160) + (70x80)

=20800− 560020800 + 5600

=15200

26400= 0.58

Logo, os dados sugerem a existência de uma associação entre o uso da vacina e o padrão de sobrevivênciaapós a exposição ao vírus em estudo.

Caso 2 Tabelas bidimensionais r × s

A desvantagem do uso do coeficiente de YULE é que esta medida restringe-se na análise de tabelas 2× 2.Suponha-se, no entanto, que as duas variáveis qualitativas em estudo apresentem uma r categorias e outra scategorias mutuamente exclusivas. Neste caso, a medida a ser utilizada baseia-se na diferença entre os valoresobservados e esperados em cada uma das categorias, sendo denominada coeficiente de contingência de Pearson.

O uso deste coeficiente contrapõe os resultados observados (simbolizados pela letra O) pelo pesquisadorcom aqueles resultados esperados (simbolizados pela letra E) obtidos a partir de uma hipótese teórica deindependência entre os atributos. Assim, se os resultados observados forem próximos aos esperados, istosugere independência entre os atributos; caso contrário, estaremos afastados da hipótese de independência,sugerindo-se uma associação entre os atributos.

Levando-se isto em consideração, utilizaremos uma estatística chamada de Qui-quadrado, que mede adiscrepância entre os valores, e que é definida por:

χ2 =nPi=1

[(O −E)2]E

(21)

Os valores esperados são encontrados mediante a suposição de independência, ou seja, caso não existaassociação entre as variáveis espera-se que os valores encontrados não se apresentem em proporções diferentessegundo as categorias. Assim, obtém-se o valor esperado correspondente a cada casela multiplicando-se o total

30

Page 31: Estatistica Descritiva

da linha (em que se encontra a casela) pelo total da coluna (em que se encontra a casela), sendo este produtodividido pelo total geral (N)

O coeficiente de contigência de Pearson é dado pela seguinte expressão:

C =χ2

χ2 + n(22)

Interpretação do coeficiente:C = 0 indica independência;C > 0 sugere associação.Obs: Este coeficiente é falho em determinar o sentido da associação (direta ou inversa). Além disso,

há ausência de um limite superior, que varia para cada estrutura da tabela. Para contornar este segundoproblema, sugere-se o uso do coeficiente corrigido C, que tem a expressão:

Ccor = C.min(r, s)

min(r, s)− 1 (23)

onde: r = número de categorias da variável 1s = número de categorias da variável 2

Exemplo: Neste estudo deseja-se verificar se existe associação entre as variáveis sexo e grupo sanguíneo.Os dados coletados encontram-se dispostos na tabela seguinte.

Grupo Sanguíneo Sexo TOTALMasculino Feminino

A 112 88 200B 58 42 100AB 180 120 300O 250 150 400

TOTAL 600 400 1000

Solução: Os valores dispostos na tabela anterior referem-se aos resultados observados no estudo em questão.Precisamos encontar os resultados esperados para cada casela.

E11 =(n1.)(n.1)

N = (200)(600)1000 = 120

E12 =(n1.)(n.2)

N = (400)(200)1000 = 80, e assim por diante para todas as caselas.

Assim obteremos a tabela completa (com os resultados observados fora dos parênteses e os resultadosesperados dentro dos parênteses) disposta da seguinte forma:

Grupo Sanguíneo Sexo TOTALMasculino Feminino

A 112 (120) 88 (80) 200B 58 (60) 42 (42) 100AB 180 (180) 120 (120) 300O 250 (240) 150 (160) 400

TOTAL 600 400 1000

Para cálculo da estatística Qui-quadrado teremos:

χ2 =nPi=1

[(O −E)2]E

= (112−120)2120 + (88−80)2

80 + (58−60)260 + .....+ (150−160)2

160

χ2 = 2, 55Logo, para o cálculo do coeficiente de contingência de Pearson, teremos:C = 2,55

2,55+1000 = 0, 05

31

Page 32: Estatistica Descritiva

Utilizando-se a correção do coeficiente de contingência, teríamos:Ccor = 0.05

22−1 = 0, 10

Assim, como o resultado foi um valor próximo de zero, isto sugere independência entre sexo e gruposanguíneo, como era de se esperar.

NOTAS FINAIS:

1. Apesar da existência de outras medidas de associação, essas apresentadas nesta secção podem ser con-sideradas as medidas descritivas básicas.

2. A existência de associação não significa necessariamente relação de causa e efeito.

4 EXERCÍCIOS DE FIXAÇÃO

1) Em um estudo estatístico a característica de interesse pode ser qualitativa (nominal ou ordinal) ou quan-titativa (discreta ou contínua). Classifique as variáveis nos exemplos que se seguem:

a) população: moradores de uma certa cidadevariável: cor dos olhos (pretos, castanhos, azuis, verdes)

b) população: casais residentes em uma certa cidadevariável 1: número de filhosvariável 2: classe econômica

c) população: candidatos a um exame vestibularvariável 1: renda familiarvariável 2: sexo (masculino, feminino)variável 3: número de pessoas na família

d) população: sabonetes de certa marcavariável: peso líquido

e) população: aparelhos produzidos por uma linha de montagemvariável: número de defeitos por unidade

2) Especifique o tipo de série estatística que deve ser construída para atender ao objetivo de cada umadas situações abaixo:

a) O diretor de marketing da empresa G.L.T. S.A., fabricante de componentes eletrônicos, deseja examinara evolução de suas vendas em 1975, mês a mês, no Brasil.

b) Um laboratório farmacêutico está interessado em conhecer o comportamento das vendas de três de seusprodutos no Brasil em 1994.

c) O H.G.E. necessita saber o número de óbitos por principais grupos de causa em idosos no últimos 5anos.

d) O A.A. (Alcoolatras Anônimos) deseja saber o número de pessoas que frequentaram as reuniões no anode 1995, em todas as capitais do Brasil.

3) Elabore tabelas com os dados abaixo, classificando a série estatística de cada uma delas:a) Segundo o Anuário Estatístico do Brasil, a produção de óleo de mamona no Ceará, em 1971, foi de

8.610 toneladas, em Pernambuco, 32.100 toneladas, na Bahia foi de 28.778 toneladas, e em São Paulo foi de62.012 toneladas.

b) Segundo a Equipe Técnica de Estatística Agropecuária, a produção de peles de alguns animais silvestres,na Bahia, em 1965, em toneladas, foi a seguinte: Ariranha, 159; Capivara, 1.927; Gato do mato, 27.154; Porcodo mato, 18.843. No ano de 1966, registraram-se os seguintes dados, em toneladas: Ariranha, 143; Capivara,2.410; Gato do mato, 29.800; Porco do mato, 19.635.

c) Segundo a Anuário Estatístico do Brasil, editado pelo IBGE, a população presente recenseada noBrasil, segundo o sexo, foi a seguinte: em 1940, 41.236.315 habitantes; sendo 20.614.088 do sexo masculino e

32

Page 33: Estatistica Descritiva

20.622.227 do sexo feminino; em 1950, a população total foi 51.944.397, sendo 25.885.001 do sexo masculino.Em 1960, para o total de 70.119.071 habitantes, registrou-se a presença de 35.108.354 mulheres. E em 1970,a população total alcançou 93.204.379 habitantes, sendo 46.330.629 do sexo masculino.

4) Para os conjuntos de dados a seguir:a) Determinar o número de classes pela regra de Sturgesb) Construir a tabela de frequências absolutas simplesc) Determinar:c.1) as frequências simples relativasc.2) as frequências absolutas e relativas acumuladas (”abaixo de”)c.3) as frequências absolutas e relativas acumuladas (”acima de”)d) Construir um histograma e um polígono de frequências4.1) Os dados seguintes representam 20 observações relativas ao índice pluviométrico em determinados

municípios do Estado:

Milímetros de Chuva

144 152 159 160160 151 157 146154 145 141 150142 146 142 141141 150 143 158

4.2) Considere os seguintes dados sobre a distribuição de valores de metabolismo basal (cal/dia) em 35adolescentes:

910 1280 1220 1120 10401070 980 1310 1240 11401190 1090 1010 1380 12701280 1210 1110 1040 1460960 1300 1240 1130 10701080 1000 1360 1260 11801200 1110 1020 1420 1270

5) Calcule para cada uma das distribuições abaixo as seguintes medidas:

a) de tendência central: média aritmética, mediana e moda

b) de dispersão: amplitude total, desvio-padrão e variância

5.1. Pesos de recém-nascidos (em kg): 2.7; 3.9; 4.1; 4.3; 5.4

5.2. Taxas sanguíneas de uréia (mg/dl): 27; 31; 32; 34; 46; 61

5.3. Idade de pacientes renais (em anos):

Idade fi26 328 1030 1232 537 19

TOTAL 49

33

Page 34: Estatistica Descritiva

5.4. Número de atendimentos em serviço médico por funcionários de uma empresa:

Node Atendimento fi0 241 212 33 514 1

TOTAL 50

5.5. Altura de 140 alunos (em cm):

Estaturas (cm) 145|–150 150|–155 155|–160 160|–165 165|–170 170|–175 175|–180 180|–185Node Alunos 2 10 27 38 27 21 8 7

c) Calcule o primeiro quartil, o quadragésimo centil e o nono decil para o conjunto de dados 5.5.d) Avalie a assimetria do conjunto de dados 5.56) Como parte de uma investigação sobre o efeito da variação de temperatura em ratos, a taxa de perda

de água em um grupo de ratos foi determinada para um série de temperaturas pela absorção de água ocorridaem um particular tempo. Os resultados seguintes foram obtidos:

Temperatura (oC) 15 20 25 30 35Água Absorvida (mg) 2794 2924 3175 3340 3576

Considere: x = temperatura (variável independente); e y =a quantidade de água absorvida (variávelde-pendente).

Analise a correlação entre estas duas variáveis. Construa inicialmente um diagrama de dispersão.

7) Os box plots a seguir mostram as distribuições de vendas de uma loja, referentes aos anos de 1995, 1996e 1997. Analise-os e descreva o comportamento dessas três distribuições:

1 9 9 6

1 9 9 7

1 9 9 5

0 1 0 2 0 3 0 4 0 5 0 6 0 7 0 (m ilh õ e s)

8) Decidiu-se investigar a distribuição salarial dos profissionais com nível universitário em duas regiões A eB. As informações pertinentes foram obtidas e encontram-se no quadro abaixo, expressas em salários mínimos.Com base nestes dados, responda:

a) Que medidas podem ser calculadas a partir das que se encontram no quadro?b) Faça uma descrição rápida das principais diferenças entre o salário destes profissionais?

Região Média DP Mediana Moda Q1 Q3 Min Máx

A 20.000 4.00 20.32 20.15 17.32 22.68 8.00 32.00B 20.000 6.00 18.00 17.00 16.00 24.00 14.00 42.00

34

Page 35: Estatistica Descritiva

9) Verifique se existe associação entre as duas variáveis dos exemplos a seguir:9.1. Hábito de fumar e sexo:

Grupo Sanguíneo Sexo TOTALMasculino Feminino

Sim 20 60 80Não 25 75 100

TOTAL 45 135 180

9.2. Estado civil e aprovação no vestibular:

Estado Civil Aprovado Reprovado TOTAL

Solteiro 120 80 200Casado 45 55 100Separado 180 120 300Outros 255 145 400

TOTAL 600 400 1000

5 Bibliografia

BERQUÓ, SOUZA, GOTLIEB. Bioestatística. São Paulo: Editora Pedagógica e Universitária Ltda, 1980.BOTTER, et alii. Noções de estatística: Notas de aula. Instituto de Matemática e Estatística. USP.

Fevereiro, 1996.BUSSAB, Wilton O , MORETTIN, Pedro A . Estatística Básica. 4aed. São Paulo: Atual Editora, 1980.FONSECA, Jairo Simon da, MARTINS, Gilberto de Andrade. Curso de Estatística. 3aed. Editora Atlas,

1990.LAURENTI, et elii. Estatísticas de saúde. 2aed. São Paulo: E.P.U., 1987.LOPES, Paulo Afonso. Probabilidades e Estatística. Editora R.A . 1999MORETTIN, Luiz Gonzaga. Estatística Básica. 7aed. Editora Makron Books. Vols. 1 e 2. 1999.MORAES, Lia Terezinha L.P. Notas de aulas (diversos). Departamento de Estatística. UFBA.1996.SOARES, José Francisco; SIQUEIRA, Arminda Lúcia. Introdução à Estatística Médica. 1aedição. Belo

Horizonte: Departamento de Estatística. UFMG.1999.SOUNIS, Emílio. Bioestatística. São Paulo: Editora McGraw-Hill do Brasil Ltda, 1979.TOLEDO, Geraldo Luciano, OVALLE, Ivo Izidoro. Estatística Básica. 2aed. São Paulo: Editora Atlas,

1994.TRIOLA, Mário. Introdução à Estatística. 7aed. Editora LTC. 1999VIEIRA, Sônia. Introdução à Estatística. Rio de Janeiro: Editora Campus Ltda, 1981.

35