AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de...

Post on 10-Nov-2018

214 views 0 download

Transcript of AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de...

Análise de Dados e Simulação

Márcia D’Elia Brancohttp://www.ime.usp.br/~mbranco

Análise ExploratóriaUnidimensional

APOIO COMPUTACIONAL 

Software: R

• Vantagem: software livre• Download: http://www.r-project.org/

- Escolher opção Download R- Seguir os passos de instalação

Biblioteca Rcmdr

• Vantagem: ambiente baseado em menus• Deve ser instalada após instalação do R• Instruções de instalação no material de apoio

2

Instalar o pacote Rcmdr

3

Carregar o pacote para utilizá‐lo

4

Exemplo 1. Título do projeto: “Progressão Continuada e Seriação: 

um estudo comparativo”.

• Estudo realizado pela Faculdade de Educação da Universidade de São Paulo

• Ano de realização: 2012

• Finalidade: Doutorado

• Análise Estatística: Centro de Estatística Aplicada (CEA12P11) – IME‐USP

5

Exemplo 1.

• Objetivo: Comparar os regimes seriado e continuadodas escolas públicas e compreender o efeito do regimeescolar no desempenho dos alunos.

• Dados: Prova Brasil de 2007 e 2009.

Amostra: 1.128 alunos de 6 escolas

• 2 escolas municipais (regime seriado)

• 4 escolas estaduais (regime continuado)

6

Exemplo 1. Algumas variáveis:

• Proficiência em Português/Matemática (valores de 0 a 500)

• Sexo do aluno (feminino/masculino)

• Escolaridade do pai/mãe (nunca estudou, completou até a 5ªsérie, ensino fundamental completo, ensino médio completo,ensino superior completo)

• Número de livros em casa (valores no conjunto dos naturais)

• Frequência que faz os deveres de casa (nunca ou quase nunca, oprofessor não passa dever de casa, de vez em quando, sempre ouquase sempre)

• Professor corrige o dever de casa (nunca ou quase nunca, de vezem quando, sempre ou quase sempre)

• Escola (municipal, estadual)

7

Importar o conjunto de dados:

Visualizar os dados:

8

Número de livros em casa

Proficiência em Matemática

Discreta

Contínuas

Sexo

Escolaridade do pai

Nominal

Ordinal

9

Variáveis qualitativas

Variáveis quantitativas

Variância (s2)Desvio padrão (s)

Intervalo‐interquartil (Q3 – Q1)Coeficiente de variação (CV)

‐Média (x)Mediana (md) Quartis (Q1, Q3)Máximo (máx)Mínimo (min)

Medidas de posição

Medidas de dispersão

10

Variáveis quantitativas

Estatísticas Resumo

mean sd IQR             0%           25%              50%               75%PROF_MAT 212.4431      51.85155      73.60565      0       176.1596      210.0091      249.7653

100%               n355.2183        1228

mean sd IQR           0%        25%               50%               75%PROF_PORT   190.5915       47.01356     63.72711      0      157.1702     189.4499      220.8973

100%                n338.6800        1228

11

12

13

Boxplot da prof. em matemática

segundo a escola

Boxplot da prof. em português

segundo a escola

Alguns Comentários:

• Há observações discrepantes para a escola estadual;

• Distribuição dos valores um pouco diferente para as duas escolas.

Os dados também podem ser resumidosconstruindo‐se uma tabela de distribuiçãode frequências .

Distribuição de frequências de uma variávelé uma lista dos valores individuais ou dosintervalos de valores que a variável podeassumir, com as respectivas frequências deocorrência.

14

Construir intervalos de classe

1) Criar uma nova variável

15

Construir intervalos de classe2) Obter a distribuição de frequências da nova variável

Classes(0,59]    (59,118]  (118,178] (178,237] (237,296] (296,356]

Distribuição de frequências para a variável Proficiência em Matemática

f226296512324 68

fr (%)0.16 2.12 24.10 41.6926.385.54

16

Gráficos

• “Strip Chart” ou “Dotplot”

• “Boxplot”

• Histograma

17

Variáveis quantitativas

18

STRIP CHART ou DOT PLOTExemplo: Dados de performance e design de 10 modelos de carros(1973‐74) retirados do arquivomtcars (disponível no R)

Variáveis: ‐ Número de carburadores‐ Câmbio: manual ou automático

Boxplot

Representa os dados através de um retânguloconstruído com os quartis e forneceinformações sobre os valores extremos.

19

20

“Máximo”

Q3

Mediana

Q1

“Mínimo”

25%

50%

75%

ConstruçãoLS=Q3+1,5(Q3‐Q1)

LI=Q1‐1,5(Q3‐Q1)

“Máximo” é o maior valor menor que LS;

“Mínimo” é o menor valor maior que LI.

Gráficos: Boxplot

21

Professor corrige o dever de matemática/português0: Nunca ou quase nunca1: De vez em quando2: Sempre ou quase sempre

Boxplot da prof. em matemática

segundo a correção do dever pelo professor

Boxplot da prof. em português

segundo a correção do dever pelo professor

22

Exemplo 2.

Título do projeto: “Caracterização Postural de

Crianças de 7 e 8 anos das Escolas Municipais da Cidade

de Amparo/SP”

• Estudo realizado pelo Departamento deFisioterapia, Fonoaudiologia e Terapia Ocupacionalda Faculdade de Medicina da USP

• Ano de realização: 2006• Finalidade: mestrado• Análise Estatística: Centro de Estatística Aplicada (CEA06P24), IME‐USP

23

• Objetivo: caracterizar a postura de crianças dacidade de Amparo/SP, entre sete e oito anos deambos os sexos

• Amostra: 230 crianças com 7 e 8 anos.

• Medidas de postura das crianças foram obtidas.

Exemplo 2.

Variações de postura na criança, associadas aos estágios

de crescimento, surgem em resposta aos problemas de

equilíbrio devido às mudanças nas proporções do corpo.

24

Exemplo 2. Algumas variáveis:

• Sexo (feminino, masculino);

• Peso (em kg);

• Altura (em metros);

• Índice de Massa Corpórea – IMC (em kg/m2);

• Atividade Física (em hs/semana);

• Tipo de Mochila Utilizada (com fixação escapular, comfixação lateral, de carrinho, outros);

• Dominância (destro, canhoto);

• Região da escola;25

• Postura do ombro no plano frontal (cm):foi avaliado o desnível entre os ombros,conforme figura, e anotou‐se a diferençaDireito‐Esquerdo;

• Avaliação da Lordose Lombar (graus): foiavaliado o aumento da lordose lombar(hiperlordose) e a diminuição desta(retificação), pela mensuração do ânguloformado entre os pontos de maiorconvexidade da coluna torácica e da regiãoglútea e o ponto de maior concavidade dacoluna lombar, em ambos lados (Direito eEsquerdo).

Exemplo 2. Algumas variáveis relativas a postura

26

Boxplot do desnível dos ombrosBoxplot do desnível dos ombros

segundo o sexo

Alguns Comentários:

• há uma observação discrepante para meninas;

• não há observações discrepantes para meninos;

• medidas de posição tendem a ser próximas para os dois sexos.27

Boxplots do desnível dos ombros segundo Dominância

Frequências:

Direita         212

Esquerda      17

Ambidestra   1

Alguns Comentários:

• Note que só há uma criança ambidestra;

• Há observações discrepantes para dominância esquerda e direita;

• Distribuição dos valores bem diferente para as duas dominâncias.28

Histograma

Bases iguais

Construir um retângulo para cada classe, com base igualao tamanho da classe e altura proporcional à frequênciada classe (f).

Agrupar os dados em intervalos de classes (distribuição de frequências)

Bases diferentes

Construir um retângulo para cada classe, com base igual aotamanho da classe e área do retângulo igual a frequênciarelativa da classe (fr). A altura será dada por

h = fr/base (densidade de frequência).29

Histograma da altura

Distribuição de frequências paraaltura

Classe de altura        f        fr (%)

1,10  1,151,15  1,201,20  1,251,25  1,301,30  1,351,35  1,401,40  1,45

Total

733587736181

230

3,0414,3525,2233,4815,657,830,43

10030

31

Exemplo: Classes desiguais

0     3            12               24                                         60

f

Classes (meses)       f           fr h

0 |‐ 3                    140       0,28      0,093

3 |‐ 12                 100       0,20      0,022

12 |‐24                   80        0,16      0,013

24 |‐60                   180       0,36      0,010

Total                        500      1,00

Distribuição das idades (em meses) de uma amostra de 500 crianças 

vacinadas

0     3            12               24                                         60

h0,10

0,02

0,04

0,06

0,08

Forma da Distribuição

32

Variáveis Qualitativas

Os dados podem ser resumidos construindo‐seuma tabela de distribuição de frequências, quequantifica a frequência das distintas categorias.

Variáveis qualitativas do exemplo 2

Dominância

SexoTipo de mochila

33

Variáveis qualitativas

Sexo  Freq.  (%)                          Dominância     Freq.       (%)M     130    56,52                            Direita    212        92,17F     100    43,48                          Esquerda    17     7,39 N=    230            Ambidestra     1           0,43

N=   230

Medidas descritivas para variáveis qualitativas

34

Tipo Mochila      Freq.       (%)Escapular        123       53,48Lateral           23        10,00Carrinho         80         34,78Outros            4           1,74N=   230

• Gráfico de setores

• Gráfico de barras

Gráficos

35

Variáveis qualitativas

Gráfico de setores

Um círculo é dividido em tantos setoresquantas forem as categorias da variável.A área de cada setor é proporcional àfrequência da categoria

36

Gráfico de setores para a variável “Tipo de mochila”

Gráfico de setores para a variável “Região da escola”

37

Gráfico de barras

Sobre um eixo, são representadosretângulos, um para cada categoria davariável. A altura do retângulo éproporcional à frequência dacategoria

38

Gráfico de barras para a variável  “Tipo de mochila”

Gráfico de barras para a variável  “Região da escola”

39