AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de...

39
Análise de Dados e Simulação Márcia D’Elia Branco http://www.ime.usp.br/~mbranco Análise Exploratória Unidimensional

Transcript of AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de...

Page 1: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Análise de Dados e Simulação

Márcia D’Elia Brancohttp://www.ime.usp.br/~mbranco

Análise ExploratóriaUnidimensional

Page 2: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

APOIO COMPUTACIONAL 

Software: R

• Vantagem: software livre• Download: http://www.r-project.org/

- Escolher opção Download R- Seguir os passos de instalação

Biblioteca Rcmdr

• Vantagem: ambiente baseado em menus• Deve ser instalada após instalação do R• Instruções de instalação no material de apoio

2

Page 3: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Instalar o pacote Rcmdr

3

Page 4: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Carregar o pacote para utilizá‐lo

4

Page 5: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Exemplo 1. Título do projeto: “Progressão Continuada e Seriação: 

um estudo comparativo”.

• Estudo realizado pela Faculdade de Educação da Universidade de São Paulo

• Ano de realização: 2012

• Finalidade: Doutorado

• Análise Estatística: Centro de Estatística Aplicada (CEA12P11) – IME‐USP

5

Page 6: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Exemplo 1.

• Objetivo: Comparar os regimes seriado e continuadodas escolas públicas e compreender o efeito do regimeescolar no desempenho dos alunos.

• Dados: Prova Brasil de 2007 e 2009.

Amostra: 1.128 alunos de 6 escolas

• 2 escolas municipais (regime seriado)

• 4 escolas estaduais (regime continuado)

6

Page 7: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Exemplo 1. Algumas variáveis:

• Proficiência em Português/Matemática (valores de 0 a 500)

• Sexo do aluno (feminino/masculino)

• Escolaridade do pai/mãe (nunca estudou, completou até a 5ªsérie, ensino fundamental completo, ensino médio completo,ensino superior completo)

• Número de livros em casa (valores no conjunto dos naturais)

• Frequência que faz os deveres de casa (nunca ou quase nunca, oprofessor não passa dever de casa, de vez em quando, sempre ouquase sempre)

• Professor corrige o dever de casa (nunca ou quase nunca, de vezem quando, sempre ou quase sempre)

• Escola (municipal, estadual)

7

Page 8: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Importar o conjunto de dados:

Visualizar os dados:

8

Page 9: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Número de livros em casa

Proficiência em Matemática

Discreta

Contínuas

Sexo

Escolaridade do pai

Nominal

Ordinal

9

Variáveis qualitativas

Variáveis quantitativas

Page 10: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Variância (s2)Desvio padrão (s)

Intervalo‐interquartil (Q3 – Q1)Coeficiente de variação (CV)

‐Média (x)Mediana (md) Quartis (Q1, Q3)Máximo (máx)Mínimo (min)

Medidas de posição

Medidas de dispersão

10

Variáveis quantitativas

Page 11: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Estatísticas Resumo

mean sd IQR             0%           25%              50%               75%PROF_MAT 212.4431      51.85155      73.60565      0       176.1596      210.0091      249.7653

100%               n355.2183        1228

mean sd IQR           0%        25%               50%               75%PROF_PORT   190.5915       47.01356     63.72711      0      157.1702     189.4499      220.8973

100%                n338.6800        1228

11

Page 12: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

12

Page 13: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

13

Boxplot da prof. em matemática

segundo a escola

Boxplot da prof. em português

segundo a escola

Alguns Comentários:

• Há observações discrepantes para a escola estadual;

• Distribuição dos valores um pouco diferente para as duas escolas.

Page 14: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Os dados também podem ser resumidosconstruindo‐se uma tabela de distribuiçãode frequências .

Distribuição de frequências de uma variávelé uma lista dos valores individuais ou dosintervalos de valores que a variável podeassumir, com as respectivas frequências deocorrência.

14

Page 15: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Construir intervalos de classe

1) Criar uma nova variável

15

Page 16: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Construir intervalos de classe2) Obter a distribuição de frequências da nova variável

Classes(0,59]    (59,118]  (118,178] (178,237] (237,296] (296,356]

Distribuição de frequências para a variável Proficiência em Matemática

f226296512324 68

fr (%)0.16 2.12 24.10 41.6926.385.54

16

Page 17: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Gráficos

• “Strip Chart” ou “Dotplot”

• “Boxplot”

• Histograma

17

Variáveis quantitativas

Page 18: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

18

STRIP CHART ou DOT PLOTExemplo: Dados de performance e design de 10 modelos de carros(1973‐74) retirados do arquivomtcars (disponível no R)

Variáveis: ‐ Número de carburadores‐ Câmbio: manual ou automático

Page 19: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Boxplot

Representa os dados através de um retânguloconstruído com os quartis e forneceinformações sobre os valores extremos.

19

Page 20: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

20

“Máximo”

Q3

Mediana

Q1

“Mínimo”

25%

50%

75%

ConstruçãoLS=Q3+1,5(Q3‐Q1)

LI=Q1‐1,5(Q3‐Q1)

“Máximo” é o maior valor menor que LS;

“Mínimo” é o menor valor maior que LI.

Page 21: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Gráficos: Boxplot

21

Page 22: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Professor corrige o dever de matemática/português0: Nunca ou quase nunca1: De vez em quando2: Sempre ou quase sempre

Boxplot da prof. em matemática

segundo a correção do dever pelo professor

Boxplot da prof. em português

segundo a correção do dever pelo professor

22

Page 23: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Exemplo 2.

Título do projeto: “Caracterização Postural de

Crianças de 7 e 8 anos das Escolas Municipais da Cidade

de Amparo/SP”

• Estudo realizado pelo Departamento deFisioterapia, Fonoaudiologia e Terapia Ocupacionalda Faculdade de Medicina da USP

• Ano de realização: 2006• Finalidade: mestrado• Análise Estatística: Centro de Estatística Aplicada (CEA06P24), IME‐USP

23

Page 24: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

• Objetivo: caracterizar a postura de crianças dacidade de Amparo/SP, entre sete e oito anos deambos os sexos

• Amostra: 230 crianças com 7 e 8 anos.

• Medidas de postura das crianças foram obtidas.

Exemplo 2.

Variações de postura na criança, associadas aos estágios

de crescimento, surgem em resposta aos problemas de

equilíbrio devido às mudanças nas proporções do corpo.

24

Page 25: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Exemplo 2. Algumas variáveis:

• Sexo (feminino, masculino);

• Peso (em kg);

• Altura (em metros);

• Índice de Massa Corpórea – IMC (em kg/m2);

• Atividade Física (em hs/semana);

• Tipo de Mochila Utilizada (com fixação escapular, comfixação lateral, de carrinho, outros);

• Dominância (destro, canhoto);

• Região da escola;25

Page 26: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

• Postura do ombro no plano frontal (cm):foi avaliado o desnível entre os ombros,conforme figura, e anotou‐se a diferençaDireito‐Esquerdo;

• Avaliação da Lordose Lombar (graus): foiavaliado o aumento da lordose lombar(hiperlordose) e a diminuição desta(retificação), pela mensuração do ânguloformado entre os pontos de maiorconvexidade da coluna torácica e da regiãoglútea e o ponto de maior concavidade dacoluna lombar, em ambos lados (Direito eEsquerdo).

Exemplo 2. Algumas variáveis relativas a postura

26

Page 27: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Boxplot do desnível dos ombrosBoxplot do desnível dos ombros

segundo o sexo

Alguns Comentários:

• há uma observação discrepante para meninas;

• não há observações discrepantes para meninos;

• medidas de posição tendem a ser próximas para os dois sexos.27

Page 28: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Boxplots do desnível dos ombros segundo Dominância

Frequências:

Direita         212

Esquerda      17

Ambidestra   1

Alguns Comentários:

• Note que só há uma criança ambidestra;

• Há observações discrepantes para dominância esquerda e direita;

• Distribuição dos valores bem diferente para as duas dominâncias.28

Page 29: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Histograma

Bases iguais

Construir um retângulo para cada classe, com base igualao tamanho da classe e altura proporcional à frequênciada classe (f).

Agrupar os dados em intervalos de classes (distribuição de frequências)

Bases diferentes

Construir um retângulo para cada classe, com base igual aotamanho da classe e área do retângulo igual a frequênciarelativa da classe (fr). A altura será dada por

h = fr/base (densidade de frequência).29

Page 30: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Histograma da altura

Distribuição de frequências paraaltura

Classe de altura        f        fr (%)

1,10  1,151,15  1,201,20  1,251,25  1,301,30  1,351,35  1,401,40  1,45

Total

733587736181

230

3,0414,3525,2233,4815,657,830,43

10030

Page 31: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

31

Exemplo: Classes desiguais

0     3            12               24                                         60

f

Classes (meses)       f           fr h

0 |‐ 3                    140       0,28      0,093

3 |‐ 12                 100       0,20      0,022

12 |‐24                   80        0,16      0,013

24 |‐60                   180       0,36      0,010

Total                        500      1,00

Distribuição das idades (em meses) de uma amostra de 500 crianças 

vacinadas

0     3            12               24                                         60

h0,10

0,02

0,04

0,06

0,08

Page 32: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Forma da Distribuição

32

Page 33: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Variáveis Qualitativas

Os dados podem ser resumidos construindo‐seuma tabela de distribuição de frequências, quequantifica a frequência das distintas categorias.

Variáveis qualitativas do exemplo 2

Dominância

SexoTipo de mochila

33

Page 34: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Variáveis qualitativas

Sexo  Freq.  (%)                          Dominância     Freq.       (%)M     130    56,52                            Direita    212        92,17F     100    43,48                          Esquerda    17     7,39 N=    230            Ambidestra     1           0,43

N=   230

Medidas descritivas para variáveis qualitativas

34

Tipo Mochila      Freq.       (%)Escapular        123       53,48Lateral           23        10,00Carrinho         80         34,78Outros            4           1,74N=   230

Page 35: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

• Gráfico de setores

• Gráfico de barras

Gráficos

35

Variáveis qualitativas

Page 36: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Gráfico de setores

Um círculo é dividido em tantos setoresquantas forem as categorias da variável.A área de cada setor é proporcional àfrequência da categoria

36

Page 37: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Gráfico de setores para a variável “Tipo de mochila”

Gráfico de setores para a variável “Região da escola”

37

Page 38: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Gráfico de barras

Sobre um eixo, são representadosretângulos, um para cada categoria davariável. A altura do retângulo éproporcional à frequência dacategoria

38

Page 39: AnáliseExploratória Unidimensional - IME-USPmbranco/DescritivaI.pdf · Exemplo: Dados de performance e design de 10 modelosde carros (1973‐74) retiradosdo arquivo mtcars (disponível

Gráfico de barras para a variável  “Tipo de mochila”

Gráfico de barras para a variável  “Região da escola”

39