Post on 02-Jul-2022
Stela Adami Vayego - DEST/UFPR 1
Aula 03
Análise Exploratória dos Dados
(Medidas Descritivas de Variáveis Quantitativas)
Parte 1 – Medidas de Tendência Central
Stela Adami Vayego - DEST/UFPR 2
Medidas de Tendência Central dos Dados
Para uma variável quantitativa, uma medida de centralidade
ou de posição é um “valor típico” ou representativo de um
conjunto de dados, em torno do qual se situam os valores
daquela variável.
Stela Adami Vayego - DEST/UFPR 3
Média
Mediana Quartil
Decil Percentil
Separatrizes Moda
Stela Adami Vayego - DEST/UFPR 4
Média Aritmética
Sejam x1, x2, ... , xn os n valores observados da variável X. A média
aritmética dos dados é definida por:
n
x
nxxxX
n
ii
n∑
==+++= 121 ...
Stela Adami Vayego - DEST/UFPR 5
Exemplo: Sejam os pesos ao nascer, em Kg, de 10 cordeiros da
raça Corriedale:
3,1 3,2 2,1 2,9 2,8 3,2 3,2 3,0 3,5 4,0
x = 2,12,82,93,03,13,23,23,23,54,010
= 3110
O peso médio é de 3,1 Kg
Stela Adami Vayego - DEST/UFPR 6
Propriedades da Média Aritmética
✔ É influenciada por valores extremos!
✔ Mais informativa no caso de distribuições aproximadamente simétricas.
✔ A soma de todos os desvios em relação à média é zero:
✔ A média corresponde ao ponto que minimiza a soma de quadrados dos desvios:
0)(1
=−∑=
n
ii xx
2
1)(∑
=
−n
ii xx
Stela Adami Vayego - DEST/UFPR 7
Sejam x(1), x(2), ... , x(n) os mesmos valores que compõem a amostra
dispostos em ordem crescente. A mediana dos dados é:
se n ímpar, valor da observação de posição central, ou seja
Md =
se n par, média dos valores de posição central, ou seja
+
21nx
+
+
2
122nn xx{
Mediana: Valor que determina a posição central de uma distribuição de dados,
tendo 50% deles a sua direita e 50% a sua esquerda.
Stela Adami Vayego - DEST/UFPR 8
Exemplo: Sejam os pesos ao nascer, em Kg, de 10 cordeiros da
raça Corriedale:
x
n2 x
n21
2=
x5x6
2=
O peso mediano é de 3,15 Kg
x(1) x(2) x(3) x(4) x(5) x(6) x(7) x(8) x(9) x(10)
3,13,22
= 3,15 Kg
2,1 2,8 2,9 3,0 3,1 3,2 3,2 3,2 3,5 4,0
Stela Adami Vayego - DEST/UFPR 9
Propriedades da Mediana
✔ Não é influenciada por valores extremos, podendo ser utilizada
em distribuições assimétricas.
✔ Não admite tratamento algébrico, isto é, o conhecimento das
medianas de diversos conjuntos de dados não permite calcular a
mediana da reunião dos mesmos.
Stela Adami Vayego - DEST/UFPR 10
Moda
Valor da amostra que ocorre com maior freqüência. Em uma
distribuição de dados, a moda pode não existir e, quando existe, pode
não ser única. Logo, temos as seguintes classificações:
– Amodal – não existe valor dominante
– Unimodal – existe somente uma moda dominante
– Bimodal – existem dois valores dominantes
– Multimodal – existem mais de dois valores dominantes
✔ Não é influenciada por valores extremos.
✔ Não admite tratamento algébrico.
Stela Adami Vayego - DEST/UFPR 11
Exemplo: Sejam os pesos ao nascer, em Kg, de 10 cordeiros da
raça Corriedale:
O peso modal é de 3,2 Kg
2,1 2,8 2,9 3,0 3,1 3,2 3,2 3,2 3,5 4,0
Stela Adami Vayego - DEST/UFPR 12
Quartis, Decis e Percentis
O percentil de ordem k (onde k é qualquer valor entre 0 e 100),
denotado por Pk, é o valor tal que k% dos valores do conjunto de dados
são menores ou iguais a ele.
Assim, o percentil de ordem 10, o P10, é o valor da variável tal que
10% dos valores são menores ou iguais a ele.
Stela Adami Vayego - DEST/UFPR 13
Quartis, Decis e Percentis
De modo geral, para se obter o percentil de ordem k, denotado por
Pk, após ordenar os dados, calcula-se o valor .
Se L for inteiro, o valor do Pk é a média entre o L-ésimo e o (L+1)-ésimo
valores a contar do menor.
Se L não for inteiro, arredonde L para o maior inteiro mais próximo, e
o valor de Pk será o L-ésimo valor a contar do menor.
L= k100
n
Stela Adami Vayego - DEST/UFPR 14
Exemplo:Considere os pesos, em Kg, de 40 borregas e ovelhas de cria da raça
Hampshire Down, já colocados em ordem crescente:
40 41 42 42 44 47 48 48 49 49 51 52 53 58 59 62 63 64 65 66
67 68 69 70 75 76 83 83 85 86 86 87 87 88 92 93 94 95 97 98
Primeiro Quartil:
25% de 40 = 10.
Então o Q1 = média(10o e 11o valores)=(49+51)/2 = 50 Kg.
Terceiro Quartil:
75% de 40 = 30.
Então o Q3 = média(30o e 31o valores)=(86+86)/2 = 86 Kg.
Stela Adami Vayego - DEST/UFPR 15
Medidas que Descrevem o Formato
Descrevem como os dados estão distribuídos
Medidas de assimetria
Medidas de curtose
Stela Adami Vayego - DEST/UFPR 16
Assimetria
Assimetria significa desvio ou afastamento da simetria.
É o grau de deformação de uma curva de freqüências.
6,25%
25%
37,5%
25%
6,25%
0
6
12
18
24
30
36
42
40 70 100 130 160Valores da variável em estudo
%
Stela Adami Vayego - DEST/UFPR 17
Assimétrica à DireitaAssimétrica à DireitaAssimétrica à EsquerdaAssimétrica à Esquerda SimétricaSimétrica
MédiaMédia = = MedianaMediana = = ModaModaMédiaMédia MedianaMediana ModaModa ModaModa MedianaMediana MédiaMédia
Quanto ao grau de deformação ou assimetria, pode-se ter três tipos de curvas de freqüências:
Curva Simétrica
Curva Assimétrica Positiva (ou deformada à direita)
Curva Assimétrica Negativa (ou deformada à esquerda)
XMdMo X=Md=Mo MoMd X
Stela Adami Vayego - DEST/UFPR 18
Índice de Assimetria
Momento Central de terceira ordem
m3=1n∑ xi−x3
Se m30 , a distribuição é assimétrica positiva (à direita).
Se m30 , a distribuição é assimétrica negativa (à esquerda).
Se m3=0 , a distribuição é simétrica.
Curtose
A curtose indica até que ponto a curva de freqüência de uma
distribuição se apresenta mais afilada ou mais achatada do que uma
curva normal
Índices de Curtose
Coeficiente Percentílico de Curtose
)PP(2QQK
1090
13
−−=
• Se k = 0,263 ⇒ Curva Mesocúrtica• Se K > 0,263 ⇒ Curva Platicúrtica• Se K < 0,263 ⇒ Curva Leptocúrtica
Stela Adami Vayego - DEST/UFPR 21
“Resumo de 5-Números”
O resumo de 5-números associa os limites inferior e superior do conjunto de dados aos quartis, fornecendo uma idéia bastante razoável da dispersão, da tendência central e da forma da distribuição, isto é, do grau de deformação.
O resumo de 5-números pode ser encontrado na seguinte forma:
LlQ3Q1
MedTítulo
Stela Adami Vayego - DEST/UFPR 22
“Boxplot”É uma representação gráfica dos dados através de seu resumo de 5-
números.
O Boxplot fornece informações importantes sobre o comportamento dos dados, como a simetria e variabilidade, e auxilia na detecção de outliers.
Para sua construção é necessário ter:
O primeiro quartil (Q1)
A mediana (Med)
O terceiro quartil (Q3)
O desvio interquartílico (DQ = Q3 – Q1)
Stela Adami Vayego - DEST/UFPR 23
Stela Adami Vayego - DEST/UFPR 24
Detecção de outliers:
pontos externos (outliers): são os pontos que estão a mais de 1,5 DQ do
quartil correspondente até 3,0 DQ
pontos soltos (extremos): são pontos que estão a mais de 3,0 DQ
Stela Adami Vayego - DEST/UFPR 25
Exemplo:
Os dados a seguir fornecem a duração média do ciclo menstrual, em fase de pré-ovulação, de 21 mulheres sadias, as quais estavam usando métodos naturais de planejamento familiar.
28,431,828,031,227,630,327,630,027,529,926,929,426,928,826,828,826,628,526,328,422,9
Stela Adami Vayego - DEST/UFPR 26
Realizando os cálculos iniciais temos:Q1 = 26,9Med = 28,4Q3 = 29,4
31,822,929,426,9
28,4
Duração Média do Ciclo Menstrual
Q3 + 1,5 . DQ = 33,15Q1- 1,5 . DQ = 23,15Q3 + 3,0 . DQ = 36,9Q1 - 3,0 . DQ = 19,4
Limites para “outliers”
DQ = 29,4 – 26,9 = 2,5 (Desvio interquartílico)1,5 . DQ = 3,753,0 . DQ = 7,5
QuartisLimites
Med n = 21
Stela Adami Vayego - DEST/UFPR 27
Non-Outlier Max = 31Non-Outlier Min = 2675% = 29,425% = 26,9Median = 28,4Outliers
CICLO
22 24 26 28 30 32 34