3-1Adaptado de Levine
Estatística DescritivaProf. Helcio Rocha
Estatística
3-2
Definições sumárias
Tendência central: extensão na qual os valores de dados se agrupam em torno de um valor central
Variação: dispersão em relação a um valor central Formato: padrão da distribuição de valores, do mais
baixo para o mais alto
Ao resumir e descrever variáveis numéricas, precisamos considerar:
3-3
Medidas de tendência central: A média
Obs: é afetada por valores extremos (outliers)
11 12 13 14 15 16 17 18 19 20
Média = 13
11 12 13 14 15 16 17 18 19 20
Média = 14
31565
55141312111
41
570
52041312111
3-4
Medidas de tendência central: A mediana
Obs: NÃO É afetada por valores extremos (outliers)
Mediana = 13 Mediana = 13
11 12 13 14 15 16 17 18 19 20 11 12 13 14 15 16 17 18 19 20
3-5
Medidas de tendência central: A moda
Observações: NÃO É afetada por valores extremos Aplicável também a dados categóricos Pode não haver moda Podem haver várias modas
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Moda = 9
0 1 2 3 4 5 6
Sem Moda
3-6
Medidas de tendência central: Qual utilizar?
A média é geralmente utilizada, a não ser quando existem outliers.
A mediana tem uso frequente, por não ser afetada por outliers.
Em algumas situações, recomenda-se relatar ambas medidas.
3-7
Mesmo centro, diferentes dispersões
Medidas de variação
Variação
Desvio padrão
Coeficiente de variação
Amplitude Variância
3-8
Medidas de variação: A amplitude
A medida mais simples de variação É afetada por outliers Ignora o modo como os dados estão distribuídos
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Amplitude = 13 - 1 = 12
Exemplo:
3-9
Medidas de variação:A variância
1-n
)X(XS
n
1i
2i
2
N
μ)(Xσ
N
1i
2i
2
Variância populacional (é um parâmetro)
Variância amostral (é uma estatística)
3-10
Medidas de variação:O desvio padrão
É a medida de variação mais empregada É a raiz quadrada da variância Possui a mesma unidade dos dados de origem
1-n
)X(XS
n
1i
2i
N
μ)(Xσ
N
1i
2i
Desvio padrão populacional (é um parâmetro)
Desvio padrão amostral (é uma estatística)
3-11
Medidas de variação:O desvio padrão da amostra (exemplo)
Dados da amostra (Xi) 10 12 14 15 17 18 18 24
n = 8 Média = X = 16
4.30957
130
1816)(2416)(1416)(1216)(10
1n)X(24)X(14)X(12)X(10S
2222
2222
3-12
Medidas de variação:Comparando desvios padrão
Média = 15.5 S = 3.338 11 12 13 14 15 16 17 18 19 20 21
11 12 13 14 15 16 17 18 19 20 21
Data B
Data A
Média = 15.5 S = 0.926
11 12 13 14 15 16 17 18 19 20 21
Média = 15.5 S = 4.570
Data C
3-13
Medidas de variação:Comparando desvios padrão
Menor desvio padrão
Maior desvio padrão
3-14
Medidas de variação:O coeficiente de variação
É uma medida relativa de variação Sempre em % Apresenta a variação relativa à média Permite comparar dois ou mais conjuntos de
dados que são mensurados em unidades diferentes
100%XSCV
3-15
Medidas de variação:Comparando coeficientes de variação
Ação A: Preço médio do último ano = $50 Desvio padrão = $5
Ação B: Preço médio do último ano = $100 Desvio padrão = $5
Ambas ações possuem o mesmo DP, mas a B é menos variável em relação a seu preço
10%100%$50$5100%
XSCVA
5%100%$100
$5100%XSCVB
3-16
Medidas de variação:Comparando coeficientes de variação
Stock A: Preço médio do último ano = $50 Desvio padrão = $5
Stock C: Preço médio do último ano = $8 Desvio padrão = $2
A ação C possui um DP bem menor, mas um CV bem maior
10%100%$50$5100%
XSCVA
25%100%$8$2
100%XS
CVC
3-17
Localizando valores extremos:Uso do escore Z
Um valor é considerado outlier quando seu escore Z é inferior a – 3,0 ou superior a + 3,0
SXXZ
(Número de desvios padrão)
3-18
Formato de uma distribuição:Assimetria
Média = Mediana Média < Mediana Média > Mediana
Assimétrico à direitaAssimetria > 0
Assimétrico à esquerdaAssimetria < 0
SimétricoAssimetria = 0
3-19
Formato de uma distribuição:Curtose
É uma medida direta do afunilamento da curva (ou inversa do seu achatamento)
Formato mais afuniladoCurtose > 0
Distribuição normalCurtose = 0
Formato mais achatadoCurtose < 0
3-20
Estatística descritiva usando o Excel
3-21
Estatística descritiva usando o Excel1. Selecione Dados.2. Selecione Análise de
dados.3. Selecione Estatística
Descritiva. Clique OK.
3-22
Estatística descritiva usando o Excel
4. Registre o intervalo de entrada.
5. Selecione a opção Resumo estatístico.
6. Click OK
3-23
Quartis Dividem os dados ordenados em 4 segmentos,
com igual No. de dados em cada segmento
25%
Localizando os quartis:Q1 = (n+1)*(1/4)
Q2 = (n+1)*(1/2) (é a mediana)
Q3 = (n+1)*(3/4)
Q1 Q2 Q3
25% 25% 25%
Os quartis não são afetados por outliers
3-24
(n = 9)Q1 na posição (9+1)*(1/4) = 2.5
então Q1 = (12+13)/2 = 12.5
Q2 na posição (9+1)*(1/2) = 5 então Q2 = mediana = 16
Q3 na posição (9+1)*(3/4) = 7.5então Q3 = (18+21)/2 = 19.5
Localizando quartis – 1o. exemplo
Dados ordenados: 11 12 13 16 16 17 18 21 22
3-25
(n = 10)Q1 na posição (10+1)*(1/4) = 2.75 → arredonde para 3
então Q1 = 35
Q2 na posição (10+1)*(1/2) = 5.5 então Q2 = (39+40)/2 = 39.5
Q3 na posição (10+1)*(3/4) = 8.25 → arredonde para 8então Q3 = 44
Localizando quartis – 2o. exemplo
Dados ordenados: 29 31 35 39 39 40 43 44 44 52
3-26
Os cinco números e o Boxplot
Os cinco números que proporcionam um método para se determinar o formato de uma distribuição :
Boxplot:
Xmenor -- Q1 -- Mediana -- Q3 -- Xmaior
Xmenor Q1 Mediana Q3 Xmaior
Construindo o Boxplot no Excel
3-27
Mínimo -71o. quartil -3Mediana 23o. quartil 4Máximo 9
9-79
Resumo de Cinco Números
-10 -5 0 5 10
Box-Plot
3-28
A curva de distribuição e o Boxplot
Assimétrica à esquerda
Simétrica
Q1 Q2 Q3 Q1 Q2 Q3Q1 Q2 Q3
Assimétrica à direita
3-29
Amplitude interquartil (Q3 – Q1)
Mediana(Q2)
XmáxX
mín Q1 Q3
25% 25% 25% 25%
12 30 45 57 70
Amplitude interquartil = 57 – 30 = 27
Também conhecida como dispersão média
Obs: Assim como os quartis, também não é afetada por outliers
3-30
Medindo a relação entre duas variáveis numéricas:A covariância
Mede a força de uma relação linear entre duas variáveis numéricas(X & Y)
Covariância da amostra
Não implica numa relação causa-efeito
1n
)YY)(XX()Y,X(cov
n
1iii
3-31
Covariância entre duas variáveis
cov(X,Y) > 0 X e Y tendem a se mover na mesma direção
cov(X,Y) < 0 X e Y tendem a se mover em direções opostas
cov(X,Y) = 0 X e Y são independentes
Observar: cov pode assumir qualquer valor
Consequência: não é possível se determinar a força relativa da relação a partir do valor da covariância
Interpretando a Covariância
3-32
Coeficiente de Correlação
Mede a força relativa de uma relação linear entre duas variáveis numéricas
É adimensional
YX SSY),(Xcovr
YX
Y),(Xcov
Coeficiente de correlação da amostra
Coeficiente de correlação da população
3-33
Coeficientes de Correlação e gráficos de dispersão
Y
X
Y
X
Y
X
Y
X
r = -1 r = -.6
r = +.3r = +1
Y
Xr = 0
3-34
Coeficiente de Correlação: função no Excel
3-35
Coeficiente de Correlação: Análise de Dados no Excel
1. Selecione Dados2. Escolha Análise de Dados3. Selecione Correlação e
clique OK
3-36
Coeficiente de Correlação: Análise de Dados no Excel (cont.)
4. Entre com os dados e selecione as opções adequadas
5. Clique em OK
3-37
Interpretanto o Coeficiente de Correlação
r = 0.733 Há uma relação linear
positiva relativamente forte entre as notas do teste 1 e as do teste 2.
Scatter Plot of Test Scores
70
75
80
85
90
95
100
70 75 80 85 90 95 100
Test #1 Score
Test
#2
Scor
e
Top Related