1.3 Описательная статистика

25
Описательная статистика Грауэр Л.В.

Transcript of 1.3 Описательная статистика

Описательная статистика

Грауэр Л.В.

Описательная статистика

Цельобработкасистематизацияграфическое представлениерасчет числовых статистических характеристик

эмпирических данных

Зачем нужна описательная статистика?

Выявить ошибки в данных

Увидеть структуру данных

Найти нарушения в статистических предположениях

Сгенерировать гипотезы

Порядковые статистики. Вариационный ряд

ξ, X[n] = (X1, . . . , Xn)

Порядковые статистики:X(1) = min {X1, . . . ,Xn} — первая порядковая статистика,X(2) = min

{{X1, . . . ,Xn} \X(1)

}— вторая порядковая статистика,

X(3) = min{{X1, . . . ,Xn} \

{X(1),X(2)

}}— третья порядковая

статистика,. . .X(n) = max {X1, . . . ,Xn} — n-ая порядковая статистика.

Вариационный ряд: X(1) 6 X(2) 6 . . . 6 X(n).

Примеры

Рост баскетболистовX[10]=(205, 184, 207, 198, 195, 187, 201, 177, 191, 194)

Количество попаданий в мишень из 5 выстреловX[10]= (5, 3, 5, 3, 4, 5, 4, 5, 3, 3)

Статистический ряд

(X(1) 6 X(2) 6 . . . 6 X(n)) ⇒ (Z(1) < Z(2) < . . . < Z(k))

xi Z(1) Z(2) . . . Z(k)

ni n1 n2 . . . nkni/n n1/n n2/n . . . nk/n∑ij=1 nj/n n1/n

∑2j=1 nj/n . . . 1

ПримерX[10]= (5, 3, 5, 3, 4, 5, 4, 5, 3, 3)

Полигон частот

X[10]= (5, 3, 5, 3, 4, 5, 4, 5, 3, 3)

Группированный статистический ряд. Гистограмма

Интервал (a, b), где a ≤ X(1) и X(n) ≤ b разобьем

a0 = a < a1 < a2 < . . . < ar = b,

(ai−1, ai ], i = 1, . . . , r .

ni — количество элементов выборки, попавших в (ai−1, ai ].

n1 + n2 + . . .+ nr = n,

∆i = ai − ai−1,

hi =ni

∆in.

Группированный статистический ряд

xi [a0, a1] (a1, a2] . . . (ar−1, ar ]

ni n1 n2 . . . nrni/n n1/n n2/n . . . nr/n

Гистограмма

f ∗n (x) =

0, если x 6 a0;h1, если a0 < x 6 a1;. . .

hr , если ar−1 < x 6 ar ;0, если x > ar .

Пример

X[n] :38 60 41 51 33 4245 21 53 60 68 5247 46 49 49 14 5754 59 67 47 28 4858 32 42 58 61 30

xi [14, 23] (23, 32] (32,41] (41, 50] (50,59] (59,68]ni

nin

Как выбрать K?

X[1000] ∝ N(5, 1)

r = 100 r=4

r = [1 + 3.2 lg n] r =[1.72n1/3

]

Выборочные числовые характеристики

Выборочное среднее

X = a∗1 =1

n

n∑i=1

Xi

Выборочный начальный момент r-го порядка

a∗r =1

n

n∑i=1

X ri

Выборочная дисперсия

D∗ = D∗X[n] =1

n

k∑i=1

(Xi − X

)2Выборочный центральный момент r-го порядка

µ∗r =1

n

n∑i=1

(Xi − X

)r

Выборочная квантиль xp порядка p —([np] + 1) элемент X(1) ≤ X(2) ≤ . . . ≤ X(n).

Квартили Q1, Q2, Q3 — квантили порядков 0.25, 0.5, 0.75

Выборочная медиана

x∗med =

X(k+1), n = 2k + 1

X(k) + X(k+1)

2, n = 2k

Пример

X[10]= (5, 3, 5, 3, 4, 5, 4, 5, 3, 3)

Выборочные характеристиками положения

I выборочное среднее

I выборочная медиана

I выборочная мода

Выборочные меры рассеяния

I размах R = Xmax − Xmin

I средний межквартильный размахI персентильный размах P90 − P10,I выборочная дисперсияI исправленная дисперсия s2 = nD∗X[n]/(n − 1)

I среднее квадратическое отклонение s =√s2

Коэффициент вариации v = s/X

Оценка формы распределения

I коэффициент асимметрии Sk1 = µ∗3/s3

I коэффициент эксцесса K = µ∗4/s4 − 3

Квантильный коэффициент асимметрии

Sk2 = (Q3 − Q1 − 2Q2)/(Q3 − Q1)

Ящики с усами

Выборочные характеристики многомерных выборок

(ξ, η)T (X1

Y1

), . . . ,

(Xn

Yn

)Выборочный коэффициент корреляции

rξ,η =1n

∑ni=1 XiYi − X Y

sX sY

Диаграммы рассеивания