Описательная статистика

26
Описательная статистика Descriptive Statistics SixSigmaOnline.ru 2014 v.2 2014

description

Совокупность результатов наблюдений/опытов является исходным материалом любого статистического исследования. Простейшая обработка массива данных заключается в расчете основных статистических показателей, объединенных в группу "описательных статистик”

Transcript of Описательная статистика

Page 1: Описательная статистика

Описательная статистика

Descriptive Statistics

SixSigmaOnline.ru 2014

v.2 2014

Page 2: Описательная статистика

© Six Sigma Online . ru

Описательная статистика

Совокупность результатов наблюдений/опытов является

исходным материалом любого статистического исследования.

Простейшая обработка массива данных заключается в расчете

основных статистических показателей, объединенных в группу

“описательных статистик”.

Описательная статистика позволяет обобщать первичные

результаты, полученные при наблюдении или в эксперименте.

Все расчеты описательных статистик сводятся к группировке

данных по их значениям, построению распределения их частот,

выявлению центральных тенденций распределения и, наконец,

к оценке разброса данных по отношению к найденной

центральной тенденции.

2

Page 3: Описательная статистика

© Six Sigma Online . ru

Описательная статистика

Основные показатели описательной статистики:

Среднее значение (среднее арифметическое, медиана,

мода) и усредненное значение.

Размах (диапазон разброса данных).

Дисперсия и среднеквадратическое отклонение.

Процентили и квартили.

Доверительный интервал.

Это далеко не все возможные показатели.

К примеру, только команда Display

Descriptive Statistics в программе Minitab

позволяет рассчитать 24 показателя.

3

Page 4: Описательная статистика

© Six Sigma Online . ru

Среднее арифметическое

Среднее значение выборки показывает центральное

положение наблюдаемой величины. Может определяться

средним арифметическим, медианой или модой.

Среднее арифметическое значение рассчитывают по формуле:

где xi – наблюдаемое значение, N – количество наблюдений

Среднее арифметическое для числового ряда 2,4,5,7,3 равно:

4

N

x

x

N

i

i 1

2.45

37542

x

Page 5: Описательная статистика

© Six Sigma Online . ru

Медиана

Медиана – это значение выборки, которое делит все значения

выборки пополам. Расчет медианы проводится следующим

образом: все значения выстраиваются от наименьшего до

наибольшего. Центральное значение ряда является медианой.

Чтобы найти медиану числового ряда 2,4,5,7,3 необходимо:

1. Выстроить все значения от наименьшего до наибольшего

2,3,4,5,7

2. Определить значение, которое находится в центре 2,3,4,5,7

Медиана числового ряда с четным количеством членов

определяется как среднее арифметическое двух центральных

значений. К примеру, медиана ряда 2,3,4,5,7,8 равна 4.5.

5

Page 6: Описательная статистика

© Six Sigma Online . ru

Мода

Мода – значение, которое чаще всего встречается в выборке.

Чаще всего мода совпадает с самым высоким пиком

гистограммы. Мода находится при подсчете количества

выпадений каждого значения.

В числовом ряду 2,4,5,7,3 нет моды – ни одно из значений не

повторяется. А в числовом ряду 2,4,5,7,5,3 мода равна 5.

Если в числовом ряду несколько мод:

2,4,4,5,4,3,2,3,5,7,5,3,

то распределение называют полимодальным (несколько мод),

однако мода как показатель описательной статистики в таком

ряду отсутствует.

6

Page 7: Описательная статистика

© Six Sigma Online . ru

Среднее, медиана и мода

У любого симметрического распределения ( в том числе и

нормального) наблюдений, среднее арифметическое, медиана

и мода совпадают:

7

Среднее арифметическое, медиана и мода совпадают

Симметрическое распределение

Page 8: Описательная статистика

© Six Sigma Online . ru

Среднее, медиана и мода

Асимметрия приводит к смещению показателей среднего

относительно друг друга:

Асимметрию определяет положение хвоста!

8

Мод

а

Мед

иана

Сред

нее

ариф

мет

ичес

кое

Отрицательная или левосторонняя

асимметрия

Мод

а

Мед

иана

Сред

нее

ариф

мет

ичес

кое

Положительная или правосторонняя

асимметрия

Page 9: Описательная статистика

© Six Sigma Online . ru

Среднее, медиана и мода

Обратите внимание! Среднее арифметическое более других

статистик “убегает” под влиянием асимметрии. Именно

поэтому, в случае отклонения закона распределения

переменной от нормального, чаще используют медиану.

Из всех статистик

среднее арифметическое

также наиболее

подвержено влиянию

выбросов. Чтобы его

снизить, применяют

схожую статистику –

“усредненное значение”.

9

Асимметрия и

выбросы больше всего

“оттягивают” среднее

арифметическое

Мод

а

Мед

иана

Сред

нее

ариф

мет

ичес

кое

Положительная или правосторонняя

асимметрия

Page 10: Описательная статистика

© Six Sigma Online . ru

Усредненное значение

Усредненное значение (trimmed mean) – это среднее

арифметическое значение, рассчитанное после исключения

крайних значений наблюдаемой величины.

Традиционно усредненное значение рассчитывается

исключением 5% наименьших и 5% наибольших значений.

Усредненное значение менее подвержено влиянию выбросов,

потому более объективно отображает среднее значение

наблюдаемой величины.

Значительное различие значений среднего арифметического и

усредненного значения может свидетельствовать о

присутствии выбросов в наблюдаемой выборке.

10

Page 11: Описательная статистика

© Six Sigma Online . ru

Процентиль

Процентиль – это значение, ниже которого расположен

заданный процент наблюдений переменной.

К примеру, 35-й процентиль – это значение, ниже которого

расположено 35% наблюдений, а 95-й – ниже которого

расположено 95% всех наблюдений.

Чаще всего в статистике используют:

25-процентиль

50-процентиль

75-процентиль

11

Page 12: Описательная статистика

© Six Sigma Online . ru

Квартили

Квартили – показатели соответствующие 25, 50 и 75

процентилям.

Нижний (первый) квартиль, 25 процентиль или квантиль 0.25

– это такое значение, ниже которого попадают 25%

наблюдаемых данных. Обозначается Q1.

Второй квартиль (Q2) – это медиана.

Верхний (третий) квартиль, 75 процентиль или квантиль 0.75

– это такое значение, ниже которого попадают 75%

наблюдаемых данных. Обозначается Q3.

12

Page 13: Описательная статистика

© Six Sigma Online . ru

Квартили

13

Q1

Q3

Q2

Ниже этой линии

находится 75%

всех значений

Ниже этой линии

находится 25%

всех значений

медиана

25%

25%

25%

25%

Page 14: Описательная статистика

© Six Sigma Online . ru

Размах

Две группы наблюдений могут значительно отличатся

распределением данных даже при одинаковых средних

значениях. Поэтому при сравнении выборок, кроме среднего

значения, необходимо учитывать диапазон распределения

данных.

Размах значений, диапазон разброса данных или просто

разброс – это разница между максимальным и минимальным

значениями наблюдаемой величины:

R = xmax – xmin

Размах числового ряда 2,4,5,7,3 равен:

R = 7 – 2 = 5

14

Page 15: Описательная статистика

© Six Sigma Online . ru

Интерквартильный размах

Ввиду того, что для расчёта размаха принимаются всего 2

наблюдения – максимальное и минимальное, – эта статистика

очень подвержена влиянию выбросов.

Чтобы снизить влияние выбросов, часто используют

интерквартильный размах (IQR или InterQuartile Range).

Интерквартильный размах

рассчитывают по формуле:

IQR = Q3– Q1

где Q1 и Q3 – это первый и

третий квартили

соответственно.

15

Размах

Range

размах

Интерквартильный

Interquartile Range

Page 16: Описательная статистика

© Six Sigma Online . ru

Дисперсия

Дисперсия (среднеквадратическая ошибка) – показатель

отклонения случайной величины от целевого значения.

Рассчитывается:

Дисперсия является базовым инструментом для

статистической оценки вариации распределения. Дисперсия

равна нулю, если все значения распределения идентичны.

Дисперсия не может быть отрицательной величиной.

Дисперсия числового ряда 2,4,5,7,3 равна:

16

75.14

7

15

)2.43()2.47()2.45()2.44()2.42( 222222

1

)(2

2

n

xxi

Page 17: Описательная статистика

© Six Sigma Online . ru

Стандартное отклонение

Стандартное (среднеквадратическое) отклонение показывает

средний разброс данных относительно своего среднего

значения.

Рассчитывается:

Стандартное отклонение – наиболее часто используемый

показатель вариабельности данных. Стандартное отклонение

указывает предполагаемое расстояние от среднего значения до

случайного наблюдения.

Стандартное отклонение числового ряда 2,4,5,7,3 равно:

17

1

)( 2

2

n

xxi

323.175.1

Page 18: Описательная статистика

© Six Sigma Online . ru

Доверительный интервал

Доверительный интервал – это пределы, в которых находится

статистическая величина с заданной вероятностью.

Доверительный интервал для среднего значения выборки

задает область, в которой с заданной точностью находится

истинное значение генеральной совокупности. Его можно

рассчитать по формуле:

где Z – сигма значение, соответствующее доверительному

уровню (см. Z-таблицу).

18

nZx

Page 19: Описательная статистика

© Six Sigma Online . ru

Доверительный интервал

Среднее арифметическое числового ряда из 180 наблюдений

равно 26. Стандартное отклонение – 3.

Чтобы рассчитать доверительный интервал для среднего

арифметического с вероятностью 0,95 или 95%:

1. По таблице находим значение Z-значение

Для этого нам понадобится найти ячейку, которой соответствует 2,5%

риска (0,025) – половина заданного риска (1 – 0,95):

19

Z 0,00 … 0,05 0,06

0,0 0,50000 0,48006 0,47608

… … … … …

1,8 0,03593 … 0,03216 0,03144

1,9 0,02872 … 0,02559 0,02500

2,0 0,02275 … 0,02018 0,01970

Z-TableZ = 1,96

Page 20: Описательная статистика

© Six Sigma Online . ru

Доверительный интервал

2. Рассчитываем доверительный интервал

С вероятностью 95% среднее арифметическое значение

находится в пределах от 25,562 до 26,438 или:

Примите к сведению! Доверительные интервалы для выборок с

небольшим количеством наблюдений, а также доверительные

интервалы для дисперсий и пропорций рассчитываются по

иным формулам.

20

438.026180

396.126

nZx

95.0)438.26562.25( xP

Page 21: Описательная статистика

© Six Sigma Online . ru

Как упростить расчёты?

Расчет описательных статистик в MS Excel 2007

1. Установка надстройки «Пакет анализа»:

Щелкните значок «Кнопка Microsoft Office» , а затем щелкните

Параметры Excel.

Перейдите на вкладку Надстройки, а затем в поле Управление выберите

Надстройки Excel.

Нажмите кнопку Перейти.

В поле Доступные надстройки установите флажок Пакет анализа, а затем

нажмите кнопку ОК.

2. Расчет описательных статистик:

На вкладке «Данные» в группе «Анализ» выберите «Анализ данных».

В появившемся списке выберите «Описательная статистика».

Задайте диапазон данных и отметьте пункт «Итоговая статистика».

21

Page 22: Описательная статистика

© Six Sigma Online . ru

Как упростить расчёты?

В пакете “101 инструмент вашего проекта шести сигм”

Выберите файл “30_Descriptive Stats.xls”.

Вставьте столбец с наблюдениями в первую колонку,

начиная с ячейки A2.

Расчет описательных статистик выполнится

автоматически.

22

Page 23: Описательная статистика

© Six Sigma Online . ru

Как упростить расчёты?

Расчет описательных статистик в Minitab 16

В меню «Stat» выберите список «Basic Statistic».

В открывшемся списке выберите команду «Display

Descriptive Statistics».

В поле «Variables» открывшегося окна задайте диапазон

значений.

Нажав кнопку «Statistics», вы увидите список описательных

статистик; отметьте галочкой те из них, которые следует

отобразить.

23

Посмотреть видеоурок>>>

Page 24: Описательная статистика

© Six Sigma Online . ru

Как упростить расчёты?

Расчет описательных статистик в SPSS Statistics 17

В меню «Analyze» выберите список «Descriptive Statistics».

В открывшемся списке выберите команду «Descriptives».

В открывшемся окне укажите исследуемый диапазон (поле

«Variable(s)»).

Нажав кнопку «Options», вы увидите список доступных

статистических показателей.

24

Page 25: Описательная статистика

© Six Sigma Online . ru

Как упростить расчёты?

Расчет описательных статистик в Statistica 8

В меню «Statistics» выберите команду «Basic

Statistics/Tables».

В открывшемся списке выберите пункт «Descriptive

statistics».

Во вкладке «Advanced» отметьте необходимые

статистические показатели и нажмите кнопку «Summary».

25

Page 26: Описательная статистика

Обязательно посетите

SixSigmaOnline.ru