Прогнозирование - Лекция 4. Регрессионные модели...

Курс «Компьютерная Курс «Компьютерная поддержка поддержка

прогнозирования»прогнозирования»

Заходякин Глеб Викторович,

кафедра Информационных систем и технологий в логистикеe-mail: [email protected]

В заметках к некоторым слайдам содержатся примечания. Смотрите в режиме редактирования.

mailto:[email protected]

2

Регрессионный анализ временных Регрессионный анализ временных рядоврядов

1. Данные временного ряда и проблема автокорреляции

2. Выявление и устранение автокорреляции

3. Данные временного ряда и проблема гетероскедастичности

4. Регрессионные модели сезонных временных рядов

3

Статистическая модель для линейной регрессииСтатистическая модель для линейной регрессии

o Данные для построения уравнения регрессии представляют собой выборку из генеральной совокупности связей X-Y

o Статистическая модель линейной регрессии позволяет определить математическое ожидание Y для каждого значения X, по уравнению прямой:

o Фактическое значение будет отличаться от ожидаемого на величину ошибки , которая отражает вклад ненаблюдаемых факторов

o Распределение ошибки – нормальное, с мат. ожиданием Y и постоянным СКО для любого значения X

0 1Y X

0 1Y X

Допущения модели:• ошибки независимы• ошибки случайны• m=0 • = const

4

АвтокорреляцияАвтокорреляцияo Автокорреляция – наличие связей между последовательными

наблюдениями

o Автокорреляция характерна для данных временных рядов:– постепенное изменение величин (цены, объем продаж, % ставки…)– изменение независимой переменная влияет на несколько периодов

времени (доход > объем покупок)

o При наличии автокорреляции можно прогнозировать последующие значения Y на основе предыдущих Y

o При серийной корреляции зависимость между наблюдениями проявляется в автокорреляции остатков:

обозначения: t – остаток в момент t, – коэффициент автокорреляции для лага 1 (|| < 1), t – нормально распределенные независимые остатки с математическим ожиданием 0 и стандартным отклонением

0 1

1

t t t

t t t

Y X

5

Смещение регрессионной прямой при наличии Смещение регрессионной прямой при наличии положительной серийной корреляцииположительной серийной корреляции

o Наличие положительной серийной корреляции остатков может смещать линию регрессии

o Из-за смещения прямая проходит ближе от наблюдаемых точек данных и дисперсия этих точек относительно прямой меньше, чем реальная дисперсия данных

o Стандартная ошибка используется для построения доверительного интервала, поэтому он также окажется недостаточно широким

6

Ложная корреляцияЛожная корреляцияo Сильная автокорреляция может приводить к тому, что несвязанные

между собой переменные будут казаться связанными (r, R2, значимость регрессии)

7

Графики АКФ и ЧАКФ для серийно Графики АКФ и ЧАКФ для серийно коррелированного рядакоррелированного ряда

o Графики автокорреляционной и частной автокорреляционной функции для ряда X из предыдущего примера:

8

Проблемы автокорреляцииПроблемы автокорреляции1. Стандартная ошибка оценки << реальной изменчивости

неправильный доверительный интервал

2. Стандартные ошибки коэффициентов b << реальной изменчивости их оценок => смещение линии регрессии

3. Нельзя использовать выводы t и F критериев

9

Тест Дарбина-УотсонаТест Дарбина-Уотсонаo Для серийной корреляции остатков разработан критерий Дарбина-

Уотсона (Durbin-Watson)

o Проверяется зависимость (автокорреляция 1 порядка):

o Гипотезы:

– H0: = 0

– H1: > 0 (наиболее характерно для экономических рядов)

o Выборочная статистика:

o При положительной автокорреляции последовательные остатки близки по величине и DW -> 0

o Тест нельзя применять для уравнений регрессии с b0 = 0

1t t t

212

2

2

1 1 1ˆ ˆ,

n

i ii

n

ii

i i i i i i

e eDW

e

e Y Y e Y Y

10

Критические значения статистики Критические значения статистики DWDW

o Статистика Дарбина-Уотсона связана с коэффициентом автокорреляции для лага 1:

o поскольку |1| < 1, 0 < DW < 4, при 1 = 0 DW = 2

o Критические значения статистики DW необходимо найти в таблице (напр. http://www.stanford.edu/~clint/bench/dwcrit.htm)

– входная информация – количество факторов k, объем выборки n и уровень значимости

– выходная информация – нижняя и верхняя границы критической области

– Аналогично можно проверять альтернативную гипотезу < 0:если DW > 4 – DWL, то H0 отклоняется, если DW < 4 – DWU, H0 принимается

o Внутри области неопределенности необходимо ориентироваться на величину коэффициента автокорреляции:

12 1DW e

0 42

DWL DWU

H0: = 0 отвергаетсяH1: > 0 принимается

H0: = 0 принимается?

DW

1 2 /e n

http://www.stanford.edu/~clint/bench/dwcrit.htm









11

Решение проблемы автокорреляцииРешение проблемы автокорреляции

1. Уточнение спецификации данных

o возможно, пропущен важный фактор, влияющий на зависимую переменную

o форма (преобразование переменной)

2. Использование дифференцирования (переход к ряду разностей)

o простые разности

o сезонные разности

3. Использование модели авторегрессии (регрессия со смещенным значением той же переменной)

o смещение с лагом 1o смещение с лагом = периоду сезонности

12

ДифференцированиеДифференцированиеo При дифференцировании регрессия выполняется не с исходными

значениями переменных, а с их приращениями (разностями):

o Исходные зависимости:

o Результат почленного вычитания уравнений:

o X’t,Y’t – обобщенные разности порядка 1

o При 1 пропадает свободный член и обобщенные разности становятся обычными

0 1

1

t t t

t t t

Y X

1 1' , 't t t t t tY Y Y X X X X’, Y’ – простые разности порядка 1

1 0 1 1 1t t tY X

1 0 1 1 11t t t t t tY Y X X

0 1' 1 't t tY X - остатки независимы

13

Пример регрессии с разностямиПример регрессии с разностямиo Задача: построить регрессионную модель для объема продаж

o Предположительно, зависимость имеет степеннойхарактер:

o Для линеаризации зависимости используется логарифмирование:

1Y X

1LnY LnX

14

Результат регрессии с логарифмамиРезультат регрессии с логарифмами

o Регрессия значима, статистика DW < DWL= 0.97 (k=1, n = 21, = 5%) свидетельствует о наличии положительной автокорреляции

15

Дифференцирование в Дифференцирование в SPSSSPSSo Для получения рядов приращений удобно использовать команду

Transform>Create Time Series

o Многие процедуры анализа временных рядов содержат встроенные возможности для дифференцирования и логарифмирования ряда

16

Результаты регрессии для разностейРезультаты регрессии для разностей

o При построении регрессии для рядов разностей пропадает b0, поэтому было построено уравнение без учета свободного члена

o Для уравнений без b0 нельзя использовать критерий DW, вместо него необходимо использовать график АКФ

17

Сравнение двух регрессийСравнение двух регрессийo Регрессия с логарифмами

o Регрессия с разностями логарифмов

o При построении прогноза на период t нужна оценка Y^t-1, в качестве нее

можно взять значение Yt-1

1

ˆ 1.82 1.12

0.023b

LnY LnX

S

1

1 1

ˆ ' 1.01 '

ˆ ˆ 1.01

0.093t t t t

b

LnY LnX

LnY LnY LnX LnX

S

18

Метод Кохрейна-ОркаттаМетод Кохрейна-Оркаттаo Если коэффициент 1 < 1, то необходимо использовать обобщенные разности:

o Уравнение регрессии в обобщенных разностях не может использоваться непосредственно, т.к. неизвестна оценка :

o Метод Кохрейна-Оркатта (Cochrane-Orcutt) позволяет итеративно уточнять o 1 этап: Находятся остатки из уравнения:

o 2 этап: Строится оценка на основе остатков e:

o 3 этап: По уравнению в обобщенных разностях находятся оценки коэффициентов 0

*, 1*

o Процедура повторяется с этапа 1 с новыми коэффициентами 0*, 1

*

o Итерации останавливаются при = 1, при изменении коэффициентов менее чем на 0.01, при достижении максимального числа итераций

1 1' 't t t t t tY Y Y X X X

0 1' 1 't t tY X

0 1t t tY X e 1

2

2

2

n

t ttn

tt

e e

e

19

Результаты выполнения процедурыРезультаты выполнения процедуры

20

Модель авторегрессииМодель авторегрессии

o Модель авторегрессии включает в качестве фактора зависимую переменную со смещением в 1 лаг:

0 1 1t t tY Y

Примечание: критерий DW нельзя использовать с моделями авторегрессии

21

Устранение гетероскедастичностиУстранение гетероскедастичностиo К гетероскедастичности приводят:

– Нелинейные зависимости между переменными

– Сезонность временного ряда

o Для устранения гетероскедастичности используют:

– Преобразование переменных - добавление нелинейных регрессоров (X*X, X1*X2)

– Добавление фиктивных переменных для моделирования сезонных поправок:

S2..S4 – фиктивные {0,1} переменные, моделирующие сезонную поправку (для квартальной сезонности)

Для первого сезона поправка уже учтена в 0

– Добавление в качестве регрессора зависимой переменной с лагом, равным периоду сезонности (модель авторегрессии):

0 1 2 2 3 3 4 4t t tY X S S S

0 1t t S tY Y

22

Пример использования фиктивных переменныхПример использования фиктивных переменных

o Пример использования фиктивных переменных для моделирования сезонности и эффекта маркетинговых мероприятий:

– НГ = 1 для ноября и декабря– Акция = 1 – для месяцев, когда проводились акции

23

Модель регрессии Продажи – время + факторыМодель регрессии Продажи – время + факторы

24

Модель авторегрессии Продажи + факторыМодель авторегрессии Продажи + факторы

25

Сравнение моделейСравнение моделейo Продажи = f (время, факторы)

o Продажиt = f (факторы, продажиt-1) – метод Кохрейна-Оркатта

o Продажи’t = f(факторы) – регрессия с разностями

o Продажиt = f (продажиt-1, факторы) – модель автокорреляции

Прогнозирование - Лекция 4. Регрессионные модели...

Business

Transcript of Прогнозирование - Лекция 4. Регрессионные модели...