Классические методы математической статистики в...

Применение классических методов математической статистики с примерами

на задачах web-аналитики

Евгений Завьялов

28 февраля 2014 г.

Многие задачи data sciense и web-аналитики можно решать используя методы математической статистики:

Прогнозирование

Эксперименты(A/B тесты, etc)

Выяснение факторов и их вклада в наблюдаемый эффект


Временной ряд:

, где величина

- значение некой статистики в

момент времени

Известен набор:

Требуется найти:


Временной ряд может быть: Стационарным Нестационарным

Может иметь:СезонностьТрендСлучайную составляющую


Модель ARIMA(p, d, k): Интегрированная модель авторегрессии — скользящего среднего

- кол-во единичных корней

- параметры авторегрессионной части модели

- параметры скользящего среднего

- белый шум

- конечная разность порядка d


Автокорреляция:

, где

Частичная автокорреляция:

, где

-- линейная регрессия на

ПрогнозированиеКоррелограмма

В R выводится так: acf(data)


В R выводится так: pacf(data)

Коррелограмма


– Для определения d (порядка разности) используем: Kwiatkowski–Phillips–Schmidt–Shin (KPSS)

тест

– Нужно проверить остатки на:Нормальность — критерий Шапиро-УилкаНесмещенность — критерий СтьюдентаНеавтокоррелированность — коррелограммаСтационарность — KPSS - тест

– Не забыть учесть сезонную составляющую: модель SARIMA


Как оценить правильность выбора параметров модели?

– По информационным критериям:

, где и

и

– По SSE


В R, испульзуя пакет {forecast}: plot( forecast( auto.arima(d), h=60) )


plot(forecast(model), h=60))

model = arima(d, order=c(14,1,14), seasonal=list(order=c(1,0,0), period=7);

Эксперименты

Как проводить эксперимент, если нужно измерить не CTR?


Как проводить эксперимент, если нужно измерить не CTR?

Будем использовать:

Критерий Стьюдента (t-test)

Критерий Уилкоксона

Статический Бутстреп (bootstrap)

ЭкспериментыЧто такое ошибка первого и второго рода?

Пусть - гипотеза о том, что значение некой статистики в выборке полностью соответствует распределению

Тогда, - гипотеза обратная ей.

ЭкспериментыОдновыборочный t-тест

- Нуливая гипотеза

- t-статистика


Когда можно использовать?

1) Выборка должна иметь нормальное распределение

Для того, чтобы в этом убедиться нужно выполнить проверку одним из тестов на нормальность распределения:

1. Критерий Шапиро-Уилка2. Критерий Колмогорова-Смирнова3. Хи-квадрат 4. etc

Когда лучше всего использовать?

Когда у нас относительно небольшая выборка. В случае «больших данных»(от 100,000 значений) начинает работать не так, как ожидается.Причина - большая мощность за счет предположения о распределении

ЭкспериментыЕще несколько модификаций t-критерия:

Сравнение двух независимых выборок:

- Нуливая гипотеза

- t-статистика

Ограничения:

1. Сравниваемые выборки должны происходить из нормально распределенных совокупностей

2. Дисперсии сравниваемых генеральных совокупностей должны быть равны (проверяется F-тестом)

3. Выборки должны быть независимыми


Пример:

t.test(data, mu = mean_old_value)

t.test(f_sample, s_sample, paired = TRUE)

- Классический одновыборочный t-test

- Парный двухвыборочный t-test

power.t.test(delta = 3.0, sd = 1.8, sig.level = 0.05,power = 0.8)

А вот так можно определить необходимое число наблюдений для требуемоймощности:


Основное отличие статического бутстрепа от «классических методов» состоит в том,что не требуется делать предположения о распределении случайной величины.

По факту, такое предположение заменяется вычислительной мощностью.

Статический Бутстреп (bootstrap)

Основной принцип:

1. Берем нашу выборку

2. Генерируем из нее еще кучу выборок поменьше (например, jackknife)

3. На основе данных выборок считаем интересующую нас статистику

4. Находим ее доверительные интервалы

5. …

6. PROFIT!!!

ЭкспериментыОсновные плюсы:

1. Не нужно делать предположений о распределении

2. При больших объемах выборки не становится «сверхчувствительным»

3. «Универсальный», т.е. подходит для вычисления распределения

практически любой статистики

Основные минусы:

1. При малых объемах выборок сильно хуже критериев, основанных на предположениях о распределении случайной величины

Спасибо за внимание!

Евгений Завьялов[email protected]

Классические методы математической статистики в...

Data & Analytics

Transcript of Классические методы математической статистики в...