Петрова Ксения - Data mining на практике - dmlabs.org
-
Upload
wg-events -
Category
Data & Analytics
-
view
502 -
download
0
description
Transcript of Петрова Ксения - Data mining на практике - dmlabs.org
Data Mining на практике
Подводные камни в анализе данных
Примеры проектов
Data mining в финансах:
1.Данные – финансовые отчеты (SEC-fillings) и биржевые показатели
2.Текст улучшает качество прогноза, но использование «в лоб» работает плохо
3.Требуется умный прогноз волатильности на основе текста и котировок
DM Labs
Примеры проектов
Data mining в робототехнике:
1.Имеется ряд алгоритмов распознавания обьектов
2.Каждый алгоритм построен на своих принципах
3.Требуется умное сшивание результатов работы алгоритмов
DM Labs
Примеры проектовРоботизированные манипуляторы
1.Данные – 8 ЕМГ сенсоров, 3Д положения руки в пространстве (motion capture)
2.Задача – восстановить 3Д положение руки, чтобы управлять роботом как джедай
4
http://www.brml.org/projects/body-machine-interfaces/
DM Labs
У нас есть данные
5
DM Labs
У нас есть данные
6
DM Labs
DB: SAP/ Oracle/ Hadoop
CRM
Qlickview/ Tableau
Excell
Pdf файлы
Видео
Изображения
У нас есть данные
Мы предсталяем какой должен быть результат
Результат
7
DM Labs
Доступна история снятий
Нужно предсказать потребность кэша в банкоматах
Результат
8
DM Labs
Доступна история снятий
Нужно предсказать потребность кэша в банкоматах
Результат
9
DM Labs
Давайте решим в лоб!
Доступна история снятий
Нужно предсказать потребность кэша
Результат
Давайте решим влоб!
10
DM Labs
Куча ошибок!
• Данные – битые• Ошибки в типах• Кривой merge• Половина данных – без id/timestamp/…• …
Результат
11
DM Labs
Куча ошибок!
• Данные – битые• Ошибки в типах• Кривой merge• Половина данных – без id/timestamp/…• …
Результат
12
DM Labs
13
DM Labs
Обработка РезультатМодель
14
DM Labs
Препарируем данные
• Создание признаков для модели
(feature engineering & feature learning)
• Сэмплирование данных
15
DM Labs
Препарируем данные:
• Временные ряды: fft разложения, моменты с лагом
• Пользователи: признаки из графа(betweenness, degree, centrality, page rank), гео-специфика
• Признаки по активности/ действиям • Проекции PCA, ICA, RCA, deep*
16
DM Labs
• Мозговой штурм• «Спросить у экспертов»• State of the art в области• Посмотреть продукты, PR материалы
Как генерировать признаки:
State of the art в области: ICML, KDD
17
DM Labs
ПАРЕТО: 100% data ~ 100% insights 20% data ~ 80% insights
4% data ~ 64% insights
Оно работает – время моделировать
Пример выборки: 5% юзеров, записей, последних записей, уникальных юзеров
18
DM Labs
У нас есть выборка: дальше что?
Главный принцип обучения:
Разделяй и властвуй Три раза отрежь
19
DM Labs
Три раза отрежь
Выборка
Test set Cross-validation set Validation set
20
DM Labs
•Вид модели•Гиперпараметры•Отбор признаков на уровне модели•Веса наблюдений при обучении.•Целевая функция (потерь)
Что нам стоит дом построить?
21
DM Labs
• GBM: #base-learners, lambda, RI, *prune, Loss,
• SVM: kernel, width, cost, nu-SVM, ...• GLMnet: a.ridge, AIC, response family• RF: … ?• Neural Net: … ?
Вид модели и гиперпараметры
22
DM Labs
Обработка РезультатМодель
Мы ничего не упускаем?
23
DM Labs
Обработка РезультатМодель
Мы ничего не упускаем?
Не решали ли эту задачу до нас?
• На какие признаки смотрят?• Что оптимизируют?• Что получается?• Какие модели используют?• Особенности моделей?
24
DM Labs
Не решали ли эту задачу до нас?
• На какие признаки смотрят?• Что оптимизируют?• Что получается?• Какие модели используют?• Особенности моделей?
• Выбросы• Переобучение и недообучение
25
DM Labs
Переобучение и недообучение
26
DM Labs
Переобучение и недообучение
27
DM Labs
??
?
Переобучение и недообучение
28
DM Labs
?
Слишком просто...
?
?
Переобучение и недообучение
29
DM Labs
?
Слишком сложно...
?
?
То, что надо!
30
DM Labs
?
?
?
?
31
DM Labs
Обработка РезультатМодель
Мы ничего не упускаем?
И это все?
Результат
МодельОбработкаГипотезы
32
DM Labs
Гипотезы
• До того как вы не построили гипотезы, не нужно строить модель
• Без гипотез вы как слепые котята • Без гипотез вы ничего не объясните
руководству • Включите гипотезы руководства!
DM Labs
И это все?
Результат
МодельОбработкаГипотезы
• Нет предела совершенству. Есть только ограничения по времени
• Можно начинать новый круг сразу с моделирования, можно с самого начала с данных (всякое бывает)
Можно сделать лучше?
34
DM Labs
Доступна история снятий
Нужно предсказать потребность кэша
Результат
А это вообще кому-нибудь нужно?
МодельОбработкаГипотезы
35
DM Labs
Бизнесу не нужны прогнозы!Бизнесу нужно снижать косты.
Нужна система ,уменьшающаякосты на обслуживание банкоматов
Результат
36
DM Labs
Система минимизации костов:
•fix price за инкассацию
•Стоимость пролеживания денег
•Логистика
•Штрафы за банкомат без денег
37
DM Labs
38
DM Labs
Расходы =Заказ машины +Простаивание денег(инфляция)
Минимум - составляющиеравны
Доступна история снятий:
История операций:2008-2013 год
Количество устройств:● Кэшин - 66● Банкомат - 49● Касса - 10
39
DM Labs
Данные:
• Банкомат (только кредитные операции)• Кэшин (только дебетные операции)• Касса (смесь операций банкомата икэшина)
40
DM Labs
• Влияет расположение банкоматов• Праздники • Четко выделяются зарплатные дни• Погода .....
41
DM Labs
•Объем операций за предыдущие 30 дней•Информация о текущем дне (номернедели, номер месяца)•Усредненные объемы операций за N дней•Погодные условия !+• Признаки с похожих банкоматов•Дополнительные преобразование (log)
42
DM Labs
•Объем операций за предыдущие 30 дней•Информация о текущем дне (номернедели, номер месяца)•Усредненные объемы операций за N дней•Погодные условия !+• Признаки с похожих банкоматов•Дополнительные преобразование (log)
43
DM Labs
Выбросы: у нас в один день могут положить миллион, в другой день могут снять миллион
44
DM Labs
45
DM Labs
Нужно завернуть прогнозы в систему минимизации костов:
46
DM Labs
Точность прогноза вторична к логике загрузки денег и инкассации банкоматов
Анализ дает снижение костов в среднем на 20% на 1 устройство
Итого:
•Data quality management!
•Стоит смотреть, что уже делали другие
• Улучшать модель можно бесконечно
•Задача бизнеса первична
47
DM Labs
Что поcмотреть:
• The Field Guide to Data Science
• R in a nutshell
• The R inferno
•Coursera: Computing in Data Science
48
DM Labs