Data Science Weekend 2017. Qlean. Как устроено машинное обучение в Qlean
-
Upload
newprolab -
Category
Data & Analytics
-
view
256 -
download
5
Transcript of Data Science Weekend 2017. Qlean. Как устроено машинное обучение в Qlean
КакустроеномашинноеобучениевQlean
ЕвгенийГапон
• Мысервис поуборкеквартир• Работаемв3 городахРоссии• СайтиiOS-приложениедляклиентов• Android-приложениедляисполнителей• Свои CRMдляклиентовиисполнителей• Микросервисная архитектура
Аещеунасестьмашинноеобучение
• Скоринг заказовнавероятностьотмены• МодельактивностиклиентовследующиеNдней• МодельактивностиисполнителейследующиеNдней• Скоринг исполнителейнавероятностьнеявкиназаказ• Скоринг лидов исполнителей
Нужнопройтивсего6этапов*
• Сборихранениеданных• Формулировказадачи• Извлечениепризнаков• Построениеиоценкамодели• Бизнес-тестированиемодели• Внедрениемодели
*– обязательнодолжныбытькультураработысданнымиилюди
Планпростипотомукрасив
• Сборихранениеданных• Формулировказадачи• Извлечениепризнаков• Построениеиоценкамодели• Бизнес-тестированиемодели• Внедрениемодели
Мысобралиданныеизразныхисточниковводномместе
Нашиисточникиданных:
• Операционныеданныеизproductionбазы
• Клик- иивент-стримы изSnowplow• МобильныйтрекингизAdjust• ОбращениявподдержкуизZendesk• ДанныепозвонкамизМанго• Затратынарекламуизразличных
источников
Postgres
Мысделалиданныедоступными
• Сборихранениеданных• Формулировказадачи• Извлечениепризнаков• Построениеиоценкамодели• Бизнес-тестированиемодели• Внедрениемодели
Некоторыезадачиможнорешитьибезмашинногообучения
SQL vs
• Сборихранениеданных• Формулировказадачи• Извлечениепризнаков• Построениеиоценкамодели• Бизнес-тестированиемодели• Внедрениемодели
Shitinshitout
Признаки Прогноз
Модель
Заинжениренные признакиработаютлучше
Кол-воотменвпрошлом
Привязаналикредитнаякарта
Кол-водоп.услугвзаказе
Доляотменпопрошедшимзаказам
Наличиеотдельныхдоп.услуг
• Сборихранениеданных• Формулировказадачи• Извлечениепризнаков• Построениеиоценкамодели• Бизнес-тестированиемодели• Внедрениемодели
Получшеразберитесьсполученнымрезультатом
0%
20%
40%
60%
80%
100%
0
200
400
600
800
1000
1200
1400
1600
Доляотм
ен
Кол-возаказов
Вероятностьотмены
заказотменилсязаказсостоялсядоляотмен
• Сборихранениеданных• Формулировказадачи• Извлечениепризнаков• Построениеиоценкамодели• Бизнес-тестированиемодели• Внедрениемодели
ДовнедрениямоделимыпроводимручноеA/B-тестирование
40%
50%
60%
70%
80%
90%
100%
[50%;60%) [60%;70%) [70%;80%) [80%;90%) [90%;100%]
Дол
яотмен
Вероятностьотменызаказа
control test
Мырукаминачислялибонусзасохранениезаказатестовойгруппе.Чембольшевероятностьотмены,тембольшебонус.
• Сборихранениеданных• Формулировказадачи• Извлечениепризнаков• Построениеиоценкамодели• Бизнес-тестированиемодели• Внедрениемодели
Воттакустроенанаша«ml-инфраструктура»
Productionсреда
Productionбаза
процесс1
процесс2
процесс3
• Соберитеданныеводномместеиначнитепользоватьсяими• Задачидолжныприходитьотбизнеса• Некоторыезадачиможнорешитьибезмашинногообучения• Нежалейтевременинаизвлечениепризнаков• Заинжениренные признакиработаютлучше• Разберитесьсполученнымрезультатом• ПроводитеручноеA/B-тестирование• Наколеночная инфраструктурарулит!
Итого
Спасибо!
ЕвгенийГапон[email protected]/egapon
Модельскоринга заказовиееприменение
https://goo.gl/gCe33U