Машинное обучение в Яндексе
-
Upload
alexandra-kaminskaya -
Category
Education
-
view
130 -
download
8
description
Transcript of Машинное обучение в Яндексе
![Page 2: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/2.jpg)
Что такое ML
● Подраздел ИИ– математическая статистика
– методы оптимизации
● На самом деле – построение модели данных
● Зачем– классификация, кластеризация, предсказание,
распознавание...
![Page 3: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/3.jpg)
Строим модель
S кв.м. / цена h(x) = a*x + b57 4280
58 4100
60 5350
62 4550
64 6350
72 4680
72 5900
80 6295
84 5991
86 5100
91 7500
![Page 4: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/4.jpg)
Функция ошибки
E (a)= 1
m∑0
m
(h (x i)− yi)2
E (a ,b)= 1m∑
0
m
(h(x i)− yi)2
Упростим
Расчет для а (b = 0)
a=a –α ddaE (a)
Расчет для a и b
a=a−α δδ aE (a ,b)
b=b−α δδbE (a ,b)
![Page 5: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/5.jpg)
Что такое ML 2
Модель
Новые данные
Обучающаясяпрограмма
Примеры данных
![Page 6: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/6.jpg)
Необходимые знания ● Матан● Статистика● Тервер● Линейная алгебра● Численные методы
![Page 7: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/7.jpg)
Некоторые проблемы ML
![Page 8: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/8.jpg)
Репрезентативная выборка данных
![Page 9: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/9.jpg)
Выбор способа ML
● Классификация● Метод опорных векторов● Нейронная сеть● k ближайших соседей● Решающее дерево● Решающий лес
![Page 10: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/10.jpg)
Переобучение
![Page 11: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/11.jpg)
Некоторые примеры
![Page 12: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/12.jpg)
Поиск полезных ископаемых
● Открытые месторождения● Геологоразведка
– минеральный состав
– сейсмологические данные
– что-то еще (я не настоящий геолог)
● Предсказываем наличие полезных ископаемых
![Page 13: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/13.jpg)
Генетические исследования
● Большая ДНК (много разных генов)● Болезнь кодируется сочетанием генов● Не знаем какие гены● Как искать:
– генетические карты больных и здоровых
– кластеризуем по экспрессии генов
– нашли diff в кластерах - PROFIT
![Page 14: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/14.jpg)
Почтовый спам
● Параметры письма– ключевые слова в тексте
– количество получателей
– Количество дубликатов письма
● Параметры отправителя– осмысленность адреса email
– массовость рассылок
– осмысленность писем
● Параметры сервера-отправителя– получаем от него только спам или что-то еще
![Page 15: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/15.jpg)
Поиск бозона Хиггса
● Детекторы частиц● Детекторы излучений● Миллиарды событий● Петабайты данных● Найти редкие нетипичные события
![Page 16: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/16.jpg)
Распознавание голоса
● Режем аудио на фреймы● Вероятность наличия фонемы в фрейме● Вероятность сочетания фонем● Вероятность сочетания слов● PROFIT
![Page 17: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/17.jpg)
Коллаборативная фильтрация
● Гипотеза: схожие пользователи обладают схожими потребностями
● Строим модели пользователей (классифицируем) по логам
● Новый пользователь: классифицируем согласно модели
● Показываем предложение● PROFIT!
![Page 18: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/18.jpg)
Поисковое ранжирование
● Поисковый запрос -> поисковый интент● Газиллион документов● Ссылочный граф● Интенты документов● Геопривязка пользователя и документа● Личные предпочтения пользователя● ML формула ранжирования -> PROFIT !
![Page 19: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/19.jpg)
Новостная агрегация
● Много источников похожих новостей● Дата публикации новости● Тематика новости● Геопривязка новости (где происходят
события)● Персоны● Статистика по текстам новостей
![Page 20: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/20.jpg)
Поиск девушки
● Сайт знакомств● Тысячи вопросов в анкете● Максимум можно ответить на 350● В чужой анкете видны ответы на те же
вопросы● Рейтинг совместимости рассчитывается из
ответов
![Page 21: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/21.jpg)
Поиск девушки: решение
● Фейковые рандомно заполненные анкеты● Майним чужие анкеты● Кластеризуем анкеты по ответам● Выбираем интересные кластера● Модифицируем анкету для максимизации
рейтинга совместимости с интересными кластерами
● PROFIT!
![Page 22: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/22.jpg)
Полезные ссылки● ML курс от Andrew Ng
https://class.coursera.org/ml-003/lecture● ШАД Яндекс
http://shad.yandex.ru/lectures/machine_learning.xml● machinelearning.ru● Соревнования
http://www.kaggle.com/competitions● http://www.gnu.org/software/octave/● http://scikit-learn.org/stable/● http://www.cs.waikato.ac.nz/ml/weka/
![Page 23: Машинное обучение в Яндексе](https://reader033.fdocuments.net/reader033/viewer/2022050920/5495ece6b47959a67a8b45d5/html5/thumbnails/23.jpg)
Спасибо!