Когда тексты —не только слова
description
Transcript of Когда тексты —не только слова
Алексей Токарь
Руководитель группы разработки в
направлении медиасервисов
Когда тексты – не только слова
2
Типы повседневных задач
Алгоритмические
Технологические Инфраструктурные
3
Постановка задачи
Дано:
• 1.000.000 фильмов
• 250 тегов
4
Постановка задачи
Дано:
• 1.000.000 фильмов
• 250 тегов
Задача:
• разметить каждый фильм в среднем десятью
тегами
5
Постановка задачи
Дано:
• 1.000.000 фильмов
• 250 тегов
Задача:
• разметить каждый фильм в среднем десятью
тегами
Проблема:
• вручную это займет год ежедневной работы
Классификация
7
Популярные способы классификации
• нейронные сети
8
Популярные способы классификации
• нейронные сети
• генетические алгоритмы
9
Популярные способы классификации
• нейронные сети
• генетические алгоритмы
• деревья принятия решений
10
Популярные способы классификации
• нейронные сети
• генетические алгоритмы
• деревья принятия решений
• регрессионные деревья
11
Популярные способы классификации
• нейронные сети
• генетические алгоритмы
• деревья принятия решений
• регрессионные деревья
• наивный байесовский классификатор
12
Популярные способы классификации
• нейронные сети
• генетические алгоритмы
• деревья принятия решений
• регрессионные деревья
• наивный байесовский классификатор
• кластеризация
13
Почему байесовский классификатор
• Элементарен, чтобы оценить нашу модель
• Удобен, так как не требует эвристик в виде
черных списков
• Эффективен при достаточной обученности
• Отлично подходит для текстовых данных
14
Наивный байесовский классификатор
Pr(T|W) — вероятность, что тег характеризует сообщение,
при условии, что оно содержит это слово
Pr(W|T) — вероятность появления слова в сообщениях,
отмеченных этим тегом
Pr(W|~T) — вероятность появления слова в сообщениях,
если они к этому тегу не относятся
15
От сайта к индексу
Crawler
Splitter Lemmer
INDEX
16
Наиболее значащие слова
мультик
Смотреть с детьми детям
белка
дочь
пираты
Злодеи злодей
хулиганы
орангутанг
ёж
Животные животные
белка
обезьяна
17
Предложенные роботом:
• животные
• дружба
• смотреть с детьми
• цирк
• злодеи
• проклятия
• разные страны
Не предложены:
• пираты
• Земля
• природные катаклизмы
Ледниковый период 4
Предложенные роботом:
• наши дни
• романтика
• расследования
• любовь
• Франция
• смотреть с девушкой
Не предложены:
• криминал
• флирт
Девушка из Монако
20
Результаты
• Полнота прогнозирования – робот пропускает 2-3 тега, предложенных редакцией
• Точность классификации – робот ошибается на 1-2 тега
• Время работы всего несколько часов
21
Что можно сделать в будущем
• Исключение редких слов
• Удаление предлогов и местоимений
• Отсечение слов, составляющих шум
• Распараллеливание
Алексей Токарь
Руководитель группы разработки
в направлении медиасервисов
Спасибо :)