Когда тексты —не только слова

22
Алексей Токарь Руководитель группы разработки в направлении медиасервисов Когда тексты – не только слова

description

Разговор будет строиться вокруг наивного Байесовского классификатора. Как его можно использовать для извлечения из текстов косвенной информации (например, отзывов о фильмах) и для разметки видеоматериалов с помощью содержательных тегов, обозначающих время и место действия, жанр и т.д.

Transcript of Когда тексты —не только слова

Page 1: Когда тексты —не только слова

Алексей Токарь

Руководитель группы разработки в

направлении медиасервисов

Когда тексты – не только слова

Page 2: Когда тексты —не только слова

2

Типы повседневных задач

Алгоритмические

Технологические Инфраструктурные

Page 3: Когда тексты —не только слова

3

Постановка задачи

Дано:

• 1.000.000 фильмов

• 250 тегов

Page 4: Когда тексты —не только слова

4

Постановка задачи

Дано:

• 1.000.000 фильмов

• 250 тегов

Задача:

• разметить каждый фильм в среднем десятью

тегами

Page 5: Когда тексты —не только слова

5

Постановка задачи

Дано:

• 1.000.000 фильмов

• 250 тегов

Задача:

• разметить каждый фильм в среднем десятью

тегами

Проблема:

• вручную это займет год ежедневной работы

Page 6: Когда тексты —не только слова

Классификация

Page 7: Когда тексты —не только слова

7

Популярные способы классификации

• нейронные сети

Page 8: Когда тексты —не только слова

8

Популярные способы классификации

• нейронные сети

• генетические алгоритмы

Page 9: Когда тексты —не только слова

9

Популярные способы классификации

• нейронные сети

• генетические алгоритмы

• деревья принятия решений

Page 10: Когда тексты —не только слова

10

Популярные способы классификации

• нейронные сети

• генетические алгоритмы

• деревья принятия решений

• регрессионные деревья

Page 11: Когда тексты —не только слова

11

Популярные способы классификации

• нейронные сети

• генетические алгоритмы

• деревья принятия решений

• регрессионные деревья

• наивный байесовский классификатор

Page 12: Когда тексты —не только слова

12

Популярные способы классификации

• нейронные сети

• генетические алгоритмы

• деревья принятия решений

• регрессионные деревья

• наивный байесовский классификатор

• кластеризация

Page 13: Когда тексты —не только слова

13

Почему байесовский классификатор

• Элементарен, чтобы оценить нашу модель

• Удобен, так как не требует эвристик в виде

черных списков

• Эффективен при достаточной обученности

• Отлично подходит для текстовых данных

Page 14: Когда тексты —не только слова

14

Наивный байесовский классификатор

Pr(T|W) — вероятность, что тег характеризует сообщение,

при условии, что оно содержит это слово

Pr(W|T) — вероятность появления слова в сообщениях,

отмеченных этим тегом

Pr(W|~T) — вероятность появления слова в сообщениях,

если они к этому тегу не относятся

Page 15: Когда тексты —не только слова

15

От сайта к индексу

Crawler

Splitter Lemmer

INDEX

Page 16: Когда тексты —не только слова

16

Наиболее значащие слова

мультик

Смотреть с детьми детям

белка

дочь

пираты

Злодеи злодей

хулиганы

орангутанг

ёж

Животные животные

белка

обезьяна

Page 17: Когда тексты —не только слова

17

Page 18: Когда тексты —не только слова

Предложенные роботом:

• животные

• дружба

• смотреть с детьми

• цирк

• злодеи

• проклятия

• разные страны

Не предложены:

• пираты

• Земля

• природные катаклизмы

Ледниковый период 4

Page 19: Когда тексты —не только слова

Предложенные роботом:

• наши дни

• романтика

• расследования

• любовь

• Франция

• смотреть с девушкой

Не предложены:

• криминал

• флирт

Девушка из Монако

Page 20: Когда тексты —не только слова

20

Результаты

• Полнота прогнозирования – робот пропускает 2-3 тега, предложенных редакцией

• Точность классификации – робот ошибается на 1-2 тега

• Время работы всего несколько часов

Page 21: Когда тексты —не только слова

21

Что можно сделать в будущем

• Исключение редких слов

• Удаление предлогов и местоимений

• Отсечение слов, составляющих шум

• Распараллеливание

Page 22: Когда тексты —не только слова

Алексей Токарь

Руководитель группы разработки

в направлении медиасервисов

[email protected]

Спасибо :)