Варианты классификациии

49
10.2. Технология автоматической рубрикации текстов с использованием тезауруса для автоматического концептуального индексирования

description

10.2. Технология автоматической рубрикации текстов с использованием тезауруса для автоматического концептуального индексирования. Варианты классификациии. Рубрицирование текстов. вид общей задачи классификации / организации информации ( спам, гармонизация законодательства …) - PowerPoint PPT Presentation

Transcript of Варианты классификациии

Page 1: Варианты классификациии

10.2. Технология автоматической рубрикации текстов с использованием тезауруса для

автоматического концептуального индексирования

Page 2: Варианты классификациии

Варианты классификациии

Page 3: Варианты классификациии

Рубрицирование текстов

вид общей задачи классификации / организации информации (спам, гармонизация законодательства …)

обмен информацией

иерархия анализа

замена сложного запроса

Page 4: Варианты классификациии

Каким ДОЛЖЕН быть рубрикатор?

покрытие предметной области

пересечение смысла рубрик?

иерархия анализа

замена сложного запроса

Page 5: Варианты классификациии

Субъективизм экспертов

Совпадение при ручной рубрикации между разными экспертами 60%

Page 6: Варианты классификациии

Автоматическое рубрицирование

Page 7: Варианты классификациии

Методы автоматической рубрикации

      инженерный подход или подход, основанный на знаниях

     машинное обучение

Коллекция Reuters-21548:135 рубрик, короткие однородные документы; точность и полнота > 80%

SIGIR 2001, SIGIR 2002 Operational Text Categorization Workshop

Page 8: Варианты классификациии

Методы машинного обучения в задачах рубрикации

Page 9: Варианты классификациии

Положительные/отрицательные примеры

Page 10: Варианты классификациии

Как лучше отделить

Page 11: Варианты классификациии

Отсечение по центрам тяжести

Page 12: Варианты классификациии

Отсечение по ближайшим соседям(kNN)

Page 13: Варианты классификациии

Отсечение по ближайшим точкам(SVM)

c

d d

c

Page 14: Варианты классификациии

Оптимальный линейный сепараторSVM (Support Vector Machines)

Максимизациярасстояния междудвумя параллельнымиподдерживающимиплоскостями

||||

2

w

Page 15: Варианты классификациии

Нелинейная отделимость

Page 16: Варианты классификациии

NAME DOC_CNT PRECISION RECALL (P+R)/2Joachims

P/R b.p.

Dumais et.al.

P/R b.p.

earn 3964 97,79 97,79 97,79 98,20 98,00

acq 2369 95,82 95,55 95,69 92,60 93,60

money-fx 717 73,03 72,63 72,83 66,90 74,50

grain 582 92,09 85,91 89,00 91,30 94,60

crude 578 84,15 81,48 82,82 86,00 88,90

trade 486 77,12 77,78 77,45 69,20 75,90

interest 478 75,57 75,57 75,57 69,80 77,70

ship 286 87,30 61,80 74,55 82,00 85,60

wheat 283 84,81 94,37 89,59 83,10 91,80

corn 237 88,68 83,93 86,31 86,00 90,30

Reuters-21578, SVM, (P+R)/2 max(J) (ModApte split)

Page 17: Варианты классификациии

Примеры документов из Reuters-21548CHINA'S HEILONGJIANG PROVINCE BOOSTS GOLD OUTPUTGold output in the northeast China province of Heilongjiang rose 22.7 pct in 1986 from 1985's level, the New China News Agency said. It gave no figures. It said the province, China's second largest gold producer after Shandong, plans to double gold output by 1990 from the 1986 level. China does not publish gold production figures. However, industry sources estimate output at about 65 tonnes a year, with exports put between 11 and 31 tonnes. China is selling more gold abroad to offset large trade deficits in recent years, western diplomats said. REUTER

CONSOLIDATED TVX TO BUY BRAZIL GOLD MINE STAKES<Consolidated TVX Mining Corp> said it agreed to issue 7.8 mln treasury shares to acquire interests in three gold mining companies in Brazil and an option to increase the company's interest in a platinum property. The company said the transactions will bring immediate production and earnings to Consolidated TVX, enhance its precious metal potential and is expected to improve cash flow and earnings on a per share basis. The company did not give specific figures. Consolidated TVX said it will acquire 29 pct of CMP, a public gold mining company in which TVX already holds a 15 pct interest, making TVX the largest single shareholder. The company also agreed to acquire a 19 pct stake in Novo Astro, a private company, and a 16 pct interest in Teles Pires Mining, increasing the TVX's ownership to 51 pct. In addition, Consolidated TVX said it will acquire the right to add a 10 pct interest to a platinum property in which it already owns a 29.4 pct stake. CMP earned 11 mln Canadian dlrs in 1986 and expects to produce 42,000 ounces of gold in 1987 at a cost of 160 U.S. dlrs an ounce, Consolidated TVX

Page 18: Варианты классификациии

Сложные случаи

Пересечение выпуклых оболочек

 

Page 19: Варианты классификациии

Сложные задачи автоматической рубрикации текстов

размер рубрикатора больше 300-500 рубрик,

обычно со сложной иерархией;

трудно обеспечить достаточную по качеству

и количеству обучающую коллекцию,

субъективизм ручного индексирования

(обучающей коллекции) значительно возрастает;

документы могут иметь несколько рубрик

Page 20: Варианты классификациии

Множество примеров отсутствует и не может быть создано в короткое время

Российский социологический архив (www.socialpolicy.ru)

Данные соцопросов разных организаций

350 рубрик, 4 уровня иерархии

Новый проект => отсутствие примеров

Page 21: Варианты классификациии

Множество примеров существует, но отсутствовали требования к качеству

Международное научное сообщество RePec (www.repec.org), SocioNet (www.socionet.ru)

Архив исследовательских материалов по экономике и социологии

Рубрикатор: Journal of Economic Literature Classification System (JEL )

Более 700 рубрик

Автор сам приписывает рубрики к своей работе

Page 22: Варианты классификациии

Множество примеров противоречиво и недостаточно для большинства рубрик

(очень большие классификаторы)

Российские правовые документы

Президентский классификатор (Указ №511 15.03.2000) - 1168 рубрик

Множество примеров – 10,000 документов классифицированных вручную

Только для 47 рубрик – более чем 100 док., только для 200 рубрик – более чем 20 док.

Inconsistency: мало отличающиеся документы имеют разные наборы рубрик

Page 23: Варианты классификациии

Множество примеров для обучения из другой коллекции

Примеры: документы федерального уровня Проблема: рубрицирование 600,000

региональных документов Тот же рубрикатор Похожие документы, похожая проблема

НО!!! Стандартный метод SVM-light, обученный

на федеральных документах не приписывает ни одной рубрики для 50% документов

Page 24: Варианты классификациии

Применение тезауруса для решения

сложных задач рубрикации

Page 25: Варианты классификациии

Системы автоматической рубрикации

Автоматическая рубрикация по Классификатору правовых актов РФ (Указ Президента РФ N511 от 15 марта 2000 г., 1169 рубрик)

Автоматическая рубрикация по Классификатору НПП «Гарант» (3200 рубрик)

Новые системы автоматической рубрикацииНовые системы автоматической рубрикации

Разработаны различные системы автоматической рубрикации:

по общему тематическому правовому классификатору

Центральной избирательной комиссии РФ

(450 рубрик, 4 уровня)

по терминам верхнего уровня тезауруса Исследовательской службы Конгресса США (80 рубрик)

по правовому рубрикатору Центра информационных

исследований (180 рубрик, 3 уровня)

Page 26: Варианты классификациии

Технология автоматического рубрицирования

• Опора на знания, описанные в Общественно-политическом Тезаурусе

• Представление рубрики в виде логической формулы для небольшого числа ОПОРНЫХ концептов, затем автоматическое расширение с использованием иерархической структуры Тезауруса

• Независимый от конкретного рубрикатора (изменения состава рубрикатора) автоматический тематический анализ текста – выявление в тексте совокупностей близких терминов, выявление терминов, характеризующих основную тему и подтемы документов

Page 27: Варианты классификациии

Схема описания рубрики

Рубрика

Альтернатива1Альтернатива2

У11 У12 У13 У21 Условие22

ИЛИ

ИИИ

++

+

-

ИЛИ ИЛИ

Page 28: Варианты классификациии

Тезаурус по общественно-политической жизни

27 тысяч понятий, 64 тысячи терминов

105 тысяч отношений

предметная область – проблемы современного общества;

состав - терминология таких областей как экономика, финансы, оборона, законодательство, научная политика, спорт, искусство, военные конфликты и др.;

типы обрабатываемых текстов – официальные документы, международные договора, законы, газетные статьи, новостные сообщения

Page 29: Варианты классификациии

Программное обеспечение для описания отношений «рубрика – понятие тезауруса»

описание смысла рубрики как булевской формулы над понятиями тезауруса

генерация расширенной булевской формулы на основе иерархии тезауруса: С => дизъюнкция понятий из дерева С;

управление расширением: параметры Е – полное, L – по видам, N – без расширения:

(Государственные символы) L (Российской Федерации) N

просмотр тезаурусной окрестности понятий для определения пропусков;

специальные средства вычеркивания лишнего: отдельными понятиями и поддеревьями

Page 30: Варианты классификациии

Представление смысла рубрики опорными понятиями

Page 31: Варианты классификациии

Расширенное представление рубрики понятиями тезауруса

Page 32: Варианты классификациии

Рубрикатор СОФИСТ. Представление рубрики 040000000 ЖЕНЩИНЫ … 040050000 Семейные роли /ЖЕНЩИНЫ/040050000 Семейные роли /ЖЕНЩИНЫ/

ИЛИ {ЖЕНЩИНА} И {СЕМЬЯ} И {РОЛЬ,ПОЛОЖЕНИЕ||ОБЯЗАННОСТЬ||СТАТУС||…} ИЛИ {ЧЛЕН СЕМЬИ[L]} //жена,дочь,мать,бабушка,… И {ОБЯЗАННОСТЬ||ОТВЕТСТВЕННОСТЬ||ПРАВО||…} ИЛИ {СЕМЬЯ} И {ДОВЕРИЕ||ГЛАВНЫЙ||ЗАВИСЕТЬ||СЛУШАТЬСЯ||}

Page 33: Варианты классификациии

Рубрикатор СОФИСТ. Представление рубрики 380000000 ЭКОНОМИЧЕСКАЯ РЕФОРМА … 380020000 ОТНОШЕНИЕ К РЕФОРМЕ /ЭКОНОМИЧЕСКАЯ 380020000 ОТНОШЕНИЕ К РЕФОРМЕ /ЭКОНОМИЧЕСКАЯ

РЕФОРМА/ РЕФОРМА/

{ {ЭКОНОМИКА[E]||ЭКОНОМИЧЕСКАЯ РЕФОРМА[E]} И НЕ {МИРОВАЯ ЭКОНОМИКА[E]||

ОТРАСЛЬ ЭКОНОМИКИ[E]||ФИНАНСЫ[E]} И {РЕФОРМА||ЭКОНОМИЧЕСКАЯ РЕФОРМА[E]||}} И {НЕУДАЧНЫЙ||НУЖНЫЙ||ОДОБРИТЬ||ОПАСНЫЙ[L]||

ОТВРАТИТЕЛЬНЫЙ||ОТРИЦАТЕЛЬНЫЙ||ПЛОХОЙ|| ПОДДЕРЖАТЬ||ПОЛЕЗНЫЙ||ПРИВЕТСТВОВАТЬ…}

ОПАСНЫЙ => авантюрный, вредный, гибельный, гиблый, злокачественный, пагубный…

Page 34: Варианты классификациии

Отношение рубрика – понятие. Вес или …?

Отношение рубрика-понятие:1) без подтверждения 2) с подтверждением  1) вес=12) Рубрика «Машиностроение» - авиастроение (без

подтверждения) – самолет (с подтверждением)  Понятие с подтверждением учитывается для вывода

рубрики только тогда, когда в тексте есть хотя бы одно понятие, относящееся к этой рубрике без подтверждения

Подтверждение может быть выведено по связям тезауруса или проставлено вручную

Page 35: Варианты классификациии

ЖИЛОЕ ПОМЕЩЕНИЕ(25)

ЖИЛОЕ ЗДАНИЕ(1)

КВАРТИРА(2)

А

А

СОБСТВЕННОСТЬ(1)

ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО(4)

КОМНАТА (ПОМЕЩЕНИЕ)(1)

В

В

НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ

(13)

МНОГОКВАРТИРНЫЙ ДОМ(1)

ЗДАНИЕ(1)

СООРУЖЕНИЕ(1)

ЖИЛАЯ ПЛОЩАДЬ(1)

СТРОИТЕЛЬСТВО(12)

ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ (2)

ЖИЛИЩНАЯ НОРМА(2)

НАНЯТЬ(13)

ПОКУПКА(6)

ПЛАТИТЬ(1)

ДЕНЬГИ(22)

А

Сеть тематических узловСеть тематических узлов(Постановление Правительства РФ (Постановление Правительства РФ от 26 июня 1995 г. от 26 июня 1995 г. NN 604 604))

Page 36: Варианты классификациии

TNj+2

TNj+1

TNj

MTk

MT3

MT2

MT1Mc1

Mc3

Mck

Mc2

Структура тематического представленияСтруктура тематического представления

Основные тематические узлы

Локальные тематические узлы

Page 37: Варианты классификациии

Вычисление веса термина на основе тематического представления текста

α = 0.7

Учет двух факторов: категория в тематическом представлении и частотность

 Вес категории тематического представления: 0.9 - для центра основного тематического узла, 0.7 - для элемента основного тематического узла, 0.75 - для центра локального тематического узла …

Page 38: Варианты классификациии

Расчет веса конъюнкцииВес конъюнкции предназначен учитывать

не только сумму весов составляющих его конъюнктов, но и меру близости конъюнктов в тексте:

сумма всех текстовых связей между понятиями одного конъюнкта и понятиями другого, деленная на значение максимальной текстовой связи между любыми двумя понятиями текста.

Этот член равен обычно единице для сильно связанных конъюнктов и принимает малое значение, если понятия различных конъюнктов обсуждались в разных местах текста

Page 39: Варианты классификациии

Вычисление веса рубрики

Вес дизъюнкции:

где

dijk - понятия, не требующие подтверждения,

pijm - понятия, требующие подтверждения,

- множитель равный единице, если имеются понятия, не требующие подтверждения, и нулю иначе

Page 40: Варианты классификациии

ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИПОСТАНОВЛЕНИЕ (от 26 декабря 2001 г. N 905)

О подписании Соглашения между Правительством Российской Федерации и Правительством Туркменистана о сотрудничестве в области

исследования и использования космического пространства в мирных целях …

090090000 Космическая деятельность 64T130817 ПУСК РАКЕТЫ 12 64T4200 КОСМОДРОМ 8 63T106444 БАЙКОНУР 8 63T6783 РАКЕТА-НОСИТЕЛЬ 6 62T955 КОСМОНАВТИКА 6 62T956 КОСМИЧЕСКАЯ ТЕХНИКА 4 61T131907 ЗАПУСК КОСМИЧЕСКИХ АППАРАТОВ 3 61T1023 КОСМИЧЕСКИЙ АППАРАТ 2 61T1022 СПУТНИКОВАЯ СВЯЗЬ 1 60T137619 КОСМИЧЕСКИЕ ИССЛЕДОВАНИЯ 1 60T9340 КОСМИЧЕСКАЯ МЕДИЦИНА 1 60T5962 АСТРОФИЗИКА 1 60T2497 ИСКУССТВЕННЫЙ СПУТНИК ЗЕМЛИ 1 15

Page 41: Варианты классификациии

150100020 Содержание и порядок прохождения военной службы 95T791 ВОЕННАЯ СЛУЖБА 29 95

T792 ВОЕННОСЛУЖАЩИЙ 17 76

T6999 ВОИНСКАЯ СЛУЖБА ПО КОНТРАКТУ 2 62

 

090040000 Строительство 81T55 СТРОИТЕЛЬСТВО 12 81

T482 ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО 4 64

T6217 ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ 2 62

 

020010040 Федеральные органы исполнительной власти 77T2576 ФЕД. ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ 7 77

T5109 МИНИСТЕРСТВО ОБОРОНЫ 3 63

 

150040000 Кадры Вооруженных Сил Российской Федерации 76T792 ВОЕННОСЛУЖАЩИЙ 17 76

 

070070020 Компенсационные и иные социальные выплаты 75T124039 КОМПЕНСАЦИЯ 15 75

Фрагмент рубрик, приписанных документуФрагмент рубрик, приписанных документу(Постановление Правительства РФ (Постановление Правительства РФ от 26 июня 1995 г. от 26 июня 1995 г. NN 604 604))

Page 42: Варианты классификациии

Системы автоматической рубрикации

Автоматическая рубрикация по

Классификатору правовых актов РФ (Указ Президента РФ N511 от 15 марта 2000 г., 1169 рубрик)

Новая система автоматической рубрикацииНовая система автоматической рубрикации

Разработаны различные системы автоматической рубрикации:

по общему тематическому правовому классификатору

Центральной избирательной комиссии РФ

(450 рубрик, 4 уровня)

по терминам верхнего уровня тезауруса Исследовательской службы Конгресса США (80 рубрик)

по правовому рубрикатору Центра информационных

исследований (180 рубрик, 3 уровня)

Page 43: Варианты классификациии

классификация для legal-коллекции автоматическая классификация нормативных документов

законодательства РФ из БД СПС «Кодекс» 183 рубрик -- подмножество большого иерархического

рубрикатора нормативных документов для обучения процедуры классификации предлагается

коллекция из 4496 документов, отрубрицированных по данному классификатору экспертами компании «Кодекс»

для тестирования предоставлены 55519 документов, для которых необходимо автоматически определить рубрики, к которым эти документы относятся.

для некоторых рубрик нет документов в коллекции обучения, всего рубрик с ненулевым количеством документов для обучения — 170

Page 44: Варианты классификациии

классификация для legal-коллекции

Прогон 1: SVM по леммам Прогон 2: SVM по леммам+терминам

Леммы/понятия, встречающиеся менее, чем в четырёх документах, были усечены.

21746 различных лемм и 1203087 пар лемма-документ для обучающей выборки из 4496 документов.

29918 различных лемм/терминов и 1569958 пар «лемма/термин»-документ.

Page 45: Варианты классификациии

классификация для legal-коллекции

Прогон 3: Метод машинного обучения, основанный на моделировании логики рубрикатора

описание рубрики в виде булевской формулы — запроса к ИПС Элементами формул являются понятия Тезауруса ЦИИ.

Алгоритм строит формулы вида

Конъюнкции, составляющие формулу, имеют длину от 1 до 3. Мотивация -- создать алгоритм машинного обучения, который бы

моделировал смысл рубрики, составленной человеком, по результатам рубрицирования. Необходимым требованием для данного алгоритма было построение правил описания рубрики, которые можно легко интерпретировать.

,1 1

UiJk

i ji j

t

, ,U i j kk

t ', ,i j l

i j l

t

Page 46: Варианты классификациии

классификация для legal-коллекции

1

10

100

10001 12 23 34 45 56 67 78 89 100

111

122

133

144

155

166

номер категории

кол-

во

до

кум

енто

в д

ля

об

учен

ия

DOCS_CNT

мн-во Б

мн-во А

Таблицу релевантности, состоящую из оценок, проставленных экспертами ИС «Кодекс» для рубрик

из АБ будем обозначать “ideal50”.

Page 47: Варианты классификациии

классификация для legal-коллекции

ROMIP2004 legal categorization, "ideal50"

00,050,1

0,150,2

0,250,3

0,350,4

0,450,5

F1 Precision Recall

метрики

зна

че

ни

я м

етр

ик

2

svm_lem

svm_thes

formul

6

7

8

9

10

Результаты прогонов участников для таблицы релевантности “ideal50”

Page 48: Варианты классификациии

классификация для legal-коллекции

Зависимость F1 от количества примеров обучения

0

0,1

0,2

0,3

0,4

0,5

0,6

1-14 15-50 51-100 >100

Количество примеров (рубрики "ideal50")

F1

2

svm_lem

svm_thes

formul

6

7

8

9

10

Зависимость F-меры от количества примеров для обучения (в среднем для рубрик, частотность которых

попадает в указанный интервал)

Page 49: Варианты классификациии

Вопросы к лекции

1. Перечислите методы автоматической рубрикации.

2. По каким причинам возникают сложности в задачах автоматической рубрикации текстов?

3. Какие рубрикаторы Вам известны? Опишите их характеристики.