Метод выделения словаря моделей управления для...

25
Метод выделения словаря моделей управления для глаголов русского языка Эдуард Клышинский Наталия Кочеткова МИЭМ НИУ ВШЭ Белгород 17.10.2012

description

Метод выделения словаря моделей управления для глаголов русского языка. Эдуард Клышинский Наталия Кочеткова МИЭМ НИУ ВШЭ Белгород 17.10.2012. Глагольное управление. Мама мыла щетку щеткой Мальчик нес щенка к щенку. Мальчик нес еду щенку. Но не Мама мыла щетке щетках - PowerPoint PPT Presentation

Transcript of Метод выделения словаря моделей управления для...

Page 1: Метод выделения словаря моделей управления для глаголов русского языка

Метод выделения словаря моделей управления для глаголов русского языка

Эдуард КлышинскийНаталия Кочеткова

МИЭМ НИУ ВШЭ

Белгород17.10.2012

Page 2: Метод выделения словаря моделей управления для глаголов русского языка

Глагольное управление

Мама мыла щетку щеткойМальчик нес щенка к щенку.Мальчик нес еду щенку.

Но не Мама мыла щетке щеткахМальчик нес щенки превыше щенков.

Page 3: Метод выделения словаря моделей управления для глаголов русского языка

Глагольное управление

Ехать на поезде на верхней полке на юг на конференцию на свой доклад на две недели на казенные деньги.

Семантика тоже играет свою роль.

Page 4: Метод выделения словаря моделей управления для глаголов русского языка

Зачем используется глагольное управление и сочетаемость?

• Проверка корректности автоматического анализа/синтеза текста.

• Снятие неоднозначности текста.• Собственно синтаксический анализ.• …

Page 5: Метод выделения словаря моделей управления для глаголов русского языка

Что было до этого?

• Кустова Г. И., Толдова С. Ю. Семантические фильтры для разрешения многозначности в Национальном корпусе русского языка: глаголы // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог-2008». М, 2008. С. 522–529.

• Гельбух А. Разрешение синтаксической неоднозначности и извлечение словаря моделей управления из корпуса текстов // Искусственный интеллект № 2, 1999

• …

Page 6: Метод выделения словаря моделей управления для глаголов русского языка

Что уже есть?• Словарь сочетаемости слов русского языка / Под

ред. П. Н. Денисова, В. В. Морковкина. 3-е изд., испр. М., АСТ, 2002. 816 с. – 2500 статей

• Бирюк О.Л., Гусев В.Ю., Калинина Е.Ю. Словарь глагольной сочетаемости непредметных имен русского языка - http://dict.ruslang.ru/abstr_noun.php – 10000 статей

• Большаков И.А., Гельбух А.Ф. Большой электронный словарь как политематический справочник и формирователь запросов к Интернету // Материалы международной конференции «Диалог 2011», 2011 г. сс. 124-134. – 6,93 млн. сочетаний

Page 7: Метод выделения словаря моделей управления для глаголов русского языка

Что необходимо?

• Модель управления для глаголов вида глагол+предлог+падеж – 25 000 глаголов, около 500 000 сочетаний вида глагол+предлог+разрешенные падежи

• Словарь сочетаемости слов русского языка – несколько десятков миллионов сочетаний вида глагол+предлог+существительное

Page 8: Метод выделения словаря моделей управления для глаголов русского языка

Что уже есть?

• Гельбух А. Разрешение синтаксической неоднозначности и извлечение словаря моделей управления из корпуса текстов // Материалы VIII Международной конференции KDS-99

• Automatic Acquisition of a Large Subcategorization Dictionary from Corpora // In Proc. of the 31st Meeting of ACL, pp. 235–242

• Messiant C., Korhonen F., Poibeau T. LexSchem: A Large Subcategorization Lexicon for French Verbs // In Proc. of LREC 2008

• Preiss J., Briscoe T., Korhonen A. A System for Large-Scale Acquisition of Verbal, Nominal and Adjectival Subcategorization Frames from Corpora // in Proc. of the 45 Annual Meeting of the Association of Computational Linguistics, pages 912-919

Page 9: Метод выделения словаря моделей управления для глаголов русского языка

Что мешает?

• Большой объем работ → нужна автоматизация

• Большой уровень омонимии → нужно применять синтаксис или снятие неоднозначности

• Синтаксис пока не так хорош → или мы теряем качество, или объем

Page 10: Метод выделения словаря моделей управления для глаголов русского языка

Гипотеза

Если:•взять достаточно много текстов;•рассматривать только однозначные слова;•брать строго определенные группы,то можно автоматически получить достаточно большой словарь синтаксической сочетаемости.

Page 11: Метод выделения словаря моделей управления для глаголов русского языка

Использованные тексты

Библиотека Мошкова 664 008 527

lib.rus.ec 8 924 931 649

РИА Новости 220 778 140

Коммерсант 99 670 843

Независимая газета 99 238 975

Взгляд 95 736 749

Итого 10.5 млрд

Page 12: Метод выделения словаря моделей управления для глаголов русского языка

Омонимия в русском языкеCompulenta.ru за 2009 год

Reuters.com за 2009 год

Однозначные 52,55% 38,87%Неизвестные 4,27% 7,65%Неоднозначные 43,17% 53,46%по части речи 5,51% 0%по нормальной форме

3,61% 0,32%

оба варианта 9,37% 50,35%по параметрам 24,68% 2,79%

Page 13: Метод выделения словаря моделей управления для глаголов русского языка

Черная кошка забежала в дом.

В дом быстро забежали две черные кошки .

Разбираемые конструкции

Прилагательное существительное глаголГлагол предлог существительноеДеепричастие предлог существительное(и другие)

Page 14: Метод выделения словаря моделей управления для глаголов русского языка

Словарь сочетаемости

1. Из текстов извлечены указанные конструкции, составленные из слов, однозначных по части речи (не параметрам и не нормальным формам!).

состоятся вечераприглашает на концертисполнят произведениясостоится встречапримут участиеоткроется выставка

Page 15: Метод выделения словаря моделей управления для глаголов русского языка

Словарь сочетаемости

2. Слова приводятся к начальной форме, после чего считается статистика употреблений

ПРИГЛАШАТЬ;НА;КОНФЕРЕНЦИЯ;218ПРИГЛАШАТЬ;НА;КОНЦЕРТ;281ПРИГЛАШАТЬ;НА;КОНЬЯК;3ПРИГЛАШАТЬ;НА;КОРАБЛЬ;17ПРИГЛАШАТЬ;НА;КОРДОН;3ПРИГЛАШАТЬ;НА;КОРОНАЦИЯ;6

Page 16: Метод выделения словаря моделей управления для глаголов русского языка

Словарь сочетаемостиПараметры Число сочетаний, млнглагол + сущ 23.27глагол + наречие 0.83деепр + сущ 2.74деепр + наречие 0.12причастие + сущ 6.48прич + наречие 0.24сущ + прил 5.71сущ + сущ 8.49

Page 17: Метод выделения словаря моделей управления для глаголов русского языка

Словарь глагольного управления3. Существительные, присоединенные к глаголу, могут быть неоднозначны по падежу. Оставляем конструкции с однозначными существительными и переходим к записям вида глагол+предлог+падеж. Считаем частотность таких конструкций.

ПРИГЛАШАТЬ;К;0*0*8950*21*17*5ПРИГЛАШАТЬ;КО;0*0*489*0*0*0ПРИГЛАШАТЬ;КРОМЕ;0*9*0*0*0*0ПРИГЛАШАТЬ;НА;0*0*0*30707*0*89ПРИГЛАШАТЬ;НАД;0*0*0*0*21*0ПРИГЛАШАТЬ;НАСЧЕТ;0*17*0*0*0*0

Page 18: Метод выделения словаря моделей управления для глаголов русского языка

Словарь глагольного управления

После некоторой обработки с целью повышения качества мы получили около 425 000 подобных сочетаний (сюда включены и составные предлоги).

Page 19: Метод выделения словаря моделей управления для глаголов русского языка

Словарь глагольного управления(плюсы)

Теперь мы знаем не только какие глаголы встречаются с какими предлогами, но и какие падежи возможны с данным предлогом (если их может быть несколько)

В;0*0*0*17881478*0*32320774

АННИГИЛИРОВАТЬ;В;0*0*0*13*0*129ноАНИМИРОВАТЬСЯ;В;0*0*0*0*0*5АНЕКСИРОВАТЬ;В;0*0*0*0*0*25АУКНУТЬ;В;0*0*0*17*0*0

Page 20: Метод выделения словаря моделей управления для глаголов русского языка

Словарь глагольного управления(минусы)

Узус значительно отличается от грамматики

АДАПТИРОВАТЬСЯ;В;0*0*0*93*0*1925адаптироваться в жизнь

Но при этомАННИГИЛИРОВАТЬ;В;0*0*0*13*0*129Аннигилировать в пыль в космосе

Page 21: Метод выделения словаря моделей управления для глаголов русского языка

Словарь глагольного управления(минусы)

В словаре не появились, например, «нести»+взаменвкосьвкругвнутри …

Потому что нести что-то взамен/вкруг/внутри чего-то

Page 22: Метод выделения словаря моделей управления для глаголов русского языка

Что мы еще умеем

• Адъективное управлениеДовольный ответом• Прил+сущ/прил+сущМосковский военный оркестр противМосковская сторожевая оркестраноИзвестный ученый кот против Известного ученого Иванова Но фильтры помогают восстановить истину

Page 23: Метод выделения словаря моделей управления для глаголов русского языка

Чего мы не умеем

• Сущ+сущ (дат.п.) Посвятить памятник Пушкину• Работа с местоимениями (оно может

делать что угодно)• Работа с семантикой (ехать на юг на

конференцию)

Page 24: Метод выделения словаря моделей управления для глаголов русского языка

Другие языки

Мы взяли новости Reuters за 2007 год. Анализ проводился при помощи nltk со снятием неоднозначности.

Из примерно 120 млн словоупотреблений было выделено 1,2 млн различных сочетаний.Результат сопоставим с полученным для русского языка без снятия омонимии.

Page 25: Метод выделения словаря моделей управления для глаголов русского языка

Спасибо за внимание!