Обработка текстов на естественном языке: Кластеризация текстов
Семантическая структура пропозиции при извлечении...
description
Transcript of Семантическая структура пропозиции при извлечении...
Семантическая структура пропозиции при извлечении фактов
из текстов на русском языке
СПбГУ: И. В. Азарова ([email protected]) ООО «Идеограф»: В. Л. Иванов
([email protected]) Е. А. Овчинникова, ([email protected])
2
Система анализа текста Идеограф
3
Платформа ИДЕОЛОГ (1)
Базовые свойства
• Машина логического вывода
• Решетка типов
Дополнительные свойства
• Поддержка подключаемых грамматик
• Поддержка больших лексиконов
• Поддержка встроенных предикатов
• Chart parsing
4
Платформа ИДЕОЛОГ (2)
5
Грамматический анализ AGFL
Базовые свойства
• Система продукций (контекстно-свободная грамматика)
NP Noun head Noun daughter
NP Adj daughter Noun head
• Продукции на уровне категорий (координация значений категорий задание согласования, управления и примыкания)
NP (Case) Noun head (Case) Noun daughter (gen)
NP (Case) Adj daughter (Case) Noun head (Case)
Дополнительные свойства
• Система трансдукции (форматирование результатов)
6
RUS4IR: Морфология + Синтаксис (1)
NP(Case)
Noun head(Case) Noun daughter(gen)
получение Noun (nom)создателем Noun (abl)указах Noun (loc)дом Noun (nom)миллиард Noun (nom)ветках Noun (loc)….
прибыли Noun (gen)традиции Noun (gen)президента Noun (gen)отца Noun (gen)рублей Noun (gen)клена Noun (gen)….
7
RUS4IR: Морфология + Синтаксис (2)
PP(Case,...)
Prephead(Case) NPdaughter(CASE)
на с в в
на ….
получение Noun (acc)создателем Noun (abl)указах Noun (loc)дом Noun (acc)вешках Noun (loc)….
8
RUS4IR: Морфология + Синтаксис (1)
Objective_predicate_phrase
Predicate (nominal, affirmative)
nom_left(Number) nom_pred(Number) right(intr,pos)
Copula(Number) pred_adj(Number) PP(Case)
Pron() prep() pron()
Я (быть) знакомый с (ты)
Я был знаком с тобой
9
RUS4IR: Морфология + Синтаксис (3)
Objective_predicate_phrase
Predicate (nominal, affirmative)
nom_left(Number) nom_pred(Number) right(intr,pos)
Copula(Number) pred_noun(Number) PP(Case)
Pron() prep() pron()
Я (быть) знак с (ты)
Я был знаком с тобой
10
Лексический анализ: RussNet (1)
Базовые свойства RussNet
• компьютерный тезаурус wordnet-типа• элементарная единица - синсет (набор синонимов)• объединение синсетов в семантические деревья • рамки валентностей для синсетов (устойчивые контекстные маркеры)
Дополнительные свойства
• ассоциативные семантические отношения между синсетами одной части речи (антонимия, меронимия, каузация, пресуппозиция … )
• отношения синонимии и антонимии между синсетами разных частей речи
• отношения деривационной синонимии и антонимии между словообразовательными дериватами аддитивного типа
11
Лексический анализ: RussNet (2)
Примеры синсета
{знакомый1, известный1} : 'встречавшийся прежде‘
Мне хорошо <знакомы> эти слова "о моральном вреде системе".
Нам хорошо <знакомы> свадебные или обручальные кольца..
Они уже <знакомы> с азами общей культуры
Но рядом с меню висело уже <знакомое> мне объявление:
{знакомый2} : 'состоящий в знакомстве с кем-либо' Мы с тобой <знакомы> двадцать лет.
Cемья Вит Карр <знакома> с Берковицем...
12
Лексический анализ: RussNet (3)
Семантические деревья
{человек} {«артефакт»} {группа}
Группировки деревьев
«одушевленные» = «человек» + «животные»«предмет» = «естественный объект» + «артефакт» + …«люди» = «человек» + «группа»
13
Лексический анализ: RussNet (4)
Семантические связи синсетов
(Глаголы) (Существительные)
{сделать} НСВ
{создавать} {создать}der_transposition_action
der_agent {создание} {создатель}
Окрестность синсета – все семантические связи данной вершины дерева/сети
14
Лексический анализ: RussNet (5)
Синсет RussNet в xml-формате <SYNSET>
<ID>RUS-nЧЕЛОВЕК.42.лицо</ID><POS>n</POS><DEF>Член коллектива людей</DEF><SYNONYM>
<LITERAL>лицо <SENSE>2</SENSE><morph_data ANIM="anm"/><LNOTE>neut</LNOTE>
</LITERAL></SYNONYM><SYNONYM>
<LITERAL>человек <SENSE>1</SENSE><LNOTE>neut</LNOTE>
</LITERAL></SYNONYM><SYNONYM>
<LITERAL>индивидуум<SENSE>1</SENSE><LNOTE>liter</LNOTE>
</LITERAL></SYNONYM> <ILR>RUS-nЛЮДИ.34.общество<TYPE>holo_member</TYPE></ILR> <ILR>RUS-nЛЮДИ.25.народ<TYPE>holo_member</TYPE></ILR>
</SYNSET>
15
Рамки валентности (1)
Субъектная валентность для синсета {знакомый1, известный1}
• Синтаксическое оформление валентной позиции
Pronoun(dat) или Noun (dat)
• Семантическое оформление валентной позиции
дерево ЧЕЛОВЕК
• Ролевое оформление валентной позиции
СУБЪЕКТ
• Обязательность/факультативность валентной позиции (частотность появления позиции в контекстах корпуса текстов)
факультативна (31%)
16
Рамки валентности (2)
Объектная валентность для синсета {знакомый2}
• Синтаксическое оформление валентной позицииPrep=«с» + Pronoun (abl) или Noun (abl)
• Семантическое оформление валентной позиции дерево ЧЕЛОВЕК
• Ролевое оформление валентной позиции ОБЪЕКТ
• Обязательность/факультативность валентной факультативна (46%)
17
Рамки валентности (3)
Пример рамки валентностей в xml-формате
<VALENCE_FRAME><VALENCE active="yes" obligatory="yes" main_segment="verb_phr"
val_type="object1" val_seg="terminal_noun">
<morph_data CASE="acc" place="preposition" /><sem_data TYPE="top" ID="RUS-nПРЕДМЕТ"/>
</VALENCE><VALENCE active="yes" obligatory="no" main_segment="verb_phr"
val_type="subject" val_seg="terminal_noun">
<morph_data CASE="nom" place="postposition"/><sem_data TYPE="top" ID="RUS-nЧЕЛОВЕК"/>
</VALENCE></VALENCE_FRAME>
18
Разрешение неоднозначности
Исходный текст: Я был знаком с тобой…
Синтаксическая интерпретация 1: ((Я) (знакомый) ((с) (ты)))Синтаксическая интерпретация 2: ((Я) (знак) ((с) (ты)))
Лексическая интерпретация 1-1: {знакомый1} Лексическая интерпретация 1-2: {знакомый2} …Лексическая интерпретация 2-1: {знак1}Лексическая интерпретация 2-2: {знак2}Лексическая интерпретация 2-3: {знак3}
Верифицированный вариант 1: ((Я) (знакомый) ((с) (ты))) + {знакомый2}
19
Синтаксическая семантика (1)
Базовые свойства• Базовая единица – признаковая структура пропозиции• Ядро пропозиции – предикат + субъектно-объектные позиции • временные и причинно-следственные отношения между пропозициями
Дополнительные свойства• Разные типы объектов пропозиции отождествляются в рамках схемы
объектов семантического дерева RussNet• Периферия пропозиции – качественно-количественная характеристика
предиката, субъекта и объектов
20
Синтаксическая семантика (2)
Текст: После нашего приезда в Вену я отправился на заранее определенное место встречи.
Структура пропозиций:
phrase [ SEM proposition [ ID id.приехать
SUBJECT X = object [ID id.человек1]
OBJECT3 object [ID id.Вена]
TIME T1 ] ],
phrase [ SEM proposition [ ID id.отправиться
SUBJECT Y = object [ID id.человек1]
PLACE Z = object [ID id.место]
TIME T2 ] ],
phrase [ SEM proposition [ ID id.встречать
PLACE Z ] ],
phrase [ SEM proposition [ ID id.определить
OBJECT1 Z
TIME T3 ] ],
before(T1, T2), before(T3, T2).
21
Синтаксическая семантика (3)
Синтаксическое правило грамматики
NP (Case, …) Noun head (Case, …) Noun daughter (gen, …)
Синтактико-семантические правила
1. Пример конструкции: получение прибыли, строительство дома
Noun head имеет в окрестности связь der_transposition_action
Noun daughter входит к широкую группировку деревьев «сущность»
Семантическая интерпретация: «свернутая» пропозиция, ядром которой является глагольный синсет, связанный отношением «der_transposition_action», Noun daughter – объект пропозиции.
[ HEAD_DTR noun_phrase [ HEAD noun [CASE Case] SEM [ID Id1] ] NONHEAD_DTRS <noun_phrase [ HEAD noun [CASE gen] SEM X=[ID Id2]] > SEM proposition [ ID Id
OBJECT1 X ] ] => entity_abstract(Id2), der_transposition_action(Id1, Id).
22
Синтаксическая семантика (4)
2. Пример конструкции: создатель традиции, проповедник реинкарнации
Noun head имеет в окрестности связь der_agent
Noun daughter входит к широкую группировку деревьев «сущность»
Семантическая интерпретация: «свернутая» пропозиция, ядром которой является глагольный синсет, связанный отношением «der_agent»,
Noun daughter – объект пропозиции, субъект действия – референт группы.
[ HEAD_DTR noun_phrase [ HEAD noun [CASE Case] SEM [ID Id1] ] NONHEAD_DTRS <noun_phrase [ HEAD noun [CASE gen] SEM X=[ID Id2] ]> SEM proposition [ ID Id
SUBJECT ref
OBJECT1 X ]
] => entity_abstract(Id2), der_agent(Id1, Id).
23
Ссылки
• сайт проекта ИДЕОГРАФ (+RussNet Online):
http://www.ideograph.ru
• сайт грамматики AGFL:
http://www.phil.pu.ru/depts/12/AGFL/rus/
• сайт тезауруса RussNet:
http://www.phil.pu.ru/depts/12/RN/
24
Спасибо за внимание!