Компьютерный анализ естественно - языкового текста
-
Upload
teegan-macias -
Category
Documents
-
view
35 -
download
6
description
Transcript of Компьютерный анализ естественно - языкового текста
![Page 1: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/1.jpg)
Компьютерный анализ естественно-языкового текста
Кафедра информационных систем в искусстве и гуманитарных науках
![Page 2: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/2.jpg)
Компьютерный анализ естественно-языкового текста
СТРУКТУРА КУРСА
1. Введение в дисциплину
2. Автоматический анализ текста на морфологическом уровне
3. Автоматический анализ текста на синтаксическом уровне
4. Семантический компонент в системах автоматического анализа текста
![Page 3: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/3.jpg)
Компьютерный анализ естественно-языкового текста
СТРУКТУРА КУРСА
3. Автоматический анализ текста на синтаксическом уровне
– Задачи анализа текста на синтаксическом уровне
– Модели представления структуры высказывания
– Примеры реализации синтаксического анализа
![Page 4: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/4.jpg)
Компьютерный анализ естественно-языкового текста
СТРУКТУРА КУРСА
3. Автоматический анализ текста на синтаксическом уровне
– Задачи анализа текста на синтаксическом уровне
– Модели представления структуры высказывания
– Примеры реализации синтаксического анализа
![Page 5: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/5.jpg)
ЗАДАЧИ АНАЛИЗА ТЕКСТА НА СИНТАКСИЧЕСКОМ УРОВНЕ
• Задача - построение синтаксического представления текста, т.е. синтаксической структуры
• Сфера действия ограничена предложением • На входе – цепочка словоформ с
приписанными им грамматическими характеристиками (в том объеме, в котором это позволяет сделать лексико-морфоло-гический анализ и снятие грамматических неоднозначностей)
• На выходе полного синтаксического анализа – иерархическая структура (обычно дерево).
![Page 6: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/6.jpg)
МЕСТО СИНТАКСИЧЕСКОГО АНАЛИЗА В ЛИТ
Учет правил построения:
слова из букв высказывания из слов
текста из высказываний
Типовые операции:
Форм. Содерж. Форм. Содерж. Форм. Содерж.
Коррекция + – + ± – –
Перевод + + + + (±) (±)
Компрессия + (±) (±) (±) ± (±)
Информ. запрос
+ ± ± ± – –
![Page 7: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/7.jpg)
Компьютерный анализ естественно-языкового текста
СТРУКТУРА КУРСА
3. Автоматический анализ текста на синтаксическом уровне
– Задачи анализа текста на синтаксическом уровне
– Модели представления структуры высказывания
– Примеры реализации синтаксического анализа
![Page 8: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/8.jpg)
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА
![Page 9: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/9.jpg)
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА
• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?
![Page 10: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/10.jpg)
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА
• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?
Мама мыла раму
![Page 11: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/11.jpg)
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА
• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?
Мама мыла раму
1 Мама подлежащее
2 мыла сказуемое
3 раму прямое дополнение
![Page 12: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/12.jpg)
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА
• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?
Мама мыла раму
1 Мама подлежащее
2 мыла сказуемое
3 раму прямое дополнение
Как формально
интерпретировать???
![Page 13: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/13.jpg)
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА
• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?
Мама мыла раму
Объединено в группу вместе с:
1 Мама (мыла + раму)
2 мыла раму
3 раму мыла
Первый вариант формального метаязыка:
![Page 14: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/14.jpg)
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА
• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?
(Мама (мыла раму))
Объединено в группу вместе с:
1 Мама (мыла + раму)
2 мыла раму
3 раму мыла
Первый вариант формального метаязыка:
Структура составляющих
![Page 15: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/15.jpg)
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА
• Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?
Мама мыла раму
Объединено в группу вместе с:
1 Мама (мыла + раму)
2 мыла раму
3 раму мыла
Первый вариант формального метаязыка:
Структура составляющих
![Page 16: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/16.jpg)
СТРУКТУРА СОСТАВЛЯЮЩИХнеформальное определение
• Составляющие – общее название для отдельных слов и групп в предложении, где группы – это отрезки предложения разной длины, которые объединяют более тесно связанные друг с другом единицы меньшего размера (тоже группы или отдельные слова)
(Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку)))
![Page 17: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/17.jpg)
СОСТАВЛЯЮЩИЕ(почти) формальное определение - преамбула
• Предложение рассматривается как конечное множество (элемент множества - словоупотребление) с определенным на нем отношением линейного порядка (следование слева направо). Благодаря линейному порядку может быть введено понятие отрезка.
• Составляющие определяются в виде системы, т.е. в виде их (составляющих – одиночных слов и групп слов в виде отрезков) множества, на элементы которого накладываются некоторые, чисто формальные, ограничения.
![Page 18: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/18.jpg)
СОСТАВЛЯЮЩИЕ(почти) формальное определение - формулировка
• Система составляющих для конечного линейно упорядоченного множества S – это такое множество C отрезков этого множества S, которое удовлетворяет следующим условиям:- SC (само предложение целиком является элементом системы своих составляющих)- wS wC (каждое отдельно взятое словоупотребление в предложении является элементом системы составляющих этого предложения)- α,β, являющихся отрезками предложения S и входящих в C, либо αβ=, либо αβ, либо βα (любые две составляющие некоторого предложения или не пересекаются, или содержатся друг в друге)
![Page 19: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/19.jpg)
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХмотивировка
• В примере ниже: целесообразно отразить то общее, что есть между составляющими {Эти школьники}, {диктант по русскому языку}, {русскому языку} путем отнесения их к одному классу
• Ответив на вопрос: какие слова или группы слов (т.е. составляющие) в предложении относятся к одному и тому же грамматическому классу?, можно будет перейти к ответу на вопрос: по каким правилам составляющие одного класса складываются из составляющих других классов? (вопрос собственно о структуре)
(Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку)))
![Page 20: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/20.jpg)
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХформальное определение
• Размеченная система составляющих –упорядоченная тройка <C, W, φ>, где
C – система составляющих,
W – множество меток(список классов, введенных в данной классификации, иначе
называемых «фразовые категории»),
φ – отображение C в множество всех непустых подмножеств W(список пар «составляющая + метка/метки, приписанные
данной составляющей»).
![Page 21: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/21.jpg)
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХпример 1
(Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку)))
W = {S – предложение Det – местоименное прилагательное
NP – именная группа N – имя существительное
VP – глагольная группа Adv – наречие
AnV – аналитическая форма Aux – вспомогательный глагол
глагола V – глагол
PP – предложная группа Prep – предлог
A – имя прилагательное}
NP
Det N Adv Aux V
AnV
VP
N NAPrep
NP
NP
PP
S
![Page 22: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/22.jpg)
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХпример 1
(Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку)))
Эти,Det скоро будут писать, VP Эти школьники скоро будут писать
школьники, N диктант, N диктант по русскому языку, S
Эти школьники, NP по, Prep
скоро, Adv русскому, A
будут, Aux языку, N
писать, V русскому языку, NP
будут писать, AnV по русскому языку, PP
NP
Det N Adv Aux V
AnV
VP
N NAPrep
NP
NP
PP
S
![Page 23: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/23.jpg)
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХпример 2
![Page 24: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/24.jpg)
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХпример 3
![Page 25: Компьютерный анализ естественно - языкового текста](https://reader036.fdocuments.net/reader036/viewer/2022070400/568134c0550346895d9be315/html5/thumbnails/25.jpg)
РЕКОМЕНДОВАННАЯ ЛИТЕРАТУРА
• Тестелец Я. Г. Введение в общий синтаксис. М., 2001. (Глава II)
• Гладкий А. В. Синтаксические структуры естественного языка в автоматизированных системах общения. М., 1985.(Глава 2)