Извлечение информации из текста в системе ИСИДА-Т
description
Transcript of Извлечение информации из текста в системе ИСИДА-Т
![Page 1: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/1.jpg)
Извлечение информации из текста в системе ИСИДА-Т
Д.А.Кормалев, Е.П.Куршев, Е.А.Сулейманова, И.В.Трофимов
(Институт программных систем РАН)
RCDL-2009
![Page 2: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/2.jpg)
Извлечение информации из текстов
• Выявления в электронных документах всех упоминаний об объектах и фактах, представляющих интерес для пользователя
• Сфера интересов пользователя определяется заранее (в процессе создания или настройки системы извлечения)
![Page 3: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/3.jpg)
Извлечение в «слабом» смысле
• Поверхностный анализ близкий к семантическому маркированию текста
• Проекция на простую реляционную модель• Анализ простых контекстов. Низкая полнота• Неплохо работает как поисковая
технология на больших коллекциях документов
![Page 4: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/4.jpg)
Извлечение в «сильном» смысле
• Детальный анализ с опорой на модель предметной области, точная классификация объектов
• Проекция на объектно-ориентированную модель
• Нормализация извлекаемого• Отождествление извлекаемого
![Page 5: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/5.jpg)
Слабое и сильное
![Page 6: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/6.jpg)
Слабое и сильное: примеры
• Исполнительный директор ОАО «Рога и копыта» Алексей Иванов…
• Заместителем Иванова в комитете Госдумы по вопросам внешней политики назначена Юлия Петрова.
![Page 7: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/7.jpg)
Что нужно?
• Нужно знать язык• Нужно обладать «фоновыми» знаниями о
предметной области
![Page 8: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/8.jpg)
Средства анализа естественного языка
• Средства общего лингвистического анализа• Средства предметно-ориентированного
анализа– выявление целевой лексики– распознавание целевых сущностей, их
атрибутов и отношений между этими сущностями
![Page 9: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/9.jpg)
CPSL (common pattern specification language)
• Декларация способа выражения в тексте сущности или факта в терминах грамматических атрибутов и используемой лексики.
![Page 10: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/10.jpg)
Расширение CPSL
• Переменные• Проверка взаимного расположения
фрагментов текста (не только следование, но и различного рода вложение, пересечение)
• Функции для обращения к модели предметной области
![Page 11: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/11.jpg)
Опора на модель
• Точная классификация сущностей– Президенту ОАЭ Газпром сделал
предложение…– Президенту ОАО Газпром сделали
предложение…
• Точное установление отношений– Отдел компании (является частью)– Совет директоров компании (возглавляет)
![Page 12: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/12.jpg)
Модели недостаточно
• Для разрешения неоднозначностей иногда требуется обширная фактографическая база– По словам руководителя администрации
президента Российской Федерации Сергея Нарышкина…
– По словам руководителя администрации президента Медведева….
![Page 13: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/13.jpg)
Ресурс знаний
База априорных предметных знаний+Словарь предметной лексики+Фактографическая база
![Page 14: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/14.jpg)
Классификация знаний
![Page 15: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/15.jpg)
Сложности
• Таксономия (дифференцирующие критерии)
• Что выражать через атрибуты, а что через таксономию.
• Иногда идем от текстов (иерархия по гипонимам/гиперонимам)
• Аморфные понятия (власти, аппарат = администрация)
![Page 16: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/16.jpg)
Унификация + вывод + отождествление
= частичное целеориентированное разрешение референции
Пример:– Украинский спикер– Спикер украинского парламента– Спикер Верховной Рады
![Page 17: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/17.jpg)
Вывод: интерпретация признаков
• Ярославский губернатор• Ярославский мэр
Ярославский мэрАдм.-тер.принадлежность
г.Ярославль
Ярославская область
Ярославский
Признак
связан с
Признак связан с
г.Ярославль мэрвозглавлять
![Page 18: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/18.jpg)
Сложность
• Курчатовский институт < -- > г. Курчатов
![Page 19: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/19.jpg)
Вывод: для унификации
• Украинский спикер
Украинский спикерАдм.-тер.принадлежность
Украина парламентАдм.-тер.принадлежность спикерРуководящая
должность в
![Page 20: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/20.jpg)
Отождествление
• Правила отождествления• Сопоставление подграфов в
фактографической базе
![Page 21: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/21.jpg)
Исида-Т
• Инструментальное средство для создания специализированных систем извлечения информации
![Page 22: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/22.jpg)
Вопросы?
![Page 23: Извлечение информации из текста в системе ИСИДА-Т](https://reader035.fdocuments.net/reader035/viewer/2022081501/56814ec5550346895dbc65f0/html5/thumbnails/23.jpg)
Спасибо за внимание!