Ontology and Text Alalize
-
Upload
ochirov-tsyren -
Category
Technology
-
view
706 -
download
0
Transcript of Ontology and Text Alalize
![Page 1: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/1.jpg)
Онтологии и тезаурусы
Добров Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д.
1.1. Определение понятий:
онтология, концепт, отношение, аксиомы
![Page 2: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/2.jpg)
Коллекции электронных документов и задачи их автоматической обработки
Миллионы текстов в электронной форме Множество разнообразных насущных задач
по автоматической обработке электронных документов
Но: для решения этих задач используются пословные статистические методы (“bag of words” models)
Information retrieval community: текст – это набор features, закономерности которых хорошо учитываются cтатистическими методами
![Page 3: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/3.jpg)
Онтологии. Концептуальное индексирование
• Ресурс для автоматического индексирования.
• Индекс: не слова, а понятия.– Многозначные слова разведены к разным
понятиям– Синонимы приводят к одному понятию– Отношения могут использоваться для
расширения или уточнения запроса
![Page 4: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/4.jpg)
Онтологии. Semantic Web (2001)Тим Бернес-Ли, Джеймс Хендлер, Ора
Лассила
• Страницам сайта приписана некоторое формально описание, которое помогают автоматическим процессам в сети взаимодействовать
• RDF (Resource Description Framework)
• Web Ontology Language (OWL)
• Единицы описаний – из Онтологий
• «Сеть наполнится семантикой»
![Page 5: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/5.jpg)
Онтология: 2 значения
• Философская дисциплина изучает наиболее общие характеристики бытия и сущностей
• Онтология – артефакт, структура, описывающая значения элементов некоторой системы
![Page 6: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/6.jpg)
Онтология (артефакт)
• Неформально, онтология представляет собой некоторое описание взгляда на мир применительно к конкретной области интересов.
• Это описание состоит из терминов и правил использования этих терминов, ограничивающих их значения в рамках конкретной области
![Page 7: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/7.jpg)
Онтология (3)
• На формальном уровне, онтология это система, состоящая из набора понятий и набора утверждений об этих понятиях, на основе которых можно строить классы, объекты, отношения, функции и теории.
• Основные компоненты:– Классы или понятия– Отношения– Функции– Аксиомы– Примеры
![Page 8: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/8.jpg)
Онтология – спецификация концептуализации (Gruber)
• Концептуализация – структура реальности, независимо от– Словаря– Конкретной ситуации
– Кубики на столе: концептуализация: - набор возможных положений, но не конкретное расположение
![Page 9: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/9.jpg)
Онтологией могут быть:
• Глоссарий
• Простая таксономия
• Тезаурус
• Понятийная структура с произвольным набором отношений
• Структура с аксиоматикой
![Page 10: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/10.jpg)
Таксономические отношения
• Варианты названий:
• Is_a – отношение
• Класс - подкласс
• Лингвистика: гипоним – гипероним
• Родовидовое отношение
![Page 11: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/11.jpg)
Свойства таксономических отношений
• Транзитивность: A is_a B, B is_a C,– => A is_a C
• Наследование: – S= свойство (А)– B is_a A– => S=свойство (B)
![Page 12: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/12.jpg)
Инициатива (КА)
• Предметная область разработки –сообщество специалистов по приобретению знаний
• Несколько таксономий: people, publications, events, organizations, research topics
(KA)2Knowledge Annotation Initiative of the Knowledge Acquisition Community (http://www.aifb.uni-karlsruhe.de/Projekte/viewProjektenglish?id_db=4)
![Page 13: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/13.jpg)
Таксономия публикаций
• Publication
• Article– Article in book– Conference paper– …
• Book
• Journal– IEEE expert
![Page 14: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/14.jpg)
Отношения в (КА)
Employee
Head-of-project Project
Works-on-Project Project
Affiliation Organization
Head-of-group Research group
![Page 15: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/15.jpg)
Пример аксиомы
• Работник, являющийся руководителем проекта, работает в проекте
• Переменные Е, Р
• Forall (E,P) Employee (E) and Head-Of-Project (E,P) => Works-At-Project (E,P)
![Page 16: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/16.jpg)
Языки для описания онтологий
• Ontobroker
• CycL
• Description Logics
• RDF/RDFS
• OWL
![Page 17: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/17.jpg)
Ontobroker• Подклассы (Subclass): С1::С2 – класс С1
является подклассом С2
• Экземпляры (Instance of): O:C – O является экземпляром C
• Описания атрибутов (Attribute Declaration): C1 [А=>>C2 ] – для экземпляра класса С1 определен атрибут А, значением которого должен быть экземпляр класса С2
![Page 18: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/18.jpg)
Ontobroker - 2
• Значения атрибутов (Attribute value):
• O [A->>V] – Экземпляр О имеет атрибут А со значением V
• Часть-Целое (Part-of) – O1<:O2 – О1 является частью О2
• Отношения (Relations) предикаты вида p(a1, …an)
![Page 19: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/19.jpg)
Ontobroker - 3
• Запрос
• Forall Obj, FN, EM <-– Obj: Researcher [firstName->>FN;– Lastname->>»Иванов»; email->>EM].
![Page 20: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/20.jpg)
Типы онтологий
• Общие
• Предметно-ориентированные
• Различаются по способу применения
• Онтологии для автоматического анализа текста
![Page 21: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/21.jpg)
Проблемы построения общих онтологий: верхние уровни
• Верхние уровни в разных онтологиях: CYC, EuroWordNet, WordNet
• Сравнение. Почему они различаются
• Критический анализ Nicola Guarino и предложения, как нужно строить верхний уровень
• Онтология SUMO
![Page 22: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/22.jpg)
Онтология CYC• Lenat D.• Самый амбициозный проект• Начат в 1984• 1 млн. утверждений “common sense”• Микротеории: пространство, время,
причинность• Онтология 3 тысяч понятий верхнего
уровня – в открытом доступе• www.cyc.com
![Page 23: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/23.jpg)
Лингвистические онтологии
The main characteristic of this kind of ontologies is that they are bound to the semantics of grammatical units (words, nominal groups, etc)
Основной источник понятий в онтологии – значения языковых единиц
Лингвистические онтологии: WordNet, Mikrokosmos, Sensus, РуТез
![Page 24: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/24.jpg)
WordNet
• Реляционное описание лексики английского языка
• Иерархическая сеть понятий (synset)
• Каждое слово относится к одному или нескольким понятиям
• Отдельная иерархическая сеть для различных частей речи – психолингвистическое обоснование
• Автор: George Miller (50-e годы статья «Магическое число 7»)
• Версия 1.6: 95 тысяч понятий, около 130 тысяч слов и понятий
![Page 25: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/25.jpg)
EuroWordNet
• Структурные лингвистические ресурсыСтруктурные лингвистические ресурсы
• Интерлингва: Интерлингва: английский английский WordNetWordNet
• Первоначально: Первоначально: испанский, итальянский, голландскийиспанский, итальянский, голландский
• Далее: Далее: немецкий, французский, чешский, эстонскийнемецкий, французский, чешский, эстонский
• Известны попытки создать свои структурные Известны попытки создать свои структурные ресурсы на базе ресурсы на базе WordNet:WordNet: японский, болгарский, румынский, шведский японский, болгарский, румынский, шведский и др.и др.
![Page 26: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/26.jpg)
Онтология MikroKosmos
New Mexico State University
Nierenburg Sergey
5 тысяч понятий
Автоматический перевод английский – испанский
Узкая предметная область: слияния предприятий
![Page 27: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/27.jpg)
Тезаурус русского языка РуТез
• Ресурс для автоматической обработки текстов
• Содержит общезначимые лексические единицы и терминологию общественно политической области – 115 тысяч слов и выражений
• Иерархическая сеть
![Page 28: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/28.jpg)
АНО Центр информационных исследований
МГУ им. М.В.Ломоносова Научно-исследовательскийвычислительный центр
Университетская информационная система РОССИЯ
![Page 29: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/29.jpg)
![Page 30: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/30.jpg)
Лингвистические онтологии и информационный поиск
• Электронные коллекции разнообразных текстов
• Возможности систем автоматической обработки текста для анализа релевантности контекста ограниченны
• Нет возможности подробно проанализировать контекст упоминания понятия в тексте.
• Онтологии специального типа?
![Page 31: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/31.jpg)
Многоязычные онтологии
• EuroWordNet• MikroCosmos• RuThes содержит двуязычный ресурс
Общественно-политический тезаурус (75 тысяч русский терминов – 70 тысяч англоязычных)
• Чем установления языковых соответствий отличается в традиционных словарях и онтологиях
![Page 32: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/32.jpg)
Онтологии и вопросно-ответные системы
• Система ищет в сверхбольшой текстовой коллекции
• Сравнение систем в соревновании TREC и CLEF
• Конкретные системы
• Практическая актуальность: поиск в Интернет не по краткому запросу, а по развернутому вопросу
![Page 33: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/33.jpg)
Онтологии и вопросно-ответные системы
Постановка задачи:
• 60-е годы: поиск в специальных базах знаний
• Сейчас: поиск в громадных текстовых массивах
Примеры вопросов:
• What does the Peugeot company manufacture?
• How long did the Charles Manson Murder trial last?
• Who is the first American in space?
![Page 34: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/34.jpg)
Как создать онтологию для конкретной области
• Тексты• Набор словосочетаний: автоматическое
извлечение терминов• Выделение понятия• Отношения между понятиями:
– Извлечение из текстов по шаблонам– Статистические методы– Методы на основе синтаксической
структуры
![Page 35: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/35.jpg)
Как использовать созданные онтологии
• Слияние онтологий• Использование общих онтологий для
эффективного создания онтологий в конкретных предметных областях
• Semantic web: одна (или несколько) онтология верхнего уровня, к которой достраиваются специализированные онтологии
![Page 36: Ontology and Text Alalize](https://reader034.fdocuments.net/reader034/viewer/2022042816/559b895a1a28ab67158b467f/html5/thumbnails/36.jpg)
Вопросы к лекции
• Что такое онтология?
• Составные части онтологий
• Классификация онтологий