Методы интеграции разнородных онтологий

24
Методы интеграции разнородных онтологий Панасенко Алексей, 525 группа Научный руководитель Большакова Е.И.

description

Панасенко Алексей

Transcript of Методы интеграции разнородных онтологий

Методы интеграции разнородных онтологий

Панасенко Алексей, 525 группаНаучный руководитель Большакова Е.И.

2

Понятие онтологии

Онтология — это точная спецификация концептуализации. (Т. Грубер)

Концептуализация — это структура реальности, рассматриваемая независимо от словаря предметной области и конкретной ситуации.

3

Пример онтологии

Классификация вин– Вино

• Красное вино– Красное бургундское– …

• Белое вино– Белое бургундское– …

• Розовое вино– …

4

Применение онтологий

• Информационный поиск (Information retrieval)– Обеспечение концептуального

индексирования

• Семантический Веб (Semantic Web)– Автоматизация «интеллектуальных» задач

обработки значения ресурсов сети

5

Информационный поиск

Индексирование по

набору слов• Избыточность

• Независимость слов

• Многозначность слов

Концептуальное

индексирование• Синонимы объединены

• Есть связи между понятиями

• Многозначные слова разнесены по разным понятиям

6

Semantic Web

Основные концепции

• Расширяемый язык разметки XML.

• RDF – формат описания ресурсов.

• Формализация и обработка знаний на основе онтологического подхода.

7

Существующие проекты

• Автоматическое получение знаний– KnowItAll– TextRunner

• Ручное получение знаний– WordNet, Cyc, OpenCyc – построение экспертами– Freebase – построение сообществом– Semantic Wikipedia – добавление семантических

ссылок в существующие статьи

• Получение знаний из структурированных данных

8

YAGO

• Авторы – Fabian M. Suchanek, Gerhard Weikum

• Автоматическое получение знаний из WordNet и Wikipedia

• 1.7 миллиона сущностей

• 15 миллионов фактов

• Совместимость с RDFS

9

Особенности YAGO

• Используются данные из панелей информации (infoboxes) Wikipedia

• Используется таксономия WordNet

• Используются различные методики контроля качества

• Вводятся n-арные отношения

10

N-арные отношения

RDFSGrammyAward prize

elvisGetsGrammyElvis winner

elvisGetsGrammy1921 year

elvisGetsGrammy

YAGO#1 : Elvis hasWonPrize

GrammyAward#2 : #1 inYear 1967

Системавоспринимает:

Elvis hasWonPrizeGrammyAward inYear1967

11

Контроль качества

• Проверка на уникальность – добиваемся единственности всех сущностей и фактов

• Проверка на соответствие типу – добиваемся наличия у всех сущностей классов и удовлетворения всеми сущностями ограничений своих классов

12

Проверка на уникальность

• Проверка перенаправления – для каждой сущности в Wikipedia текст ссылки в панели информации может отличаться от названия статьи, на которую она ссылается.

• Удаление повторяющихся фактов и сущностей. Более точный факт необходимо оставить, менее точный – удалить.

13

Проверка на соответствие типу

• Редуцирующая проверка – если сущности невозможно сопоставить класс, то такую сущность необходимо исключить из онтологии.

• Индуцирующая проверка – если из имеющихся данных о сущности можно вывести какой-либо факт, то его необходимо включить в онтологию.

14

Эвристики YAGO

Для автоматизации слияния онтологий

используются следующие эвристики:

• Эвристики определения типа

• Эвристики определения сущностей

• Эвристики определения категории

15

Эвристики определения типа

• Категории Wikipedia объединены в ацикличный ориентированный граф, но используются только листья этого графа.

• Каждый synset WordNet становится классом онтологии, за исключением известных персон/мест

Synset – группа синонимов и синонимичных словосочетаний

16

Связь synset и категорий

• Каждую категорию разбивают на пре-модификатор, основу и пост-модификатор.

• Ищется лучший synset для пре-модификатора и основы. Если нашли – то наша категория – подкласс этого класса.

17

Связь synset и категорий 2

• Если synset не найден – то ищем лучший synset только для основы.

• Лучший synset – тот, к которому сам WordNet относит слово с максимальной вероятностью.

• Существует ограниченное число исключений – например слово capital (столица) WordNet с максимальной вероятностью принимает как финансовый термин

18

Пример связи категории и synset

American people in JapanПре-модификатор Основа Пост-модификатор

Основу привели в форму единственного числа

American person

Данному словосочетанию не соответствует ни

один synset. Значит ищем synset только для

основы.

Person – synset person/human, и значит

American people in Japan – подкласс person/human

19

Эвристики определения сущностей

• Активное использование списков синонимов из WordNet

• Использование перенаправлений Wikipedia

• Определение имен собственных – Эйнштейн означает то же, что и Альберт Эйнштейн

20

Эвристики определения категории

• Использование категорий Wikipedia – если статья имеет категорию «Реки Германии», то сущность isLocated Германия

• Эвристики определения категории могут быть не слишком строгими – лишние факты будут отброшены

21

Русскоязычный вариант

• Исходные онтологии– Русская Wikipedia– Онтология научных терминов НИВЦ МГУ

• 55 000 сущностей• 200 000 фактов• 140 000 синонимов

• Цель – дополнить онтологию НИВЦ МГУ данными из Wikipedia, сохранив преимущества экспертной классификации

22

Технические аспекты

• Онтология НИВЦ – база данных dBase• Русская Wikipedia – html-код• Результат – XML-схема онтологии в

формате RDFS• Провести полное тестирование

результирующей онтологии не представляется возможным, необходима система выборочного тестирования

23

Особенности эвристик

• Выборка идет не по всем категориям Wikipedia

• Более сложный лексический анализ при определении класса категории Wikipedia

• Нет вероятностей соответствия слова разным synset

24

Спасибо за внимание

Вопросы?