Перспективы применения семантических технологий при...

Post on 02-Jan-2016

70 views 8 download

description

Перспективы применения семантических технологий при построении виртуальных научных сообществ. Денис Голомазов аспирант механико-математического факультета МГУ младший научный сотрудник НИИ механики МГУ denis.golomazov@gmail.com. План доклада. Что такое семантические технологии? - PowerPoint PPT Presentation

Transcript of Перспективы применения семантических технологий при...

4 февраля 2010 года

Денис Голомазоваспирант механико-математического факультета МГУ

младший научный сотрудник НИИ механики МГУdenis.golomazov@gmail.com

Что такое семантические технологии?

Зачем они нужны?

Каково текущее состояние дел?

Каковы перспективы?

Модель данных RDF Онтологии Логический вывод

Рассмотрим утверждения вида «субъект – предикат – объект» (тройки) Земля является планетой Земля находится в солнечной системе

«Земля», «является», «планета», «находится», «солнечная система» - ресурсы, определяемые уникальными адресами

Так можно описывать действительность – мы задали модель данных

Онтология – совокупность утверждений-троек Онтология состоит из терминологической и

фактологической частей Терминологическая часть (словарь):

«Планета – это небесное тело» «Звезда – это не планета» «Планета имеет орбиту» «Планета имеет массу (действительное число > 0)» «Планета может иметь спутники»

Фактологическая часть: «Земля – это планета» «Земля имеет массу 6x10^24 кг» «Луна – спутник Земли»

Мы хотим автоматически выводить новые факты из существующих Например: «Земля является планетой», «Планета является

небесным телом» -> «Земля является небесным телом»

Для этого вводим специальные ресурсы, имеющие значение (правило выведения новых троек) Например, ресурсы «класс», «являться членом класса»,

«быть подклассом». Значение ресурсов: если существуют тройки «C – это

подкласс D», «x – член класса C», то из этого выводится новый факт «x – член класса D».

Единая модель данных (RDF) Общее видение предметной области Компьютеру доступен смысл информации

Новый уровень поиска Более сложные запросы Решение вопросов синонимии и мультиязычности Конкретизация/обобщение запроса

Интеграция информации Поддержка принятия решений Выявление скрытого знания

9

Какова космическая стратегия Китая в следующие 20 лет?

Как связаны стратегии Китая и США? Как решалась задача открытия экзопланет в

прошлом? Какие есть алгоритмы сейчас? Какова лучшая методика в данной ситуации? Какие новые алгоритмы были описаны в

публикациях за последний год в этой области?

Управление информацией как активом (жизненный цикл информации)

Анализ трендов и изменений в индустрии Накопление и использование опыта

Перевести скрытое знание из отчетов и голов экспертов в единую систему

Возможность просмотра информации с различным уровнем детализации

Общий доступ к информации Взаимодействие с приложениями

11

Оптимизация принятия похожих решений чтобы не повторять ошибок

Оценка решений выбор решения с наибольшей выгодой с учетом рисков

Моделирование последствий решений разные модели и общее видение разных моделей

12

Готовые тройки: Файлы .rdf (Google: 2.5 млн документов)

созданные вручную сгенерированные сервисами (livejournal, facebook etc)

Структурированные данные: Конверторы *->rdf (таблицы, реляционные БД) Микроформаты RDFa

Неструктурированные данные: Конверторы HTML->RDF (“scrapers”)

Переведем в RDF существующие базы данных в открытом доступе

Проставим ссылки из баз друг на друга Получим большую коллекцию связанных RDF-

троек

Главная проблема: у каждой базы своя онтология

Google: 186 тыс. онтологий Онтологии общей направленности: SKOS,

Dublin Core, YAGO, DBpedia, Umbel Специализированные онтологии, всевозможные

тематики: люди, сообщества, наука, проекты, веб-ресурсы, теги,

бизнес, языки, география, биология, музыка, еда,…

Медицина и науки о человеке Активно используют онтологии

Нефтегазовая индустрия Semantic Web for Oil&Gas Workshop

Финансовые услуги Промышленность Социальные сети Правительство Медийный бизнес

Перевод информации в RDF Автоматическое создание онтологий Разработка согласованных словарей Интеллектуальная собственность

18

Интернет – семантически единое информационное пространство

Взаимодействие человека с Сетью осуществляется посредством интеллектуальных агентов, которые: Отвечают на сложные вопросы Взаимодействуют друг с другом

Система анализа научного прогресса на основе информации из отчетов научных сотрудников

Цель: отвечать на запросы вида Какие направления активно исследуются в данной области

знаний? Какие публикации по данному направлению вышли за

прошедший период? В каких еще задачах используются методы данного

направления? Какие конференции посвящены данному направлению? Каков научный вклад данного ученого/подразделения за

прошедший период?

4 февраля 2010 года

Денис Голомазов

denis.golomazov@gmail.com

Спасибо за внимание.