Пасечников И.И. Инфокоммуникационные технологии в системах связи.pdf
Всероссийская конференция « Инфокоммуникационные ...
description
Transcript of Всероссийская конференция « Инфокоммуникационные ...
Всероссийская конференция
«Инфокоммуникационные технологии
в научных исследованиях»14-16 ноября 2012 года, Таруса
Особенности использования открытых данных в современных
научных исследованиях и образованииРадченко Ирина Алексеевнакандидат технических наук, научный сотрудник
Центра семантических технологий НИУ ВШЭ
http://about.me/Irina.Radchenko
НИУ ВШЭ, Москва, 2012
Открытые данные во временной перспективе
НИУ ВШЭ, Москва, 2012 2
Открытые наборы научных данных
НИУ ВШЭ, Москва, 2012 3
World Bank
NASA
CERN
НИУ ВШЭ, Москва, 2012
Пример использования открытых геоданных
4
НИУ ВШЭ, Москва, 2012
Открытые государственные данные за рубежом
Цель: повысить открытость, доступность данных для граждан, способствовать распространению государственных данных
5
в США: http://www.data.gov/ http://www.utah.gov/data/ http://data.octo.dc.gov/ https://nycopendata.socrata.com/ http://dwexternal.co.mecklenburg.nc.us/ids/Nav_Reports.aspx/http://www.govtrack.us/http://openstates.org/
в Австралии:http://gov2.net.au/projects/index.html
в Великобритании: http://data.gov.uk/http://data.london.gov.uk/ http://openlylocal.com/councilshttp://www.mysociety.org/
в Канаде: http://www.toronto.ca/open/ https://data.edmonton.ca/ http://data.nanaimo.ca/ http://data.vancouver.ca/
в Швеции: http://www.opengov.se/data/
НИУ ВШЭ, Москва, 2012
Пятизвездочная модель открытых данных по Тиму Бернерсу-Ли
6
Источник: http://5stardata.info/, http://www.w3.org/DesignIssues/LinkedData.html
НИУ ВШЭ, Москва, 2012
Пятизвездочная модель открытых данных по Тиму Бернерсу-Ли
7Источник: http://www.w3.org/DesignIssues/LinkedData.html
★ Данные доступны в Вебе (в любом формате), но подпадают под лицензию Открытых Данных (Open Data) — http://www.nationalarchives.gov.uk/doc/open-government-licence/.
★★ Данные доступны в качестве машинообрабатываемых структурированных данных (например, в виде Excel-таблицы вместо отсканированного изображения таблицы).
★★★ Данные соответствуют двум звездам, плюс представлены в непроприетарном формате (например, в формате CSV вместо Excel-формата).
★★★★ Данные соответствуют трем звездам, плюс представлены в открытых стандартах консорциума W3C (RDF и SPARQL), предназначенных для идентификации данных.
★★★★★ Данные соответствуют четырем звездам, плюс они связаны с другими данными с учетом контекста их использования.
НИУ ВШЭ, Москва, 2012
Динамика развития Linked Open Data
8
Количество наборов LOD
Темпы нарастания объемов фактов
Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
Время2007 2008 2009 2010
Пример использования LOD: проект DBpedia
НИУ ВШЭ, Москва, 2012 9Источник: http://wiki.dbpedia.org/Applications, http://talis-podcasts.s3.amazonaws.com/twt20080207_TimBL.html
DBpedia позволяет пользователям запрашивать информацию, основанную на отношениях и свойствах ресурсов проекта Wikipedia, в том числе ссылки на соответствующие базы данных.
DBpedia — проект, направленный на извлечение структурированной информации из данных, собранных в рамках проекта Wikipedia.
НИУ ВШЭ, Москва, 2012
Области использования Linked Open Data
Облако наборов LOD охватывает около 30 миллиардов триплетов и 500 миллионов связей
10
СМИГеография
ПубликацииСозданный
пользователями контент
Науки о жизни
Междисциплинарные области
Государственные данные
Источник: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
Связанность данных
Доступность данных
Машиночитаемость данных
НИУ ВШЭ, Москва, 2012
Преимущества использования Linked Open Data
11
НИУ ВШЭ, Москва, 2012
Стек Linked Open Data
12Источник: http://iradche.livejournal.com/3881.html
Следующий шаг: проект LOD2
НИУ ВШЭ, Москва, 2012 13Источник: http://lod2.eu/
Развитие проекта LOD2 в рамках 7 рамочной программы Европейского союза
OntoWiki – инструментарий для работы с моделью
данных RDF.
PoolParty – система управления тезаурусом и
редактирования контента в рамках концепции Semantic Web (включая text mining и
связанные данные).
Sig.ma – инструментарий для разработки Web of Data. RDF, RDFa или Microformats
(стандарт Web of Data). Sig.ma – браузер Semantic
Web.
Comprehensive Knowledge Archive Network (CKAN) –
каталог для наборов открытых данных.
D2R Server – инструментарий для
опубликования реляционных баз данных в
Semantic Web.
Dbpedia Extraction – получает
структурированную информацию из Wikipedia и делает ее машиночитаемой
и связанной.
DL-Learner – инструментарий для
мониторинга машинного обучения в OWL.
MonetDB – СУБД, поддерживающая
реляционные базы данных, XML и RDF данные.
SemMF – инструментарий для расчета схожести
объектов, подвергающихся связыванию. Представляет связанные объекты в виде
RDF-графа.
Стек разработок проекта LOD2
НИУ ВШЭ, Москва, 2012 14Источник: http://lod2.eu/
Стек разработок проекта LOD2
НИУ ВШЭ, Москва, 2012 15Источник: http://lod2.eu/
Silk Framework поддерживает публикацию RDF-данных из
разнородных информационных источников. Использует декларативны язык Silk - Link Specification Language
(Silk-LSL).
Sindice – инструментарий для объединения огромных
массивов связанных данных в единое информационное пространство связанных
данных.
Sparallax – интерфейс для реализации SPARQL-запросов,
основанных на Freebase Parallax.
Triplify обеспечивает перевод данных в RDF-формат.
OpenLink Virtuoso – база знаний и платформа
виртуализации, интегрирующая Data, Services и
Business Processes в рамках предприятия.
The Web Information Quality Assessment Framework (WIQA)
– инструментарий для аналитической обработки и
фильтрации данных, представляемых в рамках концепции Semantic Web.
Spatial Semantic Browers – приложение для просмотра геоданных в формате RDF.
LIMES – инструментарий для связывания данных в рамках
концепции Semantic Web.
Основные направления инициатив, направленных на открытие науки
НИУ ВШЭ, Москва, 2012 16
Открытие массивов научных данных
Создание электронных научных хранилищ и профильных поисковых сервисов
Разработка инструментов для совместной работы
Создание специализированных социальных сетей
Примеры использования наборов открытых данных в науке
НИУ ВШЭ, Москва, 2012 17
Genome Commons (http://genomecommons.org/) Связанные наборы данных из различных источников:dbSNP, dbGaP, PharmGKB, GeneTests, OMIM, MutationView и сотни специализированных баз данных.
TARDIS (http://www.tardis.edu.au/) Наборы данных по кристаллографии.
Примеры использования наборов открытых данных в науке
НИУ ВШЭ, Москва, 2012 18
Australian Social Science Data Archive (http://www.assda.edu.au/)
Council of European Social Science Data Archives (http://www.cessda.org/)
Примеры использования наборов открытых данных в науке
НИУ ВШЭ, Москва, 2012 19
National Radio Astronomy Observatory(https://archive.nrao.edu/archive/advquery.jsp/)
Social Science Data Archive(http://dataarchives.ss.ucla.edu/)
Электронные научные хранилища и профильные поисковые сервисы за рубежом
НИУ ВШЭ, Москва, 2012 20
ScienceDirect
EBSCO
WorldCat
JSTOR
CiteSeerX
Scopus
Электронные научные хранилища и профильные поисковые сервисы за рубежом
НИУ ВШЭ, Москва, 2012 21
Web of Science
MS Academic Search
arXiv
Google Books
Open Library
Inspec
Электронные научные хранилища и профильные поисковые сервисы в России
НИУ ВШЭ, Москва, 2012 22
eLibrary
VINITI Database RAS
eBdb
BookFi.org
Руконт
Разработка инструментов для совместной работы исследователей
НИУ ВШЭ, Москва, 2012 23
Figshare (http://figshare.com/)предоставляет исследователям следующие возможности: • быстрая публикация результатов исследований; • упрощенная процедура цитирования;• совместное использование результатов
заинтересованными исследователями.
Лицензия: Creative commons
Digital Science (http://www.digital-science.com/) предоставляет программные продукты для совместных научно-исследовательских работ.
Разработка инструментов для совместной работы исследователей
НИУ ВШЭ, Москва, 2012 24
Tools for the Citizen Scientist (NASA)предоставляет программные продукты для совместных научно-исследовательских работ.