Linked Open Dataによる多様なミュージアム情報の統合

35
Linked Open Dataによる 多様なミュージアム情報の統合 発表者:嘉村 哲郎 [email protected] 総合研究大学院大学 複合科学研究科 嘉村 哲郎(総合研究大学院大学 複合科学研究科, 東京藝術大学) 加藤 文彦(国立情報学研究所) 大向 一輝(国立情報学研究所,総合研究大学院大学) 武田 英明(国立情報学研究所,総合研究大学院大学) 高橋 徹(ATRメディア情報科学研究所,株式会社ATR-Promotions) 上田 洋(株式会社ATR-Promotions)

description

Integration of distributed of museum information with linked open data. じんもんこん2010発表資料補填版

Transcript of Linked Open Dataによる多様なミュージアム情報の統合

Page 1: Linked Open Dataによる多様なミュージアム情報の統合

Linked Open Dataによる多様なミュージアム情報の統合

発表者:嘉村 哲郎[email protected]

総合研究大学院大学 複合科学研究科

嘉村 哲郎(総合研究大学院大学 複合科学研究科, 東京藝術大学)

加藤 文彦(国立情報学研究所)

大向 一輝(国立情報学研究所,総合研究大学院大学)

武田 英明(国立情報学研究所,総合研究大学院大学)

高橋 徹(ATRメディア情報科学研究所,株式会社ATR-Promotions)

上田 洋(株式会社ATR-Promotions)

Page 2: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

考察

LODAC Museum

技術背景関連研究

背景

発表内容

2

LODACについて

オープン化の時代

新しい情報流通の形

Linked Data(LOD)

循環型情報活用

RDF表現

データの標準化

情報源と情報統合

公開・共有

利用データについて

まとめ

応用例

LODへの誘い

Page 3: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

LODACプロジェクト(2010.4~)

3

「学術リソースのためのオープンソーシャルセマンティックWeb基盤の構築」

情報・システム研究機構 新領域融合センタープロジェクト

LODAC = Linked Open Data for Academia(http://lod.ac/)

概要 国内の学術情報をLinked Open Data(LOD)で公開・共有を促進

学術、社会一般等、広範囲なデータ利用の仕組みを構築

はじめのターゲット

複雑な構造を持つ

未整理な情報が分散している

学術・一般に貢献できる

ミュージアム領域

Page 4: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

オープン化の情報時代へ

4

人文系分野で構築されてきたデータ

資料データベース化、デジタルアーカイブ

データ精度も高く情報資産としての価値が高い

どこにあるのか?

研究機関や個人研究者が保有

外部には公開していない情報が大量に存在

データ整理されていない情報もある

ミュージアム領域ではその数程しれず

今まで知らなかった情報が使えるようになったら?

Page 5: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

新しい情報流通の形

5

Web of Document = 従来のWeb上のデータ

Webで公開した情報は情報として利用可能

PDF、HTML、CSV等で公開

データとして利用するには情報の加工が必要例:HTMLから余計なタグを排除してデータを抽出する

Web of Data = 新しいWebの情報流通

Webで公開した情報はデータとして利用可能

RDF、SPARQL Endpoint等

リンクを参照してデータとして使える公開情報

例:アーティストプロフィール、書誌情報、イベント情報

Page 6: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

Linked Open Data(LOD)

6

公開情報を蓄積し、誰でも使えるようにする

Linked Dataの原則

あらゆる事柄にURIをつける

HTTP経由でURIを参照

URIを参照したときは情報を閲覧できる

他の関連情報へのリンクを含める

Page 7: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

情報のオープン化へ

7

これからのWeb

収集(情報を収集)

利用(蓄積した情報は自分や社会のために)

公開(多様なサービスを利用して情報発信)

共有(様々な用途・広範な社会に利用してもらう)

Page 8: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

専門的視点の研究

一般・趣味人による創作

公開・発信

収集・蓄積

研究成果・作品情報

データ・情報共有

利用・創造

循環型情報活用

8

循環型情報活用(文化・芸術)

• 新たな作品展開• 新たな分野,知の創出• 次世代へ継承

製作過程の記録ノートA.制作に至った背景、動機B.発見、手法C.実験データ

Linked Open Dataで公開実験データ一部は保持

類似・関連情報等の横断的検索サービス

過去の手法に手を加え、新しい手法で創造A.製作過程B.類似作品との相違C.実験データ

Page 9: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

標準化データ形式

9

RDF

1つの情報を主語,述語,目的語の3つ組(通称トリプル)で表す

トリプルが複数集まることで1データとして構成される

http://lod.ac/id/4773

F主語

http://lod.ac/id/1767

dc:creator

述語

目的語

生々流転図

dc:title

2つのトリプルからなる1データ

http://lod.ac/id/1767

横山大観

skos:prefLabel

rdf:typefoaf:person

http://lod.ac/id/4471

lodac:creates

http://lod.ac/id/4580

lodac:creates

4つのトリプルからなる1データ

Page 10: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

標準化データ形式

10

RDF

1つの情報を主語,述語,目的語の3つ組(通称トリプル)で表す

トリプルが複数集まることで1データとして構成される

http://lod.ac/id/4773

F主語

http://lod.ac/id/1767

dc:creator

述語

目的語

生々流転図

dc:title

6つのトリプルからなる1データ

http://lod.ac/id/1767

横山大観

skos:prefLabel

rdf:type foaf:person

http://lod.ac/id/4471

lodac:creates

http://lod.ac/id/4580

lodac:creates

F主語

述語

目的語

F主語

目的語

目的語

Page 11: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

RDF形式による表現

11

<?xml version="1.0" encoding="utf-8"?>

</rdf:Description>

<rdf:Description rdf:about="http://lod.ac/ref/20811">

<ns0:P62I_is_depicted_by xmlns:ns0="http://purl.org/NET/cidoc-crm/core#">巻末に年記、落款、印章</ns0:P62I_is_depicted_by>

</rdf:Description>

<rdf:Description rdf:about="http://lod.ac/ref/20811">

<ns0:creator xmlns:ns0="http://purl.org/dc/elements/1.1/">横山大観</ns0:creator>

</rdf:Description>

<rdf:Description rdf:about="http://lod.ac/ref/20811">

<ns0:source xmlns:ns0="http://purl.org/dc/terms/" rdf:resource="http://search.artmuseums.go.jp"/>

</rdf:Description>

</rdf:RDF>

F主語述語

目的語

1

2

3

4

1. 「http://lod.ac/ref/20811」「P62I_is_depicted_by」は「巻末に年記、落款、印章」がある2. 「http://lod.ac/ref/20811」の「creator」は「横山大観」である3. 「http://lod.ac/ref/20811」の「source」は「http://search.artmuseums.go.jp」である4. 「http://lod.ac/ref/20811」のデータは1-3で構成されている。

述語「P62I_is_depected_by」の表す意味はhttp://purl.org/NET/cidoc-crm/coreにある

Page 12: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

RDFによる情報共有の利点

12

URIがリソースIDとして機能する

URIを見ることで情報の定義が書いてある

共通のURIを利用(共有)することで出所が保証された内容の情報を利用することが出来る

XMLの問題なぜXMLはだめなのか?

<person>

<name>横山大観</name>

</person>

<作家>

<作家名>横山大観</作家名>

</作家>

・personとnameはなにを意味するのか。人物? 本名? 作家名?

・nameと作家名は同じ意味なのだろうか? (同一性問題)

・作家名にpersonと記述して良いのだろうか(拘束条件)

Page 13: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

LOD活動事例

13

DBpedia(英語版)

WikiPediaの情報をLODで利用可

※日本語版DBpediaはLODACプロジェクトで準備中

国立国会図書館(NDLSH) RDF/SKOS語彙を使用した

件名目録表のLinked Data

Page 14: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

<foaf:page rdf:resource="/music/artists/70ea63ea-70dc-4b63-951a-2c249d2b3b0a.html"/>

<owl:sameAs rdf:resource="http://dbpedia.org/resource/Ricky_Martin"/>

<mo:musicbrainz rdf:resource="http://musicbrainz.org/artist/70ea63ea-70dc-463-951a-2c2.html"/>

<mo:image rdf:resource="http://static.bbc.co.uk/music/images/artists/234x132/70ea63ea.jpg"/>

<foaf:homepage rdf:resource="http://www.rickymartin.com"/>

<mo:fanpage rdf:resource="http://www.rickymartin.com.br/"/>

<mo:wikipedia rdf:resource="http://en.wikipedia.org/wiki/Ricky_Martin"/>

</mo:MusicArtist>

</rdf:RDF>

LOD利用事例(英国放送協会)

14

LODを利用したコンテンツ例

Dbpedia(WikiPedia)から概要

MusicBrainzから関連情報

Page 15: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

Linked Data Cloud

15

Page 16: Linked Open Dataによる多様なミュージアム情報の統合
Page 17: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

LODAC Museum

17

1.データの標準化

異なる情報源からのデータを収集して標準形式に変換

2.情報関連付け・統合化

標準形式に基づいた複数の情報源のデータを統合

3.公開・共有

統合したデータの一覧、網羅性のある一般的な検索

LODとして利用できる基盤構築

Web of Document をWeb of Dataへ

同じ内容を含む情報を統合化

LODとして公開

Page 18: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

ミュージアム資料 実在するミュージアム14館から収集

関連資料

別の視点から整理された資料情報

国指定文化財データベース

文化遺産オンライン

その他の情報 日本語版Dbpedia

(国土交通省国土計画局GIS)

統合化の基点になる情報 日本美術シソーラス(筑波大学日本美術シソーラスデータベース作成委員会編)

美術に関する作品、人物、流派、所蔵館情報が含まれたデータセット

標準化と情報源

18

情報源A.ミュージアム資料

(1) 東京国立近代美術館

(2) 国立西洋美術館

(3) 京都国立近代美術館

(4) 国立国際美術館

(5) 京都国立博物館

(6) 奈良国立博物館

(7) 福島県立美術館

(8) 栃木県立美術館

(9) 秋田県立近代美術館

(10) 岩手県立美術館

(11) 徳島県立近代美術館

(12) 山梨県立美術館

(13) 東京都現代美術館

(14) 香川県立東山魁夷せとうち美術館

B.関係資料

(15) 文化遺産オンライン

(16) 国指定文化財データベース

C.その他関連情報

(17) 国土交通省国土計画局GIS

(18) 日本語版Dbpedia

D.基点となる情報

(19) 日本美術シソーラス

Page 19: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

メタデータ(語彙)利用方針

19

できるだけ既存の語彙を使用

階層構造や利用範囲がある語彙は字面のみを利用

どうしても存在しない語彙は独自の語彙として定義

PREFIX URI

crm http://purl.org/NET/cidoc-crm/core#

dc http://purl.org/dc/terms/

dc11 http://purl.org/dc/elements/1.1/

foaf http://xmlns.com/foaf/0.1/

skos http://www.w3.org/2004/02/skos/core#

rdfs http://www.w3.org/2000/01/rdf-

schema#

ical http://www.w3.org/2002/12/cal/ical#

rda2 http://RDVocab.info/ElementsGr2

lodac http://lod.ac/ns/lodac#

メタデータ数・作品 46個・人物 23個・施設 13個・書誌 12個

lodac:Work Property(一部項目省略)資料分類 lodac:genre

文化財 lodac:culturalAssets

制作者 dc:creator / dc11:creator

国籍 crm:P7_took_place_at

作品名 dc:title / skos:prefLabel

作品名読み dc:title @ja-hrkt / skos:altLabel

作品名英語 dc:title @en / skos:altLabel

銘文 crm:P62I_is_depicted_by

印章 crm:P65_shows_visual_item

員数 crm:P57_has_number_of_parts

コレクション dc:isPartOf

制作年 dc:created

推定始年 lodac:estimatedStartYear

材質 dc:medium / crm:P45_consists_of

Page 20: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

情報源Bの参照用データ

統合データと参照データ

20

参照用データ(http://lod.ac/ref/)

収集したデータをそのまま参照し、メタデータ以外の内容は加工しない

データ内容の権限は情報源が持つ

統合データ(http://lod.ac/id)

LODACが関連ある参照用データを統合したデータ

統合内容、編集内容権限はLODACが持つ

各データには管理するために識別子が付けられる統合データ

dc:references dc:references

dc:references dc:references

dc:references dc:references

dc:creator

dc:creator

crm:P55_has_current_location crm:P55_has_current_location

crm:P55_has_current_location dc:creator

情報源Aの参照用データ

作品

収蔵館

作者

Page 21: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学 21

所蔵館情報の統合化

文字列完全一致による所蔵館情報の統合

A.日本美術シソーラスDBの所蔵館情報648件

B.文化遺産オンラインの所蔵館情報915件

結果77件の所蔵館が一致し、それぞれの情報を統合した

A、Bともに異なる情報をリンクとしてLODACが管理するデータに統合

Aの情報 Bの情報統合化情報(LODAC管理)

Page 22: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

ID700

22

その他構築時における課題

日本語読みと複数人名表記

「ID100の内容がID700と同じ場合」

REF100

ID100

REF700

ID700

ID400

1. ID100に記述されるREF700を一旦削除する

2. ID700をリンク先とする他のID(ID400)のリンク先をID100に変更する

3. ID700を削除し、ID700のアクセスはID100

へいくようリダイレクトさせる

4. ID100にはID700としてアクセスできるようREF700のリンクを再リンクする

同一内容の統合情報複数存在時の対応

foaf:nick [

a lodac:Name;

lodac:label “嘉村"@ja;

lodac:label “かむら"@ja-hrkt;

lodac:label ”KAMURA"@en;

].

Person References Property

作者名(一般名) foaf:name / skos:prefLabel

作者名読み foaf:name @ja-hrkt / skos:altLabel

名号 foaf:nick

名号読み foaf:nick @ja-hrkt

作者英名 foaf:name @en /skos:altLabel

Page 23: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学 23

作者名をキーとする作品情報の統合

基点(日本美術シソーラス)とする作者情報(下村観山の場合)

→ 2件の作品情報がある

Linked Data化とLODACによる作品情報統合→ 12件の追加作品情報(6件の異なる情報源)

→ dbpedia日本語版へのリンク

LODAC管理データ(一部省略)

作品リンク

DBpedia

作者の基点情報

他の情報源へリンク

Page 24: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

LODAC Museumのデータ

24

情報源 情報種別 データ数

国立美術館(西美を除く3館) 作品 25180

国立西洋美術館 作品 4373

京都国立博物館 作品 5819

奈良国立博物館 作品 431

福島県立美術館 作品 20

栃木県立美術館 作品 32

秋田県立近代美術館 作品 22

岩手県立美術館 作品 1558

徳島県立近代美術館 作品 18482

山梨県立美術館 作品 262

東京都現代美術館 作品 5416

香川県立東山魁夷せとうち美術館 作品 266

日本美術シソーラスDB 作品 3800

日本美術シソーラスDB 人物 1332

日本美術シソーラスDB グループ 289

日本美術シソーラスDB 所蔵館情報 648

文化遺産オンライン 所蔵館情報 915

国指定文化財データベース 作品 10115

合計 103096

総データ数 特定項目キーの単純文字列統合実験結果

統合項目 情報源 データ数 統合数

所蔵館名 日本美術シソーラス 648 77

文化遺産オンライン 915

国宝・重文資料タイトル

日本美術シソーラス(作品) 3800 74

国指定文化財DB(作品) 10115

作者名による資料タイトル

日本美術シソーラス(人物) 1332 15020

各館(作品) 61861

作者名 日本美術シソーラス(人物) 1332 615

各館(作品) 61861

「国宝・重文」日本美術シソーラスに略称のタイトル表記が多く,単純文字列マッチでは少ない値となった

「機械処理による可能性」複合的な項目に対して複数アルゴリズムによる抽出

Page 25: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

LODAC Museumサイト構成

25

Page 26: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

LODAC Museumサイト構成

26

統合情報(作品)一覧

Page 27: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

LODAC Museumサイト構成

27

WikiPediaの解説分を引用!

Page 28: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

LODAC Museumサイト構成

28

日本美術シソーラスの情報,専門性が高い

Page 29: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学 29

まとめ

特定項目をキーに統合 → 分散する情報が集積

複数情報の統合によって元データにない情報(発見)の獲得

多様な情報のLinked Data化はさらなる発見・知の獲得可能性

予想できないデータの使い方やアプリケーションが期待できる

情報源に変更があった際の参照用データの同期方法

人名辞典や専門辞書の情報をどこから収集するか

CSVインポートなど容易なLOD参加のための基盤準備

LODAC Museumのデータ拡充(西洋美術など)

考察

おもな課題

Page 30: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学 30

LOD応用例(地域情報+ミュージアム)

地域情報LOD

観光情報LOD + ミュージアムLOD

地図情報LOD

関連資料を巡る日本縦断ツアー

地域とイベント情報による展覧会+αの情報

資料に登場する歴史メニューが食べられる食情報+資料情報+地域情報

ゲームやドラマに使用された資料軌跡(新たなターゲット層の獲得)

Page 31: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

横浜では地域LOD、まもなく開始

31

Page 32: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

LOD応用例 : ミュージアムマスターオンライン

32

ユーザによるコメントとコレクション関係の発見

学芸員ではない一般ユーザによる資料コメント

資料にある情報だけを見るのではなく様々な情報とつなげてコレクションを作る → 元資料に興味を持つ可能性も

1.重要文化財弁財天像 2.了法寺(八王子)例えば・・・1. 仏像への個人的解釈2. お寺にある弁財天像3. 動画サイトの動画4. 周辺情報の発信

3.了法寺テーマソング 4.イベントミュージアムマスター(JMMA2009)

Page 33: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

情報をLODで公開しよう

33

まずは情報をオープンに、共有することから始めよう

文化遺産(Cultural Heritage)から文化資産・資源へ

(芸術・文化) × 情報 =多様多面な日本を世界に発信

Museum Library Archives(MLA)を超えた連携を

MLA3(Museum Library Archives, Arts and Academia)

えむえるえーきゅーぶ

多くの人が使えば、それだけ多くの使い方が生まれます

Page 34: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

JAPAN ARTS & Culture

美術

情報学

音楽映像

メディア

34

もっと芸術・文化に柔軟性と活力を!!

ポップカルチャー

Page 35: Linked Open Dataによる多様なミュージアム情報の統合

総合研究大学院大学

We Are LODAC Project

35

LODのことならLODACへご相談下さい!

http://lod.ac/

ご静聴ありがとうございました※LODAC Museumは試験公開版になります