Linked Open Dataによる多様なミュージアム情報の統合
description
Transcript of Linked Open Dataによる多様なミュージアム情報の統合
Linked Open Dataによる多様なミュージアム情報の統合
発表者:嘉村 哲郎[email protected]
総合研究大学院大学 複合科学研究科
嘉村 哲郎(総合研究大学院大学 複合科学研究科, 東京藝術大学)
加藤 文彦(国立情報学研究所)
大向 一輝(国立情報学研究所,総合研究大学院大学)
武田 英明(国立情報学研究所,総合研究大学院大学)
高橋 徹(ATRメディア情報科学研究所,株式会社ATR-Promotions)
上田 洋(株式会社ATR-Promotions)
総合研究大学院大学
考察
LODAC Museum
技術背景関連研究
背景
発表内容
2
LODACについて
オープン化の時代
新しい情報流通の形
Linked Data(LOD)
循環型情報活用
RDF表現
データの標準化
情報源と情報統合
公開・共有
利用データについて
まとめ
応用例
LODへの誘い
総合研究大学院大学
LODACプロジェクト(2010.4~)
3
「学術リソースのためのオープンソーシャルセマンティックWeb基盤の構築」
情報・システム研究機構 新領域融合センタープロジェクト
LODAC = Linked Open Data for Academia(http://lod.ac/)
概要 国内の学術情報をLinked Open Data(LOD)で公開・共有を促進
学術、社会一般等、広範囲なデータ利用の仕組みを構築
はじめのターゲット
複雑な構造を持つ
未整理な情報が分散している
学術・一般に貢献できる
ミュージアム領域
総合研究大学院大学
オープン化の情報時代へ
4
人文系分野で構築されてきたデータ
資料データベース化、デジタルアーカイブ
データ精度も高く情報資産としての価値が高い
どこにあるのか?
研究機関や個人研究者が保有
外部には公開していない情報が大量に存在
データ整理されていない情報もある
ミュージアム領域ではその数程しれず
今まで知らなかった情報が使えるようになったら?
総合研究大学院大学
新しい情報流通の形
5
Web of Document = 従来のWeb上のデータ
Webで公開した情報は情報として利用可能
PDF、HTML、CSV等で公開
データとして利用するには情報の加工が必要例:HTMLから余計なタグを排除してデータを抽出する
Web of Data = 新しいWebの情報流通
Webで公開した情報はデータとして利用可能
RDF、SPARQL Endpoint等
リンクを参照してデータとして使える公開情報
例:アーティストプロフィール、書誌情報、イベント情報
総合研究大学院大学
Linked Open Data(LOD)
6
公開情報を蓄積し、誰でも使えるようにする
Linked Dataの原則
あらゆる事柄にURIをつける
HTTP経由でURIを参照
URIを参照したときは情報を閲覧できる
他の関連情報へのリンクを含める
総合研究大学院大学
情報のオープン化へ
7
これからのWeb
収集(情報を収集)
利用(蓄積した情報は自分や社会のために)
公開(多様なサービスを利用して情報発信)
共有(様々な用途・広範な社会に利用してもらう)
総合研究大学院大学
専門的視点の研究
一般・趣味人による創作
公開・発信
収集・蓄積
研究成果・作品情報
データ・情報共有
利用・創造
循環型情報活用
8
循環型情報活用(文化・芸術)
• 新たな作品展開• 新たな分野,知の創出• 次世代へ継承
製作過程の記録ノートA.制作に至った背景、動機B.発見、手法C.実験データ
Linked Open Dataで公開実験データ一部は保持
類似・関連情報等の横断的検索サービス
過去の手法に手を加え、新しい手法で創造A.製作過程B.類似作品との相違C.実験データ
総合研究大学院大学
標準化データ形式
9
RDF
1つの情報を主語,述語,目的語の3つ組(通称トリプル)で表す
トリプルが複数集まることで1データとして構成される
http://lod.ac/id/4773
F主語
http://lod.ac/id/1767
dc:creator
述語
目的語
生々流転図
dc:title
2つのトリプルからなる1データ
http://lod.ac/id/1767
横山大観
skos:prefLabel
rdf:typefoaf:person
http://lod.ac/id/4471
lodac:creates
http://lod.ac/id/4580
lodac:creates
4つのトリプルからなる1データ
総合研究大学院大学
標準化データ形式
10
RDF
1つの情報を主語,述語,目的語の3つ組(通称トリプル)で表す
トリプルが複数集まることで1データとして構成される
http://lod.ac/id/4773
F主語
http://lod.ac/id/1767
dc:creator
述語
目的語
生々流転図
dc:title
6つのトリプルからなる1データ
http://lod.ac/id/1767
横山大観
skos:prefLabel
rdf:type foaf:person
http://lod.ac/id/4471
lodac:creates
http://lod.ac/id/4580
lodac:creates
F主語
述語
目的語
F主語
目的語
目的語
総合研究大学院大学
RDF形式による表現
11
<?xml version="1.0" encoding="utf-8"?>
</rdf:Description>
<rdf:Description rdf:about="http://lod.ac/ref/20811">
<ns0:P62I_is_depicted_by xmlns:ns0="http://purl.org/NET/cidoc-crm/core#">巻末に年記、落款、印章</ns0:P62I_is_depicted_by>
</rdf:Description>
<rdf:Description rdf:about="http://lod.ac/ref/20811">
<ns0:creator xmlns:ns0="http://purl.org/dc/elements/1.1/">横山大観</ns0:creator>
</rdf:Description>
<rdf:Description rdf:about="http://lod.ac/ref/20811">
<ns0:source xmlns:ns0="http://purl.org/dc/terms/" rdf:resource="http://search.artmuseums.go.jp"/>
</rdf:Description>
</rdf:RDF>
F主語述語
目的語
1
2
3
4
1. 「http://lod.ac/ref/20811」「P62I_is_depicted_by」は「巻末に年記、落款、印章」がある2. 「http://lod.ac/ref/20811」の「creator」は「横山大観」である3. 「http://lod.ac/ref/20811」の「source」は「http://search.artmuseums.go.jp」である4. 「http://lod.ac/ref/20811」のデータは1-3で構成されている。
述語「P62I_is_depected_by」の表す意味はhttp://purl.org/NET/cidoc-crm/coreにある
総合研究大学院大学
RDFによる情報共有の利点
12
URIがリソースIDとして機能する
URIを見ることで情報の定義が書いてある
共通のURIを利用(共有)することで出所が保証された内容の情報を利用することが出来る
XMLの問題なぜXMLはだめなのか?
<person>
<name>横山大観</name>
</person>
<作家>
<作家名>横山大観</作家名>
</作家>
・personとnameはなにを意味するのか。人物? 本名? 作家名?
・nameと作家名は同じ意味なのだろうか? (同一性問題)
・作家名にpersonと記述して良いのだろうか(拘束条件)
総合研究大学院大学
LOD活動事例
13
DBpedia(英語版)
WikiPediaの情報をLODで利用可
※日本語版DBpediaはLODACプロジェクトで準備中
国立国会図書館(NDLSH) RDF/SKOS語彙を使用した
件名目録表のLinked Data
総合研究大学院大学
<foaf:page rdf:resource="/music/artists/70ea63ea-70dc-4b63-951a-2c249d2b3b0a.html"/>
<owl:sameAs rdf:resource="http://dbpedia.org/resource/Ricky_Martin"/>
<mo:musicbrainz rdf:resource="http://musicbrainz.org/artist/70ea63ea-70dc-463-951a-2c2.html"/>
<mo:image rdf:resource="http://static.bbc.co.uk/music/images/artists/234x132/70ea63ea.jpg"/>
<foaf:homepage rdf:resource="http://www.rickymartin.com"/>
<mo:fanpage rdf:resource="http://www.rickymartin.com.br/"/>
<mo:wikipedia rdf:resource="http://en.wikipedia.org/wiki/Ricky_Martin"/>
</mo:MusicArtist>
</rdf:RDF>
LOD利用事例(英国放送協会)
14
LODを利用したコンテンツ例
Dbpedia(WikiPedia)から概要
MusicBrainzから関連情報
総合研究大学院大学
Linked Data Cloud
15
総合研究大学院大学
LODAC Museum
17
1.データの標準化
異なる情報源からのデータを収集して標準形式に変換
2.情報関連付け・統合化
標準形式に基づいた複数の情報源のデータを統合
3.公開・共有
統合したデータの一覧、網羅性のある一般的な検索
LODとして利用できる基盤構築
Web of Document をWeb of Dataへ
同じ内容を含む情報を統合化
LODとして公開
総合研究大学院大学
ミュージアム資料 実在するミュージアム14館から収集
関連資料
別の視点から整理された資料情報
国指定文化財データベース
文化遺産オンライン
その他の情報 日本語版Dbpedia
(国土交通省国土計画局GIS)
統合化の基点になる情報 日本美術シソーラス(筑波大学日本美術シソーラスデータベース作成委員会編)
美術に関する作品、人物、流派、所蔵館情報が含まれたデータセット
標準化と情報源
18
情報源A.ミュージアム資料
(1) 東京国立近代美術館
(2) 国立西洋美術館
(3) 京都国立近代美術館
(4) 国立国際美術館
(5) 京都国立博物館
(6) 奈良国立博物館
(7) 福島県立美術館
(8) 栃木県立美術館
(9) 秋田県立近代美術館
(10) 岩手県立美術館
(11) 徳島県立近代美術館
(12) 山梨県立美術館
(13) 東京都現代美術館
(14) 香川県立東山魁夷せとうち美術館
B.関係資料
(15) 文化遺産オンライン
(16) 国指定文化財データベース
C.その他関連情報
(17) 国土交通省国土計画局GIS
(18) 日本語版Dbpedia
D.基点となる情報
(19) 日本美術シソーラス
総合研究大学院大学
メタデータ(語彙)利用方針
19
できるだけ既存の語彙を使用
階層構造や利用範囲がある語彙は字面のみを利用
どうしても存在しない語彙は独自の語彙として定義
PREFIX URI
crm http://purl.org/NET/cidoc-crm/core#
dc http://purl.org/dc/terms/
dc11 http://purl.org/dc/elements/1.1/
foaf http://xmlns.com/foaf/0.1/
skos http://www.w3.org/2004/02/skos/core#
rdfs http://www.w3.org/2000/01/rdf-
schema#
ical http://www.w3.org/2002/12/cal/ical#
rda2 http://RDVocab.info/ElementsGr2
lodac http://lod.ac/ns/lodac#
メタデータ数・作品 46個・人物 23個・施設 13個・書誌 12個
lodac:Work Property(一部項目省略)資料分類 lodac:genre
文化財 lodac:culturalAssets
制作者 dc:creator / dc11:creator
国籍 crm:P7_took_place_at
作品名 dc:title / skos:prefLabel
作品名読み dc:title @ja-hrkt / skos:altLabel
作品名英語 dc:title @en / skos:altLabel
銘文 crm:P62I_is_depicted_by
印章 crm:P65_shows_visual_item
員数 crm:P57_has_number_of_parts
コレクション dc:isPartOf
制作年 dc:created
推定始年 lodac:estimatedStartYear
材質 dc:medium / crm:P45_consists_of
総合研究大学院大学
情報源Bの参照用データ
統合データと参照データ
20
参照用データ(http://lod.ac/ref/)
収集したデータをそのまま参照し、メタデータ以外の内容は加工しない
データ内容の権限は情報源が持つ
統合データ(http://lod.ac/id)
LODACが関連ある参照用データを統合したデータ
統合内容、編集内容権限はLODACが持つ
各データには管理するために識別子が付けられる統合データ
dc:references dc:references
dc:references dc:references
dc:references dc:references
dc:creator
dc:creator
crm:P55_has_current_location crm:P55_has_current_location
crm:P55_has_current_location dc:creator
情報源Aの参照用データ
作品
収蔵館
作者
総合研究大学院大学 21
所蔵館情報の統合化
文字列完全一致による所蔵館情報の統合
A.日本美術シソーラスDBの所蔵館情報648件
B.文化遺産オンラインの所蔵館情報915件
結果77件の所蔵館が一致し、それぞれの情報を統合した
A、Bともに異なる情報をリンクとしてLODACが管理するデータに統合
Aの情報 Bの情報統合化情報(LODAC管理)
総合研究大学院大学
ID700
22
その他構築時における課題
日本語読みと複数人名表記
「ID100の内容がID700と同じ場合」
REF100
ID100
REF700
ID700
ID400
1. ID100に記述されるREF700を一旦削除する
2. ID700をリンク先とする他のID(ID400)のリンク先をID100に変更する
3. ID700を削除し、ID700のアクセスはID100
へいくようリダイレクトさせる
4. ID100にはID700としてアクセスできるようREF700のリンクを再リンクする
同一内容の統合情報複数存在時の対応
foaf:nick [
a lodac:Name;
lodac:label “嘉村"@ja;
lodac:label “かむら"@ja-hrkt;
lodac:label ”KAMURA"@en;
].
Person References Property
作者名(一般名) foaf:name / skos:prefLabel
作者名読み foaf:name @ja-hrkt / skos:altLabel
名号 foaf:nick
名号読み foaf:nick @ja-hrkt
作者英名 foaf:name @en /skos:altLabel
総合研究大学院大学 23
作者名をキーとする作品情報の統合
基点(日本美術シソーラス)とする作者情報(下村観山の場合)
→ 2件の作品情報がある
Linked Data化とLODACによる作品情報統合→ 12件の追加作品情報(6件の異なる情報源)
→ dbpedia日本語版へのリンク
LODAC管理データ(一部省略)
作品リンク
DBpedia
作者の基点情報
他の情報源へリンク
総合研究大学院大学
LODAC Museumのデータ
24
情報源 情報種別 データ数
国立美術館(西美を除く3館) 作品 25180
国立西洋美術館 作品 4373
京都国立博物館 作品 5819
奈良国立博物館 作品 431
福島県立美術館 作品 20
栃木県立美術館 作品 32
秋田県立近代美術館 作品 22
岩手県立美術館 作品 1558
徳島県立近代美術館 作品 18482
山梨県立美術館 作品 262
東京都現代美術館 作品 5416
香川県立東山魁夷せとうち美術館 作品 266
日本美術シソーラスDB 作品 3800
日本美術シソーラスDB 人物 1332
日本美術シソーラスDB グループ 289
日本美術シソーラスDB 所蔵館情報 648
文化遺産オンライン 所蔵館情報 915
国指定文化財データベース 作品 10115
合計 103096
総データ数 特定項目キーの単純文字列統合実験結果
統合項目 情報源 データ数 統合数
所蔵館名 日本美術シソーラス 648 77
文化遺産オンライン 915
国宝・重文資料タイトル
日本美術シソーラス(作品) 3800 74
国指定文化財DB(作品) 10115
作者名による資料タイトル
日本美術シソーラス(人物) 1332 15020
各館(作品) 61861
作者名 日本美術シソーラス(人物) 1332 615
各館(作品) 61861
「国宝・重文」日本美術シソーラスに略称のタイトル表記が多く,単純文字列マッチでは少ない値となった
「機械処理による可能性」複合的な項目に対して複数アルゴリズムによる抽出
総合研究大学院大学
LODAC Museumサイト構成
25
総合研究大学院大学
LODAC Museumサイト構成
26
統合情報(作品)一覧
総合研究大学院大学
LODAC Museumサイト構成
27
WikiPediaの解説分を引用!
総合研究大学院大学
LODAC Museumサイト構成
28
日本美術シソーラスの情報,専門性が高い
総合研究大学院大学 29
まとめ
特定項目をキーに統合 → 分散する情報が集積
複数情報の統合によって元データにない情報(発見)の獲得
多様な情報のLinked Data化はさらなる発見・知の獲得可能性
予想できないデータの使い方やアプリケーションが期待できる
情報源に変更があった際の参照用データの同期方法
人名辞典や専門辞書の情報をどこから収集するか
CSVインポートなど容易なLOD参加のための基盤準備
LODAC Museumのデータ拡充(西洋美術など)
考察
おもな課題
総合研究大学院大学 30
LOD応用例(地域情報+ミュージアム)
地域情報LOD
観光情報LOD + ミュージアムLOD
地図情報LOD
関連資料を巡る日本縦断ツアー
地域とイベント情報による展覧会+αの情報
資料に登場する歴史メニューが食べられる食情報+資料情報+地域情報
ゲームやドラマに使用された資料軌跡(新たなターゲット層の獲得)
総合研究大学院大学
横浜では地域LOD、まもなく開始
31
総合研究大学院大学
LOD応用例 : ミュージアムマスターオンライン
32
ユーザによるコメントとコレクション関係の発見
学芸員ではない一般ユーザによる資料コメント
資料にある情報だけを見るのではなく様々な情報とつなげてコレクションを作る → 元資料に興味を持つ可能性も
1.重要文化財弁財天像 2.了法寺(八王子)例えば・・・1. 仏像への個人的解釈2. お寺にある弁財天像3. 動画サイトの動画4. 周辺情報の発信
3.了法寺テーマソング 4.イベントミュージアムマスター(JMMA2009)
総合研究大学院大学
情報をLODで公開しよう
33
まずは情報をオープンに、共有することから始めよう
文化遺産(Cultural Heritage)から文化資産・資源へ
(芸術・文化) × 情報 =多様多面な日本を世界に発信
Museum Library Archives(MLA)を超えた連携を
MLA3(Museum Library Archives, Arts and Academia)
えむえるえーきゅーぶ
多くの人が使えば、それだけ多くの使い方が生まれます
総合研究大学院大学
JAPAN ARTS & Culture
美術
情報学
音楽映像
メディア
34
もっと芸術・文化に柔軟性と活力を!!
ポップカルチャー
総合研究大学院大学
We Are LODAC Project
35
LODのことならLODACへご相談下さい!
http://lod.ac/
ご静聴ありがとうございました※LODAC Museumは試験公開版になります