Linked Dataアプローチによる芸術情報統合の試み

47
Hideaki Takeda / National Institute of Informatics Linked Data アアアアアアアアアアアアアアアアア 武武武武 [email protected] 武武武武武武武武 武武武武武武 武武武武武武武武武武武武武武武 「」 武武武武武武2010 武 12 武 19 武 LODAC project team 武武 武武 武武武武武 武武武武武 武武武武 武武武 一、、、、

description

シンポジウム「アーカイブから紡ぎ出される知」、東京藝術大学、2010年12月19日

Transcript of Linked Dataアプローチによる芸術情報統合の試み

Page 1: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

Linked Data アプローチによる芸術情報統合の試み

武田英明[email protected]

国立情報学研究所

シンポジウム「アーカイブから紡ぎ出される知」、東京藝術大学、 2010 年 12 月 19 日

LODAC project team大向一輝、加藤文彦、嘉村哲郎、高橋徹、上田洋

Page 2: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

あらまし 情報循環 セマンティック Web, Linked Data, 芸術情報 LODAC Museum

Page 3: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

情報循環

&

共有

収集

利用

公開

創造

情報は過去の情報を利用して作られる 無から生じない 収集 -> 利用・創造

情報の価値は利用されてこそ生じる 使われない情報には意味がない 利用・創造 -> 公開

情報の共有は社会の基盤 情報流通は社会の健全性の源 公開 -> 共有 -> 収集

Page 4: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

情報循環

&

共有

収集

利用

公開

創造

グーテンベルグ以前 手段

手書き口伝

情報循環のスケール遅く少量わずかな人々

印刷革命、通信革命以後

Page 5: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

マスメディア時代の情報循環2 つの層の断絶

共有

収集

利用

公開

創造

作家、学者、芸術家新聞記者、 TV 局政府…

創造一般市民

Page 6: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

WebWeb 時代の情報循環

共有

収集

利用

公開

HTML  エディタ

Web サーバ

インターネット

検索エンジン

創造Web ブラウザ

情報循環のスケール 高速 大量 大人数(分け隔てなく)

Page 7: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

セマンティック Web人による循環から人と機械による循環へ

&

共有

収集

利用

公開

創造

Semantic Web

Page 8: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

セマンティック Web

これまでの Web ( HTML) 人による理解のための情報として記述 コンピュータによる処理は苦手

セマンティック Web 人とコンピュータ双方が利用できる情報として記述 方法

メタデータによる記述オントロジーによるメタデータの構造化

Page 9: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

アップル?

Page 10: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

メタデータ データに関するデータ

例:書誌情報、車検証

Web におけるメタデータ Web ページに記述された様々な“もの”に対する識別し、構

造的説明を与える コンピュータで利用可能 様々なメタデータの混交

題名: Web がわかる本著者:大向一輝出版年: 2007 年出版社:岩波書店

Page 11: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

オントロジー 概念の定義と概念感の関係

概念のシステム 多くは階層的構造

Web におけるオントロジー Web 上に出現する概念を関

連づける コンピュータで利用可能 広く、多様なオントロジー

書籍 雑誌 新聞

出版物

印刷物

Page 12: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

セマンティック Web の階梯 Web を“知的”にしていく階梯

URI :情報の一意性の確保 RDF :メタデータの記述言語 RDFS/OWL: オントロジーの記述言語 推論 ・・・

Tim Berners-Lee   http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/

クラスに関する記述

インスタンスに関する記述

オントロジー

Linked Data

Page 13: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

Linked Data Linked Data とは “ Web of Data”

RDF で公開されるデータ 外部から参照可能

Linked Data のための 4条件 事柄の名前に URI を使うこと

すべてのモノ,コトに URIを! 名前の参照が HTTP URI でできること

DOIとかいった URNは使わないでね URI を参照したときに関連情報が手に入るように

理解可能なデータを提供してね. 外部へのリンクも含めよう

Webのようにリンクでつながるデータを作ろう

Linked Data, TBL, http://www.w3.org/DesignIssues/LinkedData.html

Page 14: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

LOD Cloud(Linking Open Data)

Page 15: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

セマンティック Web人による循環から人と機械による循環へ

&

共有

収集

利用

公開

創造

Linked Data

Page 16: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

Linked Data における公的機関のデータの重要性 もともと共有すべき情報 我々の社会の知識基盤

様々な公的機関 図書館 美術館・博物館 文書館 政府

&

共有

収集

利用

公開

創造

Linked Data

Page 17: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

Linked Data の日本での課題 共有文化の欠如 Linked Data コミュニティの未発達中心的データの欠如 日本語の取り扱い

Page 18: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

共有文化の欠如 公共性に関する意識の薄さ

公開と共有の文化 公共性の違い

官 vs. 民由らしむべし知らしむべからず

“ 共有地”

共有の文化の普及の必要性

Page 19: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

Linked Data コミュニティの未発達 文理共同の必要性

技術系のコミュニティ 文化系のコミュニティ 両者を交えたコミュニティ

TAKE ACTOIN! / 行動しよう LODAC project

Page 20: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

中心的データの欠如 Dbpedia は Linked Data の中心

とにかく Dbpedia につなげば LOD に入れる

日本語版 dbpedia を準備中!

Page 21: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

日本語の問題 日本語を使うときの問題 コード

IRI を使えば文字コードとしては原理的は OKだが、特殊文字や各種ツールの対応が問題になることがある IRI (Internationalized Resource Identifier)

Page 22: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

日本語の問題 メタデータは日本語 ? 英語 ?

日本語なら利点

( 日本人には ) 理解しやすい翻訳しないので簡単にデータが作れる

欠点 日英混交 日本人のみ理解

英語なら利点

国際的に流通 コードがクリーンで扱いやすい

欠点翻訳が必要、翻訳時の揺らぎ

目的でわけよう

Page 23: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

LODAC Project

学術リソースのためのオープン・ソーシャル・セマンティック Web 基盤の構築 Linked Data の基盤をつくる 実際にデータを集め利用可能にする

現在興味をもっている分野 美術館・博物館情報 地理・地名情報 ローカル情報 …

Page 24: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

LODAC-Museum (仮 )

日本の美術館・博物館情報の現状 分散

各館で維持孤立

透明性がない各館それぞれで設計ばらばら

美術館・博物館情報を集めて関係づける LODAC-Museum (仮 )

Page 25: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

Page 26: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

20102008

13 million objects28 data aggregators1500 participating institutions200 partners35 FTE’s21 projects1 million visits in 201030,000 My Europeana signeeStable portalOpen Source Code EuropeanaLabsPublic Domain Charter

prototype operational service

Jill Cousins, Europeana Overview, Europeana Open Culture 2010 http://version1.europeana.eu/web/europeana-plenary-2010/presentations

Page 27: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

http://lod.ac/ (2010 年 12 月 11 日オープン )

Page 28: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

LODAC Museum – 主たる作業 データの収集

シソーラス、博物館・美術館情報など データの標準化

異なる情報源からのデータを統一的なフォーマットで表現 データの集約

データの同定 同一データの統合

公開

Page 29: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

情報源 横断的データ

日本美術シソーラス DB絵画編 国指定文化財データベース 文化遺産オンライン

美術館・博物館 ( 現在 14館 ) 国立美術館所蔵作品総合目録検

索システム ( 国立国際美術館,京都国立近代美術館,東京国立近代美術館 )

国立西洋美術館 京都国立博物館 奈良国立博物館 福島県立美術館

それ以外のデータ DBPedia Japan

栃木県立美術館 秋田県立近代美術館 岩手県立美術館 徳島県立近代美術館 山梨県立美術館 東京都現代美術館 香川県立東山魁夷せとうち美術館

Page 30: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

メタデータ設計 基本構造

作品 – 作者 – 収蔵館 専門的正確さより総合運用可能性、簡便性を優先

DC> DCTerm> FOAF> iCal >SKOS>NDLSH> RDA> CIDOC CRM

Keep it flat as long as possiblePREFIX URI crm http://purl.org/NET/cidoc-crm/core#

dc http://purl.org/dc/terms/

dc11 http://purl.org/dc/elements/1.1/

foaf http://xmlns.com/foaf/0.1/

skos http://www.w3.org/2004/02/skos/core#

rdfs http://www.w3.org/2000/01/rdf-schema#

ical http://www.w3.org/2002/12/cal/ical#

rda2 http://RDVocab.info/ElementsGr2

lodac http://lod.ac/ns/lodac#

lodac:Work Property( 一部項目省略 )資料分類 lodac:genre文化財 lodac:culturalAssets制作者 dc:creator / dc11:creator国籍 crm:P7_took_place_at作品名 dc:title / skos:prefLabel作品名読み dc:title @ja-hrkt / skos:altLabel作品名英語 dc:title @en / skos:altLabel銘文 crm:P62I_is_depicted_by印章 crm:P65_shows_visual_item員数 crm:P57_has_number_of_partsコレクション dc:isPartOf制作年 dc:created推定始年 lodac:estimatedStartYear材質 dc:medium / crm:P45_consists_of

メタデータ要素作品 :   46作者 :   23組織:  13書誌:  12

Page 31: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

統合のポリシー どうやって異なる情報源の情報を統合するか

責任の分担各情報源はその情報に対する責任

LODAC は単に ID を同定して管理。LODAC は統合の部分だけの責任

LODAC ID を各情報源 ID に関連づけるData from Source B

31

Integrated data

dc:references dc:references

dc:references dc:references

dc:references dc:references

dc:creatordc:creator

crm:P55_has_current_location crm:P55_has_current_location

crm:P55_has_current_location dc:creator

Data from Source A

Work

Museum

Creator

Page 32: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

例:作者情報の統合 作者情報統合の手順

統合元:日本美術シソーラス絵画編 統合対象:各情報源データ中の作者情報 統合元:文字列マッチング 作品情報中の作者と作者ノードを関連づける

LODAC data

Link to Work

DBpedia

Basic Information for Creators

Links

Page 33: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

Page 34: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

統合情報( 作品 )

一覧

Page 35: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

日本美術シソーラスの情報,専門性が高い

Page 36: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

WikiPedia の解説分を引用!

Page 37: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

Page 38: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

徳島県立美術館

Page 39: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

東京近代美術館 

Page 40: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

国指定文化財データベース 

Page 41: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

徳島県立美術館 日本美術シソーラス 国指定文化財データベース 

国立東京近代美術館 福井県立美術館

Page 42: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

42

LODAC Museum のデータ

情報源 情報種別 データ数

国立美術館 (西美を除く 3館 ) 作品 25180

国立西洋美術館 作品 4373

京都国立博物館 作品 5819

奈良国立博物館 作品 431

福島県立美術館 作品 20

栃木県立美術館 作品 32

秋田県立近代美術館 作品 22

岩手県立美術館 作品 1558

徳島県立近代美術館 作品 18482

山梨県立美術館 作品 262

東京都現代美術館 作品 5416

香川県立東山魁夷せとうち美術館 作品 266

日本美術シソーラス DB 作品 3800

日本美術シソーラス DB 人物 1332

日本美術シソーラス DB グループ 289

日本美術シソーラス DB 所蔵館情報 648

文化遺産オンライン 所蔵館情報 915

国指定文化財データベース 作品 10115

合計 103096

総データ数 特定項目キーの単純文字列統合実験結果

統合項目 情報源 データ数 統合数

所蔵館名 日本美術シソーラス 648 77

文化遺産オンライン 915

国宝・重文資料タイトル

日本美術シソーラス ( 作品 )

3800 74

国指定文化財 DB( 作品 ) 10115

作者名による資料タイトル

日本美術シソーラス ( 人物 )

1332 15020

各館 ( 作品 ) 61861

作者名 日本美術シソーラス ( 人物 )

1332 615

各館 ( 作品 ) 61861

「国宝・重文」日本美術シソーラスに略称のタイトル表記が多く,

単純文字列マッチでは少ない値となった

「機械処理による可能性」複合的な項目に対して複数アルゴリズムによる抽出

Page 43: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

Linked Data は芸術情報に何をもたらすのか ?

    つながり (Connectivity)

オープンなつながりは芸術情報に新しい可能性と価値を与えてくれる個別の美術館・博物館を超えたつながり他の領域とのつながりユーザ参加型情報とのつながり

Page 44: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

44

LOD応用例 (地域情報 +ミュージアム )

 地域情報 LOD  観光情報 LOD   +  ミュージアムLOD 地図情報 LOD

関連資料を巡る日本縦断ツアー

地域とイベント情報による展覧会 +α の情報

資料に登場する歴史メニューが食べられる食情報 +資料情報 +地域情報

ゲームやドラマに使用された資料軌跡( 新たなターゲット層の獲得 )

Page 45: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

45

LOD応用例 : ミュージアムマスターオンライン

ユーザによるコメントとコレクション関係の発見 学芸員ではない一般ユーザによる資料コメント 資料にある情報だけを見るのではなく様々な情報とつなげて

コレクションを作る → 元資料に興味を持つ可能性も

1.重要文化財弁財天像2.了法寺 (八王子 )

 

例えば・・・1.仏像への個人的解釈2. お寺にある弁財天像3.動画サイトの動画4.周辺情報の発信

3.了法寺テーマソング4. イベントミュージアムマスター (JMMA2009)

Page 46: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

46

情報を LOD で公開しよう まずは情報をオープンに、共有することから始めよう 文化遺産 (Cultural Heritage) から文化資産・資源へ ( 芸術・文化 ) × 情報 = 多様多面な日本を世界に発信 Museum Library Archives(MLA) を超えた連携を

MLA3(Museum Library Archives, Arts and Academia)えむえるえーきゅーぶ

多くの人が使えば、それだけ多くの使い方

Page 47: Linked Dataアプローチによる芸術情報統合の試み

Hideaki Takeda / National Institute of Informatics

ARTS & Culture

美術

情報学

音楽映像

メディア

もっと芸術・文化に柔軟性と活力を !!

ポップカルチャー