Using the Web as a Data Source: Challenges for Linked Science
Challenges for Linked Data in Japan
-
Upload
hideaki-takeda -
Category
Documents
-
view
418 -
download
1
description
Transcript of Challenges for Linked Data in Japan
Hideaki Takeda / National Institute of Informatics
Challenges for Linked Data in Japan Linked Data における日本の課題
武田英明 Hideaki Takeda
国立情報学研究所National Institute of Informatics
国際シンポジウム メタデータ情報基盤の将来を考える2010 年 12 月 8 日
Hideaki Takeda / National Institute of Informatics
Outline
Information Cycle / 情報サイクルと Linked Data
Challenges for Linked Data in Japan /Linked Data における日本の課題
LODAC Museum
Hideaki Takeda / National Institute of Informatics
Information Cycle
Share
Collect
Use
Publish
Create&
Information can be created only based on existing information No information can be created out of nothing Collect – Use & Create
Value of information is how much it is used No value for information without use Use & Create – Publish
Accumulation of information is the wealth of society Distribution of information is the health of society Publish – Share -- Collect
Hideaki Takeda / National Institute of Informatics
Information Cycle
Share
Collect
Use
Publish
Create&
Before Gutenberg Media
Hand-writing booksOral communication
Information Cycle isSlowSmall amountFew People
After Gutenberg, the age of Mass media arrived …
Hideaki Takeda / National Institute of Informatics
Two social layers on information cycle with Mass Media
Share
Collect
Use
Publish
Create
Writer, Artist, ScholarMass media
Government
&
Hideaki Takeda / National Institute of Informatics
Two social layers on information cycle with Mass media
Share
Collect
Use
Publish
Create
Writer, Artist, ScholarMass media
Government
&
OrdinaryPeople
Collect
Use
Create&
Hideaki Takeda / National Institute of Informatics
Two social layers on information cycle with Mass Media
Share
Collect
Use
Publish
Create
Writer, Artist, ScholarMass media
Government
OrdinaryPeople &
Hideaki Takeda / National Institute of Informatics
WebShare
Collect
Use
Publish
Internet
Web Server
Web BrowserCreate
& HTML Editor
Search Engine
Information Cycle with Web
Open Door to Information Cycle for Ordinary People
Hideaki Takeda / National Institute of Informatics
WebInformation Cycle
Share
Collect
Use
Publish
Create&
Web accelerate Information Cycle in Speed Quantity People
Hideaki Takeda / National Institute of Informatics
WebShare
Collect
Use
Publish
Create&
Internet
Web Server
Web Browser HTML Editor
Search Engine
Information Cycle with Web
Hideaki Takeda / National Institute of Informatics
Metadata is the platform of Information Cycle
&
Metadata
Share
Collect
Use
Publish
&Create
Hideaki Takeda / National Institute of Informatics
Linked Data will be the platform of Information Cycle on the content layer
&
Metadata
Share
Collect
Use
Publish
&Create
Linked Data
Hideaki Takeda / National Institute of Informatics
LOD Cloud(Linking Open Data)
Hideaki Takeda / National Institute of Informatics
Linked Data Linked Data とは “ Web of Data”
RDF で公開されるデータ 外部から参照可能
Linked Data のための 4 条件 事柄の名前に URI を使うこと
すべてのモノ,コトに URIを! 名前の参照が HTTP URI でできること
DOIとかいった URNは使わないでね URI を参照したときに関連情報が手に入るように
理解可能なデータを提供してね. 外部へのリンクも含めよう
Webのようにリンクでつながるデータを作ろう
Linked Data, TBL, http://www.w3.org/DesignIssues/LinkedData.html
Hideaki Takeda / National Institute of Informatics
Importance of data in public sector as Linked DataLinked Data における公共的組織のデータの重要性
In principle, it should be shared / 本来共有すべき情報 It is the basic knowledge of our society / 我々の社会の知識基盤 Data in public sector
Library / 図書館 Museum / 美術館・博物館 Archive / 文書館 Government / 政府
Hideaki Takeda / National Institute of Informatics
Challenges for Linked Data in JapanLinked Data の日本での課題
Lack of Culture of Sharing/ 共有文化の欠如
Immature Community for Linked Data/ Linked Data コミュニティの未発達
Lack of Central Data Set/ 中心的データの欠如
Difficulty of Multi-lingual Data/ 日本語の取り扱い
Hideaki Takeda / National Institute of Informatics
Lack of Culture of Sharing共有文化の欠如
Lack of consensus for public / 公共性に関する意識の薄さ Culture of sharing and openness / 公開と共有の文化 Public often just means “governmental” (“ 官” )
Governmental vs. Private (“ 民” )Obscurantism
由らしむべし知らしむべからず
Advocate the culture of sharing / 共有の文化をもっと浸透させよう
This kind of symposium / 例えばこの種の会議
Hideaki Takeda / National Institute of Informatics
Immature Community for Linked DataLinked Data コミュニティの未発達
Linked Data can be realized only by collaboration with technology-people and culture-people/ 文理共同の必要性 Community in technology-people / 技術系の人 Community in culture-people / 文化の人 Cross-discipline Community bridging technology- and culture-
people / 両者を交えたコミュニティ TAKE ACTOIN! / 行動しよう
LODAC project
Hideaki Takeda / National Institute of Informatics
Lack of Central Data Set中心的データの欠如
Dbpedia is the core of Linked Data/ Dbpedia は Linked Data の中心 Easy to join LOD by linking Dbpedia
/ とにかく Dbpedia につなげば LOD に入れる We are preparing dbpedia in Japan!
/ 日本語版 dbpedia を準備中!
Hideaki Takeda / National Institute of Informatics
Difficulty of Multi-lingual Data日本語の問題
Use of non-English Languages英語外の言語を使うときの問題
Coding / コードIRI を使えば文字コードとしては原理的は OK だが、特殊文字や各種ツールの対応が問題になることがある IRI (Internationalized Resource Identifier)
But, some exceptionsSpecial charactersTools
Hideaki Takeda / National Institute of Informatics
Difficulty of Multi-lingual Data日本語の問題
Metadata by Japanese or by English / メタデータは日本語 ? 英語 ? Use Japanese 日本語なら
Pros / 利点 Easy to understand / ( 日本人には ) 理解しやすい No modification of the original data (easy to publish) / 翻
訳しないので簡単にデータが作れるCons / 欠点
Mix of English and Japanese is confusing / 日英混交 Difficulty to understand for non-Japanese / 日本人のみ理解
Use English / 英語Pros / 利点
Internationally interoperable / 国際的に流通 Clean code / コードがクリーンで扱いやすい
Cons/ 欠点 Translation is needed (may cause ambiguity) / 翻訳が必
要 Decide it from the viewpoint of users! / 目的でわけよう
Hideaki Takeda / National Institute of Informatics
LODAC Project
Open Social Semantic Web Platform for Academic Resources学術リソースのためのオープン・ソーシャル・セマンティック Web 基盤の構築 Providing platforms for Linked Data
/ Linked Data の基盤をつくる Practicing data accumulation and publishing
/ 実際にデータを集め利用可能にする Interested Areas / 現在興味をもっている分野
Museum information / 美術館・博物館情報 Geographical information, especially geographical names
/ 地理・地名情報 Local information / ローカルな情報 …
Hideaki Takeda / National Institute of Informatics
LODAC-Museum (tentative)LODAC-Museum ( 仮 )
The state-of-the-art of museum information in Japan / 日本の美術館・博物館情報の現状 Distributed / 分散
Self maintained / 各館で維持 Isolated / 孤立
Opaque / 透明性がないSelf designed / 各館それぞれで設計Messy / ばらばら
Aggregating and associating museum information/ 美術館・博物館情報を集めて関係づける LODAC-Museum (tentative) / LODAC-Museum ( 仮 )
Hideaki Takeda / National Institute of Informatics
http://lodac.nii.ac.jp/ ( 12/11 仮オープン予定 )
Hideaki Takeda / National Institute of Informatics
Hideaki Takeda / National Institute of Informatics
徳島県立美術館 日本美術シソーラス DB 国指定文化財 DB
国立美術館目録 福井県立美術館
Hideaki Takeda / National Institute of Informatics
Metadata design / メタデータ設計 Work – Creator – Museum/ 作品ー作者ー収蔵館
Interoperability is more considered than correctness in the domain/ 専門的な正確さより使いやすさを優先、 DC> DCTerm> FOAF> iCal >SKOS>NDLSH> RDA> CIDOC
CRM
The simple is the bestなるべく構造も簡単に Keep it flat as long as possible
Hideaki Takeda / National Institute of Informatics
Integration Policy 統合方針 How to integrate data from different sources
/ 異なる情報源から情報の統合 sharing of responsibility / 責任の分担
Each source is responsible for its data / データ源は各々管理
Identifying IDs for data and managing data with the IDs LODAC is only responsible for integration / ID でひも付け
Assigning original IDs and associating other IDs to them
Hideaki Takeda / National Institute of Informatics
Metadata - work資料分類 lodac:genre
文化財 lodac:culturalAssets
制作者 dc:creator ( リンク ) / dc11:creator ( 文字列 )
国籍 crm:P7_took_place_at
作品名 dc:title / skos:prefLabel作品名読み dc:title @ja-hrkt / skos:altLabel
作品名英語 dc:title @en / skos:altLabel
銘文 crm:P62I_is_depicted_by
印章 crm:P65_shows_visual_item
員数 crm:P57_has_number_of_parts
コレクション dc:isPartOf
制作年 dc:created
推定始年 lodac:estimatedStartYear
材質 dc:medium / crm:P45_consists_of
技法 dc:medium / crm:P32_used_general_technique
サイズ・法量 dc:extent
収蔵年度 dc:dateAccepted
収蔵経緯 dc:provenance
管理 ID dc:identifier
枝番 lodac:subIdentifier
展示歴 lodac:exhibitionHistory
文献歴 dc:(ref)isReferencedBy
解説文 dc:description
所有者 crm:P52_has_current_owner
所有者種別 lodac:currentOwnerType
所有館 crm:P55_has_current_location
管理団体 crm:P50_has_current_keeper
参照 URI rdfs:seeAlso
展示中 lodac:displayed
寄贈 dc:contributor
画像 foaf:depiction
賛者 lodac:sanja
大時代 lodac:era
時代 crm:P133_is_separated_from
場所 lodac:currentLocation
場所名 lodac:currentLocationName
旧地名 lodac:formerLocationName
都道府県 rda2:locationOfHeadquarters
解説 dc:description
記号 lodac:symbol
地方 lodac:area
沿革 /創建 lodac:builtOrCorporateHistory
重文指定年月日 lodac:importantCulturalPropertyAcceptedDate
国宝指定年月日 lodac:nationalTreasureAcceptedDate
追加年月日 ( モノ ) lodac:additionDate
Hideaki Takeda / National Institute of Informatics
Metadata - Person作者名 (最も一般的な名前 ) foaf:name / skos:prefLabel作者名読み foaf:name @ja-hrkt / skos:altLabel名号 foaf:nick名号読み foaf:nick @ja-hrkt作者英名 foaf:name @en / skos:altLabel制作者生年 crm:P98I_was_born / rda2:dateOfBirth制作者没年 crm:P100I_died_in / rda2:dateOfDeath推定始年 lodac:estimatedStartYear識別子 dc:identifier流派・グループ rda2:affiliation評価・評判 lodac:reputation子名 lodac:hasChildren類縁 rda2:identifierForTheFamily 師匠等 lodac:isTaughtBy職業 lodac:job画風 lodac:drawing父 (家業 ) と続柄 rda2:familyHistory分野記号 lodac:categorySymbol大分野 lodac:broadCategory中分野 lodac:middleCategory分野 lodac:narrowCategory得意分野 lodac:preferedCategory形態区分 lodac:type
Hideaki Takeda / National Institute of Informatics
Metadata - organization
foaf:Organization / lodac:OrganizationReference property館名 foaf:name / skos:prefLabel館名読み foaf:name @ja-hrkt郵便番号 lodac:postalCode住所 lodac:address電話番号 lodac:telWeb site foaf:homepageジャンル lodac:genre地名 lodac:locality開始時間 lodac:startTime終了時間 lodac:endTime休業日 lodac:closed所蔵作品 lodac:isProviderOf国宝があるか lodac:hasCulturalAssets
Hideaki Takeda / National Institute of Informatics
Data sources
Thesaurus / 横断的美術データ 日本美術シソーラス DB絵画編 国指定文化財データベース 文化遺産オンライン
Collection / 個別コレクションデータ 国立美術館所蔵作品総合目録検索システム ( 国立国際美術館,京都国立近代美術館,東京国立近代美術館 )
国立西洋美術館 京都国立博物館 奈良国立博物館 福島県立美術館
そのほか 日本語版 DBPedia Lite 国土交通省国土計画局
GIS
栃木県立美術館 秋田県立近代美術館 岩手県立美術館 徳島県立近代美術館 山梨県立美術館 東京都現代美術館 香川県立東山魁夷せと
うち美術館
Hideaki Takeda / National Institute of Informatics
data情報源 情報種別 データ数
国立美術館(西美を除く 3館) 作品 25180
国立西洋美術館 作品 4373
京都国立博物館 作品 5819
奈良国立博物館 作品 431
福島県立美術館 作品 20
栃木県立美術館 作品 32
秋田県立近代美術館 作品 22
岩手県立美術館 作品 1558
徳島県立近代美術館 作品 18482
山梨県立美術館 作品 262
東京都現代美術館 作品 5416
香川県立東山魁夷せとうち美術館 作品 266
日本美術シソーラス DB 作品 3800
日本美術シソーラス DB 人物 1332
日本美術シソーラス DB グループ 289
日本美術シソーラス DB 施設情報 648
文化遺産オンライン 施設情報 915
国土交通省国土計画局 GIS 施設情報 25000
国指定文化財データベース 作品 10115
合計 103096
Data resources:529,449
(1,915,586 triples)
Hideaki Takeda / National Institute of Informatics
Summary
Linked Data is the new way for sharing information / Linked Data は情報共有の新しい方法
Metadata is getting more important / Metadata はもっと重要になっている
Time is now for action / いま行動するチャンス