ジャパンサーチ構想における 「分野横断メタデータ」 · 2017-12-12 ·...
Transcript of ジャパンサーチ構想における 「分野横断メタデータ」 · 2017-12-12 ·...
ジャパンサーチ構想における「分野横断メタデータ」
国立国会図書館 電子情報部電子情報流通課標準化推進係
奥田倫子
2
国立国会図書館についてNational Diet Library (NDL)
•納本図書館
納本制度に基づく国内出版物の網羅的な収集・保存、全国書誌の作成
•幅広いサービス対象
国会(議会図書館)、行政・司法、国民
•国の中央図書館
図書館へのサービス、図書館の図書館
NDLの電子図書館事業
「電子図書館構想」(1998年)
「電子図書館中期計画」(2004年)
• NDL-OPAC (2018年1月~NDLオンライン+NDL-Bib)• 電子展示会
• インターネット資料収集保存事業(WARP)• 国立国会図書館デジタルコレクション
• 国立国会図書館サーチ(NDLサーチ)
“DC-NDL”情報資源の組織化および利用提供のための国内メタデータ標準
2001年 「国立国会図書館メタデータ記述要素」• 「ダブリンコアメタデータ基本記述要素集合」に基づく基本15要素• WARPで集めるインターネット上の情報資源を記述するため
2007年 「国立国会図書館ダブリンコアメタデータ記述要素」
2010年 「国立国会図書館ダブリンコアメタデータ記述」• DCMIメタデータ語彙55要素+NDL独自定義語彙• 語彙の記述方法や形式についてのルール• 機械的な処理を可能にするセマンティックウェブ志向• 「国立国会図書館デジタルコレクション」の情報資源を記述• 「NDLサーチ」の収集・提供用標準フォーマットで使用
2011年 「国立国会図書館ダブリンコアメタデータ記述」(現行版)
用途
内容
メタデータ
属性(記述要素/項目)
値
草枕
対象
・対象について書いた(記述した)もの・「属性と値の対(ペア)の集合」
どのような属性を記述する?・どんな言葉(語彙)を
使う?・その定義は?
どのように値を記述する?・よみがなは?・同姓同名の区別?・○年○月○日/YYYY-MM-DD?・任意のキーワード/図書の分類
記号?
目的に応じた、分野、機関、対象資料群ごとのルールができたりする。DC-NDLは国内
の(インターネット上の)情報資源についての標準的なルールとなることを志向したもの。
NDLの経験①
様々なデジタル化情報資源の記述図書(明治期以降)雑誌古典籍(江戸期以前の和書・漢籍)博士論文官報近現代政治史料日本占領関係資料録音資料手稿譜脚本プランゲ文庫点字データ
歴史的音源科学映像愛・地球博(動画・図書)東京大学付属図書館デジタル化資料内務省検閲発禁図書石巻日日新聞
NDLの経験②
他機関と連携、メタデータ授受様々な形態の情報資源のメタデータを横断的に検索
図書館、博物館・美術館、文書館、民間企業等、保有機関は問わない
約70(数千)機関、100データベース、
1億件以上のメタデータが検索可能
国立国会図書館サーチと各アーカイブの連携状況
8
•e国宝 – 国立博物館所蔵国宝・重要文化財※検索用API•国立美術館所蔵作品総合目録検索システム
•国立公文書館デジタルアーカイブ
•人間文化研究機構統合検索システム※検索用API•秋田県デジタルアーカイブ
•文化遺産オンライン(国指定文化財等データベースのみ)※平成29年3月29日にファイル連携を実現。平成29年度はAPI連携(OAI-PMH)の実現を目指す。
•国立博物館所蔵品統合検索システム(ColBase)•メディア芸術データベース ※マンガデータのAPI実装協力
連携済み(例)
調整中
新規連携
ジャパンサーチ(仮称)構想
第四期国立国会図書館科学技術情報整備基本計画
ジャパンサーチ(仮称)構築に向けて:役割の整理 メタデータの流れデジタルコンテンツの流れ
11
【活用者層】国民(地域住民、ビジネスマン、学生、研究者等)、日本に興味のある外国人
新規ビジネス・サービスの創出 教育の教材利用
日本文化発信⇒インバウンド効果観光用VR⇒地域創生へ 研究活動の活性化
災害時の復興(防災対策)
国の分野横断統合ポータルジャパンサーチ(仮称)
・我が国保有コンテンツのメタデータ集約/API提供
・全体標準化・利活用の促進
【関係府省等】・内閣府の会議体を通じた協力・ガイドラインの普及・デジタルアーカイブ推進のための
法的整備・人材育成のための施策・アーカイブ活用促進策 等
・(分野ごとの)メタデータ集約・API提供・(分野ごとの)ポータル提供・メタデータ等の標準化・長期アクセス保証
書籍等分野
放送番組分野
メディア芸術分野
地域アーカイブ
文化財分野
・メタデータの整備・デジタル化(コンテンツ拡充)・ウェブでの公開
【各アーカイブ機関】
【国立国会図書館】
恒久的保存のための基盤整備
図書館、官公庁、企業、美術館・博物館、文書館、文化施設、地方公共団体等
【分野・地域コミュニティのつなぎ役】
※赤枠が国立国会図書館の役割
新しい知の創造経済的価値の創出
こちらは国立国会図書館サーチによる
利活用促進のための基盤整備ジャパンサーチ(仮称)
メタデータを集約し、
活用しやすい形式で提供する
デジタルアーカイブの利活用促進のための基盤
出典:内閣府知的財産戦略推進事務局「デジタルアーカイブに関する取り組みについて」デジタルアーカイブジャパン推進委員会(第1回)資料1(平成29年9月5日)http://www.kantei.go.jp/jp/singi/titeki2/digitalarchive_suisiniinkai/suisin/dai1/gijisidai.html
システム構築(ハード面) 体制構築(ソフト面)
2016年度
●文化遺産オンラインと国立国会図書館サーチとの一部連携の実現●文化庁と連携に関する文書の取り交わし○ガイドラインの策定
2017年度~
●機能要件の検討●プロトタイプの構築●基本設計・詳細設計●開発
(連携先機関:「ジャパンサーチ」と連携するための一部システム改修)
○様々な分野のつなぎ役との検討体制の構築※内閣府知財事務局との連携協力
●分野を横断する標準的なメタデータ項目の検討・策定・普及○オープンデータの推進●各分野の主要アーカイブとNDLサーチとの連携○「ジャパンサーチ」運用体制の構築●海外主要アーカイブ(Europeana:欧州、DPLA:米国)との連携
ジャパンサーチ(仮称)の公開へ
「ジャパンサーチ(仮称)」公開までに必要な作業
13
● 国立国会図書館の主な担当
「分野を横断する標準的なメタデータ」
メタデータ?
メタデータ?
名称 東大寺金堂(大仏殿)
ふりがな とうだいじこんどう(だいぶつでん)
員数 1棟
種別 近世以前/寺院
時代 江戸中期
年代 宝永2
西暦 1705
構造及び形式等 桁行五間、梁間五間、一重もこし付、寄棟造、本瓦葺、正面唐破風付、銅板葺
国宝・重文区分 国宝
所在都道府県 奈良県
所在地 奈良県奈良市雑司町
FMT GELDR 00000cam a22 zi 4500001 028039653003 JTNDL005 20170905114237.0007 ta008 170321s2017 ja ||||g ||||f||||||jpn015 |a 22873241 |2 jnb020 |a 978-4-87582-797-9040 |a JTNDL |b jpn |c JTNDL |e ncr/1987084 |a NC161 |2 kktb084 |a 538.9 |2 njb/10090 |a NC161-L15024500 |6 880-01 |a 宇宙政策の動向 : |b 科学技術に関する調査プロジェクト2016報告書 / |c 国立国会図書館調査260 |6 880-02 |a 東京 : |b 国立国会図書館, |c 2017.3.300 |a 6, 197p ; |c 30cm.4900 |6 880-03 |a 調査資料 ; |v 2016-5504 |a 年表あり.650 7 |6 880-04 |a 宇宙開発 |0 00574081 |2 ndlsh
<?xml version="1.0" encoding="UTF-8"?><rdf:RDF xmlns:dcndl="http://ndl.go.jp/dcndl/terms/" xmlns:rdf="http://www.w3.org/199xmlns:dcterms="http://purl.org/dc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:owl="http://www.w3.org/2002/07/owl#" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#">
<dcndl:BibAdminResource rdf:about="http://iss.ndl.go.jp/books/R100000002-I02803965<dcndl:catalogingStatus>C7</dcndl:catalogingStatus><dcndl:bibRecordCategory>R100000002</dcndl:bibRecordCategory><dcndl:record rdf:resource="http://iss.ndl.go.jp/books/R100000002-I028039653-00#ma
</dcndl:BibAdminResource><dcndl:BibResource rdf:about="http://iss.ndl.go.jp/books/R100000002-I028039653-00#m
<dcterms:identifier rdf:datatype="http://ndl.go.jp/dcndl/terms/JPNO">22873241</dcte<dcterms:identifier rdf:datatype="http://ndl.go.jp/dcndl/terms/ISBN">978-4-87582-797<rdfs:seeAlso rdf:resource="http://id.ndl.go.jp/jpno/22873241"/><rdfs:seeAlso rdf:resource="http://iss.ndl.go.jp/isbn/9784875827979"/><dcterms:title>宇宙政策の動向 : 科学技術に関する調査プロジェクト2016報告書</<dc:title>
<rdf:Description><rdf:value>宇宙政策の動向 : 科学技術に関する調査プロジェクト2016報告書</rd<dcndl:transcription>ウチュウ セイサクノドウコウ : カガクギジュツニカンス
MARC RDF/XML<dcndl_simple:dc xmlns:dcndl_sim
xmlns:dc="http://purl.orxmlns:dcterms="http://pxmlns:dcndl="http://ndlxmlns:foaf="http://xmlnxmlns:owl="http://wwwxmlns:rdf="http://www.xmlns:rdfs="http://wwwxmlns:xsi="http://www.w
<dc:identifier xsi:type="dctermshttp://iss.ndl.go.jp/books/R100
</dc:identifier><dc:identifier xsi:type="dcndl:JP<dc:identifier xsi:type="dcndl:ISB<dc:title>宇宙政策の動向 : 科学<d dl titl T i ti >ウチ
XMLDC-NDL_Simple
メタデータフォーマット:メタデータをシステム間で交換・共有するため、入出力する際の形式
ジャパンサーチ(仮称)におけるメタデータの集約と提供(案)
検索結果
分野を横断する標準的なメタデータ項目を活用しやすい
フォーマットで出力「利活用フォーマット」
魅力的表示例
提供者
活用者
ジャパンサーチ(仮称)
ジャパンサーチ(仮称)におけるメタデータの集約と提供(案)
検索結果(提供者のメタデータ項目で
も検索が可能)
分野を横断する標準的なメタデータ項目を活用しやすい
フォーマットで出力「利活用フォーマット」
魅力的表示例(電子展示会、キュレーション
ページなど)
ジャパンサーチ(仮称)
提供者
活用者
メタデータ項目:提供者が使っている項目そのままでOK
データフォーマット:エクセル、CSV又はTSV、
JSON、XML等に対応
連携方法:①管理画面でファイルのアップロード②Web上にファイル掲載③OAI-PMH ・・・等
(詳細モデル化)NDLが利活用
のための分野横断メタデータモデルに変換
(共通ラベルの付与)もらったメタデータ項目に「共通ラベル」※を付与※タイトル、年代、作者、提供者、URL等の分野横断で共通となりうる項目のみ
(データ登録)もらったメタデータ項目をそのまま取り込み
ジャパンサーチ(仮称)
ジャパンサーチ(仮称)におけるデータ変遷(案)
名称:刀
サイズ:68.1弱
西暦:1459
分野:工芸
作者名:長光
所蔵:X博物館
オリジナル(ソース)データ
名称:刀
サイズ:68.1弱
西暦:1459
分野:工芸
作者名:長光
所蔵:X博物館
データベース:Y DB
タイプ:文化財
DB単位の情報
共通ラベルの付与
タイトル
リンク先
年代
作者登録・
1次マッピング
共通ラベル名
• 共通ラベルは自動で付与
• データ提供館で確認・修正が可能
• 最小限度のマッピングのみ実施
検索機能魅力的表示
ジャパンサーチ(仮称)
ソースデータ
共通アーカイブ情報
ジャパンサーチ(仮称)におけるデータ変遷(案)
名称:刀
サイズ:68.1弱
西暦:1459
分野:工芸
作者名:長光
所蔵:X博物館
ソースデータ
名称:刀
サイズ:68.1弱
西暦:1459
分野:工芸
作者名:長光
所蔵:X博物館
データベース:Y DB
タイプ:文化財
DB単位の情報
共通ラベルの付与
タイトル
リンク先
年代
作者
ラベル:刀
資料体記述:68.1弱
時間:1459
主題:工芸
作者:長光
提供者:X博物館
アグリゲーター:Y DB
タイプ:文化財
詳細モデル化
登録・1次マッピング
共通ラベル名
二次マッピング
• NDLが一部項目を抽出・コピー /変換(正規化)
• ソースデータも保持
• 共通ラベルは自動で付与
• データ提供館で確認・修正が可能
• 最小限度のマッピングのみ実施
名称:刀
サイズ:68.1弱
西暦:1459
分野:工芸
作者名:長光
所蔵:X博物館
検索機能 「利活用フォーマット」で出力
魅力的表示 検索機能の精緻・高度化
オリジナル(ソース)データ
ジャパンサーチ(仮称)
ソースデータ
共通アーカイブ情報
ジャパンサーチ(仮称)におけるデータ変遷のイメージ
名称:刀
サイズ:68.1弱
西暦:1459
分野:工芸
作者名:長光
所蔵:X博物館
ソースデータ
名称:刀
サイズ:68.1弱
西暦:1459
分野:工芸
作者名:長光
所蔵:X博物館
データベース:Y DB
タイプ:文化財
DB単位の情報
共通ラベルの付与
タイトル
リンク先
年代
作者
ラベル:刀
資料体記述:68.1弱
時間:1459
主題:工芸
作者:長光
提供者:X博物館
アグリゲータ:Y DB
タイプ:文化財
詳細モデル化
登録・1次マッピング
共通ラベル名
二次マッピング
• NDLが一部項目を抽出・コピー /変換(正規化)
• ソースデータも保持
• 共通ラベルは自動で付与
• データ提供館で確認・修正が可能
• 最小限度のマッピングのみ実施
名称:刀
サイズ:68.1弱
西暦:1459
分野:工芸
作者名:長光
所蔵:X博物館
検索機能 「利活用フォーマット」での出力
付加的サービス
検索機能の精緻・高度化
オリジナル(ソース)データ
メタデータ 検討の進捗状況
属性(記述要素/項目)
値
草枕
対象
・対象について書いた(記述した)もの・「属性と値の対(ペア)の集合」
どのような属性を記述する?・どんな言葉を使う?・その定義は?
どのように値を記述する?・よみがなは?・同姓同名の区別?・○年○月○日/YYYY-MM-DD?・任意のキーワード/図書の分類
記号?
システム内部でのデータ形式?
利活用フォーマットのファイル形式?
詳細モデルの共通アーカイブ情報(案)項目 内容 発見 識別 選択 入手
タイプ 資料の基本区分 ✔ ✔
ラベル 資料を識別するための名前。一覧等に表示。 ✔✔ ✔
名称 タイトル、別名、読みなど。 ✔✔ ✔ ✔
寄与者/関係 資料に寄与した人や組織/どのように寄与したか(寄与関係) ✔ ✔ ✔
作者 寄与関係[制作] ✔✔ ✔✔ ✔
発行者 寄与関係[出版]相当 ✔ ✔ ✔
場所/関係 場所に関する情報/何をした・された場所か(場所関係) ✔ ✔ ✔✔
時間/関係 時間に関する情報/何をした・された時間か(時間関係) ✔ ✔✔ ✔✔
主題 主題および分類 ✔ ✓ ✔
区分 各分野で用いられている区分(「国宝」「重文」など) ✔ ✓ ✔
識別子 ISBNなど記録された媒体種別レベルのID(× 個別アイテムID) ✓ ✔ ✓
言語 資料の記述言語を表すURI ✔✔ ✔✔
画像 サムネイル画像 ✔✔ ✔✔
項目 内容 発見 識別 選択 入手
資料体記述 資料の物理的特徴 ✓ ✔ ✔✔
記述 概要・要約、注記等物理的特徴以外の個別項目に入らない情報。 ✓ ✔ ✔
上位資料 タイトル、別名、読みなど。 ✔ ✔ ✔
提供情報 資料にアクセスするための情報。下記サブ項目からなる。 - - - -
提供者 資料についての情報(ソースデータ)の作成者、保管者URI ✔ ✓ ✔✔
リンク 資料の紹介ページやアクセス情報が記載されたページのURL ✔✔
オブジェクト 資料のデジタル画像や音声動画のURI ✔ ✔✔
権利情報 資料利用のライセンスおよび権利 ✔ ✔
個別識別子 提供元が付与する識別子 ✓ ✓ ✔✔
ソース情報 ソースデータとその提供者に関する情報 - - - -
提供者 ソースデータの提供者(アグリゲータ) ✔
データ ソースデータ ✔
リンク アグリゲータの目録におけるソースデータ掲載ページのURL ✔
更新日 ソースデータの更新日 ✔ ✔
「単純プロパティ」と「構造化プロパティ」
島村抱月・相馬御風作詞、中山晋平作曲「カチューチャの唄」(ビクター)の場合
作者
作者
制作
作詞
制作
作曲
寄与関係
寄与関係
関係タイプ
関係タイプ
寄与者
関係タイプ
関係タイプ
寄与者
寄与関係情報の単位
ジャパンサーチ(仮称)
ソースデータ
共通項目
ジャパンサーチ(仮称)におけるデータ変遷のイメージ
名称:刀
サイズ:68.1弱
西暦:1459
分野:工芸
作者名:長光
所蔵:X博物館
ソースデータ
名称:刀
サイズ:68.1弱
西暦:1459
分野:工芸
作者名:長光
所蔵:X博物館
データベース:Y DB
タイプ:文化財
DB単位の情報
共通ラベルの付与
タイトル
リンク先
年代
作者
ラベル:刀
資料体記述:68.1弱
時間:1459
主題:工芸
作者:長光
提供者:X博物館
アグリゲーター:Y DB
タイプ:文化財
詳細モデル化共通ラベル名
二次マッピング
• NDLが一部項目を抽出・コピー /変換(正規化)
• ソースデータも保持
• 共通ラベルは自動で付与
• データ提供館で確認・修正が可能
• 最小限度のマッピングのみ実施
名称:刀
サイズ:68.1弱
西暦:1459
分野:工芸
作者名:長光
所蔵:X博物館
検索機能 「利活用フォーマット」での出力
付加的サービス
検索機能の精緻・高度化
登録・1次マッピング
オリジナル(ソース)データ
「自らが保有するコンテンツのメタデータを整備して共有する方法には、自らが用意したシステムを用いるほか、分野や地域のコミュニティが提供する既存のプラットフォームを利用する方法がある。また、これらのシステム基盤を利用せずに、参考資料「活用できる表形式のデータとは?」に示す要件を満たす形のCSV 等のデータを整備する方法もある。<中略>メタデータの整備においては、次の5 つの項目は共有や再利用のために特に重要であり、判明している場合には、必須の情報として記述することが求められる。
・タイトル(ラベル)・作者(人物)・日付(時代)・場所・管理番号(表内で重複しない恒久的な識別子)」
このほか、デジタルアーカイブのデータ共有のためにはコンテンツの権利情報や二次利用条件といった情報もメタデータの整備において求められる。
「デジタルアーカイブの構築・共有・活用ガイドライン」(デジタルアーカイブの連携に関する関係省庁等連絡会・実務者協議会作成) 平成29年4月
「デジタルアーカイブの構築・共有・活用ガイドライン」
より「繋がる」、より「使える」データへ
Europeana のLinked Open Dataを利用
共通フィールドとソースデータを一括ダウンロード可能
時空を超えてつながり、ビジネスに寄与した(メタ)データ(180年前の例)
”Enkele negentiende-eeuwse Japanse Botanische boeken in Leiden”, De boekenwereld. 32. nr4. 2016.
データは組み合わさって、新たな知見、表現、行動へ
https://rrlstudentresearch.tumblr.com/
http://www.goodlylabs.org/ http://crowdandcloud.org/
国会会議録×議員データ×選挙民データ ヒップホップの歌詞×犯罪件数
市民が集めたデータ×気象データ×地理データ
丁寧に整備されたメタデータほど、利活用の可能性は拡がる
(例)オランダ国立図書館の新聞のデジタル化プロジェクト
1618年から1995年までに、オラ
ンダ及びオランダ領で発行された新聞(1100万ページ分)
画像+メタデータ+テキスト
1876年までPD, 研究利用自由
KBラボで様々な活用例
type level comments
Dublin Core iss./p./art. 記述メタデータ
OCR article XML
ALTO page
mpeg21-didl issue 構造メタデータ
メタデータ標準
(ジャパンサーチ)詳細モデルへのマッピングとデータの正規化は段階的に
西暦
都道府県
氏名(文字列)識別子
ラベルID名称言語主題、キーワード
西暦時代区分期間
都道府県国地域
氏名(文字列)識別子
ラベルID名称言語主題、キーワード
西暦時代区分期間
時間オントロジーの構築?
都道府県国地域
氏名(文字列)識別子典拠データ(NDLA)
ラベルID名称言語主題、キーワード典拠データ(NDLA)上位資料
いつ
どこで
だれが
なにを
Linked Open Data
JSdata
Web NDLAuthorities
DBpedia
Europeana
VIAF: Virtual International Authority File
Library of Congress Subject Headings
市民に届け、GLAMデータ。
• 分野横断的なメタデータの検索
• 教育利用機会の拡大
• 民間のアイディアによるマーケットの創出
• 機械的利用 → アプリ開発
→ 機械学習用基礎データ、ビッグデータとして
• 市民科学(Citizen Science)との協働
ご清聴ありがとうございました。[email protected]