データ形式・構造、データカタログ に関する技術について.epub(電⼦書籍)...

17
データ形式・構造、データカタログ に関する技術について 2012年12月26日 データWG主査代理 小池博 資料7 1回データWG資料

Transcript of データ形式・構造、データカタログ に関する技術について.epub(電⼦書籍)...

Page 1: データ形式・構造、データカタログ に関する技術について.epub(電⼦書籍) オープンライセンス(Web標準) .rdf オープンライセンス(Web標準)

0

データ形式・構造、データカタログに関する技術について

2012年12月26日

データWG主査代理 小池博

資料7第1回データWG資料

Page 2: データ形式・構造、データカタログ に関する技術について.epub(電⼦書籍) オープンライセンス(Web標準) .rdf オープンライセンス(Web標準)

1

目次

1. オープンデータの技術概要(1)機械判読とは(2)関連技術の位置づけ

2. 関連技術の概要(1)機械判読可能なデータ形式(2)データの融合を可能にするためのデータ構造(3)データカタログ

Page 3: データ形式・構造、データカタログ に関する技術について.epub(電⼦書籍) オープンライセンス(Web標準) .rdf オープンライセンス(Web標準)

2

1.オープンデータの技術概要 (1)機械判読とは

○「機械判読」とは、「コンピュータ・プログラム(以降、単にコンピュータと呼ぶ)がデータを読み取る」ということであるが、オープンデータの⽂脈においては、コンピュータが⾃動的にデータを再利⽤(加⼯、編集等)できるということである。

○⼈⼿をどれだけ要せずに、コンピュータがデータを再利⽤できるかにより、「機械判読の容易さ」には、いくつかの段階がある。コンピュータが⾃動的にデータを再利⽤するためには、コンピュータが、当該データの論理的な構造を識別(判読)でき、構造中の値(表の中に⼊っている数値やテキスト、等)が処理できるようになっている必要がある。

Page 4: データ形式・構造、データカタログ に関する技術について.epub(電⼦書籍) オープンライセンス(Web標準) .rdf オープンライセンス(Web標準)

3

1.オープンデータの技術概要 (1)機械判読とは

●機械判読可能なデータとは、データ形式や構造の仕様が公開され、そのデータを判読処理するプログラムを、第3者が

作成できるデータである。

●機械判読不可なデータとは、データを利用したいプログラムが、そのデータの論理的な構造を識別(判読)できない

データ。(データを人に対し表示するプログラムが存在しても、内容が取り出せない)

センサ情報等のバイナリデータ

センサログ形式を処理できるプログラム

テキストデータ

テキスト構造(XML,CSV)

処理プログラム

画像データ(画像中に表が

存在する)

画像表示プログラム

(表認識できず)

データ形式や、中身の構造が不明確なデータ

表の値を利用したいプログラム

センサデータの値を利用したい

プログラム

表の値を利用したいプログラム

テキスト表現の値を利用したい

プログラム

画像データ(画像中に表が

存在する)

※ 機械判読不可なデータも、データビューア・プログラムを利用することで、人は判読可能。

画像表示プログラム

表を理解し人手で利用データ作成

人判読可能 (データによっては、人手を介すことで、一定のプログラム処理できるデータを取り出すことが可能)

利用側で、再利用可能なデータを作成するコストが高い

編集エディタプログラム

表データ

Page 5: データ形式・構造、データカタログ に関する技術について.epub(電⼦書籍) オープンライセンス(Web標準) .rdf オープンライセンス(Web標準)

4

利用者(人)文書ビューアや

文書エディタを利用して人が読む

1.オープンデータの技術概要 (2)関連技術の位置づけ

利用者

①機械判読可能なデータ形式②データの融合を可能にする

ためのデータ構造③データカタログ(機械がデータを横断検索でき、機械がデータにアクセスできる)

ロウデータ

(手を加えていないデータ)

素材データ・素材文書・素材画像

人が理解するための

公開文書

ホームページ情報(人向け)

データカタログ(機械向け)

加⼯、作成

そのまま

公開処理等

HP作成

再加⼯

利用者(機械)プログラムがデータを読み二次利用する

機械が必要なデータを探せる

⼈が理解できる⽂書(データ)の形式

機械判読可能な公開データ

⼈が必要なデータを探せる

カタログ作成

文書分類、キーワード検索等

見やすさ、理解しやすい文書、データ表現

機械判読可能なデータ仕様に

沿って作成してある

Page 6: データ形式・構造、データカタログ に関する技術について.epub(電⼦書籍) オープンライセンス(Web標準) .rdf オープンライセンス(Web標準)

5

段階 公開の状態 データ形式例

参考)Linked Open Data 5star

1段階 オープンライセンスの元、データを公開 PDF、JPG OL – Open License(計算機により参照できる(可読))

2段階 1段階に加え、コンピュータで処理可能なデータで公開

xls、doc RE – Readable (Human & Machine)

(コンピュータでデータが編集可能)

3段階 2段階に加え、オープンに利⽤できるフォーマットでデータ公開

XML、CSV OF – Open Format(アプリケーションに依存しない形式)

4段階 Web標準(RDF等)のフォーマットでデータ公開

RDF、XML URI – Universal Resource Identifier

(リソースのユニーク化、Webリンク)

5段階 4段階が外部連携可能な状態でデータを公開

LoD、RDFスキーマ

LD – Linked Data(データ間の融合情報が規定。検索可能)

2.関連技術の概要 (1)機械判読可能なデータ形式

出典:★ Open Dataのサイト(http://5stardata.info/)およびTim Berners-Lee⽒のLinked Dataに関する提⾔ページ(http://www.w3.org/DesignIssues/LinkedData.html)を参考に作成。

人が理解するための公開文書

(編集不可)

機械判読可能な

公開データ

公開文書(編集可)

オープンデータの5つの段階

① 「オープンデータの5つの段階(出典:★ )」と、データ形式

Page 7: データ形式・構造、データカタログ に関する技術について.epub(電⼦書籍) オープンライセンス(Web標準) .rdf オープンライセンス(Web標準)

6

区分 主なデータ形式 特徴 (ライセンス関係は詳細確認が必要) 1段階(OL)

2段階(RE)

3段階(OF)

4段階(URI)

5段階(LD)

⽂字 .TXT (ユニコード) オープンライセンス ○数値 .XLS(エクセル) オープンライセンス(デファクト),XML形式あり ○ △

.CSV オープンライセンス ○画像 .jp(e)g オープンライセンス(デジュール標準) ○

.gif オープンライセンス(デファクト) ○映像 .m4v オープンライセンス(Web標準) ○

.flv オープンライセンス(デファクト) ○⾳声 .mp3 オープンライセンス(Web標準) ○

.wav オープンライセンス(デファクト) ○地図 .gml オープンライセンス(デファクト) ○

.shp オープンライセンス(デファクト) ○複合⽂書

.XHTML オープンライセンス(Web標準) ○ ○ ○

.XML オープンライセンス(Web標準) ○ ○ ○

.DOC(ワード) オープンライセンス(デファクト)、XML形式あり ○ △

.ppt オープンライセンス(デファクト)、XML形式あり ○ △

.JTD(⼀太郎) 仕様は個別公開 ○

.PDF 現在は、仕様が公開 ○

.epub(電⼦書籍) オープンライセンス(Web標準) ○

.rdf オープンライセンス(Web標準) ○ ○圧縮 .zip オープンライセンス(デファクト): アーカイブや圧縮形式 - - - - -

2.関連技術の概要 (1)機械判読可能なデータ形式

「機械判読可能な公開データ」のデータ形式となる、3段階以降に該当しているデータ形式

②「オープンデータの5つの段階」別の利用可能なデータ形式の状況 (1次集計結果)

Page 8: データ形式・構造、データカタログ に関する技術について.epub(電⼦書籍) オープンライセンス(Web標準) .rdf オープンライセンス(Web標準)

7

◎人判読可能データから、機械判読可能データを作成するイメージ(農林水産省の情報引用)注釈:元のページには、HTML/PDF/CSVが掲載されているが、あえてHTMLをより機械判読にしようとしたとき、気を付けるべき事項としての

事例としている。

HTML

手作業でコピー&ペーストまたはHTML素材の利用⇒EXCEL

セーブ&編集

http://www.maff.go.jp/j/tokei/syohi/sikyou/index.html からリンクされている 市況情報〔外部リンク〕 利用。

・「千 葉」のスペースの削除・1レコードとして欠損する値の設定・複数の表の分割 ・不必要な行削除

人が理解するための

公開文書(編集不可)

機械判読可能な

公開データ

人が理解するための

公開文書(編集・加工可)

2.関連技術の概要 (1)機械判読可能なデータ形式

③機械判読可能なデータ形式にする際の留意点

農産物市況2012_10_26_盛岡_xml・・・<品目名>大根</品目名><産地名>岩手</産地名><数量 単位=‘t’>689.1</数量>・・・

XML表現例

CSV表現例

Page 9: データ形式・構造、データカタログ に関する技術について.epub(電⼦書籍) オープンライセンス(Web標準) .rdf オープンライセンス(Web標準)

8

2.関連技術の概要 (2)データの融合を可能にするためのデータ構造

①公開データのデータ構造(データ項目、コードの関係)

機械判読可能な

公開データの例

<組織><行政機関>02</行政機関><部局>IT担当室</部局></組織>

<予算><当年>200</当年><前年>100</前年></予算>

◎◎予算情報項目名 意味 属性 コード

組織 行政機関 集合項目行政機関 府省庁名 コード 政府機関コード部局 部局名 文字列

予算 予算の総額 数値(百万円単位)

無し

当年 当年度予算 数値(百万円単位)

無し

前年 前年度予算 数値(百万円単位)

政府機関コード 値 意味

01 内閣府02 内閣官房

◎利⽤しやすいように、公開データは、データ構造を規定し、公開する必要がある。(⼈が理解する表現と、機械が理解する表現のバリエーションが必要)

◎府省、⾃治体等で、独⾃で決めた⽂書形式やデータ形式が存在する場合、その仕様を公開する必要がある。

◎既に、業界で様々な標準化されたデータ構造がある。適宜利⽤できるものは利⽤することが望ましい。

公開データのデータ構造(形式)例

(人が読める形式例)

★下記のデータ構造であることの定義A<組織><行政機関></行政機関>

<部局></部局></組織><予算><当年></当年>

<前年></前年></予算>

公開データのデータ構造(形式)例

(機械が読める形式XML例)

Page 10: データ形式・構造、データカタログ に関する技術について.epub(電⼦書籍) オープンライセンス(Web標準) .rdf オープンライセンス(Web標準)

9

2.関連技術の概要 (2)データの融合を可能にするためのデータ構造

②公開データのデータ形式の、データ構造、データ項目、コードの関係(イメージ)

◎◎予算情報.xml★定義Aに従って作成したという情報<組織><行政機関>02</行政機関>

<部局>IT担当室</部局></組織><予算> <当年>200</当年>

<前年>100</前年></予算>

◎◎予算情報項目名 意味 属性 コード

組織 行政機関 集合項目行政機関 府省庁名 コード 政府機関コード部局 部局名 文字列

予算 予算の総額 数値(百万円単位)

無し

当年 当年度予算 数値(百万円単位)

無し

前年 前年度予算 数値(百万円単位)

政府機関コード 値 意味

01 内閣府02 内閣官房

<データ項⽬>データの個々を表す項⽬のこと。「項⽬名」、項⽬が表現する対象の「意味」、項⽬の値の「属性」や「コード」等で規定

<データ構造>データが有する属性の集合を整理したもの

<コード>機械が処理しやすいように項⽬値の取りうる表現を符号化したもの

<機械判読可能なデータ形式のデータ>例えば、XML形式だと、XML仕様に従い、

データ構造等の規定に従いデータの値がセットされた状態のもの。

機械判読可能な公開データ

公開データのデータ構造(形式)

★データ構造の定義A(機械判読可能な形式)

Page 11: データ形式・構造、データカタログ に関する技術について.epub(電⼦書籍) オープンライセンス(Web標準) .rdf オープンライセンス(Web標準)

10

2.関連技術の概要 (2)データの融合を可能にするためのデータ構造

③公開データのデータ横断利用と融合型利用の考え方

◎公開データの利⽤では、以下のような利⽤が想定される。・利⽤例1: 異なる組織や年度別に公開されたデータをまとめて処理。(横断利⽤)・利⽤例2: 異なるデータ構造の公開データ間を融合キーで融合しそれぞれのデータ項⽬

の値を組み合わせて利⽤(融合利⽤) 例、地図データの位置情報に農産物出荷量を融合

利⽤1(横断利⽤)<組織><行政機関>02</行政機関>

<部局>IT担当室</部局></組織><予算> <当年>200</当年>

<前年>100</前年></予算>

<組織><行政機関>10</行政機関><部局>ABC</部局></組織>

<予算> <当年>1500</当年><前年>1100</前年></予算>

<組織><行政機関>15</行政機関><部局>XYZ</部局></組織>

<予算> <当年>2000</当年><前年>2050</前年></予算>

同じ構造のデータに対し、横断的なデータ処理を実施。★前年度より予算アップの行政機関と部局を出す。⇒ <行政機関>10</行政機関>

<部局>ABC</部局></組織>

★農産物市況情報2012_10_26_盛岡.csv市場(位置), 日付, 品目名, 産地名, 数量(t)<X1,Y2> 20121026,大根, 岩手, 689.1

利⽤2(融合利⽤)

★農産物市況情報2012_10_27_盛岡.csv市場(位置), 日付, 品目名, 産地名, 数量(t)<X1,Y2> 20121027,大根, 岩手, 700.5

・・・

20121026,大根, 岩手, 689.120121027,大根, 岩手, 700.5

地図の<X1,Y2>地点

Page 12: データ形式・構造、データカタログ に関する技術について.epub(電⼦書籍) オープンライセンス(Web標準) .rdf オープンライセンス(Web標準)

11

2.関連技術の概要 (2)データの融合を可能にするためのデータ構造

④データの融合のために必要な事項

◎データ構造(項⽬)を共通化することで、データを融合することが可能◎異なるデータ構造であっても同じデータ項⽬があることが分かれば、データの融合は可能◎特にデータ項⽬の値としてのコードについては、融合処理の機械処理を効率化させるため

に重要な要素である。◎海外のデータと融合させるためには、国際標準データ項⽬辞書(例 ISO 15022等)

のデータ項⽬セットや、国際標準コード体系のデータ項⽬とコードを利⽤すると、データの融合が、広範囲に実施可能。

◎近年、データ項⽬の概念(リソース)のユニーク化として、RDFの技術が普及してきている。次世代の技術として、利⽤検討すべきである。

URI – Universal Resource Identifier 異なる管理組織間のデータも融合キー化が可能LOD – Linked Open Data 異なるデータ項⽬間の関連情報が規定でき、⾼度な融合が可能

データ項⽬辞書(ISO 15022 等)

業界別データ構造表現流通業界のデータ項⽬(GS1データ辞書:GDD)

⽇本の業界データ辞書とデータ構造:業務、防災、教育(⾃治体APPLIC地域情報プラットフォーム)

気象庁防災情報XML(データ構造定義)

国際標準データ構造の例 国内標準データ構造の例 コード標準の例

・企業(統⼀)コード・商品コード・ISBN(国際標準と書番号・標準地域コード・ものや場所ID (Ucode)・組織コード(政府機関コード)

Page 13: データ形式・構造、データカタログ に関する技術について.epub(電⼦書籍) オープンライセンス(Web標準) .rdf オープンライセンス(Web標準)

12

2.関連技術の概要 (3)データカタログ

①(機械向け)データカタログとは? その形式やアクセス方法は?◎データカタログは、機械(コンピュータ・プログラム)が必要な公開データを探すための情報であり、公開データを取得するための情報である。データカタログ⾃⾝、機械判読可能な形式(XML等)で記述されている。

◎以下のデータカタログの要件を定義し、運⽤する必要がある。(a) 「データカタログ形式」として、データカタログを定義する構造(項⽬)を標準化する。(b) 「データカタログ形式」で⽰された形式で、各公開データの「データカタログ(実態)」

を定義して公開する。データカタログの情報として、「公開データ構造」を指定する。(c) 機械判読可能な形式で「データカタログ」を作成して公開する。(d) 参照⽅法(API)を提供する。

利用者1(機械)アプリケーション

B用データカタログ(機械向け)

C用データカタログ(機械向け)

A機械判読可能な公開データ 1

A機械判読可能な公開データ 2

B機械判読可能な公開データ 1

B機械判読可能な公開データ 2

C機械判読可能な公開データ 1

利用者2(機械)アプリケーション

Web-API(Web-アプリケーションインタフェース)

・カタログ検索・カタログ取得・データ取得

データカタログ形式

公開データ

A公開データ構造(形式)

B公開データ構造(形式)

C公開データ構造(形式)参照方法(API)

A用データカタログ(機械向け)

Page 14: データ形式・構造、データカタログ に関する技術について.epub(電⼦書籍) オープンライセンス(Web標準) .rdf オープンライセンス(Web標準)

13

2.関連技術の概要 (3)データカタログ

②(機械向け)データカタログに記載する内容 (想定)

◎データカタログの内容は、利⽤する側の機械(プログラム)が、公開データとして「何があるか」、「どのような内容や形式か」、「どこにあるのか」を知るための情報となる。

◎データカタログの構成は、「データカタログ⾃体の書誌情報」、「公開データの形式情報」、「データ特性情報」等、である。

◎◎予算情報項目名 意味 文字属性 コード

組織 行政機関 集合項目行政機関 府省庁名 コード 政府機関コード部局 部局名 文字列

予算 予算の総額 数値(百万円単位)

無し

当年 当年度予算 数値(百万円単位)

無し

前年 前年度予算 数値(百万円単位)

政府機関コード 値 意味

01 内閣府02 内閣官房

<データ構造><データ項⽬>情報

<コード>情報

データカタログ形式(XMLで規定)(スタイルシートで表示形式作成)

<公開データの書誌情報>・ダブリンコア(Dublin Core)基本要素等

<公開データの構造>・データ形式のURLの指定・独⾃のXMLやCSV形式等の指定

<データの取得⽅法>・データの取得のURL形式(連続取得⽤)

<融合キーとなる項⽬>・他の情報と融合できるデータ項⽬

<データ特性>・「鮮度」「粒度」「精度」「信頼度」等

<データ固有の特性>・アンケートデータや観測データ特性等

Dublin Core : http://dublincore.org/

公開データ構造(形式)(XML表現、等)

Page 15: データ形式・構造、データカタログ に関する技術について.epub(電⼦書籍) オープンライセンス(Web標準) .rdf オープンライセンス(Web標準)

14

2.関連技術の概要 (3)データカタログ

◎データカタログを検索するための書誌情報として、例えば「ダブリンコア(Dublin Core)」がある。15の基本要素(下表)と、より精度の⾼い情報を提供するための拡張語彙が公開されている。⽂書や書籍等で実績があり国⽴国会図書館で採⽤されている。

③<公開データの書誌情報> データカタログを検索する上で必要となる情報

No 項目 (日本語表記) 主なもの

1 Title (タイトル) 通常はあるリソースが公式に知られる名前を指す。

2 Creator (制作者) リソースの内容に責任を持つもの。人や組織などがあげられ、その名前を記すことが常となっている。

3 Subject (テーマ) リソースの内容が持つトピック。まとめられた語彙の中から使うことが望ましい。

4 Description (詳細) リソース内容の説明。要約、目次など形式は定められていない。

5 Publisher (提供者) リソースを発行に責任を持つもの。Creatorに同じく人や組織などがあげられ、名前を記すことが常である。

6 Contributor (協力者) リソースの内容に協力するもの。人や組織などの名前を示す。

7 Date (日付) リソースに関する主要な出来事が起こった日付(更新日、作成日など)を記述する(ISO 8601書式推奨)。

8 Type (タイプ) リソースの内容が持つカテゴリ、ジャンルなど。まとめられた語彙から使うことを推奨。

9 Format(フォーマット)

リソースが持つ物理的/デジタル化されている性質。メディアタイプなどがあげられ、リソースを処理するソフトウェアやハードウェアを知るための手がかりとすることができる(MIME等のメディアフォーマットで指定)。

10 Identifier (識別子) 曖昧さのないものが必要とされる。URIやISBNなどが相当する。

11 Source (ソース) リソースが参照しているもの。公式な識別システムに従っている文字列や番号が望ましい。

12 Language (言語) リソースがどの言語で書かれているのかを、RFC 3066の言語コード書式で書くのが望ましい。

13 Relation (関連) 関連リソースを公式な識別システムに従っている文字列や番号で記述するのが望ましい。

14 Coverage (範囲) 地名や緯度経度などで表記されるものや、日付、管理している範囲など。地名や時代の名前が緯度経度や日付より推奨される。

15 Rights (権利) 著作権や知的所有権などの権利に関する情報を記述する。この要素が記述されていない場合にリソースの権利情報を推測しても、それは何も意味しないことに注意すること。

引用:http://ja.wikipedia.org/wiki/Dublin_Core

◎下線は、ルールWGとデータWGが連携し、データカタログ形式の形式仕様として、規定していく必要があるものである。

Page 16: データ形式・構造、データカタログ に関する技術について.epub(電⼦書籍) オープンライセンス(Web標準) .rdf オープンライセンス(Web標準)

15

2.関連技術の概要 (3)データカタログ

データ特性 特性の説明 データ特性の軸

データの

「鮮度」

データを集めたり処理する間隔

(新しさ)

1年間隔 ⇒ 1ヵ月間隔 ⇒ 1日間隔 ⇒1時間間隔 ⇒ 1分間隔 ⇒ 1秒間隔

(特性: 処理数少、量大、バッチ、安価 ⇔

処理数多、量少、リアルタイム、高価)

データの

「粒度」

ロウデータか、集計や分類をしたデータか

全てのロウデータ ⇒ 必要な個別ロウデータ ⇒ロウログの集計値や傾向情報

(特性: 細かい、量大、用途多、意味不明

⇔ 荒い、量少、用途限定、意味を持つ)

データの

「精度」

データ自体の、表現の

曖昧性、抜けや異常値の有無の有無

精度が低い(抜けあり、異常値あり、コードされていない、

時間や位置等が不正確)⇒

精度が高い(抜けがない、異常値がない、コード利用、

正確な時間や位置)

データの

「信頼度」データの信頼度、信頼した機関が作成したデータか否か(お墨付き)

信頼度が低い(インターネット上の曖昧性を含む参考情報、等)⇒

信頼度が高い (府省の正式な発表情報)

◎データ利⽤側では、データ特性( 「鮮度」「粒度」「精度」「信頼度」等)に応じて、利⽤⽅法やデータ処理⽅法を変える。公開側は、公開データのデータ特性情報を、データカタログで明⽰する必要がある。公開データのデータ特性に合わせて、データカタログのポリシーを作成することが必要。

④<データ特性>

Page 17: データ形式・構造、データカタログ に関する技術について.epub(電⼦書籍) オープンライセンス(Web標準) .rdf オープンライセンス(Web標準)

16

2.関連技術の概要 (3)データカタログ

◎機械(プログラム)が、検索・取得できるためのインタフェース(Web-API)の候補としては、以下のようなものがある。 それぞれ特徴があるため、利⽤側ユースケースを考慮して採⽤仕様を決定する必要がある。

No主なインタフェース実現仕様 (記述形式)

概要

1 SOAP(WSDL)

W3C SOAP仕様に基づく、コンピュータ間のデータ交換。構造化されたXMLデータの交換を、HTTP(S)上で交換

2 JSON(JSONスクリプト)

JavaScript Object Notation 例えば、復旧・復興支援制度DBのAPIとして利用されている。オブジェクトの表記法をベースとした軽量なデータ記述言語。

3 REST形式(URL表現+XML)

Representational State Transfer 簡易な XML+HTTP インターフェイスを採用したデータ交換等に利用されている。

なお、機械が公開データを取得する際、リソースを指し⽰す識別⼦として、URI(Uniform Resource Identifier)が利⽤されることが多い。

⑤データカタログや公開データを検索・取得できるためのインタフェース(Web-API)

データ・カタログ(機械向け)

利用者(機械)アプリケーション

機械判読可能な公開データ

Web-API

・カタログ検索 ・カタログ取得 ・データ取得