LODI/Linked Open Data連続講義 第1回 「オープンデータからLinked Open Dataへ」
-
Upload
hideaki-takeda -
Category
Technology
-
view
4.183 -
download
0
description
Transcript of LODI/Linked Open Data連続講義 第1回 「オープンデータからLinked Open Dataへ」
1
オープンデータから Linked Open Data へ
武田英明[email protected] @takechan2000
リンクト・オープン・データ・イニシアティブ
LODI/Linked Open Data 初心者向け連続講座第 1 回 2014 年 5 月 26 日 さくら WORKS< 関内 >
2
LODI/Linked Open Data 初心者向け連続講座講義の構成( 1 )オープン
データから Linked Open Data へ
( 2 )情報の構造化
( 3 ) RDF 入門
( 4 )スキーマとURI
( 5 ) LOD の作り方・使い方
( 6 ) LOD システム実践紹介
LOD の枠組み全体を紹介
技術的な基礎知識
LOD に関わる個々の技術の紹介
実例の紹介
3
今後の予定第 2 回 6/2 (月)▼情報の構造化(大向一輝)• LOD への最初の一歩として、情報を秩序立てて整理し、使い勝手を高める「構造化」について考
えます。図書館の情報や統計データを取り上げ、人にとっての構造化、コンピュータにとっての構造化の違いやシンタックス・セマンティクスといった概念を紹介します。
第 3 回 6/9 (月)▼ RDF 入門(小出誠二)• RDF (Resource Description Framework) は,もともとはウェブ上に存在する資源 (resource) について
のデータ ( メタデータ ) を記述するために定められたものですが,今日ではリンクト・オープンデータ (Linked Open Data , LOD) を理解して使いこなすうえで,必須のものとなっています.ひろく一般の RDF の初心者を対象に, RDF の基礎から始めてさらに実務に進む手引きとなるように,最近の RDF に関する進歩も取り入れつつ講義します.
第4回 6/23 (月)▼スキーマと URI (加藤文彦)• 再利用しやすいデータを作成して共有するためには,データの構造やデータの中で使われる語彙
を共通にしたり,逆に違いを明確にしたりする必要があります. RDF においてそれらを実現する仕組みであるスキーマと URI について紹介します.
第5回 6/26 (木)▼ LOD の作り方・使い方(松村冬子)• これまで学んできた LOD や RDF を実践的に作り,使う方法について講義します.日頃,データ管
理によく用いられる表形式のデータを無料ツールを使って LOD に変換する方法や,公開されている LOD から SPARQL と呼ばれる問合せ言語を使って,欲しいデータを引き出す方法について学んでいきます.
第 6 回 7/7 (月)▼ LOD システム実践紹介(小林巌生)• LOD を採用したシステム設計について実際の二つの例をもとに解説します。ヨコハマ・アート・ LOD
では、公益財団法人横浜市芸術文化振興財団が管理する複数のウェブシステムを LOD で統合し、データの共有を実現しています。 SPARQL エンドポイントを活用したアプリの開発などデータの応用例も広がっています。かなざわ育なび .net では市役所内の複数の原課によってそれぞれ管理されていたデータを LOD によって統合して子育て世帯向けの情報提供サービスを実現しました。また、地域での LOD の実践について今後の展望についても紹介します。
4
あらまし• オープンデータとは• Linked Data/Linked Open Data(LOD) とは• Linked Data を作る、公開する• Linked Data を使う
5
オープンデータ
6
7
オープンデータとは• データを公開するということ?• 情報公開とは違うの?
8
オープンデータとは• オープンデータとは、誰でも自由に使えて
再利用もでき、かつ再配布できるようなデータである。課すべき決まりは、たかだか「作者のクレジットを残す」あるいは「同じ条件で配布する」程度である。http://opendatahandbook.org/ja/what-is-open-data/
• “A piece of data or content is open if anyone is free to use, reuse, and redistribute it — subject only, at most, to the requirement to attribute and/or share-alike.” http://opendefinition.org/
9
オープンデータとは• 利用できる、そしてアクセスできる
– データ全体を丸ごと使えないといけないし、再作成に必要以上のコストがかかってはいけない。望ましいのは、インターネット経由でダウンロードできるようにすることだ。また、データは使いやすく変更可能な形式で存在しなければならない。
• 再利用と再配布ができる– データを提供するにあたって、再利用や再配布を許可しなければ
ならない。また、他のデータセットと組み合わせて使うことも許可しなければならない。
• 誰でも使える – 誰もが利用、再利用、再配布をできなければならない。データの
使い道、人種、所属団体などによる差別をしてはいけない。たとえば「非営利目的での利用に限る」などという制限をすると商用での利用を制限してしまうし「教育目的での利用に限る」などの制限も許されない。http://opendatahandbook.org/ja/what-is-open-data/
10
データは情報流通社会の資源
自由に利用 自由に再加工
自由に再配布
石黒毅雄さん
11
オープンデータに必要なもの• オープンライセンス
• 機械可読フォーマット
12
オープンライセンス• 情報を最小限の制約以外で自由に使うこ
とを許すライセンス
CC0権利放棄
CC BY表示
CC BY-SA表示 - 継承
CC BY-NC表示 – 非営利
CC BY-ND表示 – 改変禁止
CC BY-NC-SA表示 - 非営利 - 継承
CC BY-NC-ND表示 - 非営利 - 改変禁止
全ての権利の主張
CCライセンスいくつかの権利の主張
オープンライセンス
13
機械可読フォーマット• 再利用性を高める
– 内容を切ったり、はったりできること
• 機械(コンピュータ)が内容を処理できる形式が望ましい–特定のプログラムで処理できる– オープンなフォーマットで公開– Web のようにつながる
14
東日本大震災の教訓~東京電力計画データの例~
1.東京電力が計画停電の予定を PDF で公開
15
東日本大震災の教訓~東京電力計画データの例~
2.誰かが csv に変換して公開
http://code.xenophy.com/?p=1323
16
東日本大震災の教訓~東京電力計画データの例~
3.誰かがアプリケーションにして公開
17
オープンデータへの5つのステップ
どんなフォーマットでよいからオープンラインセスでデータ公開 例: PDF, jpg
コンピュータが処理可能なフォーマットで公開例: xls, doc
オープンに利用できるフォーマットで公開 例: csv
RDF (と SPARQL )でデータ公開 例: RDFa, RDF ストア
他へのリンクを入れたデータを公開
18
オープンデータによる情報流通• これまでの公共情報の流通
公共機関など
市民
情報提供 必要なデータを 必要な方法で
請求、要望
様々な要望に応えるの
は大変
我々の要望に応えてくれないなあ
19
オープンデータによる情報流通
公共機関など市民
データ公開
アプ
リ公
開
要求、要望のシェア
サードバーティ=市民、プログラマー、企業
データのみ公開
欲しい方式(形式、アプ
リ)へ
20
公開データ 公開アプリケーション
21http://fukuno.jig.jp/2012/wcconcierge(c)taisukef CED
22
オープンデータへの5つのステップ
どんなフォーマットでよいからオープンラインセスでデータ公開 例: PDF, jpg
コンピュータが処理可能なフォーマットで公開例: xls, doc
オープンに利用できるフォーマットで公開 例: csv
RDF (と SPARQL )でデータ公開 例: RDFa, RDF ストア
他へのリンクを入れたデータを公開
23
データの公開、共有
Linked DataLinked Open Data (LOD)
24
文書の Web
25
データの Web
このデータに対応する別のデータ
このデータに別のデータと同じ
この属性の意味は?
異なるデータ源のデータが相互に結びつく
26
沢山のデータがあっても、つながっていない…
27
Linked Open Data (LOD)• オープンでリンクできるデータ
– 今の Web が“文書の Web” 、 LOD は“データのWeb”
• Linked Data の 4 原則–事物を URI を使って名前付けしよう–事物の参照が HTTP URI でできるようにしよう– URI を参照したときに関連情報が手に入るように
しよう–外部へのリンクも含めよう
(必ずしもオープンとは限らない⇒ Linked Data )
28
Linked Data の記述のしかた• RDF(+RDFS, OWL) の利用
– 簡便な記述方法: <主語 > < 述語 > <目的語 > .
<http://www-kasm.nii.ac.jp/~takeda#me> rdfs:type foaf:Person .<http://www-kasm.nii.ac.jp/~takeda#me> foaf:name “ 武田英明” .<http://www-kasm.nii.ac.jp/~takeda#me> foaf:gender “male” .<http://www-kasm.nii.ac.jp/~takeda#me> foaf:knows <http://southampton.rkbexplorer.com/id/person07113> .
http://www-kasm.nii.ac.jp/~takeda#me
http://southampton.rkbexplorer.com/id/person07113
foaf:knows
foaf:Person
rdfs:type
“ 武田英明” “male”
foaf:name foaf:gender
29
“1955-06-08”
Linked Data の記述
http://www-kasm.nii.ac.jp/~takeda#me
http://southampton.rkbexplorer.com/id/person-07113
foaf:knows
foaf:Person
rdfs:type
foaf:name foaf:gender
<http://dbpedia.org/resource/Tim_Berners-Lee>
owl:sameAs
dbpprop:birthDatedbpprop:birthPlacedbpprop:name
dbpedia:Computer_scientist
dbpprop:occupation
“ 武田英明” “male”
“London, England”“Sir Tim Berners-Lee”
30
LOD Cloud(Linking Open Data)
33
日本の Linked Data Cloud
34
35
36
dbp: サイボーグ 009dbp-owl:ComicsCreator
dbp: 石ノ森章太郎
rdfs:label
rdf:type
rdfs:label
dbp-prop: 生年
dbp-owl:notableWork
dbp-owl:award
dbp-owl:birthPlace
rdf:type
サイボーグ009
宮城県
1938
rdf:type
rdfs:label
dbp-owl:leaderName
dbp: 手塚治虫文化賞
dbp-owl:Comics
rdf:type
石ノ森章太郎
foaf:Person
dbp: 宮城県
dbp-owl:AdministrativeRegion
dbp: いがらしみきお
37
38
Linked Data をどうやって作るか?
• データの書くフォーマットを決める⇒スキーマ設計– 既存のスキーマを探す– そのまま使う/選択する/追加する– スキーマを公開する
• データをスキーマに則って書き出す– 一つ一つを手で書く– データを一括して RDF に変換する/変換プログラム– 公開する
• ダンプファイル• SPARQL Endpoint• dereferenceable
39
スキーマの設計とは
作品タイトル:タピスリーの裸婦作者:藤田嗣治制作年: 1923ジャンル:絵画油彩その他サイズ: 126.0x96.0収蔵館:京都国立近代美術館…
作品タイトル:タピスリーの裸婦作者:藤田嗣治制作年: 1923ジャンル:絵画油彩その他サイズ: 126.0x96.0収蔵館:京都国立近代美術館…
作品タイトル:タピスリーの裸婦作者:藤田嗣治制作年: 1923ジャンル:絵画油彩その他サイズ: 126.0x96.0収蔵館:京都国立近代美術館…
lodac:Work Property( 一部項目省略 )資料分類 lodac:genre文化財 lodac:culturalAssets制作者 dc:creator / dc11:creator国籍 crm:P7_took_place_at作品名 dc:title / skos:prefLabel作品名読み dc:title @ja-hrkt / skos:altLabel作品名英語 dc:title @en / skos:altLabel銘文 crm:P62I_is_depicted_by印章 crm:P65_shows_visual_item員数 crm:P57_has_number_of_partsコレクション dc:isPartOf制作年 dc:created推定始年 lodac:estimatedStartYear材質 dc:medium / crm:P45_consists_of
1.どんな単位で情報をまとめるか2.どんな項目があるのか3.項目の値は文字や数字、それとも他の情報へのリンク?(リテラルあるいはリソース)
1.この項目は既存のスキーマにあるか。 あるなら使おう2.ないなら自分で定義しよう
Dublin Core (dc)SKOS Simple Knowledge
Organization System (skos)
CDOC-CRM
40
データのつながりを作る
下村観山 @jafoaf:name
SHOMOMURA, Kanzan@en
foaf:name
lodac:creates
crm:P98I_was_born
1873
作者のスキーマ
木の間の秋 @ja
dc:title
Autumn Among Trees@en
dc:title
1907
dc:created
作品のスキーマ 作品のリソース
skos:prefLabel
収蔵館のスキーマ
1952
dc:created東京国立近代美術館
dc:references
DBpedia (Wikipedia)
外部のリソース
crm:P55_has_current_location
収蔵館のリソース
作品のリソース
dc:creator
41
データを作る• 既存のデータを一括して変換する
– csv から変換する• Open refine• Linkdata.org
• RDB からその都度変換する– D2R
• 公開も同時
42
RDF refine
• Open refine– テーブル型のデータの洗練、変換ツール
• RDF refine– Open refine の拡張– RDFS の設定とそれに基づく RDF 出力
43
44
45
Linkdata.org
• 理研が開発• csv を読み込んで簡単に RDF 化
46
D2R
• RDB からマッピングを通じて RDF を出力
• マッピングファイル– 例
@prefix geo: <http://www.w3.org/2003/01/geo/wgs84_pos#> . map:posts_lat a d2rq:PropertyBridge; d2rq:belongsToClassMap map:posts; d2rq:property geo:lat; d2rq:propertyDefinitionLabel "posts lat"; d2rq:sqlExpression "posts.lat / (60.0 * 60.0 * 1000.0)"; d2rq:datatype xsd:double; .
From http://qiita.com/sawamur@github/items/02b3ddfa3187df300342
47
データを公開する• ダンプファイル
– RDF データをファイルとして置く。• SPARQL Endpoint
– データベースから自由にほしいデータを抜き出す
• Dereferenceable– 個別の URI(IRI) にアクセスすると、それに関連
した RDF を返す(それを主語とする RDF とか)
48
SPARQL
• RDF データ問い合わせ言語• SQL に似た構造
PREFIX foaf: <http://xmlns.com/foaf/0.1/>SELECT ?nameWHERE { ?person foaf:name ?name . }
クエリの変数
クエリのパターン (Turtle 形式 )
クエリのフォーム
RDF Store
(RDF Database)
SPAQL
Query
SPARQL Query Language for RDFW3C Recommendation 15 January 2008http://www.w3.org/TR/rdf-sparql-query/
49
Linked Data をどうやって使うのか
Things Things Things Things Things
Linked Data ブラウザ
Linked Data サーチエンジン
Linked Data マッシュアップ
SPARQL
RDF Store
50
Tabulator
52
53
施 設
ユーザYokohama Art Spot
RDFストア
SPARQLエンドポイント
RDFストア
SPARQLエンドポイント
XML
SPARQL
LODAC Museum
横浜 LOD
作品
所蔵館
アーティスト
アーティスト
施設
イベント
Yokohama Art Spot の構成
全体マップ表示における処理
施設
イベント
HTMLJavaScriptPythonSPARQLWrapper
OWLIM SE
ARC2
RDFストア
SPARQLエンドポイント
PinQA
質問
回答
ユーザ
SPARQL
JSON
SPARQL
JSON
D2R
スポット
54
施設情報ページにおける情報取得と表示
標準化された形式で記述
ユーザに適した表示が簡単に実現可能
利用
55
育なび .net
56
育なび .net のシステム育なび .net
保育園データ
保育所空き状況データ
医療機関データ
防災・減災データ
他
元データは ExcelRDF に変換
RDF ストア
データ格納
SPARQL を発行
レスポンス
Web サーバ ブラウザ
57
育なび .net
公園データ
広域避難場所データ 駐車場データ
健康遊具データ
58
まとめ• オープンデータの5つのステップ
– オープンライセンス–機械可読フォーマット– データ供給者⇔サードパーティー⇔データ利用
者• Linked Open Data (LOD)
– “データの Web” 、つながるデータ• データの再利用性を高める
– LOD の作り方• スキーマ設計、データ生成、データ公開
– LOD の使い方• SPARQL 、マッシュアップ
59
LODI/Linked Open Data 初心者向け連続講座講義の構成
( 1 )オープンデータから Linked
Open Data へ
( 2 )情報の構造化
( 3 ) RDF 入門
( 4 )スキーマとURI
( 5 ) LOD の作り方・使い方
( 6 ) LOD システム実践紹介
LOD の枠組み全体を紹介
技術的な基礎知識
LOD に関わる個々の技術の紹介
実例の紹介
60
今後の予定第 2 回 6/2 (月)▼情報の構造化(大向一輝)• LOD への最初の一歩として、情報を秩序立てて整理し、使い勝手を高める「構造化」について考
えます。図書館の情報や統計データを取り上げ、人にとっての構造化、コンピュータにとっての構造化の違いやシンタックス・セマンティクスといった概念を紹介します。
第 3 回 6/9 (月)▼ RDF 入門(小出誠二)• RDF (Resource Description Framework) は,もともとはウェブ上に存在する資源 (resource) について
のデータ ( メタデータ ) を記述するために定められたものですが,今日ではリンクト・オープンデータ (Linked Open Data , LOD) を理解して使いこなすうえで,必須のものとなっています.ひろく一般の RDF の初心者を対象に, RDF の基礎から始めてさらに実務に進む手引きとなるように,最近の RDF に関する進歩も取り入れつつ講義します.
第4回 6/23 (月)▼スキーマと URI (加藤文彦)• 再利用しやすいデータを作成して共有するためには,データの構造やデータの中で使われる語彙
を共通にしたり,逆に違いを明確にしたりする必要があります. RDF においてそれらを実現する仕組みであるスキーマと URI について紹介します.
第5回 6/26 (木)▼ LOD の作り方・使い方(松村冬子)• これまで学んできた LOD や RDF を実践的に作り,使う方法について講義します.日頃,データ管
理によく用いられる表形式のデータを無料ツールを使って LOD に変換する方法や,公開されている LOD から SPARQL と呼ばれる問合せ言語を使って,欲しいデータを引き出す方法について学んでいきます.
第 6 回 7/7 (月)▼ LOD システム実践紹介(小林巌生)• LOD を採用したシステム設計について実際の二つの例をもとに解説します。ヨコハマ・アート・ LOD
では、公益財団法人横浜市芸術文化振興財団が管理する複数のウェブシステムを LOD で統合し、データの共有を実現しています。 SPARQL エンドポイントを活用したアプリの開発などデータの応用例も広がっています。かなざわ育なび .net では市役所内の複数の原課によってそれぞれ管理されていたデータを LOD によって統合して子育て世帯向けの情報提供サービスを実現しました。また、地域での LOD の実践について今後の展望についても紹介します。