統合化推進プログラム 統合データ解析トライアル …...最適なデータ形式、データベースの選択(NDEx, Neo4j, MongoDBとの相互補完) 各データのLinked
統計関連学会連合大会2015 - Stat · (先進化)が必要....
Transcript of 統計関連学会連合大会2015 - Stat · (先進化)が必要....
統計におけるオープンデータの
今後の展開について
統計関連学会連合大会2015
平成27年9月7日
総務省統計局 岡 誠一
オープンデータとは
1
意義・目的
○ 行政の透明性:信頼性の向上
○ 国民参加 :官民協働の推進
○ 経済の活性化:行政の効率化
条件
(1)機械判読に適したデータ形式で
(2)2次利用が可能な利用ルールで公開されたデータ
対象
『公開しても支障のないデータ』が対象。
個人情報や企業秘密など、公開に支障のあるものは対象外
電子行政オープンデータ戦略 (IT総合戦略本部決定) 平成24年7月
平成25年6月 世界最先端IT国家創造宣言 (閣議決定)
日本再興戦略-JAPAN is BACK- (閣議決定)
◎公共データの活用促進に集中的に取り組むための基本戦略
・基本的な方向性(機械判読可能な形式での公開、取り組み可能なものから着手等) ・具体的な施策(実証実験の実施、公共データ活用のための環境整備) ・推進体制の整備(電子行政オープンデータ実務者会議) 等
◎2014年度(平成26年度)及び2015年度(平成27年度)の2年間を集中取組期間と位置づけ ◎データカタログサイト(試行版)の立ち上げ ◎2015年度(平成27年度)中に世界最高水準の公開内容(データセット1万以上)を実現 等
オープンデータを巡る政府の動き
2
世界最先端IT国家創造宣言改定 (閣議決定) 平成26年6月
日本再興戦略改訂2014-未来への挑戦-(閣議決定)
平成27年6月 世界最先端IT国家創造宣言改定 (閣議決定)
日本再興戦略改訂2015-未来への投資・生産性革命-(閣議決定)
統計におけるオープンデータの取組
政府統計の総合窓口(e-Stat) http://www.e-stat.go.jp/
政府統計の総合窓口(e-Stat)は、各府省が公表する統計データを一つにまとめ、統計データの検索をはじめとした、さまざまな機能を備えた政府統計のポータルサイトです。
3
4
これにより、官民における統計データ利活用の高度化を促進し、
新たな付加価値を創造するサービスや革新的な事業の創出などを支援
統計におけるオープンデータの高度化にかかる取組内容
政府統計の中核的機関である総務省統計局及び(独)統計センターは、大量・多様な統計データの提供方法を次世代化し、データの高度利用を可能とする以下の取組を実施
オープンデータ推進のトップランナーとして政府の取組を先導
② 統計GIS機能の強化
① API機能による統計データの高度利用環境の構築
③ オンデマンドによる統計作成機能・方策の研究
5
統計データ利用の高度化や効率化の環境が構築され、ビジネス活性化や新規事業の開発促進、行政サービス向上などに貢献。
① 利用者の情報システムにe-Statのデータを自動的に反映
② ユーザー保有やインターネット上のデータ等と連動させた
高度な統計データ分析
①API機能による統計データの高度 利用環境の構築
平成27年1月に、開発支援サイト等利用者の利便向上を図った。
◆平成26年10月31日から、e-Stat上に、API(Application Programming
Interface)機能を付加し、蓄積された統計データを機械判読可能な形式で容易に
取得可能に。
○○県人口動態 統計調査結果
政府統計を、自社のデータや電子地図、分析ツールなどとマッシュアップすることにより、時系列や地理空間情報による高度な分析が可能
民間企業の 情報システム
統計情報 データ ベース
インターネット
分析
自社の売上データ等
自治体の 情報システム
公表
e-Stat側のデータが更新されると、ユーザー側の内容も自動的に更新 ①人手を介さず、データ
更新を自動的に反映
②ユーザー保有やインターネット上のデータ等と連動
連動
A
P
I
機
能
6
インターネット上のデータ等
(電子地図、 分析ツール等)
API機能活用方法
7
API機能で利用できる統計データ 政府統計の総合窓口(e-Stat)で提供している以下の統計調査結果を提供。 ※「統計情報データベース」等に登録されている統計データに限る。
※ 統合等された統計調査については、調査実施・公表時の政府統計名としている。
8
API機能活用事例(チャート表示)
バブルチャートで表示
Googleモーションチャート との組み合わせ
棒グラフで表示
API機能/開発支援情報/開発サンプル http://www.e-stat.go.jp/api/app-sample/
9
API機能活用事例(利用者の事例)
日本国内の不動産の価格を予測。国勢調査のデータを活用(株式会社おたに) http://geeo.otani.co/
国勢調査などの結果を表やグラフでわかりやすく表示(京都市役所) http://www2.city.kyoto.lg.jp/sogo/toukei/opendata/jisedai/index.html
API機能の活用事例 「アプリDe統計」の提供
広く国民に統計の有益性や便利さを手軽に実感いただくことを目的。
局・センターの職員から募集したアイディアを基にスマートフォンから統計情報を閲覧できるアプリケーション「アプリDe統計」を開発。
平成26年4月15日より提供を開始。(Android OS 4.0.3以上、 iOS7.0以上で対応)
10
「アプリDe統計」の機能概要 City Stat GPSとAPI機能を連動させ、今いる場所の統計データを表示。任意に都道 府県、市区町村を選択して統計情報をみることも可能。 また、当該市区町村の魅力や観光情報、関係サイトを表示する機能「ふ るさと自慢」も掲載。 さらに、平成27年8月29日から「地域の産業・雇用創造チャート」を 掲載。
ポケット統計
「男女別人口」や「1か月間の消費支出」等の項目を選択 することで、 選択項目にかかる統計データを都道府県、市区町村等、一覧で表示。
とうけいどけい
様々な日にちなんだ統計情報や、統計にまつわるクイズ、簡単な統計グ
ラフの作成が可能。
11
②統計GIS機能の強化
民間企業が保有している自社の売上高と人口等を比較し、関係性の 【活用例】
◆ 総務省及び(独)統計センターは、統計GIS機能を強化し、「地図による小地域分析(jSTAT MAP)」の名称で、平成27年1月20日からe-Stat上で運用開始。 【機能】 ① ユーザー保有データの取り込み分析機能 ② 任意に指定したエリアにおける統計算出機能 ③ 地域分析レポート作成機能 ※タブレット端末で手軽に利用できる「マップDe統計」の提供
中心点と半径を指定するだけで、指定したエリア内の基本的な統計情報をExcel形式のレポートとして作成することができます。
利用者の保有するデータと統計データとを組み合わせ、集計、表示し、地図上に視覚的に表現できます。
集計エリア
集計エリアの避難ビル収容人数等集計結果
集計エリアの屋外避難場所収容人数等集計結果 集計エリアの
統計データ集計結果
プロット 平成22年国勢調査小地域集計
利用者保有のデータ 統計データ
・・・屋内(ビル)避難場所
・・・屋外避難場所
Z14LD第1106号
12
公的機関や学術研究などの利用において、 利用者が調査項目を
選択するだけで統計結果を自動的に出力する、新しい形の統計提供サービスを研究中
13
全国 北海道 青森県
A 農業,林業
B 漁業 ・・・T 分類不
能の産業A 農業,
林業B 漁業 ・・・
T 分類不能の産業
総数(15歳以上) 1260195 282123 435711 378886 977285 222123 375711 379451 282910
男 656876 157533 255536 209623 532692 127533 225536 179623 124184
A 管理的職業従事者 191416 11403 92070 58684 132157 1403 82070 48684 59259
B 専門的・技術的職業従事者 220767 59498 100784 55346 185628 49498 90784 45346 35139
・・・
L 分類不能の職業 244693 86632 62682 95593 214907 76632 52682 85593 29786
女 603319 124590 180175 169263 444593 94590 150175 199828 158726
A 管理的職業従事者 228003 22245 91360 91532 175137 12245 81360 81532 52866
B 専門的・技術的職業従事者 178185 56636 37478 77731 141845 46636 27478 67731 36340
・・・
L 分類不能の職業 197131 45709 51337 127611 35709 41337 50565 69520
15~19歳
1185020 245179 381871 178115 902184 225179 361871 315134 282836
男 553244 146415 184967 178115 479497 136415 174967 168115 73747
A 管理的職業従事者 223239 91348 80092 54987 196427 81348 70092 44987 26812
B 専門的・技術的職業従事者 198228 30820 63136 100098 164054 20820 53136 90098 34174
・・・
L 分類不能の職業 131777 44247 61739 43030 119016 34247 51739 33030 12761
女 631776 98764 196904 422687 88764 186904 147019 209089
A 管理的職業従事者 234761 78719 97074 24329 170122 68719 87074 14329 64639
B 専門的・技術的職業従事者 170529 16900 16617 94245 97762 6900 6617 84245 72767
・・・
L 分類不能の職業 226486 23145 103213 58445 154803 13145 93213 48445 71683
20~24歳
626331 162330 115462 227750 475542 152330 105462 217750 150789
男 626331 162330 115462 227750 475542 152330 105462 217750 150789
A 管理的職業従事者 297975 76392 74027 81633 202052 66392 64027 71633 95923
B 専門的・技術的職業従事者 211700 80929 36018 69976 156923 70929 26018 59976 54777
・・・
L 分類不能の職業 116656 25009 25417 96141 116567 15009 15417 86141 89
都道府県 産業大分類 年齢(5歳階級)
男女
職業大分類
集計事項: 人口・世帯数
①利用者が調査項目を選択 ②統計結果を自動的に出力
これにより、既存の結果表にない任意の多重クロス集計が出力可能になり、学術研究を始めとする多様なニーズに対応 ※ 実用化に向けては運営・制度面(秘匿処理)における検討課題がある。
【イメージ】 利用者が自らのニーズに合わせ
希望する項目を組合せ
③オンデマンドによる統計作成機能・方策の研究
今後の展開(オープンデータの先進化)
14
オープンデータの更なる推進には、システムを使ったデータの自動的な取得や関連したデータの一括取得を可能にするなど、データの提供方法を高度化し、利用しやすくする取組(先進化)が必要
提供する統計データのLOD化
LOD(Linked Open Data)とは、オープンデータの最高ランクのデータ形式で作成されているデータ LODでのデータ提供が主流になれば、関係するデータを同一形式で一括して取得でき、効率的に幅広く的確な情報の収集や詳細な分析が可能 データに利用された言葉の表記・意味・構造を統一することで、データが一意となり、容易かつ正確なデータ検索を実現。
(例:【雇用者】のデータには役員を含むものと含まないものがあるが、区別が可能) このようなデータ提供を促進することにより、新ビジネスの創出、公共サービスの向上や地方の企業進出など、地域の社会・経済の活性化につながるものと期待 しかし、LODでのデータ提供や有効活用の例は少ない状況
先進化の取組として・・
15
LOD(Linked Open Data)について
他のデータとのリンク
IMF OECD
地方公共団体 データカタログ
データの標準化(国際標準(RDF※1)を利用)
アクセス方法の標準化(国際標準(SPARQL ※2)を利用)
アプリケーションの標準化
「5スターオープンデータ」による公開レベル 統計データのLODのメリット
段階 公開の状態 データ形式
1段階★
オープンライセンスでデータを公開 PDF、JPG
2段階★★
コンピュータで処理可能なデータを公開 XLS、DOC
3段階★★★
オープンに利用できるフォーマットでデータを公開 XML、CSV
4段階★★★★
Web標準(RDF等)のフォーマットでデータを公開 RDF
5段階★★★★★
他へのリンクを入れたデータ(LOD)を公開 Linked-RDF
編集不可
機械判読可能
編集可
※1 RDF(Resource Description Framework ):W3C(WWW (ウェブ)で利用される技術の標準化をすすめる国際的な標準化団体)により勧告(1999/02)されているウェブ上での言語やデータ構造・記述方法等に関する標準仕様。 ※2 SPARQL: W3Cにより勧告(2008/01)されているRDFを検索するための言語。
Linked-RDF
RDF
CSV
Excel
機械判読のしやすさでランク付け
http://5stardata.info/
16
統計におけるオープンデータモデル事業 総務省統計局は、国勢調査等の統計データをe-StatからLODで提供する先進的取組として「オープンデータモデル事業」を、福井県、同県内全市町及び独立行政法人統計センター等と連携して平成27年度に実施 本モデル事業を通じて、LODでのデータ提供の課題等について整理・検討し、統計データを始めとする各種データのLODによる提供を促進。
e-StatからのLODの提供イメージ