オープンデータを用いた...

104
京都大学大学院情報学研究科 佐藤彰洋 2018年9月20日 総務省統計研究研修所特別コース データサイエンスセミナー オープンデータを用いた データ分析方法の体験的学習

Transcript of オープンデータを用いた...

Page 1: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

京都大学大学院情報学研究科佐藤彰洋

2018年9月20日総務省統計研究研修所特別コース

データサイエンスセミナー

オープンデータを用いたデータ分析方法の体験的学習

Page 2: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

佐藤彰洋(さとうあきひろ)京都大学 大学院情報学研究科 特定准教授科学技術振興機構 さきがけ研究員

URL: https://www.fttsus.jp/akeyhome/E-mail: [email protected]

エージェントモデル、応用としてのデータ中心科学の研究に従事。多くの要素(エージェント)の相互作用の結果生じる共同現象に興味を持ち、共同現象のメカニズムの理解、設計を研究テーマとする。

自己紹介

Page 3: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

「我々は知らないことは判断できない」

モットー

Page 4: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

事例自転車用ポータルブルナビ

ChariPnaVi

京都市

https://data.city.kyoto.lg.jp/appli

ゴミ出し支援アプリ

・ごみの出し方検索・資源物回収拠点検索・ごみ減量家計簿・ダイエットチャレンジ・資源物クイズ・グループ共有・ごみの日やお知らせの通知

http://app.kyoto-kogomi.jp/howtouse.html#

京都市こごみ

Page 5: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

「まっぷるリンク」

事例

観光支援アプリ

・観光情報に関する電子書籍が読める・オフラインで地図で場所を確認できる・情報共有サービス(メールやLINEも使える)・お店のサービスクーポンと広告

「JAPAN Trip Navigator」

「Japan Official Travel App」JNTO https://www.jnto.go.jp/smartapp/eng/

Page 6: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

• ビッグデータ:McKinsey Global Institute (MGI)による

”Big data: The next frontier for innovation, competition, and productivity”

Big Dataとは?

3V Volume(量), Velocity(速度), Variety(多様性)

Page 7: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

Big Data の 3V + 4V

• Variability(可変性): データの構造、内容、質などの特性が変化する程度• Value (価値): 人的・金銭的コストに対して得られる便益の大きさ、または、その期待値

• Veracity (信頼性): データ品質と関係• Volatility (変動性): データが価値を有する時間(価値と速度の複合概念)

• Volume (量)• Velocity (速度)• Variety (多様性)

Page 8: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

•人間の脳の記憶容量はどの程度か?

•人間の応答速度はどの程度か?

•人間の記憶速度はどの程度か?

•人間の一生はどの程度か?

•人間が一生に覚えることのできる量の上限はどの程度か?

•人間が一生にすることができる物事の量はどの程度か?

数PB~100GB

人間の瞬間は50ms(これ以下の変化は連続とみなす)

2bps (音声、文字、視覚ともに)

80年間=80years x365 days x1440 minutes x60 seconds=2.5x109s=25億秒

2bps x 2.5 x 109s× 0.5 (利用可能時間)= 2.5 Gbits = 312.5MB

人間の能力

Page 9: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

知見人間の認識能力

利用可能なデータ

約 44ZB/year by 2020

5~10MB/year

データ

計算 極めて大きなギャップ約1兆倍 = 1015倍

1. 専門知識の特定2. 目的の特定と共有3. データ源の特定4. 計算方法の特定5. 計算資源の特定6. 計算手順の特定7. データ分析の実行8. 計算結果のレポーティング9. 施策実施方法の特定10.施策の実施11.実施結果の評価

(ZB = 1021 Bytes)

(MB = 106 Bytes)

データ基盤

T.K. Landauer, Cognitive Sci. 10, 477–493 (1986), DOI:10.1207/s15516709cog1004_4

The Digital Universe of Opportunities, Accessed on 18 June, 2017 [ONLINE] https://www.emc.com/leadership/digital-universe/2014iview/digital-universe-of-opportunities-vernon-turner.htm

行政サービス

Page 10: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

ニーズの設定 設計 開発 収集 処理 分析 公表 評価

研究・開発フェーズ 実装・配置 社会的効果・影響

データ・統計の作成

Page 11: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

Plan

Do

Check

Action

◼ Check: 現在の状況を測定◼ Action: 望むべき形と現状のギャップを認識し、それが小さくなる意思決定を行う

◼ Plan:行うべきことの計画を作成

◼ Do: 計画を実施

CAPDサイクル

Page 12: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

ニーズの設定

設計 開発 収集 処理分析・解釈

公表 評価環境の整備・調達

データ・統計の作成

試行錯誤

レポートの企画立案

(データの入手・企画設計)

データ・統計の提供者

データ・統計の指揮者

データ・統計の利用者

意思決定

データアプリケーション提供者

参考:GSBPM(Generic Statistical Business Process Model)

Page 13: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

オープンデータを用いたイノベーション

イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

吸収力

公開性

資源管理

技術的接続性

組織的な能力情報技術の能力

オープンライセンス

利用可能性簡単なアクセス

データ管理リーダーシップ技術

通信インフラ技術拡散複層的な基盤

アイデア生成

アイデア変換

アイデア拡散

社会的価値

経済的価値

制御可能な因子 イノベーションのための仕掛け

インパクト

Thorhildur Jetzekら(2014)

Page 14: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

データ分析の基本作業

データ獲得

データ準備

データ可視化・分析

データ解釈

データ理解

必要なデータにたどり着くための作業(一度に全てのデータを得ようとしてはいけない)

データを可視化や分析作業ができるような形に整える作業

データを一見して理解できるような形にすることあるいは特徴量を取り出す作業

得られた図や特徴量から意味を読み取る作業(ストーリーが大切)

データやデータを作る業務内容について理解する

Page 15: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

データ分析までの事前準備に全作業工程の80%以上の時間を必要とする

データ獲得 データ準備

データ可視化・分析

デ|タ解釈

データ分析の真理

データ理解

データを作り出している業務理解を含む

Page 16: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

データ分析の体験的学習の構成

0 グループ構築1 なぜデータ分析をするのか?2 データはどこにあるのか?3 データとデータ分析の方法4 データの分析5 データからストーリーを作る6 課題発見と課題解決方法7 レポーティング

Page 17: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

“Data-driven innovation for growth and well-being”

•イノベーションと成長および福祉を促進するためのデータの役割に関する分析と, 知識に基づく資産(Knowledge-Based Capital: KBC)に関する分野横断的なプロジェクトの位置づけ

•成長と福祉を促進するためのデータの役割に関するエビデンスの改善及び、データ駆動型経済(data-driven economy)の便益の最大化とこれに関連するリスクの低減を行うために必要とされる政策ガイドライン

OECD (経済協力開発機構) http://oe.cd/bigdata

Page 18: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

•科学的発見のためのデータの役割

•健康向上のためのデータの役割

•より良い統治を行うためのデータの利活用

•クラウドコンピュータ、分析、および他の技術的可能性

•技能と雇用に関するほかの関連性

•データ駆動型社会のための信頼性確保

•知識ベース資産としてのデータへの投資尺度

OECD: Data-driven innovation for growth and well-being

Page 19: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

データを分析するときにあり得る目的

➢既存の行政組織内での活動や行政サービスを理解する➢既存の行政組織内での活動や行政サービスの課題を発見する➢既存の行政組織内での活動や行政サービスの改良方法を検討する➢未知の行政組織内での活動や行政サービスに対するニーズを見つける➢新しい行政組織内での活動や行政サービスの仕様を作る

目的

Page 20: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

①オープンデータまたは統計データを起点として、行政組織内での活動または行政サービスの業務手順の流れを可視化してみることで、業務手順を理解する(アイデア生成・アイデア変換のための前提条件を整える)

②描き出された業務手順の課題を発見する(アイデア生成)

③見つけ出された業務手順の課題を改善する方法を提案する(アイデア生成)

④または、これまでにない新しい業務手順を提案してみる(アイデア生成)

⑤この作業をグループで行うことで、色々な立場の意見と視点を同時に組み入れる(アイデア変換)

⑥議論した内容はレポートとしてまとめて他の人にもわかりやすく伝わる形にしておく(アイデア拡散)

方法論

Page 21: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

• 内閣官房

• 人事院

• 内閣府 公正取引委員会、警察庁、消費者庁

• 総務省 公害等調整委員会、消防庁

• 法務省

• 外務省

• 財務省 国税庁

• 文部科学省 文化庁

• 厚生労働省 中央労働委員会

• 農林水産省 林野庁、水産庁

• 経済産業省 資源エネルギー庁、特許庁、中小企業庁

• 国土交通省 観光庁、海上保安庁

• 環境省

• 防衛省

https://www.e-stat.go.jp

e-Stat 政府統計の総合窓口

政府統計の所管省庁

Page 22: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

医療施設調査, 科学技術研究調査, 家計調査, 学校基本調査, 学校保健統計調査, 学校教員統計調

査, 患者調査, 海面漁業生産統計調査, ガス事業生産動態統計調査, 漁業センサス, 牛乳乳製品統

計調査, 経済産業省企業活動基本調査, 経済産業省生産動態統計調査, 経済産業省特定業種石油

等消費統計, 経済センサス-基礎調査, 経済センサス-活動調査, 建築着工統計調査, 建設工事統

計調査, 小売物価統計調査, 国民経済計算, 国民生活基礎調査, 国勢調査, 個人企業経済調査, 工

業統計調査, 鉱工業生産・出荷・在庫指数, 港湾調査, 作物統計調査, 産業連関表, 住宅・土地統計

調査, 就業構造基本調査, 社会生活基本調査, 社会教育調査, 人口動態調査, 社会保障費用統計,

商業統計調査, 商業動態統計調査, 自動車輸送統計調査, 生命表, 全国消費実態調査, 全国物価統

計調査, 生産動態統計, 生産能力指数・稼働率指数, 石油製品需給動態統計調査, 船員労働統計調

査, 造船造機統計調査, 地方公務員給与実態調査, 賃金構造基本統計調査, 鉄道車両等生産動態

統計調査, 特定サービス産業実態調査, 内航船舶輸送統計調査, 農業経営統計調査, 農林業センサ

ス, 法人企業統計調査, 法人土地・建物基本調査, 毎月勤労統計調査, 埋蔵鉱量統計調査, 民間給

与実態統計調査, 木材統計調査, 薬事工業生産動態統計調査, 労働力調査

基幹統計調査

Page 23: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

オープンデータポータル

東京都

京都市

北海道 大阪府

和歌山県京都府

Page 24: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

693,000

693,500

694,000

694,500

695,000

695,500

696,000

696,500

697,000

697,500

698,000

1月 2月 3月 4月 5月 6月 7月 8月

京都市 平成30年の男性人口

771,000

771,500

772,000

772,500

773,000

773,500

774,000

774,500

1月 2月 3月 4月 5月 6月 7月 8月

京都市 平成30年の女性人口

京都市では2018年の1月から8月までの間に人口が約2,000人減少した。2018年1月から4月までの間に約4,000人減少し, 2018年5月に約4,500人増加した。この減少と増加は4月の卒業と入学および転勤にともなう転入出だろう。

京都市の推計人口

yyyymm,name,pop,male,female2018.1,京都市, 1471722 ,697435 ,774287 2018.2,京都市, 1470627 ,696976 ,773651 2018.3,京都市, 1468963 ,696178 ,772785 2018.4,京都市, 1466937 ,694741 ,772196 2018.5,京都市, 1471237 ,696984 ,774253 2018.6,京都市, 1470782 ,696809 ,773973 2018.7,京都市, 1470544 ,696696 ,773848 2018.8,京都市, 1469653 ,696312 ,773,341

https://www2.city.kyoto.lg.jp/sogo/toukei/Population/index.html#maituki

Page 25: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

• データに現れる数値にはその背後に必ずデータを作り出すメカニズム(データ生成メカニズム)が存在している

• データ上に現れる登場人物(人口の場合はその場所に暮らす人々)がデータを作り出している活動や行動の背景に思いを巡らし、データから断片的に見て取れる特徴から現象(状況や関係など)を表現するストーリーを作り出す

• ストーリーは登場人物、行動、関係性、時間経過などの基本的な前提条件を想像することが必要

• UXで活用されるペルソナデザイン、ジャーニーマップ、業務フローデザイン(プロセスマイニング)、UMLは極めて強力なツールとなる

データからストーリー(ナラティブ/物語)を作る

Page 26: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

•行政組織内での活動や行政サービスを実施する人がどのような人であるかを設計します。

✓男性か女性か?

✓どのような人物像であるか

✓どのような嗜好があるか

誰が 誰に

どのように

何を提供するのか?

ペルソナ

Page 27: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

エピソード

大学時代はコンピュータプログラミングに没頭し、IT企業に就職した

が、現在は市役所に転職して市民課で働く。

現在の仕事の役割

現在の職務内容はOO市担当市民

課。趣味としてコンピュータプログラムを今でもつづける。

将来の夢

データコンペで市役所チームを結成して優勝したい。

個人情報

名前:山田太郎年齢:39歳性別:男性部署:〇〇市役所居住地:京都市大学:京都大学工学部

情報源

インターネットとFacebookを日常的に行う。朝は新聞を読む。

顔写真

https://charat.me/avatarmaker/start/CHARAT AVATAR MAKERを使用

ペルソナシート (例) OO市役所職員の例

Page 28: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

ジャーニーマップ

感情曲線

行 動

考え・感情

課 題

時間の進行方向

市役所職員山田太郎さんの業務体験

転入届の書類を受け取る

届の内容確認

書き方の指導 受理

届に誤りはないだろうか?

心配言い回しは適切か?

ほっと安心

手書きの記入用紙

様式が複雑受理の後で間違え発見

ポジティブ

ネガティブ

Page 29: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

• ユースケースは、システムの用途を示す一連のシナリオ(scenario)で構成されています。

• それぞれのシナリオは、人間、外部システム、ハードウェアの一部、時間の経過などによって起動する一連のイベントを表現しています。

• イベントを起動する実体をアクター(actor)と呼びます。

• イベントを起動したアクターやその他のアクターは、イベントの実行結果から何らかの利益を得ることになっています。

ユースケース図

ユースケース

システム

アクターアクター

Page 30: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

転入届け申し込み用紙を記入して提出する

記入用紙を準備する

転入届けの記入内容を確認する

転入届を受理してシステムに入力する

住民 役所担当者

ユースケースの例(住民票の転入届け)

Page 31: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

物 語

業務フロー

思う こと

課 題

住民票の転入転出手続き

区ごとに集計

市役所で集約

決済後HPで公開

データを商売に利用

転入転出手続きが集中する時期(3月、4月)がある

・住基推計に誤差が混入

・人口データを利用する人はそもそも誰なのか?

・忙しくない時期と忙しい時期で担当者の数は同じなのか?・しばしば入力ミスが存在する

市民は人口統計をあまり必要としていないかも。真に必要なのは

行政組織の別の部署が業務の正確な実行とその把握をすることではないか。

住基ネットができているが結局は人が足を運んで行列を作り作業をしている

統計データの利用者へのリーチが弱いかもしれない。

月次人口推計は住民票の転入転出手続きの数から人口変化を読みとり作成されている。

月次人口推計の物語

Page 32: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

記入日:

物語

データから見える現状(データ

分析から得られた図や表)

課題

集計は原理的には短期間にできるが、公表までには手続きが多く、実際に集計から公表までは時間を要する

課題を改善するための提案

推計人口統計活用の可能性について

690,000

695,000

700,000

1月2月3月4月 5月6月7月8月

京都市 平成30年の男性

人口

770,000

775,000

1月2月3月4月 5月6月7月8月

京都市 平成30年の女性

人口

住民が転入・転出時に提出する住民票届けを基に、住基人口として集計し毎月推計人口としてホームページに公表

誰のために作成して公表している月次推計人口であるかを判明させることで必要とする精度や集計方法、公表方法を調整できる可能性がある

京都市では人口が減少した。この減少と増加は4月の

卒業と入学及び転勤に伴う転入出

だろう。

メンバー氏名

ストーリー

データから見える現状

課題

改善策

物語(ストーリー)の中にデータ分析結果を含めることにより、定量的または客観的な事実から課題に触れるとよい

Page 33: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

• 佐藤彰洋, 世界メッシュ統計を用いたデータ共有基盤とその応用, ケミカルエンジニヤリング, 2018年8月号, VOL.63 No.8 (2018) pp. 1-7.

• 佐藤彰洋, "ビッグデータ時代に必要な標準化", 標準化と品質管理, Vol. 70, No. 3 (2017) pp.20--23.

• Aki-Hiro Sato, Applied Data-Centric Social Sciences, Springer, Tokyo (2014).

• T. Jetzek, M. Avital, and N. Bjorn-Andersen, “Data-Driven Innovation through Open Government Data”, Journal of Theoretical and Applied Electronic Commerce Research, Vol. 9(2), (2014) pp. 100-120.

• 眞木和俊, 図解 リーンシックスシグマ, ダイヤモンド社, 東京 (2012) .

• 独習UML, ジョセフ・シュムラー著, 長瀬嘉秀監訳, 翔泳社, 東京 (2002).

参考文献

Page 34: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

データ分析の体験的学習

説明サイトURL

https://www.fttsus.jp/datascience

Page 35: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

⓪ グループ構築

Page 36: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

自己紹介しましょう!

⚫ グループを作る⚫ 所属と業務内容についてチームメンバーに説明してください

Page 37: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

① なぜデータ分析をするのか?

Page 38: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

データ分析の基本作業

データ獲得

データ準備

データ可視化・分析

データ解釈

データ理解

必要なデータにたどり着くための作業(一度に全てのデータを得ようとしてはいけない)

データを可視化や分析作業ができるような形に整える作業

データを一見して理解できるような形にすることあるいは特徴量を取り出す作業

得られた図や特徴量から意味を読み取る作業(ストーリーが大切)

データやデータを作る業務内容について理解する

Page 39: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

データ分析までの事前準備に全作業工程の80%以上の時間を必要とする

データ獲得 データ準備

データ可視化・分析

デ|タ解釈

データ分析の真理

データ理解

データを作り出している業務理解を含む

Page 40: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

•科学的発見のためのデータの役割

•健康向上のためのデータの役割

•より良い統治を行うためのデータの利活用

•クラウドコンピュータ、分析、および他の技術的可能性

•技能と雇用に関するほかの関連性

•データ駆動型社会のための信頼性確保

•知識ベース資産としてのデータへの投資尺度

OECD: Data-driven innovation for growth and well-being

Page 41: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

•既存の行政組織内での活動または行政サービスを理解する

•既存の行政組織内での活動または行政サービスの課題を発見する

•既存の行政組織内での活動または行政サービスの改良方法を検討する

•未知の行政組織内での活動または行政サービスに対するニーズを

見つける

•新しい行政組織内での活動または行政サービスの仕様を作る

データを分析する目的

Page 42: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

データを分析する目的

データ駆動型の方法論(課題発見型)

目的駆動型の方法論(解決方法構成型)

課題が不明確な場合や、そもそも何が問題であるかも不明である場合に対象領域やデータ領域を決めてデータ分析や他の方法を通じて課題を発見する

解決したい課題が明らかである場合や、実施したい施策がすでにある場合に、その目的を達成する方法を検討する、または、その目的を達成するための組織を明らかする

Page 43: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

グループで共有してみて下さい

⚫どのような行政組織内のサービスを経験したことがありますか。⚫知っている行政サービスはどのようなものですか。⚫どのような業務がありますか。

問1チームメンバーと行政サービスに関するストーリーを

交換してみましょう

Page 44: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

グループで共有してみて下さい

行政サービス上の課題や問題はありますか。

• 思いつければ、課題や問題を書き出して下さい• なければ、なぜ課題や問題がないか説明して下さい

問2

Page 45: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

問3グループで共有してみて下さい

グループで挙げられた行政組織内のサービスを分類してみましょう。

活動推進経済財政社会政策安心安全地方改革選挙行政法人

都市計画建物・住宅教育産業福祉労働公務員

手続き統計人口データ情報地方自治財政・税司法

都市インフラ財務文化環境保全厚生観光

以下のどの業務に分類されるでしょうか。

http://www.e-gov.go.jp/help/public_comment/field.html

行政分野分類表(案)大分類より一部抜粋

Page 46: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

② データはどこにあるのか?

チームメンバーとオープンデータのデータ源を特定し、データの内容についてお互いに紹介してみましょう

Page 47: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

• 内閣官房

• 人事院

• 内閣府 公正取引委員会、警察庁、消費者庁

• 総務省 公害等調整委員会、消防庁

• 法務省

• 外務省

• 財務省 国税庁

• 文部科学省 文化庁

• 厚生労働省 中央労働委員会

• 農林水産省 林野庁、水産庁

• 経済産業省 資源エネルギー庁、特許庁、中小企業庁

• 国土交通省 観光庁、海上保安庁

• 環境省

• 防衛省

https://www.e-stat.go.jp

e-Stat 政府統計の総合窓口

政府統計の所管省庁

Page 48: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

医療施設調査, 科学技術研究調査, 家計調査, 学校基本調査, 学校保健統計調査, 学校教員統計調

査, 患者調査, 海面漁業生産統計調査, ガス事業生産動態統計調査, 漁業センサス, 牛乳乳製品統

計調査, 経済産業省企業活動基本調査, 経済産業省生産動態統計調査, 経済産業省特定業種石油

等消費統計, 経済センサス-基礎調査, 経済センサス-活動調査, 建築着工統計調査, 建設工事統

計調査, 小売物価統計調査, 国民経済計算, 国民生活基礎調査, 国勢調査, 個人企業経済調査, 工

業統計調査, 鉱工業生産・出荷・在庫指数, 港湾調査, 作物統計調査, 産業連関表, 住宅・土地統計

調査, 就業構造基本調査, 社会生活基本調査, 社会教育調査, 人口動態調査, 社会保障費用統計,

商業統計調査, 商業動態統計調査, 自動車輸送統計調査, 生命表, 全国消費実態調査, 全国物価統

計調査, 生産動態統計, 生産能力指数・稼働率指数, 石油製品需給動態統計調査, 船員労働統計調

査, 造船造機統計調査, 地方公務員給与実態調査, 賃金構造基本統計調査, 鉄道車両等生産動態

統計調査, 特定サービス産業実態調査, 内航船舶輸送統計調査, 農業経営統計調査, 農林業センサ

ス, 法人企業統計調査, 法人土地・建物基本調査, 毎月勤労統計調査, 埋蔵鉱量統計調査, 民間給

与実態統計調査, 木材統計調査, 薬事工業生産動態統計調査, 労働力調査

基幹統計調査

Page 49: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

オープンデータポータル

東京都

京都市

北海道 大阪府

和歌山県京都府

Page 50: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

上述で紹介したストーリーと関係する行政サービスと関連のあるデータをオープンデータで見つけてみましょう

どこにありますか?出来たら、グループで共有して

みて下さい

市役所、都道府県庁のホームページ、都道府県オープンデータポータル、市町村オープンデータポータル、行政統計の総合窓口e-Statに関する

データはないでしょうか?

PCを使って探してみましょう。5つ程度探してみてください

Page 51: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

③ データとデータ分析の方法

どのようなデータに対して、どのような分析と可視化がよいのか?

見つけたデータを分類してみて、可能な分析方法や可視化方法について議論してみましょう。

Page 52: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

データの種類

加算できる値(数量) 体重、人口、労働者数など

加算できない値(比率や効率) 温度、速度、人口密度など

文字表現した属性 大阪府、京都府、1m以上3m未満など

属性

インデックスで表現された属性 001, 0a3a1, 1, 2, 3など

表現 → 時系列データ、空間データ、関係データ(ネットワークデータ)、テキストデータ、画像データ

Page 53: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

〇データフォーマットに合わせたデータの取り扱い方法がある⚫エクセルファイル (いわゆる紙エクセルファイルの場合抜き出し操作が必要)⚫CSVファイル (エクセルファイルより取扱が簡単であるが、日本語ではエンコーディングにより文字化けする場合がある)⚫PDFファイル (特殊なソフトウエアまたはコピー&ペーストによりデータの抽出作業が必要となるため、データ分析に極めて手間がかかる)などファイルによってデータの抜き出し方法が異なる⚫画像ファイル(Geotiff形式)や空間データ(Shapefile形式)用途特殊ファイル (読み込み、取り扱いのために専用のソフトウエアとライブラリを必要とする)

提供されるデータはデータを分析・可視化ソフトウエアに読み込める形に事前に成形する作業(データ準備)を必要とする

データフォーマットの分類

Page 54: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

データ準備上の問題点

• 異なる時間的地点でのデータが異なるファイルやシートに含まれている

• データ理解や業務理解には必要であるが、データ分析そのものには不要な説明がデータファイルに多数含まれている

• 日本語のエンコーディングには3種類(JIS, SJIS, UTF-8)が存在しており、OSやソフトウエアに依存して文字化けを起こす

• エクセルのセル連結が行われておりフィールド名が階層的になっている(統計表で多い)

• 人手でデータの抜き出しを行うには作業量が大きい→コンピュータプログラムによる自動化が必要

Page 55: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

• X軸に時間Y軸に値をとって可視化する

時間, 値1, 値2

T1, V1, W1

T2, V2, W2

T3, V3, W3

時系列データ

T1 T2 T3 T4 …..

T1 T2 T3 T4 …..時間

時間

棒グラフ

折れ線グラフ

図示の例

時間的な傾向を理解する

月〇〇市推計人口(千人)

12

13

14

15

16

17

男性

女性

凡例、軸、めもり、単位

・変化を見やすい・複数のデータは重ねられない・値を記すなどして定量的表現も可

・複数データを重ねられる・複数データの比較が可能・値が大きく違うデータには不向き

V1

V2

V4V3

Page 56: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

•点データ

点と値または属性の組

• ポリゴン(多角形)データ

多角形を表現する点集合と値または属性の組

• グリッドデータ

格子を表現する区画番号または区画座標と値または属性値の組

• X軸に時間Y軸に場所をとって値を色の濃さまたはアイコンの大きさ、矢印の長さなどで可視化する

位置X, 位置Y, 値1, 値2

X1, Y1, V1, W1

X2, Y2, V2, W2

X3, Y3, V3, W3

空間データ

空間的な配置傾向を理解する

緯度

経度

西 東

Page 57: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

空間データ

• コンテキストを空間上の座標ごとにプロットする

【問題点】

・住所の場合は住所を位置座標に変換する操作が必要→ジオコーディング

空間データの例 MESHSTATSよりhttps://www.meshstats.xyz/meshstats

Page 58: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

大阪市の外国人女性人口のメッシュ統計

同一メッシュの男性人口と女性人口とをプロット

2015年総務省統計局国勢調査外国人男性・女性人口のヒートマップ

散布図の例

Page 59: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

•複数データの関係を考える方法として散布図を用いた分析方法がある

• 2つの時系列X(t)とY(t)との間に関係性があるかを知りたい• 国内総生産が増えると電力消費量も増えているのか?

• スーパーにおいてビールが売れるとオムツも売れるのか?

回帰分析

X

Y 傾向を理解するには回帰分析を用いる

線形回帰分析(1次式) 𝑌 = 𝑎𝑋 + 𝑏

メッシュ統計を利用すると空間分析でも利用可能

直線傾向(係数)は? その直線は統計的に優位であるか?

Y=aX+b

全てのデータ点から最も乖離が少ない直線を引いてみよう

散布図

Page 60: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

T個のデータX(t),Y(t)に対して2乗誤差を定義

E最小値を実現するaとbを求めるためEをaとbで偏微分して0と置く(正規方程式)

𝐸 =

𝑡=1

𝑇

𝑌 𝑡 − 𝑎𝑋 𝑡 − 𝑏 2

𝜕𝐸

𝜕𝑎= 0

𝜕𝐸

𝜕𝑏= 0

𝜕𝐸

𝜕𝑏=

𝑡=1

𝑇

2 𝑌 𝑡 − 𝑎 + 𝑏𝑋 𝑡 (−𝑋 𝑡 )

= 2

𝑡=1

𝑇

𝑋(𝑡) 𝑎 + 𝑏𝑋 𝑡 − 𝑌(𝑡) = 0

𝜕𝐸

𝜕𝑎=

𝑡=1

𝑇

2 𝑌 𝑡 − 𝑎 − 𝑏𝑋 𝑡 (−1)

= 2

𝑡=1

𝑇

𝑎 + 𝑏𝑋 𝑡 − 𝑌(𝑡) = 0

𝑇𝑎 =

𝑡=1

𝑇

𝑌 𝑡 − 𝑏

𝑡=1

𝑇

𝑋(𝑡) 𝑎 =1

𝑇

𝑡=1

𝑇

𝑌 𝑡 − 𝑏1

𝑇

𝑡=1

𝑇

𝑋(𝑡)

𝑎

𝑡=1

𝑇

𝑋 𝑡 + 𝑏

𝑡=1

𝑇

𝑋(𝑡)2 −

𝑡=1

𝑇

𝑋 𝑡 𝑌 𝑡 = 0

1

𝑇

𝑡=1

𝑇

𝑌 𝑡 − 𝑏1

𝑇

𝑡=1

𝑇

𝑋(𝑡)

𝑡=1

𝑇

𝑋 𝑡 + 𝑏

𝑡=1

𝑇

𝑋(𝑡)2 −

𝑡=1

𝑇

𝑋 𝑡 𝑌 𝑡 = 0

𝑏 =σ𝑡=1𝑇 𝑋 𝑡 − σ𝑡′=1

𝑇 𝑋(𝑡′)/𝑇 𝑌 𝑡 − σ𝑡′=1𝑇 𝑌(𝑡′)/𝑇

σ𝑡=1𝑇 𝑋 𝑡 − σ𝑡′=1

𝑇 𝑋(𝑡′)/𝑇2

最適な回帰係数aとbをデータX(t),Y(t)から決定することができる

回帰係数の導出

Page 61: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

正則化済み不完全ベータ関数

t-検定

帰無仮説: 𝑎 = 0対立仮説: 𝑎 ≠ 0

𝑡 =ො𝑎 − 0

ො𝜎/ σ𝑡=1𝑇 𝑋 𝑡 − σ𝑡=1

𝑇 𝑋(𝑡)/𝑇2

ො𝜎2 =1

𝑇 − 2

𝑡=1

𝑇

𝑌 𝑡 − ො𝑎𝑋 𝑡 − 𝑏2

t値

t値が大きい←→回帰係数推定値は0から大きく乖離(帰無仮説棄却)

t値が小さい←→回帰係数推定値は0に近い(帰無仮説棄却できない)

両側検定

𝑝 = 2 − 2𝛽𝑡 + 𝑡2 + 𝑇 − 2

2 𝑡2 + 𝑇 − 2;𝑇 − 2

2,𝑇 − 2

2

𝛽 𝑥, 𝑐, 𝑑 =0𝑥𝜏𝑐−1 1 − 𝜏 𝑑−1𝑑𝜏

01𝜏𝑐−1 1 − 𝜏 𝑑−1𝑑𝜏

p値が0.01や0.05などの有

意水準以下であれば帰無仮説を棄却して対立仮説を採用する

t検定を用いることにより推定された回帰係数がどれほ

ど統計的に有意に意味ある値であるかを定量的に判断できます。

このt値は自由度T-2のt分布に従って分布することが知られているので、tの値が外れ値となる確率を調べれば有意水準が検定できる。

p/2 p/2

1-p

t

p(t)

t分布の概念図

p値

Page 62: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

ヒストグラム

・階級別に階級に含まれる数や割合を棒グラフまたは折れ線グラフで表示

平成28年社会生活基本調査で示されている概要例より

Page 63: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

④ データの分析

データを分析、可視化してみましょう。どのようなデータを使いましたか。

そのデータはどこにあり、データに含まれる項目、その意味についても説明してください。

Page 64: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

集めたデータを使って図の可視化を行ってみましょう。

集めたデータを分析してみて傾向を定量的に

つかんでみましょう。

1枚の図を作ってみてください。

⚫課題や問題が見つけられないことはありますか?

⚫どのようなデータが不足していると思いますか?

⚫どのようなデータがあればよいでしょうか?

⚫そのデータを保持しているまたは保持しているべき行政上の組織はどこでしょうか?

図についてチームメンバーに説明してみましょう

チームで議論してみましょう

Page 65: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

月ごとに異なるシート フィールド名は3段セルの連結で表現

統計表の説明 年齢別推計人口【5歳階級別】(平成27年11月1日~平成28年10月1日)

http://www.city.osaka.lg.jp/toshikeikaku/cmsfiles/contents/0000015/15211/nenrei201511_201610.xlsx

エクセルファイルの例

Page 66: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

• 5年に1度の国勢調査から集計される人口に対して、住民基本台帳上の出生届、死亡届、転入、転出に基づき増減から毎月報告

(注)1 本市の推計人口は、平成27年10月1日現在の国勢調査結果に「住民基本台帳(日本人・外国人民)」の月々の異動を加減して算出している。

2 社会動態のうち「転入」、「転出」は市内の区相互間を含む。

3 社会動態のうち「その他」は職権による記載及び消除等による。4 面積は平成29年10月1日現在(国土地理院発表)。なお、四捨五入の関係で、各区の面積

の合計は総数と一致しない。

大阪市の推計人口の作成方法

Page 67: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

•世帯数及び人口は,直前の国勢調査の結果を基にし,これに住民基本台帳等上の世帯及び人口の増減数を加減することにより求める。

京都市役所では行政区の他国勢統計区での集計結果も公表している

https://www2.city.kyoto.lg.jp/sogo/toukei/Population/index.html#maituki

国勢統計区:5年毎で実施される国勢調査を行うための基本調査区、国勢調査毎で設計される

統計表の説明

統計表の説明

京都市の推計人口

Page 68: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

開発環境 RStudio (https://www.rstudio.com/products/rstudio/#Desktop)実行環境 R (https://www.r-project.org/)

データ抜き出しと分析のためのソフトウエア

Page 69: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

• R言語library(xlsx)getdata <- function(index,yyyymm){a<-read.xlsx("nenrei201511_201610.xlsx",index,encoding="UTF-8")name <- a[8,1] # 大阪市pop <- a[8,2] # 総数male <- a[8,3] # 男性female <- a[8,4] # 女性st<-sprintf("%s,%s,%s,%s,%s¥n",yyyymm,name,pop,male,female)

# cat(st)return(st)

}

ofile<-"out.csv"hh<-sprintf("yyyymm,name,pop,male,female¥n")cat(file=ofile,hh,append=F)yyyymm <- c("2016.10","2016.9","2016.8","2016.7","2016.6","2016.5","2016.4","2016.3","2016.2","2016.1","2015.12","2015.11")for(i in length(yyyymm):1){st<-getdata(i,yyyymm[i])cat(st)cat(file=ofile,st,append=T)

}

データの抜き出しを自動的におこなう

Page 70: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

yyyymm,name,pop,male,female

2015.11,大阪市,2692763,1303217,1389546

2015.12,大阪市,2692960,1303294,1389666

2016.1,大阪市,2693239,1303379,1389860

2016.2,大阪市,2693201,1303290,1389911

2016.3,大阪市,2692845,1303123,1389722

2016.4,大阪市,2694610,1303317,1391293

2016.5,大阪市,2699164,1305517,1393647

2016.6,大阪市,2699636,1305881,1393755

2016.7,大阪市,2700732,1306487,1394245

2016.8,大阪市,2701880,1307036,1394844

2016.9,大阪市,2701728,1307108,1394620

2016.10,大阪市,2702033,1307162,1394871

時系列

散布図

出力結果

Page 71: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

a<-read.csv(file="out.csv")

plot(a$male,a$female)

xx<-a$male

yy<-a$female

res<-lm(formula=yy~xx)

summary(res)

Call:lm(formula = yy ~ xx)

Residuals:Min 1Q Median 3Q Max

-449.4 -355.3 -165.4 109.2 1168.7

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) -2.891e+05 1.157e+05 -2.497 0.0316 * xx 1.288e+00 8.870e-02 14.525 4.76e-08 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 520.2 on 10 degrees of freedomMultiple R-squared: 0.9547, Adjusted R-squared: 0.9502 F-statistic: 211 on 1 and 10 DF, p-value: 4.761e-08

Y=aX+b

aはt検定により統計的に優位な回帰係数

a=1.288>1なので女性は男性より若干増え方が大きい

t値とp値

女性の人口yyを男性の人口xxで説明する

線形回帰分析

Page 72: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

693,000

693,500

694,000

694,500

695,000

695,500

696,000

696,500

697,000

697,500

698,000

1月 2月 3月 4月 5月 6月 7月 8月

京都市 平成30年の男性人口

771,000

771,500

772,000

772,500

773,000

773,500

774,000

774,500

1月 2月 3月 4月 5月 6月 7月 8月

京都市 平成30年の女性人口

京都市では2018年の1月から8月までの間に人口が約2,000人減少した。2018年1月から4月までの間に約4,000人減少し, 2018年5月に約4,500人増加した。この減少と増加は4月の卒業と入学および転勤にともなう転入出だろう。

京都市の推計人口

yyyymm,name,pop,male,female2018.1,京都市, 1471722 ,697435 ,774287 2018.2,京都市, 1470627 ,696976 ,773651 2018.3,京都市, 1468963 ,696178 ,772785 2018.4,京都市, 1466937 ,694741 ,772196 2018.5,京都市, 1471237 ,696984 ,774253 2018.6,京都市, 1470782 ,696809 ,773973 2018.7,京都市, 1470544 ,696696 ,773848 2018.8,京都市, 1469653 ,696312 ,773,341

https://www2.city.kyoto.lg.jp/sogo/toukei/Population/index.html#maituki

Page 73: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

• 行政記録情報といわゆる業務統計調査等との関係資料

総務省政策統括官室(統計基準担当)

地方公共団体内で保有されている情報は、国がアクション無しに当該デー

タを入手する仕組みは存在しない(国は既存の行政記録情報を保有してい

ない)

行政記録情報をいわゆる「業務統計」として使用することで、業務の参考・

基礎情報を得るために集計、または、統計法上の統計作成に活用している

いわゆる業務統計

Page 74: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

・統計調査

①国の行政機関が実施する統計調査(機関統計調査、一般統計調査)

②地方公共団体が実施する登記調査

③独立行政法人が実施する登記調査

・いわゆる業務統計調査

①行政機関等がその内部においておこなうもの

②統計法およびこれに基づく命令以外の法律または政令において、行政機関等に対し、報告を求めることが規定されているもの

③政令で定める行政機関等が政令で定める事務に関して行うもの

統計法第2条第5号ただし書による除外 → いわゆる「業務統計」

統計法上の「統計調査」といわゆる「業務統計調査」

Page 75: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

•統計法上の統計調査

法的根拠 統計法第9条ほか

承認手続き 総務大臣の承認必要

備考 強制力を伴う報告義務が基幹統計調査には存在

• いわゆる「業務統計調査」

法的根拠 個別の法令

承認手続き 総務大臣の承認なし

備考 行政力を伴う報告義務なし(個別の法令に従う)

統計法上の「統計調査」といわゆる「業務統計調査」

Page 76: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

住民基本台帳法(昭和四十二年法律第八十一号)

施行日: 平成三十年六月十五日

最終更新: 平成三十年六月八日公布(平成三十年法律第四十四号)改正

第一章 総則

(目的)

第一条 この法律は、市町村(特別区を含む。以下同じ。)において、住民の居住関係の公証、選挙人名簿の登録その他の住民に関する事務の処理の基礎とするとともに住民の住所に関する届出等の簡素化を図り、あわせて住民に関する記録の適正な管理を図るため、住民に関する記録を正確かつ統一的に行う住民基本台帳の制度を定め、もつて住民の利便を増進するとともに、国及び地方公共団体の行政の合理化に資することを目的とする。

(国及び都道府県の責務)

第二条 国及び都道府県は、市町村の住民の住所又は世帯若しくは世帯主の変更及びこれらに伴う住民の権利又は義務の異動その他の住民としての地位の変更に関する市町村長(特別区の区長を含む。以下同じ。)その他の市町村の執行機関に対する届出その他の行為(次条第三項及び第二十一条において「住民としての地位の変更に関する届出」と総称する。)がすべて一の行為により行われ、かつ、住民に関する事務の処理がすべて住民基本台帳に基づいて行われるように、法制上その他必要な措置を講じなければならない。

(市町村長等の責務)

第三条 市町村長は、常に、住民基本台帳を整備し、住民に関する正確な記録が行われるように努めるとともに、住民に関する記録の管理が適正に行われるように必要な措置を講ずるよう努めなければならない。

住民基本台帳法

Page 77: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

• 第十一条の二 市町村長は、次に掲げる活動を行うために住民基本台帳の一部の写しを閲覧することが

必要である旨の申出があり、かつ、当該申出を相当と認めるときは、当該申出を行う者(以下この条及び第

五十条において「申出者」という。)が個人の場合にあっては当該申出者又はその指定する者に、当該申出

者が法人(法人でない団体で代表者又は管理人の定めのあるものを含む。以下この条及び第十二条の三

第四項において同じ。)の場合にあつては当該法人の役職員又は構成員(他の法人と共同して申出をする

場合にあつては、当該他の法人の役職員又は構成員を含む。)で当該法人が指定するものに、その活動

に必要な限度において、住民基本台帳の一部の写しを閲覧させることができる。

• 一 統計調査、世論調査、学術研究その他の調査研究のうち、総務大臣が定める基準に照らして公益性

が高いと認められるものの実施

• 二 公共的団体が行う地域住民の福祉の向上に寄与する活動のうち、公益性が高いと認められるものの

実施

• 三 営利以外の目的で行う居住関係の確認のうち、訴訟の提起その他特別の事情による居住関係の確認

として市町村長が定めるものの実施

住民基本台帳法

Page 78: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

•ポイントデータ

・緯度と経度

・住所

•地域メッシュ統計

・地域メッシュコード

空間データの例

2010年国勢調査人口3次メッシュ統計

合計: 180,218 3次メッシュ

2010年の合計人口: 128,057,346 人

2010年総務省統計局国勢調査人口3次メッシュ統計

Page 79: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

0 1 2 3 4 5 6 7

0 1

2 3

4 5

6 7

0 1

2 3

4 5

6 7

8 9

0 1 2 3 4 5 6 7 8 9

5438

5438-23

5438-2343

80kmメッシュ40 arc-minutes for latitude1 arc-degree for longitude

10kmメッシュ5 arc-minutes for latitude7.5 arc-minutes for longitude

1kmメッシュ30 arc-seconds for latitude45 arc-seconds for longitude

3 41 2

3 41 2

3 41 2

5438-2343-1

5438-2343-11

5438-2343-111

125mメッシュ3.75 arc-seconds for latitude

5.625 arc-seconds for longitude

500mメッシュ15 arc-seconds for latitude22.5 arc-seconds for longitude

250mメッシュ7.5 arc-seconds for latitude11.25 arc-seconds for longitude

例:京都大学を含む3次メッシュ52354632 79

地域メッシュコード(JIS X0410)

Page 80: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

•JIS X0410はメッシュ統計を作成するために必要とされるメッシュコードの定義を与える日本工業規格

• JIS X0410は1976年に日本工業規格として承認される ( )

( )

( )

( )

( ) 454560:

digit) one is ( 4560:

5.75.760:

digit) one is ( 5.760:

100longitude:

digits) twois ( 100longitude:

303060:

digit) one is ( 3060:

55:

digit) one is ( 5:

404060latitude:

digits) twois ( 4060latitude:

−=

=

−=

=

−−=

−=

−=

=

−=

=

−=

=

wgh

wgw

vfg

vfv

uf

uu

rbc

rbr

qab

qaq

pa

pp

3次メッシュコード= puqvrw

1次メッシュコード(4 digits)

2次メッシュコード(6 digits)

3次メッシュコード (8 digits)1km gird square30 arc-seconds for latitude45 arc-seconds for longitude

80km grid square40 arc-minutes for latitude1 arc-degree for longitude

10km grid square5 arc-minutes for latitude7.5 arc-minute for longitude

メッシュコード (JIS X0410)

Page 81: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

スポットを選んでクリックする

統計情報可視化システムMESHSTATS

https://www.meshstats.xyz/meshstats/

Page 82: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

人口メッシュ統計のヒートマップ 2015年総務省統計局国勢調査

Page 83: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

年齢階級別人口メッシュ統計のヒートマップ 2015年総務省統計局国勢調査

Page 84: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

年齢別人口のヒートマップ 2015年総務省統計局国勢調査

Page 85: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

⑤ データからストーリーを作る

データ分析の結果に着目し、行政組織内での活動や行政サービスを提供するべき組織と行政サービスを受けるべき人(市民、企業、行政上の部署)についてその特徴を特定してみましょう

Page 86: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

データ分析・可視化をした図を用いて

その規模や場所、又は、頻度について数値的に説明してみて下さい

行政サービスの受益者のストーリ

行政組織内での活動や行政サービスを提供する組織の

ストーリー

グループで共有してみて下さい

Page 87: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

ペルソナデザイン

ペルソナデザインとはペルソナと呼ばれる対象となる人物(行為主体)を詳細に決定し、これをグループ作業で共有することを通じて行為主体の体験の時間的発展ジャーニーマップにより記述することで、体験のシミュレーション・設計を行う技法。主としてUXやCXの手法として発展してきた。

Page 88: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

•行政組織内での活動や行政サービスを実施する人がどのような人

であるかを設計します。

•行政組織内での活動や行政サービスにより利益を受ける人(受益者)がどのような人であるかを設計します。

✓男性か女性か?

✓どのような人物像であるか

✓どのような嗜好があるか

誰が 誰に

どのように

何を提供するのか?

ペルソナ

Page 89: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

エピソード

大学時代はコンピュータプログラミングに没頭し、IT企業に就職した

が、現在は市役所に転職して市民課で働く。

現在の仕事の役割

現在の職務内容はOO市担当市民

課。趣味としてコンピュータプログラムを今でもつづける。

将来の夢

データコンペで市役所チームを結成して優勝したい。

個人情報

名前:山田太郎年齢:39歳性別:男性部署:〇〇市役所居住地:京都市大学:京都大学工学部

情報源

インターネットとFacebookを日常的に行う。朝は新聞を読む。

顔写真

https://charat.me/avatarmaker/start/CHARAT AVATAR MAKERを使用

ペルソナシート (例) OO市役所職員の例

Page 90: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

エピソード 現在の仕事の役割 将来の夢

個人情報

名前:年齢:性別:部署:居住地:大学:

情報源 顔写真

ペルソナシート (練習) OO市居住者

Page 91: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

• ポジティブネガティブに感じることを曲線で表現して、ストーリーを書き出してみる

• 今考えている行動を時系列順に列挙してみる

• 列挙した行動ごとに思うことを書き出してみる

• 考え・感情から課題がないかを考えてて書き出してみる

• もし思いつけば、課題の解決方法や改善方法も検討してみる

感情曲線

行 動

考え・感情

課 題

時間の進行方向

ストーリーをジャーニーマップで表現する

• 顧客の体験の時間的変化を時系列として視覚的に表現した図

Page 92: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

ジャーニーマップ

感情曲線

行 動

考え・感情

課 題

時間の進行方向

市役所職員山田太郎さんの業務体験

転入届の書類を受け取る

届の内容確認

書き方の指導 受理

届に誤りはないだろうか?

心配言い回しは適切か?

ほっと安心

手書きの記入用紙

様式が複雑受理の後で間違え発見

ポジティブ

ネガティブ

Page 93: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

ジャーニーマップ (練習)

感情曲線

行 動

考え・感情

課 題

時間の進行方向

OO市居住者の□さんの転入届け提出

ポジティブ

ネガティブ

Page 94: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

ジャーニーマップ (回答例)

感情曲線

行 動

考え・感情

課 題

時間の進行方向

OO市居住者の□さんの転入届け提出

書類をもって市役所に行く

用紙に必要事項を記入

受付に提出必要事項確認 受理

市役所の窓口はどこ?

記入内容なんだっけ?

順番来ないかな?

まだ終わらないかな?

転入届提出に時間を要数

本人確認の方法と手間

ポジティブ

ネガティブ

Page 95: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

比較分析

感情曲線

受付に提出

転入届の書類を受け取る

書き方の指導

必要事項の確認

受理

受理

市役所職員山田太郎さん

住民□さん

書類をもって市役所に行く

用紙に必要事項を記入

市役所職員山田太郎さん住民□さん

既に窓口に来る時点でネガティブな感情を有している

書き方が適切かを確認する作業とその説明に神経を使う

Page 96: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

• ユースケースは、システムの用途を示す一連のシナリオ(scenario)で構成されています。

• それぞれのシナリオは、人間、外部システム、ハードウェアの一部、時間の経過などによって起動する一連のイベントを表現しています。

• イベントを起動する実体をアクター(actor)と呼びます。

• イベントを起動したアクターやその他のアクターは、イベントの実行結果から何かの利益を得ることになっています。

ユースケース図

ユースケース

システム

アクターアクター

Page 97: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

転入届け申し込み用紙を記入して提出する

記入用紙を準備する

転入届けの記入内容を確認する

転入届を受理してシステムに入力する

住民 役所担当者

市役所(区役所)受付窓口

ユースケースの例(住民票転入届け)

Page 98: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

⑥ 課題発見と課題解決方法

表現した行政組織内での活動や行政サービスを提供する組織のストーリーを実現する担当者の業務手順を書き取って

見てみましょう

課題は見つかられますか?改善点は見つかりますか?

Page 99: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

• 物語として行動の時系列を文章化してみる

• 今考えている業務に関する行動を時系列順に列挙してみる

• 列挙した行動ごとに思うことを書き出してみる

• 思うことから課題がないかを考えてて書き出してみる

• もし思いつけば、課題の解決方法や改善方法も検討してみる

物 語

業務フロー

思う こと

課 題

時間の進行方向

データから見える事柄を文章で表現する

Page 100: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

物 語

業務フロー

思う こと

課 題

住民票の転入転出手続き

区ごとに集計

市役所で集約

決済後HPで公開

データを商売に利用

転入転出手続きが集中する時期(3月、4月)がある

・住基推計に誤差が混入

・人口データを利用する人はそもそも誰なのか?

・忙しくない時期と忙しい時期で担当者の数は同じなのか?・しばしば入力ミスが存在する

市民は人口統計をあまり必要としていないかも。真に必要なのは

行政組織の別の部署が業務の正確な実行とその把握をすることではないか。

住基ネットができているが結局は人が足を運んで行列を作り作業をしている

統計データの利用者へのリーチが弱いかもしれない。

月次人口推計は住民票の転入転出手続きの数から人口変化を読みとり作成されている。

月次人口推計の物語

Page 101: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

⑦ レポーティング

• 以上で作成した4~6をまとめてレポートとしてまとめてみましょう。

• レポートは①見出し、②ストーリー、③データから見える現状(データ分析から得られた図)、④課題、⑤課題を改善するための方法などを含みます。

Page 102: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

レポート作成のツール

スクリーンショット

文章作成

コラージュ

グラフ作成

MSワードやメモ帳など文章作成ソフト

Snapping toolなどのスクリーンショット作成ソフト 画像検索(注1)とパワーポイントなどを使った張り合わせ

エクセルやRなどでグラフを作成する

(注1)インターネットで公開されている画像を使ってコラージュする場合は画像の著作権に注意してください。特に、最終成果物を公表する場合は著作権の問題が発生しないように画像を選定して使用するようにしてください。

Page 103: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

記入日:

物語

データから見える現状(データ

分析から得られた図や表)

課題

集計は原理的には短期間にできるが、公表までには手続きが多く、実際に集計から公表までは時間を要する。

課題を改善するための提案

推計人口統計活用の可能性について

690,000

695,000

700,000

1月2月3月4月 5月6月7月8月

京都市 平成30年の男性

人口

770,000

775,000

1月2月3月4月 5月6月7月8月

京都市 平成30年の女性

人口

住民が転入・転出時に提出する住民票届けを基に、住基人口として集計し毎月推計人口としてホームページに公表

誰のために作成して公表している月次推計人口であるかを判明させることで必要とする精度や集計方法、公表方法を調整できる可能性がある

京都市では人口が減少した。この減少と増加は4月の

卒業と入学及び転勤に伴う転入出

だろう。

メンバー氏名

ストーリー

データから見える現状

課題

改善策

ストーリー(物語)の中にデータ分析結果を含めることにより、定量的または客観的な事実から課題に触れるとよい

Page 104: オープンデータを用いた データ分析方法の体験的学習...オープンデータを用いたイノベーション イノベーション:これまでに重要視されてこなかった技術的組織的組み合わせを発見し組織的に利用すること

• データ分析の8割はデータの準備(データ獲得、データ理解、データ加工)に費やされている

• データ分析の結果を意思決定に利用するためにデータに基づくストーリーの作成(アクター

の特定+行動)と、業務フロー(またはデータ生成過程)の描写に基づく課題抽出が有効で

ある

• レポーティングを通じてデータ分析から得られた知見と、その知見から得られる動作を

第三者へ伝えられるように表現し、伝達可能な形とすることによりデータを単なる「記号」

から人々の行動へ変化を与えうる生きた「論拠」へと変換することが可能である

• データ分析の体験的学習で獲得した方法論をぜひ皆さんの周囲の人と一緒に利用し、

データ利活用の和を広げていく一助としていただきたい

まとめ