Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、...

24
ビッグデータがせまる人への投資と サービスの高度化 樋口知之 (情報・システム研究機構 統計数理研究所) BODIK@福岡 平成25122() 1/77 アウトライン 2/77 1.ビッグデータとは 2.アナリティクスの4つの落とし穴 3.予測とモデル 4.4つの利用レベルのステージ 5.日本固有の問題点 6.対応策: 人材育成 A.データサイエンティスト育成ネットワーク B.データサイエンティスト協会 1.ビッグデータとは 3/77 100Gb/day /sequencer Data processing Data Storage Data generation 4 4/77 (Science, 2011) 10 7 10 3 10 3

Transcript of Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、...

Page 1: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

ビッグデータがせまる人への投資とサービスの高度化

樋口知之 (情報・システム研究機構 統計数理研究所)

BODIK@福岡平成25年12月2日(月)

1/77

アウトライン

2/77

1.ビッグデータとは

2.アナリティクスの4つの落とし穴

3.予測とモデル

4.4つの利用レベルのステージ

5.日本固有の問題点

6.対応策: 人材育成A.データサイエンティスト育成ネットワークB.データサイエンティスト協会

1.ビッグデータとは

3/77

100Gb/day/sequencer

Data processing

Data Storage

Data generation

44/77 (Science, 2011)

107

103103

Page 2: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

ビッグデータとは?

Researchers in a growing number of fields are generating extremely large and complicated data sets, commonly referred to as "big data."

http://www.nsf.gov/news/news_images.jsp?cntn_id=123607

課題: 気象学、ゲノミクス、コネクトミクス、複雑な物理シミュレーション、環境生物学、インターネット検索、経済学、経営情報学

データの源: モバイル機器に搭載されたセンサー、リモートセンシング技術、ソフトウェアのログ、カメラ、マイクロフォン、RFIDリーダー、無線センサーネットワーク ウィキペディアより

5/77

3V: 量(Volume)、種類(Variety)、頻度(Velocity)

5V: 価値(Value)、情報の正確さ(信憑性)(Veracity)

インターネット上のデータはごく一部

http://blog.kumadaiworks.jp/2012/02/10/tip_of_the_iceberg_1/

インターネットコンテンツ

サーベイランス、セキュリティ

6/77

テキストデータ

・生活を“まるごと”とらえた結果・支配方程式のない現象も科学へ

ビッグデータがなぜ大切か?

7/77

ビッグデータ環境下における研究開発推進の鍵

ビッグデータは

「価値密度」がかなり低い(統計数理研究所 丸山; PFI 岡野原 談)

8/77

Page 3: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

価値(←目的による!)密度の定義

9/77

価値密度(目的)=価値総量(目的)

データ総量 Volume

10/77

多くのプロセスに分解

抽象物を対象にすると誰もプロセスに分解できない!

Data cleansing, Data Editing, Data Curating

データ処理の流れ

13年前の資料から

Big data techniques and technologies

・TECHNIQUES FOR ANALYZING BIG DATA

・BIG DATA TECHNOLOGIES

・VISUALIZATION

Big table, Business intelligence, Cassandra, Cloud computing, Hadoop, MapReduce, Relational database, Stream processing

Tag Cloud Spatial Information Flow

統計科学、数理工学

計算機科学、情報工学

11/77

3 or 4大 解析要素技術分野

12/77

最適化

機械学習統計学

マイニング超高速文字検索処理

データマイニング

Page 4: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

2.アナリティクスの『4つの落とし穴』

13/77

ビッグデータの操作に没頭して本質を見逃す危険性

14/77

スモールデータの取り扱いの十分な理解無くしてビッグデータによる成功ありえず。

■ 1パラメータの値を、0~9の値から定める。

パラメータ数が2個(p=2)なら、10 x 10 =100 通り計算すればよい。

p=10 : 100億 (世界の人口が約70億人)

p=15 : 1000兆 (「京」の計算速度は8000兆回/秒)

p=20 : 1垓(がい) (ルービックキューブの全パターン数の約2倍)

落とし穴1:ビッグデータと新NP問題

pf ,,)(.max 1 離散最適化問題

101015102010

10150 将棋のゲーム木の大きさ10365 囲碁のゲーム木の大きさ Wikipediaより

スパースなデータ空間を N(サンプル数)

の増大だけでカバーする(埋める)のは原理的に無理。データ空間の中で構造を見つける方法が鍵。

15/77

異質性セレクションバイアス:販促のマイナス効果(価格プロモーションとリピート購買率)、ウェブサイトのページビュー数、顧客ロイヤリティとCRM

(阿部、2013)

既存顧客 (A, a) vs. 新規 (B, b)

率(頻度,指標)がくせもの

16/77

リピート購買率=a +bA +B

A: ターゲットの総数a: アクション(購買)数B: 興味のない集団の人数b: アクション(購買)数

コンバージョン率クリック率

Page 5: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

17/77

落とし穴2:列挙処理、相関と因果 Granger causality

18/77

広告予算:プロモーション研究開発費

売上げ 利益x5%

時間軸

• データのタイムスタンプとラグの最適化• 介在効果のモデル化

広告費

売上げ

データ毎にそれが獲得(定義)される間隔はさまざま

2003 Nobel Memorial Prize in Economic Sciences (from Wikipedia)

売上げ

広告費

落とし穴3:全てのデータを取り扱う意味帰納法の弱点

http://sts-concrete.seesaa.net/index-2.html

サンプル(実現値)で構成される分布

外れ値異常値

『端にこそイノベーションの卵』• 新発見、ひらめき• クレーム(PL法対応)

そうでなければサンプリング(標本抽出)によって一部のデータを分析することで十分(費用対効果を最初から考えること)

実際は高次元なので、端をみつけるのは意外と大変

19/77

『テイルがビッグデータの醍醐味』(喜連川 NII所長 談)

外れ値の多様な呼称(PFI 比土:Jubatus TL)

http://www.slideshare.net/shoheihido/fit2012

20/77

Page 6: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

21/77

ボナンザ(保木 氏作)

論理思考とデータ解析の組み合わせ

探索:巨大な状態空間の中の効率的、効果的な力づく探索

○全幅検索と選択検索のハイブリッド

機械学習:6万局の棋譜データ(※)から、評価関数のパラメータを自動生成。↑の“効果的”の源泉。

※プロの公式戦の対局3万局と将棋倶楽部24の3万局

2006年5月 第16回世界コンピュータ将棋選手権大会優勝

落とし穴4:内挿と外挿問題

データデータ無しの領域

22/77

いろいろなビジネス展開が可能

23/77

フォワード計算モデル 現況を捉える認識力

移流と拡散 + クラウドソーシング = 予測能力

u

D

スマホ(とGPS)

ttt 内挿

情報の不確実性(多人数からのレポート:多様なノイズの混在)

ゲリラ豪雨、みんなで予測

24/77

ゲリラ豪雨は大気が不安定になると現れる積乱雲に着目し、発生を予測する。ところが、雲が数キロ以上の大きさになるまでレーダーで捉えにくいうえ、積乱雲は急速に発達するため、レーダーが捉えた時には既に手遅れになっている場合もある。

同社は5年前から、夏季限定で全国各地で登録した防衛隊員らに、近所や出先で見かけた雲の写真や情報をメールで送ってもらい、雲の色や送られた情報などで危険度を自動的に識別。ゲリラ豪雨がどこで起きるかを予測している。昨年8~9月の日中に発生が確認されたゲリラ豪雨の件数の9割以上を的中させた。平均56分前に警戒メールの送信ができたという。

(朝日新聞デジタル 2013/08/15)

Page 7: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

アサギマダラ

25/77

フォワード計算モデル 現況を捉える認識力

移流と拡散 + クラウドソーシング = 予測能力

スマホ(とGPS)

アサギマダラ 移動追跡のマーキング会 http://blog.livedoor.jp/dzb16113/archives/51836076.html

高知県香美市林道2011年10月20日

中国・香港2011年12月31日

http://www2h.biglobe.ne.jp/~pen/asaginet000.htm

Nowcasting と Forecastingプローブデータの活用:通常時にはきわめて有効

出展:国土技術政策総合研究所 上坂克巳氏のスライドよりhttp://www.nilim.go.jp/lab/bbg/saigai/h23tohoku/houkoku2/happyou/09.pdf

26/77

Nowcastingからダイナミックモデルを作成する

27/77

現在のCPSはNowcasting

プローブデータとITSの方向だけで大丈夫か?

予測なき情報提供は渋滞を悪化させることも多い

28/77

位相差(時間差)のある系は、ゆらぎの振幅を増大させる。人の意志決定は画一的ではないが、同じことを考える割合が多いと問題が生じる。

先読みナビ機能が必須

オープンデータ

Page 8: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

シンガポールの交通システム

Electronic Road Pricing(ETCのようなもの。1SD=78円)

29/77

• 平日始発~7:45まで中心部で降りる乗客の運賃を試験的に無料化。これによりピーク時の利用者は平均7%減少。

• 地下鉄運営会社はピーク時の混雑を10~20%の緩和を目指すとして、早朝無料を今後1年間続けるとのこと。

• ラッフルズ・プレイスやシティホールなど中心部の16駅で、7時45分から8時までの間に改札を出た乗客も0.5シンガポール(S)ドル(約40円)を割り引く措置も合わせて行う。

価値?ヒューマンモデルの欠如

3.予測とモデル

30/77

データにあわせすぎるのも、無視するのも間違い——過剰適合と唯我独尊——

システムのダイナミクスを読み解く努力を継続すること

31/77

二つの異なる推論法

予測モデルがないと...

32/3832/77

「計算モデル無き予測法は予測とはいえず。」渋滞情報を流すと、人の多くは同じ行動をとりさらに状態が悪化

“手なり予測”(リクルート・テクノロジー 西郷氏 談)手なりとは: 手役などを考慮に入れず、牌効率のみでアガリに向かうこと。

物流: 急な対応 (人の動員)小売り: 明日の量的な販売予測。商品毎の売り上げ予測。

廃棄をいかに少なくするか?廃棄率(廃棄リスク)

飲食: アルバイト(非常勤)の日々、状況毎の必要人数製造: 故障の前にお知らせ(車、ガス機器、コピー機)

Page 9: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

季節調整法

トレンド

偶然変動

季節成分

曜日効果

季節成分+

曜日効果

月別データ:デパートの売り上げ

多数の要因に分解可能

33/77

= + + + +

要因分解モデル:バラバラを癖で束ねる小売りの売り上げ予測

+時間依存のベースライン

曜日効果周辺のイベント効果

地域性(立地)

A店の売り上げ規模

レイアウト

= + + + ++B店の売り上げ

= + + + ++C店の売り上げ

= + + + ++D店の売り上げ

■流通・ロジスティック業でも同じ構図例: ローソン

ビッグデータクラウド

周辺化しては本質を見逃す!(次ページで説明)

34/77

= + + + +

要因分解モデル:システムの「人間ドック」橋梁センサー等の社会インフラ維持・管理用モニター

+経年変化 天候効果 風効果通過車両

効果センサーA 設置場所

= + + + ++センサーB

= + + + ++センサーC

= + + + ++センサーD

ビッグデータクラウド

35/77

NTTデータ、NEC(次世代航空機着陸システム開発)GE(Industrial Internet)

= + + + +

要因分解モデル:匠を超える技をつくる第一次産業(農業、漁業)を変える、再生可能エネルギー(風力発電)を変える

+土壌成分 温度 湿度水・肥料の投与量センサーA 設置場所

= + + + ++センサーB

= + + + ++センサーC

= + + + ++センサーD

ビッグデータクラウド

36/77

オープンデータ化の動き (地力保全土壌図データ、…

Page 10: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

モバイル空間統計(NTTドコモ)

37/77

http://www.nttdocomo.co.jp/corporate/disclosure/mobile_spatial_statistics/

4.4つの利用レベルのステージ

38/77

次世代BI (Business Intelligence)

39/3839/77

• 集計分析型BI: 見える化

• 発見型BI: データマイニングによる関係性や規則性の発見

• What-If型BI: 業務の新しいやり方をデザイン。その効果を事前に

試算する。

• プロアクティブ型BI: ユーザ行動の一歩先をリードする。レコメンド

サービス,不審な決済行動を検出し即座に決済を凍結。

行動を高精度に予測するモデル

行動や状況をリアルタイムで把握できる仕組み

桑田&中川,情報処理学会デジタルプラクティス,2013年1月

Google Now

周辺の娯楽施設:近くにある観光スポットや人気の施設をお知らせします。ニュース:あなたが興味を持っていそうな速報やニュースをお知らせします。

次の予定:次の会議の予定を通知します。

ビッグデータ利活用の4つのステージ

40/77

可視化

解析

予測モデルの構築

介入

制御

ビジネスへの展開

現況の注目度

予測モデル(アルゴリズム)なき予測は存在しない

Nowcastingの世界

Forecastingの世界

Fast Data Processing:ビジネス機会の捕捉リアルタイムにデータを補足し、ビジネス価値の高い機会を捕捉する

Big Data Management:ビジネス価値の発掘過去のデータから、ビジネス価値の高い規則性、関連性を見出す(オラクル社)

Page 11: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

41/77

How: グローバル化とスマート化

× =ボリューム市場規模 効率性 利益・損失

LED照明

ビッグデータでどのようにして実現するのか?

42/77

セグメント化

× =利益・損失

ボリューム市場規模

効率性

多様な要望

マシンで置き換えなくてはならない

43/77

Sparse, Sporadic, and Spontaneous Society(疎) (散在的) (自発的な)

• 双方向性• 受益者起点• 制御可能性

社会構造の大きな変化“もの”

サービスシステム

薬、服、靴(3次元スキャナー)

双方向性機能が弱いビジネスモデルの価値

44/77

メディア 広告

もっとも双方向性が高いのはソーシャルゲーム

受益者起点を支えるのは双方性機能。それもマシンで実現。

B2B2….2B2C

B2C

Page 12: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

リアル空間のB2C:テレビ番組、レシート

45/3845/77

今の時代、番組編成に意味があるのか?On Demandで十分では?今の技術でパーソナルTVが十分可能!

視聴率とは? (「あまちゃん」の意外な視聴率) 誰が視聴しているのか? コマーシャルはどれほど価値があるのか? もっとインパクトのあるリーチがあるのでは?

デジタル・レシート:レシート不要の時代。いずれエコバッグと同様か? 紙の利用削減と環境寄与 顧客にポイントが付与されると同時に情報が自動的に一元的な

データベースに蓄積 販売員が店内のどこにいてもiPod touchを使ってクレジットカード

での決済可能 ファイリング不要(家計簿不要)導入社 Apple, Nordstrom, Kmart, Best Buy, Gap, Banana Republic

富を産む仕組みも変わった!

前世紀: 物質(「もの」)を均質に大量に生産するシステム

21世紀: 個人化された情報サービスを提供するシステム

個人をターゲットにした商品・サービスの提供を効率的に行えるシステム

“コ”-個人,個性,個別,固有ーが大切!

46/77

「広告」から「個告」の時代へ(日経ビジネス 2013.09.30号)

あらゆる場面がオークション(RTB)化

47/77

2002年のアメリカ映画SF映画。ドリームワークス作品。ある日、犯罪予防局の刑事ジョン・アンダートン(トム・クルーズ)は、ジョンによる殺害が予知されたことで追われる立場となってしまう。

網膜認識を利用してユーザー特性に合わせた情報を発信する.

(“個” 人認識型 デジタルサイネージ)

映画:『マイノリティ・リポート』の1シーン

個人のライフスタイル・嗜好を読み解く

• デジタル値札• 赤外線センサー

POSデータ + センサーデータ →個人毎の潜在価格を読み取ることは可能

• バンドル売り• 電子チラシ• クーポン

(広告)代理店

Real-Time Biddingとクッキー

48/77

A

B

C

ユーザー属性 1円

2円

5円

広告主

クッキー

インプレッションコンバージョン

ミリ秒単位で処理

アンケート項目

完了

代行: 情報提供サービス企業

次のページ

「場」と「ルール」を仕切ることで富がうまれる構図

Page 13: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

ノウハウの適用先

49/3849/77

「モノ」の価値

50/77

• 商品よりもデータの囲い込み(リンケージ)が重要

• すべてのモノを情報収集端末と捉え、サービスを含めてどんなビジネスモデルを描くかが肝

• モデルの読み合いに負けたら終わり(オンライントレーディングを考えてみると分かる)

車→プローブデータ

出展:国土技術政策総合研究所 上坂克巳氏のスライドよりhttp://www.nilim.go.jp/lab/bbg/saigai/h23tohoku/houkoku2/happyou/09.pdf

ロンドンでの概念実証プロジェクト

51/77

Presence Orb 「現実世界のクッキー」

「われわれは匿名化され集計されたMACのデータを収集している。つまり、個人や個々のMACアドレスを追跡しているわけではない。ORBは、容器周辺のすべての足取りを3分間収集して、匿名化され集計された1件の報告を各サイトから送信している」

プロアクティブ型BIがサービスの中心

52/77

「ウザイ」と感じられてはアウト

事故を避けられるのなら「ウザク」てもOK

■SUICAショック→安全・安心、健康といったところから入る

Page 14: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

シカゴ市警2012年5月のNATOサミット開催期間

http://www.japan-cloud.org/consortium/pdf/wg9_sympo_oracle.pdf

デモ隊のコントロール(警察官の配置)ツイッター、逮捕者の空間分布

53/77

5.日本固有の問題点

54/77

データとビジネスの関係

55/77

「もの」から「システム」へ

匠とマシン 無形物にお金を払わない文化

日本固有の弱さ

「もの」は分解できる

56/77

http://www.ifixit.com/Teardown/iPad-Teardown/2183/1

Page 15: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

57/77

成功の鍵:データ・サイエンティストの抱え込み

抽象物を対象にすると誰もプロセスに分解できない!

日本はもともとシステムサイエンスが弱い?

Data cleansing, Data Editing, Data Curating

データ処理の流れ

ビッグデータは巨大なゴミ箱?

ビッグデータの実際は、そのままだと単なる屑の山

生ゴミプラスチック

ビン、アルミ缶

新聞・紙

分別、整理することで2.砂金探しをいつまで続ける?エキスパートへの過度な依存

1.マイニングは錬金術師でしょ?データ解析への懐疑的態度

58/77

異常値の混在,欠損の頻出,フォーマットの変更,測定環境の変化等々

統計数理セミナー 5月16日

玄人の「眼」,「聴」を造る

59/77

機械は許しても、目が、指先がわずかな誤差を許さない顧客のニーズが厳しくなればなるほど、経験に裏打ちされたその技術が冴え渡ります。

http://kirari-tech.metro.tokyo.jp/

いつまでも「プロジェクトX」の感傷にひたっていては世界から取り残される

60/77

『マシンに入れれば何かでてくる』は幻想

■よくあるケース

「ビッグデータはいろいろ社内にあるのだけれども、先生、何かできませんかねぇ?もったいないといつも思っているのですが。」

「この種の発言をされるお客さんの案件はお断りするようにしている。営業にはいやな顔をされるが」

某ビッグデータ・コンサルティング担当マネージャー

マシンのイメージ

Page 16: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

ビッグデータに関するエッセイ (Jan, 2012)

この分野で欧米のみならずアジアの諸外国に追いつくためには、企業はデータ解析にもっと多くの資金や人材を割り当てなければならない。その現状を正しく認識し、経営資源を投入するビジネス・

リーダーが現れれば、間違いなく他社が持たない強みとなり、勝利を手にできる。一つ確かなことは、いまだにデータ解析を「タダ」だと思っている企業は立ち行かないということである。

61/77

6.対応策:人材育成

62/77

企業上層部のデータリテラシー

○人材育成 (人材争奪戦)

○法体系整備、プライバシー

• 個人情報保護や企業技術の秘匿の観点から,企業内データを利用した外との共同研究を一顧にしたがらない上層部の態度も問題。

• 企業内のデータサイエンティストに社内データの持つ価値を検討させ,ケースバイケースで外の力を借りて新しい製品・サービスの開発のチャンスが多くうまれることを深く認識すべき。

63/77

ビッグデータを開示する正の面にもっと目を向ける。ただし,ケースバイケース

個人情報保護とデータの本格的利活用

64/77

One for All, All for One

「IDデータコモンズ」はドナーカードのようなもの(情報研 曽根原教授)(日経ビジネス2013.09.30号)

Page 17: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

65/77

理論と仮定から結果を導くvs.

結果から原因を探る

帰納と演繹

技術客観的、絶対的

価値主観的、相対的

66/77

理論と仮定から結果を導くvs.

結果から原因を探る

帰納と演繹

技術者 消費者

67/77

受益者(消費者)を意識することからはじめよ!

下流からスタートせよ:ただし逆流は難しい 公共サービスとビッグデータ

■通常時: Nowcastingが中心• オープンデータ+クラウドソーシング

自然とデータが集まる仕組みづくり

• 民間との協働ビジネスモデルの創発はやらない。「武士の商法」

■非常時: Forecasting機能が大切• ITインフラのダメージ、バックアップシナ

リオの事前想定

• 先読み情報サービスがはずれた場合のリスク:訴訟、一般からの批判

• トリアージが肝

68/77

Page 18: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

69/30

出口(目的)志向のアプローチが重要な役割

• 重要なのはデータ分析の結果を何に使うか、というシナリオを明確にして、その上で必要なデータ量、分析の精度などを決定していく目的志向。

• データの価値次第でインフラやアーキテクチャの設計が大きく変わってくるため、「データの価値」に関する可視化、定量化が、情報分野における大きな研究テーマ。データ量とレイテンシ。蓄積状況に応じた最適な処理方式の探索。

69/77

CMOとCIOの協働作業が大切

70/77

データの価値次第でインフラやアーキテクチャの設計が大きく変わってくる。

CMO: Chief Marketing Officer CIO: Chief Information

Customers

CIOsCMOs

• 何気ない行動に隠された意図• 行間に潜む静かなニーズ

企業を横断する中核部隊として

統計数理:事例1

連携分野

各部門

マーケティング

製造

SC

M

研究開発

販売

サポート

統計数理:事例2

未適用・未利用分野

異部門融合の要攻めの体制。内発的に調査研究

細分化された部門をつなぎ融合

サイバー空間の出現により可能

数年後の問題の解決

71/77

横串を刺す組織も必要。バーチャル組織で束ねる (日経コンピュータ、2013.1.10)

現場感覚こそ分析の要

仕組みはトップダウン,発案はボトムアップ

バリューチェーン

データ解析・分析の『個人商店時代』の終焉

•ちゃんとした、横断的チームが必要

■理論,モデリング,計算,実装,そして応用分野(現場)の専門家との協調(協働)作業

■一気通貫方式で知識発見プロセスを指導できるリーダー

72/77

スーパーデータサイエンティスト

データマイニング

モデル化

最適化

Page 19: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

プロアクティブ型BIと人材

73/77

統計学 機械学習

最適化マイニン

グデータマイニング

順問題系

予測値

逆問題系

モデル

シミュレーション

リスク計算モンテカルロ計算

プロアクティブ型BIには、順問題系の人材が必要

Deep Analytical TalentMGIリポートから

-5.3%

74/77

Steven Cherry: Hi, this is Steven Cherry for IEEE Spectrum’s “Techwise Conversations.”

In a recent podcast, I was surprised to learn there were 93 000 data scientists registered with Kaggle, the site that creates

competitions among them and helps award freelance contracts. I’m not the only one. The article in The Atlantic that brought

Kaggle to our attention had a parenthetical exclamation: “Who knew there were that many data scientists in the world!”

The next obvious question is, How do I get myself in on the lucrative area of data science? As it happens, the trusty New York Times wrote about that back in April. Its premise was, universities offer courses in a hot new field, data science.

Data science sure is hot. Is it new? Sort of.

The Times article quoted an adjunct professor at Columbia University, who described a data scientist as “a hybrid

computer scientist/software engineer/statistician.” And it says that this fall, “Columbia will offer new master’s and

certificate programs heavy on data. The University of San Francisco will soon graduate its charter class of students with a

master’s in analytics. Other institutions teaching data science [JPEG] include New York University, Stanford, Northwestern,

George Mason, Syracuse, UC Irvine, and Indiana University.”

My guest today, also with Columbia University, is Chris Wiggins, a professor of applied mathematics there. He’ll walk

us through what’s old and new in the academic field of data science. He joins us by phone.

Chris, welcome to the podcast.

75/77

Data Scientists are actually T-shaped

76/77

5 points for job description Innovative problem solvers who learn from data Expertise in statistical modeling and machine learning Solid understanding of problem domain Effective communicators of what they learn Specialized programming skills

Data Businessperson: Determining benefit of data projects to organizationData Creative: Applying broad range of analytics and technologyData Developer: Acquiring, storing, cleaning, and managing dataData Researcher: Understanding complex processes

Data Scientists tend to have deep experience in one category and some ability in others.

(By R.N. Rodriguez)

46%の会社がデータサイエンティストの雇用を増やす予定 (2011 Bloomberg Bussinessweek Survey, 930社回答)

2018年までにデータサイエンティストは16万人不足。米国では毎年4千人育成。500人(博士)、2400(修士)、1100(学士)。修士と学士は急増中。

Page 20: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

77/77

ビッグデータ時代における統計家の役割

仕組みを生み出す。• 常識的(合理的)判断を自動的かつ超高速に実行

外れ値、異常値の発見→イノベーションへ

• ひらめきを得る作業のアシスト ボナンザ:力づく探索、ボナンザ囲い

• 異分野融合の要 近年の先端テクノロジーは異分野融合が主 ビジネスモデルの創発エンジン

• データをガイドとして二元論的思考から循環論的思考へ

• データマイニングは列挙と探索空間の枝刈りが基本。思考法がちょっと異なる。いわゆる、順問題系。

文部科学省委託事業データサイエンティスト育成

ネットワークの形成事業計画・進捗状況説明資料

2013.9.10

情報・システム研究機構 統計数理研究所

A-1

事業の5つの柱

① ビッグデータ利活用イノベーションの認知度向上・

② 人材の

③ の調査

④ データサイエンティストの育成

⑤ 及び標準化の検討

A-2

データサイエンティストの雇用条件について

地位向上・維持 便利屋になってはいけない

人材のプライシング・適正相場の維持 能力に応じた評価と報酬

Kaggleではトップ10に日本人2名(2013年8月現在)

日本でもクラウドソーシングのサイトが増えてきた

ワークスタイルの多様性と、社会への認知

クラウドソーシング 産休中・育児休暇中の短期就業

余暇の活用

啓蒙活動の重要性

Cf)比嘉邦彦・井川甲作「クラウドソーシングの衝撃」pp60‐71,インプレスR&D,2013

A-3

Page 21: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

事業における人材育成候補者について

求められる人材の能力(詳細は次頁)

下記分野について一通りの知識があること

分析・統計学に関する基礎知識またはコンサルティング・業務知識

想定する育成候補者

統計学や機械学習、プログラミング、経営学を専門的に学ぶ大学生・大学院生

分析業務に関与するポストドクターや社会人

A-4

データサイエンティストに求められる能力

Cf)一般財団法人データサイエンティスト協会・設立記者会見『参考資料』,2013A-5

データサイエンティストの活躍モデル

意思決定の場面で一助となる分析担当者

経営者・役員がデータサイエンティスト同時に意思決定権者

ベンチャー

研究機関

大企業

クラウドワーク

グループワークにおける研究手法のアドバイザー、将来のプログラムディレクター

依頼

納品

クラウドサービスに登録し、世界中から依頼を受ける、独立したデータサイエンティスト

(インタビュー調査に基づく一例)

A-6

キャリアパス(仮説1)

トップデータサイエンティスト

学部・修士新卒博士卒・中途採用

ミドルデータサイエンティスト

統数研プログラムパートタイム支援職

フルタイム支援職

学部卒

技術・研究職

【研究機関の分析担当者モデルケース】キャリアアップや、民間企業への転職が予想される。

Ex)プロジェクトリーダーEx)グループリーダー

民間企業等

大学・民間企業等

A-7

Page 22: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

キャリアパス(仮説2)

※分析業務以外に、人材育成担当も予想される

統数研育成プログラム

【企業等の分析担当者モデルケース】キャリアアップや、業種転換・職種転換が予想される。

Ex) CEO、CIO、COO、CMO、CTO

Ex) kaggle登録

研究機関

学・大

フリーランス

外部コンサルタント

社内コンサルタント

企業(マネジメント)

Ex)大学、研究機関、企業等

研究職(上級職)

A-8

米国では、2018年までに、高度なアナリティクス・スキルを持つ人材が14万~19万人不足し、大規模なデータセットのアナリティクスを活用し意思決定のできるマネージャーやアナリストが150万人不足すると算出。

人材育成数の妥当性について

Cf)「McKinsey Global Institute「Big data: The next frontier for innovation, competition, and productivity,2011

統計学や機械学習に関する高等訓練の経験を有し、データ分析に係る才能を有する大学卒業生数は、米国の2万4,730人、中国の1万7,410人、インドの1万3,270人、日本は3,400人。

将来的に国内ではデータサイエンティストが約25万人不足すると予測。

cf) Gartner社調査による(日本経済新聞2013.7.17)

本事業では3事業年で、データサイエンティストを300名程度育成する予定であるが、上記のとおり約25万人不足するとの予測があり、充分とは言えない。しかし、現状の体制や事業予算に鑑みて、現状では限界と言える数値である。したがって、他大学・他機関の動向把握や、それらとの連携が今後重要となる。

A-9

人材確保の現状

企業における人材確保の一例あるデータ系企業は、80名のデータサイエンティストを有する企業を、会社ごと買収し、120名体制でビッグデータ事業を開始。年間200億円の売り上げ

を目指す。(経済番組による報道、2013.8.7)

研究機関における人材確保の一例

新卒や中途採用で技術職、博士卒やポスドクから研究職雇用している。※ただし後者は、場合によっては支援職や事務職として雇用するため、研究者への道は事実上閉ざされる。 (インタビュー取材による)

(日本経済新聞,2013.7.17)データサイエンティストの争奪合戦

A-10

⼀般社団法⼈データサイエンティスト協会ご挨拶・協会概要のご説明

2013年10⽉31⽇⼀般社団法⼈ データサイエンティスト協会 事務局

B-1

Page 23: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

Copyright © 2013 The Japan DataScientist Society. All Rights Reserved.

設⽴の背景:ビッグデータへの注⽬

・クラウド技術など、⼤量データをリーズナブルに蓄積する環境が整い、データの保存コストが低下する傾向にデータ蓄積技術

・Hadoopなどの分散処理の技術により、⼤量データの処理が短時間で⾼速処理が可能に

データの高速処理技術

・機械学習に代表される⼤量データの⾼度なデータ解析に利⽤可能なアルゴリズムの開発・応⽤が進展データ分析技術

IT技術の発達

データ量の急激な増⼤(センサー/通信機器の発達、様々なネットサービスの普及など)

⼤量データが扱いやすくなったことで、ビッグデータに注⽬が集まる(Data is King / Data is the New Oil)

B-2 Copyright © 2013 The Japan DataScientist Society. All Rights Reserved.

設⽴の背景:定義が存在しないことで起こること

定義の不在がもたらすもの

(サービス受⼊側)・発注前の段階で、プロジェクトのゴールや成果が⾒えにくい。

・複数社の検討段階において、技術レベル、⼈材能⼒の⽐較が困難。

・期待したとおりの⼈材かどうかが不明瞭。

(サービス提供側)・⾃社の現状レベルはどれくらいか。強み、弱みは何か。

〜誰がどのようなスキルを保有しているのか。どの程度の待遇とすべきか。

・今後、誰をどのように育成していけばよいか。etc

企業

・データサイエンティストを⽬指すには、何をすればいいか。

・⾃分のデータサイエンティストとしての現状レベルはどれくらいか。強み、弱みは何か。

etc

個人

期待役割とスキルセットの

ミスマッチ

分析の⼗分な効果が⽣まれない/

データサイエンティストの

経験・能⼒が活かせない

ビッグデータ関連市場の健全な

発展に影響

B-3

Copyright © 2013 The Japan DataScientist Society. All Rights Reserved.

協会の概要:データサイエンティストの育成を⽀援する団体を設⽴

■団体名称和⽂ :⼀般社団法⼈ データサイエンティスト協会英⽂ :The Japan DataScientist SocietyURL :http://www.datascientist.or.jp

■設⽴⽇2013年5⽉15⽇

■⽬的当協会は、社会のビッグデータ化に伴い重要視されている新しい分析⼈材“データサイエンティスト”の職業としての確⽴と地位の向上、及び取り巻く環境の健全な発展に向けて協⼒を惜しまない⽀援機関として、技能(スキル)要件の定義・標準化の推進、分析技術認定(レベル認定)事業、⼈材の育成、社会に対する普及啓蒙などの活動を⾏う。

ロゴとカラー球体のモチーフは、データサイエンティストの活躍する場である「グローバル社会」、複雑に交わる線と円は、⾏き交う「データ」を表現しております。また、円の中にはデータの頭⽂字「D」とサイエンティストの頭⽂字「S」がモチーフとして隠されております。

イメージカラーには、データサイエンティストの持つ「知的」、「先駆的」、「信頼感」といったイメージを表現するブルーを採⽤しました。

B-4 Copyright © 2013 The Japan DataScientist Society. All Rights Reserved.

協会の概要:活動の概要

■活動内容・・・定款に記載している主な活動

1. データサイエンティストに必要とされる技能(スキル)要件、知識・経験のレベル定義とその

標準化の推進、ならびにその普及啓蒙活動

2. データサイエンティストの認定制度、資格検定制度等の企画、開催、運営

3. ベストプラクティスやデータサイエンスに関わる調査研究、および情報発信

4. データサイエンティスト育成のための教育活動

5. シンポジウム、研究会、講演会、講習会、講座、セミナー等の企画、開催、運営

6. ビジネス機会、就業機会創出のための各種活動

7. 国内外の関連諸団体等との活動に関する情報交換や連携・協⼒のための活動

8. 雑誌・書籍の企画、出版、販売、および⾳響・映像商品(⾳声データ、動画データ、その他各

種メディア等)の企画、製造、販売

9. その他本法⼈の⽬的を達成するために必要な活動

B-5

Page 24: Data processing Data generation · 機械学習:6万局の棋譜データ(※)から、 評価関数のパラメータを自動生成。↑の “効果的”の源泉。 ※プロの公式戦の対局3万局と将棋倶楽部24の3万局

Copyright © 2013 The Japan DataScientist Society. All Rights Reserved.

社会

協会の概要:活動の全体像イメージ

93

参加者(法⼈・団体)参加者(個⼈)

データサイエンティスト協会

分析サービスを必要とする企業

データサイエンティストを必要とする企業

情報収集講座の受講・受験意⾒、情報の提供

情報収集委員会などへの参画データ提供情報の提供

就業機会の創出 新たな付加価値サービスの提供など

情報交流促進/取引活性化・マッチング⽀援

関連諸団体(学会/⼤学/資格認定団体等)

連携/協業

情報発信キャリア形成⽀援

情報発信⼈材育成

⽀援

⼈材の定義/育成

/評価

コミュニティ形成

シンポジウム開催

情報発信

B-6