データサイエンス業務と「ツール」

25
データサイエンス業務と「ツール」 2016年7月19日 株式会社金融エンジニアリング・グループ 事業開発推進本部 齊藤 和幸 データサイエンティスト協会 セミナー2016 第2回 ©2016 Financial Engineering Group Inc. 不許複製

Transcript of データサイエンス業務と「ツール」

Page 1: データサイエンス業務と「ツール」

データサイエンス業務と「ツール」

2016年7月19日

株式会社金融エンジニアリング・グループ

事業開発推進本部

齊藤 和幸

データサイエンティスト協会 セミナー2016 第2回

©2016 Financial Engineering Group Inc. 不許複製

Page 2: データサイエンス業務と「ツール」

©2016 Financial Engineering Group Inc. 不許複製 1

自己紹介

齊藤 和幸 Kazuyuki Saito

株式会社金融エンジニアリング・グループ

事業開発推進本部

事業開発部

• 2007年入社

• 入社から4~5年は金融機関向けの与信審査モデル作成に従事

• 入社5年目以降は、大手IT企業にてWebマーケティング関連の業務に従事

Page 3: データサイエンス業務と「ツール」

1. はじめに– 株式会社金融エンジニアリング・グループとは

2. データサイエンス業務と「ツール」– 「ツール」にまつわる実世界

3. まとめ– 経験してきたからこそ思うこと

本日お話しさせていただきたいこと

©2016 Financial Engineering Group Inc. 不許複製 2

Page 4: データサイエンス業務と「ツール」

©2016 Financial Engineering Group Inc. 不許複製 3

1.はじめに– 株式会社金融エンジニアリング・グループとは

Page 5: データサイエンス業務と「ツール」

©2016 Financial Engineering Group Inc. 不許複製 4

FEG:会社概要

商号:株式会社金融エンジニアリング・グループ(Financial Engineering Group,Inc.)

呼称: FEG(フェグ)

所在地:〒104-0033

東京都中央区新川2丁目27-1 東京住友ツインビルディング(東館)10F

設立:1984年4月

代表者:宮村幸夫(代表取締役)

社員数:81名(2016年4月1日現在)

資本金:99百万円(新日鉄住金ソリューションズ100%)

売上高:3,071百万円(2016年3月期)

主要取引先:主要都市銀行、地方銀行およびクレジットカード会社など金融機関および、通信キャリアや大手小売業など。

Page 6: データサイエンス業務と「ツール」

FEGのご紹介:業務内容

©2016 Financial Engineering Group Inc. 不許複製 5

FEGは、金融分野の数理分析及びデータマイニングを中心とする調査・分析・コンサルティング並びにソフトウェア開発を主たる業務としており、その内容は以下のとおり多岐に及びます。

リスクマネージメント領域の問題

・・・与信リスク管理・債権リスク評価・市場リスク管理・統合リスク管理など

金融商品に関する問題

・・・預金・クレジットカード・保険・証券など

金融マーケティング領域の問題

・・・顧客ターゲティング・顧客リテンション・データベース構築など

さらにはネットオークション詐欺検知や「オレオレ詐欺」利用口座検知など、不正検知の分野でも目覚ましい結果を残しております。

これら諸問題を解決していくうえで、当社の核となっているのが、データマイニング技術、金融工学技術です。それに加え、金融実務知識、統計解析知識、データベース構築技術、IT/ソフトウェアエンジニアリング技術、そしてデータの実作業で培ってきた数多くのノウハウです。

また、FEGはこのような基礎技術を生かし、通信・流通・情報サービス産業などをクライエントとした非金融分野においても、分析・コンサルティング・システム開発事業を行っております。

Page 7: データサイエンス業務と「ツール」

6©2016 Financial Engineering Group Inc. 不許複製

写真: https://www.flickr.com/photos/126543328@N07/

データマイニング国際コンテストで2位:KDD CUP 2015

KDD2015(SIGKDDが毎年開催する国際会議)のオープニングセッション

KDD2015@Sydney– 参加者:1,182人(大学と企業が約1:1)

Page 8: データサイエンス業務と「ツール」

©2016 Financial Engineering Group Inc. 不許複製 7

2.データサイエンス業務と「ツール」– 「ツール」にまつわる実世界

Page 9: データサイエンス業務と「ツール」

©2016 Financial Engineering Group Inc. 不許複製 8

最初に「ツール」の意味を確認

ツール(tool)

言い換えると– 道具

まとめると– 何かを達成しようとした時に使う道具であり、手段である

– 決して、目的ではない

最も大切なことは

ツール≠目的という理解を持つこと

Page 10: データサイエンス業務と「ツール」

©2016 Financial Engineering Group Inc. 不許複製 9

どんな「ツール」を使えばよいのか?

自分の置かれている環境にあるものを使えば良い

DBにアクセスしたいな…

集計作業をしたいな…

モデル作成をしたいな…

SQL

SQL,python,etc

python,etc

Page 11: データサイエンス業務と「ツール」

©2016 Financial Engineering Group Inc. 不許複製 10

想起しやすい「ツール」の分類

無料有料

複数機能

単機能 ※ごく一部の抜粋

Page 12: データサイエンス業務と「ツール」

©2016 Financial Engineering Group Inc. 不許複製 11

「ツール」と基盤は切り離せない関係

基盤ex:windows,linux,Hadoop,HBase,Spark

,etc

ツールex:SAS,SPSS,python,etc

データサイエンス業務

基盤がなければ「ツール」は利用できない!!

「ツール」を使うためには「ツール」の理解が必要

「ツール」を使うためには、基盤の理解も「ツール」と同じくらい必要

案外大変だ…

Page 13: データサイエンス業務と「ツール」

©2016 Financial Engineering Group Inc. 不許複製 12

私が利用してきた「ツール」

2007年 2011年 2016年

有料

無料

2011年まで

2014年まで

現在も使用

現在も使用

現在も使用

2013年まで

※ごく一部の抜粋

与信審査モデル作成業務 Webマーケティング業務

Page 14: データサイエンス業務と「ツール」

©2016 Financial Engineering Group Inc. 不許複製 13

私が利用してきた「ツール」と基盤

2007年 2011年 2016年

有料

無料

2011年まで

2014年まで

現在も使用

現在も使用

現在も使用

2013年まで

※ごく一部の抜粋

与信審査モデル作成業務 Webマーケティング業務

Windows LinuxHadoopHBaseetc…

Page 15: データサイエンス業務と「ツール」

確認

作成運用

準備

©2016 Financial Engineering Group Inc. 不許複製 14

業務と「ツール」

データサイエンス業務

• 環境• データ取得• DBアクセス

• データクリーニング• データ集計• データマート作成

• BI• アクセス解析• 統計モデル

• 商用活用• モニタリング• チューニング

Hive,etc Hive,SAS,SPSS,python,R,etc

SAS,SPSS,python,R,tableau,etc

Jave,Hive,bash,SAS,SPSS,pyhton,Retc

業務の場面によって使い分ける必要がある

Page 16: データサイエンス業務と「ツール」

©2016 Financial Engineering Group Inc. 不許複製 15

「ツール」と私 ~最初に~

私の社会人スタート時の状況は…

出身学部経済学部 経済学科

学部時代にプログラミング経験なし!!

学部時代にPCを活用していたかレポートを書くときくらいInternetも実はあまり使っていなかった

いかにして私が「ツール」と向き合ってきたか…

これからどんな体験をしていくか、以降でお話しします

Page 17: データサイエンス業務と「ツール」

DBアクセス

データ取得

環境

©2016 Financial Engineering Group Inc. 不許複製 16

「ツール」と私 ~準備編~

2007年 2011年 2016年

与信審査モデル作成業務 Webマーケティング業務

• WindowsPCを自分でセットアップ

• クライアントから受領したフラットファイルを自力でSASへ読み込む

• 基本的にすべてSASで完結

• Windowsだけでなく、linux、Hadoop、HBaseと様々

• 今はmacユーザー

• フラットファイルを自力で読む

• 今やSqoopにてRDBからのデータ連携が主となっている

• 初期の頃はmodelerで共有サーバー上のファイルを読んでいた

• 今はHadoopへHiveにてアクセス

Page 18: データサイエンス業務と「ツール」

データマート作成

データ集計

データクリーニング

©2016 Financial Engineering Group Inc. 不許複製 17

「ツール」と私 ~確認編~

2007年 2011年 2016年

与信審査モデル作成業務 Webマーケティング業務

• SASのデータステップで頑張った

• SASのprocedureで行うことが多い

• Excelで集計も

• 基本的にすべてSASで完結

• 最初の頃はmodeler

• 今はHive上で行うことが多い

• 最初の頃はmodeler

• 今はHive、pythonと状況に応じて使い分ける

• Hiveで作成してしまうことが多い

Page 19: データサイエンス業務と「ツール」

統計モデル作成

アクセス解析

BI

©2016 Financial Engineering Group Inc. 不許複製 18

「ツール」と私 ~作成編~

2007年 2011年 2016年

与信審査モデル作成業務 Webマーケティング業務

• 特に利用せず

• ただ、案件は若干存在はしていた

• 全くなし

• SASに用意されているprocedureを利用

• 少しtableauを触ったくらい

• 今となっては主戦場• Hiveで取り扱うことが多い• 場合によってはpythonなども利用

• pythonのモジュール利用が多い• 時として、Hiveで自作も• modelerも時には利用

Page 20: データサイエンス業務と「ツール」

チューニング

モニタリング

商用活用

©2016 Financial Engineering Group Inc. 不許複製 19

「ツール」と私 ~運用編~

2007年 2011年 2016年

与信審査モデル作成業務 Webマーケティング業務

• 仕様書を作成し、社内エンジニアの方にエンジンを作成していただく

• 運用はお客様

• SASで定期的にモデル精度をウォッチしお客様へご報告

• SASでリモデルなどを行う

• ある程度Hiveやbashで作成し、実装をエンジニアの方に依頼

• 運用Jobは常に自分達で監視

• Hiveで定期的に集計

• ものによってはBIにて行う

• 必要に応じて統計モデル作成時と同じ要領で実施

Page 21: データサイエンス業務と「ツール」

©2016 Financial Engineering Group Inc. 不許複製 20

「ツール」と私 ~そして現在~

私の社会人スタート時に比べて…

環境に対して特にアレルギー無し

「ツール」の選り好み特になし!!もちろん、得手不得手はありますが

仕事の幅は想像以上に広くなった「ツール」が視野を広くしてくれた面もある

いろいろな変遷を経た結果たどり着いた現在は…

大変なこともたくさんありましたが、

いろいろな「ツール」との出会いが、私の成長にもつながり、世界を広くしてくれた

Page 22: データサイエンス業務と「ツール」

©2016 Financial Engineering Group Inc. 不許複製 21

3. まとめ– 経験してきたからこそ思うこと

Page 23: データサイエンス業務と「ツール」

確認

作成運用

準備

©2016 Financial Engineering Group Inc. 不許複製 22

「ツール」は手段でしかない

データサイエンス業務

• 環境• データ取得• DBアクセス

• データクリーニング• データ集計• データマート作成

• BI• アクセス解析• 統計モデル

• 商用活用• モニタリング• チューニング

Hive,etc Hive,SAS,SPSS,python,R,etc

SAS,SPSS,python,R,tableau,etc

Jave,Hive,bash,SAS,SPSS,pyhton,Retc

「ツール」に使われるのではなく、使いこなす

環境によって、使うことができる「ツール」は異なる

状況によって、使うべき「ツール」は異なる

人によって、得意な「ツール」は異なる

目的を達成するための「ツール」が何か

常に考えながら

目の前の課題に取り組むことが

「ツール」を使いこなすことにつながる第一歩

Page 24: データサイエンス業務と「ツール」

©2016 Financial Engineering Group Inc. 不許複製 23

好き嫌いはしない

自分の可能性を最初から限定しない

自分の使い慣れた「ツール」ばかり使っていませんか?

時として、より強力な「ツール」は存在するかもしれない

周りの人は、より強固な「ツール」を知っているかもしれない

『好き嫌い』と『得意不得意』は、根本的に異なります

ぜひ、選り好みせずに「ツール」を使ってみてください

もしかしたら、新しい世界を開くことができるかもしれません

Page 25: データサイエンス業務と「ツール」

©2016 Financial Engineering Group Inc. 不許複製 24

ご清聴ありがとうございました