Post on 05-Jul-2019
Copyr ight © SAS Institute Inc. All r ights reser ved.
データサイエンティストの自由度とガバナンスの両立
~人材不足から人材活用へシフトし、AI実用化を加速~
SAS Institute Japan 株式会社
Copyright © SAS Institute Inc. All rights reserved.
Agenda
• 課題解決に不可欠な要素:「アナリティクス・ライフサイクル」とは
• 自由と統制が最適にバランスされたプラットフォーム
• Enterprise Open Analytics Platform: SAS Viyaの特長紹介とデモ
>Data, Discovery, Deployment ごとの特長
>ガバナンス(データ、モデル、プロセス)の重要性
>Enterprise Open Analytics Platform on コンテナ・テクノロジー
>統合GUI上で実現するアナリティクス・ライフサイクルデモ
2
Copyr ight © SAS Institute Inc. All r ights reser ved.
DATA
DISCOVERYDEPLOYMENT
AI実用化の鍵は 「アナリティクス・ライフサイクル」
DATA
データアクセス データクレンジング データ準備
DISCOVERY データ探索 データ分析 モデル生成
DEPLOYMENT モデル管理 モデル実装精度モニタリング
Copyr ight © SAS Institute Inc. All r ights reser ved.
自由C H O I C E
統制C O N T R O L
Copyr ight © SAS Institute Inc. All r ights reser ved.
自由C H O I C E
分析手法
デ ー タ ソ ー ス人材
プ ロ グ ラ ミ ン グ言語
Copyr ight © SAS Institute Inc. All r ights reser ved.
統制C O N T R O L
セ キ ュ リ テ ィ &プ ラ イ バ シ ー
デ ー タ & モ デ ルガ バ ナ ン ス
拡張性 デ プ ロ イ メ ン ト
Copyr ight © SAS Institute Inc. All r ights reser ved.
DATA
DISCOVERYDEPLOYMENT
AI実用化の鍵は 「アナリティクス・ライフサイクル」~ 自由と統制の最適バランス=サイクルの最適化 ~
DATA
DISCOVERY
DEPLOYMENT
データアクセス データクレンジング データ準備
データ探索 データ分析 モデル生成
モデル管理 モデル実装精度モニタリング
Copyr ight © SAS Institute Inc. All r ights reser ved.
Enterprise Open Analytics Platform
SAS Viya(ヴァイヤ)とは
Copyright © SAS Institute Inc. All rights reserved.
ビジュアルUI プログラミングUI
データガバナンス
インメモリー分析エンジン
カーネル カーネル カーネル カーネル
SAS ViyaAIライブラリ
EOAP:SAS Viya
Enterprise Open Analytics Platform : SAS Viya
散在するデータ、分析スキルやナレッジを統合管理、共有、活用
IaaSPaaSRDB
Hadoop
Cloud-DB
Stream
Data S
ou
rce
大量データ高速解析&モデリング
UI・スキル&言語横断的な統合管理/
共有/活用
モデルガバナンス
Copyright © SAS Institute Inc. All rights reserved.
統合グラフィカル・ユーザー・インターフェースアナリティクス・ライフサイクルを単一プラットフォーム上の統合GUI環境で実現
モデルの管理・実装・評価
データの管理・準備 データの探索・分析
モデルの生成
環境の管理
Copyr ight © SAS Institute Inc. All r ights reser ved.
DATA
複雑さ、速度、サイズに関係なく様々なデータに対応
データ準備の合理化
従来型のデータから新たに発生する
データまで
AI実用化の鍵は 「アナリティクス・ライフサイクル」
データアクセス データクレンジング データ準備
Copyright © SAS Institute Inc. All rights reserved.
セルフサービスでデータ準備作業を効率化データプロファイリング~クレンジング~加工・変換・結合 自由自在
Copyr ight © SAS Institute Inc. All r ights reser ved.
DISCOVERY
多彩な分析手法
多様なプログラミング言語
対応
誰もが使えるスキルレベルに応じたUI
AI実用化の鍵は 「アナリティクス・ライフサイクル」
データ探索 データ分析 モデル生成
Copyright © SAS Institute Inc. All rights reserved.
多様で豊富なAI&アナリティクス機能 (一部抜粋)
22
• 主成分分析
• Moving Window
主成分分析
• ロバスト主成分分析
• t-SNE
• クラスター分析
• 変数クラスタリング
• マーケットバスケット
• テンソル因子分解
• 異常検出サポートベクター
マシン(SVDD)
• ネットワーク分析
• 自動チューニング機能
• 線形回帰モデル
• ロジスティック回帰モデル
• ノンパラメトリック回帰
• 一般化線形/加法モデル
• 非線形回帰モデル
• 分位点回帰モデル
• 部分最小二乗法
• 半教師あり学習
• ディシジョン・ツリー
• ランダムフォレスト
• 勾配ブースティング
• ニューラルネットワーク
• ベイジアンネットワーク
• K-近傍法
• サポートベクターマシン
• ファクタライゼーション・マシン
予測モデリング探索
• FeedforwardNN• CNN (LeNet/VGG/ResNet)
• RNN (LSTM/GRU)• 自動チューニング機能• 転移学習
自然言語処理
• 形態素解析• 特異値分解による次元削減• トピック抽出(SVD/LDA)• センチメント分析
画像処理
• 画像読込/保存• フィルタ処理/画像比較• 検出とマッチング• 医療用画像解析
ディープラーニング
最適化
•線形/非線形計画法•二次計画法•混合整数線形計画法• ネットワークフロー最適化
フォーキャスティング
•時系列分析
•自動時系列モデリング
•階層間調整
•時間-周波数分析
計量経済分析
• コピュラ
•パネル分析
•損失分布モデリング
~マルチスレッド&インメモリーの並列分散で高速処理される分析機能群~
Copyright © SAS Institute Inc. All rights reserved.
セルフサービスで BI & AI を活用単一画面で、データ探索、データマイニング、機械学習、評価を誰もが利用可能
Machine Learning
Statistics
Visualization
Copyright © SAS Institute Inc. All rights reserved.
セルフサービスで BI & AI を活用単一画面で、BIレポート&ダッシュボード作成~公開共有 自由自在
Copyright © SAS Institute Inc. All rights reserved.
ビジュアル・パイプラインでモデリングマウスの簡単操作で、機械学習・時系列予測・テキスト解析モデルを生成
モデリングの効率化 モデリングプロセスの容易な理解 モデリングプロセス(ナレッジ)の容易な共有と再利用 標準装備のパイプライン・
テンプレートを利用可能!
Copyright © SAS Institute Inc. All rights reserved.
ビジュアル・パイプラインでモデリング業務要件に応じたモデリング(ブラック/ホワイトボックス)が可能
3ステップで簡単モデル生成!
精度の高い予測モデル自動生成
学習用データ選択
①
予測対象項目選択
② ③パイプラインテンプレート選択
モデルテンプレートはオープン・ 独自に作成可能・ 既存をカスタマイズ可能
ホワイトボックスでの活用:
ベストプラクティスに基づくモデルテンプレートを実装&そのまま活用
ブラックボックス的活用:
Copyright © SAS Institute Inc. All rights reserved.
ビジュアル・パイプラインでモデリング異なる言語スキル横断的にチャンピオンモデルを自動特定
Python
のモデルR
のモデルSAS Viya
のモデルSAS V9
のモデル
モデルの比較
異なる言語で作成されたモデルの精度を容易に比較可能
Copyright © SAS Institute Inc. All rights reserved.
ナレッジの共有有用なデータ前処理機能や分析アルゴリズムを共有・再利用
Pythonでコーディングされた論文に基づく最新のアルゴリズム
SASでコーディングされたデータ前処理
顧客分類に最適なパラメータが設定済みのランダムフォレスト
Copyr ight © SAS Institute Inc. All r ights reser ved.
DEPLOYMENT
容易かつ迅速なモデル実装
様々な環境へモデルをデプロイBuild once and
deploy anywhere
モデル管理
AI実用化の鍵は 「アナリティクス・ライフサイクル」
モデル管理 モデル実装精度モニタリング
Copyright © SAS Institute Inc. All rights reserved.
予測モデルを企業の資産として統合管理予測モデルのバージョン管理や精度のモニタリング、そして業務プロセスへの容易なデプロイが可能
比較
スコアリングのテスト パフォーマンス監視 ワークフロー管理
バージョン管理
モデル間精度比較
再学習
Copyright © SAS Institute Inc. All rights reserved.
予測モデルを企業の資産として統合管理
モデル・リポジトリ
ストリーミング処理
(リアルタイム・スコアリング)
モデルをデータがある場所に配置
企業ニーズに応じて多彩なデプロイ形態に対応し、好みのタイミングでスコアリング可能
モデルをデータが発生する場所に配置
In-Hadoop
(In-Hadoopスコアリング)
In-DB
(In-DBスコアリング)
スコアリング処理バッチ/リアルタイム/オンデマンド
In-Memory(SAS Viyaのインメモリー分析エンジンでスコアリング)
スコアリング・ランタイム(任意のサーバー上のランタイム
エンジンでスコアリング)
Copyr ight © SAS Institute Inc. All r ights reser ved.
GOVERNANCE
データガバナンス
エンタープライズセキュリティ
ITガバナンス
モデル/プロセスガバナンス
AI実用化の鍵は 「アナリティクス・ライフサイクル」DATA
DISCOVERYDEPLOYMENT
Copyright © SAS Institute Inc. All rights reserved.
SAS Viya
In-Memory (+ Disk Cache)
データ・ガバナンス単一のデータをすべての分析者が共有・活用
Data SourceStream ERP CRM SCM SFA
・・・
Oracle(Exadata)
Teradata CDH/HDP/MapR/Azure HDInsight
PostgreSQLMySQL
MS SQLServer
AmazonRedshift/S3/EMR
SAP HANA
単一の真実(single version of the truth)
ABT DM ABT ABT: モデリング用の横持ちデータ(Analytical Base Table)
DM: 分析用データマート
Build Once,
Use Anywhere
Copyright © SAS Institute Inc. All rights reserved.
比較
モデル・ガバナンスモデルのバージョン管理や精度モニタリング、そして業務プロセスへの容易なデプロイが可能
パフォーマンス監視
ワークフロー管理
スコアリングのテスト
バージョン管理
モデル間精度比較
再学習
In-DB
スコアリング
In-Hadoop
スコアリング
In-Stream
スコアリング
In-Memory/
On-Demand
スコアリング
Copyright © SAS Institute Inc. All rights reserved.
プロセス・ガバナンスアナリティクス・ライフサイクルのすべてのプロセスを可視化し、分析業務を標準化
DATA
DISCOVERYDEPLOYMENT
データ統合(ETL)・プロセス データプレパレーション・プロセス
意思決定(バッチ)・プロセス
意思決定(リアルタイム)・プロセス
モデリング・プロセス
Copyright © SAS Institute Inc. All rights reserved.
プロセス・ガバナンス分析プロセス(データ準備、モデル生成、モデル実装)における可視化のメリット
ビジュアルUI(マウス操作) プログラミングUI(コーディング)
プロセス
可視化なし
・マウス操作でデータ加工、探索、レポート作成、モデル生成など各フェーズは容易に実行可能だが、プロセス全体(手順)を把握することはできない・プロセスの継承/再利用は困難
・コーディングでデータ加工、探索、レポート作成、モデル生成などを実行可能だが、プロセス全体(手順)を把握するためには、コードを追って理解する必要がある(時間/工数:大、必要スキル:高)・ナレッジの継承/再利用の敷居が高い・昨日の作業を今日の自分に引き継ぐのも困難
可視化あり
・プロセス全体(処理の流れ)を容易に理解・可視化されたプロセスに基づく、容易なコラボレーション(プロセス構成要素ごとの役割分担、貢献内容の明確化)・可視化されたプロセスに基づく、容易なプロセス改変(プロセス内の改変要構成要素を容易に特定可能)・ナレッジの継承/再利用が容易(時間/工数:小、必要なスキル:低)・スキルを問わず、多くの既存の人材を有効活用可能・人材流動化に対応(ナレッジの容易な継承)・AI民主化を促進
Copyright © SAS Institute Inc. All rights reserved.
ガバナンスの欠如同じ工数をかけて同じデータ、モデル、プロセスを作成し、冗長に保持
DM DM DM
モデル モデル モデル
プロセス プロセス プロセス
Copyright © SAS Institute Inc. All rights reserved.
プロセスガバナンス
モデルガバナンス
データガバナンス
ガバナンスの効いた分析環境冗長な作業/分析資産を削減し、コラボレーションを促進
DM DM DM
モデル モデル モデル
プロセス プロセス プロセス
Copyright © SAS Institute Inc. All rights reserved.
ガバナンスの効いた分析環境冗長な作業/分析資産を削減し、コラボレーションを促進
データ
モデル プロセス
コラボレーション
EOAP:SAS Viya
分析資産の共有/再利用コラボレーションの促進
~ 3つのガバナンス ~
人材不足から 人材活用へ
Copyr ight © SAS Institute Inc. All r ights reser ved.
Enterprise Open Analytics Platform
on Container
Copyright © SAS Institute Inc. All rights reserved.
アナリティクス環境の運用/管理の課題数多くの異なるバージョンの混在
pythonバージョン
リリース日[8]
2.0 2000年10月16日
2.1 2001年4月15日
2.2 2001年12月21日
2.3 2003年7月29日
2.4 2004年11月30日
2.5 2006年9月19日
2.6 2008年10月1日
2.7 2010年7月4日
pythonバージョン
リリース日[8]
3.0 2008年12月3日
3.1 2009年6月27日
3.2 2011年2月20日
3.3 2012年9月29日
3.4 2014年3月16日
3.5 2015年9月13日
3.6 2016年12月23日
3.7 2018年6月27日
引用:wikipedia
• OSS(Python, R, など)の数多くの異なるバージョンの混在• OSS(Python, R, など)の異なるバージョン間の互換性問題(移行 or 塩漬け)• SASの従来版と最新版の混在(移行 or 塩漬け)
運用/管理v2.7
v3.7
v9.4
v9.1
v3.3v3.5
Copyright © SAS Institute Inc. All rights reserved.
新版導入時の対応は移行 or 旧版の塩漬け?コンテナは異なる言語バージョンの環境保持のメリットを活かし、デメリットを解消
最新バージョンへ移行 異なる言語バージョンのVM環境を保持 異なる言語バージョンのコンテナを保持
DSメリット 特になし 好みのバージョンを使える ・好みのバージョンを使える
・好みのバージョン環境起動が早い
デメリット ・特定のバージョンしか使えない・移行時の難易度高&工数大・DSの流動化リスク増
好みのバージョン環境起動に時間がかかる 特になし※
ITメリット 移行後の運用管理コスト低 特になし ・IT基盤のリソース消費低
・ITガバナンスの確保(コンテナ環境の運用管理コスト低)
デメリット 移行時の工数はかかる ・IT基盤のリソース消費増・VM環境の運用管理コスト増
特になし※
※モデル管理・ガバナンスは?
Copyright © SAS Institute Inc. All rights reserved.
Kubernetes:コンテナ環境のオーケストレーション
EOAP on コンテナITガバナンスの確保
Python2.7
モデル開発
Python3.7
モデル開発
R3.3
モデル開発
R3.5
モデル開発
SAS9.3
モデル開発
SAS9.4
モデル開発
Python2.7
スコアリング
Python3.7
スコアリング
R3.3
スコアリング
R3.5
スコアリング
SAS9.3
スコアリング
SAS9.4
スコアリング
SASViya
モデル開発
・・SASViya
モデル開発
Controller
SASViya
モデル開発
Worker
SASViya
モデル開発
Worker
SASViya
スコアリング
異なる言語×異なるバージョンのアナリティクス環境をコンテナ上に実装し、管理・運用
Copyright © SAS Institute Inc. All rights reserved.
EOAP on コンテナモデルガバナンス、モデルオーケストレーションの確保
v2.7
v3.7
v3.3
v3.5
v9.1
v9.4
モデルガバナンス
モデル情報登録・管理 モデルバージョン管理 モデル学習コード登録・管理 モデルスコアコード登録・管理 モデルデプロイ 精度モニタリング ・・・
異なる言語×異なるバージョンのモデルを統合管理・デプロイ
モデルガバナンス
EOAP:SAS Viya
Copyright © SAS Institute Inc. All rights reserved.
Enterprise Open Analytics Platformコンテナを活用した柔軟で迅速なモデル開発、スコアリング、管理
v2.7
v3.7
モデルガバナンス
EOAP:SAS Viya v2.7
v3.7
(ビジネス側)モデル管理用コンテナ
(IT側)スコアリング用コンテナ
モデルリポジトリ
Kubernetes
(コンテナ or VM)
①
②
③
④⑤
① モデル開発&モデル情報/スコアコード登録
② モデル管理
③ スコアコード取り込み&スコアリング
④ スコアリング結果登録
⑤ 精度モニタリング
架け橋
Dev:モデルオーケストレーション:Ops
Copyright © SAS Institute Inc. All rights reserved.
エンタープライズ・セキュリティ&ITガバナンス
Analytic
Governanceガバナンス
統合環境
システム管理
セキュリティ データ管理SAS Viya
・データ/モデル/プロセス・分析資産の統合管理
・ユーザー権限・コンテンツアクセス制限・ユーザー認証LDAP連携
・データアクセス管理・統合メタデータ管理・データ暗号化
・システム監視/管理・利用状況監査・システム拡張管理
Copyright © SAS Institute Inc. All rights reserved.
統合メタデータ管理各種オブジェクト間の繋がり(リネージ)をネットワーク図として可視化
データ(インメモリ)
ライブラリ
モデルプロジェクト
予測モデルBIレポート
データソースデータ準備プラン(クエリ)
Copyright © SAS Institute Inc. All rights reserved.
スケーラブル&インメモリー並列分散で大量データ高速解析
複数サーバー構成によるスケールアウトで、データ量増加に柔軟に対応
Control node
Worker node 4Worker node 3Worker node 2Worker node 1
・・・
Memory Memory Memory Memory
各ノードで、大量データに対する分析処理を並列分散実行
データを自動的に均等に分割し、サーバー内メモリーへロード
正確な意思決定、的を得たアクションの迅速化で成果を出す!
メモリーに納まらないデータは自動的にディスクへキャッシュ
通常通りのコーディングで、自動的にインメモリーで並列分散処理実行
40
Data SourceStream ERP CRM SCM SFA
・・・
Oracle(Exadata)
Teradata CDH/HDP/MapR/Azure HDInsight
PostgreSQLMySQL
MS SQLServer
AmazonRedshift/S3/EMR
SAP HANA
Copyr ight © SAS Institute Inc. All r ights reser ved.
自由C H O I C E
統制CO N T R O L
Enterprise Open Analytics PlatformDATA
DISCOVERYDEPLOYMENT
Copyr ight © SAS Institute Inc. All r ights reser ved.
sas.com/viya