[DI12] あらゆるデータをビジネスに活用! Azure Data Lake...
-
Upload
decode-2017 -
Category
Technology
-
view
799 -
download
4
Transcript of [DI12] あらゆるデータをビジネスに活用! Azure Data Lake...
* Gartner, Big Data (Stamford, CT.: Gartner, 2016), URL: http://www.gartner.com/it-glossary/big-data/
ビッグデータとは、より拡張された洞察、意思決定、プロセスの自動化を可能にする費用効率の高い、革新的な情報処理の形態で求められる、高ボリューム(high-volume)、高速(high-velocity)、多彩な(high-variety) 情報資産です。
– ガートナー, ビッグデータの定義*
Microsoft. FY16 Q4 Results, URL: http://www.microsoft.com/en-us/Investor/earnings/FY-2016-Q4/press-release-webcast
Source: Gartner
ビジネス価値
ビジネス活用のステージ
バッチレポート定型検索
分析・アドホック非定型検索
予測分析
自動化支援
何が起きたのか?状況の把握
何故起きたのか?原因を把握
過去を分析し、今後とるべき行動を判断
判断を元にしたアクションの自動化
これまでの Business Intelligence人が戦略的な意思決定をするための支援ツール
Advanced Analytics が目指すものより精度の高い蓄積データを活かして、将来を予測し、業務判断を自動化する高いビジネス価値を提供
過去の見える化(BI)・基本統計量(平均、最大、最小、標準偏差など)・クロス集計・グラフ等による可視化
・予測モデリング・相関、パターン発見・セグメンテーション・最適化・シミュレーション・ディープラーニング
+将来予測(発見型)
分析ステージを過去の要因分析から未来の予測分析にシフトし、高精度の意思決定を実現
https://www.microsoft.com/itshowcase/Article/Content/617/Whats-new-with-the-data-culture-at-Microsoftマイクロソフト事例サイト:IT Showcase
人
データ
プロセス テクノロジー
利用する
可能にする
監視する
マイクロソフトは過去データの詳細分析に費やす時間を減らし、様々なデータをもとに将来何が起こるのかという「予測分析」についてさらに注力していきます。
この先進的なアプローチにより、マイクロソフトのIT部門は他のビジネス部門をサポートする重要なポジションになっています。
ETL パイプラインスキーマの定義
Relational
LOB Applications
Schema-on-Write
直ちに必要でないデータは、全て捨てられるか、アーカイブされている
無限に保存 分析 結果の参照あらゆるデータソースからのデータ収集
Schema-on-Read
全データ取込要件にかかわらず
全データ格納そのままのフォーマットでスキーマ定義なし
分析実行Hadoopのような分析エンジンの利用
インタラクティブクエリ
バッチ型クエリ
機械学習
データウェアハウス
リアルタイム分析
リレーショナル
デバイス
観察/仮説集まったデータから仮説をたてる
クラウドベースの統合ビッグデータ基盤ビッグデータカタログ
データレイクストア
データウェアハウス
構造化データ定型分析用
非構造RawデータTier 1
半構造データTier 2
SQL Data Warehouse
Data LakeStore
Data Catalog
アーカイブデータTier 3
アーカイブ
変換
ロードアーカイブ
ビッグデータカタログ:• 大量データオブジェクトに対するメタデータのカタログ
データウェアハウス:• 大量の構造化データを高速に集約/分析処理を実行• 領域ごとにデータモデル(スタースキーマ)を設計(例:売上分析、経理/経営分析)
データレイクストア:第1層(Tier 1)• 非構造データをそのままのフォーマット(Raw)で保存/蓄積(IoTデバイス、センサー、ドキュメントなど)
第2層(Tier 2)• 半構造形式のデータ(csv, tsvなど)• Hadoop/Spark、機械学習などから利用される第3層(Tier 3)• 第2層やデータウェハウスのデータで時間が経過したものをアーカイブする
• データ構造は基本的に半構造形式
データウェアハウスデータレイクストア
非構造Rawデータ(ログ、文書、バイナリ)
Tier 1
MachineLearning
Data LakeAnalytics HDInsight
目的に合わせたデータウェハウス分析処理(売上分析、経営分析)
データウェハウスに格納しきれなかった
過去データ、関連データを連結して分析
ハードウェアの性能限界によって行えなかった処理量の分析を実現
※ディスク/コンピューティング
非構造データの分析処理
(画像、音声、映像など)
広範囲のデータを利用した機械学習、統計解析処理などによる高度分析
SQL Data Warehouse
Data LakeAnalytics HDInsight
Data LakeAnalytics
構造化データ半構造データ分析用に加工(csv等)
Tier 2
アーカイブデータTier 2, DWHのアーカイブ
Tier 3
統合ビッグデータ基盤ビッグデータカタログ
構造化データ定型分析用
非構造Rawデータ(ログ,文書,バイナリ)
Tier 1
半構造データ分析用に加工(csv等)
Tier 2
SQL Data Warehouse
Data LakeStore
Data Catalog
情報可視化
経営ダッシュボード
情報アクセス高度化・統合検索
レポーティング
Power BI
高度予測分析
自然言語認識
翻訳・要約
統計解析・分析
類似・相関分析
機械学習Deep Learning
仮説設定・検証
Cognitive
HDInsight
MachineLearning
Botサービス
会話型問合せ
Bot Services
Data LakeAnalytics
データ収集・連携
DataFactory
System ofRecords (ERP等)構造化データ
コミュニケーションインフラストラクチャ等の非構造化データ
ワード・Excel・PDF等の非定型データ
外部ソース(構造化・非構造化)オープンデータ
半構造データアーカイブ用
Tier 3
データ連携DataFactory
Azure ActiveDirectory ユーザ管理/認証/アクセス制御
Data Factory Tools for Visual Studio
Azure Portal
Azure TableStorage
(Web ログレコード)
Data Factory
HDInsight(Web ログをファイルにしてバッチ処理で集計)
SQL Database(集計データをDB テーブルに格納)
Power BI
社内システム
DataManagement
Gateway
SQL DatabaseData Warehouse
Blob StorageTable Storage
Analytics
Storage
HDInsight(“managed clusters”)
Azure Data Lake Analytics
Azure Data Lake Store
Azure Data Lake
LOB Applications
SocialDevices
Clickstream
Sensors
Video
Web
Relational
HDInsight
Data Lake Analytics
Machine Learning
Spark
R
Azure Data Lake Store
実質無制限の容量のファイル群を格納出来るビッグデータストア(数十、数百ペタバイト以上のクラスのデータを格納可能)
Azure のクラウド基盤上の HDFS (Hadoop 分散ファイルシステム) 互換のファイルシステム、全てのファイルをそのままの書式(raw data)で格納可能
並列分散処理(MPP)により高スループットを実現
「企業向けレベルのセキュリティ」に対応(セキュリティ、アクセス制御、暗号化など)
1つのデータオブジェクトに対して、2つのレプリカを同時に複製(全体で3つのコピーを保持)することで高可用性を実現
拡張可能
高信頼性
互換性
パフォーマンス
アクセス制御
Azure Data Lake Store file
…Block 1 Block 2 Block 2
Backend StorageData node Data node Data node Data node Data nodeData node
Block Block Block Block Block Block
パフォーマンス
アクセス制御
障害時でさえデータは消失しない
Replica 1
Replica 2 Replica 3
Fault/upgradedomains
Write Commit
高信頼性
AzureAzure
Saas
Azure
PublicCloud
Office 365Office 365
ControlNode
SQL DB
ComputeNode
ComputeNode
ComputeNode
ComputeNode
SQL DB
SQL DB
SQL DB
SQL DB コンピュート層
• スケールアウト・ダウン可能• 停止可能
データはストレージ層
MPP処理
コンピュート層とストレージ層を分離することで、スケールアウトを容易にし、同時に課金も柔軟にするDMS
DMS DMS DMS DMS
ComputeNode
SQL DB
DMS
プレミアムストレージ(SSD)
Azure Data Lake StoreAzure Storage Blob
外部表Azure SQLData Warehouse
従来型の処理・分析 Azure Data Lake を中心とした処理・分析
Business apps
Custom apps
Sensors and devices
ADL Store People非構造化データも含めてあらゆるデータを格納
Azure SQL DW
Azure AD
Power BI
ADF
ADL Analytics
• 処理・分析業務の大半はデータ準備作業が占める• 処理・分析業務に手間・時間が必要
Business apps
Custom apps
Sensors and devices
HDInsight
ユーザー管理、認証
データの連携
Power BI
File System
Database
Database
Hadoop
DWH
Data Mart
HDInsight開発者は OSS に馴染んでいる: Java, Eclipse, Hive, etc.
マネージド Hadoop クラスタにおいて、カスタマイズ・管理が可能で、フレキシビリティがある
Azure Data Lake AnalyticsC#, SQL & PowerShellのスキル・経験を活かせる
利便性、効率性、自動スケール、ジョブ実行の仕組みが提供される
(New)(New)
一般的なパターン処理読み込み 保存
INSERTOUTPUT
OUTPUT
SELECT… FROM… WHERE…
+Python、R
EXTRACT
EXTRACT
SELECT
SELECT
Azure Data Lake
Azure Data Lake
Azure SQL DB
Azure Storage Blobs
Azure Storage Blobs
RowSet RowSet
Cognitive Services
REFERENCE ASSEMBLY WebLogExtASM;@rs =
EXTRACTUserID string,Start DateTime, End DateTime,Region string,SitesVisited string,PagesVisited string
FROM “/Logs/WebLogRecords.txt”USING WebLogExtractor ();
@result = SELECT UserID,(End.Subtract(Start)).TotalSeconds AS DurationFROM @rs ORDER BY Duration DESC FETCH 10;
OUTPUT @result TO “/Logs/Results/top10.tsv"USING Outputter.Tsv();
• 型定義は C# の型定義と同じ• データをファイルから抽出・読み込みするときに、スキーマが必要
Data Lake Store 内 のファイル独自形式を解析するカスタム関数
C# の関数
行セット:(中間テーブルの概念に近い)
TSV形式で書き込む関数
U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能
42
進捗統計情報
AzureData Lake
Store
※ Power BI Desktop は下記サイトから無償でダウンロード可能ですhttps://powerbi.microsoft.com/ja-jp/desktop
• レポートの例
Demo
航空機の遅延分析と可視化
ハイブリッド データオンプレミスとクラウドの両方のデータにアクセスすることが可能
インタラクティブ主要な可視化・BI ツールをサポートし、インタラクティブなセルフサービス型のデータ分析を実現
実績のある技術SQL Server Analysis Services のテーブル モデルを搭載
クラウドPaaS のため簡単にデプロイでき、簡単にスケールさせることができるマネージド型サービス
セキュリティ管理
データモデリング
分析の高速化
SQL Database などのデータベース
Excel、フラットファイル
分析サーバデータソース 可視化・分析機能
Demo
Azure Data Factoryを用いたデータ連携の実装
Azure Data Factoryを用いたデータ連携の実装
ビックデータは大容量かつ多彩
ADLで処理・分析・評価のサイクルをシームレスに、よりクイックに
ADLであらゆるデータをビジネスに活用、管理、運用も Azure にお任せ
セッションアンケートにご協力ください
専用アプリからご回答いただけます。
decode 2017
スケジュールビルダーで受講セッションを登録後、アンケート画面からご回答ください。
アンケートの回答時間はたったの 15 秒です!
Ask the Speaker のご案内本セッションの詳細は『Ask the Speaker Room』各コーナーカウンタにてご説明させていただきます。是非、お立ち寄りください。
© 2017 Microsoft Corporation. All rights reserved.
本情報の内容(添付文書、リンク先などを含む)は、作成日時点でのものであり、予告なく変更される場合があります。