[DI12] あらゆるデータをビジネスに活用! Azure Data Lake...

56

Transcript of [DI12] あらゆるデータをビジネスに活用! Azure Data Lake...

Page 1: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
Page 2: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
Page 3: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
Page 4: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

* Gartner, Big Data (Stamford, CT.: Gartner, 2016), URL: http://www.gartner.com/it-glossary/big-data/

ビッグデータとは、より拡張された洞察、意思決定、プロセスの自動化を可能にする費用効率の高い、革新的な情報処理の形態で求められる、高ボリューム(high-volume)、高速(high-velocity)、多彩な(high-variety) 情報資産です。

– ガートナー, ビッグデータの定義*

Page 5: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

Microsoft. FY16 Q4 Results, URL: http://www.microsoft.com/en-us/Investor/earnings/FY-2016-Q4/press-release-webcast

Page 6: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

Source: Gartner

ビジネス価値

ビジネス活用のステージ

バッチレポート定型検索

分析・アドホック非定型検索

予測分析

自動化支援

何が起きたのか?状況の把握

何故起きたのか?原因を把握

過去を分析し、今後とるべき行動を判断

判断を元にしたアクションの自動化

これまでの Business Intelligence人が戦略的な意思決定をするための支援ツール

Advanced Analytics が目指すものより精度の高い蓄積データを活かして、将来を予測し、業務判断を自動化する高いビジネス価値を提供

過去の見える化(BI)・基本統計量(平均、最大、最小、標準偏差など)・クロス集計・グラフ等による可視化

・予測モデリング・相関、パターン発見・セグメンテーション・最適化・シミュレーション・ディープラーニング

+将来予測(発見型)

分析ステージを過去の要因分析から未来の予測分析にシフトし、高精度の意思決定を実現

Page 7: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

https://www.microsoft.com/itshowcase/Article/Content/617/Whats-new-with-the-data-culture-at-Microsoftマイクロソフト事例サイト:IT Showcase

データ

プロセス テクノロジー

利用する

可能にする

監視する

マイクロソフトは過去データの詳細分析に費やす時間を減らし、様々なデータをもとに将来何が起こるのかという「予測分析」についてさらに注力していきます。

この先進的なアプローチにより、マイクロソフトのIT部門は他のビジネス部門をサポートする重要なポジションになっています。

Page 8: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

ETL パイプラインスキーマの定義

Relational

LOB Applications

Schema-on-Write

直ちに必要でないデータは、全て捨てられるか、アーカイブされている

Page 9: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

無限に保存 分析 結果の参照あらゆるデータソースからのデータ収集

Schema-on-Read

Page 10: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
Page 11: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察/仮説集まったデータから仮説をたてる

Page 12: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

クラウドベースの統合ビッグデータ基盤ビッグデータカタログ

データレイクストア

データウェアハウス

構造化データ定型分析用

非構造RawデータTier 1

半構造データTier 2

SQL Data Warehouse

Data LakeStore

Data Catalog

アーカイブデータTier 3

アーカイブ

変換

ロードアーカイブ

ビッグデータカタログ:• 大量データオブジェクトに対するメタデータのカタログ

データウェアハウス:• 大量の構造化データを高速に集約/分析処理を実行• 領域ごとにデータモデル(スタースキーマ)を設計(例:売上分析、経理/経営分析)

データレイクストア:第1層(Tier 1)• 非構造データをそのままのフォーマット(Raw)で保存/蓄積(IoTデバイス、センサー、ドキュメントなど)

第2層(Tier 2)• 半構造形式のデータ(csv, tsvなど)• Hadoop/Spark、機械学習などから利用される第3層(Tier 3)• 第2層やデータウェハウスのデータで時間が経過したものをアーカイブする

• データ構造は基本的に半構造形式

Page 13: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

データウェアハウスデータレイクストア

非構造Rawデータ(ログ、文書、バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせたデータウェハウス分析処理(売上分析、経営分析)

データウェハウスに格納しきれなかった

過去データ、関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

※ディスク/コンピューティング

非構造データの分析処理

(画像、音声、映像など)

広範囲のデータを利用した機械学習、統計解析処理などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ分析用に加工(csv等)

Tier 2

アーカイブデータTier 2, DWHのアーカイブ

Tier 3

Page 14: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
Page 15: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

統合ビッグデータ基盤ビッグデータカタログ

構造化データ定型分析用

非構造Rawデータ(ログ,文書,バイナリ)

Tier 1

半構造データ分析用に加工(csv等)

Tier 2

SQL Data Warehouse

Data LakeStore

Data Catalog

情報可視化

経営ダッシュボード

情報アクセス高度化・統合検索

レポーティング

Power BI

高度予測分析

自然言語認識

翻訳・要約

統計解析・分析

類似・相関分析

機械学習Deep Learning

仮説設定・検証

Cognitive

HDInsight

MachineLearning

Botサービス

会話型問合せ

Bot Services

Data LakeAnalytics

データ収集・連携

DataFactory

System ofRecords (ERP等)構造化データ

コミュニケーションインフラストラクチャ等の非構造化データ

ワード・Excel・PDF等の非定型データ

外部ソース(構造化・非構造化)オープンデータ

半構造データアーカイブ用

Tier 3

データ連携DataFactory

Azure ActiveDirectory ユーザ管理/認証/アクセス制御

Page 16: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
Page 17: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
Page 18: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
Page 19: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

Data Factory Tools for Visual Studio

Azure Portal

Page 20: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight(Web ログをファイルにしてバッチ処理で集計)

SQL Database(集計データをDB テーブルに格納)

Power BI

Page 21: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

社内システム

DataManagement

Gateway

SQL DatabaseData Warehouse

Blob StorageTable Storage

Page 22: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
Page 23: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

Analytics

Storage

HDInsight(“managed clusters”)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

Page 24: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Page 25: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

実質無制限の容量のファイル群を格納出来るビッグデータストア(数十、数百ペタバイト以上のクラスのデータを格納可能)

Azure のクラウド基盤上の HDFS (Hadoop 分散ファイルシステム) 互換のファイルシステム、全てのファイルをそのままの書式(raw data)で格納可能

並列分散処理(MPP)により高スループットを実現

「企業向けレベルのセキュリティ」に対応(セキュリティ、アクセス制御、暗号化など)

1つのデータオブジェクトに対して、2つのレプリカを同時に複製(全体で3つのコピーを保持)することで高可用性を実現

拡張可能

高信頼性

互換性

パフォーマンス

アクセス制御

Page 26: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

Azure Data Lake Store file

…Block 1 Block 2 Block 2

Backend StorageData node Data node Data node Data node Data nodeData node

Block Block Block Block Block Block

パフォーマンス

Page 27: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

アクセス制御

Page 28: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

障害時でさえデータは消失しない

Replica 1

Replica 2 Replica 3

Fault/upgradedomains

Write Commit

高信頼性

Page 29: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
Page 30: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

AzureAzure

Saas

Azure

PublicCloud

Office 365Office 365

Page 31: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

ControlNode

SQL DB

ComputeNode

ComputeNode

ComputeNode

ComputeNode

SQL DB

SQL DB

SQL DB

SQL DB コンピュート層

• スケールアウト・ダウン可能• 停止可能

データはストレージ層

MPP処理

コンピュート層とストレージ層を分離することで、スケールアウトを容易にし、同時に課金も柔軟にするDMS

DMS DMS DMS DMS

ComputeNode

SQL DB

DMS

プレミアムストレージ(SSD)

Page 32: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

Azure Data Lake StoreAzure Storage Blob

外部表Azure SQLData Warehouse

Page 33: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
Page 34: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

従来型の処理・分析 Azure Data Lake を中心とした処理・分析

Business apps

Custom apps

Sensors and devices

ADL Store People非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

• 処理・分析業務の大半はデータ準備作業が占める• 処理・分析業務に手間・時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理、認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

Page 35: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
Page 36: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
Page 37: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
Page 38: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

HDInsight開発者は OSS に馴染んでいる: Java, Eclipse, Hive, etc.

マネージド Hadoop クラスタにおいて、カスタマイズ・管理が可能で、フレキシビリティがある

Azure Data Lake AnalyticsC#, SQL & PowerShellのスキル・経験を活かせる

利便性、効率性、自動スケール、ジョブ実行の仕組みが提供される

Page 39: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

(New)(New)

Page 40: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

一般的なパターン処理読み込み 保存

INSERTOUTPUT

OUTPUT

SELECT… FROM… WHERE…

+Python、R

EXTRACT

EXTRACT

SELECT

SELECT

Azure Data Lake

Azure Data Lake

Azure SQL DB

Azure Storage Blobs

Azure Storage Blobs

RowSet RowSet

Cognitive Services

Page 41: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

REFERENCE ASSEMBLY WebLogExtASM;@rs =

EXTRACTUserID string,Start DateTime, End DateTime,Region string,SitesVisited string,PagesVisited string

FROM “/Logs/WebLogRecords.txt”USING WebLogExtractor ();

@result = SELECT UserID,(End.Subtract(Start)).TotalSeconds AS DurationFROM @rs ORDER BY Duration DESC FETCH 10;

OUTPUT @result TO “/Logs/Results/top10.tsv"USING Outputter.Tsv();

• 型定義は C# の型定義と同じ• データをファイルから抽出・読み込みするときに、スキーマが必要

Data Lake Store 内 のファイル独自形式を解析するカスタム関数

C# の関数

行セット:(中間テーブルの概念に近い)

TSV形式で書き込む関数

Page 42: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

42

Page 43: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

進捗統計情報

Page 44: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
Page 45: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

AzureData Lake

Store

Page 46: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

※ Power BI Desktop は下記サイトから無償でダウンロード可能ですhttps://powerbi.microsoft.com/ja-jp/desktop

Page 47: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

• レポートの例

Page 48: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

Demo

航空機の遅延分析と可視化

Page 49: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
Page 50: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

ハイブリッド データオンプレミスとクラウドの両方のデータにアクセスすることが可能

インタラクティブ主要な可視化・BI ツールをサポートし、インタラクティブなセルフサービス型のデータ分析を実現

実績のある技術SQL Server Analysis Services のテーブル モデルを搭載

クラウドPaaS のため簡単にデプロイでき、簡単にスケールさせることができるマネージド型サービス

セキュリティ管理

データモデリング

分析の高速化

SQL Database などのデータベース

Excel、フラットファイル

分析サーバデータソース 可視化・分析機能

Page 51: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

Demo

Azure Data Factoryを用いたデータ連携の実装

Page 52: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

Azure Data Factoryを用いたデータ連携の実装

Page 53: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

ビックデータは大容量かつ多彩

ADLで処理・分析・評価のサイクルをシームレスに、よりクイックに

ADLであらゆるデータをビジネスに活用、管理、運用も Azure にお任せ

Page 54: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

セッションアンケートにご協力ください

専用アプリからご回答いただけます。

decode 2017

スケジュールビルダーで受講セッションを登録後、アンケート画面からご回答ください。

アンケートの回答時間はたったの 15 秒です!

Page 55: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

Ask the Speaker のご案内本セッションの詳細は『Ask the Speaker Room』各コーナーカウンタにてご説明させていただきます。是非、お立ち寄りください。

Page 56: [DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

© 2017 Microsoft Corporation. All rights reserved.

本情報の内容(添付文書、リンク先などを含む)は、作成日時点でのものであり、予告なく変更される場合があります。