メモリ最適化列ストアインデックスと透過的な Hadoop 操作を実...

メモリ最適化列ストアインデックスと透過的な Hadoop 操作を実現する

Parallel Data Warehouse

エグゼクティブプロダクトマネージャー

北川剛

SC-003

データウェアハウスビジネスの進化

2

#1

30%以上

Wins

http://www.seeklogo.com/innova-industrial-design-logo-71900.html

http://www.seeklogo.com/innova-industrial-design-logo-71900.html

http://bivoyage.com/index.html

http://bivoyage.com/index.html

SQL Server 2012 Parallel Data Warehouse の導入により

100 倍の性能向上を実現

3

Red 1807

R186 G20 B26

“… SQL Server Parallel Data Warehouse を利用することで、以前は 20 分以上かかっていた基本的なクエリ処理が数秒で完了するようになった”- Tom Settle, Assistant VP, Data Warehousing, Hy-vee

利用効果大手総合食品・雑貨スーパー “Hy-Vee 社” では、経営層とアナリストの両者に、より早く正確な売上データの提供を目指し、MPP ベースの新しいデータウェアハウスの構築が急務となっていた。

PDWと、それに搭載された SQL Server は既存システムの 100 倍のクエリ性能を実現し、今までは 2 年分の売上データでしかできなかった処理を、7 年まで拡張するだけのスケーラビリティを有していた。

激変する

“データ”を取り巻く環境

4

今後 5 年単位で、データ量

は 10 倍になる

データの

85%は新しいデータ形式

大人 1 人当たりのネット接続機器

4.3 台

人口の

27%がソーシャルメディアを利用

データ爆発

IT の

コンシューマリゼーション

“By 2015, organizations integrating high-value, diverse, new information types

and sources into a coherent information management infrastructure will

outperform their industry peers financially by more than 20% “- Gartner, Regina Casonato et al., “Information Management in the 21st Century”

ビジネスにおいて

新しい「問いかけ」が生まれています。

5

システムはその「問いかけ」に如何に応えるか

6

高額なアプライアンスの購入

レガシーシステムへの継続投資

スケーラビリティの制限

高額な投資専門性の高い教育への投資

ソリューションの複雑化

ソリューション技術の習得

高価な BI 製品の導入

SQL Server 2012 Parallel Data Warehouse

新しいビッグデータアプライアンス

7

成長に対応するスケーラビリティ

• データ量が増大しても機材追加により性能がスケールする

Big Data サポート

• Hadoop 上のデータとDWH 上のデータとを横串で操作可能

• 大規模データを処理可能

適正な価格

• 業界最安の Terabytes 単価

新技術の習得を必要とする処理

今日におけるデータ解析の制限

8

HDFS(Hadoop)

MapReduce の習得

HDFS(Hadoop)

DWH(RDBMS)

SQL

分析前に必要なデータを HDFS から DWH へ取り込み

制限をなくす

新しいビッグデータアプライアンス

9

構造化・非構造化に依存しないクエリ技術• HDFS (Hadoop) と DWH (RDBMS) のテーブル

をまたがったクエリの実行が可能• 標準的な SQL 言語の利用

例: SELECT, FROM, WHERE etc…

既存の SQL技術知識を活用

既存 IT システムへの干渉なし

コストと時間の大幅な削減

全てのデータタイプを分析

HDFS(Hadoop)

RDBMS

SQL Server 2012


(PolyBase)

SQL


Architecture

ビッグデータ分析に最適なツール• ネイティブな MS BI ツールの使用が可能• 構造化・非構造化データの Excel 内での共存• 既存アプリや幅広いソリューションとの統合

http://blog.fpweb.net/media/2011/04/powerpivot-for-sharepoint-screenshot.jpg

http://blog.fpweb.net/media/2011/04/powerpivot-for-sharepoint-screenshot.jpg

HDFS と RDBMS との横断した分析の課題

10

HDFS(Hadoop)

RDBMSRDBMS にデータをロード

ボトルネック

Hadoop Cluster

Sqoop によるデータ連携の課題

Hadoop Cluster と RDBMS 間のデータ転送がボトルネックとなりパフォーマンスが劣化

ネームノード

Sqoop

データノード

データノード

データノード

データノード

データノード

データノード

RDBMS

コンピュートノード





データノード

データノード

データノード

データノード

データノード

データノード

Hadoop Cluster SQL Server 2012Parallel Data Warehouse

SQL Server 2012 Parallel Data Warehouse の場合

クエリ実行時やデータの取り込み時などに、複数ノード間で、並列にデータ転送を実施し、高いパフォーマンスを実現

RDBMS DWH 肥大化コスト増大

VideoPolybase を使用した HDFS 上のデータ操作

SMP におけるスケールアップの限界

13

Scale Up

• コンピューティングリソースをすべて共有しているため、その設計上の上限を超えることができない

• スケールアップを行うためには、より大きなサーバーに置き換えていく必要がある

Row Store

• Row Store では、データはテーブルにおけるレコードとして格納され、レコードを構成する値は全て同一ページに格納される

• DWH で実行される分析計クエリは集計操作など一部の値しか利用しないケースが多いため、処理に不要な値を返してしまう

… … ……

Existing Table (Partitions)

xVelocity による性能限界の打破

クエリ処理性能を 50 倍以上に

14

カラムストアによる劇的な

性能向上

• 更新可能でクラスタ化されたカラムストア処理 (xVelocity)

• 独自のカラムフォーマットでのデータストア• メモリ上で最適化される事で効率的な CPU 処

理を実現• バルクローディング機能によるロード性能の

向上

50倍以上の処理性能

15倍以上の圧縮性能

時間とコストの大幅な削減

リアルタイム DWH の構築

Cu

stom

er_id

Cu

stom

er_N

am

e

Reven

ue

Ven

do

r_Nam

e

Loca

tion

Co

st

Massively Parallel Processing (MPP) エンジンによる

SQL Server の完全なスケールアウト

15

MPP によるリニアな

スケールアウト

• スーパーコンピュータ仕様の MPP アーキテクチャ

• ユニット単位での HW 追加でリニアなスケールアウトを実現

• ウルトラシェアードナッシングによる処理性能の向上

対 SMP DW

10 倍の性能大規模タスク対応

リニアな性能向上

容易なスケールアウト

スケールアウト

スモールスタートを可能にする柔軟な拡張性

TB から PB (Peta Bytes) までをカバー

16

スモールスタートを実現

• 成長性を見据えて最適規模からの DWH 構築

• 最大で 5 PB までの拡張性を実現

PB レベルの大規模DWH 対応

５PB

成長を見据えたスモールスタート

冗長化によるダウンタイムの排除

仮想環境上に展開された複数の SQL Server で超並列処理を実行

ハードとソフトのデザインが同時進行

HW リソースを最大活用するためのビルトイン SW

17

組み込まれた

Windows Server2012 がリソー

スを最大限に活用

• HW 設置面積を最小化する仮想化技術の大幅活用

• 格納効率を上げるハイエンドストレージ搭載

コスト削減予め最適構成を組込み

ホスト

Hyper-V

SQL Server Windows Server

Hyper-V


Hyper-V


コンピュートノードのスケールアウトにより並列処理の能力を向上


基本的な構成

18

ストレージ



ストレージ



ストレージ



ストレージ



フェールオーバー用

コントロールノード最小構成

(Base Scale Unit)

拡張

(Capacity Scale Unit)


内部アーキテクチャ

19

Microsoft Storage Space

ホスト 1

仮想マシン

コンピュートノード 1

(COMP 1)

Microsoft Storage Space

MADストレージ

CTL

AD

VMM

DB 1

DB 2

COMP 2

COMP 1

ホスト 0

仮想マシン

コントロール

ノード

(CTL)

仮想マシン

マネジメント

ノード

(MAD)

仮想マシン

Active Directory

(AD)

仮想マシン

Virtual

Machine

Manager

(VMM)

フェールオーバー用スペア

Base Scale Unit

Direct attached SAS

In

fin

iban

d&

Eth

ern

et

Scale Unit

DB 3

DB 4スケールアウトによる拡張性

最小構成: 1/4 ラック (15 TB) 最大構成: 7 ラック (1,268 TB)

仮想マシン

コンピュートノード 2

(COMP 2)

ホスト 2

ホスト 3

COMP3

COMP4

仮想マシン

コンピュートノード 3 (COMP 3)

仮想マシン

コンピュートノード 4 (COMP 4)

ホスト 4

ホスト 5

ストレージ

Scale Unit 単位で追加して拡張可能

VMM による自動的なプロビジョニング

何が最適なのでしょうか

20

高額なアプライアンスの購入

レガシーシステムへの継続投資

スケーラビリティの制限

高額な投資専門性の高い教育への投資

ソリューションの複雑化

ソリューション技術の習得

高価な BI 製品の導入


制限を受けない選択

21


高度なスケール性能

コスト削減 Only SQL一体化したソリューション

Hardware and Software

Engineered For Optimal

Value And Lowest Cost

価値の最大化とコスト削減を同時に実現するアプライアンス製品

Built For Big Data With

Integrated Query Using

Standard SQL

標準SQLで構造化・非構造化データ(Big Data)

に対応可能

Next-generation

Performance At Scale

リニアにスケールする最新のアーキテクチャ

を実装

Native integration with

familiar, widely adopted BI

tools

統合されたデータベースと高機能BIツール

© 2013 Microsoft Corporation. All rights reserved. Microsoft, Windows, and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries.

The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the

part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.

メモリ最適化列ストアインデックスと透過的な Hadoop 操作を実...

Documents

Transcript of メモリ最適化列ストアインデックスと透過的な Hadoop 操作を実...

メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実...

Documents

Transcript of メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実...

メモリ最適化列ストアインデックスと透過的な Hadoop 操作を実...

Transcript of メモリ最適化列ストアインデックスと透過的な Hadoop 操作を実...