メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実...
Transcript of メモリ最適化列ストアインデックスと 透過的な Hadoop 操作を実...
メモリ最適化列ストアインデックスと透過的な Hadoop 操作を実現する
Parallel Data Warehouse
エグゼクティブ プロダクト マネージャー
北川 剛
SC-003
データウェアハウスビジネスの進化
2
#1
30%以上
Wins
SQL Server 2012 Parallel Data Warehouse の導入により
100 倍の性能向上を実現
3
Red 1807
R186 G20 B26
“… SQL Server Parallel Data Warehouse を利用することで、以前は 20 分以上かかっていた基本的なクエリ処理が数秒で完了するようになった”- Tom Settle, Assistant VP, Data Warehousing, Hy-vee
利用効果大手総合食品・雑貨スーパー “Hy-Vee 社” では、経営層とアナリストの両者に、より早く正確な売上データの提供を目指し、MPP ベースの新しいデータ ウェアハウスの構築が急務となっていた。
PDWと、それに搭載された SQL Server は既存システムの 100 倍のクエリ性能を実現し、今までは 2 年分の売上データでしかできなかった処理を、7 年まで拡張するだけのスケーラビリティを有していた。
激変する
“データ”を取り巻く環境
4
今後 5 年単位で、データ量
は 10 倍になる
データの
85%は新しいデータ形式
大人 1 人当たりのネット接続機器
4.3 台
人口の
27%がソーシャルメディアを利用
データ爆発
IT の
コンシューマリゼーション
“By 2015, organizations integrating high-value, diverse, new information types
and sources into a coherent information management infrastructure will
outperform their industry peers financially by more than 20% “- Gartner, Regina Casonato et al., “Information Management in the 21st Century”
ビジネスにおいて
新しい「問いかけ」が生まれています。
5
システムはその「問いかけ」に如何に応えるか
6
高額なアプライアンスの購入
レガシーシステムへの継続投資
スケーラビリティの制限
高額な投資専門性の高い教育への投資
ソリューションの複雑化
ソリューション技術の習得
高価な BI 製品の導入
SQL Server 2012 Parallel Data Warehouse
新しいビッグデータ アプライアンス
7
成長に対応するスケーラビリティ
• データ量が増大しても機材追加により性能がスケールする
Big Data サポート
• Hadoop 上のデータとDWH 上のデータとを横串で操作可能
• 大規模データを処理可能
適正な価格
• 業界最安の Terabytes 単価
新技術の習得を必要とする処理
今日におけるデータ解析の制限
8
HDFS(Hadoop)
MapReduce の習得
HDFS(Hadoop)
DWH(RDBMS)
SQL
分析前に必要なデータを HDFS から DWH へ取り込み
制限をなくす
新しいビッグデータ アプライアンス
9
構造化・非構造化に依存しないクエリ技術• HDFS (Hadoop) と DWH (RDBMS) のテーブル
をまたがったクエリの実行が可能• 標準的な SQL 言語の利用
例: SELECT, FROM, WHERE etc…
既存の SQL技術知識を活用
既存 IT システムへの干渉なし
コストと時間の大幅な削減
全てのデータタイプを分析
HDFS(Hadoop)
RDBMS
SQL Server 2012
Parallel Data Warehouse
(PolyBase)
SQL
SQL Server 2012 Parallel Data Warehouse
Architecture
ビッグ データ分析に最適なツール• ネイティブな MS BI ツールの使用が可能• 構造化・非構造化データの Excel 内での共存• 既存アプリや幅広いソリューションとの統合
HDFS と RDBMS との横断した分析の課題
10
HDFS(Hadoop)
RDBMSRDBMS にデータをロード
ボトルネック
Hadoop Cluster
Sqoop によるデータ連携の課題
Hadoop Cluster と RDBMS 間のデータ転送がボトルネックとなりパフォーマンスが劣化
ネームノード
Sqoop
データノード
データノード
データノード
データノード
データノード
データノード
RDBMS
コンピュート ノード
コンピュート ノード
コンピュート ノード
コンピュート ノード
コンピュート ノード
データノード
データノード
データノード
データノード
データノード
データノード
Hadoop Cluster SQL Server 2012Parallel Data Warehouse
SQL Server 2012 Parallel Data Warehouse の場合
クエリ実行時やデータの取り込み時などに、複数ノード間で、並列にデータ転送を実施し、高いパフォーマンスを実現
RDBMS DWH 肥大化コスト増大
VideoPolybase を使用した HDFS 上のデータ操作
12
SMP におけるスケールアップの限界
13
Scale Up
• コンピューティング リソースをすべて共有しているため、その設計上の上限を超えることができない
• スケールアップを行うためには、より大きなサーバーに置き換えていく必要がある
Row Store
• Row Store では、データはテーブルにおけるレコードとして格納され、レコードを構成する値は全て同一ページに格納される
• DWH で実行される分析計クエリは集計操作など一部の値しか利用しないケースが多いため、処理に不要な値を返してしまう
… … ……
Existing Table (Partitions)
xVelocity による性能限界の打破
クエリ処理性能を 50 倍以上に
14
カラムストアによる劇的な
性能向上
• 更新可能でクラスタ化されたカラムストア処理 (xVelocity)
• 独自のカラム フォーマットでのデータストア• メモリ上で最適化される事で効率的な CPU 処
理を実現• バルクローディング機能によるロード性能の
向上
50倍以上の処理性能
15倍以上の圧縮性能
時間とコストの大幅な削減
リアルタイム DWH の構築
Cu
stom
er_id
Cu
stom
er_N
am
e
Reven
ue
Ven
do
r_Nam
e
Loca
tion
Co
st
Massively Parallel Processing (MPP) エンジンによる
SQL Server の完全なスケールアウト
15
MPP によるリニアな
スケールアウト
• スーパーコンピュータ仕様の MPP アーキテクチャ
• ユニット単位での HW 追加でリニアなスケールアウトを実現
• ウルトラ シェアード ナッシングによる処理性能の向上
対 SMP DW
10 倍の性能大規模タスク対応
リニアな性能向上
容易なスケールアウト
スケールアウト
スモールスタートを可能にする柔軟な拡張性
TB から PB (Peta Bytes) までをカバー
16
スモールスタートを実現
• 成長性を見据えて最適規模からの DWH 構築
• 最大で 5 PB までの拡張性を実現
PB レベルの大規模DWH 対応
5PB
成長を見据えたスモールスタート
冗長化によるダウンタイムの排除
仮想環境上に展開された複数の SQL Server で超並列処理を実行
ハードとソフトのデザインが同時進行
HW リソースを最大活用するためのビルトイン SW
17
組み込まれた
Windows Server2012 が リソー
スを最大限に活用
• HW 設置面積を最小化する仮想化技術の大幅活用
• 格納効率を上げるハイエンドストレージ搭載
コスト削減 予め最適構成を組込み
ホスト
Hyper-V
SQL Server Windows Server
Hyper-V
SQL Server Windows Server
Hyper-V
SQL Server Windows Server
コンピュート ノードのスケールアウトにより並列処理の能力を向上
SQL Server 2012 Parallel Data Warehouse
基本的な構成
18
ストレージ
コンピュート ノード
コンピュート ノード
ストレージ
コンピュート ノード
コンピュート ノード
ストレージ
コンピュート ノード
コンピュート ノード
ストレージ
コンピュート ノード
コンピュート ノード
フェールオーバー 用
コントロールノード最小構成
(Base Scale Unit)
拡張
(Capacity Scale Unit)
SQL Server 2012 Parallel Data Warehouse
内部アーキテクチャ
19
Microsoft Storage Space
ホスト 1
仮想マシン
コンピュート ノード 1
(COMP 1)
Microsoft Storage Space
MADストレージ
CTL
AD
VMM
DB 1
DB 2
COMP 2
COMP 1
ホスト 0
仮想マシン
コントロール
ノード
(CTL)
仮想マシン
マネジメント
ノード
(MAD)
仮想マシン
Active Directory
(AD)
仮想マシン
Virtual
Machine
Manager
(VMM)
フェールオーバー用スペア
Base Scale Unit
Direct attached SAS
In
fin
iban
d&
Eth
ern
et
Scale Unit
DB 3
DB 4スケールアウトによる拡張性
最小構成: 1/4 ラック (15 TB) 最大構成: 7 ラック (1,268 TB)
仮想マシン
コンピュート ノード 2
(COMP 2)
ホスト 2
ホスト 3
COMP3
COMP4
仮想マシン
コンピュート ノード 3 (COMP 3)
仮想マシン
コンピュート ノード 4 (COMP 4)
ホスト 4
ホスト 5
ストレージ
Scale Unit 単位で追加して拡張可能
VMM による自動的なプロビジョニング
何が最適なのでしょうか
20
高額なアプライアンスの購入
レガシーシステムへの継続投資
スケーラビリティの制限
高額な投資専門性の高い教育への投資
ソリューションの複雑化
ソリューション技術の習得
高価な BI 製品の導入
SQL Server 2012 Parallel Data Warehouse
制限を受けない選択
21
Parallel Data Warehouse
高度なスケール性能
コスト削減 Only SQL一体化したソリューション
Hardware and Software
Engineered For Optimal
Value And Lowest Cost
価値の最大化とコスト削減を同時に実現するアプライアンス製品
Built For Big Data With
Integrated Query Using
Standard SQL
標準SQLで構造化・非構造化データ(Big Data)
に対応可能
Next-generation
Performance At Scale
リニアにスケールする最新のアーキテクチャ
を実装
Native integration with
familiar, widely adopted BI
tools
統合されたデータベースと高機能BIツール
© 2013 Microsoft Corporation. All rights reserved. Microsoft, Windows, and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries.
The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the
part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.