[db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー...

35
* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved. NVMe徹底検証 平間大輔 株式会社インサイトテクノロジー ビッグデータ・ソリューション事業部

Transcript of [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー...

Page 1: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

NVMe徹底検証

平間大輔

株式会社インサイトテクノロジー

ビッグデータ・ソリューション事業部

Page 2: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

今回のお題は

NVM : Non-Volatile Memory = 不揮発性メモリ

• NVMeでどれだけ速くなるの?• データベースで使って効果はあるの?• 外部ストレージとしてもちゃんと使えるの?

ひたすら検証してみました

Page 3: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

自己紹介

• Apple II発売開始の日に生まれた39歳

• 学生時代の所属ゼミの研究テーマは「データベース」(ただし学部は文系の社会学部)

• 某外資系ITサービス会社(後に某外資系ハードウェアベンダーが買収)にてアプリケーションエンジニア、DBA、プロジェクトマネージャ等を10年ほど経験

• 2011年7月にOracle Databaseの技術コンサルタントとしてインサイトテクノロジーに入社

• 2012年に「ビッグデータ・ソリューション開発部」(当時)発足と同時に所属。その後現在までデータベース専用サーバー「InsightQube」やActian社の高速DWH向けRDBMS (Vector, Matrix)の製品企画・プリセールス・デリバリー・サポート等を担当

• 暑さと湿気に弱い道産子

Page 4: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

NVMeって?

• NVM Express (NVMe)とは、PCI Express(PCIe)でSolid-State Drive(SSD)を扱うための規格

• 既存のPCIeをベースとすることでI/Fの柔軟性と安定性、スケーラビリティーを確保

• 汎用I/FだったSCSIから脱却してSSDのコントロールに特化することで、プロコルスタックの簡素化やコマンド数の削減(SCSI:200以上→NVMe:20程度)に成功し、低レイテンシーを実現

• PCIeからCPUに直結する形となるためHBA/RAIDカードが不要となりこれらのコスト/オーバーヘッドも削減

• 業界団体(NVM Express, Inc.)によって規格策定が進められており、Windows, Linux, Solaris, FreeBSDなど各種OSでIn-Boxドライバが提供されているため、ベンダーロックインの心配なく使用することが可能

これらの効果を見ていこう!

Page 5: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

頭打ちとなるSAS/SATA

0

200

400

600

800

1000

1200

1400

SATA3/SAS2 SAS3

インターフェイス別SSDスループット

(1MB sequential read)

理論最大値 実測値

Page 6: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

PCI Express直結で限界突破

0

500

1000

1500

2000

2500

3000

3500

4000

4500

SATA3/SAS2 SAS3 NVMe

インターフェイス別SSDスループット

(1MB sequential read)

理論最大値 実測値

※NVMeの理論値はPCI Express 3.0 x4でのもの。実測値も同じ環境。

Page 7: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

データの流れを比較する

出典:

https://www.openfabrics.org/images/eventpresos/workshops2013/2013_Workshop_Tues_1130_Akerson_NVMe_Overview.pdf

出典:

http://nvmexpress.org/about/why-nvm-express/

Page 8: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

低レイテンシーを実現

0

0.02

0.04

0.06

0.08

0.1

0.12

random read random write

ミリ秒

Response time (I/O size 4kB, thread=1)

SAS3 NVMe

Page 9: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

Queueの強化

• CPUコアごとに1つ以上のI/O Submission QueueとI/O Completion Queue、MSI-X(拡張メッセージシグナル割り込み)が設定される。CPUコア間でのキュー・割り込みが共有されないためコア間でのロック待ちなく動作が可能。

• 1つ当たり64k個のコマンドをキューイングできるキューを最大64k個持つことができ、最大で2の32乗個のコマンドをキューイング可能。(SATAは深さ32、SASは深さ256のキューが1個)

出典:http://nvmexpress.org/wp-content/uploads/2013/04/IDF-2012-NVM-Express-and-the-PCI-Express-SSD-Revolution.pdf

Page 10: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

Queueの強化

出典:http://nvmexpress.org/wp-content/uploads/2013/04/FMS-2012-How-the-Streamlined-Architecture-of-NVM-Express-Enables-High-Performance-PCIe-SSDs.pdf

1. ホストがsubmission queueに書き込む

2. ホストがsubmission queueの末尾のポインタをdoorbellに書き込む

3. コントローラがコマンドをフェッチする

4. コントローラがコマンドを実行する

5. コントローラが完了メッセージをcompletion queueに書き込む

6. コントローラがMSI-X割り込みを発行する

7. ホストが処理を完了させる

8. ホストがcompletion queueの先頭のポインタをdoorbellに書き込む

Page 11: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

IOPSが大きく向上

0

100000

200000

300000

400000

500000

600000

700000

random read random write

IOP

S

I/O size=4kBでのIOPS (threads=512)

SAS3 NVMe

Page 12: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

高負荷時も低レイテンシー

0

1

2

3

4

5

6

7

8

9

random readthread 1

random readthread 16

random readthread 128

random readthread 512

random writethread 1

random writethread 16

random writethread 128

random writethread 512

ミリ秒

threads

Response time (thread数を増やした場合の変化)

SAS3 NVMe

Page 13: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

Enterprise用途で使うには

形状:

• PCI Express add-in card

• U.2 (別名SFF-8639、2.5インチ PCI Express x4、hot swap可能)

• M.2 (Enterprise用途ではあまり使われない)

構成時の注意:

• HBA/RAIDカード不要

よってRAIDカードによるHW RAIDは構成できない

• IPMI経由での管理が可能

• 最新OS (RHEL6.5以降、Windows Server 2012R2など)ではOS標準のドライバが提供済み

Page 14: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

カタログスペックと実測値

製品

128k SequentialRead (MB/s)

4k Random Read (IOPS)

128k SequentialWrite (MB/s)

4k RandomWrite (IOPS)

カタログ 実測 カタログ 実測 カタログ 実測 カタログ 実測

A社 3.2TB 3000 2954 743000 745008 1600 1469 140000 246252

B社 800GB 3100 2830 660000 680361 2350 2544 185000 208374

C社 3.2TB 3200 2761 800000 742575 2100 1888 170000 184638

D社 1.2TB 2800 2878 700000 743282 1300 1236 180000 224579

※ DWPDはB社製品のみ10、あとは3のモデルを検証。 512 threads時の値を記載。

• エンタープライズモデルのSSDはsteady state(一通り書き込みがなされて性能が安定した状態)の性能をカタログスペックとして載せている。

• カタログスペックはおおむね信用できるが、やはり実測値とのずれはある(測定方法の違い、測定機器の違い、ドライバの違いetc…)。

• 可能であればやはり実際に使用する環境で実際のワークロードに近い負荷をかけて測定してから選びたい。

• なお、同一製品でも容量やDWPDの差によって性能にも差がある(特にrandom write)ことに注意。検証の際は自分が使用する予定の容量・DWPDのものを使うこと。

Page 15: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

DB用途で効くのはどこ?

• DWH(OLAP)系処理シーケンシャルI/Oにおけるスループット性能が高いストレージが効果的

• OLTP系処理ランダムI/OにおけるIOPSの高さ、およびログファイル書き込みにおける低レイテンシーが求められる

NVMeはどちらも得意なはず実際に検証してみよう

Page 16: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

Oracle入れて動かそう!

SAS3 NVMe

• Intel Xeon E5-2667 v3 x2個 (16 core)

• 256GB Memory• OS: Red Hat Enterprise Linux 7.2※プロトタイプ版のスペックです。製品版のCPUはE5-2600 v4ファミリーとなります。

SAS3, NVMeそれぞれ2枚1セットでOracle ASMのディスクグループを構成。ディスクグループは通常冗長性(2重化)とする。

Oracle Database 12c Enterprise Editionを使用するが、PartitioningやIn-Memoryなどのオプションは使用しない。

InsightQube NVMeモデルを使う!近日プレスリリース予定…でもSQL Server 2016 SSD Applianceとしては発表済みhttps://www.microsoft.com/ja-jp/server-cloud/products-SQL-Server-2016-SSD.aspx

…結果は?

Page 17: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

DWHでは…

0

200

400

600

800

1000

1200

SAS3 NVMe

TPC-H SF=100GB

Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 Q10 Q11

Q12 Q13 Q14 Q15 Q16 Q17 Q18 Q19 Q20 Q21 Q22

Page 18: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

DWHでは…

• 大きなブロックサイズのreadが主なI/Oワークロード

• DBの処理時間はCPUと比較してI/O待ちの時間が長い

• よってSequential readのスループットの違いが処理速度の違いに直結する

Page 19: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

• HammerDBを使用してTPC-Cを実行

• 各インスタンスには32GBのメモリを割り当て

• REDOログファイルは500MBを10個用意

• データファイルもREDOログと同じディスクグループに配置

• それ以外の設定(初期パラ等)はdbcaでの作成時のデフォルト

• スケールファクター(warehouseテーブルの行数)を1000としてデータベースを作成 (スキーマサイズ:約90GB)

• 同時セッション数128で処理を実行

• 1セッションあたり100,000回処理し、最後のセッションが終了するまでの時間を測定してTPS(Transactions Per Sec)を計算

OLTPでは…??????

Page 20: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

10330.91

11873.84

0

2000

4000

6000

8000

10000

12000

14000

SAS3 NVMe

TPS (Transactions Per Second)

OLTPでは…

Page 21: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

OLTPでは…• Small size writeが主なI/Oワークロード

• 処理時間の大半はコミット処理(=log file sync)に費やされる

• REDOログ書き込みのレイテンシーの差が処理性能の差となる

• このベンチマークでのlog file syncの平均時間はSAS3が7ms、NVMeが6ms。Log file parallel writeはSAS3が3ms、NVMeが2ms。

Page 22: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

やっぱりディスクは共有したい

InsightQube clusterモデルの基本構成(InfiniBand SRPを使用)

出典:

https://www.openfabrics.org/images/eventpresos/workshops2015/DevWorkshop/Monday/monday_10.pdf

• ストレージサーバーやフラッシュアプライアンスなど、NVMeを搭載した外部ストレージを接続するにはどうしたら良いか。

• ポピュラーな接続方法だとiSCSIやストレージ製品でよく使われるFibre Channel。• 弊社製品のInsightQube clusterモデルなどInfiniBand接続ではRDMA (CPUを介さずに相手先マ

シンのメモリに直接データを転送する技術) を使うiSERやSRPといったプロトコルがよく使われる。

• しかしこれらはすべて上でSCSIコマンドがやりとりされる。せっかくのNVMeなのにちょっともったいなくない?

Page 23: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

iSCSIを使ってしまうと…

0

500

1000

1500

2000

2500

sequential read sequential write

MB

/s

スループット

SAS3 (local) NVMe (local) NVMe over iSCSI

0

100000

200000

300000

400000

500000

600000

700000

random read random writeIO

PS

IOPS

SAS3 (local) NVMe (local) NVMe over iSCSI

• 何も考えずにOS標準のiSCSI機能を用いると上の通りスループット、IOPSともに大幅に性能が落ちてしまう。

• 通常はもう少し考慮してNICのオフロード機能やRDMA対応のプロトコル(iSER, SRPなど)を使うことが想定されるが、それでもSCSIのプロトコルに変換することによるオーバーヘッドからは逃れられない。

Page 24: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

強い味方:NVMe over Fabrics

出典:https://www.openfabrics.org/images/eventpresos/workshops2015/DevWorkshop/Monday/monday_10.pdf

• RDMA(InfiniBand, RoCE, iWARP)の高速通信を使って、あたかもローカルのNVMeにアクセスするようにNVMeをアクセス可能!

• 2016/6/5(私の誕生日)にSpecificationのRevision 1.0が公開!

Page 25: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

NVMe over Fabricsの構成

出典:http://www.nvmexpress.org/wp-content/uploads/NVMe_FMS_2015_Presentations.zipzipファイル内の FMS 15 - NVM Express over Fabrics - Performance and emerging NVM impact-....pdf

ホスト側 ターゲット側

Page 26: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

iWARPを使ってみました

• Chelsio T580-LP-CR (40Gigabit Ethernet Adapter)

• Chelsio社のNICではRDMAでTCPを転送するiWARPが使用可能

• Chelsio社提供のNVMe over Fabricsテストコードを使用

• コミュニティ版のコードも以下で公開済みだが、まだ安定していないらしい…。

git://git.infradead.org/nvme-fabrics.git

• RHEL 7.2のカーネルを入れ替えて実行

Page 27: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

ローカルと遜色なし!

0

500

1000

1500

2000

2500

sequential read sequential write

MB

/s

スループット

SAS3 (local) NVMe (local)

NVMe via iSCSI NVMe over Fabrics

0

100000

200000

300000

400000

500000

600000

700000

random read random write

IOP

S

IOPS

SAS3 (local) NVMe (local)

NVMe via iSCSI NVMe over Fabrics

Page 28: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

レイテンシーも健闘

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

random read random write

ミリ秒

Response time (I/O size 4kB, thread=1)

SAS3 (local) NVMe (local) NVMe via iSCSI NVMe over Fabrics

Page 29: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

レイテンシーも健闘

0

1

2

3

4

5

6

7

8

9

random readthread 1

random readthread 16

random readthread 128

random readthread 512

random writethread 1

random writethread 16

random writethread 128

random writethread 512

ミリ秒

threads

Response time (thread数を増やした場合の変化)

SAS3 (local) NVMe (local) NVMe via iSCSI NVMe over Fabrics

Page 30: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

NVMe over FabricsでOracle!

NVMeNVMe

iSCSI NVMeOF

• InsightQube NVMeモデルをもう1台用意し、その間をChelsio社の40Gbit Ethernetで直結する。

• ターゲット側のNVMeを2枚ずつiSCSIとNVMe over Fabricsでイニシエータ側に接続し、それらのディスクをASMのディスクグループとしてセットアップし、Oracleで使用可能とする。

40GbE

結果は…わかりますよね?

Page 31: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

NVMe over FabricsでDWH!

0

200

400

600

800

1000

1200

1400

SAS3 (local) NVMe (local) NVMe via iSCSI NVMe over Fabrics

TPC-H SF=100GB

Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 Q10 Q11

Q12 Q13 Q14 Q15 Q16 Q17 Q18 Q19 Q20 Q21 Q22

Page 32: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

10330.91

11873.84

10423.45

11091.85

0.00

2000.00

4000.00

6000.00

8000.00

10000.00

12000.00

14000.00

SAS3 (local) NVMe (local) NVMe via iSCSI NVMe over Fabrics

TPS (Transactions Per Second)

NVMe over FabricsでOLTP!

Page 33: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

実は…

• NVMe over FabricsのコードがマージされたLinux kernelがリリースされるのはもう少し先(おそらく4.7)。

• さらにRHELやUbuntuがこのコードをバックポートするのはおそらくもっと先。

• ディスク障害時の動作など、実際の運用に必要な動作についてはさらに検証・作り込みが必要• SRPなどでも同じですが…

• ちなみにターゲット側でNVMeを抜いただけだとホスト側は無反応でした。

• 次に起こるのはネットワークボトルネック。100Gbitでも足りない!• 今回の40Gbit Ethernetだと2本で上限

• InsightQubeだとNVMeが最大8本搭載できてしまう

Page 34: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

まとめ

• PCIeベースとすることでスループット・IOPSには絶大な威力。DWH系処理では速度向上に直結。

• レイテンシー低下によりOLTPにも効果あり。ただし劇的というほどではない。OLTP処理でもっと処理能力を上げるには、別のソリューション(NVDIMMとか)が必要かも。

• ノード間接続はNVMe over Fabricsが今後の標準。NVMeの性能の優位性をそのまま確保できる。

• ただし実用的に使えるようになるにはまだ時間がかかりそう。

Page 35: [db tech showcase Tokyo 2016] A35: NVMe徹底検証 by 株式会社インサイトテクノロジー 平間 大輔

* 記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。 Copyright 2016 Insight Technology, Inc. All Rights Reserved.

記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。

Copyright 2016 Insight Technology, Inc. All Rights Reserved.