エクサスケール計算と その要素技術としてのメモリアーキテクチャ

26
エエエエエエエエエエ エエエエエエエエエエエエエエエエエエエエ エエエエ エエエエエエエエエ エエエエ

description

エクサスケール計算と その要素技術としてのメモリアーキテクチャ. 東京大学 情報理工学系研究科 石井康雄. 本日の発表内容. 2018 年のスーパーコンピュータ 予測性能とアーキテクチャを紹介 アプリケーション とアーキテクチャ メモリ性能と演算性能のバランスに関して 要素技術としてのメモリアーキテクチャ DRAM の制御に関する研究. エクサ スケール計算に向けて アーキテクチャ 検討. 2011/10 からのアップデート. エクサマシンの検討の前提 (2011 / 10). 稼働時期 : 2018 年ごろ 目標 : Linpack で 1EFLOPS - PowerPoint PPT Presentation

Transcript of エクサスケール計算と その要素技術としてのメモリアーキテクチャ

Page 1: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

エクサスケール計算とその要素技術としてのメモリアーキテクチャ

東京大学 情報理工学系研究科 石井康雄

Page 2: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

本日の発表内容

2012/03/162

2018 年のスーパーコンピュータ 予測性能とアーキテクチャを紹介

アプリケーションとアーキテクチャ メモリ性能と演算性能のバランスに関して

要素技術としてのメモリアーキテクチャ DRAM の制御に関する研究

Page 3: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

エクサスケール計算に向けてアーキテクチャ検討

2011/10 からのアップデート

3 2012/03/16

Page 4: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

エクサマシンの検討の前提 (2011/10)

2012/03/164

稼働時期 : 2018 年ごろ 目標 : Linpack で 1EFLOPS

「京」の 100 倍の実効性能を目指す Linpack は定量的議論の土台として活用

電力 : 20MW ~ 30MW

総床面積 : 50m x 50m ( ラックで 1000本 )

価格 : ~ 500 億円

Page 5: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

エクサマシンの検討の前提 (2012/03)

2012/03/165

稼働時期 : 2018 年ごろ 目標 : サイエンスロードマップの達成

2020 年のロードマップから達成すべき目標を定義

おおよそ「京」の 100 倍の実効性能を目指す

電力 : 20MW ~ 30MW

総床面積 : 50m x 50m ( ラックで 1000 本 )

価格 : ~ 500 億円

Page 6: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

2018 年の PC クラスタ性能予想(2011/10)

プロセッサ性能 演算 : 3.0 TFLOPS メモリ : 96 GB, 300

GB/s B/F = 0.1

ネットワーク : 25 GB/s B/F = 0.01

電力 : 200W 価格 : 25 万円

システム性能 演算 : 300 PFLOPS (10 万

CPU)

メモリ : 9.6 PB, 30.0 PB/s Bisection BW: 5.0 PB/s ラック数 : 400 電力 : 20MW (1EF で 80MW)

価格 : 250 億円 (1EF で 1000 億円 )

プロセッサ + メモリ / ノード(1 プロセッサ , 150W)

8 プロセッサ + ネットワーク / カード(8 プロセッサ , 1.5KW)

8 カード / シャーシ , 4 シャーシ / ラック(256 プロセッサ , 50KW)

400 ラック / システム(10 万プロセッサ , 20MW)

電力 20MW での最大構成例

2012/03/166

Page 7: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

2018 年の PC クラスタ性能予想(2012/03)

プロセッサ性能 演算 : 3.0 TFLOPS メモリ : 96300 GB, 300

GB/s B/F = 0.1

ネットワーク : 2532 GB/s B/F = 0.01

電力 : 200W 価格 : 25 万円

システム性能 演算 : 300 PFLOPS (10 万

CPU)

メモリ : 9.630.0 PB, 30.0 PB/s

Bisection BW: 5.02.0 PB/s ラック数 : 400 電力 : 20MW (1EF で 80MW)

価格 : 250 億円 (1EF で 1000 億円 )

プロセッサ + メモリ / ノード(1 プロセッサ , 150W)

8 プロセッサ + ネットワーク / カード(8 プロセッサ , 1.5KW)

8 カード / シャーシ , 4 シャーシ / ラック(256 プロセッサ , 50KW)

400 ラック / システム(10 万プロセッサ , 20MW)

電力 20MW での最大構成例

2012/03/167

Page 8: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

エクサスケール計算に向けてアプリケーションとアーキテクチャ

メモリと演算のバランスの観点から

8 2012/03/16

Page 9: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

メモリシステムとスーパーコンピュータ

2012/03/169

メモリシステムは主要課題の1つ 多様なメモリシステムが存在する

大容量・高帯域、小容量・低帯域 メモリ性能と演算性能・電力・コストがトレードオフ

NEC SX-9 Fujitsu FX10 GRAPE-DR

Page 10: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

アプリケーションとメモリシステム

2012/03/1610

メモリシステムはアプリにあわせて設計される アプリケーションが多様な特性を持つ 容量・帯域・アクセスパターン(連続・ストライド)

GDR

FX10x86

SX-9

メモリ容量

メモ

リ帯

域気象・地震

第一原理計算

N 体問題

大小

Page 11: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

エクサの検討でのシステムの分類

2012/03/1611

メモリのバランス別に 4 つのシステムを検討

容量・帯域重視 汎用型 演算重視 メモリ容量削減

オンチップメモリ ( 約 100MB/chip) を主記憶に利用

メモリを減らして演算器を増やす

バランスをとって多目的に利用

メモリ容量・帯域を増やしメモリ重視アプリを高速化

GRAPE-DRClearSpeed

PC クラスタ・京・ BG/Q など

NEC SX-9 該当計算機なし

演算器・コア

キャッシュ

メモリ I/F

DRAM

Page 12: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

システム性能予測(演算・メモリに関して)

2012/03/1612

各構成でのシステム性能を予測 20MW ・ 2500m2 の制約下での予測

演算性能(PFlops)

メモリ帯域(PB/sec)

メモリ容量(PB)

汎用型 200 ~ 400 20 ~ 40 20 ~ 40 B/F = 0.1

容量・帯域 50 ~ 100 50 ~ 100 50 ~ 100 B/F = 1.0

演算重視 1000 ~2000

5 ~ 10 5 ~ 10 B/F = 0.005

容量削減 500 ~1000

250 ~500

0.1 ~ 0.2 B/F = 0.5

京 ( 参考 ) 10 5 1.2 B/F = 0.5

Page 13: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

容量・帯域

汎用型

演算重視

容量削減

1.0E-3 1.0E-2 1.0E-1 1.0E+0 1.0E+1 1.0E+2 1.0E+31.0E-4

1.0E-3

1.0E-2

1.0E-1

1.0E+0

1.0E+1

要求メモリ容量 (PB)

要求

メモ

リ帯

域(B

/F)

アプリケーションの要求性能との相関

2012/03/1613

各アプリケーション毎に向いている計算機が存在していることがわかる

10,000 倍の差

1,000 倍の差

Page 14: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

何故、バランスが変化したか

2012/03/1614

Weak Scaling (より細かいメッシュでの計算 ) メモリ容量 : 増加する 1ステップあたりの計算時間 : 変わらない

N ノードで計算する場合、各ノードのメモリ帯域は同じ

Strong Scaling (より長い時間の計算) メモリ容量 : 変化なし 1ステップあたりの計算時間 : 短縮する

各計算ノードは同じデータ量を短時間で読み書き

Page 15: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

Strong Scaling のボトルネックと対策

2012/03/1615

メモリ帯域 ← 本日紹介の例 巨大なオンチップメモリの採用

集合演算 ( 集約演算・同期など ) 専用 HW で 10 倍以上の高速化の可能性

通信レイテンシ 強スケールのために <1us の通信が必要なアプ

リ 通信方式の工夫で 1/10までは短縮可能

改善可能な点が多く、研究開発が必要

Page 16: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

エクサスケール計算に関してまとめ

16

2018 年の計算機構成を検討 アプリ毎のメモリ帯域・メモリ容量に関して調査調査結果に基づいて 4 つのアーキテクチャを検

各アーキテクチャとアプリをマッピング従来と異なる特性を示すアプリ

スケーリングから最適な構成が変化することもある 「やりたい計算」が具体的ならば計算機は工夫

が出来る可能性が高まる 2012 年度には要素技術研究の予算がつく見込み

2012/03/16

Page 17: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

エクサに向けたアーキテクチャ研究メモリシステム

17 2012/03/16

Page 18: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

将来のスパコンに向けたメモリシステムの課題

2012/03/1618

課題 性能 : 演算性能に対するメモリ帯域の低下 電力 : DRAM/ キャッシュの電力が全体の約

30%

解決方法 ← 私の研究課題 データプリフェッチによるレイテンシ隠蔽 キャッシュ置換の改善による効率化 DRAM 制御の改善による性能向上と電力削減

Page 19: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

Dynamic Random Access Memory

2012/03/1619

スパコンの主記憶は DRAM で構成される 性能・電力・スケーラビリティの多くに関与

特徴単純な機能 ( 指定した場所のデータの読み書き ) 高速化のための複雑な制御

DRAMData 0 Data 1

Data 2 Data 3

プロセッサ

Data

Ad

dr

#0

#2

#1

#3

Data 4 Data 5

Data 6 Data 7

#4

#6

#5

#7

Page 20: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

Data

Addr

DRAM chip

DDR3 メモリのアーキテクチャ

2012/03/1620

メモリの記憶素子は行列の構造をとる行アクセスと列アクセスの 2段階アクセス行・列のペア (Bank) を持ち独立に動作する

DRAM cells

Row buffer

プロセッサ

Bank #0

プロセッサはRow buffer の

データにのみアクセス可能

Page 21: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

DDR3 のメモリアクセス (Read) の例

2012/03/1621

3 フェーズでのリード処理 Activate(ACT) → Read(RD) →

Precharge(PRE)複数バンクを切り替えながらメモリアクセス ACT/RD/PRE の各操作が電力を消費

コマンドの回数を減らすことで電力削減が可能

ACT RD PRE

DATA

ACT RD

DATA

ACT RD

DATA

PRE

ACT→RD RD→PRE PRE→ACT

RD→DATA

アドレス

データDATA

ACT RD PRE ACT

隙間が残る

コマンド競合で次のコマンドが遅延

Page 22: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

DRAM-Aware Prefetching

2012/03/1622

3 フェーズでのリード処理 ACT→RD の後に積極的にプリフェッチを出力

効果 データパスの利用率改善による性能向上 ACT/PRE の回数削減による電力改善 データプリフェッチによる性能改善

アドレス

データ

ACT RD

DATA DATA

ACT RDACT RD

プリフェッチを出力すぐに PRE しない

PRE

DATA

ACT

DATA

PRERDPRE RD

Page 23: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

メモリスケジューリングの効果

2012/03/1623

帯域の改善などで性能が 13% 向上 電力は 3.1% の削減

データ転送が増加したため RD/WR が 25% 増加 ACT/PRE の回数は 28% 削減

Baseline Proposed0.0

0.2

0.4

0.6

0.8

1.0

1.2 Background RD/WR ACT/PRE

Baseline Proposed0.0

0.2

0.4

0.6

0.8

1.0

1.2 Performance

Page 24: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

要素技術研究の成果 特に性能競争の激しい分野

JILP Computer Architecture Competitions (JWAC)

テーマ メモリ ( キャッシュ置換・プリフェッチ ) パイプライン制御 ( 分岐予測 ) DRAM 制御 ← 今年開催予定

過去優勝者 Andre Seznec (Alpha architect) Gao Honliang (Intel x86 architect)

24 2012/03/16

Page 25: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

まとめ エクサスケールシステムの検討

2011 年 10月から継続検討

ターゲットアプリケーションの解析 検討のベースとする 4 つのアーキテクチャを提示

スケーリングと最適アーキテクチャの変化

要素技術としてメモリアーキテクチャの研究 低下する B/F の性能への影響を DRAM 制御の改善で最小限に抑える

25 2012/03/16

Page 26: エクサスケール計算と その要素技術としてのメモリアーキテクチャ

ご清聴ありがとうございました

明日、ポスター発表も行います

本発表はメモリにフォーカスしていますが、ネットワーク・ストレージの話もWelcome です

26 2012/03/16