Grid Datafarm for a HEP application

Grid Datafarm for a HEP application

Osamu Tatebe(Grid Technology Research Center, AIST)

Satoshi Sekiguchi(AIST), Youhei Morita (KEK), Satoshi Matsuoka (Titech & NII), Kento Aida (Titech),

Donald F. (Rick) McMullen (Indiana),Philip Papadopoulos (SDSC)

SC2002 High-Performance Bandwidth Challenge

Data Grid ミニワークショップ国立天文台＠三鷹2002 年 12 月 11 日

SC2002 high-performance bandwidth challenge

demonstrate exciting applications at the maximum possible speed

Overview of Our Challenge

• Seven clusters in US and Japan comprise a cluster-of-cluster file system:

Gfarm file system• The FADS/Goofy simulation code based o

n the Geant4 toolkit simulates the ATLAS detector and generates hits collection (a terabyte of raw data) in the Gfarm file system

• The Gfarm file system replicates data across the clusters

Bandwidth Challenge!!!!

グリッド技術（グリッドデータファーム）を用いたテラバイト（１兆文字）クラスの大規模データ

一ヶ所に保存すると一ヶ所に保存すると保存箇所以外からの書き込み・読み出しに時間がかかる災害時などにデータが失われたり、アクセスできなくなったりする

分けて別々に保存すると分けて別々に保存すると別々の管理単位になり、管理、アクセスが大変手元にないデータへの読み書きは時間がかかる災害時などには部分的にデータが失われたり、アクセスできなくなったりする

グリッドデータファームを使うと複数分散ディスクによりファイルシステムを構成複数分散ディスクによりファイルシステムを構成分散して書き込まれた複数ファイルを一つのファイル分散して書き込まれた複数ファイルを一つのファイルとして扱えるとして扱える部分的な複製ができる部分的な複製ができる

複数の複製により障害に備えるデータがある場所でそのデータを高速処理するデータがある場所でそのデータを高速処理する

つくば東京バルチモアインディアナサンディエゴ

Target Application at SC2002: FADS/GoofyTarget Application at SC2002: FADS/Goofy

Monte Carlo Simulation Framework with Geant4 (C++)Monte Carlo Simulation Framework with Geant4 (C++) FADS/Goofy: FADS/Goofy: FFramework for ramework for AATLAS/TLAS/AAutonomous utonomous DDetector etector SSimulation / imulation / GGeant4-based eant4-based OObject-bject-ooriented riented

FFollollyy

http://atlas.web.cern.ch/Atlas/GROUPS/SOFTWARE/OO/domains/simulation/http://atlas.web.cern.ch/Atlas/GROUPS/SOFTWARE/OO/domains/simulation/

Modular I/O package selection:Modular I/O package selection:Objectivity/DB and/or ROOT I/OObjectivity/DB and/or ROOT I/Oon top of Gfarm filesystemon top of Gfarm filesystemwith good scalabilitywith good scalability

CPU intensive event simulationCPU intensive event simulationwith high speed file replicationwith high speed file replicationand/or distributionand/or distribution

Network and cluster configuration for SC2002 Bandwidth Challenge

SCinet 10 GE

SC2002, Baltimore

Indiana Univ.

SDSC

IndianapolisGigaPoP

NOC

TokyoNOC

OC-12 POS

Japan

APAN/TransPAC

KEK

Titech

AIST

ICEPP

PNWGGrid Cluster

Federation Booth

OC-12

StarLightOC-12 ATM(271Mbps)

E1200

Tsukuba WAN

20 Mbps

GbE

SuperSINET

1 Gbps

OC-12

10 GE

US

ESnetNII-ESnet HEP PVC

GbE

KEK Titech AIST ICEPP SDSC Indiana U SC2002

SC 会場とのデータ転送の理論総バンド幅 2.1 Gbps

Total disk capacity: 18 TB, disk I/O bandwidth: 6 GB/s

米国内網

サンディエゴSDSC

インディアナ大

SC2002会場

産総研つくば

東工大東大

シカゴ

シアトル

MAFFIN

大手町

1Gbps

622Mbps

622Mbps

KEK

622Mbps

271Mbps

1Gbps1Gbps

10Gbps

10Gbps

つくば WAN

20Mbps

日米間通信741Mbps

複数経路を同時利用世界初！

SC2002バンド幅チャレンジ

2.3 Gbps!

実証実験 : 複製

バルチモア

ネットワーク、クラスタ構成の特徴

SCSC 会場会場GbE で接続された 12 ノードの PC クラスタを Force10 E1200 で 10GE でSCinet に接続LAN における性能

ネットワークバンド幅は 930Mbpsファイル転送性能は 75MB/s(=629Mbps)

AISTAIST同等の 7 ノードのクラスタ。 GbE でつくば WAN 、 Maffin を経て東京 XPに接続

IndianaIndiana 大大FE で接続された 15 ノードのクラスタ。 OC12 で Indianapolis GigaPoPに接続

SDSCSDSCGbE で接続された 8 ノードのクラスタ。 OC12 で外部接続

TransPACTransPAC の南北ルートのルーティングの南北ルートのルーティングデフォルトは北ルートSC 会場、 AIST のそれぞれ 3 ノードについて南ルートを通るよう東京 XP 、Maffin で設定AIST 、 SC 会場間の RTT: 北ルート 199ms 、南ルート 222ms南ルートは 271Mbps にシェーピングPC

E1200

PC

GbE

SCinet10GE OC192

12ノード

SC2002 会場のネットワーク構成

Lessons from the Challenge

大きな遅延大きな遅延RTT: 北回り 199 ミリ秒、南回り 222 ミリ秒socket buffer size の拡大複数ストリーム、ネットワークストライピング

パケットロスによるパケットロスによる window size window size の限界の限界High Speed TCP(HSTCP, net100 ）の利用

Sally Floyd の Internet Draft輻輳ウィンドウの早期復帰

過大な過大な window size window size によるパケットロスの増大によるパケットロスの増大小さな socket buffer で複数のストリームを利用

ディスク性能の限界ディスク性能の限界複数のストリームによる並列ディスクアクセス

ストライピング・アクセス適切なストライプ・サイズの選択

複数ホストへの分割複数ホストへの分割gfarm – 断片化されたファイルノード数が少ないため、必要バンド幅を達成するために必要最小限のノードを利用、単体性能の向上1 ノードあたり平均 200Mbps!

ネットワークの理論性能近くを達成するためには、全ルートのデバグが必要。ネットワークの理論性能近くを達成するためには、全ルートのデバグが必要。（皆様お手数をおかけしました）（皆様お手数をおかけしました）

ルータごとのパケットロス率、Abilene カンザスシティ、デンバー間のパケットロス修正

北ルート米国方向で 35Mbps から 500Mbps 強に大改善！TransPAC 南ルート（ OC-12 ATM) のセルロス

解決できず。 271Mbps にシェープした PVC を利用転送可能なレートを超えて送信すると急激に性能低下

送信バッファサイズによる制御送信間隔による制御

ネットワーク転送のみ： 250Mbps 程度、ファイル転送： 170Mbps 程度シェーピングをはずして、アプリケーションで転送レートを制御しても改善せず

HSTCPHSTCP およびおよび net100net100 パッチによる複数パッチによる複数 TCPTCP ストリームのバンド幅不均衡ストリームのバンド幅不均衡単一ストリームのバンド幅が過大にならないよう転送レート制御が必要

ネットワーク性能とファイル転送性能の性能差ネットワーク性能とファイル転送性能の性能差IncomingIncoming とと outgoingoutgoing ストリームの性能は必ずしも輪にならないストリームの性能は必ずしも輪にならない

片方向だけよりも劣化する場合もAPAN/TransPAC APAN/TransPAC における詳細な測定モニタの必要性における詳細な測定モニタの必要性

1 分平均値 → 10 秒、 1 秒、 1/10 秒平均が必要

64KB/0.2sec = 2.62Mbps

64KB 200ms

700Mbps を達成するには 280 台（ストリーム）必要、これを 4 台で達成

チャレンジチャレンジ LessonsLessons

IperfIperf によるによる TransPACTransPAC 性能評価性能評価

SC 会場から南北両ルートに対し、北ルート 2 ノード、南ルート 3 ノードの計 10 ノードを利用して753Mbps(10 秒平均 ) を達成（理論ピーク性能： 622+271=893Mbps ）

10-sec average bandwidth

5-min average bandwidth

北ルート

南ルート

IperfIperf によるによる SCSC 会場とのバンド幅測定（会場とのバンド幅測定（ 11 分平分平均）均）

米国内 Abilene のパケットロス障害によるTransPAC のバンド幅は測定時の状況により大幅に変化

インディアナ大SDSC

TransPAC 北

TransPAC 南

日米間のグリッド実験

（ 10 秒平均）米国 4 ノード、日本 4 ノード、ファイル転送で 741 Mbps 達成！

読売新聞 11 月 21 日夕刊

日本経済新聞 11 月 21 日夕刊

産経新聞 12 月 1 日

日経産業新聞 11 月 22 日

TransPAC におけるファイル転送の設定と結果

設定パラメータ設定パラメータ北回り北回り南回り南回りsocket buffer size:socket buffer size: 610 KB610 KB 250 KB250 KB

流量制限流量制限 1 1 ストリームあたりストリームあたり :: 50 Mbps50 Mbps 28.5 Mbps28.5 Mbps

ストリーム数ストリーム数 :: 16 streams16 streams 8 streams8 streams

ホスト数ホスト数 :: 3 hosts3 hosts 1 host1 host

stripe unit size:stripe unit size: 128 KB128 KB 128 KB128 KB

Host pair Host pair (( 内訳内訳 ))

streams streams （内訳）（内訳） 1010 秒平均最大秒平均最大転送時間転送時間（秒）（秒）

平均平均

1 (1 ( 北北 1)1) 16 (16 ( 北北 16x1)16x1) 113.0113.0 152Mbps152Mbps

2 (2 ( 北北 2)2) 32 (32 ( 北北 16x2)16x2) 419 Mbps419 Mbps 115.9115.9 297Mbps297Mbps

3 (3 ( 北北 3)3) 48 (48 ( 北北 16x3)16x3) 593 Mbps593 Mbps 139.6139.6 369Mbps369Mbps

4 (4 ( 北北 3 3 南南1)1)

56 (56 ( 北北 16x3 + 16x3 + 南南8x1)8x1)

741 Mbps741 Mbps 150.0150.0 458Mbps458Mbps

SC 会場と Indiana および SDSC のファイル複製性能

Replication bandwidth [SC 1 node-US sites]

0

10

20

30

40

50

1 2 3 4 5

# remote nodes

Ban

dwid

th [

MB

/s]

sc->indianaindiana->scsc->sdscsdsc->sc

Bandwidth Measurement Result

We achieved 2.3 Gbps using 12 nodes!(outgoing 1.7 Gbps, incoming 0.6 Gps)



0.1-sec average bandwidth

Special thanks to

• Rick McMullen, John Hicks (Indiana Univ, PRAGMA)

• Phillip Papadopoulos (SDSC, PRAGMA)

• Hisashi Eguchi (Maffin)

• Kazunori Konishi, Yoshinori Kitatsuji, Ayumu Kubota (APAN)

• Chris Robb (Indiana Univ, Abilene)

• Force 10 Networks, Inc

Grid Datafarm for a HEP application

Documents

Transcript of Grid Datafarm for a HEP application