Grid Datafarm for a HEP application
description
Transcript of Grid Datafarm for a HEP application
![Page 1: Grid Datafarm for a HEP application](https://reader035.fdocuments.net/reader035/viewer/2022062518/56814651550346895db36484/html5/thumbnails/1.jpg)
Grid Datafarm for a HEP application
Osamu Tatebe(Grid Technology Research Center, AIST)
Satoshi Sekiguchi(AIST), Youhei Morita (KEK), Satoshi Matsuoka (Titech & NII), Kento Aida (Titech),
Donald F. (Rick) McMullen (Indiana),Philip Papadopoulos (SDSC)
SC2002 High-Performance Bandwidth Challenge
Data Grid ミニワークショップ国立天文台@三鷹2002 年 12 月 11 日
![Page 2: Grid Datafarm for a HEP application](https://reader035.fdocuments.net/reader035/viewer/2022062518/56814651550346895db36484/html5/thumbnails/2.jpg)
SC2002 high-performance bandwidth challenge
demonstrate exciting applications at the maximum possible speed
![Page 3: Grid Datafarm for a HEP application](https://reader035.fdocuments.net/reader035/viewer/2022062518/56814651550346895db36484/html5/thumbnails/3.jpg)
Overview of Our Challenge
• Seven clusters in US and Japan comprise a cluster-of-cluster file system:
Gfarm file system• The FADS/Goofy simulation code based o
n the Geant4 toolkit simulates the ATLAS detector and generates hits collection (a terabyte of raw data) in the Gfarm file system
• The Gfarm file system replicates data across the clusters
Bandwidth Challenge!!!!
![Page 4: Grid Datafarm for a HEP application](https://reader035.fdocuments.net/reader035/viewer/2022062518/56814651550346895db36484/html5/thumbnails/4.jpg)
グリッド技術(グリッドデータファーム)を用いたテラバイト(1兆文字)クラスの大規模データ
一ヶ所に保存すると一ヶ所に保存すると保存箇所以外からの書き込み・読み出しに時間がかかる災害時などにデータが失われたり、アクセスできなくなったりする
分けて別々に保存すると分けて別々に保存すると別々の管理単位になり、管理、アクセスが大変手元にないデータへの読み書きは時間がかかる災害時などには部分的にデータが失われたり、アクセスできなくなったりする
![Page 5: Grid Datafarm for a HEP application](https://reader035.fdocuments.net/reader035/viewer/2022062518/56814651550346895db36484/html5/thumbnails/5.jpg)
グリッドデータファームを使うと複数分散ディスクによりファイルシステムを構成複数分散ディスクによりファイルシステムを構成分散して書き込まれた複数ファイルを一つのファイル分散して書き込まれた複数ファイルを一つのファイルとして扱えるとして扱える部分的な複製ができる部分的な複製ができる
複数の複製により障害に備えるデータがある場所でそのデータを高速処理するデータがある場所でそのデータを高速処理する
つくば 東京 バルチモア インディアナサンディエゴ
![Page 6: Grid Datafarm for a HEP application](https://reader035.fdocuments.net/reader035/viewer/2022062518/56814651550346895db36484/html5/thumbnails/6.jpg)
Target Application at SC2002: FADS/GoofyTarget Application at SC2002: FADS/Goofy
Monte Carlo Simulation Framework with Geant4 (C++)Monte Carlo Simulation Framework with Geant4 (C++) FADS/Goofy: FADS/Goofy: FFramework for ramework for AATLAS/TLAS/AAutonomous utonomous DDetector etector SSimulation / imulation / GGeant4-based eant4-based OObject-bject-ooriented riented
FFollollyy
http://atlas.web.cern.ch/Atlas/GROUPS/SOFTWARE/OO/domains/simulation/http://atlas.web.cern.ch/Atlas/GROUPS/SOFTWARE/OO/domains/simulation/
Modular I/O package selection:Modular I/O package selection:Objectivity/DB and/or ROOT I/OObjectivity/DB and/or ROOT I/Oon top of Gfarm filesystemon top of Gfarm filesystemwith good scalabilitywith good scalability
CPU intensive event simulationCPU intensive event simulationwith high speed file replicationwith high speed file replicationand/or distributionand/or distribution
![Page 7: Grid Datafarm for a HEP application](https://reader035.fdocuments.net/reader035/viewer/2022062518/56814651550346895db36484/html5/thumbnails/7.jpg)
Network and cluster configuration for SC2002 Bandwidth Challenge
SCinet 10 GE
SC2002, Baltimore
Indiana Univ.
SDSC
IndianapolisGigaPoP
NOC
TokyoNOC
OC-12 POS
Japan
APAN/TransPAC
KEK
Titech
AIST
ICEPP
PNWGGrid Cluster
Federation Booth
OC-12
StarLightOC-12 ATM(271Mbps)
E1200
Tsukuba WAN
20 Mbps
GbE
SuperSINET
1 Gbps
OC-12
10 GE
US
ESnetNII-ESnet HEP PVC
GbE
KEK Titech AIST ICEPP SDSC Indiana U SC2002
SC 会場とのデータ転送の理論総バンド幅 2.1 Gbps
Total disk capacity: 18 TB, disk I/O bandwidth: 6 GB/s
![Page 8: Grid Datafarm for a HEP application](https://reader035.fdocuments.net/reader035/viewer/2022062518/56814651550346895db36484/html5/thumbnails/8.jpg)
米国内網
サンディエゴSDSC
インディアナ大
SC2002会場
産総研つくば
東工大東大
シカゴ
シアトル
MAFFIN
大手町
1Gbps
622Mbps
622Mbps
KEK
622Mbps
271Mbps
1Gbps1Gbps
10Gbps
10Gbps
つくば WAN
20Mbps
日米間通信741Mbps
複数経路を同時利用世界初!
SC2002バンド幅チャレンジ
2.3 Gbps!
実証実験 : 複製
バルチモア
![Page 9: Grid Datafarm for a HEP application](https://reader035.fdocuments.net/reader035/viewer/2022062518/56814651550346895db36484/html5/thumbnails/9.jpg)
ネットワーク、クラスタ構成の特徴
SCSC 会場会場GbE で接続された 12 ノードの PC クラスタを Force10 E1200 で 10GE でSCinet に接続LAN における性能
ネットワークバンド幅は 930Mbpsファイル転送性能は 75MB/s(=629Mbps)
AISTAIST同等の 7 ノードのクラスタ。 GbE でつくば WAN 、 Maffin を経て東京 XPに接続
IndianaIndiana 大大FE で接続された 15 ノードのクラスタ。 OC12 で Indianapolis GigaPoPに接続
SDSCSDSCGbE で接続された 8 ノードのクラスタ。 OC12 で外部接続
TransPACTransPAC の南北ルートのルーティングの南北ルートのルーティングデフォルトは北ルートSC 会場、 AIST のそれぞれ 3 ノードについて南ルートを通るよう東京 XP 、Maffin で設定AIST 、 SC 会場間の RTT: 北ルート 199ms 、南ルート 222ms南ルートは 271Mbps にシェーピングPC
E1200
PC
GbE
SCinet10GE OC192
12ノード
SC2002 会場のネットワーク構成
![Page 10: Grid Datafarm for a HEP application](https://reader035.fdocuments.net/reader035/viewer/2022062518/56814651550346895db36484/html5/thumbnails/10.jpg)
Lessons from the Challenge
大きな遅延大きな遅延RTT: 北回り 199 ミリ秒、南回り 222 ミリ秒socket buffer size の拡大複数ストリーム、ネットワークストライピング
パケットロスによる パケットロスによる window size window size の限界の限界High Speed TCP(HSTCP, net100 )の利用
Sally Floyd の Internet Draft輻輳ウィンドウの早期復帰
過大な 過大な window size window size によるパケットロスの増大によるパケットロスの増大小さな socket buffer で複数のストリームを利用
ディスク性能の限界ディスク性能の限界複数のストリームによる並列ディスクアクセス
ストライピング・アクセス適切なストライプ・サイズの選択
複数ホストへの分割複数ホストへの分割gfarm – 断片化されたファイルノード数が少ないため、必要バンド幅を達成するために必要最小限のノードを利用、単体性能の向上1 ノードあたり平均 200Mbps!
ネットワークの理論性能近くを達成するためには、全ルートのデバグが必要。ネットワークの理論性能近くを達成するためには、全ルートのデバグが必要。(皆様お手数をおかけしました)(皆様お手数をおかけしました)
ルータごとのパケットロス率、Abilene カンザスシティ、デンバー間のパケットロス修正
北ルート米国方向で 35Mbps から 500Mbps 強に大改善!TransPAC 南ルート( OC-12 ATM) のセルロス
解決できず。 271Mbps にシェープした PVC を利用転送可能なレートを超えて送信すると急激に性能低下
送信バッファサイズによる制御送信間隔による制御
ネットワーク転送のみ: 250Mbps 程度、ファイル転送: 170Mbps 程度シェーピングをはずして、アプリケーションで転送レートを制御しても改善せず
HSTCPHSTCP およびおよび net100net100 パッチによる複数パッチによる複数 TCPTCP ストリームのバンド幅不均衡ストリームのバンド幅不均衡単一ストリームのバンド幅が過大にならないよう転送レート制御が必要
ネットワーク性能とファイル転送性能の性能差ネットワーク性能とファイル転送性能の性能差IncomingIncoming とと outgoingoutgoing ストリームの性能は必ずしも輪にならないストリームの性能は必ずしも輪にならない
片方向だけよりも劣化する場合もAPAN/TransPAC APAN/TransPAC における詳細な測定モニタの必要性における詳細な測定モニタの必要性
1 分平均値 → 10 秒、 1 秒、 1/10 秒平均が必要
64KB/0.2sec = 2.62Mbps
64KB 200ms
700Mbps を達成するには 280 台(ストリーム)必要、これを 4 台で達成
チャレンジチャレンジ LessonsLessons
![Page 11: Grid Datafarm for a HEP application](https://reader035.fdocuments.net/reader035/viewer/2022062518/56814651550346895db36484/html5/thumbnails/11.jpg)
IperfIperf によるによる TransPACTransPAC 性能評価性能評価
SC 会場から南北両ルートに対し、北ルート 2 ノード、南ルート 3 ノードの計 10 ノードを利用して753Mbps(10 秒平均 ) を達成(理論ピーク性能: 622+271=893Mbps )
10-sec average bandwidth
5-min average bandwidth
北ルート
南ルート
![Page 12: Grid Datafarm for a HEP application](https://reader035.fdocuments.net/reader035/viewer/2022062518/56814651550346895db36484/html5/thumbnails/12.jpg)
IperfIperf によるによる SCSC 会場とのバンド幅測定(会場とのバンド幅測定( 11 分平分平均)均)
米国内 Abilene のパケットロス障害によるTransPAC のバンド幅は測定時の状況により大幅に変化
インディアナ大SDSC
TransPAC 北
TransPAC 南
![Page 13: Grid Datafarm for a HEP application](https://reader035.fdocuments.net/reader035/viewer/2022062518/56814651550346895db36484/html5/thumbnails/13.jpg)
日米間のグリッド実験
( 10 秒平均)米国 4 ノード、日本 4 ノード、ファイル転送で 741 Mbps 達成!
読売新聞 11 月 21 日夕刊
日本経済新聞 11 月 21 日夕刊
産経新聞 12 月 1 日
日経産業新聞 11 月 22 日
![Page 14: Grid Datafarm for a HEP application](https://reader035.fdocuments.net/reader035/viewer/2022062518/56814651550346895db36484/html5/thumbnails/14.jpg)
TransPAC におけるファイル転送の設定と結果
設定パラメータ設定パラメータ 北回り北回り 南回り南回りsocket buffer size:socket buffer size: 610 KB610 KB 250 KB250 KB
流量制限 流量制限 1 1 ストリームあたりストリームあたり :: 50 Mbps50 Mbps 28.5 Mbps28.5 Mbps
ストリーム数ストリーム数 :: 16 streams16 streams 8 streams8 streams
ホスト数ホスト数 :: 3 hosts3 hosts 1 host1 host
stripe unit size:stripe unit size: 128 KB128 KB 128 KB128 KB
Host pair Host pair (( 内訳内訳 ))
streams streams (内訳)(内訳) 1010 秒平均最大秒平均最大 転送時間転送時間(秒)(秒)
平均平均
1 (1 ( 北北 1)1) 16 (16 ( 北北 16x1)16x1) 113.0113.0 152Mbps152Mbps
2 (2 ( 北北 2)2) 32 (32 ( 北北 16x2)16x2) 419 Mbps419 Mbps 115.9115.9 297Mbps297Mbps
3 (3 ( 北北 3)3) 48 (48 ( 北北 16x3)16x3) 593 Mbps593 Mbps 139.6139.6 369Mbps369Mbps
4 (4 ( 北北 3 3 南南1)1)
56 (56 ( 北北 16x3 + 16x3 + 南南8x1)8x1)
741 Mbps741 Mbps 150.0150.0 458Mbps458Mbps
![Page 15: Grid Datafarm for a HEP application](https://reader035.fdocuments.net/reader035/viewer/2022062518/56814651550346895db36484/html5/thumbnails/15.jpg)
SC 会場と Indiana および SDSC のファイル複製性能
Replication bandwidth [SC 1 node-US sites]
0
10
20
30
40
50
1 2 3 4 5
# remote nodes
Ban
dwid
th [
MB
/s]
sc->indianaindiana->scsc->sdscsdsc->sc
![Page 16: Grid Datafarm for a HEP application](https://reader035.fdocuments.net/reader035/viewer/2022062518/56814651550346895db36484/html5/thumbnails/16.jpg)
Bandwidth Measurement Result
We achieved 2.3 Gbps using 12 nodes!(outgoing 1.7 Gbps, incoming 0.6 Gps)
10-sec average bandwidth
1-sec average bandwidth
0.1-sec average bandwidth
![Page 17: Grid Datafarm for a HEP application](https://reader035.fdocuments.net/reader035/viewer/2022062518/56814651550346895db36484/html5/thumbnails/17.jpg)
Special thanks to
• Rick McMullen, John Hicks (Indiana Univ, PRAGMA)
• Phillip Papadopoulos (SDSC, PRAGMA)
• Hisashi Eguchi (Maffin)
• Kazunori Konishi, Yoshinori Kitatsuji, Ayumu Kubota (APAN)
• Chris Robb (Indiana Univ, Abilene)
• Force 10 Networks, Inc