グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2...
Transcript of グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2...
1
NAREGIシンポジウム2004
グリッド環境における資源管理(WP1)
2004年2月25日
東京工業大学/国立情報学研究所
教授 松岡 聡
本研究は文部科学省研究委託事業「超高速コンピュータ網形成プロジェクト」によるものです。
2
次世代ナショナル研究・計算科学インフラ
• 様々な規模・種類の資源 (松竹梅)のサーバグリッドインフラの実現– 松– ES: 40-100-1000Teraflops x (数台), 全国100-
300 TeraFlops 以上– 竹–各センターの中規模のクラスタ・SMP資源, 5-10
TeraFlops/台 x 5, 合算25-50 TeraFlops、全国250-500 TeraFlops
– 梅–小規模なクラスタや個々のPC、キャンパス(グリッド)中に拡散、高速学内ネットワーク接続、5000-1万台, 合算50 -100 TeraFlops, 全国500-1 PetaFlops
• これらの資源上でのネットワーク上の仮想研究組織(Virtual Organization)のホスティングサービス– ナノ、バイオなどの領域プロジェクトのサポート– 産官学の連携研究のサポート
大学センタ
地球s
3
WP1の目標
• 中間評価への目標– サーバグリッドおよびメタコンピューティングを大規模にセンター間運用するための資源管理のミドルウェアをUnicore, Globus, Condorを基盤に研究開発
– 第一次認定ソフトウェアの開発• 最終的な目標
– センター間で大規模なVirtual Organizationのホスティングを行うための資源管理のミドルウェアをOGSAベースで実現
– そのための研究
4
サーバグリッドとメタコンピューティング
分散サーバ郡
MDなどのアプリ(そのままか小変更)のワークフロー指定
メタスケジュラ、グリッドブローカ、ワークフローエンジンサーバグリッド上での
資源確保、既存のジョブの自動割当
メタコンピューティング
5
将来像:センター群によるVOのホスティング
大学センターの共有グリッド資源のVOへのDynamic Provisioning
分野の研究室の専用マシン群
分野、研究グループ等の複数のVOのセンター群によるホスティング
バイオグリッドバイオグリッドVOVO
A大学センタ
B研究所センタ
C大学センタ
A大学X研究室
A大学Y研究室
D社U部門
E大学V研究室
産官学連携研究の礎へ
ナノグリッドナノグリッドVOVO
6
NAREGIソフトウェア階層
100Tflops級のサイエンスグリッド環境
スーパーSINET
ナノテクシミュレーションのグリッドへの対応
グリッド PSE
グリッド ワークフロー
スーパースケジューラ
グリッドプログラミング-グリッドRPC-グリッドMPI
グリッド可視化
グリッドVM
パッケージング、統合化
計 算 資 源
国立情報学研究所 分子科学研究所 研究協力機関 その他
分散情報サービス
((Globus,Condor,UNICOREGlobus,Condor,UNICORE OGSAOGSA))
ネットワーク通信基盤、性能評価、セキュリティ・認証
WP1
7WP1 2006年半ば中間報告におけるメタコンピューティングの実現イメージ
Client
SSブローカ
GridVM 通信
InformationService
JobA-1…SiteAJobA-2…SiteB゙
NJS
Gateway
CIMM Service
GridVM schedLocal
SchedulerGridVM Engine
NJS
ORDB Provider/Monitor
JobA-1 64CPUJobA-2 64CPU
Site A
MPI 通信
MPIジョブ
GridVM Engine
Gateway
NJS
GridVM schedLocal
SchedulerGridVM Engine
アカウンティング情報
メタコンピューティングジョブ
Condor
Site B
8
WP1 2003-4年度全体活動
• 中間評価に向けた、サーバグリッド・メタコンピューティング向けのグリッドの資源管理基盤の各社のグループによる研究開発
• VOベースの資源管理、並びにそのための自律構成の先行研究
• テストベッドにおける上記の検証研• Unicore, Globus, Condorチームとの継続的連携
• WP1が中心となる、他のWPとの直接的な連携フレームワークの確立
9
2003-4年度WP1研究会開発体制
• 請負開発(各社)– 富士通: スーパスケジューラ・ブローカ、Unicondore– 日立:グリッド情報サービス– NEC: GridVM (資源制御・コスケジュリング)
• 研究 (東工大等各大学+常駐研究員) – 各社と連携した、VOおよび自律の先行研究– テストベッド上での検証研究– 常駐ポスドク研究員(予定):
Hwang(VOスケジュラ(一部))秋岡(テストベッド+VOモニタリング)鈴村(VO管理)
– Part Time: 松岡合田(東工大)・中田(東工大・産総研)河野(電通大)
EU GRIP
Glob
usU
nive
rse
Cond
or-G
Unicore
Unicore--CC
Condor
Condor--UU
10
WP1スーパスケジュラ (富士通)
Client
SSブローカ
GridVM 通信
InformationService
JobA-1…SiteAJobA-2…SiteB゙
NJS
Gateway
CIMM Service
GridVM schedLocal
SchedulerGridVM Engine
NJS
ORDB Provider/Monitor
JobA-1 64CPUJobA-2 64CPU
Site A
MPI 通信
MPIジョブ
GridVM Engine
Gateway
NJS
GridVM schedLocal
SchedulerGridVM Engine
アカウンティング情報
メタコンピューティングジョブ
Condor
Site B
11
スーパスケジュラ(SS)研究・開発の目標全体目標
様々な分野の研究者の研究活動を支える、柔軟なグリッド・インフラのための資源スケジュラ・ブローカの実現世界の有力グリッド(UNICORE, Globus, Condor)との相互動作可能なグリッド・インフラの実現
2003年度の目標グリッド内の多様な資源とそのプロパティを表現し容易に拡張できる「情報サービス」のためのモデル策定および試作上記モデルを実現する情報サービスから、資源を探索する「資源ブローカリング・サービス」の試作
<<エンドユーザ機能>>ジョブ要件を記述することによる実行サーバの自動選択投入ジョブの一元操作(状況監視・キャンセルなど)異常発生時の自動再スケジュール
<<管理者機能>>情報サービスの標準化による柔軟なグリッド利用環境の実現 (グリッドへ供出する資源・そのポリシーの容易な定義)OGSA化によるグリッド間の相互動作VO(仮想組織)によるグリッド利用
12
SSアーキテクチャ
Client
Site B(分子研)
InformationService
MPIジョブ(メタコンピューティング)
JobA-1 3CPUJobA-2 2CPUネットワーク帯域:100Mbps
Super SINET
クラスタネットワーク管理サービス(WP5)
CMM
Delegation
WS-AgreementJSDL
⑥-2Co-Alloca-tion (予約)
エンドユーザ MPI ジョブA
JobA-1 JobA-2MPI通信
①
②
③⑤
⑧
クラスタ
Job SvcFactory
GridVM
Job SvcInst.
WF SvcFactory
DAGInst.
NJS
Gateway Gateway
Broker Factory
AgmtInstance(Aggregate) NJS
Job SvcFactory
Job SvcInst.
WF SvcFactory
DAGInst.⑧
⑧
⑧
⑥-1 Co-allocation(予約)
GridVM
⑦ ⑧
Grid Service (Instance)
Grid Service (Factory)
WS-Agmt
GS op.
Factory::createService
Grid Service (Agreement Instance)
① service flow
⑥-3 100Mbps帯域予約
Not need brokering
④
Site A(NII)
13
2003年度 SS研究・開発成果
2003年度試作版「NAREGI資源ブローカ」の特徴
グリッド・ミドル UNICORE と相互動作DMTF の WBEM/CIM を拡張したNAREGI資源スキーマに対応した「情報サービス」と連携
バッチ・システムに対するジョブの事前予約 (Co-Allocation)
情報サービス
Job Exec. Svc.
WF Exec. Svc.
UNICORE サーバ(NJS)
PBS/Maui(改造)
UNICORE TSI
UNICORE Client
BrokeringSvc. NAREGI 資源
スキーマ
予約
照会
ワークフロージョブ実行 資源探索
グリッド資源情報
NAREGI資源ブローカ
14
2003年度 SS研究・開発成果 デモ概要
Site C
ジョブの実行要件に基づく実行ノードの自動探索NAREGI資源スキーマに対応した「情報サービス」との連携事前予約によるCo-Allocationを実現 (サイト間並列ジョブ実行基盤)
情報サービス
Site A
スーパースケジューラ
NAREGI資源スキーマ利用した
グリッド内資源の探索
Site B
Maui/OpenPBS
ジョブの実行要件を指定
ノード2
Jobノード2
Job
ノード1
Job
Maui/OpenPBS
ノード1
UNICORE UNICOREUNICORE
資源割当て依頼 ⇒ 確認 ⇒ ジョブ実行依頼
ジョブ実行ノード
の自動選択
事前予約による
複数サイト間の
同時ジョブ実行
15
SS今後の研究・開発の目標
資源ブローカの拡張 (自動資源探索の研究・開発)
対象資源の拡大(ネットワーク資源等、WBEM/CIM)「NAREGI 資源スキーマ」の拡大
資源探索(Match making)論理の洗練
GGF WS-Agreement準拠による、より複雑な利用要件への対応
折衝時の Counter-Offer 等のヒント情報の活用
GGF OGSA準拠による多様なグリッドとの相互動作性の確保・検証
OGSA ブローカリング・サービスの実現
Globusとの相互動作性検討・検証
VO(仮想組織)への対応予算と資源の写像を柔軟かつ簡便に維持・運営可能な環境の実現
16
WP1 Unicondore (富士通)
Client
SSブローカ
GridVM 通信
InformationService
JobA-1…SiteAJobA-2…SiteB゙
NJS
Gateway
CIMM Service
GridVM schedLocal
SchedulerGridVM Engine
NJS
ORDB Provider/Monitor
JobA-1 64CPUJobA-2 64CPU
Site A
MPI 通信
MPIジョブ
GridVM Engine
Gateway
NJS
GridVM schedLocal
SchedulerGridVM Engine
アカウンティング情報
メタコンピューティングジョブ
Condor
Site B
17
UNICONDOREとは
• グリッドに対するニーズ– 「大規模なナノ・アプリケーションのジョブを、サイト間にまたがったリソースを有効に利用して実行したい」
グリッドミドルウェアの相互連携により実現
• UNICONDOREとは– UNICORE・Condor間相互のジョブ連携システム
• UNICOREによるシームレスなコンピューティング• ローカルサイトのHTCスケジューラCondorを活用
Site BSite BSite ASite AUNICONDOREUNICONDORE
CondorCondorUNICOREUNICORE
Condor clientUNICORE client
UNICORE-C
Condor-U
GlobusGlobusGRIP Condor-G
UNICONDOREによるグリッドミドルウェア相互連携
UNICORE-C: UNICORE→Condor連携システムCondor-U: Condor→UNICORE連携システムGRIP: GRid Interoperability Project (EU)
(注)
18
UNICONDOREアーキテクチャ
:開発部分
Condor-GGrid Manager
Condor-GGrid Manager
Gahp Serverfor UNICOREGahp Serverfor UNICORE
Condor
UNICOREUNICORE
Condor-G
condor_submitcondor_submit
condor_qcondor_q
condor_rmcondor_rm ・・・
Gahp Protocolfor UNICORE
Condor commands
Condor-UUNICORE(client)
UNICORENJS
UNICORENJS
UNICORETSI/CondorUNICORETSI/Condor
UNICOREIDB/CondorUNICORE
IDB/Condor
UNICOREpro Client
CondorCondor
UNICORE-C
UNICOREGateway
UNICOREGateway
UNICORE(server)
19
2003年度研究開発成果
• UNICORE-Cの設計、試作– UNICORE→Condor連携の実現
• 本シンポジウムにてデモンストレーションを実施• Condor-Uのアーキテクチャの検討
– Gahpプロトコルの汎用化• 従来のCondor-Gは、Globus GRAM APIの専用設計
– 他のグリッドシステムへの適用が困難• アプローチ
– Condor-G中のグリッドシステム依存部分を分離– 汎用コマンドセット(Gahpコマンド)を定義– ジョブ記述言語にXMLベースのClassAdを適用
• UNICOREへの適用を想定→ Condor-U
20
デモンストレーション概要(UNICORE-C)
UNICOREClient
NJS forCondor
TSI forCondor
CondorIDB
UNICORECertificate
Schedd
Starter
User Job
Usite
CondorSubmit Machine
CondorExecute Machine
NJS
TSI
BatchSubsystem
Gateway
VsiteVsite
Startd
UNICOREクライアントからNIIグリッド研究開発推進拠点設置のシステムにジョブを投入し、Condor経由でのジョブ実行を確認
東京国際フォーラムデモ会場東京国際フォーラムデモ会場
NIIグリッド研究開発推進拠点NIIグリッド研究開発推進拠点
② Condor Poolのジョブステータスを確認
①ジョブを投入
21
UNICONDORE研究開発ロードマップ• 2003年度
– UNICORE-Cのジョブ実行・制御機能の設計と試作– Condor-Uのジョブ実行・制御の基本設計
• 2004年度– Condor-Uのジョブ実行・制御機能の設計と試作– UNICORE-Condor間のリソース監視機能に関する検討
• 2005年度以降– UNICORE-Condor間のリソース監視機能の設計と実装– 2004年度での課題に関する検討、ほか
UNICOREUNICORE
分子研
Condor Pool
分子研
Condor PoolNII
Condor Pool
NII Condor Pool
UNICORE-CUNICORE-CUNICORE-CUNICORE-C
Condor-UCondor-UUNICOREpro Client Condor
ナノ・アプリのジョブ
サイト間メタコンピューティングの実現
22
Client
SSブローカ
GridVM 通信
InformationService
JobA-1…SiteAJobA-2…SiteB゙
NJS
Gateway
CIMM Service
GridVM schedLocal
SchedulerGridVM Engine
NJS
ORDB Provider/Monitor
JobA-1 64CPUJobA-2 64CPU
Site A
MPI 通信
MPIジョブ
GridVM Engine
Gateway
NJS
GridVM schedLocal
SchedulerGridVM Engine
アカウンティング情報
Condor
Site B
WP1分散情報サービス(日立)(別名:運用支援ツール)
23
グリッド分散情報サービス 研究開発 目標
◎◎大規模研究グリッド 実運用環境;
・ 複数センターにまたがる研究グリッドの円滑な運用・ 仮想組織(VO)に対する動的な計算環境提供
の実現に向けて、→ グリッドアカウンティング機能の開発
(自分のジョブがいつ どこで どれだけ実行されたかを捕捉)
→管理者のグリッド運用業務を省力化する分散情報システム・運用支援ツール開発(グリッド環境の資源,ユーザ,ログ,ポリシー等の監視/管理)
グリッド情報サービスの資源情報収集機能が基本
&集約した資源情報を基に資源制御を行うManagement Service
※現実組織に即したService + VO向けService
24
グリッド分散情報サービスの全体像
SQL Query,CIM Operation
RDBGT3 Info.Service
Resource
Performance
LogUser
BudgetPolicy
Real World
NaReGIミドルウェア
資源情報検索、設定、通知
Resource
Performance
Log
User Account
Budget Policy
Virtual Org.
NaReGIミドル、スケジューラー等Information Provider
R.W.Management
生成/消滅/変換
Viewer VO毎の情報サービス
Cell Domain
Siteセンタ
Inst.
Nano
AstroAccount
LocalMgmt.system
V.O.Management
HEP
25
グリッド分散情報サービス 2003年度 開発概要
Cell Domain資源情報管理サービス
CIM Operation, SQL Query
PostgreSQLGT3
IndexService
Cell Domain
CIM2GIS
Admin viewerSuper Scheduler資源情報検索、設定、通知
CIMOM (Pegasus)Service DataProvider
CIM Providers
AccountMappingService
サイトをまたがるAccount申請
課金サービス
CIM WorldOGSI World
Resource
Performance Log
User
Budget
PolicyAccount
NaReGIスキーマ
26
グリッド分散情報サービス Demo◆ Cell Domain情報サービス機能(一部)を管理者向けViewerで示す
(1) Cell Domain内(PC×3) 資源表示・検索 (CIM/GT3)
(2) 性能情報表示 (動的情報の例)
(3) ログ/障害情報表示・解析支援↓→↓→Log Tree
Details
Log treeにあるログ名一覧 Log Message
検索_1
検索_1A
検索_1B
[Result Connt]: 201……
[Result Connt]: 7
……
Find …Add to DetailsRemove
検索条件
Category
Severity
Keyword
Name
System Security
Error Warning… …
… …
User NameTime (from)
… …
ゝゝ
27
グリッド分散情報サービス 2004年度開発計画
・スケーラブルなモニタリング、セキュアなアカウンティング
・分子研-NII ナノアプリ実証グリッド環境構築→運用業務省力化
,Accounting
CIM Operation, SQL QueryService
RDBGT3
Info.ServiceLocal
ManagementSystem
Resource
Performance
LogUser
Account
Budget
Policy
Real World
Super SchedulerGridVM GridMPI
GridRPC PKI基盤 Admin viewer
PSE,WF(G)UI
資源情報検索、設定、通知
Resource
Performance
Log
User
Account
Budget
Policy
Virtual Organization
GridVMUsage Record
Local
Job
NW基盤Topology
GridRPCstub
UNICOREIDB
CondorHawkeyeClassAD
Schedule
Information Provider
V.O.Management
R.W.Management
生成/消滅/変換
Userviewer
V.O.viewer
User,VO毎の情報サービス
Cell Domain
SiteCenter
Inst.
NanoHEP
Astro
Monitoring, Archiving
大規模化(複数ドメイン連結、大容量データ
に対するアクセス):
スケーラビリティサービスレベル最適化
VO Dynamicsへの対応
セキュリティ
軽量化
NaReGIミドルウェア連携強化
情報メニュー拡充UNICORE, Condor連携
Account Mapping実装
VO Hosting(上限値管理)
へ向けて、
28
まとめ/グリッド分散情報サービス
本年度は、グリッドの構成要素となる”Cell Domain”内情報サービス機能を中心に設計・試作を実施。
CIM & RDB on OGSIオープンソース活用
これらのグリッド完全実装…RDBを核にした CIMOM軽量化セキュア アカウンティング(アクセス制御機能)スケーラブル モニタリング(Cell Domain連結)ミドルウェア連携強化
++Virtual Organization Management 研究開発
VO向け情報サービスVOホスティング安定した運用へ向けた管理機構
2004年度~
29
WP1 GridVM (NEC)
Client
SSブローカ
GridVM 通信
InformationService
JobA-1…SiteAJobA-2…SiteB゙
NJS
Gateway
CIMM Service
GridVM schedLocal
SchedulerGridVM Engine
NJS
ORDB Provider/Monitor
JobA-1 64CPUJobA-2 64CPU
Site A
MPI 通信
MPIジョブ
GridVM Engine
Gateway
NJS
GridVM schedLocal
SchedulerGridVM Engine
アカウンティング情報
メタコンピューティングジョブ
Condor
Site B
30
GridVMの概要
グリッド環境向け仮想マシンレイヤーグリッド環境で各サイトの計算機資源を統一的に利用できるI/Fを上位へ提供実用的なグリッド環境を構築するための機能を提供既存グリッドミドルウェアでは機能的に不十分
グリッド環境向け仮想マシンレイヤーグリッド環境向け仮想マシンレイヤーグリッド環境で各サイトの計算機資源を統一的に利用できるI/Fを上位へ提供実用的なグリッド環境を構築するための機能を提供実用的なグリッド環境を構築するための機能を提供既存グリッドミドルウェアでは機能的に不十分
上位グリッドミドルウェア
CPU NW メモリ ディスク
オペレーティングシステム
クラスタソフトウェア ローカルスケジューラ
共通インタフェース
メタコンピューティング基盤コスケジューリング、ギャングスケジューリングなど同期制御、コアロケーションのための事前予約
メタコンピューティング基盤コスケジューリング、ギャングスケジューリングなど同期制御、コアロケーションのための事前予約
セキュアな環境計算資源の細粒度アクセス制御や利用量監視・制御によるサンドボックス実行
セキュアな環境計算資源の細粒度アクセス制御や利用量監視・制御によるサンドボックス実行
フォールトトレラント実行プロセス間通信の仮想化や
ユーザ空間でのチェックポインティング
フォールトトレラント実行プロセス間通信の仮想化や
ユーザ空間でのチェックポインティング
異機種環境へのアクセスの仮想化
31
GridVMのアーキテクチャ
スーパースケジューラ
サイト間並列ジョブ同期制御
ジョブ投入
ジョブの起動
ジョブ・ジョブ・ユーザ情報ユーザ情報
Global Job ID、サイト情報、Global User IDなど
•サイト情報などの通信路確保の情報
•ランク設定情報… 通信路確立 (MPI_Init)
MPI通信
ジョブ監視(アクセス、利用量)
GridVMGridVM SchedSchedローカルスケジューラ
GridVMGridVM EngineEngine
情報サービス
サイトポリシーサイトポリシー
VOVOポリシーポリシー
GridVMGridVM SchedSchedローカルスケジューラ
GridVMGridVM EngineEngine
ジョブ ポリシーポリシー
アクセス制御
利用量監視・制御
FT仮想化
オペレーティングシステムオペレーティングシステム
システムコールのトラップ
GridVMGridVM EngineEngine
スーパースケジューラとの連携によるメタコンピューティングシステムコールトラップによるアクセス制御ポリシーのエンフォースメント資源利用量情報の収集や利用量制御FTのためのOSアクセスの仮想化(PID、IPアドレス、ファイルディスクリプタなど)
スーパースケジューラとの連携スーパースケジューラとの連携によるメタコンピューティングによるメタコンピューティングシステムコールトラップによるシステムコールトラップによるアクセス制御ポリシーのエンフォースメント資源利用量情報の収集や利用量制御FTのためのOSアクセスの仮想化(PID、IPアドレス、ファイルディスクリプタなど)
アクセス制御ポリシー
資源利用量のレポート
32
GridVMの2003年度研究開発成果
GridVMの機能要件を定義し、アーキテクチャ設計を完了従来技術の課題を整理し、GridVMの要件を定義以下の機能を実現するGridVMアーキテクチャを設計
メタコンピューティング機能の標準インタフェースでの提供実行同期、イベント同期、ギャングスケジューリング、資源予約機能
グローバルユーザIDとポリシーによる細粒度アクセス保護リモートアクセスにも対応した仮想ファイルビュー多様なメトリックスによる利用量監視・制御サイト間並列プログラム対応のチェックポインティングなど
メタコンピューティング機能を試作し、有用性を確認サイト環境の1つとしてSCore環境上にメタコンピューティングの主要機能を実現
サイト間同期制御による並列ジョブの効率的な実行を確認
GridVMGridVMの機能要件を定義し、アーキテクチャ設計を完了の機能要件を定義し、アーキテクチャ設計を完了従来技術の課題を整理し、GridVMの要件を定義以下の機能を実現するGridVMアーキテクチャを設計
メタコンピューティング機能の標準インタフェースでの提供実行同期、イベント同期、ギャングスケジューリング、資源予約機能
グローバルユーザIDとポリシーによる細粒度アクセス保護リモートアクセスにも対応した仮想ファイルビュー多様なメトリックスによる利用量監視・制御サイト間並列プログラム対応のチェックポインティングなど
メタコンピューティング機能を試作し、有用性を確認メタコンピューティング機能を試作し、有用性を確認サイト環境の1つとしてSCore環境上にメタコンピューティングの主要機能を実現
サイト間同期制御による並列ジョブの効率的な実行を確認
33
サイトAOGSI
ジョブ投入 ジョブ状態
サイトB
OGSIGridVMSCore
ジョブ同期制御OGSI
SCoreGridVM
イベント同期
並列ジョブの同時実行開始
メタコピューティング機能をSCoreクラスタ環境上に試作サイト間並列ジョブの同時実行開始あるサイトで発生したイベントに関しジョブ全体を同期制御など
メタコピューティング機能をメタコピューティング機能をSCoreSCoreクラスタ環境上に試作クラスタ環境上に試作サイト間並列ジョブの同時実行開始あるサイトで発生したイベントに関しジョブ全体を同期制御など
GridVMのデモシステム
クライアント
34
GridVMの今後の研究開発目標
GridVM中核機能の実現(2004年度)メタコンピューティングとアクセス制御機能を実装その他の機能も2005年度までに段階的に実装予定
Virtual Organization実現に向けた研究(2004年度)アクセス制御や資源利用量監視・制御機能のVO対応
GridVMGridVM中核機能の実現中核機能の実現(2004(2004年度年度))メタコンピューティングとアクセス制御機能を実装その他の機能も2005年度までに段階的に実装予定
Virtual OrganizationVirtual Organization実現に向けた研究実現に向けた研究(2004(2004年度年度))アクセス制御や資源利用量監視・制御機能のVO対応
ローカルスケジューラおよび
クラスタソフトウェア
簡易BSS(ジョブ制御)
同期制御 事前予約 資源・ジョブ情報
GridVMスケジューラ(サイトレベルの監視・制御) GridVM マネージャ(ユーザ/ジョブレベルの監視・制御)
GridVM エージェント(プロセスレベルの監視・制御)
VO/グローバルユーザ認識
システムコール監視 シグナル監視
アクセス制御
GridVMエンジン
ポリシー管理 課金レポート 利用量制御
利用量監視 仮想ファイル FT仮想化チェック
ポインティング
NW接続仮想化
リスタート機能
2004年度実装
2004年度試作中間評価までに実装
2005年度実装
35WP1 東工大+NII+NII常駐研究員+他大学による先行研究
• 大学側としては、基本的に先行研究、コンサルティング、並びに検証研究を行う– 研究成果を次年度、次次年度の開発に反映
• 平成15年度:日立およびNEC担当部分の先行研究– GridVMのプロトタイプ実装– 自律モニタリングの構成法
• 平成16年度および中間評価へ– 自律モニタリングの構成法(続き) –松岡、白勢(東工大)– VOベースの資源管理法 – 松岡、鈴村、(Hwang)、河野
(電通大)– グリッドテストベッドの構築、並びにその上の種々のシミュレーション・検証研究 –秋岡、合田(東工大)
– VO上でのソフトウェアの自律的デプロイメント – (未定)
36GridVMプロトタイプシステム概要
(東工大でのNEC GridVMの先行研究)
Gatekeeper
Jobmanager
Forkして実行 VM VM
最適な手法を選択
一つのローカルユーザアカウントで起動
管理者ポリシ
・JobのSubmission・VMの機能要求
• グリッドジョブを仮想環境で実行– ユーザレベルでのポリシ管理– バンド幅制限
• 仮想化手法を選択し、最適なジョブ実行– 各仮想化手法には性能、機能面でトレードオフ
– 各手法のトレードオフを考慮• Globus Toolkit 2.4を利用したシステムを試作
仮想化技術で実現
37
東工大 GridVM プロトタイプの先行実装
• JobManager– VM上でジョブを起動– グリッドユーザ毎のポリシを選択
• プロトタイプVM– JobManagerから受け取ったポリシを解釈
• ファイルマップ、制限値、仮想化手法– 複数の手法で仮想化
• ptrace、mod_janus:システムコールの仮想化
• DyninstAPI:ライブラリコールの仮想化– 仮想ファイルシステム、バンド幅制限、複数プロセス、MPIプロセスへの対応
• 各仮想化手法のコスト評価– 単純なトラップ評価– 並列ジョブのコスト
仮想ファイルシステムの例
Gatekeeper
Jobmanager
VM-A VM-B
ユーザポリシ
一つのローカルユーザアカウントで起動
/
G-A G-B
VO1割り当て
ファイルシステム
38東工大 GridVMプロトタイプ評価結果と仮想化手法選択のための指標
NRP CV FSI MP
ptrace ○ ○ × ×mod_janus × ○ △ ○
Dyninst ○ × ○ △
0
50
100
150
200
250
300
normal
1000
2000
3000
4000
5000
6000
7000
8000
制限値(KBytes/sec)
実行性能(Mflops)
normal
ptrace
mod_janus
dyninst
• トラップ毎のコストmod_janus>ptrace>>dyninst
• バンド幅制限の上限– 仮想化によりスループットが低下dyninst>>mod_janus>ptrace
• 複数プロセス仮想化のコストptrace>>dyninst>mod_janus
• 並列ジョブはトラップコストが影響mod_janus>ptrace>>dyninst
NPB MG4ノードでの実行性能
• 手法選択のための指標– 管理者権限を必要としない(NRP)– 完全な仮想化が必要(CV)– システムコールの頻繁な発行(FSI)– 複数プロセス(MP)
39
東工大GridVMデモ内容
• バンド幅制限機能– 投入されたジョブがバンド幅を制限される様子を示す
– 複数の仮想化手法
• 制限するアプリケーション– ネットワークスループット計測ツール
Gatekeeper
Jobmanager
VM-A VM-B
ユーザポリシ
一つのローカルユーザアカウントで起動
ジョブの投入
仮想化手法を指定
ポリシの制限値にバンド幅制限
ジョブ実行
40
東工大GridVMプロトタイプまとめ
• 複数の仮想化手法を選択し、VM上でジョブ実行を行なうグリッドシステムを試作した
• ジョブの性質、ポリシに応じて仮想化手法を選択するための指標を同定– NECの2004年度の実装へフィードバック
• 今後の課題– プロトタイプVMの拡張
• CPU使用率の制限、階層的なポリシ規定など– より高レベルなサービスの提供
• バンド幅使用量予約を考慮したスケジューラ• VO管理者による管理機構
41
モニタリングシステムの自律的構成
• グリッド環境のモニタリングシステム– グリッド環境の効果的な運用のために必要
• モニタ対象: 計算機、ネットワーク、ミドルウエア、アプリケーション– 具体的な目的
• 有効な資源配分、アカウンティング、監視など– 特徴
• 複数のコンポーネントから成立• コンポーネント間は相互に依存関係を持つ
– モニタリングシステムの運用で求められる事柄• システムの再設定、障害修復• コンポーネント数の増大に伴う効率的な管理
自律的な管理機構を備えたモニタリングシステムが必要
42
モニタリングシステムの自律的構成の概要
自律的構成の概要
計算機・プロセスの稼動状況を調査
コンポーネントのプログラムの実行と情報サービスへの登録変更
グループ分割(コンポーネント管理のため)
コンポーネントの配置決定
ノードの追加、削除に応じて再構成される
初期設定時はすべてのコンポーネントに対して再設定時は障害のあるコンポーネントに対して
43
モニタリングシステムの自律的構成の実験
プロトタイプ試作
大岡山ネットワークの代表計測
すずかけ台
センサ(データ収集)センサからメモリホストへのデータの流れ
ネームサーバ(Directory Service)NWS [`99 Wolski et al.] を集中管理する機構を試作し、東京工業大学のキャンパスグリッド上で評価
メモリホスト(データ管理)
PCクラスタの代表ノード
コンポーネントの配置、グループ分けが合理的に行われる事を確認
44
モニタリングシステムの自律的構成 評価結果
自動設定の所要時間
21 397619
30
52
0
50
100
150
3 6 12
サイト数
時間(秒)
NWSの起動
設定
RTTの測定
ほとんどの時間がRTT測定とNWSの起動に使われている
所要時間がO(N)(N; サイト数) となるのは内部でコマンドを逐次実行するため
45
まとめ:モニタリングシステムの自律的構成
• 今後の課題–自律的構成機能の分散化
• 集中管理によるモニタリングシステムの単一故障点を解消
–サポートするモニタリングシステムの拡充と処理時間の改善
• NWSに特化した部分の汎用化• 内部で実行するコマンドの並列実行
–数百・数千のサイトの取り扱いへの対応–規模の大きな環境での実験・評価の拡充–日立の分散情報サービス、並びに来年度以降のグリッドシステムの自律構成へ貢献
46
WP1将来:VOホスティングへ向けて
Resource
Performance
LogUser
Account
Budget
Policy
Real World Virtual Org.VO 資源情報管理モデル
モニター
変換Local M
anagement
SystemAdmin.
Req
Local ManagementSystem
Req
Info
rmat
ion
prov
ider 例:アカウント
マッピング
e.g. VO Hosting人と資源 User
Operation規定
状態変更
資源管理サービスR.W.
Management V.O.Management
Resource
Performance
LogUser
Account
Budget
Policy