グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2...

46
1 NAREGIシンポジウム2004 グリッド環境における資源管理 WP12004年2月25日 東京工業大学/国立情報学研究所 教授 松岡 本研究は文部科学省研究委託事業「超高速コンピュータ網形成プロジェクト」によるものです。

Transcript of グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2...

Page 1: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

1

NAREGIシンポジウム2004

グリッド環境における資源管理(WP1)

2004年2月25日

東京工業大学/国立情報学研究所

教授 松岡 聡

本研究は文部科学省研究委託事業「超高速コンピュータ網形成プロジェクト」によるものです。

Page 2: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

2

次世代ナショナル研究・計算科学インフラ

• 様々な規模・種類の資源 (松竹梅)のサーバグリッドインフラの実現– 松– ES: 40-100-1000Teraflops x (数台), 全国100-

300 TeraFlops 以上– 竹–各センターの中規模のクラスタ・SMP資源, 5-10

TeraFlops/台 x 5, 合算25-50 TeraFlops、全国250-500 TeraFlops

– 梅–小規模なクラスタや個々のPC、キャンパス(グリッド)中に拡散、高速学内ネットワーク接続、5000-1万台, 合算50 -100 TeraFlops, 全国500-1 PetaFlops

• これらの資源上でのネットワーク上の仮想研究組織(Virtual Organization)のホスティングサービス– ナノ、バイオなどの領域プロジェクトのサポート– 産官学の連携研究のサポート

大学センタ

地球s

Page 3: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

3

WP1の目標

• 中間評価への目標– サーバグリッドおよびメタコンピューティングを大規模にセンター間運用するための資源管理のミドルウェアをUnicore, Globus, Condorを基盤に研究開発

– 第一次認定ソフトウェアの開発• 最終的な目標

– センター間で大規模なVirtual Organizationのホスティングを行うための資源管理のミドルウェアをOGSAベースで実現

– そのための研究

Page 4: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

4

サーバグリッドとメタコンピューティング

分散サーバ郡

MDなどのアプリ(そのままか小変更)のワークフロー指定

メタスケジュラ、グリッドブローカ、ワークフローエンジンサーバグリッド上での

資源確保、既存のジョブの自動割当

メタコンピューティング

Page 5: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

5

将来像:センター群によるVOのホスティング

大学センターの共有グリッド資源のVOへのDynamic Provisioning

分野の研究室の専用マシン群

分野、研究グループ等の複数のVOのセンター群によるホスティング

バイオグリッドバイオグリッドVOVO

A大学センタ

B研究所センタ

C大学センタ

A大学X研究室

A大学Y研究室

D社U部門

E大学V研究室

産官学連携研究の礎へ

ナノグリッドナノグリッドVOVO

Page 6: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

6

NAREGIソフトウェア階層

100Tflops級のサイエンスグリッド環境

スーパーSINET

ナノテクシミュレーションのグリッドへの対応

グリッド PSE

グリッド ワークフロー

スーパースケジューラ

グリッドプログラミング-グリッドRPC-グリッドMPI

グリッド可視化

グリッドVM

パッケージング、統合化

計 算 資 源

国立情報学研究所 分子科学研究所 研究協力機関 その他

分散情報サービス

((Globus,Condor,UNICOREGlobus,Condor,UNICORE OGSAOGSA))

ネットワーク通信基盤、性能評価、セキュリティ・認証

WP1

Page 7: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

7WP1 2006年半ば中間報告におけるメタコンピューティングの実現イメージ

Client

SSブローカ

GridVM 通信

InformationService

JobA-1…SiteAJobA-2…SiteB゙

NJS

Gateway

CIMM Service

GridVM schedLocal

SchedulerGridVM Engine

NJS

ORDB Provider/Monitor

JobA-1 64CPUJobA-2 64CPU

Site A

MPI 通信

MPIジョブ

GridVM Engine

Gateway

NJS

GridVM schedLocal

SchedulerGridVM Engine

アカウンティング情報

メタコンピューティングジョブ

Condor

Site B

Page 8: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

8

WP1 2003-4年度全体活動

• 中間評価に向けた、サーバグリッド・メタコンピューティング向けのグリッドの資源管理基盤の各社のグループによる研究開発

• VOベースの資源管理、並びにそのための自律構成の先行研究

• テストベッドにおける上記の検証研• Unicore, Globus, Condorチームとの継続的連携

• WP1が中心となる、他のWPとの直接的な連携フレームワークの確立

Page 9: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

9

2003-4年度WP1研究会開発体制

• 請負開発(各社)– 富士通: スーパスケジューラ・ブローカ、Unicondore– 日立:グリッド情報サービス– NEC: GridVM (資源制御・コスケジュリング)

• 研究 (東工大等各大学+常駐研究員) – 各社と連携した、VOおよび自律の先行研究– テストベッド上での検証研究– 常駐ポスドク研究員(予定):

Hwang(VOスケジュラ(一部))秋岡(テストベッド+VOモニタリング)鈴村(VO管理)

– Part Time: 松岡合田(東工大)・中田(東工大・産総研)河野(電通大)

EU GRIP

Glob

usU

nive

rse

Cond

or-G

Unicore

Unicore--CC

Condor

Condor--UU

Page 10: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

10

WP1スーパスケジュラ (富士通)

Client

SSブローカ

GridVM 通信

InformationService

JobA-1…SiteAJobA-2…SiteB゙

NJS

Gateway

CIMM Service

GridVM schedLocal

SchedulerGridVM Engine

NJS

ORDB Provider/Monitor

JobA-1 64CPUJobA-2 64CPU

Site A

MPI 通信

MPIジョブ

GridVM Engine

Gateway

NJS

GridVM schedLocal

SchedulerGridVM Engine

アカウンティング情報

メタコンピューティングジョブ

Condor

Site B

Page 11: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

11

スーパスケジュラ(SS)研究・開発の目標全体目標

様々な分野の研究者の研究活動を支える、柔軟なグリッド・インフラのための資源スケジュラ・ブローカの実現世界の有力グリッド(UNICORE, Globus, Condor)との相互動作可能なグリッド・インフラの実現

2003年度の目標グリッド内の多様な資源とそのプロパティを表現し容易に拡張できる「情報サービス」のためのモデル策定および試作上記モデルを実現する情報サービスから、資源を探索する「資源ブローカリング・サービス」の試作

<<エンドユーザ機能>>ジョブ要件を記述することによる実行サーバの自動選択投入ジョブの一元操作(状況監視・キャンセルなど)異常発生時の自動再スケジュール

<<管理者機能>>情報サービスの標準化による柔軟なグリッド利用環境の実現 (グリッドへ供出する資源・そのポリシーの容易な定義)OGSA化によるグリッド間の相互動作VO(仮想組織)によるグリッド利用

Page 12: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

12

SSアーキテクチャ

Client

Site B(分子研)

InformationService

MPIジョブ(メタコンピューティング)

JobA-1 3CPUJobA-2 2CPUネットワーク帯域:100Mbps

Super SINET

クラスタネットワーク管理サービス(WP5)

CMM

Delegation

WS-AgreementJSDL

⑥-2Co-Alloca-tion (予約)

エンドユーザ MPI ジョブA

JobA-1 JobA-2MPI通信

③⑤

クラスタ

Job SvcFactory

GridVM

Job SvcInst.

WF SvcFactory

DAGInst.

NJS

Gateway Gateway

Broker Factory

AgmtInstance(Aggregate) NJS

Job SvcFactory

Job SvcInst.

WF SvcFactory

DAGInst.⑧

⑥-1 Co-allocation(予約)

GridVM

⑦ ⑧

Grid Service (Instance)

Grid Service (Factory)

WS-Agmt

GS op.

Factory::createService

Grid Service (Agreement Instance)

① service flow

⑥-3 100Mbps帯域予約

Not need brokering

Site A(NII)

Page 13: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

13

2003年度 SS研究・開発成果

2003年度試作版「NAREGI資源ブローカ」の特徴

グリッド・ミドル UNICORE と相互動作DMTF の WBEM/CIM を拡張したNAREGI資源スキーマに対応した「情報サービス」と連携

バッチ・システムに対するジョブの事前予約 (Co-Allocation)

情報サービス

Job Exec. Svc.

WF Exec. Svc.

UNICORE サーバ(NJS)

PBS/Maui(改造)

UNICORE TSI

UNICORE Client

BrokeringSvc. NAREGI 資源

スキーマ

予約

照会

ワークフロージョブ実行 資源探索

グリッド資源情報

NAREGI資源ブローカ

Page 14: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

14

2003年度 SS研究・開発成果 デモ概要

Site C

ジョブの実行要件に基づく実行ノードの自動探索NAREGI資源スキーマに対応した「情報サービス」との連携事前予約によるCo-Allocationを実現 (サイト間並列ジョブ実行基盤)

情報サービス

Site A

スーパースケジューラ

NAREGI資源スキーマ利用した

グリッド内資源の探索

Site B

Maui/OpenPBS

ジョブの実行要件を指定

ノード2

Jobノード2

Job

ノード1

Job

Maui/OpenPBS

ノード1

UNICORE UNICOREUNICORE

資源割当て依頼 ⇒ 確認 ⇒ ジョブ実行依頼

ジョブ実行ノード

の自動選択

事前予約による

複数サイト間の

同時ジョブ実行

Page 15: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

15

SS今後の研究・開発の目標

資源ブローカの拡張 (自動資源探索の研究・開発)

対象資源の拡大(ネットワーク資源等、WBEM/CIM)「NAREGI 資源スキーマ」の拡大

資源探索(Match making)論理の洗練

GGF WS-Agreement準拠による、より複雑な利用要件への対応

折衝時の Counter-Offer 等のヒント情報の活用

GGF OGSA準拠による多様なグリッドとの相互動作性の確保・検証

OGSA ブローカリング・サービスの実現

Globusとの相互動作性検討・検証

VO(仮想組織)への対応予算と資源の写像を柔軟かつ簡便に維持・運営可能な環境の実現

Page 16: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

16

WP1 Unicondore (富士通)

Client

SSブローカ

GridVM 通信

InformationService

JobA-1…SiteAJobA-2…SiteB゙

NJS

Gateway

CIMM Service

GridVM schedLocal

SchedulerGridVM Engine

NJS

ORDB Provider/Monitor

JobA-1 64CPUJobA-2 64CPU

Site A

MPI 通信

MPIジョブ

GridVM Engine

Gateway

NJS

GridVM schedLocal

SchedulerGridVM Engine

アカウンティング情報

メタコンピューティングジョブ

Condor

Site B

Page 17: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

17

UNICONDOREとは

• グリッドに対するニーズ– 「大規模なナノ・アプリケーションのジョブを、サイト間にまたがったリソースを有効に利用して実行したい」

グリッドミドルウェアの相互連携により実現

• UNICONDOREとは– UNICORE・Condor間相互のジョブ連携システム

• UNICOREによるシームレスなコンピューティング• ローカルサイトのHTCスケジューラCondorを活用

Site BSite BSite ASite AUNICONDOREUNICONDORE

CondorCondorUNICOREUNICORE

Condor clientUNICORE client

UNICORE-C

Condor-U

GlobusGlobusGRIP Condor-G

UNICONDOREによるグリッドミドルウェア相互連携

UNICORE-C: UNICORE→Condor連携システムCondor-U: Condor→UNICORE連携システムGRIP: GRid Interoperability Project (EU)

(注)

Page 18: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

18

UNICONDOREアーキテクチャ

:開発部分

Condor-GGrid Manager

Condor-GGrid Manager

Gahp Serverfor UNICOREGahp Serverfor UNICORE

Condor

UNICOREUNICORE

Condor-G

condor_submitcondor_submit

condor_qcondor_q

condor_rmcondor_rm ・・・

Gahp Protocolfor UNICORE

Condor commands

Condor-UUNICORE(client)

UNICORENJS

UNICORENJS

UNICORETSI/CondorUNICORETSI/Condor

UNICOREIDB/CondorUNICORE

IDB/Condor

UNICOREpro Client

CondorCondor

UNICORE-C

UNICOREGateway

UNICOREGateway

UNICORE(server)

Page 19: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

19

2003年度研究開発成果

• UNICORE-Cの設計、試作– UNICORE→Condor連携の実現

• 本シンポジウムにてデモンストレーションを実施• Condor-Uのアーキテクチャの検討

– Gahpプロトコルの汎用化• 従来のCondor-Gは、Globus GRAM APIの専用設計

– 他のグリッドシステムへの適用が困難• アプローチ

– Condor-G中のグリッドシステム依存部分を分離– 汎用コマンドセット(Gahpコマンド)を定義– ジョブ記述言語にXMLベースのClassAdを適用

• UNICOREへの適用を想定→ Condor-U

Page 20: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

20

デモンストレーション概要(UNICORE-C)

UNICOREClient

NJS forCondor

TSI forCondor

CondorIDB

UNICORECertificate

Schedd

Starter

User Job

Usite

CondorSubmit Machine

CondorExecute Machine

NJS

TSI

BatchSubsystem

Gateway

VsiteVsite

Startd

UNICOREクライアントからNIIグリッド研究開発推進拠点設置のシステムにジョブを投入し、Condor経由でのジョブ実行を確認

東京国際フォーラムデモ会場東京国際フォーラムデモ会場

NIIグリッド研究開発推進拠点NIIグリッド研究開発推進拠点

② Condor Poolのジョブステータスを確認

①ジョブを投入

Page 21: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

21

UNICONDORE研究開発ロードマップ• 2003年度

– UNICORE-Cのジョブ実行・制御機能の設計と試作– Condor-Uのジョブ実行・制御の基本設計

• 2004年度– Condor-Uのジョブ実行・制御機能の設計と試作– UNICORE-Condor間のリソース監視機能に関する検討

• 2005年度以降– UNICORE-Condor間のリソース監視機能の設計と実装– 2004年度での課題に関する検討、ほか

UNICOREUNICORE

分子研

Condor Pool

分子研

Condor PoolNII

Condor Pool

NII Condor Pool

UNICORE-CUNICORE-CUNICORE-CUNICORE-C

Condor-UCondor-UUNICOREpro Client Condor

ナノ・アプリのジョブ

サイト間メタコンピューティングの実現

Page 22: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

22

Client

SSブローカ

GridVM 通信

InformationService

JobA-1…SiteAJobA-2…SiteB゙

NJS

Gateway

CIMM Service

GridVM schedLocal

SchedulerGridVM Engine

NJS

ORDB Provider/Monitor

JobA-1 64CPUJobA-2 64CPU

Site A

MPI 通信

MPIジョブ

GridVM Engine

Gateway

NJS

GridVM schedLocal

SchedulerGridVM Engine

アカウンティング情報

Condor

Site B

WP1分散情報サービス(日立)(別名:運用支援ツール)

Page 23: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

23

グリッド分散情報サービス 研究開発 目標

◎◎大規模研究グリッド 実運用環境;

・ 複数センターにまたがる研究グリッドの円滑な運用・ 仮想組織(VO)に対する動的な計算環境提供

の実現に向けて、→ グリッドアカウンティング機能の開発

(自分のジョブがいつ どこで どれだけ実行されたかを捕捉)

→管理者のグリッド運用業務を省力化する分散情報システム・運用支援ツール開発(グリッド環境の資源,ユーザ,ログ,ポリシー等の監視/管理)

グリッド情報サービスの資源情報収集機能が基本

&集約した資源情報を基に資源制御を行うManagement Service

※現実組織に即したService + VO向けService

Page 24: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

24

グリッド分散情報サービスの全体像

SQL Query,CIM Operation

RDBGT3 Info.Service

Resource

Performance

LogUser

BudgetPolicy

Real World

NaReGIミドルウェア

資源情報検索、設定、通知

Resource

Performance

Log

User Account

Budget Policy

Virtual Org.

NaReGIミドル、スケジューラー等Information Provider

R.W.Management

生成/消滅/変換

Viewer VO毎の情報サービス

Cell Domain

Siteセンタ

Inst.

Nano

AstroAccount

LocalMgmt.system

V.O.Management

HEP

Page 25: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

25

グリッド分散情報サービス 2003年度 開発概要

Cell Domain資源情報管理サービス

CIM Operation, SQL Query

PostgreSQLGT3

IndexService

Cell Domain

CIM2GIS

Admin viewerSuper Scheduler資源情報検索、設定、通知

CIMOM (Pegasus)Service DataProvider

CIM Providers

AccountMappingService

サイトをまたがるAccount申請

課金サービス

CIM WorldOGSI World

Resource

Performance Log

User

Budget

PolicyAccount

NaReGIスキーマ

Page 26: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

26

グリッド分散情報サービス Demo◆ Cell Domain情報サービス機能(一部)を管理者向けViewerで示す

(1) Cell Domain内(PC×3) 資源表示・検索 (CIM/GT3)

(2) 性能情報表示 (動的情報の例)

(3) ログ/障害情報表示・解析支援↓→↓→Log Tree

Details

Log treeにあるログ名一覧 Log Message

検索_1

検索_1A

検索_1B

[Result Connt]: 201……

[Result Connt]: 7

……

Find …Add to DetailsRemove

検索条件

Category

Severity

Keyword

Name

System Security

Error Warning… …

… …

User NameTime (from)

… …

ゝゝ

Page 27: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

27

グリッド分散情報サービス 2004年度開発計画

・スケーラブルなモニタリング、セキュアなアカウンティング

・分子研-NII ナノアプリ実証グリッド環境構築→運用業務省力化

,Accounting

CIM Operation, SQL QueryService

RDBGT3

Info.ServiceLocal

ManagementSystem

Resource

Performance

LogUser

Account

Budget

Policy

Real World

Super SchedulerGridVM GridMPI

GridRPC PKI基盤 Admin viewer

PSE,WF(G)UI

資源情報検索、設定、通知

Resource

Performance

Log

User

Account

Budget

Policy

Virtual Organization

GridVMUsage Record

Local

Job

NW基盤Topology

GridRPCstub

UNICOREIDB

CondorHawkeyeClassAD

Schedule

Information Provider

V.O.Management

R.W.Management

生成/消滅/変換

Userviewer

V.O.viewer

User,VO毎の情報サービス

Cell Domain

SiteCenter

Inst.

NanoHEP

Astro

Monitoring, Archiving

大規模化(複数ドメイン連結、大容量データ

に対するアクセス):

スケーラビリティサービスレベル最適化

VO Dynamicsへの対応

セキュリティ

軽量化

NaReGIミドルウェア連携強化

情報メニュー拡充UNICORE, Condor連携

Account Mapping実装

VO Hosting(上限値管理)

へ向けて、

Page 28: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

28

まとめ/グリッド分散情報サービス

本年度は、グリッドの構成要素となる”Cell Domain”内情報サービス機能を中心に設計・試作を実施。

CIM & RDB on OGSIオープンソース活用

これらのグリッド完全実装…RDBを核にした CIMOM軽量化セキュア アカウンティング(アクセス制御機能)スケーラブル モニタリング(Cell Domain連結)ミドルウェア連携強化

++Virtual Organization Management 研究開発

VO向け情報サービスVOホスティング安定した運用へ向けた管理機構

2004年度~

Page 29: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

29

WP1 GridVM (NEC)

Client

SSブローカ

GridVM 通信

InformationService

JobA-1…SiteAJobA-2…SiteB゙

NJS

Gateway

CIMM Service

GridVM schedLocal

SchedulerGridVM Engine

NJS

ORDB Provider/Monitor

JobA-1 64CPUJobA-2 64CPU

Site A

MPI 通信

MPIジョブ

GridVM Engine

Gateway

NJS

GridVM schedLocal

SchedulerGridVM Engine

アカウンティング情報

メタコンピューティングジョブ

Condor

Site B

Page 30: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

30

GridVMの概要

グリッド環境向け仮想マシンレイヤーグリッド環境で各サイトの計算機資源を統一的に利用できるI/Fを上位へ提供実用的なグリッド環境を構築するための機能を提供既存グリッドミドルウェアでは機能的に不十分

グリッド環境向け仮想マシンレイヤーグリッド環境向け仮想マシンレイヤーグリッド環境で各サイトの計算機資源を統一的に利用できるI/Fを上位へ提供実用的なグリッド環境を構築するための機能を提供実用的なグリッド環境を構築するための機能を提供既存グリッドミドルウェアでは機能的に不十分

上位グリッドミドルウェア

CPU NW メモリ ディスク

オペレーティングシステム

クラスタソフトウェア ローカルスケジューラ

共通インタフェース

メタコンピューティング基盤コスケジューリング、ギャングスケジューリングなど同期制御、コアロケーションのための事前予約

メタコンピューティング基盤コスケジューリング、ギャングスケジューリングなど同期制御、コアロケーションのための事前予約

セキュアな環境計算資源の細粒度アクセス制御や利用量監視・制御によるサンドボックス実行

セキュアな環境計算資源の細粒度アクセス制御や利用量監視・制御によるサンドボックス実行

フォールトトレラント実行プロセス間通信の仮想化や

ユーザ空間でのチェックポインティング

フォールトトレラント実行プロセス間通信の仮想化や

ユーザ空間でのチェックポインティング

異機種環境へのアクセスの仮想化

Page 31: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

31

GridVMのアーキテクチャ

スーパースケジューラ

サイト間並列ジョブ同期制御

ジョブ投入

ジョブの起動

ジョブ・ジョブ・ユーザ情報ユーザ情報

Global Job ID、サイト情報、Global User IDなど

•サイト情報などの通信路確保の情報

•ランク設定情報… 通信路確立 (MPI_Init)

MPI通信

ジョブ監視(アクセス、利用量)

GridVMGridVM SchedSchedローカルスケジューラ

GridVMGridVM EngineEngine

情報サービス

サイトポリシーサイトポリシー

VOVOポリシーポリシー

GridVMGridVM SchedSchedローカルスケジューラ

GridVMGridVM EngineEngine

ジョブ ポリシーポリシー

アクセス制御

利用量監視・制御

FT仮想化

オペレーティングシステムオペレーティングシステム

システムコールのトラップ

GridVMGridVM EngineEngine

スーパースケジューラとの連携によるメタコンピューティングシステムコールトラップによるアクセス制御ポリシーのエンフォースメント資源利用量情報の収集や利用量制御FTのためのOSアクセスの仮想化(PID、IPアドレス、ファイルディスクリプタなど)

スーパースケジューラとの連携スーパースケジューラとの連携によるメタコンピューティングによるメタコンピューティングシステムコールトラップによるシステムコールトラップによるアクセス制御ポリシーのエンフォースメント資源利用量情報の収集や利用量制御FTのためのOSアクセスの仮想化(PID、IPアドレス、ファイルディスクリプタなど)

アクセス制御ポリシー

資源利用量のレポート

Page 32: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

32

GridVMの2003年度研究開発成果

GridVMの機能要件を定義し、アーキテクチャ設計を完了従来技術の課題を整理し、GridVMの要件を定義以下の機能を実現するGridVMアーキテクチャを設計

メタコンピューティング機能の標準インタフェースでの提供実行同期、イベント同期、ギャングスケジューリング、資源予約機能

グローバルユーザIDとポリシーによる細粒度アクセス保護リモートアクセスにも対応した仮想ファイルビュー多様なメトリックスによる利用量監視・制御サイト間並列プログラム対応のチェックポインティングなど

メタコンピューティング機能を試作し、有用性を確認サイト環境の1つとしてSCore環境上にメタコンピューティングの主要機能を実現

サイト間同期制御による並列ジョブの効率的な実行を確認

GridVMGridVMの機能要件を定義し、アーキテクチャ設計を完了の機能要件を定義し、アーキテクチャ設計を完了従来技術の課題を整理し、GridVMの要件を定義以下の機能を実現するGridVMアーキテクチャを設計

メタコンピューティング機能の標準インタフェースでの提供実行同期、イベント同期、ギャングスケジューリング、資源予約機能

グローバルユーザIDとポリシーによる細粒度アクセス保護リモートアクセスにも対応した仮想ファイルビュー多様なメトリックスによる利用量監視・制御サイト間並列プログラム対応のチェックポインティングなど

メタコンピューティング機能を試作し、有用性を確認メタコンピューティング機能を試作し、有用性を確認サイト環境の1つとしてSCore環境上にメタコンピューティングの主要機能を実現

サイト間同期制御による並列ジョブの効率的な実行を確認

Page 33: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

33

サイトAOGSI

ジョブ投入 ジョブ状態

サイトB

OGSIGridVMSCore

ジョブ同期制御OGSI

SCoreGridVM

イベント同期

並列ジョブの同時実行開始

メタコピューティング機能をSCoreクラスタ環境上に試作サイト間並列ジョブの同時実行開始あるサイトで発生したイベントに関しジョブ全体を同期制御など

メタコピューティング機能をメタコピューティング機能をSCoreSCoreクラスタ環境上に試作クラスタ環境上に試作サイト間並列ジョブの同時実行開始あるサイトで発生したイベントに関しジョブ全体を同期制御など

GridVMのデモシステム

クライアント

Page 34: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

34

GridVMの今後の研究開発目標

GridVM中核機能の実現(2004年度)メタコンピューティングとアクセス制御機能を実装その他の機能も2005年度までに段階的に実装予定

Virtual Organization実現に向けた研究(2004年度)アクセス制御や資源利用量監視・制御機能のVO対応

GridVMGridVM中核機能の実現中核機能の実現(2004(2004年度年度))メタコンピューティングとアクセス制御機能を実装その他の機能も2005年度までに段階的に実装予定

Virtual OrganizationVirtual Organization実現に向けた研究実現に向けた研究(2004(2004年度年度))アクセス制御や資源利用量監視・制御機能のVO対応

ローカルスケジューラおよび

クラスタソフトウェア

簡易BSS(ジョブ制御)

同期制御 事前予約 資源・ジョブ情報

GridVMスケジューラ(サイトレベルの監視・制御) GridVM マネージャ(ユーザ/ジョブレベルの監視・制御)

GridVM エージェント(プロセスレベルの監視・制御)

VO/グローバルユーザ認識

システムコール監視 シグナル監視

アクセス制御

GridVMエンジン

ポリシー管理 課金レポート 利用量制御

利用量監視 仮想ファイル FT仮想化チェック

ポインティング

NW接続仮想化

リスタート機能

2004年度実装

2004年度試作中間評価までに実装

2005年度実装

Page 35: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

35WP1 東工大+NII+NII常駐研究員+他大学による先行研究

• 大学側としては、基本的に先行研究、コンサルティング、並びに検証研究を行う– 研究成果を次年度、次次年度の開発に反映

• 平成15年度:日立およびNEC担当部分の先行研究– GridVMのプロトタイプ実装– 自律モニタリングの構成法

• 平成16年度および中間評価へ– 自律モニタリングの構成法(続き) –松岡、白勢(東工大)– VOベースの資源管理法 – 松岡、鈴村、(Hwang)、河野

(電通大)– グリッドテストベッドの構築、並びにその上の種々のシミュレーション・検証研究 –秋岡、合田(東工大)

– VO上でのソフトウェアの自律的デプロイメント – (未定)

Page 36: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

36GridVMプロトタイプシステム概要

(東工大でのNEC GridVMの先行研究)

Gatekeeper

Jobmanager

Forkして実行 VM VM

最適な手法を選択

一つのローカルユーザアカウントで起動

管理者ポリシ

・JobのSubmission・VMの機能要求

• グリッドジョブを仮想環境で実行– ユーザレベルでのポリシ管理– バンド幅制限

• 仮想化手法を選択し、最適なジョブ実行– 各仮想化手法には性能、機能面でトレードオフ

– 各手法のトレードオフを考慮• Globus Toolkit 2.4を利用したシステムを試作

仮想化技術で実現

Page 37: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

37

東工大 GridVM プロトタイプの先行実装

• JobManager– VM上でジョブを起動– グリッドユーザ毎のポリシを選択

• プロトタイプVM– JobManagerから受け取ったポリシを解釈

• ファイルマップ、制限値、仮想化手法– 複数の手法で仮想化

• ptrace、mod_janus:システムコールの仮想化

• DyninstAPI:ライブラリコールの仮想化– 仮想ファイルシステム、バンド幅制限、複数プロセス、MPIプロセスへの対応

• 各仮想化手法のコスト評価– 単純なトラップ評価– 並列ジョブのコスト

仮想ファイルシステムの例

Gatekeeper

Jobmanager

VM-A VM-B

ユーザポリシ

一つのローカルユーザアカウントで起動

/

G-A G-B

VO1割り当て

ファイルシステム

Page 38: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

38東工大 GridVMプロトタイプ評価結果と仮想化手法選択のための指標

NRP CV FSI MP

ptrace ○ ○ × ×mod_janus × ○ △ ○

Dyninst ○ × ○ △

0

50

100

150

200

250

300

normal

1000

2000

3000

4000

5000

6000

7000

8000

制限値(KBytes/sec)

実行性能(Mflops)

normal

ptrace

mod_janus

dyninst

• トラップ毎のコストmod_janus>ptrace>>dyninst

• バンド幅制限の上限– 仮想化によりスループットが低下dyninst>>mod_janus>ptrace

• 複数プロセス仮想化のコストptrace>>dyninst>mod_janus

• 並列ジョブはトラップコストが影響mod_janus>ptrace>>dyninst

NPB MG4ノードでの実行性能

• 手法選択のための指標– 管理者権限を必要としない(NRP)– 完全な仮想化が必要(CV)– システムコールの頻繁な発行(FSI)– 複数プロセス(MP)

Page 39: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

39

東工大GridVMデモ内容

• バンド幅制限機能– 投入されたジョブがバンド幅を制限される様子を示す

– 複数の仮想化手法

• 制限するアプリケーション– ネットワークスループット計測ツール

Gatekeeper

Jobmanager

VM-A VM-B

ユーザポリシ

一つのローカルユーザアカウントで起動

ジョブの投入

仮想化手法を指定

ポリシの制限値にバンド幅制限

ジョブ実行

Page 40: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

40

東工大GridVMプロトタイプまとめ

• 複数の仮想化手法を選択し、VM上でジョブ実行を行なうグリッドシステムを試作した

• ジョブの性質、ポリシに応じて仮想化手法を選択するための指標を同定– NECの2004年度の実装へフィードバック

• 今後の課題– プロトタイプVMの拡張

• CPU使用率の制限、階層的なポリシ規定など– より高レベルなサービスの提供

• バンド幅使用量予約を考慮したスケジューラ• VO管理者による管理機構

Page 41: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

41

モニタリングシステムの自律的構成

• グリッド環境のモニタリングシステム– グリッド環境の効果的な運用のために必要

• モニタ対象: 計算機、ネットワーク、ミドルウエア、アプリケーション– 具体的な目的

• 有効な資源配分、アカウンティング、監視など– 特徴

• 複数のコンポーネントから成立• コンポーネント間は相互に依存関係を持つ

– モニタリングシステムの運用で求められる事柄• システムの再設定、障害修復• コンポーネント数の増大に伴う効率的な管理

自律的な管理機構を備えたモニタリングシステムが必要

Page 42: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

42

モニタリングシステムの自律的構成の概要

自律的構成の概要

計算機・プロセスの稼動状況を調査

コンポーネントのプログラムの実行と情報サービスへの登録変更

グループ分割(コンポーネント管理のため)

コンポーネントの配置決定

ノードの追加、削除に応じて再構成される

初期設定時はすべてのコンポーネントに対して再設定時は障害のあるコンポーネントに対して

Page 43: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

43

モニタリングシステムの自律的構成の実験

プロトタイプ試作

大岡山ネットワークの代表計測

すずかけ台

センサ(データ収集)センサからメモリホストへのデータの流れ

ネームサーバ(Directory Service)NWS [`99 Wolski et al.] を集中管理する機構を試作し、東京工業大学のキャンパスグリッド上で評価

メモリホスト(データ管理)

PCクラスタの代表ノード

コンポーネントの配置、グループ分けが合理的に行われる事を確認

Page 44: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

44

モニタリングシステムの自律的構成 評価結果

自動設定の所要時間

21 397619

30

52

0

50

100

150

3 6 12

サイト数

時間(秒)

NWSの起動

設定

RTTの測定

ほとんどの時間がRTT測定とNWSの起動に使われている

所要時間がO(N)(N; サイト数) となるのは内部でコマンドを逐次実行するため

Page 45: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

45

まとめ:モニタリングシステムの自律的構成

• 今後の課題–自律的構成機能の分散化

• 集中管理によるモニタリングシステムの単一故障点を解消

–サポートするモニタリングシステムの拡充と処理時間の改善

• NWSに特化した部分の汎用化• 内部で実行するコマンドの並列実行

–数百・数千のサイトの取り扱いへの対応–規模の大きな環境での実験・評価の拡充–日立の分散情報サービス、並びに来年度以降のグリッドシステムの自律構成へ貢献

Page 46: グリッド環境における資源管理 - NAREGI · CMM Delegation WS-Agreement JSDL ⑥-2 Co-Alloca-tion (予約) エンドユーザMPI ジョブA JobA-1 JobA-2 MPI通信 ①

46

WP1将来:VOホスティングへ向けて

Resource

Performance

LogUser

Account

Budget

Policy

Real World Virtual Org.VO 資源情報管理モデル

モニター

変換Local M

anagement

SystemAdmin.

Req

Local ManagementSystem

Req

Info

rmat

ion

prov

ider 例:アカウント

マッピング

e.g. VO Hosting人と資源 User

Operation規定

状態変更

資源管理サービスR.W.

Management V.O.Management

Resource

Performance

LogUser

Account

Budget

Policy