summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status %...

118
! " # "$ $ % & ’(()

Transcript of summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status %...

Page 1: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

��������������� ����� ����� ���� ��� ����������������������������

��������� ��� ��� �������� � � � � ���� ����� �����

!��"�����������# ��������

"����������$�� �� � ��� ���$����% ������� ����&�'(()

Page 2: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

2�������� � � ���� ���� �������

First…

These slides are available from:

http://www.cs.wisc.edu/~roy/italy-condor/

Page 3: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

3�������� � � ���� ���� �������

This Morning’s Condor Topics* ����� �+��&��,�����&�� ������������-�

* .�����&�����-

* .�����&��� ���� �����

* ����&��&��������� �������-�

* ���������+��� $�������

Page 4: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

4�������� � � ���� ���� �������

Part One

Matchmaking:Finding Machines For JobsFinding Jobs for Machines

Page 5: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

5�������� � � ���� ���� �������

…And matches themCondor Takes Computers…

��������$����� ��+�� ���� ����

…And jobs"��������/

"������0���1�-�1�

� ����'% 2�.!�/

����� �+�

Page 6: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

6�������� � � ���� ���� �������

Quick Terminology

* �$������!���������������� ������������������������

* ���$��!��$$���������� ���������-�������������-�������

�����-���������

Page 7: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

7�������� � � ���� ���� �������

* ����� �+��&���������� ���$����������

* ����� �+��&������ ��� ���3 �-�����-��� ��������4�����

"����0���1�5 5 �'�% 2����.!�

�����������-��� ��������4�����

"���������

* ����� �+��&��$$�� �� ������"��� 0���16�����"� ��� � ������� ����� ���� � ����-���� �$$������������� ��������� �������

Matchmaking

Page 8: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

8�������� � � ���� ���� �������

Why Two-way Matching?

* ��������� ���$$��������� � $����������&��� ���3 �-���-� �����

��������� ���

����$�7$����8���� ����������

* !$$������������&��� ������ �����

9�������� ������

-�������

� $

Page 9: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

9�������� � � ���� ���� �������

Machine owner preferences

* "� ������-������ ���� ������&���

* "�� �$$���$��������-��-�� ��: � �����;��

* "�� �$$���$�������������� �������-�

* 3 �-�����-� �� ��������� ����&�-������ ���$��&�7������8

Page 10: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

10�������� � � ���� ���� �������

System Admin Prefs

* ���������-�� �� ���������-�<

* ����������������&��� �������<

Page 11: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

11�������� � � ���� ���� �������

ClassAds

* �$���!�� ���������������-=��1���-$�������$�����1

����� ����=��$��������&����)�>

* �$���!�� ����� ������"��4�������� ����� ����0���1

Page 12: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

12�������� � � ���� ���� �������

?1�� $�MyType = "Job"

TargetType = "Machine"

ClusterId = 1377

Owner = "roy“

Cmd = “analysis.exe“

Requirements =

(Arch == "INTEL")

&& (OpSys == "LINUX")

&& (Disk >= DiskUsage)

&& ((Memory * 1024)>=ImageSize)

ClassAds• �$���!�� ���

– �� ����������

– ����1����-$

– ��� ����

– !����-���@�?1 ������

� ����&

A �� -�

2��$��

Page 13: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

13�������� � � ���� ���� �������

Schema-free ClassAds* ��������� ������� ���� �

�B � �������������&6��$����"� �������� -�C

* 2�����������1���������� �������$�+6�������-������ ������AnalysisJobType = “simulation”

�HasJava_1_4 = TRUE

�ShoeLength = 7

* ����� �+��&����������������-����Requirements = OpSys == "LINUX"

&& HasJava_1_4 == TRUE

Page 14: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

14�������� � � ���� ���� �������

Submitting jobs* � ������-� �����-������ ����� ���

�3 �-������-��������$���!�

�?�����-� ��������� ����������4��

�D ���������� ����$�E�

�� �-� ��������� ����� ���������4��

���������� �$�� $���-� ��������� ����

�� �-� �����������$��-�������F����

aacbb

x2

42 −±−=

������F����D ��

Page 15: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

15�������� � � ���� ���� �������

Advertising computers* �������� ��������-��� ����

������&����������$�1������$���!�

��$���!� ��������� ��������G 0����!���&

G ,���� ���

G C

��$���!�� ��������������� �+�

����� �+�

7��$$���8�$���!�Type = “Machine”

Requirements = “…”

Page 16: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

16�������� � � ���� ���� �������

Matchmaking* A &���������$$���$��������� ����

* A &������������������������������-�������������������<

* A &���������� ���������-��������� ����?��$�����4���� ���������-�5 �� ����

�?��$����������1�����-�����$���!��

�"��-������$����������6����������� ���

* � ���� ���6����� �������1�������� ���

Page 17: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

17�������� � � ���� ���� �������

Matchmaking diagram

�����F����

D ��

����� �+�

��$$���A &�������

H'

I

Page 18: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

18�������� � � ���� ���� �������

Condor diagram

�����F����

D ��

����� �+�

�����F�$$��������F�&�������

�����F������

�����F��-� ��

�����F������ �����F������

3 �-

Page 19: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

19�������� � � ���� ���� �������

Condor processes

* �������# �+������������� �����

* ��$$������ ������$���!��

* A &��������������� ��� ���� �+��&

* � ���������&����-�4��

* � ����� ������&����-�7��-� ������8

* � �����������&���� ���

* � �����������&����-�71���������8

Page 20: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

20�������� � � ���� ���� �������

Some notes

* ?1��$������&������� �$$���� �� ��$

* ��������� ��������� 7��-� �����8

* ��������� ����������� 7�� ����8

* !�� ������������������ -���������������$������� ��-�������������

�� ������ ��+�������������� J�������

�������$����������������&

Page 21: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

21�������� � � ���� ���� �������

Our Condor Pool* ?����������� ��������

�� ��� 74��8

�� ����� 7� ������ ��������$�� �����8

* � ���$�������������B �$����������

�B ���� ����� J��$$��� �&�������

* !�������$�����������F������

Page 22: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

22�������� � � ���� ���� �������

Our Condor PoolName OpSys Arch State Activity LoadAv Mem ActvtyTime

[email protected] LINUX INTEL Unclaimed Idle 0.000 501 0+03:45:08

[email protected] LINUX INTEL Unclaimed Idle 0.000 501 0+03:45:05

[email protected] LINUX INTEL Unclaimed Idle 0.000 501 0+03:40:08

[email protected] LINUX INTEL Unclaimed Idle 0.000 501 0+03:40:05

[email protected]. LINUX INTEL Unclaimed Idle 0.000 501 0+00:02:45

[email protected]. LINUX INTEL Unclaimed Idle 0.000 501 0+00:02:46

[email protected]. LINUX INTEL Unclaimed Idle 0.000 501 0+02:30:24

[email protected]. LINUX INTEL Unclaimed Idle 0.000 501 0+02:30:20

[email protected]. LINUX INTEL Unclaimed Idle 0.080 501 0+03:30:09

[email protected]. LINUX INTEL Unclaimed Idle 0.000 501 0+03:30:05

...

Machines Owner Claimed Unclaimed Matched Preempting

INTEL/LINUX 66 0 0 66 0 0

Total 66 0 0 66 0 0

Page 23: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

23�������� � � ���� ���� �������

Evolution of ClassAds

* �$���!�� ������� �� ���$�� �� ����6�����1����-$6�C

* �$���!�� ��$��-�������A ��$����

�A ��������$���!��

�A ����������

�!�������$��������� �����

Page 24: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

24�������� � � ���� ���� �������

* ,������������������������ �$$������� ��$���!�� �����$������ ��-$� �

[ Type = “Machine”;

Friends = {“alain”, “miron”, “peter”};

LoadAverages = [ OneMinute = 3; FiveMinute=2.0];

Requirements = member(other.name, Friends);

]

New ClassAds

$���

A ����$�����

2��$������������

Page 25: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

25�������� � � ���� ���� �������

Summary

* ������������$���!� ���� ���������������-������� �����

* ����� �+��&�� ���������$���!�� ��������� ����

* � ��������� ������� �������� ��������� �����

Page 26: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

26�������� � � ���� ���� �������

Let’s take a break!

Page 27: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

27�������� � � ���� ���� �������

Part Two

Running a Condor Job

Page 28: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

28�������� � � ���� ���� �������

Getting Condor* !���$�-$������������ �$��������

��� � � � � ���� ����� �����

* ��� �$��������������������� �����&�������!���$�-$������ ����� A "K� $������ ��

G 0���16�� �$����6�L �� K6�"."K6�# ��>;C

�!$������������� �

Page 29: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

29�������� � � ���� ���� �������

Condor Releases* A �� ��&���� ���� �$���������0���1�M��$C* ������� ������$��

�� ��-$��������������7��-�8G ?1�� $���>�;�I6�>�>�: 6�>�>�NG O������-$6�� ���$��-�&���1�

���$� ����������������7��-�8G A � �������6�� ���������� �-�&�G ?1�� $���>�)�)6�>�P�)6�>�P�>

* # ����=���$������ ��-$��>�>�H(���$� � ����>�P�N

Page 30: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

30�������� � � ���� ���� �������

Try out Condor:Use a Personal Condor* �������

����������� ��� ��+�������

��������������4����

��������� ���� �������������������������

* �=$$���������������&����1����

Page 31: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

31�������� � � ���� ���� �������

Personal Condor?!

What’s the benefit of a Condor Pool with just one user and one machine?

Page 32: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

32�������� � � ���� ���� �������

Your Personal Condor will ...* C + ����������������-������� �$$�+ ����� ������������� ��&���

* C��� $� �������� �$���������1�������������������-�

* C�+ ���$�&�����������-���������* C��������$����$��������������-�* C��� $� �������� �$������� ��������-������������������ ��+�������

Page 33: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

33�������� � � ���� ���� �������

After Personal Condor…

* ������������$�������� ��$�� ��+���������C���������������� ��+����������������� ����������� ��$

�!��������������� ��������� ��$

Page 34: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

34�������� � � ���� ���� �������

Four Steps to Run a Job

H� ��������� ����� �����������-�

'� ��+��������-�-��������

I� ���������-� ������� ���� ��$

;� .��������F��-� ��

Page 35: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

35�������� � � ���� ���� �������

1. Choose a Universe

* # ������� ���������O���$$��������$����-

�� ����������+ ������& 5 ��� ���" B

�3 �����-��������3 ������-�

���"��.��� ���$$$���"���-�

�C

* ,������ 6�� =$$�����������������$$�

Page 36: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

36�������� � � ���� ���� �������

2. Make your job batch-ready

* �����-��-$��������������-�+&��������������������� ��6�� ����� �6�% � "6���

* �������$$����STDIN6�STDOUT6�����STDERR7���+�-���������������86�-�����$����������������������������������$�����

* B �&���E��������$�

Page 37: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

37�������� � � ���� ���� �������

3. Create a Submit Description File* !� $����!� �""��1����$

�A ������$���!�

�2��������F��-� �� � �$$�� �+����$���!� ���� ���

* �������������� ����-������$�1�������

* # $$����������-�����������-�������1���-$6�������6��� ��6���� ��������������$�������6��� � ����$�����&�� ���6�������� ��������-$�6������ ��$��4���� ������� ������

Page 38: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

38�������� � � ���� ���� �������

Simple Submit Description File

# Simple condor_submit input file# (Lines beginning with # are comments)# NOTE: the words on the left side are not# case sensitive, but filenames are!Universe = vanillaExecutable = analysisLog = my_job.logQueue

Page 39: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

39�������� � � ���� ���� �������

4. Run condor_submit* Q���&��������F��-� �� ������ ���������-� �����$��������������

condor_submit my_job.submit

* �����F��-� ��� ����������-� �����$6��+��������������6�������������$���!� ���������-���������-�

Page 40: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

40�������� � � ���� ���� �������

The Job Queue

* �����F��-� ���������������-=���$���!� ���������������&�����$��$���-�4��

�� ����������-���������-�4��G !��� ��� ������6��� �� ������ � ��

G R0�+�� ����������-��+S

* O�� ����4���� ����condor_q

Page 41: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

41�������� � � ���� ���� �������

An example submission

% condor_submit my_job.submitSubmitting job(s).1 job(s) submitted to cluster 1.

% condor_q

-- Submitter: perdita.cs.wisc.edu : <128.105.165.34:1027> : ID OWNER SUBMITTED RUN_TIME ST PRI SIZE CMD 1.0 roy 7/6 06:52 0+00:00:00 I 0 0.0 analysis

1 jobs; 1 idle, 0 running, 0 held

%

Page 42: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

42�������� � � ���� ���� �������

Some details* ����������������� ��$��-��������

�# ������������Notification = Never

�B �$������������Notification = Error

* ��������������$�&���$�7����$�&8�R# ��0���� ����������3 �-S

�� ��� ���$$������������$����������-

�!$� ����������$�&���$

�� ������ �����Log = filename

Page 43: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

43�������� � � ���� ���� �������

Sample Condor User Log000 (0001.000.000) 05/25 19:10:03 Job submitted from host: <128.105.146.14:1816>

...

001 (0001.000.000) 05/25 19:12:17 Job executing on host: <128.105.146.14:1026>

...

005 (0001.000.000) 05/25 19:13:06 Job terminated.

(1) Normal termination (return value 0)

Usr 0 00:00:37, Sys 0 00:00:00 - Run Remote Usage

Usr 0 00:00:00, Sys 0 00:00:05 - Run Local Usage

Usr 0 00:00:37, Sys 0 00:00:00 - Total Remote Usage

Usr 0 00:00:00, Sys 0 00:00:05 - Total Local Usage

9624 - Run Bytes Sent By Job

7146159 - Run Bytes Received By Job

9624 - Total Bytes Sent By Job

7146159 - Total Bytes Received By Job

...

Page 44: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

44�������� � � ���� ���� �������

More Submit Features# Example condor_submit input file

Universe = vanillaExecutable = /home/roy/condor/my_job.condorLog = my_job.logInput = my_job.stdinOutput = my_job.stdoutError = my_job.stderrArguments = -arg1 -arg2InitialDir = /home/roy/condor/run_1Queue

Page 45: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

45�������� � � ���� ���� �������

Using condor_rm* "������� ��������� �������-����� �����������4��6��������condor_rm

* Q��������$���� �����-������������� ��7������=����� condor_rm ������ ���$�=����-����$��������������8

* Q������&���� ������-�"�=��7$��������$����� ��86������������� ����$$�����������-��� �������R��S�� ������condor_rm 21.1 ���� ��������������

�condor_rm 21 ���� ������� ������� ���

Page 46: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

46�������� � � ���� ���� �������

condor_status

% condor_status

Name OpSys Arch State Activity LoadAv Mem ActvtyTime

haha.cs.wisc. IRIX65 SGI Unclaimed Idle 0.198 192 0+00:00:04

antipholus.cs LINUX INTEL Unclaimed Idle 0.020 511 0+02:28:42

coral.cs.wisc LINUX INTEL Claimed Busy 0.990 511 0+01:27:21

doc.cs.wisc.e LINUX INTEL Unclaimed Idle 0.260 511 0+00:20:04

dsonokwa.cs.w LINUX INTEL Claimed Busy 0.810 511 0+00:01:45

ferdinand.cs. LINUX INTEL Claimed Suspended 1.130 511 0+00:00:55

vm1@pinguino. LINUX INTEL Unclaimed Idle 0.000 255 0+01:03:28

vm2@pinguino. LINUX INTEL Unclaimed Idle 0.190 255 0+01:03:29

Page 47: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

47�������� � � ���� ���� �������

How can my jobs access their data files?

Page 48: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

48�������� � � ���� ���� �������

Access to Data in Condor

* � ����������$����� �������$�-$* A ����������$����� <

���������������������$�G ��������� ����$$������-�+����&����$�G !��� �������������� �$�� $���$�G ����-���� ����������� ��

�.� ���" B �� �+��� ��������� �������������� �������� ��$$��7� �����������$���8

Page 49: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

49�������� � � ���� ���� �������

Condor File Transfer* ShouldTransferFiles = YES

�!$� ��������������$�����1���������* ShouldTransferFiles = NO

� .$���������������$�����* ShouldTransferFiles = IF_NEEDED

���$$������ ����$$���������������$����������-� �������1���� ��������������������� �,�$� ���� ��� ���

Universe = vanillaExecutable = my_jobLog = my_job.logShouldTransferFiles = IF_NEEDEDTransfer_input_files = dataset$(Process), common.dataTransfer_output_files = TheAnswer.datQueue 600

Page 50: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

50�������� � � ���� ���� �������

Some of the machines in the Pool do not have enough memory or scratch disk space to run my job!

Page 51: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

51�������� � � ���� ���� �������

Specify Requirements!

* !��1 �������7�����1���� �$�����������3 ���8* �������$�������# ���������� �������-�� ��

Universe = vanillaExecutable = my_jobLog = my_job.logInitialDir = run_$(Process)Requirements = Memory >= 256 && Disk > 10000Queue 600

Page 52: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

52�������� � � ���� ���� �������

Specify Rank!

* !$$�� ������ ����� ������4���� �������-�������-�� ������ ������.��+�1 ��������

* L �&������.��+6����-�������� ���Universe = vanillaExecutable = my_jobLog = my_job.logArguments = -arg1 –arg2InitialDir = run_$(Process)Requirements = Memory >= 256 && Disk > 10000Rank = (KFLOPS*10000) + MemoryQueue 600

Page 53: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

53�������� � � ���� ���� �������

We’ve seen how Condor can:

C + �����������������-������� �$$�+ ����� ������������� ��&���

C��� $� ��������� �$���������1�������������������-�

C�+ ����$�&�����������-���������

Page 54: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

54�������� � � ���� ���� �������

My jobs run for 20 days…

* ������� ���� �������&�� ��� ��<

* L �� ����"��������$����$�������� ����-�<

Page 55: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

55�������� � � ���� ���� �������

Condor’s Standard Universe to the rescue!

* ������������ �������������� -������������������ ������� ���������������R� ������S

* ��������� ������� ����������������������$���������������-��O���$$��T .�������� ���$�3 �-�� ���$��T �$�&����������$�

�� ������� T � � ������������� ����� ������+ ���������������

Page 56: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

56�������� � � ���� ���� �������

Process Checkpointing

* ������=����������+ ������&� ������ ������������������������ �������������+ �������$��� ���6���� 6�" B 6���

* # �� ������������-������������� ���&���� ������$������

* # � ��$$��������&������������-=������������� T ��� ��6��������-�� ����-��$��+� � ����������=��� ��������� �������� ����$�-����

Page 57: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

57�������� � � ���� ���� �������

Relinking Your Job for Standard Universe

# ���������6������ $��R���������� ���S������������������ � ������������ �$$��������$��+��������-�

% condor_compile gcc -o myjob myjob.c

� B . ��

% condor_compile f77 -o myjob filea.f fileb.f

� B . ��

% condor_compile make –f MyMakefile

Page 58: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

58�������� � � ���� ���� �������

Limitations of the Standard Universe* ������=���+ ������& �������������+��$�$�$���# ����������� ��������� �����������-�� ��������,��+78�� ��+��$��������� ����� ����� �����"��6�������� � ������������� � ���

* ������� ��$�����������-�����B M

Page 59: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

59�������� � � ���� ���� �������

When will Condor checkpoint your job?

* �������$$�6����������,������$����$���

* �����������-���� �� �� -������&��� ����������-

* �����������-����������-�������1������� �����-�� ��-���

* ��������1 $���$�����������F�+ ����6������F����6������F������������F�������� � ���

Page 60: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

60�������� � � ���� ���� �������

Remote I/O Socket

* 3 �-�����4�����������������F������� �����������1���� �����������.� ���" B �� �+�

* � ���������$������������$������-� ���� �����T � �������� ��������� �������� �����O���$$�6�3 ���6�C

* 0�-������ �����������3 �������������6��&���3 �����,�$"� ��� ���� �U����� "� ��� ����

����� �78���U����� F� �78

Page 61: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

61�������� � � ���� ���� �������

Job

Fork

startershadow

HomeFile

System

I/O Library

I/O Server I/O ProxySecure Remote I/O

Local System Calls

Submission HostExecution Host

Local I/O(Chirp)

Page 62: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

62�������� � � ���� ���� �������

Remote System Calls* " B �� ���� ��$$�������� ����������-�+������-� ���� ����

* !$$�� ��# ���� �������&�������!�����!�� �������������� �������+ ��������� �����!6�����������2

* A ��� �����������&���4����* 0��&��&�"�� ����* B ��������������! $�������� ����&

�?1�� $����������$$������� �� �����R��� S����� ����$�

Page 63: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

63�������� � � ���� ���� �������

Customer Job

Job Startup

Submit

Schedd

Shadow

Startd

Starter

CondorSyscall Lib

Page 64: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

64�������� � � ���� ���� �������

condor_q -io

c01(69)% condor_q -io

-- Submitter: c01.cs.wisc.edu : <128.105.146.101:2996> : c01.cs.wisc.edu

ID OWNER READ WRITE SEEK XPUT BUFSIZE BLKSIZE

72.3 edayton [ no i/o data collected yet ]

72.5 edayton 6.8 MB 0.0 B 0 104.0 KB/s 512.0 KB 32.0 KB

73.0 edayton 6.4 MB 0.0 B 0 140.3 KB/s 512.0 KB 32.0 KB

73.2 edayton 6.8 MB 0.0 B 0 112.4 KB/s 512.0 KB 32.0 KB

73.4 edayton 6.8 MB 0.0 B 0 139.3 KB/s 512.0 KB 32.0 KB

73.5 edayton 6.8 MB 0.0 B 0 139.3 KB/s 512.0 KB 32.0 KB

73.7 edayton [ no i/o data collected yet ]

0 jobs; 0 idle, 0 running, 0 held

Page 65: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

65�������� � � ���� ���� �������

Condor Job Universes

* � ���$�3 �-��O���$$��� ������� ��������� �����

* � ���$��� �����* ����$$$�3 �-�

���"�� ������7������������$$$�� �����8��O��� �����

* 3 ����� �����

Page 66: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

66�������� � � ���� ���� �������

Java Universe Job

universe = javaexecutable = Main.classjar_files = MyLibrary.jarinput = infileoutput = outfilearguments = Main 1 2 3queue

condor_submit

Page 67: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

67�������� � � ���� ���� �������

Why not use Vanilla Universe for Java jobs?* 3 ����� ������ �������� ��������������������&�R����S�������������������1���$���M��� ��� ����� ������������3 O�������$$��M��� �����$������6�������6����� ����� ������3O��������� ����

���������� ��������� �������-����3 ������-��� $���������������3O��1�����G ���&��� �����������3 ����� �� �6��$$�� ��&������������ ����3 ����1 �����6���

Page 68: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

68�������� � � ���� ���� �������

Java support, cont.condor_status -java

Name JavaVendor Ver State Activity LoadAv Mem

aish.cs.wisc. Sun Microsy 1.2.2 Owner Idle 0.000 249

anfrom.cs.wis Sun Microsy 1.2.2 Owner Idle 0.030 249

babe.cs.wisc. Sun Microsy 1.2.2 Claimed Busy 1.120 123

...

Page 69: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

69�������� � � ���� ���� �������

Summary* � ��

������F��-� ��������F4������F������

* ��������������!����$�� ��&��� �7����$$�8�� �� ���-��� �����+ ������& 5 ��� ���" B �7��������8

�3 ������-��� ����-���������������&

* ,�$�����-����������� �������$������,�$���������.� ���" B

Page 70: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

70�������� � � ���� ���� �������

Part Three

Running a parameter sweep

Page 71: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

71�������� � � ���� ���� �������

Clusters and Processes* "���������-� �����$�����-��� �$�� $���-�6�� ��$$��������R$����S

* ?���$��������������4��R$�������� -�S* ?�����-������$���������$$����R ����S

� ��������� -����$� �������������E��* !��������R3 �-�"�S�������$�������� -�6��� ����6�������� �������� -��7R'(�HS8

* !�$���������$$�� ���������������� ��� �������# �������$� ������$���������������-

Page 72: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

72�������� � � ���� ���� �������

Example Submit Description File for a Cluster# Example submit description file that defines a# cluster of 2 jobs with separate working directoriesUniverse = vanillaExecutable = my_joblog = my_job.logArguments = -arg1 -arg2Input = my_job.stdinOutput = my_job.stdoutError = my_job.stderrInitialDir = run_0Queue ������ ���������InitialDir = run_1Queue ������ ���������

Page 73: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

73�������� � � ���� ���� �������

% condor_submit my_job.submit-file

Submitting job(s).

2 job(s) submitted to cluster 2.

% condor_q

-- Submitter: perdita.cs.wisc.edu : <128.105.165.34:1027> :

ID OWNER SUBMITTED RUN_TIME ST PRI SIZE CMD

1.0 frieda 4/15 06:52 0+00:02:11 R 0 0.0 my_job

2.0 frieda 4/15 06:56 0+00:00:00 I 0 0.0 my_job

2.1 frieda 4/15 06:56 0+00:00:00 I 0 0.0 my_job

3 jobs; 2 idle, 1 running, 0 held

Submitting The Job

Page 74: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

74�������� � � ���� ���� �������

Submit Description File for a BIG Cluster of Jobs* # ��������$������������������-����-�� �����������FV 7�����86�����������������-� �����&������&$���-6�� ����RD ���>((S������-� ���>((���-��������

* # ��V 7�����8�� ����� �$$�-�1 ����������� �������� -�����������-�������$�����7(�� )NN86����� =$$�����R���F(S6�R���FHS6�C�R���F)NNS���������

* !$$������ �� ��� �����$��� �$$�-��������������������/

Page 75: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

75�������� � � ���� ���� �������

Submit Description File for a BIG Cluster of Jobs# Example condor_submit input file that defines# a cluster of 600 jobs with different directoriesUniverse = vanillaExecutable = my_jobLog = my_job.logArguments = -arg1 –arg2Input = my_job.stdinOutput = my_job.stdoutError = my_job.stderrInitialDir = run_$(Process) �� ���� �� ��!""Queue 600 ������ ������#��� �#�!""

Page 76: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

76�������� � � ���� ���� �������

More $(Process)

* Q���������V 7�����8����� ���Universe = vanillaExecutable = my_jobLog = my_job.$(Process).logArguments = -randomseed $(Process)Input = my_job.stdinOutput = my_job.stdoutError = my_job.stderrInitialDir = run_$(Process) �� ���� �� ��!""Queue 600 ������ ������#��� �#�!""

Page 77: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

77�������� � � ���� ���� �������

Sharing a directory* Q������=������������� ��������������

* V 7�$����8�� �$$��$ �������&���������Universe = vanillaExecutable = my_jobLog = my_job.$(Cluster).$(Process).logArguments = -randomseed $(Process)Input = my_job.input.$(Process)Output = my_job.stdout.$(Cluster).$(Process)Error = my_job.stderr.$(Cluster).$(Process)Queue 600

Page 78: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

78�������� � � ���� ���� �������

Difficulties with $(Process)

* � �� � � $�� ������� ��������� ��&��� �V 7�����8�J�H(�7������������� -�8

* Q�����=������������

* Q�������������&��$�+�

* H(���� �� ����������V 7�����8�!�&�� ��

Universe = vanillaExecutable = my_jobArguments = -randomseed 10$(Process)…Queue 600

Page 79: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

79�������� � � ���� ���� �������

Job Priorities

* !����� ���������-������������ �� �����������&�����������<

* condor_prio $���������������-� ������������������$���������������-�6���������� � $�

��������>�>�� �����������-��'(����J'(

��������>�P�� �����������-��������&�

* ����-���������-� �����$��Priority = 14

Page 80: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

80�������� � � ���� ���� �������

What if you have LOTS of jobs?* � ���� �������

�?�����-��4������������� � �����?��������� ��4�������$����� �����������+���?��������� ��4����� ���� ��+���� ������� �$�� ���������������-�$��&

* ?��������F���� $�� ����� �1���� -�������-��������&�����$�����'((������&���-$

* ��������� �$�� $���-� ���������Q��������-� �����-������ �� �$�� $��� �����"� � ����������������$�-�$����5 ��� $1���

Page 81: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

81�������� � � ���� ���� �������

Advanced Trickery

* Q�����-� ���H(� ���� ����� �

* Q�����������$�������� ���� ������ ����$$���� �!6�26��6��6�?

* L �� ��������$��+�������������������-���������� �������# � �2� ���� ����� �<

Page 82: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

82�������� � � ���� ���� �������

Advanced Trickery cont.* "���������-���$�

�J� � # � @�R2S

* Q�����������������������-��$���!��condor_q –l

* Q���������� ���-��������������� ��condor_q –constraint ‘SweepType == “B”’

* O�������$�� ��������������� $1�������������-�

* # �������������&����1����/* 2�����$�� �������4�����&C�

Page 83: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

83�������� � � ���� ���� �������

Part Four

Managing Job Dependencies

Page 84: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

84�������� � � ���� ���� �������

DAGMan

* �!%��� �$$�� ���������� �������� ����� -�� ����������������-�6����������� ���& ��� ������ ����$$����������

* ?1�� $��R���=��������-�2�����$���-�!������� $���������$$��S

�����

!�$��% �� � ����&�

Page 85: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

85�������� � � ���� ���� �������

What is a DAG?* !��!% ������������������������

-���!%�������� ���������� ������

* ?�����-�����������������!% �

* ?��������������������� -�����R ����S����R��$���S������T ���$��&��������������$�� �/

!

2 �

B M�

!

2 �

A ���B M�

Page 86: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

86�������� � � ���� ���� �������

Defining a DAG

* !��!% ����������-�������& ��$6 $�����&�������������������������� ������

Job A a.subJob B b.subJob C c.subJob D d.sub

Parent A Child B CParent B C Child D

Job A

Job B Job C

Job D

Page 87: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

87�������� � � ���� ���� �������

DAG Files….

* # ���� $���!% ����������$�

Job A a.sub

Job B b.sub

Job C c.sub

Job D d.sub

Parent A Child B C

Parent B C Child D

B ���!% �,�$� ,����� �-� ���,�$��

Universe = Vanilla

Executable = analysis…

Page 88: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

88�������� � � ���� ���� �������

Submitting a DAG

* # ��������������!% 6����������condor_submit_dag� ������������& ��$6������������� �$$��������� �����$��!%���� ������ �������-&���������&��������-��

% condor_submit_dag diamond.dag

* �����F��-� ��F��& ��-� ������� ���$��� ��������-�� �����!%����������1���-$�

* # ��������!%������� ������$���������������������-6�����������=���������-�-���������

Page 89: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

89�������� � � ���� ���� �������

DAGMan

Running a DAG

* �!%�����������������$�6�� ���&��&������-� �����������������-������������-�����������!% �� ������

CondorJobQueue

B C

D

A

A.dagFile

Page 90: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

90�������� � � ���� ���� �������

DAGMan

Running a DAG (cont’d)

* �!%������$���5 ���-� ������-���������������4���������� �� �������� ��

CondorJobQueue

C

D

B

C

B

A

Page 91: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

91�������� � � ���� ���� �������

DAGMan

Running a DAG (cont’d)

* "������������-����$��6��!%����������������$����������$��&��� �+� ��&���6����������������R���S���$ � �������������������������!% �

CondorJobQueue

X

D

A

BRescue

File

Page 92: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

92�������� � � ���� ���� �������

DAGMan

Recovering a DAG

* B ��������$����-������������-������6����������$����-����������������� �����������������!% �

CondorJobQueue

C

D

A

BRescue

File

C

Page 93: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

93�������� � � ���� ���� �������

DAGMan

Recovering a DAG (cont’d)

* B ���������-��� $��6��!%����� �$$������������!% �������������$��������� ���

CondorJobQueue

C

D

A

B

D

Page 94: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

94�������� � � ���� ���� �������

DAGMan

Finishing a DAG

* B ������!% ������ $�6�����!%������-����$������������6�����1����

CondorJobQueue

C

D

A

B

Page 95: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

95�������� � � ���� ���� �������

DAGMan & Log Files* ,��������-6��������&��������$�&���$

* �!%��� ����������$�&������� ���������� ��

* "���!%��� ����7����6� �� �����$��6��C8��������� �$$���������!%���

��!%��� �������$�&���$

��!%��� +��� ���������&�����������+���

Page 96: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

96�������� � � ���� ���� �������

Advanced DAGMan Tricks

* # �����$�������&��������!% �

* .�������!% ���0�� ������� ��

* ��������������� ���������&�������!%

Page 97: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

97�������� � � ���� ���� �������

Throttles

* ,��$����������-������ ����$$���������������&���-$���� -�������� �����������A ���� �

����������A ���� �6���$����������������� ����1�����

* # �����$����������$���-���-� ����������1���-����-� ����

���1���� ���������&

Page 98: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

98�������� � � ���� ���� �������

* � �-� ����!% �� �����'((6(((�����

�A ��� �����

* � ���!%��� ���������$������-��������������$�-$6�-������� �$$����� ��-$� �����������-� ���'((6(((���-����� �$������$�

��!%��� ����$ �����&����$�-�$�����������������=������� �����

Degenerative DAG

!H !' !I

Page 99: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

99�������� � � ���� ���� �������

Recursive DAGs* "��������&�����!% ��������-������ ��

���������H� ��+�������'� ������!% ���$I� ��$$������F��-� ��F��&;� ����������!% ����1��

* �!% ������ �$$������� $������$���������!% ��������6

* ���<� "� $� �������1��$�&���$�� � �������-��������������$�

Page 100: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

100�������� � � ���� ���� �������

Recursive DAG

!

2 �

O �

W

K Q

Page 101: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

101�������� � � ���� ���� �������

DAGMan scripts

* �!%��� �$$�� �� ��5 � ������� ������=���������-���� ��������1���-$

�.���-����7 �8���������7 ���8���-

�.������������ ��� ����������-� ���������

* � ����1�JOB A a.sub

SCRIPT PRE A before-script $JOB

SCRIPT POST A after-script $JOB $RETURN

Page 102: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

102�������� � � ���� ���� �������

So What?* ������ ������ �+��������

���������$��� ����-����<�7������$��$������$����� �+���-����������� � $�����$������-�8

�� ���$��"� ��������������&�� ������������-<

�0�E���������� �+��&

* �������� ��������&���������$���!%��� �������-����$���������E�����������$�

��������� �����$��+����X�������6���� �����$�6��9�����������E����������E���-�������� ��+��� $�&�

Page 103: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

103�������� � � ���� ���� �������

Part FiveMaster Worker Applications

(Slides adapted from Condor Week 2005 presentation by Jeff Linderoth)

Page 104: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

104�������� � � ���� ���� �������

Why Master Worker?* !���$������������!%���* �!%���

��������-����������������-��.������ ���� ���$$$

* ���������+��7��8��������-����������+������JJ������������������������������+�����=��� ������-���������-��2����� ���������� $����������������

Page 105: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

105�������� � � ���� ���� �������

Master Worker Basics

������������/

Q���

��/

* ����������&������+������ ��+��

* ���+��� ����� ����+������� �������$��

* ���+������������ � ������71 ������� ����8

* � �� $

* ,��$��# �$����* ����� �

,�1�������/

Q�����/

Page 106: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

106�������� � � ���� ���� �������

Master Worker Toolkit* # �����������-���������������� ������ ��+��

�����&� �������6����+�6�����# ��+�* ������������� ��� �+�&�������� ��$��������

�-����������!�"����JJ��-������$����� � ���� �����H(�� ������ # �����E� ���� �$$������ ����$����� ������������� ������

����&������� ����&�������� ��

* ����$��������-������$�������������� ���&� ��������� � ���������� �+�&��7���"���������������&��� � ��&�"�����8�� ������ X�O�6�� �+��6�,�$�9� � ��&$� ������

Page 107: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

107�������� � � ���� ���� �������

! $�������$����

� ���$���&�������������

MW’s Layered Architecture

.������&�

����-������$����

��� � ���������0���

!�"

"�"$������������%������=��$�����

��

��! �

Page 108: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

108�������� � � ���� ���� �������

MW’s Runtime Structure

H� � ��������������+��������� ����=��# ����$���Y

'� ?������+�������������� ��+��7# �����U�.�����&8Y�

I� # �����+����1����-������ ��+�Y

;� # �����$���������-�+�������� ����Y�

)� � ������ ������������$��7������ �� ������+�8�

���+������

���+������

���+������

CC

�����������

# �������+�

.�����&���+�

���+��

Page 109: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

109�������� � � ���� ���� �������

MW API* �������

� &�F�������78

� ��� F�����$F���+�78

� �+F� ��+�F����F����78

� ��F��F�� $��F���+78

* ��# ��+� �+F� ��+786��� �+F� ��+78

� �+F���$�6��� �+F���$�78

* �����+�� �� �+F� ��+�F����F����78

� 1��F���+78

�����$�� �

� ��

?��� ���

�� � ��������

Page 110: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

110�������� � � ���� ���� �������

Other MW Utilities

* �� �������� ����� ��&���6����$�6��-�&�����6��Y

* ����������&�������� �����6���������$� �$���6��Y

* .������� �����������4���� ���6� � ��������� � ��������6����

Page 111: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

111�������� � � ���� ���� �������

Real MW Applications* ��,!#�B ��7���6�,����6�0�������8

!�-�������������������$��������&�� ��&��� � ��&

* ���"A 0��7% ��16�0����6�A ���$8!�-���������-���������������$��������&�� ��&��� � ��&

* ��D �22�70�������8!�7��� $���$8�-���������-��������������$���&�4��������$$� ����������4�������� ��&��� �

* ��!A ��70�������6�� ��8!��������� ��������-������$�������� �$�����&����������$����� ��&��� � ��&

* ��!# .�70�������6�� �� ���6����&��8!��������&���������������&� $����������$�������������� ��&��� � ��&��������������$�����������������$������4��$����

* ��D !��7!�������6�2��1���6�% ��16�0�������8!�-���������-��������������$���&����4������������&�� ��� ��-$�

Page 112: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

112�������� � � ���� ���� �������

Example: Nug30

* ��&I(�7��D ��������!���&�� ������-$� �������������E�I(8�����-�����R��$��&���$S������ ��������$�D !������������U�I(�����

* "��'(((6�!�������6�2��1���6�% ��16�5 �0������� �����������$� ����� ��-$�

* � ���&���� ���� ����$$���� �������������� $$��&������$&������ 6��������$$����� ���������� �� ��$���4����HH���� �����������$����� ��-$� �

Page 113: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

113�������� � � ���� ���� �������

Nug 30 Computational Grid

����������� ����������

���������� ������ ���

����������� �� ����������

���������� ������ ����

����� ��!�"� ������ ���#

$���%��&���� �����������'#

$���%��&���� ������ ���'�

(���� �� �� ���������))

(���� �� � ������������#*

(���� �� � ������ ���#*

���+�$������#�

���+� ������ ���*

���+�$���������#

+�%� ��$������'*

+�%� �� ������ ��#�#

Location Arch/OS Number * � ������+������ �+����$��+�$�+����������� ��$

� ,$�+��&

� % $�����

* ')H(���� ������$

Page 114: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

114�������� � � ���� ���� �������

Workers Over Time

Page 115: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

115�������� � � ���� ���� �������

Nug30 solved

NIZ����$$$�?������

HH�������� �# ��

>)I!�& [ �������

>�����

''�(;�IH������

��$$��$�+�# ��

Page 116: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

116�������� � � ���� ���� �������

More on MW

* ��� � � � � ���� ����� ����� � �

* O������( �'�������$�����"�=��� ������-$������������������� -����&&���/

* ���$��&�$��������$�-$��������������

* !������$� � ���-���������������

Page 117: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

117�������� � � ���� ���� �������

I could also tell you about…* �������% ��������=���-�$���������$+���������% ��������� ��% $�-���'6�I6�;�A ����% ����B ��$�������C

* � ���+��# �����&������ $�� ���$�+��� ��������$���-�

* A ����,�$������� ����� ���$$�������* % �2��0����&�� �������� �$$��5 � ��������� ��+�

Page 118: summer school condor - University of Wisconsin–Madison · 2012. 10. 24. · condor_status % condor_status Name OpSys Arch State Activity LoadAv Mem ActvtyTime haha.cs.wisc. IRIX65

118�������� � � ���� ���� �������

But I won’t

* !����$�����?1����

* �$�����+�� �4�������6���� ����$���