Post on 05-Apr-2015
Datagrid in Earth System Sciences (DGESS)
- Status und Projektplan -
Projektreffenam Max-Planck-Institut für Meteorologie
Heinrich Widmann
28. November 2005
Überblick
Kooperationsprojekt “DGESS” : Motivation und Ziele Projektplan, Status und Entwicklung Die ersten drei Arbeitspakete im Detail
Nächste Schritte
DataGrid in Earth System Sciences (DGESS)
Forschungskooperation zwischen Sun GmbH und MPI-M
Laufzeit : April 2005 – April 2007
Grid-Technologie ist Neuland für die Erdsystemforschung
Ziele des Projekts :● Erforschung und Entwicklung von Grid-Technologien für
die datenintensive Erdsystemforschung● Gemeinsame und effektive Nutzung der vorhandenen
Ressourcen innerhalb der 'climate community'
Integration in größere Grid-Initiativen wie C3Grid, EGEE
Zentrale Motivation : Exponentiell ansteigende Datenvolumen => ...
Quelle: M. Böttinger / DKRZ
... => Lösungsansätze
Daten (= Metadaten + Phys. Daten) direkt, gefiltert, reduziert, automatisch und strukturiert in Datenbank schreibenPostprozessing und Workflows standardisieren und vereinfachenAuslastung von vorhandener, brachliegender RessourcenGRIDtechnologien einsetzen !?
Anforderungen und Probleme in der ESS => mögliche Grid-Lösungen
• Große, verteilte Datenvolumina
• Kostendruck• Unstrukturiertes, ineffizientes Datenmanagment• Vorhandene IT-Infrastruktur• Benutzerspezifische Workflows und Tools• Wissenschaftler mit technischen Problemen konfrontiert• Interdisziplinäre, komplexe Forschungsumgebung
➔Datenfluß optimieren, standardiseren und automatisieren➔Ressourcen besser nutzen➔Metadatenbank
➔An Grid anpassen➔Standardisierung und Automatisierung der Prozesse➔ Weniger manuelles Arbeiten, benutzerfreundliche 'Wrapperskripte'➔Synergien aus gruppen- und institutsübergreifender Zusammenarbeit nutzen
Projektplan
Projektplan als DiskussionsgrundlageProjektplan ist überambitioniert und eher zu optimistisch
Hier nur Arbeitspakete der 'Phase I' diskutieren
Viele offene Baustellen
Nach Prioritäten, Machbarkeit und Zuständigkeiten ordnen
Konzentration auf das Machbare !! Konkrete Arbeitsaufteilung : Wer kann/macht was ?
Institutionen : ZMAW (MPI-M (CIS), IfM, Uni HH) , Sun, DKRZ, M&D
Projekte : DGESS, C3 (Colaborative Climate -Grid, EGEE (Enable Grid E E-Science)
Projektplan – Planung Kickoff 05/05AP Beschreibung
04/05
05/05
06/05
07/05
08/05
09/05
10/05
11/05
12/05
01/06
02/06
03/06
04/06
05/06
06/06
07/06
08/06
09/05
10/06
11/06
12/06
01/06
02/06
03/06
I.1 InstallationI.2 BenutzerI.3 ProzesseI.4 AnwendungenI.5 Anfoderungsf.I.6 MonitoringI.7 HardwareII.1 Integration HostsII.2 Integration UserII.3 AbhaenigkeitenII.4 Automat. InstallII.5 BenutzerfuehrungII.6 LDAPII.7 SoziologieII.8 PortalIII.1 Allg. Anford.III.2 TestphaseIII.3 ProduktivsystemP IV OptimierungenP V Erweiterungen
Projektplan – Planung Kickoff 05/05APBeschreibung
04
/05
05
/05
06
/05
07
/05
08
/05
09
/05
10
/05
11/0
5
12
/05
01
/06
02
/06
03
/06
04
/06
05
/06
06
/06
07
/06
08
/06
I.1 InstallationI.2 BenutzerI.3 ProzesseI.4 AnwendungenI.5 Anfoderungsf.I.6 MonitoringI.7 HardwareII.1Integration HostsII.2Integration User
Projektplan – Planung Status und 'Deltas' 12/05
AP Beschreibung
04/05
05/05
06/05
07/05
08/05
09/05
10/05
11/05
12/05
01/06
02/06
03/06
04/06
05/06
06/06
07/06
08/06
09/05
10/06
11/06
12/06
01/06
02/06
03/06
I.1 InstallationI.2 BenutzerI.3 ProzesseI.4 AnwendungenI.5 Anfoderungsf.I.6 MonitoringI.7 HardwareII.1 Integration HostsII.2 Integration UserII.3 AbhaenigkeitenII.4 Automat. InstallII.5 BenutzerfuehrungII.6 LDAPII.7 SoziologieII.8 PortalIII.1 Allg. Anford.III.2 TestphaseIII.3 ProduktivsystemP IV OptimierungenP V Erweiterungen
Projektplan – Planung Status und 'Deltas' 12/05
AP Beschreibung
04/05
05/05
06/05
07/05
08/05
09/05
10/05
11/05
12/05
01/06
02/06
03/06
04/06
05/06
06/06
07/06
08/06
09/05
10/06
11/06
12/06
01/06
02/06
03/06
I.1 InstallationI.2 BenutzerI.3 ProzesseI.4 AnwendungenI.5 Anfoderungsf.I.6 MonitoringI.7 HardwareII.1 Integration HostsII.2 Integration UserII.3 AbhaenigkeitenII.4 Automat. InstallII.5 BenutzerfuehrungII.6 LDAPII.7 SoziologieII.8 PortalIII.1 Allg. Anford.III.2 TestphaseIII.3 ProduktivsystemP IV OptimierungenP V Erweiterungen
AP I.1 Installation der N1GE6 und Testumgebung
Sun Grid Engine (N1GE6) ist Job management System / Distributed Resource Managementseit Oktober volle Lizenz mit Accounting (ArCO) und Monitoringsystem (GEMM)Master : yoda.zmaw.de SUNW, UltraAX-i2, Solaris 9Execution hosts : Kursrechner kursNN.zmaw.de
Meist 'idle', typische workstations, Kurszeiten => Kalenderfunktion, queues, ...
Shadow master : gallia.zmaw.de SUNW, Ultra-60, Solaris 10
AP I.1 Verzeichnisstruktur, NFS und NIS
Sgeroot = Installations- und Software-Verzeichnis = yoda:/opt/sgeper NFS ueber alle gridhosts gemounted
Später aufgeteilt inGridware = yoda:/opt/gridware : read only gemountedGridspool = yoda:/opt/gridspool : read and write gemounted
seit Oktober volle Lizenz mit Accounting (ArCO) und Monitoringsystem (GEMM)
ArCO installiert, aber noch nicht eingesetzt (Accounting ueber LDAP?)GEMM nicht installiert, -> Ganglia
AP I.1 : Installation und Testumgebung : Basissystem N1GE6
10 executionhost (Kursrechner kursNN.zmaw.de) : meist idle
Master und NFS-Server(yoda.zmaw.de)
AP I.1 : Installation und Testumgebung : Fail-Over+Fileserver
10 executionhost (Kursrechner kursNN.zmaw.de) : meist idle
Master+NFS (yoda.zmaw.de)
Shadow+NFS+Fileserver (gallia.zmaw.de)
RAID
AP I.1 : Installation und Testumgebung : + SunFire 15k(MPI-Jobs und Parallel environement)
10 executionhost (Kursrechner kursNN.zmaw.de) : meist idle
Master+NFS (yoda.zmaw.de)
Shadow+NFS+Fileserver (gallia.zmaw.de)
RAID
SunFire 15k :yin.zmaw.de (32 CPUs)-> yin+yang (92 CPUs)
AP I.1 : Installation und Testumgebung : + Fileserver und 'Gridshares' auf zentralem NFS-Server
10 executionhost (Kursrechner kursNN.zmaw.de) : meist idle
Master (yoda.zmaw.de)
Shadow (gallia.zmaw.de)
RAID
Gridsharesvon zentraler NFS-Server mounten
Fileserver
AP I.2 : Benutzer integrieren – Grid anbieten
Website → www.cis.zmaw.de Anmeldeformular vorhanden
Links auch an zentraler Stelle (ZMAW-site)
Grid bekannt machen und Nutzen aufzeigen !!Usermanual fortsetzen, 'Feedbacks' einbauenGUI ('QMON') und Wrapper-Skripte zur Verf. stellenTutorials anbieten, Bekanntgabe in UsermmeetingTestanwendungen anbieten (einfach und intuitiv)Kritische Szenarien testen und abfangen=> 'Freigabe', wenn :Support und stabiles System gewährleistet ist !
AP I.2 : Benutzer integrieren - Testanwendungen
ComputeanwendungenCCDAS : CPU-intensive, unabhängige Berechnungen
BETHY : Domaindecomposition
Postprozessing :Afterburner : aus Fill-Skript von M&D
CDOs : erste Tests, verteile monatliche Dateien
Jblob-Skript : aus die Datenbank lesen
Problem : Wie kommen Daten auf die worker nodes ?
AP I.2 : Benutzer integrieren - Strategien
S1 : Step by step und nach Usertyp 'Poweruser' : Erfahrene Benutzer, Anwendungen vorhanden, ohne Berührungsängste
CIS-Admins koennen Stabilität, Ausfallsicherheit und Belastbarkeit testen
Testuser : neue C3-Kollegen (testen generische Workflows !)
Neulinge : IMPRS-Studenten -> Tutorials
S2 : Zuerst hoch verfügbares System schaffen => Institutsweite Freigabe
Nachteil : dauert zu lange
S3 : Kombination aus S1 und S2 !!
API.3 : Prozesse analysieren - Generischen Workflow abbilden1. Datenproduktion
● Modelläufe auf HPC-Rechnern (hurikan) erzeugen● Monatliche Output-Dateien (Rohdaten)
in verschiedenen Datenformaten und Modellgittern Größenordnung von GB/Datei bzw. TB/Experiment
2. Datenreduktion und -speicherung● Selektion einzelner Parameter, Regriden, ... (after)● Berechnung von Monatsmitteln und Integration in Zeitreihen (CDOs ->
Uwe Schulzweida)● Abspeichern in Archiv und Datenbank (jblob -> Hannes Thiemann)
3. Datenanalyse● Statistische und sonstige Auswertung (CDOs, andere Tools)● Visualisierung : Plotten, Animation etc.
Schritte 2 und 3 können auf dem Grid durchgeführt werden !
AP I.3 : Prozesse analysieren - C3-Grid-Vorgabe : Generischer WorkflowCollaborative Climate Community Grid
Quelle : C3-Grid, R. Budich
AP I.3 : Prozesse analysieren - Workflowtabelle – aus Anwenderbefragung
- Institut MPI-M M&D MPI-M MPI-M
- ProjectWorkflow
M&D/MPI-M
IFM-GEOMAR
IFM-GEOMAR
- Steuerung
Skripte steuern das Einlesen der Daten, das Herausschreiben, das Umbenennen
Jede 6 h Antrieb einlesen; Skriptsteuerung
Skriptsteuerung nach PRISM-Baukasten:
Skriptsteuerung
Skriptsteuerung: z.T. am DKRZ, Kiel, HLRS gerechneet
Skriptsteuerung: z.T. am DKRZ, Kiel, HLRN? gerechneet
Metadaten !
AP I.3 : Prozesse analysieren - Workflowtabelle –> Metadaten
Allgemeines
Institut, Project
Experiment
Durchführung/ System
Model : Versionskontrolle, Modelgrid, Resolution, Zeitintegration
Rechenzeit, Datenformat(e)
Preprocessing und Set up
Input, Initialisierung, Forcing, Restart
Postprocessing
Ablauf, verwendete Tools
Output (Size, Format): von Roh-, Basis-, Anw.- und Ergebnisdaten
Datenspeicherung
Zu AP I.3 : Generischer Workflow (WF) am ZMAW- Steuerung durch den Benutzer
2. Daten-Reduktion und- Speicherung
1. Daten-produktion
3. Daten-Analyse undDiagnose
Select, map,regrid andstore data
Wissenschaftler
Hole Daten,fuehre Experimentdurch, ...
Analyse undDiagnoseder Daten
WF-Steuerung WF-Schritte
01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010
01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010
CERADB
CERADB
01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010
Simulation
01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010
01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010
Rohdaten bis zu 10 GB / Datei
01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010
Anwendungsdaten 20 MB - 2 GB / Datei
01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010
01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010
Datenfluß
Basisdaten bis zu 1 GB / Datei
AP I.3 : Generischer Workflow (WF) am ZMAW- Steuerung durch das Grid
1. Daten-produktion
2. Daten-Reduktion und- Speicherung
3. Daten-Analyse undDiagnose
CERADB
CERADB
01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010
01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010
Simulation
01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010
01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010
Rohdaten bis zu 10 GB / Datei
01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010
01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010
01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010
01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010
Basisdaten bis zu 1 GB / Datei
WF-Steuerung WF-Schritte Datenfluß
Benutzer gibt- Metadaten- Parameterein (GUI ?)
qsub jobscript
Anwendungsdaten 20 MB - 2 GB / Datei
Die nächsten vier Schritte (Prio 1)
Shadowmaster installieren, Failover-SzenarienJobskript für generisches C3-Grid-Workflow erstellenMPI jobs, Pasrallel environment (yin und yang)Website, Usermanual, Tutorien, Anwendungen wrappen