Datagrid in Earth System Sciences (DGESS)

- Status und Projektplan -

Projektreffenam Max-Planck-Institut für Meteorologie

Heinrich Widmann

28. November 2005

Überblick

Kooperationsprojekt “DGESS” : Motivation und Ziele Projektplan, Status und Entwicklung Die ersten drei Arbeitspakete im Detail

Nächste Schritte

DataGrid in Earth System Sciences (DGESS)

Forschungskooperation zwischen Sun GmbH und MPI-M

Laufzeit : April 2005 – April 2007

Grid-Technologie ist Neuland für die Erdsystemforschung

Ziele des Projekts :● Erforschung und Entwicklung von Grid-Technologien für

die datenintensive Erdsystemforschung● Gemeinsame und effektive Nutzung der vorhandenen

Ressourcen innerhalb der 'climate community'

Integration in größere Grid-Initiativen wie C3Grid, EGEE

Zentrale Motivation : Exponentiell ansteigende Datenvolumen => ...

Quelle: M. Böttinger / DKRZ

... => Lösungsansätze

Daten (= Metadaten + Phys. Daten) direkt, gefiltert, reduziert, automatisch und strukturiert in Datenbank schreibenPostprozessing und Workflows standardisieren und vereinfachenAuslastung von vorhandener, brachliegender RessourcenGRIDtechnologien einsetzen !?

Anforderungen und Probleme in der ESS => mögliche Grid-Lösungen

• Große, verteilte Datenvolumina

• Kostendruck• Unstrukturiertes, ineffizientes Datenmanagment• Vorhandene IT-Infrastruktur• Benutzerspezifische Workflows und Tools• Wissenschaftler mit technischen Problemen konfrontiert• Interdisziplinäre, komplexe Forschungsumgebung

➔Datenfluß optimieren, standardiseren und automatisieren➔Ressourcen besser nutzen➔Metadatenbank

➔An Grid anpassen➔Standardisierung und Automatisierung der Prozesse➔ Weniger manuelles Arbeiten, benutzerfreundliche 'Wrapperskripte'➔Synergien aus gruppen- und institutsübergreifender Zusammenarbeit nutzen

Projektplan

Projektplan als DiskussionsgrundlageProjektplan ist überambitioniert und eher zu optimistisch

Hier nur Arbeitspakete der 'Phase I' diskutieren

Viele offene Baustellen

Nach Prioritäten, Machbarkeit und Zuständigkeiten ordnen

Konzentration auf das Machbare !! Konkrete Arbeitsaufteilung : Wer kann/macht was ?

Institutionen : ZMAW (MPI-M (CIS), IfM, Uni HH) , Sun, DKRZ, M&D

Projekte : DGESS, C3 (Colaborative Climate -Grid, EGEE (Enable Grid E E-Science)

Projektplan – Planung Kickoff 05/05AP Beschreibung

I.1 InstallationI.2 BenutzerI.3 ProzesseI.4 AnwendungenI.5 Anfoderungsf.I.6 MonitoringI.7 HardwareII.1 Integration HostsII.2 Integration UserII.3 AbhaenigkeitenII.4 Automat. InstallII.5 BenutzerfuehrungII.6 LDAPII.7 SoziologieII.8 PortalIII.1 Allg. Anford.III.2 TestphaseIII.3 ProduktivsystemP IV OptimierungenP V Erweiterungen

Projektplan – Planung Kickoff 05/05APBeschreibung

I.1 InstallationI.2 BenutzerI.3 ProzesseI.4 AnwendungenI.5 Anfoderungsf.I.6 MonitoringI.7 HardwareII.1Integration HostsII.2Integration User

Projektplan – Planung Status und 'Deltas' 12/05

AP Beschreibung

Projektplan – Planung Status und 'Deltas' 12/05

AP Beschreibung

AP I.1 Installation der N1GE6 und Testumgebung

Sun Grid Engine (N1GE6) ist Job management System / Distributed Resource Managementseit Oktober volle Lizenz mit Accounting (ArCO) und Monitoringsystem (GEMM)Master : yoda.zmaw.de SUNW, UltraAX-i2, Solaris 9Execution hosts : Kursrechner kursNN.zmaw.de

Meist 'idle', typische workstations, Kurszeiten => Kalenderfunktion, queues, ...

Shadow master : gallia.zmaw.de SUNW, Ultra-60, Solaris 10

AP I.1 Verzeichnisstruktur, NFS und NIS

Sgeroot = Installations- und Software-Verzeichnis = yoda:/opt/sgeper NFS ueber alle gridhosts gemounted

Später aufgeteilt inGridware = yoda:/opt/gridware : read only gemountedGridspool = yoda:/opt/gridspool : read and write gemounted

seit Oktober volle Lizenz mit Accounting (ArCO) und Monitoringsystem (GEMM)

ArCO installiert, aber noch nicht eingesetzt (Accounting ueber LDAP?)GEMM nicht installiert, -> Ganglia

AP I.1 : Installation und Testumgebung : Basissystem N1GE6

10 executionhost (Kursrechner kursNN.zmaw.de) : meist idle

Master und NFS-Server(yoda.zmaw.de)

AP I.1 : Installation und Testumgebung : Fail-Over+Fileserver

Master+NFS (yoda.zmaw.de)

Shadow+NFS+Fileserver (gallia.zmaw.de)

AP I.1 : Installation und Testumgebung : + SunFire 15k(MPI-Jobs und Parallel environement)

Master+NFS (yoda.zmaw.de)

Shadow+NFS+Fileserver (gallia.zmaw.de)

SunFire 15k :yin.zmaw.de (32 CPUs)-> yin+yang (92 CPUs)

AP I.1 : Installation und Testumgebung : + Fileserver und 'Gridshares' auf zentralem NFS-Server

Master (yoda.zmaw.de)

Shadow (gallia.zmaw.de)

Gridsharesvon zentraler NFS-Server mounten

Fileserver

AP I.2 : Benutzer integrieren – Grid anbieten

Website → www.cis.zmaw.de Anmeldeformular vorhanden

Links auch an zentraler Stelle (ZMAW-site)

Grid bekannt machen und Nutzen aufzeigen !!Usermanual fortsetzen, 'Feedbacks' einbauenGUI ('QMON') und Wrapper-Skripte zur Verf. stellenTutorials anbieten, Bekanntgabe in UsermmeetingTestanwendungen anbieten (einfach und intuitiv)Kritische Szenarien testen und abfangen=> 'Freigabe', wenn :Support und stabiles System gewährleistet ist !

AP I.2 : Benutzer integrieren - Testanwendungen

ComputeanwendungenCCDAS : CPU-intensive, unabhängige Berechnungen

BETHY : Domaindecomposition

Postprozessing :Afterburner : aus Fill-Skript von M&D

CDOs : erste Tests, verteile monatliche Dateien

Jblob-Skript : aus die Datenbank lesen

Problem : Wie kommen Daten auf die worker nodes ?

AP I.2 : Benutzer integrieren - Strategien

S1 : Step by step und nach Usertyp 'Poweruser' : Erfahrene Benutzer, Anwendungen vorhanden, ohne Berührungsängste

CIS-Admins koennen Stabilität, Ausfallsicherheit und Belastbarkeit testen

Testuser : neue C3-Kollegen (testen generische Workflows !)

Neulinge : IMPRS-Studenten -> Tutorials

S2 : Zuerst hoch verfügbares System schaffen => Institutsweite Freigabe

Nachteil : dauert zu lange

S3 : Kombination aus S1 und S2 !!

API.3 : Prozesse analysieren - Generischen Workflow abbilden1. Datenproduktion

● Modelläufe auf HPC-Rechnern (hurikan) erzeugen● Monatliche Output-Dateien (Rohdaten)

in verschiedenen Datenformaten und Modellgittern Größenordnung von GB/Datei bzw. TB/Experiment

2. Datenreduktion und -speicherung● Selektion einzelner Parameter, Regriden, ... (after)● Berechnung von Monatsmitteln und Integration in Zeitreihen (CDOs ->

Uwe Schulzweida)● Abspeichern in Archiv und Datenbank (jblob -> Hannes Thiemann)

3. Datenanalyse● Statistische und sonstige Auswertung (CDOs, andere Tools)● Visualisierung : Plotten, Animation etc.

Schritte 2 und 3 können auf dem Grid durchgeführt werden !

AP I.3 : Prozesse analysieren - C3-Grid-Vorgabe : Generischer WorkflowCollaborative Climate Community Grid

Quelle : C3-Grid, R. Budich

AP I.3 : Prozesse analysieren - Workflowtabelle – aus Anwenderbefragung

- Institut MPI-M M&D MPI-M MPI-M

- ProjectWorkflow

M&D/MPI-M

IFM-GEOMAR

- Steuerung

Skripte steuern das Einlesen der Daten, das Herausschreiben, das Umbenennen

Jede 6 h Antrieb einlesen; Skriptsteuerung

Skriptsteuerung nach PRISM-Baukasten:

Skriptsteuerung

Skriptsteuerung: z.T. am DKRZ, Kiel, HLRS gerechneet

Skriptsteuerung: z.T. am DKRZ, Kiel, HLRN? gerechneet

Metadaten !

AP I.3 : Prozesse analysieren - Workflowtabelle –> Metadaten

Allgemeines

Institut, Project

Experiment

Durchführung/ System

Model : Versionskontrolle, Modelgrid, Resolution, Zeitintegration

Rechenzeit, Datenformat(e)

Preprocessing und Set up

Input, Initialisierung, Forcing, Restart

Postprocessing

Ablauf, verwendete Tools

Output (Size, Format): von Roh-, Basis-, Anw.- und Ergebnisdaten

Datenspeicherung

Zu AP I.3 : Generischer Workflow (WF) am ZMAW- Steuerung durch den Benutzer

2. Daten-Reduktion und- Speicherung

1. Daten-produktion

3. Daten-Analyse undDiagnose

Select, map,regrid andstore data

Wissenschaftler

Hole Daten,fuehre Experimentdurch, ...

Analyse undDiagnoseder Daten

WF-Steuerung WF-Schritte

01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010

CERADB

01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010

Simulation

01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010

Rohdaten bis zu 10 GB / Datei

01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010

Anwendungsdaten 20 MB - 2 GB / Datei

01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010

Datenfluß

Basisdaten bis zu 1 GB / Datei

AP I.3 : Generischer Workflow (WF) am ZMAW- Steuerung durch das Grid

1. Daten-produktion

2. Daten-Reduktion und- Speicherung

3. Daten-Analyse undDiagnose

CERADB

01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010

Simulation

01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010

Rohdaten bis zu 10 GB / Datei

01000000110110100101001110110000000000010110010010100011111010101001001000100101001011111101001010

Basisdaten bis zu 1 GB / Datei

WF-Steuerung WF-Schritte Datenfluß

Benutzer gibt- Metadaten- Parameterein (GUI ?)

qsub jobscript

Anwendungsdaten 20 MB - 2 GB / Datei

Die nächsten vier Schritte (Prio 1)

Shadowmaster installieren, Failover-SzenarienJobskript für generisches C3-Grid-Workflow erstellenMPI jobs, Pasrallel environment (yin und yang)Website, Usermanual, Tutorien, Anwendungen wrappen

Datagrid in Earth System Sciences (DGESS) - Status und Projektplan - Projektreffen am...

Transcript of Datagrid in Earth System Sciences (DGESS) - Status und Projektplan - Projektreffen am...

Datagrid in Earth System Sciences (DGESS) - Status und Projektplan - Projektreffen am...

Documents

Transcript of Datagrid in Earth System Sciences (DGESS) - Status und Projektplan - Projektreffen am...

Projektplan Natur findet Stadt - Neue Nutzungenneuenutzungen.ch/files/Natur-findet-Stadt-Projektplan-Naturama.pdf · • Ideen- und Checklisten für Garten- und BalkonbesitzerInnen

Dispacci di Carlo Aurelio Widmann

FLORES DE BARRO-Enrique Widmann (1955)

SALAMANCA: INFORMACIÓN GENERAL-Enrique F. Widmann-Miguel

Projektplan Genomförande Gnesta Företagsutveckling › PageFiles › 3325380 › Projektplan... · Medel för att uppnå målet är seminarier, marknadsföring, kommersiellt finansierade

Ahmes Projektplan Professionelles Projektmanagement in der Praxis Dr. Harald Wehnes

xlEasy Projektplan 102

Boligsocial projektplan Værebro Park 2020-23

Marketing- und Projektplan - Mosel · 2 Marketing- und Projektplan 2017 Die Tourismusregion Mosel-Saar verzeichnete in den ersten acht Monaten des Jahres 2016 einen Anstieg der Gästezahlen.

Die Linusbank Allgemeine Marktübersicht Unternehmenssicht Problembeschreibung Projektplan

Att skriva projektplan En introduktion till Examensarbete 1

Studienarbeit - Institutional Repository · 2011-01-25 · 4. Projektmanagement 4.1. Projektplan Der ausführliche Projektplan ist im Anhang ersichtlich. 4.2. Arbeitsaufteilung Wir

Romancero de Amor-Enrique Widmann-1960

IRISH CHAMBER ORCHESTRA JÖRG WIDMANN

SALAMANCA.INFORMACIÓN GENERAL-Enrique F. Widmann-Miguel

Projektplan Dokument: Projektplan · 2016. 4. 21. · Projektplan_ver01-1 7 4 Projektstyring 4.1 Roller 4.1.1 Leverandør Leverandørs1 opgaver er: at være ansvarlige for projektets

BMEF01 Elektronikprojekt 5 hpbme.lth.se/fileadmin/biomedicalengineering/Courses/... · Projektplan in till kursansvarig Lämna in kamratgranskad projektplan 31 mars Kort statusrapport

Nik Widmann Juraj Kotrík - erachair.uniza.sk · ... more than just solutions. … more than just solutions. Nik Widmann Juraj Kotrík

Die Linusbank Allgemeine Marktübersicht Unternehmenssicht Problembeschreibung Projektplan

ROMANCERO DE AMOR-Enrique Widmann (1960)