Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und...

32
Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28. Mai 2008

Transcript of Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und...

Page 1: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Technische Implementation von CERA

Hannes ThiemannMax-Planck-Institut für Meteorologie

Modelle und Datenhannes.thiemann @ zmaw.de

ULDB Wiesbaden, 28. Mai 2008

Page 2: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Inhalt

Aufgabe und Motivation

Umsetzung Datenbanken

Anbindung an das HSM

Ausblick

Page 3: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Klimasystem

Page 4: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Klimamodell: Grid

Page 5: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Klimamodell: Auflösung

T42 (300 km)

T106 (120 km)

Page 6: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Datenmengen

Horizontalauflösung des Klimamodells

T42: 128 * 64 = 8192 Punkte pro Globalfeld T106: 160 * 320 = 51200 Punkte pro Globalfeld

Erforderliche Speichereinheiten (GRIB Format)

Horizontalfeld (Zugriffseinheit): 17.1 kB (T42) / 100.1 kB (T106)

Unix Filegröße für monatsweise akkumulierte Ergebnisse mit 6 Std. Speicherintervall und 300 2d Variablen (Physikalische Einheit):

616 MB (T42) / 3500 MB (T106)

240 Jahre Modellintegration (Logische Einheit): 1.7 TB (T42) / 10 TB (T106)

Page 7: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.
Page 8: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.
Page 9: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Umsetzung Datenbanken

Page 10: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

The Winter TopTen Program identifies the world’s largest and most heavily used databases.

….. Congratulations on achieving Grand Prize award winner status (1) in Database Size, Other, All and TopTen Winner status Database Size, Other, Linux;Workload, Other, Linux in Winter Corp.'s 2005 TopTen Program! .......

(1) Grand prizes are  awarded for first place winners in the All Environments categories only.

WDCC's CERA DB has been identified as the largest Linux DB.

Page 11: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Wintercorp (2005) - DB Size: Scientific, Archive, and other

Company Size (TB)

DBMS Platform System Vendor

Max-Planck 222 Oracle Federated/SMP NEC

USGS/EROS 17 Oracle Centralized/SMP Sun

USGS/EROS 17 Oracle Centralized/SMP Sun

HP 1 NonStop SQL Centralized/MPP HP

T-Systems 1 Oracle RAC Centralized/Cluster Sun

See: www.wintercorp.com

Page 12: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Wintercorp (2005) - DB Size: Data Warehouse

Company Size (TB)

DBMS Platform System Vendor

Yahoo 100 Oracle Centralized/SMP Fujitsu Siemens

AT&T 1) 94 Daytona Federated/SMP HP

KT IT-Group 50 DB2 Centralized/Cluster IBM

LGR 25 Oracle Centralized/SMP HP

Amazon 25 Oracle RAC Centralized/Cluster HP

See: www.wintercorp.com1) 330 GB Norm. Data Volume

Page 13: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Oracle 9.2 single instance running on TX7 Enterprise Edition Partitioning Option Advanced Security

24 Tbyte disk attached to database nodes Database size ~450 Tbyte Database nodes connected to HSM system Data accessible on the internet 800 named users worldwide Daily access 800 GB/Day (average) New data 400 GB/Day (average)

CERA: Some Facts

Page 14: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Datenbanken: Aufteilung

11121311419

110

MetadatenDaten

EnterpriseUserSecurity

OID

Page 15: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Entry

Reference

Status

Distribution

Contact Coverage

Parameter

SpatialReferenceLocal Adm.

Data Access

Data Org

100.000 Tabellen800 GB

Page 16: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Structure of metadata tables

Informationen um Einfache Anfragen ohne Zugriff

auf Daten selbst zu beantworten.

Konsistenz zu den Daten selbst überprüfen zu können.

Qualitätskontrollen durchzuführen.

Liegen auf Disk

100.000 Tabellen800 GB

Page 17: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Wichtige Datenbankfeatures

Nologging : Reduktion der Redo-Log Informationen

=> Gegenwärtig ca. 5 GB/day pro Datenbankinstanz Partitioning Read Only Tablespaces

=> Verringerung des Backup

Nicht verwendet: Komprimierung in der Datenbank

=> Verwendete Datenformate sind bereits hochkomprimierend

Page 18: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Backup

3 Typen: “reguläre” Datenbankdateien mit konventionellem

Datenbankbackup , kein „nologging“. Datenbankdateien mit „nologging“ geschrieben.

Backup auf Tape nach „read only“ setzen. Datenbankdateien mit nologging geschrieben.

Noch „read write“ und daher keine Sicherung. Daten müßen nach Korruption neu eingefüllt werden.

Page 19: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

BLOB DataTable

blob_idblob_data

Structure of blob tables

Range Partitioning

Table Partition 1

Table Partition 2

Table Partition n

blob_id 1 .. n

blob_id n+1 .. m

blob_id m+1 .. k

Time t0 .. tn

Time tn+1 .. tm

Time tm+1 .. tk

Datafile 1

Datafile 2

Datafile n

Page 20: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Umsetzung: HSM

Anbindung an das HSM

Page 21: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

TBS - RW

TblPartition 1

TBS - RW

TblPartition 2

dxdb

TBS - RO

TblPartition 1

All tablespaces are moved

“at once” to dxdb

MigoutMigin

Page 22: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Migout / Migin

Migout takes place after files haven’t been modified for x minutes

Only one migout process per dxdb-filesystem Migin takes place immediately after a file is requested.

Only parts accessed are retrieved from the backend storage.

One migin process per requested file.

Page 23: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

dxdb

LWM

HWM

Purging

Page 24: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Criteria for purging

Size of datafiles doesn’t matter Except: “small” datafiles can stay on disk

Time not modified (easy for read only tablespaces) Time not touched

Oracle has the tendency to touch data files quite often

Oracle parameter read_only_open_delayed could be an option

Prerequisite: 2 copies on tape

Page 25: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Inside the datafile

Primary Key

Lob Index

Table

Blob data

Header 128k

Page 26: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Frontend versus Backend

Header 128k

Filesystem Frontend HSM Backend

Header 128k

Part 1 = 512 MB

Part 2 = 512 MB

Page 27: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Retrieving data

4

Header 128k

3 1

2 5

Tape Request

Page 28: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Usage: Downloads

Downloads per year

0100000200000300000400000500000600000700000800000900000

1000000

1999 2000 2001 2002 2003 2004 2005 2006 2007

Page 29: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Statistics: Size

Database Size

0

50

100

150

200

250

300

350

1998 1999 2001 2002 2003 2004 2005 2006 2007

TB

yte

Page 30: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Ausblick: Globalmodell T213 (Atmosphäre)

Horizontalauflösung des Klimamodells

T213: 640 * 320 = 204800 Punkte pro Globalfeld T106: 160 * 320 = 51200 Punkte pro Globalfeld

Erforderliche Speichereinheiten (GRIB Format)

Horizontalfeld (Zugriffseinheit): 400.1 kB (T213) / 100.1 kB (T106)

Unix Filegröße für monatsweise akkumulierte Ergebnisse mit 6 Std. Speicherintervall und 300 2d Variablen (Physikalische Einheit):

14000MB (T213) / 3500 MB (T106)

240 Jahre Modellintegration (Logische Einheit): 40 TB (T213) / 10 TB (T106)

Page 31: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Ausblick: Regionalmodell Auflösung und Datenmengen

REMO-UBA-Modellgebiet

Orography

•Auslösung: 10x10 km

•Datenmenge: 5 TB / 100 Jahre (nur Bodenfelder)

Page 32: Technische Implementation von CERA Hannes Thiemann Max-Planck-Institut für Meteorologie Modelle und Daten hannes.thiemann @ zmaw.de ULDB Wiesbaden, 28.

Vielen Dank!