Information Management ETL in den Zeiten von Big Data

16
© 2013 IBM Corporation Information Management 1 ETL in den Zeiten von Big Data Dr Oliver Adamczak, IBM Analytics

Transcript of Information Management ETL in den Zeiten von Big Data

© 2013 IBM Corporation

Information Management

1

ETL in den Zeiten von Big Data

Dr Oliver Adamczak, IBM Analytics

© 2015 IBM Corporation2

1 Review – ETL im Datawarehouse

3 Future of ETL

4 Zusammenfassung

2 Aktuelle Herausforderungen

© 2013 IBM Corporation

Information Management

3

ETL im Datawarehouse

Extrakt Transform Load

© 2014 IBM Corporation© 2014 IBM Corporation© 2014 IBM Corporation44

ETL – Beispiel

Ziel

Kunde

Konto

R

Entfernung von

Dubletten je

KUNDE

J

Inner Join über

KDNRAggregation der

Salden je Kunde

A

Lookup Schlüssel zu

sprechendem Text:

KONTOART

zu ID

Error / Reject

Aussteuerung von

Konten ohne

gültige ID

Kontoart

L

© 2014 IBM Corporation© 2014 IBM Corporation© 2014 IBM Corporation55

ETL – Ergebnis

© 2013 IBM Corporation

Information Management

6

ETL Herausforderungen im DWH

Skalierbarkeit und Pushdown

– Mehrere konsekutive ETL Prozesse

– Beladungszeiten und Latency

Aufwand ETL Entwicklungen

– 50% des DWH Aufwands

– Wiederverwendbarkeit

• Repository & Search

• Module

• Parametrisierung

• Generierung aus Metadaten

Qualitative und fachliche Aufbereitung und Validierung der Daten

Transformation eher Commodity

– Ohne geht es aber nicht (Historisierung, Hierarchiewechsel, Formate, Datenmodelle)

© 2013 IBM Corporation

Information Management

8

Realität und aktuelle Herausforderungen

Diverse Datentöpfe für Analytics

Typisch ein führendes DWH

– SAP BW

– Abteilungslösungen, auf Frontend Basis

– Analytics auf operative Systeme

Challenges

– Agilität, zentrales EDW zu schwerfällig

– Beladungszeiten

Big Data

– Ist Hadoop die Lösung für alles

– Integration neuer Technologien (Hadoop, SPARK)

– Massive Datenmengen

– Stamm- und Referenzdaten Cleansing

© 2013 IBM Corporation

Information Management

9

Umgang mit verteilten Repositories

Konsolidierung

– Extremer fachlicher Aufwand

– Führt zu hoher Komplexität, weniger Agilität

Federation

– Setzt fachliche Vergleichbarkeit voraus

– Stammdaten und Referenzdaten müssen übereinstimmen

Data Lake

– Katalogisierung fachlicher Objekte und wo sie technisch liegen

– Self Service mit simplem click ETL

– Wiederum Stamm- und Referenzdaten

ETL Tool muss Datenqualität, Stammdaten-Bereinigung, Metadaten-Management und Katalog können

Support von Federation

© 2013 IBM Corporation

Information Management

10

Sind die Tage von ETL gezählt ?

In Memory

– „Wir brauchen kein ETL, da virtuelle Views

auf den operativen Originaldaten“

Hadoop

– „Schema after run“

– Flume, Sqoop

Aber

– Historisierungen ??

– Data Cleansing ??

– Back to SQL (views) oder Python (??)

© 2013 IBM Corporation

Information Management

11

Anforderungen aus neuen Architekturen

Katalog der Business Objekte mit Link zu IT Assets

Daten Self-Service für Anwender

DQ für Business UserIntegriert mit ETL

Pushdown für MapReduce

© 2013 IBM Corporation

Information Management

12

Information Server Inhalt letztes Upgrade

Governance

Integration mit neuen Technologien

Data Self Service

Cloud

© 2013 IBM Corporation

Information Management

13

Governance

Governance Catalogue

–umfasst Hadoop / Hive Katalog

Erweiterte Möglichkeiten für Policies

–Governance Dashboard

Exception Stage und DQ Dashboard

© 2013 IBM Corporation

Information Management

14

Integration mit neuen Technologien

Hadoop Stage

–Balanced Optimization für MapReduce

–Unstructured Stage

–Stream Stage

MDM Stage

Connectoren für Amazon, Greenplum

© 2013 IBM Corporation

Information Management

15

Data Self Service

Aktionen aus dem Governance Catalog („Shop for Data“)

DataClick erstellt automatisch Transfer Jobs

© 2013 IBM Corporation

Information Management

16

Cloud

Hypervisor Version

DataWorks

IBM DataWorks™ Data Refinery

Services

• Load data

• Cleanse addresses

• Profile data

• Classify data

© 2013 IBM Corporation

Information Management

17

Zusammenfassung

ETL ist nach wie vor eine Core Competency für Analytics

Das reine ETL tritt in den Hintergrund– Metadaten-Management und Katalog– Stamm- und Referenzdaten– Self Service für Daten

Neue Herausforderungen durch neue Technologien– Hadoop– Cloud

„There is no free lunch“ - Bekannte Konzepte gelten auch für neue Technologien– Datenaufbereitung ist und bleibt ein wesentlicher Aufwandstreiber