Hadoop im Unternehmenseinsatz - inovex.de · Seit 2005 in der Software-Entwicklung im...
Transcript of Hadoop im Unternehmenseinsatz - inovex.de · Seit 2005 in der Software-Entwicklung im...
� Internet affin seit 1997 durch ,einem der zwei ersten Internetprovider Deutschlands.
� Softwarearchitekt bei der 1&1 Mediafactory� Seit 2005 in der Software-Entwicklung im Internet-
Portalbereich tätig� Java, Hadoop, verteilte Systeme, Hochverfügbarkeit,
SOA, Architektur, agile Softwareentwicklung, Internet, Online-Werbung
� Synthesizer und Hammond-Orgeln
Dirk
® 1&1 Internet AG 2012 2
� Seit 01/2005 als Projektleiter und Systemarchitekt bei inovex
� Seit 08/2009 als Business Engineer bei 1&1
� Erstkontakt mit Hadoop 09/2009� Mag spannende Projekte� Tischtennis-Spieler und
Häuslebauer� [email protected]
Stefan
® 1&1 Internet AG 2012 3
Agenda
� BIG DATA und Hadoop bei 1&1
� Jede Menge Blech: Die Hardware
� Was darf es denn sein: Das Hadoop Ecosystem
� Speichern, Mappen, Reduzieren
� Spielregeln im Cluster
� Der fleißige Handwerker
� Essenz
® 1&1 Internet AG 2012 4
Agenda
� BIG DATA und Hadoop bei 1&1
� Jede Menge Blech: Die Hardware
� Was darf es denn sein: Das Hadoop Ecosystem
� Speichern, Mappen, Reduzieren
� Spielregeln im Cluster
� Der fleißige Handwerker
� Essenz
® 1&1 Internet AG 2012 5
Beispiel 1: WEB.DE
� 1995 gestartet als Internet-Katalog� Eines der größten deutschen Internet-
Portale mit 16,44 Mio. Nutzern/Monat*� WEB.DE FreeMail – beliebtester
deutscher Mail-Dienst mit zahlreichen Sicherheitsfeatures
*Unique User / AGOF internet facts 2011-12
® 1&1 Internet AG 2012 6
� FreeMail Pionier mit leistungsstarken Mail- und Messaging-Lösungen
� 12,75 Mio. Nutzer/ Monat*
� Umfangreiche Portalangebote, Dienste und Online-Services in Deutschland, Österreich und der Schweiz
� Internationale Mail-Angebote in sechs Ländern (A, CH, F, E, UK, USA), auch unter mail.com
*Unique User / AGOF internet facts 2011-12
Beispiel 2: GMX
® 1&1 Internet AG 2012 7
5 Hochleistungs-Rechenzentren auf 2 Kontinenten
� 70.000 Server� 10,67 Mio. Kundenverträge � 30,8 Mio. Free-Accounts� Hosting von 18 Millionen Domains
� Rund 9 Milliarden Seitenabrufe im Monat� Mehr als 5 Milliarden E-Mails pro Monat� 9.000 TByte monatliches Transfervolumen
� Doppelt sicher durch redundante Rechenzentren (Dual Hosting)
� Nahezu 100%ige Verfügbarkeit� Mehrfach redundante Glasfaser-Anbindung� Unterbrechungsfreie Stromversorgung (USV)� Vollklimatisierte Sicherheitsräume bieten
Schutz vor Gas, Wasser und Feuer� Betreuung rund um die Uhr durch
hochqualifizierte Spezialisten
� Betrieb mit grünem Strom
8® 1&1 Internet AG 2012
Hadoop bei 1&1
� Development Romania
� Team Big Data Solutions Development Romania:
Email Search mit Solr und Hadoop
Email Organizer
� Development UIM
� Abteilung Target Group Planning:
Mehrere produktive Hadoop-Cluster
Schwerpunkt Data Mining und Machine Learning
� Abteilung Web.Intelligence:
Produktives Hadoop-Cluster SYNAPSE
Web-Analytics, Logfile-Processing und Datawarehousing
® 1&1 Internet AG 2012 9
Hadoop bei Web.Intelligence
2006
Web-Analytics mit
spalten-orientiertem
Vector-RDBMS
Erste Evaluierung
von Hadoop
2009
2011
01: Hadoop Projekt „Web-Analytics“ beginnt
08: Hadoop-Cluster mit 12 Knoten einsatzbereit
10: Hadoop verarbeitet im produktiven Einsatz
ca. 200.000.000 Datensätze/Tag
05: Cluster-Ausbau auf 20 Knoten
06: Hadoop Projekt „Log-Analytics“ geht live:
1.000.000.000 Datensätze/Tag
2012
® 1&1 Internet AG 2012 10
Web Intelligence – Das Prinzip
BI
Plattform
® 1&1 Internet AG 2012 11
Stammdaten
Bewegungsdaten
Reporting
Datenlieferungen
… aber die Menge macht‘s!
BI
Plattform
Web-Analytics: 240 Files/d
200 GB/d * 90d = 18 TB
Log-Analytics: 1.000 Files/d
2000 GB/d * 30d = 60 TB
® 1&1 Internet AG 2012 12
Die Aufgabenstellung
� Massendaten durch Aggregation, Selektion und Verknüpfung in wertvolle
Informationen zu wandeln.
� Horizontale und damit kostengünstige Skalierbarkeit bezüglich Verarbeitungs- und
Speicherkapazität, um auf wachsende Anforderungen reagieren zu können.
� Multi-Projekt-Fähigkeit, d.h. Speichern und Verarbeiten von Datenbeständen
unterschiedlicher Bedeutung und Herkunft.
� Einsatz einer Standard-Technologie mit breiter Know-how-Basis unter den
Mitarbeitern und in der Open Source-Community.
� Sämtliche granulare Daten des operativen Geschäfts eines Monats vorhalten.
® 1&1 Internet AG 2012 13
Die Lösung: SYNAPSE
DWH
SYNAPSE
Fileserver
SYNAPSE (SYNergetic Analytical Processing and Storage Engine) ist die Architekturkomponente innerhalb der BI-Plattform, die Massendaten Kosten-/Nutzen-gerecht speichern und verarbeiten kann.
® 1&1 Internet AG 2012 14
Question:What advice would you give to enterprises considering Hadoop?
Doug Cutting:I think they should identify a problem that, for whatever reason, they are not able to address currently, and do a sort of pilot. Build a cluster, evaluate that particular application and then see how much more affordable, how much better it is [on Hadoop].
Dougs Ratschlag
15
http://www.computerworld.com/s/article/9222758/The_Grill_Doug_Cutting
htt
p:/
/a.i
ma
ge
s.b
lip.t
v/S
tra
taco
nf-
ST
RA
TA
20
12
Do
ug
Cu
ttin
gT
he
Ap
ach
eH
ad
oo
pE
cosy
ste
m4
10
-22
4.j
pg
® 1&1 Internet AG 2012
� Geeignete Hardware finden und betreiben� Geeignete Hadoop-Frameworks identifizieren� MapReduce Algorithmen entwickeln und testen� Verschiedene Daten-Eingangs- und Ausgangskanäle� Unterschiedliche Dateiformate� Mehrere konkurrierende Prozesse� Mehrere Benutzer� Konsistentes Verarbeiten vieler Eingangs-Files� Prozess-Steuerung über einen heterogenen System-Stack
Einige Herausforderungen bleiben…
® 1&1 Internet AG 2012 16
Agenda
� BIG DATA und Hadoop bei 1&1
� Jede Menge Blech: Die Hardware
� Was darf es denn sein: Das Hadoop Ecosystem
� Speichern, Mappen, Reduzieren
� Spielregeln im Cluster
� Der fleißige Handwerker
� Essenz
® 1&1 Internet AG 2012 18
� Empfehlung Cloudera Support*� 2 Quad Core CPUs� Disk Drive Size 1 – 2 TByte
� Auswahl-Kriterien� Kosten-Effizienz� Stromverbrauch� Platz im Rechenzentrum� Standard-HW-Warenkorb
Hardware-Sizing
Hadoop-DataNodes
® 1&1 Internet AG 2012 19
* http://www.cloudera.com/blog/2010/03/
clouderas-support-team-shares-some-basic-hardware-recommendations
� Sizing ist bestimmt durch erforderliche
Speicherkapazität: 480 TB
� 78 TB Nutzdaten (Web- + Log-Analytics)
� Faktor 2 für Zwischenergebnisse
� Replikationsfaktor 3 zur Datensicherung
� 480TB / 2TB / 12 = 20 Rechner!
Sizing der SYNAPSE
Unsere Szenarien sind „Storage Heavy“:
® 1&1 Internet AG 2012 20
http
://en
.wik
ipe
dia
.org
/wiki/G
oo
gle
_p
latfo
rm
Google's first production server rack, circa 1998
Unsere Definition von „Commodity Hardware“
® 1&1 Internet AG 2012 21
12 x 2TB as JBOD
direct attached
8 Cores @2,4GHz
96 GB RAM
4x 1GB Network
20 x Worker-Node(Datanode, Tasktracker)
4 Cores @2,4GHz
12 GB RAM50GB local Storage
2x Namenode Server(Namenode, Sec.-Namenode, Jobtracker)
Best Practice: Laste deine Systeme nur zu 75% aus!
22
� Hauptspeicher� Im Grenzbereich schafft es die Hadoop interne Speicherverwaltung oft nicht
mehr den „spill to disk“ durchzuführen => Out Of Memory Exception
� Plattenplatz� Achtung: auch Zwischenergebnisse mit einrechnen� Die Tasktracker schreiben lokale Temp-Files => auch dafür muss Platz
vorgesehen werden!
® 1&1 Internet AG 2012
Problemstellung� Paralleler Zugriff der Tasktracker über zentralen Fileserver via NFS-Mounts
(Import Rohdaten, Export von Aggregaten)� Konkurrierende Zugriffe reduzieren den Durchsatz überproportional
Lösung� Reduktion der Zugriffslast
� Mit einem Prozess im/exportieren(hadoop –fs copyFrom/ToLocal)
� Z.B. via Fair-Scheduler Pools (fair-scheduler.xml:
maxMaps and maxReduces)
� Externe Systeme verwenden, die auf massiv parallelen Zugriff ausgelegt sind:� z.B. Flume für Import� z.B. HBase für Export
Das „Fileserver Problem“
® 1&1 Internet AG 2012 23
Namenode Server
� Namenode = HDFS-Metadaten-Verwaltung (Dateien, Verzeichnisse,…)� Es gibt nur genau EINE Namenode im Cluster� Fällt diese aus oder wird korrupt gibt es „keine Daten“ mehr im Cluster!
Namenode
® 1&1 Internet AG 2012 24
HadoopNamenode
FS Image
FS Image
Edit Logs
Namenode Server
Namenode Running
® 1&1 Internet AG 2012 25
HadoopNamenode
FS Image
FS Image
Edit Logs
FS Image
Edit Logs
FS Image
Datanodes
Namenode Server
Edit Logs
Secondary Namenode != Redundanz
® 1&1 Internet AG 2012 26
HadoopNamenode
Sec. Namenode Server
HadoopSecondaryNamenode
FS Image
FS Image
Edit Logs
FS Image
Edit LogsEdit Logs
FS Image
New FS Image
New FS Image
New Edit Logs
FS Image
� Die Secondary Namenode dient lediglich dem Verdichten der persistierten ÄnderungslogsDie Namenode ist ein SPOF und muss entsprechend abgesichertwerden!
Namenode HA
® 1&1 Internet AG 2012 27
http://www.drbd.org/
http://www.clusterlabs.org/
� Redundanz für Namenode� transparent für Cluster� Crash Recovery möglich
Namenode HA
® 1&1 Internet AG 2012 28
� Failover im Sekunden-Bereich� Im Worst-Case minimaler Daten-
Verlust während Failover möglich� Im besten Falle keiner!
� Die Knoten eines Hadoop-Clusters sollten möglichst „nahe“ beieinander stehen� und auch bei den Datenquellen� dafür muss Platz im Rechenzentrum verfügbar sein� Je Besser die Netzwerk-Anbindung des Clusters desto besser seine
Performance
Netzwerk
® 1&1 Internet AG 2012 29
2G
Bit e
ach
4GBit
1GBit
1&1 Best Practice
� Identifiziere dein BIG DATA Problem
� Etwas mehr schadet nicht: Alle Systeme müssen
skalieren und benötigen Reserven, Namenode HA!
® 1&1 Internet AG 2012 30
Agenda
� BIG DATA und Hadoop bei 1&1
� Jede Menge Blech: Die Hardware
� Was darf es denn sein: Das Hadoop Ecosystem
� Speichern, Mappen, Reduzieren
� Spielregeln im Cluster
� Der fleißige Handwerker
� Essenz
® 1&1 Internet AG 2012 31
Aufgabenverteilung
® 1&1 Internet AG 2012
Transport kontinuierlich
entstehender Massendaten
• Aggregation
• Speicherung
• Suche
• AdHoc Anfragen
•ILM
Vorgänge koordinieren
• Integration mit DWH
• Nachvollziehbarkeit
• Wiederaufsetzbarkeit>1000 Files/Tag
~ 3TB
Aggregationen
alle 3 Stunden
33
Unser Technologie-Stack (Reduced to the Max)
® 1&1 Internet AG 2012
Qu
elle
: h
ttp
://w
ww
.flic
kr.
com
/ph
oto
s/_
mrs
_b
/47
17
42
74
29
/
34
Lessons learned
® 1&1 Internet AG 2012 35
Stabilität
� Entwicklung ist immer noch im Fluss
� Hadoop- Kern ist bereits sehr stabil - aber kein Vergleich bspw. mit einer DB-Lösung
� Flankierende Projekte haben gefühlt oft noch Beta-Status – im Handumdrehen ist man Committer eines OS-Projektes ;-)
Lessons learned
® 1&1 Internet AG 2012 36
Feature-Set
� Ähnliche Toolsets unterscheiden sich meist nur in Details
� Pig, Hive, Cascading
� HBase und Casandra
� Askaban vs. Oozie
� Aber gerade die – können manchmal entscheidend sein!
Schön, dass es Distributionen gibt!
® 1&1 Internet AG 2012
Hadoop-Solution-Partner geben Sicherheit
Beispiel: Cloudera� Eigenes Hadoop-Release basierend auf den Apache Repositories
� bietet konsistente, „in sich schlüssige Release-Stände“ und Bugfixes
� Möglichkeit des kommerziellen Supports
37
1&1 Best Practice
� Identifiziere dein BIG DATA Problem
� Etwas mehr schadet nicht: Alle Systeme müssen
skalieren und benötigen Reserven, Namenode HA!
� Keep Your Ecosystem Simple, wähle sorgfältig aus!
® 1&1 Internet AG 2012 38
Agenda
� BIG DATA und Hadoop bei 1&1
� Jede Menge Blech: Die Hardware
� Was darf es denn sein: Das Hadoop Ecosystem
� Speichern, Mappen, Reduzieren
� Spielregeln im Cluster
� Der fleißige Handwerker
� Essenz
® 1&1 Internet AG 2012 39
BI SourceSystems
Source DataFileserver Replicated
Source Data
DWH
Architektur BI-Plattform
Access Reporting
Oracle 11g EE Database
Reporting Layer (Dependent Datamarts)
Integration Layer (Core DWH)
Acquisition Layer (Staging Area)
Adhoc Queries (Mass-)Data Export
4. Verfügbar machen3. Transformieren2. Speichern1. Importieren
® 1&1 Internet AG 2012 40
BI SourceSystems
Source DataFileserver Replicated
Source Data
DWH
Architektur BI-Plattform
Access Reporting
Oracle 11g EE Database
Reporting Layer (Dependent Datamarts)
Integration Layer (Core DWH)
Acquisition Layer (Staging Area)
Adhoc Queries (Mass-)Data Export
SYNAPSE Mass Data
Ha
do
op
Clu
ste
r Mass Data Aggregation Layer
Mass Data Integration Layer
Mass Data Acquisition Layer
4. Verfügbar machen3. Transformieren2. Speichern1. Importieren
® 1&1 Internet AG 2012 41
� Unterstützt die Verarbeitung durch…� Header-Zeile pro File mit
Typ-Information (JSON-Format)� Versionsprüfung möglich� IDL optional
� Effiziente Verarbeitung durch…� Speicher-effizientes Binärformat� (De-)Serialisierung ok
� Zukunftssicher da…� Künftiger Hadoop-Standard� Aktive Weiterentwicklung� Sukzessive Integration in die
Hadoop-Teilprojekte
Importieren und Speichern
Das Serialisierungs-Framework
® 1&1 Internet AG 2012
# avro textual representation {"type": "record", "name": "Point","fields": [{"name": "x", "type": "int"},{"name": "y", "type": "int"}
]}5 8-3 42 -7
42
Importieren und Speichern
FLIS - Flexibilität gefragt
® 1&1 Internet AG 2012
Plain csv
thrift
FlexibleInput
Selector
…
43
Transformieren – Join in MapReduce
� Map Side Join� Eingangsfiles müssen nach gleichem Schlüssel sortiert und
partitioniert sein� Sorted-Merged-Join noch vor dem Mapper� Sehr effizient, da Shuffle/Sort-Phase nichts mehr zu tun hat
� Reduce Side Join� Klassischer MR-Join� Hauptlast wird in der Shuffle/Sort-Phase getragen
® 1&1 Internet AG 2012 44
MR-Join
Lookup-Data
ResultDataData
MR-Join
ResultDataData
Lookup-DataLookup-
DataLookup-DataLookup-
Data
Transformieren – Join in MapReduce
� Join-Operationen können in MR als Hash Join implementiert werden� Lookup wird als Hashmap über den Distributed Cache an Mapper verteilt� Kleine CPU, keine Netzwerk-Last während der Verarbeitung� Die Grenze bildet das Volumen der Lookup-Daten
® 1&1 Internet AG 2012 45
Transformieren - …oder doch mit HBase?
® 1&1 Internet AG 2012 46
� Distributed Key-Value Stores f(K) = V� Datenzugriff granular� Antwortzeiten im Milli-Sekunden-
Bereich� Auf Lesezugriff optimiert
Transformieren mit PIG
� Ursprünglich von Yahoo entwickelt� File basiertes High Level Daten-Manipulations-Framework� SQL-artige Sprache welche durch das Framework in Map/Reduce Jobs
übersetzt und ausgeführt wird� http://hadoop.apache.org/pig/
® 1&1 Internet AG 2012 47
Transformieren
0
2
4
6
8
10
12
Column-DB Hadoop (1:1Migration)
Hadoop(optimierte
Algorithmen)
Monthly AggregationWeekly AggregationDaily Aggregation
Ergebnisse aus Web-Analytics Projekt:� Optimierung der Verarbeitung-Algorithmen kann erheblichen Performance-
Gewinn bringen!
® 1&1 Internet AG 2012 48
Lessons learned
® 1&1 Internet AG 2012 49
Know- how…� Muss oft erst aufgebaut werden.
Hierfür passende Projekte einplanen.
� Am Anfang fehlt das Know-how an allen Fronten
� DEV: Best Practices sind nicht vorhanden. Oft funktionieren
die Dinge in Dev und brechen dann im Live-Einsatz.
� QS: Herausforderung: verteiltes Testen - möglichst mit Echt-
Daten (bzgl. Qualität und Quantität)
� LIVE: Lastverhalten ist nur bedingt vorhersehbar. Tuning-
Möglichkeiten mannigfaltig und oft nur mit DEV-
Unterstützung durchführbar.
1&1 Best Practice
� Identifiziere dein BIG DATA Problem
� Etwas mehr schadet nicht: Alle Systeme müssen
skalieren und benötigen Reserven, Namenode HA!
� Keep Your Ecosystem Simple, wähle sorgfältig aus!
� Die Algorithmen bestimmen die Effizienz!
® 1&1 Internet AG 2012 50
Agenda
� BIG DATA und Hadoop bei 1&1
� Jede Menge Blech: Die Hardware
� Was darf es denn sein: Das Hadoop Ecosystem
� Speichern, Mappen, Reduzieren
� Spielregeln im Cluster
� Der fleißige Handwerker
� Essenz und Ausblick
® 1&1 Internet AG 2012 51
BI SourceSystems
Source DataWI Gateway Fileserver
Replicated
Source Data
DWH
BI-Plattform – Information Lifecycle Management
AccessStandard Reporting
Oracle 11g EE Database
Reporting Layer (Dependent Datamarts)
Integration Layer (Core DWH)
Acquisition Layer (Staging Area)
Adhoc Queries (Mass) Data Export
Ha
do
op
Clu
ste
r Mass Data Aggregation Layer
Mass Data Integration Layer
Mass Data Acquisition Layer
Hadoop alsKurzzeit-ArchivKosten: 0,0005 €/MB
DWH als Langzeit-Archiv Kosten: 0,15 €/MB
® 1&1 Internet AG 2012 52
System Ebene Begründung Aufbewahrung
Fileserver Import Nachladen 5 Tage
Export Fachliche Anforderung 40 Tage
SYNAPSE Acquisition Algorithmus / Nachberechnen 30 Tage
Integration Fachliche Anforderung 15-90 Tage
Aggregation Nachladen 5 Tage
DWH Acquisition Nachberechnen 30 Tage
Integration Fachliche Anforderung 2-10 Jahre
Reporting Fachliche Anforderung 2-10 Jahre
Speichern: Gerne – aber wie lange?
® 1&1 Internet AG 2012
� Auch 500 TByte sind irgendwann einmal voll!� IL separat für jede Verarbeitungsebene� Je wertvoller die Daten, desto länger der IL� Bei vielen 1000 Files hohe Anforderung ans Housekeeping in der SYNAPSE (s. u.)
53
Default Capacity Fair
Mechanismus Vergeben von Prioritäten pro Job
Job-Queues mit festgelegten Prioritäten
Job-Queues und Pools mit Gewichten
Funktionsfähig Ja Ja Ja
Clusterauslastung Ja Nein Ja
Gefahr von Starvation
Ja Nein Nein
Mehrparteien-Betrieb: Wer darf wann?
Hadoop Job Scheduler
® 1&1 Internet AG 2012
� Gleichmäßige Lastverteilung über die Zeit nach Prioritäten� Verschiedene Anwendungen können konkurrierend betrieben werden
54
� Hadoop hat ein Zugriffsberechtigungskonzept angelehnt an POSIX (ohne sticky, setuid or setgid bits) für Files und Directories
� Hadoop hat keine eigene Benutzer-Authentifizierung� Hadoop übernimmt user name (whoami) und group name (bash -c groups)
vom aufrufenden Client-Prozess� Authorisierung ist damit (nur) auf File- und Verzeichnisebene möglich� Das schützt im Mehrparteienbetrieb vor versehentlichem Löschen oder
Überschreiben fremder Dateien. � Authorisierung muss auf Betriebssystem-Ebene konsequent umgesetzt sein� Geeignetes Konzept für „Tool“-User oder Application Manager
® 1&1 Internet AG 2012
Mehrparteien-Betrieb: Wer darf überhaupt?
“… This user identity mechanism combined with the permissions model allows a cooperative community to share file system resources in an organized fashion.”
http://hadoop.apache.org/common/docs/r0.20.2/hdfs_permissions_guide.html
55
1&1 Best Practice
� Identifiziere dein BIG DATA Problem
� Etwas mehr schadet nicht: Alle Systeme müssen
skalieren und benötigen Reserven, Namenode HA!
� Keep Your Ecosystem Simple, wähle sorgfältig aus!
� Die Algorithmen bestimmen die Effizienz!
� Sorge für geordnete Verhältnisse im Cluster!
® 1&1 Internet AG 2012 56
Agenda
� BIG DATA und Hadoop bei 1&1
� Jede Menge Blech: Die Hardware
� Was darf es denn sein: Das Hadoop Ecosystem
� Speichern, Mappen, Reduzieren
� Spielregeln im Cluster
� Der fleißige Handwerker
� Essenz und Ausblick
® 1&1 Internet AG 2012 57
PRO� Workflows können graphisch dargestellt und gedrilled werden� Einfache Handhabung (Komplexes wird in Scripts ausgelagert)� Startet Hadoop-Jobs und “Anderes” einfach als Unix-Prozesse� Ressoucen (.jar files, pig scripts) werden durch Azkaban verwaltet und deployed
Contra� Minimaler Funktionsumfang� Keine Rechte und Zugriffs-Verwaltung� Jobausführung nur Zeit-basiert� Keine Redundanz
(Azkaban-Server wird zum SPOF)
Azkaban (LinkedIn)
® 1&1 Internet AG 2012 58
Oozie (Yahoo!)
® 1&1 Internet AG 2012
PRO� Enge Integration mit Hadoop and M/R� Kann mit unterschiedlichen Job-Typen umgehen: Java MR, PIG, Java, etc.� Webservice- und Java-API� Zeit- und Ereignis-basierte Job-Ausführung
Contra� WEB-Konsole ist “Read-Only”, keine graphische
Aufbereitung von Abhängigkeiten� Ressoucen (.jar files, pig scripts) müssen manuell
vor der Jobausführung auf dem HDFS deployed werden� Müsste um File-Registierung erweitert werden
Requesting job status:
sudo -u oozie oozie job -oozie http://localhost:11000/oozie -info 0000018-110712204501024-oozie-oozi-C
59
Architektur BI-Plattform - Steuerung
� Steuerung der Verarbeitung und damit der Datenströme muss über den gesamten BI-Stack sichergestellt sein!
� Das richtige Werkzeug für die jeweilige Aufgabe:� GEPPI = 1&1 EAI-Lösung (Workflow-Steuerung)� FUNDI = eigens entwickelter „verlängerter Arm“ für Hadoop-Spezifika
® 1&1 Internet AG 2012 60
Das richtige Werkzeug für die jeweilige Aufgabe
Functional
Dependency Integrator
GEPPI = Workflow-Engine� Übergreifende-Steuerung
PDI (http://kettle.pentaho.com/)
� ETL-Jobs im DWH� HDFS-Zugriff
� Hadoop Job-Ausführung� Data-Repository
® 1&1 Internet AG 2012 61
FUNDI: Swahili für „Der fleißige Handwerker“
FUNDI File-Registration
Distributed orlocal File System
Functional
Dependency IntegratorDataFiles
File Registration Search for
matching files
Register File &
Metadata
® 1&1 Internet AG 2012 62
FUNDI: Swahili für „Der fleißige Handwerker“
Functional
Dependency Integrator
Run Job(name) Start
Register
Output-Files &
Metadata
get Jar/PIG
Metadata
Input-Filenames
Hadoop-Cluster
Inp. DataFiles
MR Job
Outp DataFiles
Fundi Job-Run
® 1&1 Internet AG 2012 63
FUNDI: Swahili für „Der fleißige Handwerker“
Fundi Job-Ketten (Das EVA-Prinzip)
Fundi-JOB
A
Fundi-JOB
B
Named-Input
Named-Output
Configuration
e.g. Path, Filenames,
Jar/PIG-Script, Settings …
Metadata for
Job-Rung, Inp.-Files,
Outp.-Files E V A
® 1&1 Internet AG 2012 64
1&1 Best Practice
� Identifiziere dein BIG DATA Problem
� Etwas mehr schadet nicht: Alle Systeme müssen
skalieren und benötigen Reserven, Namenode HA!
� Keep Your Ecosystem Simple, wähle sorgfältig aus!
� Die Algorithmen bestimmen die Effizienz!
� Es geht auch ohne Skript-Wüste und cron-Jobs!
® 1&1 Internet AG 2012 65
Agenda
� BIG DATA und Hadoop bei 1&1
� Jede Menge Blech: Die Hardware
� Was darf es denn sein: Das Hadoop Ecosystem
� Speichern, Mappen, Reduzieren
� Spielregeln im Cluster
� Der fleißige Handwerker
� Essenz
® 1&1 Internet AG 2012 66
Langer Rede kurzer Sinn: Die Aufgabe
� Hadoop verlangt ein neues Denken in allen IT-Bereichen: Operations, Entwicklung, QS, …
� Binde alle Stakeholder möglichst früh in deine Planung ein!
� Know-how zum Entwickeln, Testen und Betreiben einer verteilten Umgebung muss erarbeitet werden!
� Identifiziere dein Pilotprojekt!
� Bleibe nicht zu lange im „Spielbetrieb“, evaluiere gegen echte Anforderungen!
® 1&1 Internet AG 2012 67
Langer Rede kurzer Sinn: Die Belohnung
� Hadoop und sein Ecosystem bieten hervorragende Lösungen für viele BIG DATA Probleme!
® 1&1 Internet AG 2012 68
Langer Rede kurzer Sinn: Der Beweis
Massendatenverarbeitung ist bei 1&1 für Web-Analytic s, Logfile-Verarbeitung und Datawarehousing mit Hadoopmessbar
� performanter,
� kostengünstiger,
� skalierbarer,
� flexibler und
� zukunftsfähiger
geworden!
® 1&1 Internet AG 2012 69