Hadoop im Unternehmenseinsatz - inovex.de · Seit 2005 in der Software-Entwicklung im...

Hadoop im Unternehmenseinsatz

Präsentation von Dirk Schmid und Dr. Stefan Igel

� Internet affin seit 1997 durch ,einem der zwei ersten Internetprovider Deutschlands.

� Softwarearchitekt bei der 1&1 Mediafactory� Seit 2005 in der Software-Entwicklung im Internet-

Portalbereich tätig� Java, Hadoop, verteilte Systeme, Hochverfügbarkeit,

SOA, Architektur, agile Softwareentwicklung, Internet, Online-Werbung

� Synthesizer und Hammond-Orgeln

�[email protected]

Dirk

® 1&1 Internet AG 2012 2

� Seit 01/2005 als Projektleiter und Systemarchitekt bei inovex

� Seit 08/2009 als Business Engineer bei 1&1

� Erstkontakt mit Hadoop 09/2009� Mag spannende Projekte� Tischtennis-Spieler und

Häuslebauer� [email protected]

Stefan


Agenda

� BIG DATA und Hadoop bei 1&1

� Jede Menge Blech: Die Hardware

� Was darf es denn sein: Das Hadoop Ecosystem

� Speichern, Mappen, Reduzieren

� Spielregeln im Cluster

� Der fleißige Handwerker

� Essenz


Agenda







� Essenz


Beispiel 1: WEB.DE

� 1995 gestartet als Internet-Katalog� Eines der größten deutschen Internet-

Portale mit 16,44 Mio. Nutzern/Monat*� WEB.DE FreeMail – beliebtester

deutscher Mail-Dienst mit zahlreichen Sicherheitsfeatures

*Unique User / AGOF internet facts 2011-12


� FreeMail Pionier mit leistungsstarken Mail- und Messaging-Lösungen

� 12,75 Mio. Nutzer/ Monat*

� Umfangreiche Portalangebote, Dienste und Online-Services in Deutschland, Österreich und der Schweiz

� Internationale Mail-Angebote in sechs Ländern (A, CH, F, E, UK, USA), auch unter mail.com

*Unique User / AGOF internet facts 2011-12

Beispiel 2: GMX


5 Hochleistungs-Rechenzentren auf 2 Kontinenten

� 70.000 Server� 10,67 Mio. Kundenverträge � 30,8 Mio. Free-Accounts� Hosting von 18 Millionen Domains

� Rund 9 Milliarden Seitenabrufe im Monat� Mehr als 5 Milliarden E-Mails pro Monat� 9.000 TByte monatliches Transfervolumen

� Doppelt sicher durch redundante Rechenzentren (Dual Hosting)

� Nahezu 100%ige Verfügbarkeit� Mehrfach redundante Glasfaser-Anbindung� Unterbrechungsfreie Stromversorgung (USV)� Vollklimatisierte Sicherheitsräume bieten

Schutz vor Gas, Wasser und Feuer� Betreuung rund um die Uhr durch

hochqualifizierte Spezialisten

� Betrieb mit grünem Strom

8® 1&1 Internet AG 2012

Hadoop bei 1&1

� Development Romania

� Team Big Data Solutions Development Romania:

Email Search mit Solr und Hadoop

Email Organizer

� Development UIM

� Abteilung Target Group Planning:

Mehrere produktive Hadoop-Cluster

Schwerpunkt Data Mining und Machine Learning

� Abteilung Web.Intelligence:

Produktives Hadoop-Cluster SYNAPSE

Web-Analytics, Logfile-Processing und Datawarehousing


Hadoop bei Web.Intelligence

2006

Web-Analytics mit

spalten-orientiertem

Vector-RDBMS

Erste Evaluierung

von Hadoop

2009

2011

01: Hadoop Projekt „Web-Analytics“ beginnt

08: Hadoop-Cluster mit 12 Knoten einsatzbereit

10: Hadoop verarbeitet im produktiven Einsatz

ca. 200.000.000 Datensätze/Tag

05: Cluster-Ausbau auf 20 Knoten

06: Hadoop Projekt „Log-Analytics“ geht live:

1.000.000.000 Datensätze/Tag

2012


Web Intelligence – Das Prinzip

BI

Plattform


Stammdaten

Bewegungsdaten

Reporting

Datenlieferungen

… aber die Menge macht‘s!

BI

Plattform

Web-Analytics: 240 Files/d

200 GB/d * 90d = 18 TB

Log-Analytics: 1.000 Files/d

2000 GB/d * 30d = 60 TB


Die Aufgabenstellung

� Massendaten durch Aggregation, Selektion und Verknüpfung in wertvolle

Informationen zu wandeln.

� Horizontale und damit kostengünstige Skalierbarkeit bezüglich Verarbeitungs- und

Speicherkapazität, um auf wachsende Anforderungen reagieren zu können.

� Multi-Projekt-Fähigkeit, d.h. Speichern und Verarbeiten von Datenbeständen

unterschiedlicher Bedeutung und Herkunft.

� Einsatz einer Standard-Technologie mit breiter Know-how-Basis unter den

Mitarbeitern und in der Open Source-Community.

� Sämtliche granulare Daten des operativen Geschäfts eines Monats vorhalten.


Die Lösung: SYNAPSE

DWH

SYNAPSE

Fileserver

SYNAPSE (SYNergetic Analytical Processing and Storage Engine) ist die Architekturkomponente innerhalb der BI-Plattform, die Massendaten Kosten-/Nutzen-gerecht speichern und verarbeiten kann.


Question:What advice would you give to enterprises considering Hadoop?

Doug Cutting:I think they should identify a problem that, for whatever reason, they are not able to address currently, and do a sort of pilot. Build a cluster, evaluate that particular application and then see how much more affordable, how much better it is [on Hadoop].

Dougs Ratschlag

15

http://www.computerworld.com/s/article/9222758/The_Grill_Doug_Cutting

htt

p:/

/a.i

ma

ge

s.b

lip.t

v/S

tra

taco

nf-

ST

RA

TA

20

12

Do

ug

Cu

ttin

gT

he

Ap

ach

eH

ad

oo

pE

cosy

ste

m4

10

-22

4.j

pg

® 1&1 Internet AG 2012

� Geeignete Hardware finden und betreiben� Geeignete Hadoop-Frameworks identifizieren� MapReduce Algorithmen entwickeln und testen� Verschiedene Daten-Eingangs- und Ausgangskanäle� Unterschiedliche Dateiformate� Mehrere konkurrierende Prozesse� Mehrere Benutzer� Konsistentes Verarbeiten vieler Eingangs-Files� Prozess-Steuerung über einen heterogenen System-Stack

Einige Herausforderungen bleiben…


1&1 Best Practice

� Identifiziere dein BIG DATA Problem


Agenda







� Essenz


� Empfehlung Cloudera Support*� 2 Quad Core CPUs� Disk Drive Size 1 – 2 TByte

� Auswahl-Kriterien� Kosten-Effizienz� Stromverbrauch� Platz im Rechenzentrum� Standard-HW-Warenkorb

Hardware-Sizing

Hadoop-DataNodes


* http://www.cloudera.com/blog/2010/03/

clouderas-support-team-shares-some-basic-hardware-recommendations

� Sizing ist bestimmt durch erforderliche

Speicherkapazität: 480 TB

� 78 TB Nutzdaten (Web- + Log-Analytics)

� Faktor 2 für Zwischenergebnisse

� Replikationsfaktor 3 zur Datensicherung

� 480TB / 2TB / 12 = 20 Rechner!

Sizing der SYNAPSE

Unsere Szenarien sind „Storage Heavy“:


http

://en

.wik

ipe

dia

.org

/wiki/G

oo

gle

_p

latfo

rm

Google's first production server rack, circa 1998

Unsere Definition von „Commodity Hardware“


12 x 2TB as JBOD

direct attached

8 Cores @2,4GHz

96 GB RAM

4x 1GB Network

20 x Worker-Node(Datanode, Tasktracker)

4 Cores @2,4GHz

12 GB RAM50GB local Storage

2x Namenode Server(Namenode, Sec.-Namenode, Jobtracker)

Best Practice: Laste deine Systeme nur zu 75% aus!

22

� Hauptspeicher� Im Grenzbereich schafft es die Hadoop interne Speicherverwaltung oft nicht

mehr den „spill to disk“ durchzuführen => Out Of Memory Exception

� Plattenplatz� Achtung: auch Zwischenergebnisse mit einrechnen� Die Tasktracker schreiben lokale Temp-Files => auch dafür muss Platz

vorgesehen werden!


Problemstellung� Paralleler Zugriff der Tasktracker über zentralen Fileserver via NFS-Mounts

(Import Rohdaten, Export von Aggregaten)� Konkurrierende Zugriffe reduzieren den Durchsatz überproportional

Lösung� Reduktion der Zugriffslast

� Mit einem Prozess im/exportieren(hadoop –fs copyFrom/ToLocal)

� Z.B. via Fair-Scheduler Pools (fair-scheduler.xml:

maxMaps and maxReduces)

� Externe Systeme verwenden, die auf massiv parallelen Zugriff ausgelegt sind:� z.B. Flume für Import� z.B. HBase für Export

Das „Fileserver Problem“


Namenode Server

� Namenode = HDFS-Metadaten-Verwaltung (Dateien, Verzeichnisse,…)� Es gibt nur genau EINE Namenode im Cluster� Fällt diese aus oder wird korrupt gibt es „keine Daten“ mehr im Cluster!

Namenode


HadoopNamenode

FS Image

FS Image

Edit Logs

Namenode Server

Namenode Running


HadoopNamenode

FS Image

FS Image

Edit Logs

FS Image

Edit Logs

FS Image

Datanodes

Namenode Server

Edit Logs

Secondary Namenode != Redundanz


HadoopNamenode

Sec. Namenode Server

HadoopSecondaryNamenode

FS Image

FS Image

Edit Logs

FS Image

Edit LogsEdit Logs

FS Image

New FS Image

New FS Image

New Edit Logs

FS Image

� Die Secondary Namenode dient lediglich dem Verdichten der persistierten ÄnderungslogsDie Namenode ist ein SPOF und muss entsprechend abgesichertwerden!

Namenode HA


http://www.drbd.org/

http://www.clusterlabs.org/

� Redundanz für Namenode� transparent für Cluster� Crash Recovery möglich

Namenode HA


� Failover im Sekunden-Bereich� Im Worst-Case minimaler Daten-

Verlust während Failover möglich� Im besten Falle keiner!

� Die Knoten eines Hadoop-Clusters sollten möglichst „nahe“ beieinander stehen� und auch bei den Datenquellen� dafür muss Platz im Rechenzentrum verfügbar sein� Je Besser die Netzwerk-Anbindung des Clusters desto besser seine

Performance

Netzwerk


2G

Bit e

ach

4GBit

1GBit

1&1 Best Practice


� Etwas mehr schadet nicht: Alle Systeme müssen

skalieren und benötigen Reserven, Namenode HA!


Agenda







� Essenz


Wir machen unsere Werkzeugkiste auf und schauen mal was wir darin finden…


Aufgabenverteilung


Transport kontinuierlich

entstehender Massendaten

• Aggregation

• Speicherung

• Suche

• AdHoc Anfragen

•ILM

Vorgänge koordinieren

• Integration mit DWH

• Nachvollziehbarkeit

• Wiederaufsetzbarkeit>1000 Files/Tag

~ 3TB

Aggregationen

alle 3 Stunden

33

Unser Technologie-Stack (Reduced to the Max)


Qu

elle

: h

ttp

://w

ww

.flic

kr.

com

/ph

oto

s/_

mrs

_b

/47

17

42

74

29

/

34

Lessons learned


Stabilität

� Entwicklung ist immer noch im Fluss

� Hadoop- Kern ist bereits sehr stabil - aber kein Vergleich bspw. mit einer DB-Lösung

� Flankierende Projekte haben gefühlt oft noch Beta-Status – im Handumdrehen ist man Committer eines OS-Projektes ;-)

Lessons learned


Feature-Set

� Ähnliche Toolsets unterscheiden sich meist nur in Details

� Pig, Hive, Cascading

� HBase und Casandra

� Askaban vs. Oozie

� Aber gerade die – können manchmal entscheidend sein!

Schön, dass es Distributionen gibt!


Hadoop-Solution-Partner geben Sicherheit

Beispiel: Cloudera� Eigenes Hadoop-Release basierend auf den Apache Repositories

� bietet konsistente, „in sich schlüssige Release-Stände“ und Bugfixes

� Möglichkeit des kommerziellen Supports

37

1&1 Best Practice




� Keep Your Ecosystem Simple, wähle sorgfältig aus!


Agenda







� Essenz


BI SourceSystems

Source DataFileserver Replicated

Source Data

DWH

Architektur BI-Plattform

Access Reporting

Oracle 11g EE Database

Reporting Layer (Dependent Datamarts)

Integration Layer (Core DWH)

Acquisition Layer (Staging Area)

Adhoc Queries (Mass-)Data Export

4. Verfügbar machen3. Transformieren2. Speichern1. Importieren


BI SourceSystems

Source DataFileserver Replicated

Source Data

DWH

Architektur BI-Plattform

Access Reporting





Adhoc Queries (Mass-)Data Export

SYNAPSE Mass Data

Ha

do

op

Clu

ste

r Mass Data Aggregation Layer

Mass Data Integration Layer

Mass Data Acquisition Layer

4. Verfügbar machen3. Transformieren2. Speichern1. Importieren


� Unterstützt die Verarbeitung durch…� Header-Zeile pro File mit

Typ-Information (JSON-Format)� Versionsprüfung möglich� IDL optional

� Effiziente Verarbeitung durch…� Speicher-effizientes Binärformat� (De-)Serialisierung ok

� Zukunftssicher da…� Künftiger Hadoop-Standard� Aktive Weiterentwicklung� Sukzessive Integration in die

Hadoop-Teilprojekte

Importieren und Speichern

Das Serialisierungs-Framework


# avro textual representation {"type": "record", "name": "Point","fields": [{"name": "x", "type": "int"},{"name": "y", "type": "int"}

]}5 8-3 42 -7

42

Importieren und Speichern

FLIS - Flexibilität gefragt


Plain csv

thrift

FlexibleInput

Selector

…

43

Transformieren – Join in MapReduce

� Map Side Join� Eingangsfiles müssen nach gleichem Schlüssel sortiert und

partitioniert sein� Sorted-Merged-Join noch vor dem Mapper� Sehr effizient, da Shuffle/Sort-Phase nichts mehr zu tun hat

� Reduce Side Join� Klassischer MR-Join� Hauptlast wird in der Shuffle/Sort-Phase getragen


MR-Join

Lookup-Data

ResultDataData

MR-Join

ResultDataData

Lookup-DataLookup-

DataLookup-DataLookup-

Data

Transformieren – Join in MapReduce

� Join-Operationen können in MR als Hash Join implementiert werden� Lookup wird als Hashmap über den Distributed Cache an Mapper verteilt� Kleine CPU, keine Netzwerk-Last während der Verarbeitung� Die Grenze bildet das Volumen der Lookup-Daten


Transformieren - …oder doch mit HBase?


� Distributed Key-Value Stores f(K) = V� Datenzugriff granular� Antwortzeiten im Milli-Sekunden-

Bereich� Auf Lesezugriff optimiert

Transformieren mit PIG

� Ursprünglich von Yahoo entwickelt� File basiertes High Level Daten-Manipulations-Framework� SQL-artige Sprache welche durch das Framework in Map/Reduce Jobs

übersetzt und ausgeführt wird� http://hadoop.apache.org/pig/


Transformieren

0

2

4

6

8

10

12

Column-DB Hadoop (1:1Migration)

Hadoop(optimierte

Algorithmen)

Monthly AggregationWeekly AggregationDaily Aggregation

Ergebnisse aus Web-Analytics Projekt:� Optimierung der Verarbeitung-Algorithmen kann erheblichen Performance-

Gewinn bringen!


Lessons learned


Know- how…� Muss oft erst aufgebaut werden.

Hierfür passende Projekte einplanen.

� Am Anfang fehlt das Know-how an allen Fronten

� DEV: Best Practices sind nicht vorhanden. Oft funktionieren

die Dinge in Dev und brechen dann im Live-Einsatz.

� QS: Herausforderung: verteiltes Testen - möglichst mit Echt-

Daten (bzgl. Qualität und Quantität)

� LIVE: Lastverhalten ist nur bedingt vorhersehbar. Tuning-

Möglichkeiten mannigfaltig und oft nur mit DEV-

Unterstützung durchführbar.

1&1 Best Practice





� Die Algorithmen bestimmen die Effizienz!


Agenda







� Essenz und Ausblick


BI SourceSystems

Source DataWI Gateway Fileserver

Replicated

Source Data

DWH

BI-Plattform – Information Lifecycle Management

AccessStandard Reporting





Adhoc Queries (Mass) Data Export

Ha

do

op

Clu

ste

r Mass Data Aggregation Layer

Mass Data Integration Layer

Mass Data Acquisition Layer

Hadoop alsKurzzeit-ArchivKosten: 0,0005 €/MB

DWH als Langzeit-Archiv Kosten: 0,15 €/MB


System Ebene Begründung Aufbewahrung

Fileserver Import Nachladen 5 Tage

Export Fachliche Anforderung 40 Tage

SYNAPSE Acquisition Algorithmus / Nachberechnen 30 Tage

Integration Fachliche Anforderung 15-90 Tage

Aggregation Nachladen 5 Tage

DWH Acquisition Nachberechnen 30 Tage

Integration Fachliche Anforderung 2-10 Jahre

Reporting Fachliche Anforderung 2-10 Jahre

Speichern: Gerne – aber wie lange?


� Auch 500 TByte sind irgendwann einmal voll!� IL separat für jede Verarbeitungsebene� Je wertvoller die Daten, desto länger der IL� Bei vielen 1000 Files hohe Anforderung ans Housekeeping in der SYNAPSE (s. u.)

53

Default Capacity Fair

Mechanismus Vergeben von Prioritäten pro Job

Job-Queues mit festgelegten Prioritäten

Job-Queues und Pools mit Gewichten

Funktionsfähig Ja Ja Ja

Clusterauslastung Ja Nein Ja

Gefahr von Starvation

Ja Nein Nein

Mehrparteien-Betrieb: Wer darf wann?

Hadoop Job Scheduler


� Gleichmäßige Lastverteilung über die Zeit nach Prioritäten� Verschiedene Anwendungen können konkurrierend betrieben werden

54

� Hadoop hat ein Zugriffsberechtigungskonzept angelehnt an POSIX (ohne sticky, setuid or setgid bits) für Files und Directories

� Hadoop hat keine eigene Benutzer-Authentifizierung� Hadoop übernimmt user name (whoami) und group name (bash -c groups)

vom aufrufenden Client-Prozess� Authorisierung ist damit (nur) auf File- und Verzeichnisebene möglich� Das schützt im Mehrparteienbetrieb vor versehentlichem Löschen oder

Überschreiben fremder Dateien. � Authorisierung muss auf Betriebssystem-Ebene konsequent umgesetzt sein� Geeignetes Konzept für „Tool“-User oder Application Manager


Mehrparteien-Betrieb: Wer darf überhaupt?

“… This user identity mechanism combined with the permissions model allows a cooperative community to share file system resources in an organized fashion.”

http://hadoop.apache.org/common/docs/r0.20.2/hdfs_permissions_guide.html

55

1&1 Best Practice






� Sorge für geordnete Verhältnisse im Cluster!


Agenda







� Essenz und Ausblick


PRO� Workflows können graphisch dargestellt und gedrilled werden� Einfache Handhabung (Komplexes wird in Scripts ausgelagert)� Startet Hadoop-Jobs und “Anderes” einfach als Unix-Prozesse� Ressoucen (.jar files, pig scripts) werden durch Azkaban verwaltet und deployed

Contra� Minimaler Funktionsumfang� Keine Rechte und Zugriffs-Verwaltung� Jobausführung nur Zeit-basiert� Keine Redundanz

(Azkaban-Server wird zum SPOF)

Azkaban (LinkedIn)


Oozie (Yahoo!)


PRO� Enge Integration mit Hadoop and M/R� Kann mit unterschiedlichen Job-Typen umgehen: Java MR, PIG, Java, etc.� Webservice- und Java-API� Zeit- und Ereignis-basierte Job-Ausführung

Contra� WEB-Konsole ist “Read-Only”, keine graphische

Aufbereitung von Abhängigkeiten� Ressoucen (.jar files, pig scripts) müssen manuell

vor der Jobausführung auf dem HDFS deployed werden� Müsste um File-Registierung erweitert werden

Requesting job status:

sudo -u oozie oozie job -oozie http://localhost:11000/oozie -info 0000018-110712204501024-oozie-oozi-C

59

Architektur BI-Plattform - Steuerung

� Steuerung der Verarbeitung und damit der Datenströme muss über den gesamten BI-Stack sichergestellt sein!

� Das richtige Werkzeug für die jeweilige Aufgabe:� GEPPI = 1&1 EAI-Lösung (Workflow-Steuerung)� FUNDI = eigens entwickelter „verlängerter Arm“ für Hadoop-Spezifika


Das richtige Werkzeug für die jeweilige Aufgabe

Functional

Dependency Integrator

GEPPI = Workflow-Engine� Übergreifende-Steuerung

PDI (http://kettle.pentaho.com/)

� ETL-Jobs im DWH� HDFS-Zugriff

� Hadoop Job-Ausführung� Data-Repository


FUNDI: Swahili für „Der fleißige Handwerker“

FUNDI File-Registration

Distributed orlocal File System

Functional

Dependency IntegratorDataFiles

File Registration Search for

matching files

Register File &

Metadata



Functional

Dependency Integrator

Run Job(name) Start

Register

Output-Files &

Metadata

get Jar/PIG

Metadata

Input-Filenames

Hadoop-Cluster

Inp. DataFiles

MR Job

Outp DataFiles

Fundi Job-Run



Fundi Job-Ketten (Das EVA-Prinzip)

Fundi-JOB

A

Fundi-JOB

B

Named-Input

Named-Output

Configuration

e.g. Path, Filenames,

Jar/PIG-Script, Settings …

Metadata for

Job-Rung, Inp.-Files,

Outp.-Files E V A


1&1 Best Practice






� Es geht auch ohne Skript-Wüste und cron-Jobs!


Agenda







� Essenz


Langer Rede kurzer Sinn: Die Aufgabe

� Hadoop verlangt ein neues Denken in allen IT-Bereichen: Operations, Entwicklung, QS, …

� Binde alle Stakeholder möglichst früh in deine Planung ein!

� Know-how zum Entwickeln, Testen und Betreiben einer verteilten Umgebung muss erarbeitet werden!

� Identifiziere dein Pilotprojekt!

� Bleibe nicht zu lange im „Spielbetrieb“, evaluiere gegen echte Anforderungen!


Langer Rede kurzer Sinn: Die Belohnung

� Hadoop und sein Ecosystem bieten hervorragende Lösungen für viele BIG DATA Probleme!


Langer Rede kurzer Sinn: Der Beweis

Massendatenverarbeitung ist bei 1&1 für Web-Analytic s, Logfile-Verarbeitung und Datawarehousing mit Hadoopmessbar

� performanter,

� kostengünstiger,

� skalierbarer,

� flexibler und

� zukunftsfähiger

geworden!


Vielen Dank für Ihre Aufmerksamkeit

Zeit für Fragen…

Hadoop im Unternehmenseinsatz - inovex.de · Seit 2005 in der Software-Entwicklung im...

Documents

Transcript of Hadoop im Unternehmenseinsatz - inovex.de · Seit 2005 in der Software-Entwicklung im...