Hadoop Ecosystem Vorstellung der .Open Source f¼r Apache Hive and Cloudera Impala ... sentry-

download Hadoop Ecosystem Vorstellung der .Open Source f¼r Apache Hive and Cloudera Impala ... sentry-

of 50

  • date post

    08-Jul-2018
  • Category

    Documents

  • view

    214
  • download

    0

Embed Size (px)

Transcript of Hadoop Ecosystem Vorstellung der .Open Source f¼r Apache Hive and Cloudera Impala ... sentry-

  • Hadoop Ecosystem

    Vorstellung der Komponenten

    Oracle/metafinanz Roadshow

    Februar 2014

  • Wir fokussieren mit unseren Services die Herausforderungen des Marktes und verbinden

    Mensch und IT.

    Business Intelligence

    Customer Intelligence

    Customer based Analytics & Processes

    Churn Prediction and

    Management

    Segmentation and

    Clustering

    Insurance

    Reporting

    Standard & Adhoc

    Reporting

    Dashboarding

    BI Office Integration

    Mobile BI & InMemory

    SAS Trainings for Business

    Analysts

    Insurance Analytics

    Predictive Models, Data Mining & Statistics

    Scorecarding

    Social Media Analytics

    Fraud & AML

    BI & Risk Risk

    Solvency II (Standard

    & internal Model)

    Regulatory Reporting

    Compliance

    Risk Management

    Enterprise DWH

    Data Modeling & Integration & ETL

    Architecture: DWH & Data Marts

    Hadoop & Columnar DBs

    Data Quality &

    Data Masking

    Themenbereiche ber metafinanz

    metafinanz gehrt seit 23 Jahren zu den erfahrensten

    Software- und Beratungshusern mit Fokus auf die

    Versicherungsbranche.

    Mit einem Jahresumsatz von 250 Mio. EUR und ber

    1.500 Mitarbeitern entwickeln wir fr unsere Kunden

    intelligente zukunftsorientierte Lsungen fr

    komplexe Herausforderungen

    Referenten

    Seite 2

    Carsten

    Herbe

    Michael

    Prost

    mail: carsten.herbe@metafinanz.de phone: +49 89 360531 5039

    Hadoop Ecosystem 10.02.2014

    Slavomir

    Nagy

    Head

    of

    Data

    Ware

    ho

    usin

    g

    DW

    H P

    rin

    cip

    al

    Co

    nsu

    ltan

    t

    DW

    H S

    en

    ior

    Co

    nsu

    ltan

    t

  • Inhalt

    Einfhrung 1

    Hive 2

    Sentry 4

    Sqoop 5

    Mahout 8

    HBASE 9

    Oozie 12

    Hadoop Ecosystem

    Pig 6

    Giraph 7

    HUE 13

    Zookeeper 14

    Flume 11

    10.02.2014 Seite 3

    Impala 3 File Formats 10

    Cloudera Manager 15

  • Einfhrung 1

  • Das Hadoop-kosystem besteht aus einer Vielzahl von Tools und Frameworks und wird

    stndig durch neue Projekte erweitert.

    HttpFS

    Drill

    Ambari

    HCatalog Cascalog

    DB

    DateiSystem

    High-Level-

    Zugriff

    Mgmt-

    Utilities

    Cloudera Manager

    Cluster

    Mgmt.

    FuseDFS

    Hadoop Ecosystem

    Parquet

    SequenceFiles

    10.02.2014 Seite 5

    http://avro.apache.org/http://hive.apache.org/http://zookeeper.apache.org/

  • Hive 2

  • HIVE Hadoop mit SQL

    "Tabellen"-Metadaten fr Files

    SQL hnliche Abfragesprache HiveQL

    SELECT FROM JOIN GROUP BY

    WHERE INSERT INTO AS SELECT

    Leichter Einstieg in Hadoop fr DB-Entwickler

    Einfaches Arbeiten mit strukturierten Daten

    Ggfs. Zugriff mit BI-Tools

    Auswertung von historischen Daten aus DB

    HiveQL (SQL)

    Hive

    Driver CLI

    Thrift

    Relationale DB:

    Metadata-Store

    Hadoop

    Job tracker

    /user/hive/warehouse

    /

    Hadoop Ecosystem 10.02.2014 Seite 7

  • Impala 3

  • Impala Interaktive Datenanalyse mit SQL

    Massively Parallel Processing

    (MPP) Query Engine (SQL)

    Echtzeitabfragen auf Hadoop

    und HBase

    Skalierbare, verteilte

    Datenbanktechnologie

    In-Memory Data Transfers

    Open Source Lsung von

    Cloudera

    Ad-hoc Analysen mit SQL

    Interaktive Data Exploration

    Standard Reporting auf

    Hadoop

    Statestore Hive Metastore Client

    SQL query

    cluster

    monitoring

    table/

    database

    metadata

    impalad

    HBase

    RegionServer

    HDFS DataNode

    Query Executor

    Query Coordinator

    Query Planner

    HBase

    RegionServer

    HDFS DataNode

    impalad

    Query Executor

    Query Coordinator

    Query Planner

    impalad

    HBase

    RegionServer

    HDFS DataNode

    Query Executor

    Query Coordinator

    Query Planner

    Hadoop Ecosystem 10.02.2014 Seite 9

  • Sentry 4

  • Sentry Zugriffsrechte in Multi-User-Anwendungen

    Open Source fr Apache Hive and Cloudera Impala

    Feingranulare Zugriffskontrolle durch Rechteverwaltung

    Rollenbasierte Administration

    Daten-Klassifikation

    Untersttzung der Complience-Richtlinien

    Untersttzung von Multi-User-Anwendungen

    Funktionsfhig mit HiveServer2 und Impala 1.1; ab

    Version CDH 4.3

    Vergabe von Zugriffsrechten auf Spalten- und

    Zeilenebene

    Zugriff auf Hive-Metadaten

    Hadoop Ecosystem 10.02.2014 Seite 11

    Impala

    Bindings

    Hive

    Bindings

    Future

    Bindings

    Policy Engine

    Policy Provider

    File-based Provider DB-based Provider

    ImpalaD HiveServer2

    Local

    FS/HDFS

  • Sentry sentry-provider.ini

    [databases]

    db_test1 = /projects/db_test1-sentry-provider.ini

    db_test2 = /projects/db_test2-sentry-provider.ini

    [groups]

    group_admin = admin_role

    group_user_sales = user_sales_role

    [roles]

    admin_role = server=server1, \

    server=server1->uri=hdfs://nameservice1/projects/

    user_sales_role = server=server1, \

    server=server1->uri=hdfs://nameservice1/projects/sales

    Hadoop Ecosystem 10.02.2014 Seite 12

  • Sqoop 5

  • Sqoop Datenaustausch Hadoop und RDBMS

    Datentransfertool

    Datenaustausch zwischen

    Hadoop und SQL-Datenbanken

    Paralleler Datentransfer

    Untersttzt gngige

    Datenbanksysteme

    Aggregierte Ergebnisse in das

    DWH fr traditionelle BI

    Laden von z.B. Master Daten

    aus DB/DWH fr Analysen in

    Hadoop

    Einbettung Hadoop als

    Staging Area in ETL Prozess

    fr DWH

    Hadoop

    Relational DB

    Map Job

    Reads metadata Defines and submits job

    Sqoop client 2

    Sqoop client 1

    Hadoop Ecosystem 10.02.2014 Seite 14

  • Pig 6

  • Pig Programmierplattform

    Pig ist eine Highlevel-Programmierplattform fr

    die Erzeugung von MapReduce-Jobs

    Sie erlaubt es Programmierern, komplizierte

    Datenanalysen zu machen, ohne Java

    MapReduce Code selbst schreiben zu mssen

    Pig verfgt ber eine eigene

    Programmiersprache (Pig Latin), mit der

    Datenflsse beschrieben werden

    Vereinfachung von MapReduce Abfragen als

    Skriptsprache

    Standard Extract-Transformation-Load (ETL)

    Prozesse

    Untersuchung von Rohdaten

    Iterative Datenverarbeitung

    10.02.2014 Seite 16

    user

    or

    or

    SQL

    Pig Latin

    Map-Reduce

    Cluster

    Hadoop Ecosystem

  • Pig Programmierplattform

    Hadoop Ecosystem

    eingabe = load '/projects/examples/pig/input/Beispiel.txt' as(zeile);

    woerter = foreach eingabe generate flatten (TOKENIZE(zeile)) as wort;

    gruppe = group woerter by wort;

    anzahl = foreach gruppe generate group, COUNT(woerter.wort);

    DUMP anzahl;

    (und,1)

    (bleibt,2)

    (Blaukraut,2)

    (Brautkleid,2)

    Blaukraut bleibt Blaukraut

    und Brautkleid bleibt Brautkleid

    Beispiel.txt

    Beispiel WordCount

    10.02.2014 Seite 17

  • Giraph 7

  • Giraph Graphenverarbeitung

    Giraph ist ein Framework fr die

    Graphenverarbeitung

    Giraph wird als Hadoop Job ausgefhrt

    Es baut auf der graphenorientierten Art von

    Googles Pregel auf, bietet aber zustzliche

    Fehlertoleranz

    Wird eingesetzt zur Netzwerkanalyse

    Kann krzeste Transportrouten ermitteln

    Data Mining

    Fraud Detection

    Risk Analysis

    Local

    Computation

    Communication

    Barrier

    Synchronization

    Processors

    BSP programming model

    Superstep

    Hadoop Ecosystem 10.02.2014 Seite 19

  • Mahout 8

  • Mahout Bibliothek fr maschinelles Lernen

    Warenkorbanalysen

    Klassifizierung von Kunden

    Kundenwechselwahrscheinlichkeit

    u.v.m.

    Data Mining in Hadoop

    Collaborative Filtering

    Clustering

    Classification

    Laptop

    Mahout

    Collaborative Filtering

    Clustering

    Classification

    Hadoop

    MapReduce HDFS Cluster

    10.02.2014 Hadoop Ecosystem Seite 21

  • HBase 9

  • HBase - NoSQL Datenbank

    Verteilte NoSQL- Datenbank

    Multi-dimensional

    Nur eine Spalte indiziert ("Key-Value")

    Einzelsatzverarbeitung inkl. Updates

    Schneller Zugriff auf Einzelstze

    Benutzerprofile fr Web-Anwendungen

    Warenkrbe

    Analyseergebnisse aus HDFS

    Client

    HRegion-

    Server

    HRegion-

    Server

    HRegion-

    Server

    ZooKeeper

    ZooKeeper

    ZooKeeper

    ZooKeeper

    ZooKeeper

    HMaster

    HDFS HDFS

    HDFS HDFS

    Hadoop Ecosystem 10.02.2014 Seite 23

  • HBase - NoSQL Datenbank

    Hadoop Ecosystem

    create 'blogposts', 'post', 'image'

    put 'blogposts', 'row1', 'post:title', 'Hello World'

    put 'blogposts', 'row1', 'post:author', 'The Author'