Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics...

22
Copyright © 2012, SAS Institute Inc. All rights reserved. make connections • share ideas • be inspired Große Datenmengen knacken mit SAS ® High-Performance Analytics Martin Schütz CC Analytics SAS Institute GmbH

Transcript of Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics...

Page 1: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

make connections • share ideas • be inspired

Große Datenmengen knacken mit SAS® High-Performance Analytics

Martin Schütz CC Analytics SAS Institute GmbH

Page 2: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

Agenda

Terminologie: SAS® High-Performance Analytics

SAS® High-Performance Analytics (Product)

Motivation: Wozu?

Inhalt: Was ist es?

Architektur: Wie funktioniert es?

Funktionalität: Wie nutze ich es?

Beispiele

Online Demo

Page 3: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS® High-Performance Analytics Alltägliche Herausforderungen

Nicht vollständig genutzte

Ressourcen

Unterstützung inkrementellen

Wachstums (Skalierbarkeit)

Unnötige Datenbewegungen

„Single version of the truth“ für

analytische Daten

Garantie von Verfügbarkeit &

Kontinuität

Steigende Kosten

Wachstum hinsichtlich

Datenvolumina und

Komplexität

Lange Zeiten für die

Ergebnisgenerierung

Langsame Antwortzeiten

Limitierte

Analysemöglichkeiten aufgrund

fehlender Ressourcen

Geringe Produktivität

IT-Sicht Fachbereichs-Sicht

Page 4: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS® High-Performance Analytics (Produkt) Demo: HPA Prozeduren

Maschinen-Konfiguration

Client

2 CPUs

HPA Greenplum Appliance (1/4 Rack)

4 Worker Knoten zu 24 Cores

Demo Setup

Eine Prozedur – PROC (HP)LOGISTIC

Client

PROC LOGISTIC (multi-threaded) auf einer 5% Stichprobe aus 1 Mrd. Beobachtungen auf dem Client Rechner

HPA Appliance

PROC HPLOGISTIC auf einer 5% Stichprobe aus 1 Mrd. Beobachtungen auf der HPA Appliance

proc hplogistic

data=MPPLib.MyTable;

class A B C D ;

model y = a b c b*d

x1-x100;

output

out=MPPlib.logout pred=p;

run;

Page 5: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

ANALYTIC INFRASTRUCTURE

SAS®

High-Performance

Analytics

SAS®

High-Performance

Solutions

SAS®

Visual

Analytics

SAS® High-Performance Analytics Komponenten

Page 6: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS® Grid Computing Daten und Analysen auf viele Rechner verteilen

Dynamische Lastverteilung und Verwaltung für SAS® Prozesse mittels SAS® Grid Manager im Serververbund

Vorteile

Intelligente Lastverteilung

Skalierbarkeit

Hochverfügbarkeit und Ausfallsicherheit

Parallelisierung auf Programmschritt-Ebene (manuell bis tool-unterstützt)

Gemeinsamer Zugriff auf Datenbestand

Page 7: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS® In-Database Analytics zu den Daten bringen

SAS Analyse und Scoring-Prozesse können direkt in die Datenbank übertragen und dort angewandt werden

SQL-basierte implizite Parallelisierung im DBMS

Vorteile

Beschleunigte Modellentwicklung auf großen Datenmengen

Automatisierte Modellüberführung

Höchste Performance bei der Modellanwendung

Vermeidung von Datenbewegungen

Datenbank

• Zugriff auf DB-Tabellen (Samples)

• Modell-Entwicklung und Training

• Manuelles Modell-Deployment

SAS Enterprise Miner und Rapid Predictive Modeller SAS Model Manager

SAS Modelle

• Rollen- und Workflow unterstütztes

Modell Management u. Monitoring

• Automatisiertes Modell-Deployment

Page 8: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS® In-Memory Analytics Blitzschnelle Berechnungen im Hauptspeicher

SAS In-Memory Analytics

SAS®

High-Performance

Analytics

SAS®

High-Performance

Solutions

SAS®

Visual

Analytics

(Produkt)

Page 9: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS® High-Performance Analytics (Produkt) Die Lösung im Überblick

Revolutionäre High-End Analytics-Plattform

EMC Greenplum / Teradata

Massiv-parallele Datenbank und Hardware

Skalierende Verarbeitungsinfrastruktur

SAS High-Performance Analytics Framework

Massive-parallele SAS® Analytics Verarbeitung

SAS In-Memory Analytics

Parallelisierung auf der Ebene der Algorithmen

Nutzung über gängige SAS® Anwendungen

proc hplogistic data=MPPLib.MyTable;

class A B C D ;

model y = a b c b*d x1-x100;

run;

SAS In-Memory Analytics

SAS®

High-Performance

Analytics

SAS®

High-Performance

Solutions

SAS®

Visual

Analytics

www.sas.com/hpa

Page 10: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS® High-Performance Analytics (Produkt) SAS® High Performance Analytics “Appliance”

Dedizierte High-Performance Analyseumgebung

Zur Lösung komplexer analytischer Fragestellungen

Extrem große Datenmengen (Big Data)

Keine Datenbewegungen

Heute extrem langlaufender oder nicht lösbarer Analysen

Hoher Mehrwert durch Laufzeitreduktion

Hoher Mehrwert durch verbesserte Modellperformance

Bestehend aus einer Menge überarbeiteter SAS® Prozeduren

Base SAS®, SAS® / STAT

SAS® / ETS

SAS® Enterprise Miner

Page 11: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze

„Multi-pass“ Methoden

Nur der erste Durchgang sollte auf die

Festplatte zugreifen

Danach sollten die Daten im Speicher

gehalten werden

Austausch lokaler Resultate

Klassifikationseffekte

Iterative Methoden

Erhaltung des Status des Algorithmus

zwischen Durchgängen

Dynamisch generierter Code

“Single-pass” Methoden

Lokale Datenpartitionen werden in

jedem Durchgang abgefragt

Lokale Resultate werden ohne den

Blick auf andere lokale Resultate

zurückgegeben

Threads können nicht kommunizieren

oder Informationen zwischen den

Knoten austauschen

“Table UDF” Restriktionen bzgl. der

Anzahl an Spalten, Signatur der

Ergebnismenge (Spaltendefinitionen)

Mathematische Logik läuft unter

Bedingungen des DBMS

Analytische Anforderungen Restriktionen des In-DB Ansatzes

Page 12: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS® High-Performance Analytics (Produkt) Architektur

proc hplogistic data=MPPLib.MyTable; class A B C D ; model y = a b c b*d x1-x100; output out=MPPlib.logout pred=p; run;

proc hplogistic data=MPPLib.MyTable;

class A B C D ;

model y = a b c b*d x1-x100;

output out=MPPlib.logout pred=p;

run;

Page 13: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS® High-Performance Analytics (Produkt) Spektrum der Fähigkeiten (Mai 2012)

HPDS2

HPDMDB

HPSAMPLE

HPSUMMARY

HPDMDB

HPSAMPLE

HPREDUCE

HPIMPUTE*

HPBIN*

HPSUMMARY

HPLOGISTIC

HPREG

HPREDUCE

HPNEURAL

HPNLIN

HPDS2

HPCOUNTREG

HPSEVERITY

HPFOREST*

HPSVM*

HPDECIDE*

Data Preparation Data Exploration Analytics

* Experimenteller Status im aktuellen Release

Page 14: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS® High-Performance Analytics (Produkt) Wie nutzt man die neuen Möglichkeiten? Wie immer!

HPA Prozeduren mittels traditioneller SAS® Programmierung

Neue HP Knoten innerhalb des SAS® Enterprise Miner 7.1

Explore, Transform, Variable Selection, Impute, Regression, Neural Network

Model Export & Registrierung in EDW mittels SAS® Model Manager

option set=GRIDHOST=“green1.sas.com";

option set=GRIDINSTALLLOC="/opt/TKGrid";

libname GPLib greenplm server=gpdca user=XXX

password=YYY database=ZZZ;

proc hplogistic data=GPLib.MyTable;

class A B C D ;

model y = a b c b*d x1-x100;

output out=GPlib.logout pred=p;

run;

Festlegung der Appliance

Festlegung des Executables

Nutzung der HP-PROC

Enterprise

Data

Warehouse

Page 15: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS® High-Performance Markdown Optimization

ZIEL

Optimale Preisfindung auf Artikelebene (SKU) pro Filialfläche

Verbesserte Abschriften individuell pro Filiale

HERAUSFORDERUNG 270 Million mögliche

Kombinationen von Einzeldaten (≈ 3 Terabyte)

LÖSUNG

SAS® High-Performance Analytics mit In-memory, distributed processing

Eine auf große Datenmengen (Big Data) ausgelegte Business Analytics Solution (SAS® Markdown Optimization)

ERGEBNIS

93% weniger Rechenzeit von 30 h auf 2 h (untertägig)

Page 16: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS® High-Performance Analytics (Produkt) Anwendungsbeispiel - Kreditrisiko Management

Hauskredit-Risiko Management

Berechnung eins Modells zur Vorhersage der Kreditausfallwahrscheinlichkeit über den gesamten Kundenbestand

84 SECONDS

167 Hours

High-Performance

analytischer Prozess Traditioneller

analytischer

Prozess Verbesserte Modelle

Einsparungen im

zweistelligen

Millionenbereich

Page 17: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS® High-Performance Analytics (Produkt) Perspektive des Analytikers

Finales Modell basiert auf nur

einem analytischen Algorithmus -

Neuronales Netz (NN)

7 Trainings-Iterationen des

Neuronalen Netzes benötigten ~5

Std. (~1.4 Iterationen / Std.)

Ein Modellierer kann somit ein

Modell pro Tag erstellen.

Geringe Produktivität

Model Lift von 1,6 auf Top 10%

Finales Model basiert auf dem

Vergleich unterschiedlicher

analytischer Algorithmen (NN,

SVM, logistische Regression,...)

5000 Trainings-Iterationen des NN

Knoten in 70 Min.

(~71,4 Iterationen / Min.)

Ein Modellierer kann somit 10

Modelle pro Tag erstellen

(Annahme von 30 Min. pro Modell)

Hohe Produktivität

Model Lift von 2,5 auf Top 10%

Standard Data Mining Prozess High-Performance Data Mining

Was bedeutet eine Liftverbesserung von 56%

bei einem anvisierten Umsatzpotential von $64 Mrd.?

Page 18: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS® High-Performance Analytics (Produkt) HPA Procedures Demo - Zusammenfassung

Logistische Regression

1 abhängige Variable

6 unabhängige Variablen

50.000.000 Beobachtungen

Job Setup CPU Time

Client, 2 CPUs 09:41.93

HPA Appliance, 96 cores 00:23.30 (elapsed time)

Beschleunigung um Faktor 26!

Page 19: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS® High-Performance Analytics (Produkt) SAS® Enterprise Miner Demo

Logistische Regression

1 abhängige Variable

6 unabhängige Variablen

50.000.000 Beobachtungen

www.sas.com/hpa

SAS® Enterprise Miner Workflow – Vorhersage von Flugverspätungen

1 abhängige Variable

12 unabhängige Variablen

123.000.000 Beobachtungen

Page 20: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS® High-Performance Analytics (Produkt) SAS® Enterprise Miner Demo

www.sas.com/hpa

Konfiguration Workflow Schritt CPU Laufzeit

Client, 2 CPUs

Explore 00:03:19:30 (100,000 Beob)

Modify 00:04:52:89

Model 02:47:46:12

Total (Modify + Model) 02:52:39:01

HPA Appliance,

96 cores

Explore 00:00:36:01 (123,000,000 Beob)

Modify 00:00:43:74

Model 00:06:28:92

Total (Modify + Model) 00:07:12:66

Beschleunigung um Faktor 25!

Page 21: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Copyright © 2012, SAS Institute Inc. All rights reserved.

SAS® High-Performance Analytics Mehr Informationen unter http://www.sas.com/hpa

Page 22: Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze „Multi-pass“ Methoden Nur der erste Durchgang

Vielen Dank für Ihre Aufmerksamkeit!