Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics...
Transcript of Große Datenmengen knacken mit SAS High-Performance Analytics · SAS® High-Performance Analytics...
Copyright © 2012, SAS Institute Inc. All rights reserved.
make connections • share ideas • be inspired
Große Datenmengen knacken mit SAS® High-Performance Analytics
Martin Schütz CC Analytics SAS Institute GmbH
Copyright © 2012, SAS Institute Inc. All rights reserved.
Agenda
Terminologie: SAS® High-Performance Analytics
SAS® High-Performance Analytics (Product)
Motivation: Wozu?
Inhalt: Was ist es?
Architektur: Wie funktioniert es?
Funktionalität: Wie nutze ich es?
Beispiele
Online Demo
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® High-Performance Analytics Alltägliche Herausforderungen
Nicht vollständig genutzte
Ressourcen
Unterstützung inkrementellen
Wachstums (Skalierbarkeit)
Unnötige Datenbewegungen
„Single version of the truth“ für
analytische Daten
Garantie von Verfügbarkeit &
Kontinuität
Steigende Kosten
Wachstum hinsichtlich
Datenvolumina und
Komplexität
Lange Zeiten für die
Ergebnisgenerierung
Langsame Antwortzeiten
Limitierte
Analysemöglichkeiten aufgrund
fehlender Ressourcen
Geringe Produktivität
IT-Sicht Fachbereichs-Sicht
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® High-Performance Analytics (Produkt) Demo: HPA Prozeduren
Maschinen-Konfiguration
Client
2 CPUs
HPA Greenplum Appliance (1/4 Rack)
4 Worker Knoten zu 24 Cores
Demo Setup
Eine Prozedur – PROC (HP)LOGISTIC
Client
PROC LOGISTIC (multi-threaded) auf einer 5% Stichprobe aus 1 Mrd. Beobachtungen auf dem Client Rechner
HPA Appliance
PROC HPLOGISTIC auf einer 5% Stichprobe aus 1 Mrd. Beobachtungen auf der HPA Appliance
proc hplogistic
data=MPPLib.MyTable;
class A B C D ;
model y = a b c b*d
x1-x100;
output
out=MPPlib.logout pred=p;
run;
Copyright © 2012, SAS Institute Inc. All rights reserved.
ANALYTIC INFRASTRUCTURE
SAS®
High-Performance
Analytics
SAS®
High-Performance
Solutions
SAS®
Visual
Analytics
SAS® High-Performance Analytics Komponenten
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® Grid Computing Daten und Analysen auf viele Rechner verteilen
Dynamische Lastverteilung und Verwaltung für SAS® Prozesse mittels SAS® Grid Manager im Serververbund
Vorteile
Intelligente Lastverteilung
Skalierbarkeit
Hochverfügbarkeit und Ausfallsicherheit
Parallelisierung auf Programmschritt-Ebene (manuell bis tool-unterstützt)
Gemeinsamer Zugriff auf Datenbestand
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® In-Database Analytics zu den Daten bringen
SAS Analyse und Scoring-Prozesse können direkt in die Datenbank übertragen und dort angewandt werden
SQL-basierte implizite Parallelisierung im DBMS
Vorteile
Beschleunigte Modellentwicklung auf großen Datenmengen
Automatisierte Modellüberführung
Höchste Performance bei der Modellanwendung
Vermeidung von Datenbewegungen
Datenbank
• Zugriff auf DB-Tabellen (Samples)
• Modell-Entwicklung und Training
• Manuelles Modell-Deployment
SAS Enterprise Miner und Rapid Predictive Modeller SAS Model Manager
SAS Modelle
• Rollen- und Workflow unterstütztes
Modell Management u. Monitoring
• Automatisiertes Modell-Deployment
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® In-Memory Analytics Blitzschnelle Berechnungen im Hauptspeicher
SAS In-Memory Analytics
SAS®
High-Performance
Analytics
SAS®
High-Performance
Solutions
SAS®
Visual
Analytics
(Produkt)
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® High-Performance Analytics (Produkt) Die Lösung im Überblick
Revolutionäre High-End Analytics-Plattform
EMC Greenplum / Teradata
Massiv-parallele Datenbank und Hardware
Skalierende Verarbeitungsinfrastruktur
SAS High-Performance Analytics Framework
Massive-parallele SAS® Analytics Verarbeitung
SAS In-Memory Analytics
Parallelisierung auf der Ebene der Algorithmen
Nutzung über gängige SAS® Anwendungen
proc hplogistic data=MPPLib.MyTable;
class A B C D ;
model y = a b c b*d x1-x100;
run;
SAS In-Memory Analytics
SAS®
High-Performance
Analytics
SAS®
High-Performance
Solutions
SAS®
Visual
Analytics
www.sas.com/hpa
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® High-Performance Analytics (Produkt) SAS® High Performance Analytics “Appliance”
Dedizierte High-Performance Analyseumgebung
Zur Lösung komplexer analytischer Fragestellungen
Extrem große Datenmengen (Big Data)
Keine Datenbewegungen
Heute extrem langlaufender oder nicht lösbarer Analysen
Hoher Mehrwert durch Laufzeitreduktion
Hoher Mehrwert durch verbesserte Modellperformance
Bestehend aus einer Menge überarbeiteter SAS® Prozeduren
Base SAS®, SAS® / STAT
SAS® / ETS
SAS® Enterprise Miner
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® High-Performance Analytics (Produkt) Grenzen bisheriger Ansätze
„Multi-pass“ Methoden
Nur der erste Durchgang sollte auf die
Festplatte zugreifen
Danach sollten die Daten im Speicher
gehalten werden
Austausch lokaler Resultate
Klassifikationseffekte
Iterative Methoden
Erhaltung des Status des Algorithmus
zwischen Durchgängen
Dynamisch generierter Code
“Single-pass” Methoden
Lokale Datenpartitionen werden in
jedem Durchgang abgefragt
Lokale Resultate werden ohne den
Blick auf andere lokale Resultate
zurückgegeben
Threads können nicht kommunizieren
oder Informationen zwischen den
Knoten austauschen
“Table UDF” Restriktionen bzgl. der
Anzahl an Spalten, Signatur der
Ergebnismenge (Spaltendefinitionen)
Mathematische Logik läuft unter
Bedingungen des DBMS
Analytische Anforderungen Restriktionen des In-DB Ansatzes
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® High-Performance Analytics (Produkt) Architektur
proc hplogistic data=MPPLib.MyTable; class A B C D ; model y = a b c b*d x1-x100; output out=MPPlib.logout pred=p; run;
proc hplogistic data=MPPLib.MyTable;
class A B C D ;
model y = a b c b*d x1-x100;
output out=MPPlib.logout pred=p;
run;
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® High-Performance Analytics (Produkt) Spektrum der Fähigkeiten (Mai 2012)
HPDS2
HPDMDB
HPSAMPLE
HPSUMMARY
HPDMDB
HPSAMPLE
HPREDUCE
HPIMPUTE*
HPBIN*
HPSUMMARY
HPLOGISTIC
HPREG
HPREDUCE
HPNEURAL
HPNLIN
HPDS2
HPCOUNTREG
HPSEVERITY
HPFOREST*
HPSVM*
HPDECIDE*
Data Preparation Data Exploration Analytics
* Experimenteller Status im aktuellen Release
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® High-Performance Analytics (Produkt) Wie nutzt man die neuen Möglichkeiten? Wie immer!
HPA Prozeduren mittels traditioneller SAS® Programmierung
Neue HP Knoten innerhalb des SAS® Enterprise Miner 7.1
Explore, Transform, Variable Selection, Impute, Regression, Neural Network
Model Export & Registrierung in EDW mittels SAS® Model Manager
option set=GRIDHOST=“green1.sas.com";
option set=GRIDINSTALLLOC="/opt/TKGrid";
libname GPLib greenplm server=gpdca user=XXX
password=YYY database=ZZZ;
proc hplogistic data=GPLib.MyTable;
class A B C D ;
model y = a b c b*d x1-x100;
output out=GPlib.logout pred=p;
run;
Festlegung der Appliance
Festlegung des Executables
Nutzung der HP-PROC
Enterprise
Data
Warehouse
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® High-Performance Markdown Optimization
ZIEL
Optimale Preisfindung auf Artikelebene (SKU) pro Filialfläche
Verbesserte Abschriften individuell pro Filiale
HERAUSFORDERUNG 270 Million mögliche
Kombinationen von Einzeldaten (≈ 3 Terabyte)
LÖSUNG
SAS® High-Performance Analytics mit In-memory, distributed processing
Eine auf große Datenmengen (Big Data) ausgelegte Business Analytics Solution (SAS® Markdown Optimization)
ERGEBNIS
93% weniger Rechenzeit von 30 h auf 2 h (untertägig)
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® High-Performance Analytics (Produkt) Anwendungsbeispiel - Kreditrisiko Management
Hauskredit-Risiko Management
Berechnung eins Modells zur Vorhersage der Kreditausfallwahrscheinlichkeit über den gesamten Kundenbestand
84 SECONDS
167 Hours
High-Performance
analytischer Prozess Traditioneller
analytischer
Prozess Verbesserte Modelle
Einsparungen im
zweistelligen
Millionenbereich
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® High-Performance Analytics (Produkt) Perspektive des Analytikers
Finales Modell basiert auf nur
einem analytischen Algorithmus -
Neuronales Netz (NN)
7 Trainings-Iterationen des
Neuronalen Netzes benötigten ~5
Std. (~1.4 Iterationen / Std.)
Ein Modellierer kann somit ein
Modell pro Tag erstellen.
Geringe Produktivität
Model Lift von 1,6 auf Top 10%
Finales Model basiert auf dem
Vergleich unterschiedlicher
analytischer Algorithmen (NN,
SVM, logistische Regression,...)
5000 Trainings-Iterationen des NN
Knoten in 70 Min.
(~71,4 Iterationen / Min.)
Ein Modellierer kann somit 10
Modelle pro Tag erstellen
(Annahme von 30 Min. pro Modell)
Hohe Produktivität
Model Lift von 2,5 auf Top 10%
Standard Data Mining Prozess High-Performance Data Mining
Was bedeutet eine Liftverbesserung von 56%
bei einem anvisierten Umsatzpotential von $64 Mrd.?
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® High-Performance Analytics (Produkt) HPA Procedures Demo - Zusammenfassung
Logistische Regression
1 abhängige Variable
6 unabhängige Variablen
50.000.000 Beobachtungen
Job Setup CPU Time
Client, 2 CPUs 09:41.93
HPA Appliance, 96 cores 00:23.30 (elapsed time)
Beschleunigung um Faktor 26!
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® High-Performance Analytics (Produkt) SAS® Enterprise Miner Demo
Logistische Regression
1 abhängige Variable
6 unabhängige Variablen
50.000.000 Beobachtungen
www.sas.com/hpa
SAS® Enterprise Miner Workflow – Vorhersage von Flugverspätungen
1 abhängige Variable
12 unabhängige Variablen
123.000.000 Beobachtungen
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® High-Performance Analytics (Produkt) SAS® Enterprise Miner Demo
www.sas.com/hpa
Konfiguration Workflow Schritt CPU Laufzeit
Client, 2 CPUs
Explore 00:03:19:30 (100,000 Beob)
Modify 00:04:52:89
Model 02:47:46:12
Total (Modify + Model) 02:52:39:01
HPA Appliance,
96 cores
Explore 00:00:36:01 (123,000,000 Beob)
Modify 00:00:43:74
Model 00:06:28:92
Total (Modify + Model) 00:07:12:66
Beschleunigung um Faktor 25!
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS® High-Performance Analytics Mehr Informationen unter http://www.sas.com/hpa
Vielen Dank für Ihre Aufmerksamkeit!