SAS Datenmanagement für Analytics: 5 Best Practices · PDF file4 Die Grundlagen der...

10
SAS ® Datenmanagement für Analytics: 5 Best Practices WHITE PAPER

Transcript of SAS Datenmanagement für Analytics: 5 Best Practices · PDF file4 Die Grundlagen der...

SAS® Datenmanagement für Analytics: 5 Best Practices

WHITE PAPER

2

InhaltDatenmanagement: warum es überaus wichtig ist .........................................................3

Die Grundlagen der Datenaufbereitung ............................................................................4

1: Vereinfachung des Zugriffs auf traditionelle und neuartige Datenquellen ...........4

2: Unterstützung des Data Scientists mit Advanced Analytics-Techniken ...................5

3: Bereinigung der Daten zur Qualitätssteigerung bestehender Prozesse .............. 6

4: Aufbereitung der Daten mithilfe flexibler Bearbeitungstechniken .........................7

5: Gemeinsame Nutzung von Metadaten im Datenmanagement- und Analytics-Bereich ................................................................................................................8

Vertrauenswürdige Daten, bewährte Analytics ................................................................9

3

Datenmanagement: warum es überaus wichtig ist Wir alle wissen, wie wichtig sauberes, klares Wasser zum Leben ist. Ohne kann man nur rund drei Tage überleben. Was passiert also, wenn Ihre Wasserquelle verunrei-nigt ist? Dann müssen Sie mit negativen Konsequenzen rechnen – es sei denn, Sie fi ltern Ihr Wasser auf geeignete Weise. Um bessere Ergebnisse zu erhalten, könnten Sie das Wasser mit Fluoridverbindungen anreichern, das Arsen herausfi ltern und die Temperatur und den Wasserdruck auf optimale Werte einstellen.

Bei Daten sieht das ganz genauso aus. „Saubere“ Daten sind für erfolgreiche Unternehmen überaus wichtig – insbesondere für Unternehmen, deren geschäft-liche Erfolge auf Analytics angewiesen sind. Aber die Aufbereitung von Daten für Analytics bringt ganz andere Anforderungen mit sich als deren Speicherung in einem Data Warehouse. Wie schwierig ist es, ungefi lterte Daten zu managen und für Analytics aufzubereiten?

Die meisten Data Scientists wenden 50 bis 80 Prozent ihrer Zeit bei der Modell-entwicklung für die Datenaufbereitung auf. Dieser Aufwand an Zeit und Mühen wäre eigentlich viel besser investiert, um aus den Daten Erkenntnisse zu gewinnen.

Data Scientists und Business Analytics-Experten, die Daten für Analytics aufbereiten, nutzen Datenmanagement-Technologie von SAS wie einen Datenfi lter. SAS stellt dem Benutzer eine zentrale Plattform bereit, auf der er auf Daten zugreifen und sie für jeden beliebigen Analysezweck bereinigen, umwandeln und strukturieren kann. Und während die ständige Plackerei mit der Aufbereitung wegfällt, kommen saubere, aufschlussreiche Daten zum Vorschein. Das steigert die Produktivität und macht bessere Entscheidungen und eine größere Flexibilität möglich.

SAS orientiert sich beim Datenmanagement an fünf Best Practices, die gründlichere Analytics und tiefere Einblicke ermöglichen:

• Vereinfachung des Zugriff s auf traditionelle und neuartige Datenquellen.

• Unterstützung der Data Scientists mit Advanced Analytics-Techniken.

• Bereinigung der Daten zur Qualitätssteigerung bestehender Prozesse.

• Aufbereitung der Daten mithilfe fl exibler Bearbeitungstechniken.

• Gemeinsame Nutzung von Metadaten im Datenmanagement- und Analytics-Bereich.

ScrubStrengthen ShareSimplify Shape

Raw Data Analytics-Ready Data

Data Management for Analytics: Five Best Practices

Abbildung 1: Für die Datenaufbereitung für Analytics empfi ehlt SAS fünf Best Practices, mit denen Sie Rohdaten so umwandeln, dass sie bereit sind für Advanced Analytics.

4

Die Grundlagen der Datenaufbereitung Data Scientists und Business Analytics-Experten wissen meist schon vor der Aufbe-reitung und Modellierung, welche Daten sie analysieren oder visualisieren möchten. Allerdings wissen sie nicht, welche Variablen am besten geeignet sind für den Modelltyp, der implementiert werden soll – d.h., welche Variablen den größten prädiktiven Nutzen bieten. Daher kommt es zunächst vor allem darauf an, die rich-tigen Daten zu identifizieren und zu nutzen. Denn ein gutes Modell unterscheidet sich von einem hervorragenden Modell durch den hochgradig iterativen Datenauf - be reitungsprozess.

Der Prozess beginnt an dem Punkt, an dem ein Geschäftsproblem identifiziert wird. Nehmen wir als Beispiel einmal die Kundenabwanderung. Der erste Schritt besteht nun darin, die Daten zu erfassen, die das Problem darstellen, zu dem Sie ein Modell aufstellen möchten (das wäre in diesem Fall die Abwanderung von Kunden). Außer-dem benötigen Sie noch alle anderen Daten, die irgendwie zu den abge wanderten Kunden in Verbindung stehen. Das Ziel hierbei besteht darin, den Erklärungswert des Abwanderungsmodells zu steigern, damit sich vorhersagen lässt, welche Kunden zukünftig möglicherweise abwandern werden. Dazu können Sie den prädiktiven Wert von einzelnen Datenelementen und/oder von Kombinationen aus Datenelementen analysieren.

Sobald sich herausstellt, dass ein bestimmtes Merkmal keine Auswirkungen auf das Verhalten hat, können Sie es weglassen. Anschließend nehmen Sie die Analyse mit einem anderen Attribut oder einer anderen Kombination von Attributen wieder auf. Diesen Vorgang wiederholen Sie so lange, bis eine bestimmte Aussage wahrschein-lichkeit in Bezug auf die Vorhersagefähigkeit des Modells für das Kun denverhalten erreicht ist. Nur dann kann das Modell korrekt vorhersagen, wer als Nächstes abwandern wird (und wann).

Bevor Sie jedoch ein funktionierendes Modell aufstellen können, benötigen Sie konsistente, verlässliche Daten. Und hier kommen unsere fünf Best Practices ins Spiel, die Ihnen beim Management von Daten für Analysezwecke helfen können.

1: Vereinfachung des Zugriffs auf traditionelle und neuartige Datenquellen

Data Scientists und Business Analytics-Experten wollen mit so vielen Daten wie mög -lich arbeiten. Woher diese Daten stammen, spielt keine Rolle – sei es aus neuarti gen Big Data-Quellen wie Hadoop, aus SAS oder aus ihren eigenen Oracle oder Teradata Warehouses. Zur Datenaufbereitung gehört, festzulegen, welche Daten ein Ergebnis am besten vorhersagen können. Und da mehr Daten für gewöhnlich zu besseren Vorhersagen führen, gilt in diesem Fall tatsächlich: „Je mehr, desto besser“.

Allerdings stellt der Zugriff auf all diese Daten eine Herausforderung dar. Aufgrund der unterschiedlichen Datenquellen, -formate und -strukturen ist es schwierig, die Daten zusammenzubringen. Und statistische Analysen kennen im Grunde nur zwei Typen von Daten – Buchstaben und Zahlen. Manche Datenquellen jedoch, wie relatio - nale Datenbanken zum Beispiel, unterscheiden zwischen 10 bis 20 verschiedenen numerischen Datentypen.

SAS verfügt über eine reiche Auswahl an Funktionen für den Zugriff auf native Daten, was die Arbeit mit den unterschiedlichsten Datenquellen vereinfacht. Das bietet Ihnen die folgenden Vorteile:

• SAS vereinfacht den Zugriff auf zahlreiche Datenquellen. Das Abgleichen von Datentypen der verschiedensten Herkunft – von Excel-Tabellenblättern über

5

relationale Datenbanktabellen bis hin zu Hadoop – ist eine mühselige Arbeit. SAS beseitigt dieses Problem, indem es sie einfach automatisch konvertiert.

• SAS minimiert Datenverschiebungen und verbessert die Governance – und hebt die Performance deutlich spürbar an –, indem es die Datenverarbeitung über SQL-Pass-Through und den SAS Embedded Process in die Datenquelle verlegt. Der SAS Embedded Process ist ein Modul, das SAS Programme/Code beinahe überall ausführen kann: im Arbeitsspeicher, in Hadoop, in Oracle oder mit anderen Datenbanktechnologien.

• SAS stellt Self-Service-Funktionen für die Datenaufbereitung in intuitiven Benutzer - oberflächen bereit, sodass die Daten für einen größeren Benutzerkreis zugäng-lich sind, und das mit einem geringeren Schulungsaufwand. Das bietet den Vorteil, dass sich die IT-Abteilung nicht mehr ständig mit der Bereitstellung von Daten befassen muss und sich stattdessen produktiveren Aufgaben widmen kann.

• SAS macht flexible, sichere Techniken für die Verwaltung von Daten möglich. So setzt SAS zum Beispiel Techniken für den virtuellen Zugriff auf Daten ein, um schnell (einfach) virtuelle, für Business-Anwen der relevante Ansichten von Daten zu erstellen. Das geht schneller, und die Daten müssen dazu nicht extra verscho - ben werden. Und für die Durchsetzung von Sicherheitsrichtlinien erfolgt eine dynamische Datenmaskierung, sodass keine Gefahr für vertrauliche Daten besteht.

2: Unterstützung der Data Scientists mit Advanced Analytics-Techniken

Advanced Analytics-Lösungen von SAS ermöglichen es Ihnen, bessere Entschei-dungen auf Grundlage Ihrer Daten zu treffen. Herkömmliche ETL- und Daten inte-grationstechnologien verfügen nämlich nicht über die ausgereifteren Funktionen für statistische Analysen, die SAS innerhalb des ETL-Flusses bereitstellt. Dazu einige Beispiele:

• Häufigkeitsanalysen gehen weiter als simples Zählen. Mit ihrer Hilfe können Aus -reißer und fehlende Werte ermittelt werden, die andere Messgrößen (wie Mittel-wert, Durchschnittswert und Medianwert – Lagemaßzahl) verfälschen und sich negativ auf Analysen wie Prognosen auswirken können. Häufigkeitsanalysen werden auch eingesetzt, um Perzentile und Binning Limits zu ermitteln, damit man Daten-segmente erstellen kann, bei denen unterschiedliche Vorgehensweisen während der Modellierungs- und der Prognosephase erforderlich sind.

• Zusammenfassende Statistiken beschreiben die Daten durch Angabe von verschie - denen Messgrößen, wie zum Beispiel der Lagemaßzahl, Variabilität, Perzenti - len und Kardinalität. Kardinalität gibt an, wie viele eindeutige Werte es für eine bestimmte Variable gibt. Business Analytics-Experten setzen diese Technik ein, um Aufschluss über die Verteilung und die Varianz der Daten zu erhalten (während viele andere statistische Methoden üblicherweise davon ausgehen, dass die Daten normal verteilt sind).

• Korrelation wird während der Erstellung analytischer Modelle eingesetzt, wenn Business Analytics-Experten versuchen, die Daten zu verstehen und herauszu-finden, welche Variablen oder Kombinationen von Variablen sich für die Abgabe von Prognosen am nützlichsten erweisen. Business Analytics-Experten möchten gern wissen, welche Variablen sich möglicherweise aufeinander auswirken und in welchem Ausmaß das erfolgen kann (siehe Abbildung 2). Dabei sind sie nicht nur an einzelnen Variablen interessiert, sondern auch an Kombinationen mehrerer Variablen.

Das Datenmanagement für Analytics ist nicht das gleiche wie das Datenmanagement für ein Enterprise Data Warehouse. Analyti-sches Datenmanage-ment reichert die Daten an, wie z.B. Verdichtun-gen (Aggregationen) durchführen oder Meta - dateninfor mationen zu den Merkmalen (Variablen/Attributen) hinzufügen.

6

3: Bereinigung der Daten zur Qualitäts-steigerung bestehender Prozesse

Wussten Sie, dass 40 Prozent aller strategischen Prozesse aufgrund schlechter Daten danebenliegen? Als renommierter Vorreiter in Sachen Datenqualität weiß man bei SAS sehr genau, wie wichtig es ist, Daten zur Hand zu haben, auf die man sich ver -lassen kann.

Die Datenbereinigung beginnt mit dem Verstehen der Daten. Dazu wird ein Data Profiling durchgeführt, Datenwerte werden korrigiert (z.B. Schreibfehler), fehlende Daten hinzugefügt (z.B. die PLZ), doppelt vorhandene Daten oder Kundendaten-sätze ermittelt und entsprechend behandelt sowie Datenformate standardisiert (Datums werte, Währungsan gaben, Maßeinheiten). Zum Bereinigen kann auch die automa tische Auswahl der besten Datensätze und die Bereinigung von Daten in mehreren Sprachen gehören.

SAS verfügt über eine Plattform mit branchenführender Datenqualität, die:

• Bereinigungsfunktionen in Ihren bestehenden Integrations-Workflow einbringt und Ihre IT-Ressourcen so produktiver macht.

• Datenqualität in die Datenbankebene verschiebt – das heißt, die Verarbeitung der Daten erfolgt direkt in der Datenbank, um die Leistung zu verbessern.

• solche Daten aus dem Datensatz entfernt, die laut Ihrer analytischen Methode unzulässig sind – wie beispielsweise Ausreißer oder fehlende, redundante oder irrelevante Daten.

Abbildung 2: Eine Korrelations-Heatmap zeigt als Messgröße die Abhängigkeit zwischen Variablen an (d.h. wie stark Variablen voneinander abhängen).

7

• Daten über einen Prozess namens „Binning“ anreichert – was im Grunde bedeutet, dass Daten, die ursprünglich in kleineren Intervallen vorlagen, zusammen gruppiert werden. So hat zum Beispiel eine einzelne Altersangabe vielleicht keine große Relevanz, während Altersgruppen (wie „zwischen 35 und 45“) schon aussage - kräftiger sind. Oder ein „hoher Cholesterinspiegel“ kann dazu verwendet werden, alle Cholesterinwerte über 190 zusammenzufassen („in einen Topf zu werfen“). Das Binning bietet auch die Möglichkeit, die Kardinalität zu reduzieren, da diese Methode relevante Daten erstellt, wo vorher keine vorlagen.

4: Aufbereitung der Daten mithilfe flexibler Bearbeitungstechniken

Ohne flexible Methoden für die Verarbeitung von Daten kann es schwierig sein, den endgültigen Datensatz zu strukturieren. Der Grund dafür ist folgender: Typische Analysemethoden erwarten eine flache Datenbanktabelle, nach dem Prinzip „eine Zeile pro Subjekt“. Eine flache Datenbanktabelle ist eine einzige Tabelle, die alle Daten aus sämtlichen Quellen enthält und so strukturiert ist, dass jeder Datensatz alle Informationen enthält, die für das zu untersuchende Subjekt relevant sind.

Daten in ein flaches Datenformat zu bekommen, kann ziemlich problematisch sein. Wenn Sie zum Beispiel vorhersagen möchten, wann Ihre Kunden abwandern, müssen Sie dazu Kundendaten verwenden, die in den verschiedensten Quellen erfasst wurden (Data Warehouses, transaktionsbasierte Quellen und Datenquellen von Drittanbietern). Anschließend müssen diese Daten dann so angeordnet werden, dass es zu jedem Kunden eine einzige Zeile gibt. Der resultierende Datensatz kann sehr breit werden, selbst tausende von Spalten sind möglich.

Für den Umgang mit solchen breiten Tabellenstrukturen sind Datenbanksysteme nicht ausgelegt. Daher ist in vielen Datenbanksystemen die Anzahl von Spalten begrenzt, die eine einzelne Tabelle haben darf. Transaktionssysteme zeichnen jede Transaktion auf, während sie stattfindet. Das hat dann zur Folge, dass zu jedem Kunden eine große Anzahl von Datensätzen vorhanden ist. Diese Transaktionsdaten-sätze müssen konsolidiert und umstrukturiert werden, damit sie mit den Kundendaten - sätzen, die aus dem Data Warehouse stammen, verknüpft werden können.

Dieses Umstrukturieren der Daten ist ein gutes Beispiel für eine Datenverarbeitungs-aufgabe, die sich als überaus mühselig erweisen kann. Wenn diese Aufgabe pro - grammtechnisch erfolgen soll, können dazu mehrere hundert Zeilen Code erfor der-lich sein. Die Transaktionsdaten müssen nämlich sortiert werden, dann müssen Gruppen von Transaktionen für einen bestimmten Kunden identifiziert werden, und schließlich müssen die Transaktionen zusammengefasst werden, vielleicht sogar noch pro Produkt. Die daraus resultierende „neue“ Datenstruktur muss in die ABT (Analytical Base Table, eine flache Tabelle mit allen Merkmalen pro Subjekt in einer Tabellenzeile ) passen (also „eine Zeile pro Subjekt“), die dann für die Analyse verwendet werden soll.

SAS macht dank intuitiver, grafischer Benutzeroberflächen das Umstrukturieren von Transaktionsdaten einfacher. Zusätzlich können Sie auch noch weitere Datentrans-formationen verwenden. Dazu gehört die Häufigkeitsanalyse, um die Anzahl von Kategorien von Variablen zu reduzieren, das Anreichern von Daten, das Aufteilen/Aufsplitten und Zusammenfassen von Daten sowie eine Vielzahl unterschiedlicher Aggregations- oder Verdichtungstechniken.

Datenaufbereitung ist der Schlüs-sel für die Erstellung erfolgreicher analytischer Modelle.

Ein Unternehmen, mit dem SAS zusammengearbeitet hat, konnte bisher beim Bereitstellen der ana - lytischen Modelle die Metadaten-informationen und Transforma-tionslogiken von der Entwicklung in den Produktivbetrieb nicht wiederverwenden. Das hatte dann zur Folge, dass zahlrei che IT-Mit-ar beiter sechs Monate lang damit be schäftigt waren, das Modell erneut zu kodieren, zu testen und bereitzustellen. Dies verursachte bisher 1 Million US-Dollar an zusätzlichen Kosten für das Unter-nehmen, die nun eingespart werden können.

8

5: Gemeinsame Nutzung von Metadaten im Datenmanagement- und Analytics-Bereich

SAS verfügt über eine zentrale Metadatenschicht, die es erlaubt, dass Daten-aufbereitungsprozesse durchgängig wiederholt werden können. Dies ermöglicht eine effi zientere Zusammenarbeit zwischen den Mitarbeitern, die die Daten zu Beginn aufbereiten, und den Data Scientists und Business Analytics-Experten, die den Datenaufbereitungsprozess und die Entwicklung des analytischen Modells dann abschließen.

Gemeinsam genutzte Metadaten enthalten auch Informationen zur Herkunft der Daten für den Datenaufberei tungsprozess, die Aufschluss über Folgendes geben: Woher stammen die Daten? Welche Qualität haben sie? Was für Daten wurden genutzt, und wo sonst wurden sie noch genutzt? Wie wurden die Daten transfor-miert? Welche weiteren Berichte oder Informationsprodukte wurden unter Verwen-dung dieser Daten entwickelt?

Aufgrund des gemeinsam genutzten Metadaten-Repository zwischen der Daten-aufbereitungs- und der Modellentwicklungsumgebung ist die Bereitstellung von Modellen mit SAS einfacher. Da jedes Modell mittels Metadaten registriert und zusammen mit den Anforderungen an die Daten verfügbar gemacht wird, gestaltet sich die Anpassung weniger aufwändig.

€$ ¥

Customers Products Channel Type Stores

PurchaseTransactions3rd Party

CustomerDemographics Promotional

History

SalesTerritories

CustomerSpend(last 6 months)

Average TimeBetween Purchases

New Derived ColumnsDistance to Nearest Store

Additional Derived Columns

Transformation De-Normalization

Analytical Base Table

Sou

rce

Dat

a

Customer Data Product Data Store Channel Promotion Territory

Abbildung 3: Die Datenaufbereitung für Analytics erfordert, dass Quelldaten zusammengeführt, umgewandelt und denormalisiert werden. Manchmal müssen Daten aus mehreren Tabellen in einer sogenannten ABT (Analytical Base Table, Analysebasistabelle) zusammengefasst werden, die mehrere tausend Spalten umfassen kann.

9

Durch die Verwendung von Metadaten im Verlauf des gesamten Analytics-Lebens-zyklus lassen sich Einsparungen auf verschiedenen Ebenen erzielen. Wenn gemeinsam nutzbare Metadaten als Grundlage für den Modellentwicklungsprozess dienen, wiederholen sich die Abläufe bei der Datenaufbereitung nicht so häufig und der mit der Modell erstellung verbundene Aufwand und die Herausforderungen bei der Bereitstellung reduzieren sich. Das bietet verschiedene Vorteile, wie zum Beispiel:

• schnellere Tests und höhere Produktivität dank automatisierter Modellentwicklung und Bewertung.

• Erstellung von mehr Modellen mit einer größeren Genauigkeit dank der automa-tisierten Modellverwaltung.

• kürzere Zyklen, was die Profitabilität steigert und relevantere und aktuellere Modelle zur Folge hat.

• kürzerer Zeitaufwand für alltägliche Arbeiten an Daten, so dass mehr Kapazitäten für die Modellentwicklung und -evaluierung zur Verfügung stehen.

• wiederverwendbares Know-how, das im gesamten Unternehmen erneut genutzt werden kann, nachdem es während der Datenaufbereitung gefunden wurde.

• höhere Flexibilität bei der Anpassung an Veränderungen, da sich der Lebenszyklus von Analytics durch eine bessere Verwaltbarkeit und Governance auszeichnet.

• prüffähige, transparente Daten, die gesetzlichen Anforderungen entsprechen – Sie können die Daten vom Anfang bis zum Ende nachverfolgen.

Vertrauenswürdige Daten, bewährte Analytics Wenn Sie sich beim Datenmanagement an die Best Practices von SAS halten, können Sie dafür sorgen, dass Ihre Organisation einen maximalen Nutzen aus Advanced Analytics zieht. Unser branchenführender Ansatz ermöglicht Ihnen den Zugriff auf alle Arten von Rohdaten und deren Bereinigung, Transformation und Aufbereitung für den Einsatz in Analytics. Wenn Sie aus Ihren Daten kontinuierlich Neues erfahren, können Sie diese Erkenntnisse in Ihre analytischen Modelle integrieren, mit anderen Mitarbeitern teilen und Entscheidungsfindungsprozesse im gesamten Unternehmen automatisieren.

Erfahren Sie mehr darüber, wie SAS, ein renommierter Vorreiter in Sachen Daten-qualität, Datenintegration und Advanced Analytics, Best Practices für das Daten-management unterstützt und auch Ihrem Unternehmen hilft, einen Wettbewerbs - vorteil zu erzielen:

www.sas.com/daten

SAS and all other SAS Institute Inc. product or service names are registered trademarks or trademarks of SAS Institute Inc. in the USA and other countries. ® indicates USA registration. Other brand and product names are trademarks of their respective companies. Copyright © 2017, SAS Institute Inc. All rights reserved.

To contact your local SAS office: www.sas.com/germany Phone: +49 6221 415-123 www.sas.com/austria Phone: +43 1 252 42-0 www.sas.com/switzerland Phone: +41 44 805 74-74

P12

160

330