Business and Data Understanding
Business und Data Understanding
Business and Data Understanding
Gliederung
1. Grundlagen
2. Von Data Warehouse zu Data Mining
3. Das CRISP-DM Referenzmodell
4. Die Phasen Business- und Data Understanding
5. Überblick der weiteren Phasen
6. Neue Entwicklungen und andere Modelle
7. Abschließende Bewertung
Business and Data Understanding
1. GrundlagenEntscheidungen unterstützen heißt Daten ...
• sammeln• aufbereiten• abfragen• auswerten• präsentieren
Data Warehouse (DW) := Datenbank, die strategische Entscheidungen unterstützt, indem sie ...
• umfangreiche und• regelmäßige Auszüge aus• Produktionsdatenbanken• periodenbezogen und• oft aggregiert• Endbenutzern• auch zur ad hoc-Analyse bereit stellt
Business and Data Understanding
DatenbankabfragenDatenbankzugriffe sind idealer Weise flexibel und führen mit geringem Aufwand
zur Formulierung von Abfragen und Analysen
Business and Data Understanding
Abfragearten SQL := Structured Query Language (deklarativ)
interaktiv oder in ein Programm eingebettet
QBE := Query by example
OLAP := On Line Analytical Processingermöglichen auch ungeübten Benutzern flexible und mehrdimensionale ad-hoc-Abfragen von analytischen Datenbanken
Business and Data Understanding
2. Von Data Warehouse zu Data Mining
Kurze ZusammenfassungAbfrage und Berichtssprachen wie QBE, SQL standardisiert und mächtig, aber
für gelegentliche Benutzer zu schwierig
OLAP-Werkzeuge hingegen erlauben auch gelegentlichen Benutzern flexible, mehrdimensionale Abfragen
Methoden allerdings eher anfrage-zentriert und von der Analysekomplexität her einfach
Data Mining Werkzeugeerlauben komplexere Analysen
lassen den Benutzer in Massendaten nach verborgenem Wissen "schürfen"
Business and Data Understanding
Der Begriff Data Mining
to mine for heißt schürfen nach▼
Data Mining :=nichttriviales, automatisches Schürfen nach Wissen in Massendaten
wobei meist Data Warehouses als Datenlieferanten dienen
steht als Synonym für „Datenmustererkennung“nichttrivial: mit komplexen Methoden aus KI und Statistik (statt der
herkömmlichen Datenbankwerkzeug und nicht nur mit SQL, OLAP und Berichtsgeneratoren)
Massendaten: z.B. Daten über Prospekt-Empfänger, oder aus Direct Mailing Kampagne (Analyseziel dann Vorhersage jener Adressaten, die positiv auf Kampagne reagieren)
Business and Data Understanding
Data Warehouse
▼Daten
· relevant
· genügend
· zuverlässig
▼
Data Mining
▲Hypothesen über ...
· wichtige Attribute
· Beziehungen
▲
Betriebliches Fachwissen
Business and Data Understanding
3. Das CRISP-DM ReferenzmodellProjekt und Konsortium
Projekt (Cross Industry Standard Process for Data Mining) im Juli 1997 offiziell mit der Bildung des Konsortiums initiiert
Initiatoren, die zusammen eine Lösung für das Fehlen einer gut definierten und dokumentierten Methode für Data Mining suchten, sind: NCR Dänemark (u.a. Lieferant von Datawarehousing Lösungen) Der DaimlerChrysler Konzern (damals DaimlerBenz; Unternehmen mitBeteiligungen in u.a. der Autoindustrie, Luft- und Raumfahrttechnologie und Telekom)erweitert um die englische „Integral Solutions Limited“ (ISL), das Anbieter des Data Mining Pakets Clementine (1994) und durch eine Übernahme seit Januar 1999 Teil von SPSS ist„OHRA Versicherungen und Bank Gruppe“, Niederlande
Das Projekt CRISP-DM wurde teilweise subventioniert von der Europäischen Kommission im Rahmen des ESPRIT-Programms zur Förderung von technologischen Entwicklungen in Europa (bis Mitte 1999)
Business and Data Understanding
Das Prozessmodell
http://www.crisp-dm.org/Process/index.htm
Business and Data Understanding
Aus: „Zwischen Goldesel und Sternschnuppe“, SPSS in der Praxis, M. Feldkircher, 2002
Business and Data Understanding
4. Die Phasen Business- und Data UnderstandingPhase 1 Business Understanding
Business and Data Understanding
Phase 2 Data Understanding
Business and Data Understanding
5. Überblick der weiteren Phasen
Data Preparation- deckt alle Tätigkeiten zur Konstruktion einer endgültigen Datenmenge
(Daten, die zur Weiterverarbeitung in die Modell-Werkzeuge gesteckt werden) aus den Roh-Daten ab
- Aufgaben dieser Phase können mehrmals und auch in variabler Reihenfolge abgearbeitet werden
- Die Aufgaben umfassen Tabellen- , Records- und Attribut-Selekion ebenso wie Transformation und "Säuberung" der Daten für andere Modell-Werkzeuge
Modeling- hier werden diverse Modellierungs-Techniken ausgewählt und angewendet,
deren Parameter optimales Werten angepasst werden- typischer Weise gibt es immer mehrere Techniken für den selben Typ eines
Data Mining-Problems- einige Techniken haben spezielle Anforderungen an die Daten- deshalb ist ein Schritt zurück in die Phase Data Preparation oft notwendig
Business and Data Understanding
Evaluation- Grundlage: bisher erzeugte Modelle mit hoher Qualität- nochmaliges sehr gründliches Bewerten des bisherigen Modells (erste
Schritte zur Erzeugung des Modells nachzuprüfen, um sicher zu sein, dass es die betriebswirtschaftlichen Ziele tatsächlich erreicht)
- zentrales Ziel: feststellen, ob es ein wichtiges betriebs-wirtschaftliches Problem gibt, das bisher noch nicht zufriedenstellend berücksichtigt wurde
- am Ende dieser Phase: Abwägung des Nutzens der DM-Ergebnisse
Deployment- Erzeugung eines Modells ist im Allgemeinen nicht das Ende des Projekts- Selbst wenn das Ziel war, die Kenntnisse über die Daten zu vertiefen muß
das erlangte Wissen aufgearbeitet und dem Kunden so präsentiert werden, dass dieser es problemlos verwenden kann
- diese Entwicklungsphase kann in der Erstellung eines simpel Berichts oder in der komplexen Implementierung eines wiederholbaren Data Mining Prozesses in der gesamten Unternehmung bestehen
- Um effizient Nutzen aus dem Modell ziehen zu können, ist es notwendig, den Kunden bestmöglich in die Entwicklung mit einzubeziehen
Business and Data Understanding
6. Neue Entwicklungen und andere ModelleAndere systematische Ansätze zum Thema Data Mining sind von vielen
Beratungsunternehmen entwickelt worden (besonders, um Prognose-Werkzeuge bereitzustellen)
SPSS bedient sich der „5 A‘s“Assess Access Analyze Act Automate
SAS benutzt „SEMMA“
Sample ExploreModifyModelAssess
Business and Data Understanding
SAS Rapid Warehousing Methodology- gewährleistet einen schnellen Return-On-Investment (ROI) bei Data-
Warehouse-Implementierungen
- Das Data Warehouse wird in einem iterativen Prozess implementiert (Erfahrungen aus einzelnen Projektabschnitten fließen in die nachfolgenden Phasen ein → optimale Erfolgskontrolle)
- Existierende Anwendungen können problemlos erweitert und neuen Fragestellungen angepasst werden
http://www.metagroup.de/studien/2002/businessintelligence/profile/sas-light.pdf
Business and Data Understanding
OgilvyOne worldwidegehört in Deutschland zu den Top 3 CRM/Dialogmarketing-Agenturen und fügt den sechs Phasen des klassischen CRISP-Modells mit dem Monitoring noch eine weitere hinzu
Aus: „Zwischen Goldesel und Sternschnuppe“, SPSS in der Praxis, M. Feldkircher, 2002
Business and Data Understanding
Two Crows Corporation
The Two Crows Process Model
Grundlegende Schritte des Modells, das sich am CRISP-DM orientiert, sind:
1. Define Business Problem2. Build DM Database3. Explore Data4. Prepare Data for modeling5. Build Model6. Evaluate Model7. Deploy Model and results
Business and Data Understanding
7. Abschließende BewertungVom CRISP-Standard versprachen sich die Initiatoren folgende Vorteile:
- Data Mining Ergebnisse schließen besser an die Business Problematik an;
- Produktivitätsverbesserung bei Systemanalytikern durch vorab definierte Schritte und Wiederverwendung von Kenntnissen;
- ein zuverlässiger Prozess durch bessere Vorhersehbarkeit & Beherrschbarkeit
- ein wiederholbarer Prozess durch das Festlegen von Schritten;
- schnelleres Data Mining mit Hilfe präziser Methoden
Erfahrungen:Vorteil von CRISP-DM:
bessere Anschluß an die Business Problematik, die Zuverlässigkeit und Wiederholbarkeit des Prozesses und die Wiederverwendung von Kenntnissen
DM Projekte immer zum größten Teil Menschenwerk (→ Qualitätsabhängigkeit), aber große Hilfe, wenn Unterstützung durch eine gute und strukturierte Methode vorhanden
Business and Data Understanding
Ergebnis einer Umfrage aus dem Jahr 2002
http://www.kdnuggets.com/polls/2002/methodology.htm
Top Related