Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik •...
Transcript of Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik •...
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Vorbesprechung
Praktikum: Data Warehousing und
Data Mining
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 2
Team • Matthias Bracht
• matthias DOT bracht AT stud DOT uni-karlsruhe DOT de
• Frank Eichinger • eichinger AT ipd DOT uka DOT de
• Matthias Huber • matthiashuber AT gmx DOT de
• Steffen Lang • steffen DOT lang AT stud DOT uni-karlsruhe DOT de
• Stephan Schosser • schosser AT ipd DOT uka DOT de
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 3
Motivation • Grosse Datensammlungen in Unternehmen
• Jede Abteilung hat eigene Datenbestände • Daten beschreiben alle Aspekte der Organisation
• Wissen in Daten nicht offensichtlich • Zu viele Attribute • Niemand hat Überblick über alle Daten • Mitarbeiter wechseln, alte Daten werden uninterpretierbar • Daten im Unternehmen verstreut
• Thema • Wie in der Vorlesung:
Wie kommt man in diesem Szenario zu Wissen? • … praktisch an Beispielen mit marktüblicher Software
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 4
Data Warehousing
• Ziel • Integration von Unternehmensdaten in zentralen
Datenbestand • Anfragen / Analysen auf diesem Datenbestand
• Charakteristika • Materialisierte Sichten auf unterschiedliche andere Quellen • Daten aus unterschiedlichen Quellen im Unternehmen • Daten meist sind aggregiert OLAP (Online Analytical Processing)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 5
OLAP vs. OLTP (Data Warehouse vs. Datenbank)
transaktional analytisch Fokus Lesen, Schreiben,
Modifizieren, Löschen Lesen, periodisches Hinzufügen
Transaktionsdauer und -typ
Kurze Lese- / Schreibtransaktionen
Lange Lesetransaktionen
Anfragestruktur Einfach strukturiert komplex
Datenvolumen einer Anfrage
Wenige Datensätze Viele Datensätze
• Anfragecharakteristika
nach Bauer, Günzel (Hrsg): Data Warehouse Systeme – Architektur, Entwicklung, Anwendung
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 6
Data Warehousing in diesem Praktikum • Benutzung der Tools
• Oracle und Cognos ReportStudio
• Oracle • Datenwürfel entwerfen • Anfragen auf dem relationalen Datenbestand • Datenwürfel erstellen
• Cognos • Stellen von Anfragen auf dem Würfel • Erstellen von Analysen
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 7
Data Mining • Menge von Techniken
• Klassifikation Ist der Kunde kreditwürdig?
• Clustering Welche Kundengruppen gibt es?
• Assoziations Rules Welche Produkte werden zusammen gekauft?
• Ziel • Finden interessanter Muster und Eigenschaften in
großen Datenbeständen
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 8
Data Mining in diesem Praktikum
• Benutzung der Tools • SPSS Clementine • Weka • Knime
• Aufgaben zu • Datenbereinigung • Klassifikation • Optionalem Thema
• Daten aus dem Data Mining Cup
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 9
Synergieeffekte Data Warehousing und Data Mining
• Aufwändigster Schritt: Datenbereinigung • Fällt bei Data Warehousing und Data Mining an Daten des Data Warehouse eignen sich für Data Mining
• Data Mining als Analysekonzept im Data Warehouse
• Problem: • Data Mining benötigt operative, transaktionsorientierte Daten
(z. B. Kassenbons) • Data Warehouse benötigt häufig aggregierte Daten
granulare Informationen gehen verloren
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Data Preprocessing
Praktikum: Data Warehousing und
Data Mining
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 11
Motivation • We are drowning in information, but starving
for knowledge! (John Naisbett)
• Was genau ist Datenanalyse?
• Was ist Data Mining? • Techniken zur Mustererkennung • Ziel: unerwartete Muster • Beispiele für Muster: Assotiation Rules, Cluster…
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 12
Von Daten zur Entscheidung (Gianotti und Pedreschi)
Inspektion
Aggregation (zielgerichtet)
Interpretation Entscheidung • Sonderangebot für Produkt
A in Gebiet Z • Mailings an Familien mit
Profil P • Cross-Selling von Produkt
an Kunden C
Wissen • Anzahl Y des Produkts A
wird in Gebiet Z verwendet
• Kunden der Klasse Y verwenden x% von C in Zeitraum D Information
• X lebt in Z • S ist Y Jahre alt • X und S sind umgezogen • W hat Geld in Z Daten
• Kundendaten • Daten aus den Filialen • Demographische Daten • Geographische Daten
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 13
Knowledge Discovery in Databases
Interpretation
Data Mining
Datenbereinigung
Datenauswahl
Konsolidierung
Zieldefinition
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 14
Data Mining Projekt - Zeitaufwand
• Problemspezifikation: 20% • Was ist das Problem? • Wie sollte das Ergebnis aussehen? • Formale Spezifikation
• Finden von Wissen: 80% • Datenbeschaffung • Datenaufbereitung (Data Preprocessing) 60% • Data Mining • Evaluierung • Weiterführende Massnahmen
Vgl.: Vorlesung „Data Mining for Business Applications“; M. Spiliopoulou
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Vorverarbeitung
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 16
Teilnehmerliste des Praktikums • Ziel:
• Alle Studenten sollen teilnehmen! • Vorgehen
• Liste wurde handschriftlich ausgefüllt • Dann in Teilnehmerdatenbank übertragen
• Probleme • Feld männlich/weiblich fehlt
• Ist Conny männlich oder weiblich? • Feld Fachsemester ist nicht vielsagend
• Student ist im 15. Fachsemester, hat aber 5 Jahre davon Data Warehouses administriert
• Feld Prüfung Datenbankeinsatz Vorlesung fehlt • Ist Prüfung geplant oder nie angedacht? • Wurde aus Datenschutzgründen auf Angabe verzichtet?
• Beim Übertragen in Datenbank treten Fehler auf • E-Mail Adressen sind undeutlich geschrieben • Übertragender ist im Stress und liest nur oberflächlich
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 17
Teilnehmerliste des Praktikums II • Probleme (fortges.)
• Eintrag in der Teilnehmerdatenbank ist 30 Fachsemester • Gibt es einen gravierenden Unterschied zwischen 25 und 30
Semester? • Student hat Datenbankeinsatz im „SoSe 2007“ gehört.
• Suche nach SS05 (Datenbankstandardformat) wirft Datensatz nicht aus
• Was ist zu tun? • Hier:
• Alle Angemeldeten können teilnehmen. • „Politisch korrekt“
• Aber: • Was, wenn Unternehmenserfolg von Prognose abhängt?
• Dann: • Datenqualität essentiell • Daten müssen vorverarbeitet werden
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 18
Eigenschaften von Produktivdaten • Daten sind meist…
• Unvollständig • Enthalten NULL-Werte • Enthalten Aggregate • Interessante Informationen fehlen
• Verunreinigt: • Enthalten Fehler • Enthalten Ausreißer
• Inkonsistent: • Daten in unterschiedlichen Quellen inkonsistent
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 19
Data Preprocessing – Vorgehen • Analyse der Daten
• „Ansehen“ einzelner Tupel / Aggregate von Tupeln • Deskriptive Statistik • Visualisierung der Eingangsdaten
• Durchführung des Data Preprocessing • Datenbereinigung • Datenintegration • Datentransformation • Datenreduktion
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 20
„Ansehen“ der Daten • Nutzen:
• Oft sind Eigenschaften am leichtesten beim direkten Betrachten der Daten zu entdecken
• Meist erster Schritt des Data Preprocessing
• Beispiele • Entdecken von NULL-Werten • Skalentypen der Werte • Größe der Wertebereiche • Diskrepanz zwischen Attributlänge und Datenlänge • …
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 21
Skalentypen
• Anwendbarkeit der Statistiken abhängig vom Skalentyp • Mittelwert des Geschlechts • Modalwert der Prüfungsnoten
Skalentyp Wertebereich Mögliche Operationen Beispiele
Nominale Größen diskret, endlich
Gleichheit Geschlecht Augenfarbe
Ordinale Größen diskret, endlich, Ordnung
Gleichheit, größer / kleiner als
Prüfungsnoten Schulabschluß
Intervallgrößen kontinuierlich bzw. ganzzahlig, unendlich
Gleichheit, größer / kleiner als Differenz
Datum Temperatur
Ratiogrößen kontinuierlich bzw. ganzzahlig, unendlich
Gleichheit größer / kleiner als Differenz Verhältnis
Abstand Alter
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 22
Deskriptive Statistik • Nutzen
• Identifikation typischer Dateneigenschaften • Identifikation von Ausreißern und Datenfehlern
• Wichtige Statistiken • Masse für die Zentralität
• Mittelwert • Median • Modalwert
• Masse für die Verteilung • Interquartilabstand • Varianz • Skewness • …
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 23
Masse für Zentralität • Mittelwert
• Entspricht average (avg()) in SQL • Median
• „Mittlere Wert“ aller sortierten Werte • Durchschnitt der zwei „mittleren Werte“ bei gerader Wertanzahl
• Modalwert • Häufigster Wert • Abhängig von Anzahl der Werte: unimodal, bimodal, …
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 24
Masse für die Verteilung I • Quartil
• Seien Daten aufsteigend sortiert • 1. Quartil enthält unterste 25% der sortierten Werte • 2. Quartil enthält untere 25% - 50% der sortierten Werte • usw.
• Interquartilabstand • Abstand zwischen drittem und erstem Quartil • Einfaches Maß für die Verteilung der Daten
• Varianz
• Nur sinnvoll, wenn Mittelwert als Zentrum der Daten • Maß für die Verteilung der Daten
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 25
Masse für die Verteilung II • Skewness
mit und
• Mass für Abweichung von symmetrischer Verteilung
rechtssteil symmetrisch linkssteil
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 26
Masse für die Verteilung III • Kurtosis
mit und
• Mass für Krümmung der Verteilung
leptokurtic Gauss platikurtic
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 27
Visualisierung der Eingangsdaten • Nutzen
• Menschliches Gehirn ist auf Erfassung graphischer Inhalte optimiert
• Mehrere Aspekte können simultan untersucht werden
• Wichtige Visualisierungen • Boxplot • Histogram • Scatterplot • Web • Parallelkoordinaten
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 28
Visualisierung - Boxplot • Fasst mehrer statistische Masse zusammen
• Zeigt • Mittelwert, Quartile, Minimum
Maximum, Interquartilabstand
• Nutzen • Finden der Verteilung • Finden von Ausreißern
Mittelwert
2. Quartil
1. Quartil
3. Quartil
Minimum
Maximum
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 29
Visualisierung - Histogram • Zeigt die Verteilung einzelner, numerischer Attribute • Verteilung abhängig von kategorischem Attribut
möglich • Darstellung der Anzahl • Prozentsatz interpretierbar • Kenngröße gegebenenfalls
in Buckets gruppiert
• Nutzen • Finden von Ausreisern • Finden der Verteilung • Erkennen von Tupel-
charakteristika
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 30
Visualisierung – Scatterplot • Visualisiert einzelne Tupel • Bis zu drei numerische Attribute angebbar • Formatierung der Datenpunkte abhängig von
weiteren Attributen
• Nutzen • Finden von Korrelationen • Finden von Clustern • Finden von Ausreisern
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 31
Visualisierung – dreidimensionaler Scatterplot
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 32
Visualisierung - Webs • Visualisiert Beziehungen zwischen zwei
kategorischen Attributen • „Dicke“ Verbindungslinie zwischen häufig
auftretenden Attributwertkombination
• Nutzen • Frequent Itemsets
erkennbar • Beziehungen auffindbar
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 33
Parallelkoordinaten • Visualisiert unterschiedliche Attribute • Attributwerte normiert auf einheitliche Skala • Einfärbung nach Klasse • Pro Tupel ein Graph
• Nutzen • Erkennen von
Tupelcharakteristika • Finden von Selektionsattributen
Attribut A Attribut B Attribut C Attribut D
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 34
Exkurs: Risiken I
Quelle dieser und der folgenden Diagramme: D. Huff: How to Lie with Statistics bzw. W. Krämer: So lügt man mit Statistik. Nach einer Auwahl von C. Borgelt: Inteligent Data Analysis
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 35
Exkurs: Risiken II
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 36
Data Preprocessing – Vorgehen • Analyse der Daten
• „Ansehen“ einzelner Tupel / Aggregate von Tupeln • Deskriptive Statistik • Visualisierung der Eingangsdaten
• Durchführung des Data Preprocessing • Datenbereinigung • Datenintegration • Datentransformation • Datenreduktion
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 37
Datenbereinigung
• Beseitigung von… • fehlenden Werten • verunreinigten Daten
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 38
Beseitigung von fehlenden Werten I • Ignorieren von Tupeln
• Notgedrungen bei Klassifikation: fehlt Klasse • Sinnvoll wenn in Tupel viele Werte fehlen • Sonst vorsichtig:
• Fehlender Wert kann Logik sein • Kritisch, wenn Häufigkeit der fehlenden Werte unter Attributen
unterschiedlich • Beispiele:
• Beruf: Hausfrau • Sensor fällt bei großer Kälte aus
• Manuelles Auffüllen • Nur bei geringer Zahl fehlender Werte sinnvoll • Auffüllender muss über Expertenwissen verfügen
• Ersetzen durch globale Konstante • Beispiel: Alles durch „unbekannt“ oder „-∞“ • Aber vorsichtig:
• Kann als besonderer Wert interpretiert werden
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 39
Beseitigung von fehlenden Werten II • Einsetzen des Mittelwertes
• Beispiel: Mittelwert des Einkommens • Aber: nur bei metrischen Attributen sinnvoll • Vorsicht: Daten werden gebiast
• Einsetzen des Mittelwertes der Klasse • Beispiel: Mittelwert des Einkommens über alle in derselben Kreditrisiko-
Klasse • Aber: nur bei metrischen Attributen sinnvoll • Vorsicht: Daten werden gebiast
• Einsetzen des wahrscheinlichsten Wertes • Finden des Wertes über Modalwert • Finden mit Klassifikationsalgorithmen • Vorsicht: Daten werden gebiast
• Wichtig: • Einige Algorithmen können mit fehlenden Daten umgehen
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 40
Beseitigung von verunreinigten Daten • Binning
• …mit gemeinsamer Häufigkeit • Ersetzen durch Mittelwert • Ersetzen durch Median • Ersetzen durch nächste Bucketgrenze
• …mit gemeinsamer Breite der Buckets • Hilft bei Glätten der Eingangsdaten
• Regression • Daten werden durch Regressionsfunktion beschrieben
• Clustering • Daten werden geclustert • Dabei können Ausreißer identifiziert werden
• Hinweis: • Verfahren können auch zur Datenreduktion genutzt werden
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 41
Datenintegration
• Ziel… • Integration von Daten aus
verschiedenen Quellen
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 42
Datenintegration • Daten aus Unternehmensquellen
• … ähnlich Data Warehousing • Jetzt nicht Fokus
• Daten aus zusätzlichen Quellen • Frei verfügbar
• Postleitzahlen zu Adressen • Umrechnungskurse zwischen Währungen
• Extern zukaufbar • Schufa-Daten • Daten von der Post • Diverse andere Datenquellen
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 43
Datenintegration - Schwierigkeiten • Entitätsidentifikationsproblem
• Attributnamen: • Stimmt „Kunden-ID“ mit „Kundennummer“ überein?
• Attributwerte: • Ist „m“ in Geschlecht gleich „männlich“?
• Korrelationsanalyse • Finden von Redundanzen:
• Mehrinformation Jahres- gegenüber Monatseinkommen
• Skalierungsprobleme • Beispiele:
• Temperaturen in Celsius bzw. Fahrenheit • Einkommen in Dollar bzw. Euro
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 44
Datentransformation
• Ziel • Vorbereitung der Daten
für das Data Mining
-3; 45; 12,0; 17
-0.03, 0.45, 0.12, 0.17
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 45
Datentransformation • Bereinigung von Daten
• Wie eben • Aggregation
• Aggregat über Tageseinnahmen zu Monatseinnahmen • Besonders interessant, wenn auch Data Warehouse erstellt wird
• Generalisierung • Daten werden auf sinnvolles Niveau aggregiert • Beispiel: Von Adresse auf Stadt
• Normalisierung • Skalierung auf überschaubaren Wertebereich • Beispiel: auf 0,0 bis 1,0
• Attributgenerierung • Zusammenfassen mehrerer Attribute zu einem • Beispiel: Umrechnung in Vergleichswährung
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 46
Datentransformation – Normalisierung (Bsp.)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 47
Datenreduktion
• Ziel: • Eingrenzen des
Curse of Dimensionality
B3
A2 A3 … A150 A1
… B200
B2 B1
… B154
B3 B1
A3 … A123 A1
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 48
Feature Selection • Vorteile
• Gewonnene Regeln sind leichter interpretierbar • Skalierbarkeit ermöglicht
• Vorgehen (allgemein) • Bestimmen des Attributwertes
• … über statistische Signifikanz • … über Information Gain
• Vorgehen (Alternativen) • Schrittweise Vorwärtsselektion
• Ausgangssituation: Leere Attributmenge • Rekursive Erweiterung um je ein Attribut
• Schrittweise Rückwärtsselektion • Ausgangssituation: Vollständige Attributmenge • Rekursive Entfernung um je ein Attribut
• Entscheidungsbauminduktion • Entscheidungsbaum wird generiert • Alle Attribute im Entscheidungsbaum werden genutzt
• Optional: • Expertenwissen nutzen
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 49
Sampling • Motivation
• Zu viele Lerndatensätze • Balancieren der Klassengröße
• Vorgehen • Auswahl einzelner Tupel
• Einfaches zufälliges Sampling • Zufälliges Ziehen von Tupeln
• Stratified Sampling • Attribut wird gewählt • Anteil der einzelnen Attributwerte in Ausgangsdaten gleich
dem Anteil im Sample
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Organisatorisches
Praktikum: Data Warehousing und
Data Mining
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 51
Veranstaltungstermine
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 52
Data Mining Cup • Thema: Lotterielose
• Fragestellung: Wie lange spielen Kunden? • Ziel: Kunde soll richtig eingeordnet werden
• Aufgabenstellung und Anmeldung unter • http://www.data-mining-cup.de
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining
Ausflug – Besuch von IBM in Böblingen • Programm (für den 16.05.08)
• 7:00 Abfahrt Karlsruhe • 9:30 Welcome und Überblick BB Lab • 10:00 DB2 Warehouse Überblick • 11:00 Kaffeepause • 11:30 Data Mining mit Demo • 12:30 Mittagessen • 13:30 Unstructured Analytics mit Demo • 14:30 Chiptest Demo • 15:30 Karriere bei IBM • 17:00 Ankunft Karlsruhe
53
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 54
Scheinvoraussetzungen • Für jede Leistung sind Punkte erreichbar
• Zwischenpräsentation Data Mining Cup: 2 Punkte • Jedes Team präsentiert Lösung in 15 Minuten
• Ergebnis Data Mining Cup: 7 Punkte • Lösung unter Top 12,5%: 7 Punkte • Lösung unter Top 25,0%: 6 Punkte • Usw.
• Data Mining (II): 3 Punkte • Je nach Qualität der Lösung 0 bis 3 Punkte
• Data Warehousing (I): 3 Punkte • Je nach Qualität der Lösung 0 bis 3 Punkte
• Data Warehousing (II): 3 Punkte • Je nach Qualität der Lösung 0 bis 3 Punkte
• Summe: 18 Punkte • Scheinvoraussetzung:
• Erlangen von 10 Punkten und mehr und Teilnahme am Ausflug!
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 55
Tutoren • Teams
• Je 4 Studenten • Geben Lösungen gemeinsam ab
• Tutorien • Je 1,5 Stunden pro Team, Woche
• Tutoren • Betreuen je 2 Team • Führen Tutorien durch • Sind Ansprechpartner nach den Veranstaltungen • Nehmen auch am Data Mining Cup teil
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 56
Was fehlt noch? • Ausblick auf nächste Woche
• Klassifikation
• Bestätigung der Teilnahme
• Anmeldung beim Data Mining Cup!
• Accounts beantragen
• Termin für die folgenden Treffen • Nächste Woche Montag 9:45 (Wichtig: bis 13:00 Uhr)
• http://dbis.ipd.uni-karlsruhe.de/dwm2008.php
• Verteilung auf Tutoren
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 57
Quellen
J. Han und M. Kamber: „Data mining : concepts and techniques“, Morgan Kaufmann, 2006.
C. Borgelt: Folien zur Vorlesung „Intelligent Data Analysis“, 2004
F. Klawonn: Folien zur Vorlesung „Data Mining“, 2006.
M. Spiliopoulou: Vorlesung „Data Mining for Business Applications“, 2003.
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 58
Tutorentermine
Steffen Lang Montag 11:30 Uhr Christoph, Fabian, Robert, Mirko Dienstag 11:30 Uhr Tilmann, Marcel, Moritz, Mathilde
Matthias Bracht Montag 11:30 Uhr Grigor, Kristina, Hristina, Pierre Dienstag 11:30 Uhr Matthias, Ahmet, Dan, Benjamin
Matthias Huber Montag 14:00 Uhr Martin, Feng, Elena, Kiril Montag 15:45 Uhr Roland, Michael, Alexander