Data Warehousing (I):Data Warehousing (I):...

49
Institut für Programmstrukturen und Datenorganisation (IPD) Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm Data Warehousing (I): Data Warehousing (I): SQL/ETL Praktikum: Data Warehousing und Data Mining Data Mining Praktikum Data Warehousing und Mining, Sommersemester 2010

Transcript of Data Warehousing (I):Data Warehousing (I):...

Page 1: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

Data Warehousing (I):Data Warehousing (I):SQL/ETL

Praktikum:Data Warehousing und

Data MiningData Mining

Praktikum Data Warehousing und Mining, Sommersemester 2010

Page 2: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

W i T iWeitere Termine

Praktikum Data Warehousing und Mining, Sommersemester 2010 2

Page 3: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

A dAgenda• Einführung Data WarehousesEinführung Data Warehouses

• Referenzarchitektur• Datenbeschaffung• Datenbeschaffung

• Online Transactional Processing (OLTP)D t i l ti it SQL• Datenmanipulation mit SQL

• Anfragen mit SQLf• Nächste Aufgabe

• Analyse von Graphen• Projekt LogoTakt• SQL, ETL, Visualisierung

Praktikum Data Warehousing und Mining, Sommersemester 2010 3

Page 4: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

Ei h f i D W hEigenschaften eines Data Warehouse• Integrierte Sicht auf beliebige Daten

• …aus verschiedenen Datenbanken• …Integration von Schemata und Daten aus Quellen

• Analyseaspekt• …multidimensionales Datenmodell• Online Analytical Processing (OLAP)• …Online Analytical Processing (OLAP)

• Stabile DatenbasisEi b ht D t d i ht h difi i t• Eingebrachte Daten werden nicht mehr modifiziert

• Neue Daten können aufgenommen werden

• Data-Warehouse-System• Komponenten zur Integration und Analyse + Data Warehouse

Praktikum Data Warehousing und Mining, Sommersemester 2010 4

Page 5: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

R f hi kReferenzarchitektur

Praktikum Data Warehousing und Mining, Sommersemester 2010 5

Page 6: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

D W h PData-Warehouse-Prozess• Monitoring

Ä• Entdecken und Melden von Änderungen in den Quellen (triggerbasiert, replikationsbasiert, zeitstempelbasiert, logbasiert, snapshotbasiert)

• Extraktion• Extraktion• Selektion und Transport von Daten aus den Quellen in den

Arbeitsbereich (periodisch, auf Anfrage, ereignisgesteuert, sofort)

• Transformation• Vereinheitlichung, Bereinigung, Integration, Konsolidierung,

Aggregierung und Ergänzung der Daten im Arbeitsbereichgg g g g g

• Laden• Laden der Daten aus dem Arbeitsbereich in die Basisdatenbank bzw.

ins Data Warehouse

• Analyse

Praktikum Data Warehousing und Mining, Sommersemester 2010• Analyse und Präsentation der Daten im Data Warehouse

6

Page 7: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

Vereinfachte Sicht auf die Referenzarchitektur

ExtraktionTransformationL d

Data

Analyse

Operative

Laden Warehouse

Datenbanken

OLAP ServerOLAP Server

Praktikum Data Warehousing und Mining, Sommersemester 2010 7

Page 8: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

F k j i P k ikFokus jetzt im PraktikumUnser Fokus jetztUnser Fokus jetzt

ExtraktionTransformationL d

Data

Analyse

Operative

Laden Warehouse

Datenbanken

OLAP ServerOLAP Server

Praktikum Data Warehousing und Mining, Sommersemester 2010 8

Page 9: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

A dAgenda• Einführung Data WarehousesEinführung Data Warehouses

• Referenzarchitektur• Datenbeschaffung• Datenbeschaffung

• Online Transactional Processing (OLTP)D t i l ti it SQL• Datenmanipulation mit SQL

• Anfragen mit SQLf• Nächste Aufgabe

• Analyse von Graphen• Projekt LogoTakt• SQL, ETL, Visualisierung

Praktikum Data Warehousing und Mining, Sommersemester 2010 9

Page 10: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

OLTP vs OLAPOLTP vs. OLAP(Datenbank vs. Data Warehouse)

• Anfragecharakteristika

transaktional analytisch

Anfragecharakteristika

Fokus Lesen, Schreiben, Modifizieren, Löschen

Lesen, periodisches Hinzufügen

Transaktionsdauer und Kurze Lese- / Lange -typ Schreibtransaktionen

gLesetransaktionen

Anfragestruktur Einfach strukturiert komplex

D t l i W i D t ät Vi l D t ätDatenvolumen einer Anfrage

Wenige Datensätze Viele Datensätze

nach Bauer Günzel (Hrsg):nach Bauer, Günzel (Hrsg): Data Warehouse Systeme – Architektur, Entwicklung, Anwendung

Praktikum Data Warehousing und Mining, Sommersemester 2010 10

Page 11: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

R l i d ll K Wi d h lRelationenmodell – Kurze WiederholungRelationenname Attribut

StadtRelationenschemaName CID Population …

Paris FR 2153000 …

RelationTokyo JA 8022000 …

Hamburg GM 1706000 …

Stockholm SW 704000 …

Seoul KS 10776000 …

TupelAttributwert

Berlin GM 3472000 …

… … … …

Praktikum Data Warehousing und Mining, Sommersemester 2010 11

Attributwert

Page 12: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

I i ä b diIntegritätsbedingungen• PrimärschlüsselPrimärschlüssel

• Menge von Attributen zur eindeutigen Identifikation eines TupelsIdentifikation eines Tupels

• Nötig, um eindeutig auf Tupel zugreifen zu können

• Fremdschlüssel• Referenziert von einem Tupel auf ein Tupel einer• Referenziert von einem Tupel auf ein Tupel einer

anderen Relation• Nötig zur Speicherung von Abhängigkeiten• Nötig zur Speicherung von Abhängigkeiten

Praktikum Data Warehousing und Mining, Sommersemester 2010 12

Page 13: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

SQLSQL• EigenschaftenEigenschaften

• die Sprache für relationale Datenbanken• mengenorientiert & deklarativ• mengenorientiert & deklarativ

• Konstrukte zur Datendefinition (SQL-DDL)CREATE ALTER DROP• CREATE, ALTER, DROP

• Konstrukte zur Datenmanipulation (SQL-DML)• INSERT, UPDATE, DELETE

• Konstrukt für Datenabfragen • SELECT

Praktikum Data Warehousing und Mining, Sommersemester 2010 13

Page 14: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

DDatentypen• ZeichenkettenZeichenketten

• CHARACTER(n), CHAR(n)• VARCHAR(n)VARCHAR(n)

• ZahlenINTEGER INT• INTEGER, INT

• NUMERIC(p, s)FLOAT• FLOAT

• Datum und Uhrzeit• DATE

Praktikum Data Warehousing und Mining, Sommersemester 2010 14

Page 15: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

A dAgenda• Einführung Data WarehousesEinführung Data Warehouses

• Referenzarchitektur• Datenbeschaffung• Datenbeschaffung

• Online Transactional Processing (OLTP)D t i l ti it SQL• Datenmanipulation mit SQL

• Anfragen mit SQLf• Nächste Aufgabe

• Analyse von Graphen• Projekt LogoTakt• SQL, ETL, Visualisierung

Praktikum Data Warehousing und Mining, Sommersemester 2010 15

Page 16: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

SQL CSQL – Create• Anlegen von Relationeng

• SyntaxCREATE TABLE <Relation> (

<Attribut><Datentyp>,…PRIMARY KEY (<Attribut>[, …])

ibFOREIGN KEY <Attribut> REFERENCES <Relation>(<Attribut>)[ ][, …]

)

Praktikum Data Warehousing und Mining, Sommersemester 2010 16

Page 17: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

SQL I d U dSQL – Insert und Update• Einfügen von Tupeln in Relation

• SyntaxINSERT INTO <R l ti > VALUESINSERT INTO <Relation> VALUES

(<Datum1>, <Datum2>, …)

• Ändern von Tupeln

• SyntaxUPDATE <Relation>

SET <Att ib t> <D t >SET <Attribut> = <Datum>WHERE <Selektionsbedingung>

Praktikum Data Warehousing und Mining, Sommersemester 2010 17

Page 18: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

SQL D l d DSQL – Delete und Drop• Löschen von Tupeln aus einer RelationLöschen von Tupeln aus einer Relation• SyntaxDELETE FROM <R l ti >DELETE FROM <Relation>

WHERE <Attribut> = <Datum>

• Löschen von RelationenLöschen von Relationen• SyntaxDROP TABLE <R l ti >DROP TABLE <Relation>

Praktikum Data Warehousing und Mining, Sommersemester 2010 18

Page 19: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

A dAgenda• Einführung Data WarehousesEinführung Data Warehouses

• Referenzarchitektur• Datenbeschaffung• Datenbeschaffung

• Online Transactional Processing (OLTP)D t i l ti it SQL• Datenmanipulation mit SQL

• Anfragen mit SQLf• Nächste Aufgabe

• Analyse von Graphen• Projekt LogoTakt• SQL, ETL, Visualisierung

Praktikum Data Warehousing und Mining, Sommersemester 2010 19

Page 20: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

A f G d üAnfragen - Grundgerüst• Anfragen an den DatenbestandAnfragen an den Datenbestand

S t• SyntaxSELECT <Attribut>, …

FROM <Relation>WHERE <Selektionsbedingung>WHERE <Selektionsbedingung>

Praktikum Data Warehousing und Mining, Sommersemester 2010 20

Page 21: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

P j k iProjektion• Auswahl von Spalten einer Relationp• SyntaxSELECT <Attribut>SELECT <Attribut>, …FROM <Relation>

Name CID PopulationParis FR 2153000Tokyo JA 8022000Hamburg GM 1706000St kh l SW 704000Stockholm SW 704000Seoul KS 10776000Berlin GM 3472000

Praktikum Data Warehousing und Mining, Sommersemester 2010 21

Berlin GM 3472000

Page 22: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

S l k iSelektion• Auswahl von Tupeln einer Relationp• SyntaxSELECT * FROM <Relation>SELECT * FROM <Relation>WHERE <Selektionsbedingung>

Name CID PopulationParis FR 2153000Tokyo JA 8022000Hamburg GM 1706000St kh l SW 704000Stockholm SW 704000Seoul KS 10776000Berlin GM 3472000

Praktikum Data Warehousing und Mining, Sommersemester 2010

Berlin GM 347200022

Page 23: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

V b dVerbund

• Kombination mehrerer Relationen• Kombination mehrerer Relationen

• SyntaxSELECT <Attribut>, …FROM <Relation1>, <Relation2>WHEREWHERE

<Relation1>.<Attribut> = <Relation2>.<Attribut>

Praktikum Data Warehousing und Mining, Sommersemester 2010 23

Page 24: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

A f k iAggregatfunktionen• Berechnung von Aggregaten auf Relationeng gg g

• SyntaxSELECT <Aggregat>(<Attribut>) AS <Name>FROM <Relation>

• Wichtige Aggregatfunktionen:COUNT• COUNT

• SUM• MIN• MAX• AVG

Praktikum Data Warehousing und Mining, Sommersemester 2010 24

Page 25: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

G iGruppierung• Gruppierung von gleichen AttributwertenG upp e u g o g e c e tt but e te

• SyntaxSyntaxSELECT <Attribut>

FROM <Relation>FROM <Relation>GROUP BY <Attribut>HAVING <Gruppenbedingung>HAVING <Gruppenbedingung>

Praktikum Data Warehousing und Mining, Sommersemester 2010 25

Page 26: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

M iMengenoperationen• Mengenoperationen auf AnfrageergebnissenMengenoperationen auf Anfrageergebnissen(SELECT <Attribut>, … FROM <R l ti >)FROM <Relation>)INTERSECT | UNION | MINUS(SELECT <Attribut>, …FROM <Relation>)FROM <Relation>)

Praktikum Data Warehousing und Mining, Sommersemester 2010 26

Page 27: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

SELECT S tSELECT-Syntax• Syntaxdiagramm Sy ta d ag a

des SQL-SELECT-Befehls ( f )(vereinfacht…):

Praktikum Data Warehousing und Mining, Sommersemester 2010 27

Page 28: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

V h b i d D fi i i A fVorgehen bei der Definition von Anfragen

FROM Ausgangsrelationen

WHERE Selektion von Tupeln, die der Bedingung genügen

GROUP BY Gruppierung von Tupeln gemäßgleicher Attributwerte

HAVING Selektion von Gruppen, die derBedingung genügen

SELECT Projektion der gewählten Attribute

Praktikum Data Warehousing und Mining, Sommersemester 2010 28

Page 29: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

A dAgenda• Einführung Data WarehousesEinführung Data Warehouses

• Referenzarchitektur• Datenbeschaffung• Datenbeschaffung

• Online Transactional Processing (OLTP)D t i l ti it SQL• Datenmanipulation mit SQL

• Anfragen mit SQLf• Nächste Aufgabe

• Analyse von Graphen• Projekt LogoTakt• SQL, ETL, Visualisierung

Praktikum Data Warehousing und Mining, Sommersemester 2010 29

Page 30: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

G hGraphen

www.touchgraph.com

http://www.fzd.de/db/Pic?pOid=26054

www.kvv.de

Praktikum Data Warehousing und Mining, Sommersemester 2010 30

Page 31: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

G h A ähl F h fGraphen: Ausgewählte Forschungsfragen• Frequent Subgraph MiningFrequent Subgraph Mining

• Auffinden unbekannter, häufiger Teilgraphenmit Support >= smit Support s

• Graphanfragesprachen• Graphanfragesprachen• Spezifikation und Auffinden von Mustern mit

bestimmten strukturellen Eigenschaftenbestimmten strukturellen Eigenschaften

• Gemeinsames zugrundeliegendes Problem: Subgraphisomorphie (NP-vollständig)

Praktikum Data Warehousing und Mining, Sommersemester 2010 31

Page 32: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

P j k L T kProjekt LogoTakt• Ziel: Entwicklung von Technologien und Prozessen e t c u g o ec o og e u d o esse

für robuste getaktete Logistiknetzwerke• Vom BMWi gefördertg

SchweitzerSpedition

• Analyse der Robustheit abgelaufener Transportprozesse unter Einsatz von:• Graph Mining• Graphanfragesprachen

Praktikum Data Warehousing und Mining, Sommersemester 2010 32

Page 33: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

K k l L T kKernmerkmale LogoTakt

T1 T2 T314:30 14:45 ...15:30 15:45 ...16:30 16:45 ...

... ... ...T1 T2 T3

14:30 14:45 ...15:30 15:45 ...16:30 16:45 ...

... ... ...T1 T2 T3

14:30 14:45 ...15:30 15:45 ...16:30 16:45 ...

... ... ...

Abgestimmte Fahrpläne

Taktung der Verkehre in Vor- Haupt- und Nachlauf

Abgestimmte Fahrpläne

I t d lität V b d Ök bil

Hohe Robustheit durch vorkalkulierte Zeit- und Mengenpuffer

Taktung der Verkehre in Vor Haupt und Nachlauf

Praktikum Data Warehousing und Mining, Sommersemester 2010 33

Intermodalität zur Verbesserung der Ökobilanz

Page 34: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

N k kNetzwerkstruktur

TSP

Railport

Praktikum Data Warehousing und Mining, Sommersemester 2010 34

Page 35: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

T f iTransformationsprozess• ETL-AufgabeETL Aufgabe

Praktikum Data Warehousing und Mining, Sommersemester 2010 35

Page 36: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

G i h G hd llGenerische Graphdarstellung• Ziel:

• Drei Relationen: Graph, Node, Edge.• Jeweils numerische ID für jedes Tupel• Zusätzlich: alle „interessanten“ Attribute• Jeweils ein Knoten pro Adresse (PLZ, Straße identisch)

Praktikum Data Warehousing und Mining, Sommersemester 2010 36

Page 37: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

G h Mi i A l i L T kGraph-Mining-Analysen in LogoTakt• Ziel:

• Regelmäßiges Finden von interessanten Zusammenhängen in den Historien einer vergangenen Periode in einem manuellen Prozessmanuellen Prozess.

• Eingabe für die Optimierung des Gesamtnetzwerks.• Demo:

• Betrachtung der LKW-Fahrten des vergangenen Monats.• Jeder Tag bildet einen Graphen, jede Stadt einen Knoten,

jede Fahrt eine Kante Alternativ kann die Sicht auf einejede Fahrt eine Kante. Alternativ kann die Sicht auf eine Region/Spedition beschränkt werden.

• Kanten werden rot eingefärbt, gdw. IST > SOLL.

Praktikum Data Warehousing und Mining, Sommersemester 2010 37

Page 38: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

B i i l G h 2010 04 06 DiBeispiel-Graph, 2010-04-06_Dienstag

Stau Folgeprobleme

Praktikum Data Warehousing und Mining, Sommersemester 2010 38LogoTakt – Technologien und Prozesse für robuste und getaktete Logistiknetzwerke

Page 39: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

G h Mi i E b i IGraph-Mining-Ergebnis I• Graph Mining mit allen 30 Graphen des April 2010 (finde alle p g p p (

Teilgraphen, die in mindestens 10% aller Graphen enthalten sind) liefert folgendes:

viele weitere… In welchen Graphen ist diesesTeilgraph-Muster enthalten?

Praktikum Data Warehousing und Mining, Sommersemester 2010 39

g p

Page 40: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

G h Mi i E b i IIGraph-Mining-Ergebnis II• In welchen Graphen ist dieses Teilgraph-Muster e c e G ap e st d eses e g ap uste

enthalten?• 2010-04-06_Dienstag_ g• 2010-04-13_Dienstag• 2010-04-20 Dienstag_ g• 2010-04-27_Dienstag→ Probleme treten immer am Dienstag auf!g→ „Dienstags-Stau“ auf Relation Winnenden ->

Schorndorf hat Auswirkungen auf das Gesamtnetz.

Praktikum Data Warehousing und Mining, Sommersemester 2010 40

Page 41: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

G h fGraphanfragen• Uns ist ein weiteres Problem bekannt: Ein Kunde aus Gottmadingen wird

oft spät beliefert, Verzögerungen im Umkreis von Schorndorf (PLZ 736…).• Das Dienstags-Problem ist nicht schuld:

• An diesen Tagen keine Fahrten zwischen diesen Orten.An diesen Tagen keine Fahrten zwischen diesen Orten.• Weitere Analyse dieser Problematik: Betrachte alle Fahrten aus PLZ-

Bereich 736… mit Zwischenstopps nach Gottmadingen mittels S²QL.• Anfrage:• Anfrage:

select g.name, a.name as ort

from graph g, node a, node b

where a.plz like '736%' and b.name = 'Gottmadingen'

structured 'a/+/b/';

Praktikum Data Warehousing und Mining, Sommersemester 2010 41

Page 42: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

E b i di DErgebnisse dieser Demo• Uns ist ein weiteres Problem bekannt: Ein Kunde aus Gottmadingen

wird oft spät beliefert, Verzögerungen im Umkreis von Schorndorf (PLZ 736…).• Weiteres Problem

offensichtlich donnerstags!

• Mit Graph Mining und Graphanfragen wurden diverseProbleme rund um Kornwestheim identifiziertProbleme rund um Kornwestheim identifiziert.

• Fragestellungen für nächste Iteration der Netzwerkoptimierung:• Sollte für Fahrten in diesem Gebiet mehr Zeit eingeplant werden?• Kann Gebietszuschnitt optimiert werden?• Ist ein zusätzlicher Railport in BW hilfreich?

Praktikum Data Warehousing und Mining, Sommersemester 2010

Ist ein zusätzlicher Railport in BW hilfreich?

42

Page 43: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

Nä h A f b blNächstes Aufgabenblatt• Kennenlernen des Datenbestands mit SQL-Kennenlernen des Datenbestands mit SQL

Anfragen• Durchführung eines (wiederholbaren) ETL• Durchführung eines (wiederholbaren) ETL-

Prozesses: Überführung der Transportdaten in generisches Graphformatin generisches Graphformat

• Visualisierung des Datenbestands mittels dot

Praktikum Data Warehousing und Mining, Sommersemester 2010 43

Page 44: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

Z d G hZu erzeugende Graphen• Jede Zweiergruppe bearbeitet eine möglicheJede Zweiergruppe bearbeitet eine mögliche

Kombination der folgenden drei Parameter:• Zeit: ein Graph pro Tag/pro Woche/proZeit: ein Graph pro Tag/pro Woche/pro

Wochentag• Graph muss zusammenhängend sein: ja/neinGraph muss zusammenhängend sein: ja/nein• Mehrfachkanten zusammengefasst: ja/nein

• Visualisierung je nach Schwierigkeitsgrad der• Visualisierung je nach Schwierigkeitsgrad der erzeugten GraphenBewertung der Lösung u a je nach Umfang• Bewertung der Lösung u.a. je nach Umfang und „Sinn“ der zugeteilten Graph-/Knoten-/Kanten Attribute

Praktikum Data Warehousing und Mining, Sommersemester 2010/Kanten-Attribute

44

Page 45: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

G h Vi li iGraph-Visualisierung• Graphen als Menge von Knoten und KantenGraphen als Menge von Knoten und Kanten

sind ein Konstrukt der diskreten Mathematik.• Graph Visualisierung• Graph-Visualisierung

• …ist oft sehr hilfreich!f l t (ä th ti h ) Zi l B• …verfolgt (ästhetische) Ziele, z.B.

• Minimierung von Kreuzungen, Fläche• Maximierung des kleinsten WinkelsMaximierung des kleinsten Winkels• Vereinheitlichung von Kantenlängen

• …kann sehr aufwändig werden (NP-vollständig).

http://www.graphviz.org/Gallery.php

g ( g)• …ist ein eigenes Forschungsgebiet.• …kann von verschiedenen Tools erledigt werden.

Praktikum Data Warehousing und Mining, Sommersemester 2010

…kann von verschiedenen Tools erledigt werden.45

Page 46: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

G h Vi li i i G h iGraph-Visualisierung mit Graphvizdigraph G {main -> parse -> execute;main -> init;main -> cleanup;

Hierarchische, baumartigeVisualisierung mit dot

execute -> make_string;execute -> printfinit -> make_string;main -> printf;execute -> compare;

}

OptimierungsbasierteVisualisierung mit neato(spring-model)

g.dot

Textuelle Graph-Darstellung als Kantenliste in DOT

www graphviz orgPraktikum Data Warehousing und Mining, Sommersemester 2010 46

…www.graphviz.org

Page 47: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

W i DOT B i i lWeiteres DOT-Beispieldigraph G {0 [label="Karlsruhe"];1 [label="Frankfurt"];2 [label="Hannover"];

dot -Gcharset=latin1-O -Tgif example.dot

0 -> 1 [color="red"];1 -> 2;}

g p

example.dotTextuelle Graph-Darstellung als gelabelte/attributierte Knoten- und Kantenliste

• Für „schöne“ Ergebnisse empfiehlt sich der Export als SVG (-Tsvg); anschließende Konvertierung z.B. mit Inkscape (www.inkscape.org).

• Viele weitere Optionen und Beispiele in den

Praktikum Data Warehousing und Mining, Sommersemester 2010 47Handbüchern zu dot bzw. neato.

Page 48: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

DOT E i SQLDOT-Erzeugung mit SQLSELECT 'digraph g {'UNION ALLSELECT DISTINCT n_id || ' [label="' || name || '"]'

FROM node WHERE g_id = <g_id>UNION ALLSELECT DISTINCT n1_id || ' -> ' || n2_id

FROM edge WHERE g_id = <g_id>UNION ALLSELECT '}'

• Beachte:• || in Projektionen verkettet Attribute als String|| in Projektionen verkettet Attribute als String• Manche DBMS verlangen die Angabe der FROM-Klausel,

z.B. SELECT 'digraph g {' FROM dual

Praktikum Data Warehousing und Mining, Sommersemester 2010 48

Page 49: Data Warehousing (I):Data Warehousing (I): SQL/ETLdbis.ipd.kit.edu/download/dwmprak2010/veranstaltung5.pdf · SQL/ETL Praktikum: Data Warehousing und Data MiningData Mining Praktikum

Institut für Programmstrukturen und Datenorganisation (IPD)Lehrstuhl für Systeme der Informationsverwaltung, Prof. Böhm

Q ll bQuellenangabenA. Bauer, H. Günzel: „Data Warehouse Systeme –

“Architektur, Entwicklung, Anwendung“, dpunkt.verlag, 2004.

K. Sattler, S. Conrad: Folien zur Vorlesung DataK. Sattler, S. Conrad: Folien zur Vorlesung Data Warehouse Technologien, 2003

C. von der Weth: Folien zum Datenbankpraktikum, 20052005

M. Stock und R. Pinger: Kleiner Leitfaden zur Anwendung von SQL-Anweisungen, 1997

Graphviz-Doku: http://www.graphviz.org/Documentation.php

Software (Graphviz, Inkscape) als Portable-Version unter /home/eichi/software im IPD-UNIX-Netz

Praktikum Data Warehousing und Mining, Sommersemester 2010 49