Repository For Free Framework - doag.org · controles_object enthaelt is_referenced_by nutzt...
Transcript of Repository For Free Framework - doag.org · controles_object enthaelt is_referenced_by nutzt...
<Insert Picture Here>
Metadata im Data Warehouse Repository For Free Framework
Alfred Schlaucher, OracleDetlef Schroeder, Oracle
Herausforderungen in einem heutigen Data Warehouse
SchnelligkeitFlexibilität
Performance
ArchitekturModelle
Synergien
Daten-Management
Oftmals nicht gelöste Herausforderungen
• Welche Daten sind im DWH?
• Wer benutzt welchen Bericht?
• Wie alt sind die Daten?
• Welche Kennzahlen sind vorhanden?
• In welchen Berichten finde ich welche Kennzahlen?
• Wie ist eine Kennzahl definiert?
• Wann wurde ein Bericht aktualisiert?
• Welche Kern-Entitäten gibt es und wie lautet ihre Beschreibung?
• Woher kommen die Daten?
• Wer ist verantwortlich für welche Daten?
• Sind wirklich alle Daten nur einmal vorhanden?
• Werden alle Daten benötigt?
In kaum einem DWH-System können diese Fragen spontan beantwortet werden!
Nützlichkeit der Daten im DWH erhöhen
• Das DWH wird oft nur als Reporting-Plattform verstanden
• “Informations-”/“Kommunikations-”Plattform ist treffender
• Alle Informationen des Unternehmens könnten gespeichert sein
• Zugriffshilfsmittel analog einer Bibliothek wären hilfreich
• Nicht nur Daten beschreiben, sondern alle Komponenten des Informationssystems
• Schnelles Auffinden der richtigen Daten, Objekte, Komponenten
Eine passende Beschreibung kann die Zugreifbarkeitund Nützlichkeit des DWH massiv erhöhen und
verhindert das Schicksal, nur ein Datengrab zu sein.
Gerade unternehmensweite Systeme haben es schwer
• Homonyme / Synonyme
• Unterschiedliche Abteilungen haben eigene
„Philosophien“ entwickelt
• Verschiedene Arbeitsgebiete mit unterschiedlichen
Schwerpunkten und Interessen
• Historisch unterschiedliche Entwicklungsphasen der
DWH-Inhalte
• …
Metadaten
• Hauptziele
• Reduzierung von Redundanzen
• Schnelles Wiederauffinden von Objekten
• Bereichsübergreifende Darstellung von Zusammenhängen
• Repository-gestützt
• Fehlende durchgängige Tool-Unterstützung bei allen Herstellern
• Lösung
• Ausbau der Referenzdatenbestände
• Einfaches Tabellenwerk mit selbst erstellter Portal-Oberfläche
Repository for free
• Framework von Oracle Consulting
• Generisches Tabellenwerk zur Aufnahme beliebiger
Metadaten
• Erweiterbare APEX-Oberfläche
• Einfache PL/SQL-Prozeduren zur Erstellung von
Schnittstellen
• „Warehouse Information-Model“ als Startpunkt
Mapping Kennzahlerstellt
Materialized
View
Definition
Schlagwort / Unterschlagwort
Rechenvorschrift
wird
realisiert
durch
wird realisiert durch
definiert
definiert
Entity Relationship-DarstellungBeschreibungsmittel und netzartige Navigation
Metadaten-Typen werden über Beziehungen miteinander gekoppelt
Berechnungsfunktion
Aktualisierungsfequenz
Verantwortlich
Zuletzt_aktualisiert
Attribute beschreiben die Metadaten-Typen
Unternehmensbereich,
Tabelle, Rule,
Datei, Funktion
Dokument
Transformation
Cube,
Dimension
JO-A400
TA-BBC
PG-IO FU-MM34 ....
Objekte der realen Welt.Die Anwendungsdaten(z.B. der konkrete Job JO_10, der heute um 9:00 auf der Maschine 5 lief)
4-Schichtenmodell eines
Repositories
(Metadatenverwaltung)
definiert
definiert
beschreibt
Metamodelle
Meta Metamodelle
(Anwendungs)modelle
OU_C10
1
2
3
4
Durch Modelle bleibt das Repository neutral
TransactionalData (Fakt)
Synonym
Attribut
Object_Model
Business_Rule
Physical_Model_Area
Data OwnerUser
owns /
is owned_byuses /
is used_by
Enthaelt (1)
is reported_by Erzeugt
enthaelt
has_objects
relates /
is_related_to
controles_object
enthaelt
is_referenced_by
nutzt
is_covered_by
generalise
Nutzt (2)/
is used_by
OrganisationModel
Business / Logical Model
Contains_table
relates
Transfor-mation
erfolgt_in
System/Anwendung
is_covered_by
Wird_abgebildet_vonenthaelt
Bericht
Is_
so
lve
d_
by
StakeholderDepartment
owns
owns
group_of
Data Warehouse Information Model
Prozess
Unternehmens-bereich
Based_on_table
Based_on_figure
enthalten_in
Input_fuer
has_process
Business_Questions
enthaelt
Governance Model
Aggregation Is_Child_of
Besteht_aus
Dimension
TabelleWird_genutzt_von
use_as_business_key
use_as_PK
use_as_field
Contains_fl
Contains_
map
Functional Layer
produce
Hat _Measure
Referenziert _Business_Key
Dimension Model
Reporting Model
Beschrieben_durch
nutzt
prueft
Version 08.11 Stand 100811
Mapping_Programm
output_fuer
is_synonym_of
is_related_to
is_member_of
Based_on_mav
Mview
Functional Component
Contains_
component
contains_fact
is_responsible_for
group _of _unit
inputs
outputs
is_homonyme_of
Glossar
(Definition)
Geschäftsobjekt
controles_process
matches
Kennzahl
Org_Unit
Check_
Process
Controls_tab
has_checked_colPhysical Model
Operational Model
Load_
Process
is_part_of_proc
Uses_prog
Uses_check
Column
is_checked_by
Rule
Is_controled_by
Is_used_by_process
Das Tabellen-Werk des Repositories
Objekte-Sicht
Objekte
Suche über amens-Strings%CONTROLL%
Suche über Objekttypen
Suche über Typ-Gruppen
Suche über nach Strings in allen Feldern
AktualisierungSuche
Anzeigen einzelner Objekte und ihrer Attribute
Auswahl-TabAttributes
Suche nach einemkonkreten Objekt
Attribute Attribut-Werte Erklärung zur Art des Attributes
Neue Objekte erfassen
Wie können Sie damit arbeiten?
Download über: www.oracledwh.de
Oder direkthttp://www.oracledwh.de/index.php?dir=./downloads/Repository_for_free
Lösungen im Kontext von Metadaten
Ablaufprozesse rund um das Metadaten-Repository im DWH
MetadatenRepository
Data
Warehouse
Entwicklungs-
Werkzeug
Datenmodellierung
Prozess-
Modellierung
Geschäftsobjektbeschreibungen
Prozessbeschreibungen
Entity-Attributbeschreibungen
Tabellenbeschreibungen
Ergänzungenz.B. Verwaltungs-informationen
auto-matisiert
auto-matisiert
Textauf-
bereiterauto-
matisiert
Warehouse-
Handbuch
Glossar
Betriebs-
Handbuch
Online
Zugriff
Kataloge und Dictionaries
Operative SystemeSynchronisierung
Warehouse
Betrieb
Sonstige
Objekte
Dokumentation der Objekte
• Definition von Informationen
• Eindeutigkeit
• Einmaligkeit
• Beschreibung
• Referenz
• Herkunft der Information (Lineage)
• Verwendung der Information (Impact)
• Zustand der Informationen
• Wann zuletzt aktualisiert
• Bestandteile / Vollständigkeit / Konsistenz
Kennzahlzuletzt geladen
abhängig von
im Kontext
Algorithmus
Definition
Beschreibung
Alias
Synonym
Referenz Verantwortlich
Klassifizierungen
• Kategorie
• Stamm, Referenz, Kennzahl
• Herleitung
• Berechnet, Aggregiert, Definiert, Basiswert
• Status
• Gueltig, obsolet
Semantische Integration von Daten
• In DWH-Systemen treffen Daten aus unterschiedlichen
Vorsystemen aufeinander
• Unterschiedliche Kulturen
• Verschiedene Fachgebiete
• Andere historische Hintergründe
• Begriffe und Namen haben sich unterschiedlich entwickelt
• Folge: Homonymen- und Synonymen-Thematik
• Aufgabe im DWH
• Ordnung in der Begriffswelt schaffen
• Daten aufgrund ihrer Semantik zusammenführen
Datenelemente und FelderIhre besondere Bedeutung
Stage Warehouse
Mart 1
Mart 2
KONTOKundenNr
Name
Datum
Stand
SRC1
KUNDEKDNr
KDName
Anschrift
SRC2
KUNDEKDNr
KDNameKUNDEKDNr
KDName
AnschriftPARTNERP_ID
Name
KONTOKDNr
KDName
KUNDEKDNr
KDName
Anschrift
ODSKUNDEKDNr
Kundennummer
• Nur über die Felder kann eine potentielle Analogie
von Tabellen erkannt werden
• Ordnung wurde bereits bei dem Aufbau der DWH-
Schicht erreicht
• 3 NF – Eindeutigkeit und Redundanzfreiheit der Tabellen über Feld-Analyse
• Quellsysteme (Stage) / Benutzersichten (Data Marts)
haben ihre eigene Verwendung von Feldern und
Tabellen
• Homonymen-/Synonymen-Thematik
Datenelemente und FelderIhre besondere Bedeutung
Aufbau eines Referenzdatenbestands
• Beispiel: Zwei Tabellen aus unterschiedlichen Quell-
systemen
• Ziel: Integration im DWH
• Analyse der einzelnen Felder
• Finden zusammengehöriger Namenspaare
• Sammeln von Hinweisenüber die Art der Verwendung
� Data Profiling
Produkt
Produktnummer
Produktname
Produktgruppe
Einzelpreis
Volumen
Gebinde
Nettopreis
HerstellerProduzent
Nummer
Listenpreis
Name
Artikel
Zentraler Referenzdatenbestand für BegriffeSystematischer Aufbau
• Beschreibung aller Felder
• Domains
• Typen
• Description
• Defaults
• Max / Min
• Schlüssel
• Definition
• …
Einsatz von
- Profiling
- Klassifizierungsverfahren
- Normierung von Wortstämmen
Analyse / Profiling
Teilmodell
Bereich A
Teilmodell
Bereich B
Teilmodell
Bereich C
Teilmodell
Bereich D
Table-Referenz-
DatenbestandListe aller Tabellen im DWH
Kontrollierte Synonyme
• Finden Verwendung in historisch unterschiedlich
gewachsenen Systemen, die aber denselben
Datenbestand bearbeiten
• Entstehen bei unterschiedlichen Verwendungszwecken,
die Restriktionen bei der Definition der Datenelemente
bedingen
• Die Synonymität muß abfragbar gekennzeichnet werden
• Alias-A
• Alias-B
Beispiellösung für StandardproblemSynonyme
ErtragVerfahren A
GewinnVerfahren B
ErlösVerfahren C
Ertrag + Gewinn
+ Erlös
Transformation
Verfahren
Datenbanken
Feld
Transformation Starschema
Faktentabelle
Dimensionstabelle
Feld
Referenzfelder
Abfragehilfsmittel/-attributierung (1)
• Alias
• Kundennummer
• Alias Siebel Kundennr
• Alias Peoplesoft Customer_ID
• Alias System_X Kunden_ID
• Alias Cobol KDNR PIC 9(10)
• Alias Assembler KDNR int 9999999999
• Alias Oracle Kundennummer number(10)
• Alias DB2 KundNr integer 10
• Synonyme
• Schlagwortsuche (Katalogbegriffe)
• Mehrstufige hierarchische Schlagwortsysteme
• Kombinierte Schlagwortbezeichner (Deskriptorenverfahren, Schlagwortklassen)
Zielgerichtetes Auffinden von InformationKlassifikationsverfahren
Abfragehilfsmittel/-attributierung (2)Im Referenzdatenbestand
• Container
• Beziehungen
• Freeform-Text
• Verwaltungsattribute • Verantwortlich
• Erstellt am
• Geändert am
• Status (Geplant, In_Arbeit, Aktiv)
• Obsolet
• Referenzattribute
• Multilinguale Bezeichnungen
TransactionalData (Fakt)
Synonym
Attribut
Object_Model
Business_Rule
Physical_Model_Area
Data OwnerUser
owns /
is owned_byuses /
is used_by
Enthaelt (1)
is reported_by Erzeugt
enthaelt
has_objects
relates /
is_related_to
controles_object
enthaelt
is_referenced_by
nutzt
is_covered_by
generalise
Nutzt (2)/
is used_by
OrganisationModel
Business / Logical Model
Contains_table
relates
Transfor-mation
erfolgt_in
System/Anwendung
is_covered_by
Wird_abgebildet_vonenthaelt
Bericht
Is_
so
lve
d_
by
StakeholderDepartment
owns
owns
group_of
Data Warehouse Information Model
Prozess
Unternehmens-bereich
Based_on_table
Based_on_figure
enthalten_in
Input_fuer
has_process
Business_Questions
enthaelt
Governance Model
Aggregation Is_Child_of
Besteht_aus
Dimension
TabelleWird_genutzt_von
use_as_business_key
use_as_PK
use_as_field
Contains_fl
Contains_
map
Functional Layer
produce
Hat _Measure
Referenziert _Business_Key
Dimension Model
Reporting Model
Beschrieben_durch
nutzt
prueft
Version 08.11 Stand 100811
Mapping_Programm
output_fuer
is_synonym_of
is_related_to
is_member_of
Based_on_mav
Mview
Functional Component
Contains_
component
contains_fact
is_responsible_for
group _of _unit
inputs
outputs
is_homonyme_of
Glossar
(Definition)
Geschäftsobjekt
controles_process
matches
Kennzahl
Org_Unit
Check_
Process
Controls_tab
has_checked_colPhysical Model
Operational Model
Load_
Process
is_part_of_proc
Uses_prog
Uses_check
Column
is_checked_by
Rule
Is_controled_by
Is_used_by_process
Wer versteht das Data Warehouse?
Tables
Prozeduren
SQL ScriptsFields Programme
JobsModule
Data Warehouse
IT User
Business User
?
.. .. .. .. ..
.. .. .. .. ..
File Description