Adattárház rendszerek

84
Adattárház rendszerek Áttekintés Sidló Csaba [email protected]

description

Adattárház rendszerek. Áttekintés Sidló Csaba [email protected]. Tartalom. Bevezetés, fogalmak, definíciók Új követelmények: OLAP rendszerek Adattárház architektúra Adattárházra épülő elemző módszerek Adattárház komponensek Adatmodelle zés, adatmodellek MOLAP architektúrák - PowerPoint PPT Presentation

Transcript of Adattárház rendszerek

Page 1: Adattárház  rendszerek

Adattárház rendszerek

Áttekintés

Sidló Csaba [email protected]

Page 2: Adattárház  rendszerek

Tartalom

1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek, trendek11. Példák adattárház rendszerekre12. Irodalom

Page 3: Adattárház  rendszerek

Tartalom

1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek, trendek11. Példák adattárház rendszerekre12. Irodalom

Page 4: Adattárház  rendszerek

Bevezetés

Vállalati környezet – a táptalaj Vállalat vezetése: döntések sorozata

gyors, jó minőségű döntések eredményesség

Tézis: a döntések minősége nagyban függ a döntéshozók informáltságától, a rendelkezésre álló adatok, információk minőségétől

A döntések megfelelő támogatására jelenthet megoldást az adattárház technológia

Page 5: Adattárház  rendszerek

Vállalati adathalmazok

Adott vállalat működése során rengeteg adat halmozódhat fel

Elektronikus formában, papíron, gyakran sokféle, inkonzisztens tárolási módszernek megfelelően tárolva

Nagy, kevés gyakorlati hasznot jelentő vállalati adathalmazok fenntartása szükséges, de haszontalan költséget jelent(Data puddle – adattemető)

Page 6: Adattárház  rendszerek

Vállalati információszükségleti hierarchia (Moslow nyomán)

Page 7: Adattárház  rendszerek

Adattárház definíció

Bill Inmon:

"A data warehouse is a subject oriented, integrated, nonvolatile, and time variant collection of data in support of management's decisions."

Page 8: Adattárház  rendszerek

Adattárház definíció 2.

1. Subject oriented (tárgy- v. témaorientált) hagyományosan: üzleti folyamatoknak megfelelő nézőpont most: elemzési területeknek megfelelő nézőpont, adatok az

elemzés kulcsfontosságú fogalmai köré csoportosítva (Pl.

vevő-lemorzsolódás, raktárkészlet alakulása, stb.)

2. Integrated (integrált) több adatforrásból, egy helyen központosuló adatgyűjtés egységesített, szabványos formában kezelt adatok

Page 9: Adattárház  rendszerek

Adattárház definíció 3.

3. Nonvolatile (tartós) Változatlan adatok Alapvetően nem törlődő adatok

4. Time variant (időfüggő) Forrásrendszerek: adott (érvényes) állapotot leíró fadatok Adattárházak: történeti, historikus, időfüggő adatok időfüggő

elemzések, összehasonlítások, változási trendek elemzése

Page 10: Adattárház  rendszerek

Data Warehousing

"Data Warehousing is the process, whereby organizations extract value from their informational assets through the use of special stores called data warehouses."

Három kulcsmozzanat: Adatkinyerés a tranzakciós (vagy más vállalat-

működtetési) forrásrendszerekből A kinyert adatok átformálása riport (beszámoló) készítés

számára A riportok, beszámolók elérhetővé tétele a döntéshozók

számára.

Page 11: Adattárház  rendszerek

Business Intelligence (BI, üzleti intelligencia) fogalma:„Olyan módszerek, fogalmak halmaza, melyek a döntéshozás folyamatát

javítják ún. tényalapú rendszerek használatával.”(Howard Dresdner, 1989)

Tényalapú rendszerek: Vezetői információs rendszerek (EIS, Executive Information System) Döntéstámogató rendszerek (DSS, Decision Support System) Vállalati információs rendszerek (Enterprise Information System) On Line Analytical Processing (OLAP) Adat- és szövegbányászat Adatvizualizáció Geográfiai Információs rendszerek (GIS)

Ezek egy szeletét fedik le az adattárház megoldások.

Page 12: Adattárház  rendszerek

Business Intelligence Platform

Olyan platform, amely támogatja a következő technológiákat:

Adattárház jellegű adattárolás OLAP Adatbányászat Nyílt interface-ek (OLAP, adatbányász, stb.) Ezeket támogató, megvalósító komponensek, eszközökPl.: Oracle9i, IBM DB2, MSSQL

Page 13: Adattárház  rendszerek

Tartalom

1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek, trendek11. Példák adattárház rendszerekre12. Irodalom

Page 14: Adattárház  rendszerek

OLTP - OLAP rendszerek

OLTP: On Line Transaction Processing Hagyományos adatbázis alkalmazások,

nyilvántartások, vállalatok produktív rendszerei ERP rendszerek: Enterprise Resource Planning Pl.: SAP R/3, Oracle Financials, Libra, stb.

OLAP: On Line Analytical Processing Elemzési célú rendszerek elterjedt

követelményrendszere

Page 15: Adattárház  rendszerek

OLAP követelményrendszer

E.F.Codd, 1992: 12 pontos követelményrendszer, (a fontosabbak):

Multidimenzionális adatnézet Általános dimenzió-fogalom, korlátlan dimenziószám Transzparencia: technikai részletek ismerete nélküli

könnyű elérhetőség Kliens-szerver architektúra Több konkurens felhasználó támogatása

Page 16: Adattárház  rendszerek

OLTP – OLAP tulajdonságok

Tulajdonság OLTP OLAPOrientáció Tranzakciók hatékony

tárolása, végrehajtásaAdatanalízis

Felhasználó Vállalati adminsztrátorok Döntéshozók

Feladat Napi folyamatok követése Döntéstámogatás, információszolgáltatás

Adatok Aktuális, up-to-date Történeti, archív adatok

Összegzett adatok Nem jellmező, részletes Összegzett, egyesített adatok

Adatok nézete Relációs multidimenzionális

Felhasználói hozzáférés

Olvasás / írás Jellemzően olvasás

Hangsúly Adatbevitelen Információ- (tudás-) kinyerésen

Feldolgozandó adat Alkalmanként tizes nagyságrendű

Egyszerre akár milliós rekordszám

Felhasználók száma Viszonylag sok Néhány, közép- és felsővezetők

Prioritás Állandó rendelkezésre állás, megbízhatóság

Rugalmasság, felhasználói önállóság

Page 17: Adattárház  rendszerek

Tartalom

1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek11. Példák adattárház rendszerekre12. Irodalom

Page 18: Adattárház  rendszerek

Speciális adattárház típusokJól skálázható technológia:

Data Mart (adatpiac)lokális, szűk felhasználói kör, konkrét feladatok, kis adatfeldolgozó és analizáló egység adattárház funkciókkal

Operational Data Store (ODS)Adatok tisztítására, gyűjtésére használt egység, teljes részletezettéségű operációs adatokkal

Extraprise Data WarehouseHelyi megkötés nélkül összefutnak benne B2B és B2C adatok, elemzési céllal

Virtuális adattárházNem épül külön rendszer az adattárház adatainak számára, azt az OLTP rendszer keretein belül valósítják meg

Page 19: Adattárház  rendszerek

Az adat útjának fő állomásai

Forrásrendszerek Adattárház Elemző frontend alkalmazások

Page 20: Adattárház  rendszerek

Architektúra változatok (kliens-szerver modellek)

Page 21: Adattárház  rendszerek

Tartalom

1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek11. Példák adattárház rendszerekre12. Irodalom

Page 22: Adattárház  rendszerek

OLAP elemzések

OLAP elemzések Multidimenzionális adatnézet Intuitív kezelőfelület, rugalmas lekérdezések On-line, válaszidő orientált szolgáltatás Közép-felsővezetők Lehetőség összetett elemzésekre, látványos, jól

használható vizualizációra

Page 23: Adattárház  rendszerek

Adattárházak - adatbányászat

Adatbányászat: „Hasznos, látens információ kinyerése adatbázisokból.”

OLAP korlátok: adatmennyiség, lekérdező nyelv

Page 24: Adattárház  rendszerek

Tudáskinyerés folyamata

1. Alkalmazási terület felmérése, előzetes ismeretek rendszerezése2. Céladatbázis kiválasztása, létrehozása3. Adattisztítás, előfeldolgozás4. Adatintegráció5. Adattér csökkentés: cél szempontjából fontos attribútumok

kiemelése6. Adatbányászati algoritmusok kiválasztása (klaszterezés,

mintakeresés, osztályozás)7. Adatbányászati algoritmus, paraméterek előállítása8. Algoritmus alkalmazása9. Kinyert információ értelmezése, finomítások10. A megszerzett tudás megerősítése, összevetése az elvárásokkal,

dokumentálás

Page 25: Adattárház  rendszerek

Tudáskinyerés folyamata

1. Alkalmazási terület felmérése, előzetes ismeretek kinyerése2. Céladatbázis kiválasztása, létrehozása3. Adattisztítás, előfeldolgozás4. Adatintegráció5. Adattér csökkentés: cél szempontjából fontos attribútumok

kiemelése6. Adatbányászati algoritmusok kiválasztása (klaszterezés,

mintakeresés, osztályozás)7. Adatbányászati algoritmus, paraméterek előállítása8. Algoritmus alkalmazása9. Kinyert információ értelmezése, finomítások10. A megszerzett tudás megerősítése, összevetése az elvárásokkal,

dokumentálás

Page 26: Adattárház  rendszerek

Adattárházak - adatbányászat

Az adattárházak megfelelő alapot biztosíthatnak adatbányász módszerek alkalmazásához

Részben hasonló célok OLAP elemzések – adatbányász elemzések: jól

kiegészíthetik egymást Probléma: OLAP jellegű és adatbányász rendszerek

hatékony, rugalmas illesztése Megoldást jelentheti:

Következtetési szabályok a DW-ben (induktív adatbázisok) Megfelelő adatbányász interface alkalmazása (még nincs

elfogadott szabvány)

Page 27: Adattárház  rendszerek

Tartalom

1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek, trendek11. Példák adattárház rendszerekre12. Irodalom

Page 28: Adattárház  rendszerek

Komponensek

Page 29: Adattárház  rendszerek

Komponens csoportok

ETL: Extraction Transformation and Load

Adatkinyerés az operatív rendszerekből (extraction)

Adattranszformáció (különböző adatformátumok, mértékegységek, nyelvek stb.)

Adatminőség ellenőrzése, adattisztítás (cleaning)

Adatbetöltés az adattárház struktúráiba (loading)

Page 30: Adattárház  rendszerek

Komponens csoportok 2.

OLAP Tools:OLAP lekérdezéseket lehetővé tévő komponensek (OLAP szerver, interface-ek)

Felügyelet, adminisztrációadattárház működtetése, felügyelete

Page 31: Adattárház  rendszerek

Metaadat kezelés

Metaadat: „adat az adatokról”

Az adattárház szerkezetét, a bent lévő adatok jellemzőit tároló szerkezet

Fontos: adatintegrációhoz szabványos adatkezelés A megfelelő metaadat kezelési stratégiát gyakran említik

mint az adattárház projekt kulcskérdését Példa: adatkockáink leírása, az adattöltéseink

eredményei, az adatforrások mezőinek jelentése, stb.

Page 32: Adattárház  rendszerek

Komponens csoportok 3.

Frontend adatelemző alkalmazásokOLAP elemzők, adatbányász eszközök, vizualizáció, egyéb kliens alkalmazások

Adatbázis komponensek ROLAP: relációs OLAP – relációs adatbáziskezelő MOLAP: multidimenzionális OLAP, közvetelen

multidimenzionális adattárolás HOLAP: hibrid OLAP - keverék

Page 33: Adattárház  rendszerek

Tartalom

1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek, trendek11. Példák adattárház rendszerekre12. Irodalom

Page 34: Adattárház  rendszerek

Adatmodellezés (koncepcionális, logikai, fizikai)

O L T P O LA P

OD L

Ent it y/R e lat ion ship

R e lác iók

O bjec t -O r ie ntedDB M S

R e lat ion a lDB M S

Ö tle t ek

Ö tle t ek

R e lác iókR e lat ion a lDB M S

O bjec t -O rient ed DB M S

M ult id im . DBM ult id im .

Dat aM ode l

M O L A P

O sz tá lyok

O 3 O L A P

R O L A P

Page 35: Adattárház  rendszerek

OLTP adatmodellek

Hagyományos, kiforrott módszerek Relációs adatmodell Relációs algebra alapú lekérdezőnyelvek,

SQL Egyed/Kapcsolat Modell (E/R M), UML

Page 36: Adattárház  rendszerek

OLAP multidimenzionális adatfogalma(szemantikai)

Fogalmak: Tényadatok (mutatószámok) Dimenziók (jellemzők) Dimenzió-hierarchiák N-dimenziós adatkocka

Page 37: Adattárház  rendszerek

Adatkocka példa: nemzetközi kereskedelmi cég értékesítési adatainak multidimenzionális nézete

Page 38: Adattárház  rendszerek

Analízisoperátorok

Műveletek: adatkocka adatkocka Aggregáció (roll up)

dimenzió elhagyása v. lépés hierarchiában felfelé Lefúrás (drill down)

áttérés nagyobb részletezettségre Pivoting

adatkocka elforgatása Szelekció (selection, filtering)

konkrét jellemzők kiválasztása Szeletelés (slicing and dicing)

adatkocka szeletének kiválasztása, részkocka kiválasztása

Page 39: Adattárház  rendszerek

Példa hagyományos OLAP elemzőfelületre – SAP BEx Analyser

Page 40: Adattárház  rendszerek

Oracle Discoverer frontend

Page 41: Adattárház  rendszerek

Szemantikai réteg formális adatmodelljei ME/R modell: E/R modell

multidimenzionális bővítése Nested Multidimensional Model (Lehner) Dimensional Fact Model (Golfarelli, Maio,

Rizzi) Stb.

Page 42: Adattárház  rendszerek

ME/R Modell - példa

Page 43: Adattárház  rendszerek

Tartalom

1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek11. Példák adattárház rendszerekre12. Irodalom

Page 44: Adattárház  rendszerek

MOLAP technológia

Közvetlen támogatása a szemantikai multidimenzionális adatmodellnek

Tényadatok / dimenziók szétválasztása Fizikai tároláskor figyelembe vesszük az adatok

multidimenzionális szerkezetét Többdimenzionális tömb tárolás: az adatkocka

adatainak rendezése után azokat fix helyen tároljuk, így nem kell őket indexelni; a kocka minden mezőjének (a tartalmától függetlenül) lefoglalunk egy fix tárhelyet!

Page 45: Adattárház  rendszerek

Háromdimenziós kocka elemeinek egy rendezése

Page 46: Adattárház  rendszerek

Háromdimenziós MOLAP dimenzió-hierarchia példa

Page 47: Adattárház  rendszerek

MOLAP

Ritka mátrix kezelés:a mátrix üres részeinek felderítése, majd a fizikai tárolás megvalósítása ezen mezők kihagyásával helytakarékosság

Korlátok: Nagy dimenzió-elemszámok esetén Ritka mátrix kezelés gyakran nehézkes Nincs elfogadott szabvány Strukturális változtatások rendkívül költségesek

Page 48: Adattárház  rendszerek

MOLAP termékek

Asztalitól kezdve „high end” alkalmazásokig, Cognos: PowerPlay Business Objects: Mercury Oracle Express Holostic Systems: Holos

Adatbázis motorok: Arbor: Essbase Sinper: TM/1

Page 49: Adattárház  rendszerek

Tartalom

1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek, trendek11. Példák adattárház rendszerekre12. Irodalom

Page 50: Adattárház  rendszerek

Relációs adatbázis sémák

Relációs adatbázis: a relációs adatmodellt támogató adatbázis – kiforrott módszerek, technológiák

Táblák (relációk) Constraint-ek (megszorítások) Relációs séma: az adatbázisban tárolt adatokat

leíró adatbázis-terv (reláció-előfordulásoktól, vagyis a konkrét adatoktól független)

Page 51: Adattárház  rendszerek

ROLAP séma tervezésének 4 lépéses folyamataKimball módszertana1. Modellezendő üzleti folyamat kiválasztása

pl.: raktárkészlet nyilvántartások

2. Felbontás (granularity) meghatározásapl.: raktárkészlet alakulása naponként, termékenként, raktárhelységenként, szállítónként, stb.

3. Dimenziók kidolgozásapl.: termék dimenzió: név, ID, súly, beszerzési ár, stb.

4. Tényadatok meghatározásapl.: mennyiség, súly, érték, minőségi mutatók, stb.

Page 52: Adattárház  rendszerek

Csillagséma

Cél: multidimenzionális elvi modell megvalósítása relációs adatmodellben

Eszköz: speciális relációséma kialakítása Központi „tény-tábla” a tényadatok számára Hozzá idegen kulcsokkal kapcsolódnak a

dimenzióelemeket tartalmazó „dimenzió-táblák”

Page 53: Adattárház  rendszerek

Dimenziótáblák

Ténytáblához képest általában kis adatmennyiség Célszerű minél több, könnyen értelmezhető és beszédes

leíró jellegű atribútumot felvenni rugalmas, felhasználóbarát elemzések lehetőségePl.: dátum dimenzió létjogosultsága

Denormalizált szerkezet – redundancia (gyors lekérdezhetőség elsődleges szerepe)

Generált, adatbáziskezelő által támogatott kulcsok Változó dimenziók kezelésére megfelelő stratégia

kidolgozása (slowly changing dimensions)

Page 54: Adattárház  rendszerek

Termék dimenzió

Page 55: Adattárház  rendszerek

Ténytábla

Dimenziótáblákhoz képest nagy méretű Attribútumai mutatószámok, valamint a

mutatószámokat jellemző dimenzióértékekre mutató idegen kulcsok

Általában nem tartalmaznak dimenzióértékeket, csak kulcsokat

Page 56: Adattárház  rendszerek

„Napi eladások” adatkocka csillagsémája

Page 57: Adattárház  rendszerek

Csillagséma tulajdonságaiElőnyök: Egyszerű, intuitív adatmodell Kevés join művelet lekérdezésekhez Kevés tábla olvasása Könnyű megvalósíthatóság, a modell leíró adatai

egyszerűek

Hátrányok: Nehézkes aggregátum (összeg) képzés Nagy dimenziótáblák esetén a hierarchiák kezelése

nagyban lassítja a lekérdezéseket Dimenzióelemek tárolása redundáns, denormalizált

(vagyis tárhhely-pazarló)

Page 58: Adattárház  rendszerek

Egyéb csillagséma variánsok

Hópehely sémanormalizált dimenziótáblák (pl. hierarchiaszerkezetek kialakítása, stb. – hagyományos normalizálás folyamata)

Konszolidált csillagsémaaggregált adatok tárolása a ténytáblában

„Terraced” séma – a szélsőséges esetegyetlen, elfajult ténytáblából álló séma

Galaxis sématöbb adatkocka megvalósítása külön ténytáblákkal, de közösen használt dimenziótáblákkal

„Fact consellation schema”hierarchikus kapcsolatban álló ténytáblák

Page 59: Adattárház  rendszerek

Példa: az SAP BW hópehelysémája

TextText

SID TableSID Table

MasterMaster

Hierarch.Hierarch.

Hierarch.Hierarch.

MasterMaster

SID TableSID Table

TextText

Hierarch.Hierarch.

MasterMaster

SID TableSID Table

TextText

Hierarch.Hierarch.

MasterMaster

SID TableSID Table

TextText

Hierarch.Hierarch.

MasterMaster

SID TableSID Table

TextText

TextText

SID TableSID Table

MasterMaster

Hierarch.Hierarch.

TextText

SID TableSID Table

MasterMaster

HierarchiesHierarchies

Dimension tableDimension table

TextText

SID TableSID Table

MasterMaster

HierarchiesHierarchies

Dimensiontable

Dimensiontable

Dimension tableDimension table

Dimension tableDimension table

Hierarch.Hierarch.

MasterMaster

SID TableSID Table

TextText

FACTFACTDimension tableDimension table

Page 60: Adattárház  rendszerek

ROLAP teljesítény javítása - módszerek

Kritikus tulajdonság a válaszidő (elvárás: 4 másodpercnél nem hosszabb lekérdezések!)

Módszerek: Denormaizáció (redundancia bevezetése) Aggregált adatok tárolása (szintén redundáns

adattároláshoz vezet) Particionálás: tábla (pl. napi szinten), valamint

osztott adatbázisok

Page 61: Adattárház  rendszerek

Aggregáció

Cél: elemzés során gyakran előforduló felbontással összegek, mutatószámok fizikai tárolásával a válaszidő csökkentése

Fontos a tárolt aggregátumok megfelelő választásatúl sok nagy adatbázis, aggregátumok karbantartása költségestúl kevés lassú lekérdezések

Gyakran az adattárház rendszer az előforduló lekérdezések mért statisztikái alapján, dinamikusan dönt a létrehozandó aggregátumokról

Page 62: Adattárház  rendszerek

Aggregációs rács – „n-cuboid”-ok(megfelelő tárolt aggregátumok kiválasztásához)

Page 63: Adattárház  rendszerek

OLAP támogatás relációs adatbáziskezelőkben

(Oracle 9i példákkal) Tábla particionálás – párhuzamos végrehajtás

Range particionálás: attribútum értékek intervallumfelosztása alapján, pl. napi adatok

Hash particionálás: attribútumértékekből számolt hash-függvény használata List particionálás: adott értéklisták alapján

create table partitioned_t( … date_stamp date not null)partition by range (date_stamp)( partition part_1 values less than (TO_DATE(‘1970.01.01’)) tablespace ts1, … partition part_5 values less than (TO_DATE(‘2003.9.28’)) tablespace ts5 )

Page 64: Adattárház  rendszerek

OLAP támogatás 2.

Materializált nézetek (aggregáció) Fizikailag tárolt nézetek Automatikus frissítés, query kiszolgálása szintén

automatikusan történik a nézetből, ha célszerű

create materialized view mat_examplebuild immediaterefresh forceenable query rewrite

as select id, sum(amount)

from sales s, customers cwhere s.cust_id = c.cust_idgroup by c.cust_id ;

Page 65: Adattárház  rendszerek

OLAP támogatás 3.

Bitmap indexelés: hagyományos indexek (B-fa): attribútum értékek

alapján meghatározza a konkrét rekord helyét Bitmap: rekordazonosító (rowid) helyett azok egy

bitsorozatos reprezentációját használjuk Rugalmas attribútumkezelés ( rugalmasabb OLAP

lekérdezések), helytakarékosság

Page 66: Adattárház  rendszerek

OLAP támogatás 4.

Külső táblákETL folyamat integrálása adatbázison belülrekülső file-ok, adatforrások hagyományos táblaként kezelhetőek

OLAP query optimalizációOLAP bővítményeket tartalmazó SQL-eken és szabványos OLAP interface-eken (Pl. Java OLAP API) keresztül történő lekérdezések optimalizációja

Page 67: Adattárház  rendszerek

OLAP támogatás 5.

Tábla tömörítésNagy adatmennyiség esetében a tábla adatait tömöríthetjükhatékonyabb helykihasználás, gyorsabb válaszidők, de cserébe költségesebb módosító műveletek

Dimenzió, hierarchia, adatkocka fogalmának bevezetéseMultidimenzionális adatmodell támogatása

Page 68: Adattárház  rendszerek

OLAP támogatás 6.

SQL bővítések Group by kiegészítői: ROLLUP, CUBE operátorok

select channel_desc,calendar_month_desc,country_id,

to_char(sum(amount_sold), '9,999,999,999') SALES$ from sales, customers, times, channels where sales.time_id=times.time_id and sales.cust_id=customers.cust_i and sales.channel_id= channels.channel_id and channels.channel_desc IN ('Direct Sales', 'Internet') and

times.calendar_month_desc IN ('2002-09', '2002-10') and country_id IN ('CA', 'US') group by cube

(channel_desc,calendar_month_desc,country_id);

Page 69: Adattárház  rendszerek

CHANNEL_DESC CALENDAR CO SALES$ -------------------- -------- -- ----------Direct Sales 2002-09 CA 1,378,126 Direct Sales 2002-09 US 2,835,557 Direct Sales 2002-09 4,213,683 BY Channel and MonthDirect Sales 2002-10 CA 1,388,051 Direct Sales 2002-10 US 2,908,706 Direct Sales 2002-10 4,296,757 BY Channel and MonthDirect Sales CA 2,766,177 BY Channel and CountryDirect Sales US 5,744,263 Direct Sales 8,510,440 BY ChannelInternet 2002-09 CA 911,739 Internet 2002-09 US 1,732,240 Internet 2002-09 2,643,979 BY Channel and MonthInternet 2002-10 CA 876,571 Internet 2002-10 US 1,893,753 Internet 2002-10 2,770,324 BY Channel and MonthInternet CA 1,788,310 BY Channel and CountryInternet US 3,625,993 Internet 5,414,303 BY Channel

2002-09 CA 2,289,865 BY Month and Country2002-09 US 4,567,797 2002-09 6,857,662 BY Month 2002-10 CA 2,264,622 2002-10 US 4,802,459 2002-10 7,067,081

CA 4,554,487 US 9,370,256

13,924,743 Everything

Page 70: Adattárház  rendszerek

HOLAP architektúrák

Relációs és multidimenzionális megvalósítást egyszerre támogató rendszerek

Trend: multidimenzionális tárolás lehetőségének bevonása relációs adatbáziskezelőkbe, a szabványos kereteken belül

Pl.: Oracle – Analytic WorkspacesMSSQL, IBM DB2

Page 71: Adattárház  rendszerek

MOLAP – ROLAP eszközök skálázhatósága

Page 72: Adattárház  rendszerek

Tartalom

1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek, trendek11. Példák adattárház rendszerekre12. Irodalom

Page 73: Adattárház  rendszerek

Adattárház projekt

Adattárházak bevezetése beruházási projektek keretében

Hagyományos IT projektektől némileg eltérő felépítés

Tervezés: felhasználói igények – rendelkezésre álló adatok nyújtotta lehetőségek

Page 74: Adattárház  rendszerek

Fentről lefelé ill. lentről felfelé tervezés

Page 75: Adattárház  rendszerek

Iteratív adattárház-építési folyamat

Page 76: Adattárház  rendszerek

Tartalom

1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek, trendek11. Példák adattárház rendszerekre12. Irodalom

Page 77: Adattárház  rendszerek

Kurrens kutatási területek(a teljesség igénye nélkül)

Aggregátumképzés módszerei, modelljei, megfelelő aggregátumok kiválasztása, kezelése

Indexek Induktív adatbázisok

az adatok mellett következtetési sémákat, szabályokat is tárolunk adatbányászat

Query optimalizálásOLAP jellegű lekérdezések ekvivalens átalakításaival

Page 78: Adattárház  rendszerek

Kurrens kutatási területek 2.

SQL bővítések, OLAP lekérdező nyelvek Formális adatmodellek Elosztott adattárházak

sok, független adatpiac Metaadat kezelés:

szabványosítás

Page 79: Adattárház  rendszerek

Trendek, fejlesztési irányvonalak

Business Intelligence Platform – adatbáziskezelők egyre szélesebb körű szolgáltatással

ROLAP-MOLAP egybeolvadás Tisztám MOLAP termékek háttérbe szorulása Adatbányász eszközök integrálása az

adattárház ill. az adatbázis keretein belülre

Page 80: Adattárház  rendszerek

Tartalom

1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek, trendek11. Példák adattárház rendszerekre12. Irodalom

Page 81: Adattárház  rendszerek

Példák adattárház rendszerekre

SAP BW Robosztus, „faltól falig” megoldás Üzleti tudás beépítése

Oracle, IBM DB2 Könnyen skálázható Rugalmasan alkalmazható komponensek, nyitottság

más komponensek irányában Adatbázis szerver business intelligence platform

Page 82: Adattárház  rendszerek

Clickstream adattárház

Clickstream: webszerveren halmozódó logokban tárolt, a felhasználók lekéréseit tartalmazó adathalmaz

Kihívás: nagy adatmennyiségekpl. [origo] portál: napi kb. 20 millió log-sor – 6 GB

Cél: felhasználási szokások, trendek felismerése, alapstatisztikák nyilvántartása, a portál karbantartása, kialakítása a felhasználói igényekhez mérten

Személyre szabott, célzott tartalom Adatbányász módszerek: klaszterezés, szekvencia-

keresés

Page 83: Adattárház  rendszerek

Tartalom

1. Bevezetés, fogalmak, definíciók2. Új követelmények: OLAP rendszerek3. Adattárház architektúra4. Adattárházra épülő elemző módszerek5. Adattárház komponensek6. Adatmodellezés, adatmodellek7. MOLAP architektúrák8. ROLAP architektúrák9. Az adattárház projekt10. Kurrens kutatási területek, trendek11. Példák adattárház rendszerekre12. Irodalom

Page 84: Adattárház  rendszerek

Irodalom

W.H.Inmon: Building the Data Warehouse - Second Edition

Ralph Kimball, Margy Ross: The Data Warehouse Toolkit - Second Edition. John Wiley & Sons, Inc., 2002

Oracle9i Data Warehousing Guide. Oracle Corporation.

Business Information Warehouse Online Help