Dátové sklady

68
Dátové sklady Pokročilé dátové technológie Genči

description

Dátové sklady. Pokročilé dátové technológie Genči. Obsah. Literatúra Pojem INFORMÁCIA Motivácia pre DWH Bližší pohľad na DWH Š tr uktúra DWH Metadata Komponenty DWH Nástroje (Tools). Literatúra. - PowerPoint PPT Presentation

Transcript of Dátové sklady

Page 1: Dátové sklady

Dátové sklady

Pokročilé dátové technológie

Genči

Page 2: Dátové sklady

2

Obsah

• Literatúra• Pojem INFORMÁCIA• Motivácia pre DWH• Bližší pohľad na DWH• Štruktúra DWH• Metadata• Komponenty DWH• Nástroje (Tools)

Page 3: Dátové sklady

3

Literatúra

[1] Lacko L.: Datové sklady, analýza OLAP a dolování dát s příklady … . Computer Press. Brno. 2003

[2] Paulraj Ponniah: Data Warehousing Fundamentals: A Comprehensive Guide for IT Professionals. 2001. John Wiley & Sons, Inc. ISBNs: 0-471-41254-6 (Hardback);

0-471-22162-7 (Electronic)

Page 4: Dátové sklady

4

Page 5: Dátové sklady

5

Literatúra (pokr.)

[3] Ralph Kimball, Margy Ross: The Data Warehouse Toolkit. Second Edition. 2002. Wiley Computer Publishing.

[4] W. H. Inmon: Building the Data Warehouse Third Edition. 2002. John Wiley & Sons, Inc.

Page 6: Dátové sklady

6

Page 7: Dátové sklady

7

Pojem INFORMÁCIA [1]

• Údaje sa stávajú informáciami, ak– máme údaje;– vieme, že máme údaje;– vieme, kde máme tieto údaje;– máme k nim prístup;– zdroju údajov môžeme dôverovať.

Page 8: Dátové sklady

8

Hierarchia informačných úrovní

Údaje

Informácie

Znalosti

Múdrosť

Page 9: Dátové sklady

9

Motivácia pre DWH

• Exekutíva potrebuje informácie (napr.) kvôli rozhodnutiu:– kde postaviť ďalší sklad;– ktorú produktovú líniu rozvíjať;– ktorý tržný segment by mal byť posilnený

• t.j. potrebuje realizovať strategické rozhodnutia a pre ne potrebuje strategickú informáciu

Page 10: Dátové sklady

10

Strategická informácia

• Nemôžu ju poskytnúť OLTP systémy

• Neslúži pre denno-denné riadenie spoločnosti

Page 11: Dátové sklady

11

Požadované vlastnosti strategickej informácie

Page 12: Dátové sklady

12

„Vstup“ dát

Page 13: Dátové sklady

13

„Výstup“ informácií

Page 14: Dátové sklady

14

Vyplývajúce protirečenia

• Organizácie majú veľké množstvo dát

ale

• IT zdroje a systémy nie sú schopné efektívnym spôsobom toto množstvo dát premeniť na strategickú informáciu

Page 15: Dátové sklady

15

Informačná kríza

• Nie kvôli nedostatku dát, ale preto, že dáta nie sú použiteľné pre strategické rozhodovanie

• Dôvody:– Údaje sú v spoločnostiach rozložené naprieč

mnohými typmi nekompatibilných štruktúr a systémov

Page 16: Dátové sklady

16

• Prevádzkové systémy (spracovanie objednávok, skladová evidencia, fakturácia, ...) nie sú navrhované pre poskytovanie strategickej informácie.

• Ak potrebujeme poskytovať strategickú informáciu, musíme spracovať dáta uložené v rôznych typoch systémov.

• Iba špeciálne navrhnuté DSS alebo IS môžu poskytovať strategickú informáciu.

Page 17: Dátové sklady

17

Rozdiely

Page 18: Dátové sklady

18

Koncepcia dátového skladu

• Vezmite všetky dáta ktoré máte v organizácii, vyčistite a transformujte ich a následne poskytujte užitočnú strategickú informáciu

Page 19: Dátové sklady

19

Koncepcia dátového skladu

Page 20: Dátové sklady

Bližší pohľad na DWH

Page 21: Dátové sklady

21

Inmonová definícia DWH

William (Bill?) Inmon, považovaný za otca dátových skladov, definoval DWH takto:

– “A Data Warehouse is a subject oriented, integrated, nonvolatile, and time variant collection of data in support of management’s decisions.”

Page 22: Dátové sklady

22

Subjektovo-orientovaný

Page 23: Dátové sklady

23

Integrované dáta

Page 24: Dátové sklady

24

Nemenné dáta

Page 25: Dátové sklady

25

Časovo závislé (time-variant) dáta

• Prevádzkové systémy – aktuálne hodnoty dát. • Dáta v dátovom sklade sú určené na analýzy a

podporu rozhodovania. • Dátový sklad, vo svojej podstate, musí

obsahovať historické dáta a nielen aktuálne hodnoty. Dáta sú ukladané ako obrazy (momentky, fotky; z angl. snapshots) minulých a súčasných období.

• Každá dátová štruktúra v dátovom sklade obsahuje element času.

Page 26: Dátové sklady

26

DWH – zmes technológií

Page 27: Dátové sklady

Štruktúra dátového skladu

Page 28: Dátové sklady

28

Celková štruktúra DWH

Page 29: Dátové sklady

29

Zdrojové dáta

• Produkčné systémy

• Interné dáta (spreadsheets)

• Archívné dáta (pásky)

• Externé dáta (akcie, úroky, kurzy …)

Page 30: Dátové sklady

30

Dočasné úložisko (data staging)

• Extrakcia (Data Extraction)

• Transformácia (Data Transformation)

• Prenos dát (Data Loading)

Page 31: Dátové sklady

31

Presun dát do dátového skladu

Page 32: Dátové sklady

32

Poskytovanie informácií (Information Delivery)

Page 33: Dátové sklady

METADATA v dátovom sklade

Page 34: Dátové sklady

34

Dôležitosť METADÁT

Users to compose and run the query can have several important questions:

– Are there any predefined queries I can look at?– What are the various elements of data in the warehouse?– Is there information about unit sales and unit costs by product?– How can I browse and see what is available?– From where did they get the data for the warehouse? From

which source systems?– How did they merge the data from the telephone orders system

and the mail orders system?– How old is the data in the warehouse?– When was the last time fresh data was brought in?– Are there any summaries by month and product?

Page 35: Dátové sklady

35

• Metadata v dátovom sklade obsahujú odpovede na otázky ohľadom dát v dátovom sklade

Page 36: Dátové sklady

36

Metadata v OLTP

• V prevádzkových systémoch nepotrebujeme poznať „podstatu“ uložených dát.

• Neexistuje požiadavka „user-friendly interfejsu„ na prístup k obsahu databázy.

• „Data dictionary“ alebo „systémový katalóg“ sa využíva iba pre systémové potreby (IT potreby).

Page 37: Dátové sklady

37

Metadata v DWH

• Používatelia potrebujú dostatočné podklady k tomu, aby boli schopní prezerať a „skúmať“ obsah dátového skladu.

• Používatelia potrebujú poznať význam (zmysel) jednotlivých dátových položiek.

• Používateľom musí byť zabránené urobiť nesprávne závery analýz potenciálne vyplývajúce z nesprávnej interpretácie sémantiky dát.

• Bez adekvátnej podpory v oblasti metadát, používatelia veľkých dátových skladov sú úplne stratení!

Page 38: Dátové sklady

38

Typy Metadát

• Metadata v dátovom sklade delíme do troch kategórií:– Prevádzkové (Operational) Metadáta– Extrakčné a Transformačné (Extraction and Transformation)

Metadáta– Používateľské (End-User) Metadata

Page 39: Dátové sklady

39

Prevádzkové metadáta

• Data for the data warehouse comes from several operational systems of the enterprise.

• These source systems contain different data structures. • The data elements selected for the data warehouse have

various field lengths and data types. • In selecting data from the source systems for the data

warehouse, you split records, combine parts of records from different source files, and deal with multiple coding schemes and field lengths.

• When you deliver information to the end-users, you must be able to tie that back to the original source data sets.

• Operational metadata contain all of this information about the operational data sources.

Page 40: Dátové sklady

40

Extraction and Transformation Metadata

• Extraction and transformation metadata contain data about the extraction of data from the source systems, namely, the extraction frequencies, extraction methods, and business rules for the data extraction. Also, this category of metadata contains information about all the data transformations that take place in the data staging area.

Page 41: Dátové sklady

41

End-User Metadata

• The end-user metadata is the navigational map of the data warehouse. It enables the end-users to find information from the data warehouse. The end-user metadata allows the end-users to use their own business terminology and look for information in those ways in which they normally think of the business.

Page 42: Dátové sklady

42

Page 43: Dátové sklady

43

Page 44: Dátové sklady

44

Page 45: Dátové sklady

45

Page 46: Dátové sklady

THE ARCHITECTURAL COMPONENTS

Page 47: Dátové sklady

47

ARCHITECTURAL FRAMEWORKFlow of data

Page 48: Dátové sklady

48

ARCHITECTURAL FRAMEWORKControl

Page 49: Dátové sklady

49

Data Acquisition

• Data acquisition covers the entire process of extracting data from the data sources, moving all the extracted data to the staging area, and preparing the data for loading into the data warehouse repository.

• The two major architectural components are source data and data staging.

Page 50: Dátové sklady

50

Data Acquisition (2)

Page 51: Dátové sklady

51

List of Functions and Services Data Extraction• Select data sources and determine the types of filters to be applied

to individual sources• Generate automatic extract files from operational systems using

replication and other techniques• Create intermediary files to store selected data to be merged later• Transport extracted files from multiple platforms• Provide automated job control services for creating extract files• Reformat input from outside sources• Reformat input from departmental data files, databases, and

spreadsheets• Generate common application code for data extraction• Resolve inconsistencies for common data elements from multiple

sources

Page 52: Dátové sklady

52

List of Functions and Services (2)

Data Transformation• Map input data to data for data warehouse repository• Clean data, deduplicate, and merge/purge• Denormalize extracted data structures as required by the

dimensional model of the data warehouse• Convert data types• Calculate and derive attribute values• Check for referential integrity• Aggregate data as needed• Resolve missing values• Consolidate and integrate data

Page 53: Dátové sklady

53

List of Functions and Services (3)

Data Staging• Provide backup and recovery for staging area repositories• Sort and merge files• Create files as input to make changes to dimension tables• If data staging storage is a relational database, create and populate

database• Preserve audit trail to relate each data item in the data warehouse

to input source• Resolve and create primary and foreign keys for load tables• Consolidate datasets and create flat files for loading through DBMS

utilities• If staging area storage is a relational database, extract load files

Page 54: Dátové sklady

54

Data Storage

• Data storage covers the process of loading the data from the staging area into the data warehouse repository.

• All functions for transforming and integrating the data are completed in the data staging area.

• The prepared data in the data warehouse is like the finished product that is ready to be stacked in an industrial warehouse.

Page 55: Dátové sklady

55

Data Storage (2)

Page 56: Dátové sklady

56

Data Storage (3)List of Functions and Services• Load data for full refreshes of data warehouse tables• Perform incremental loads at regular prescribed intervals• Support loading into multiple tables at the detailed and summarized

levels• Optimize the loading process• Provide automated job control services for loading the data

warehouse• Provide backup and recovery for the data warehouse database• Provide security• Monitor and fine-tune the database• Periodically archive data from the database according to preset

conditions

Page 57: Dátové sklady

57

Information Delivery

• Information delivery spans a broad spectrum of many different methods of making information available to users.

• For users, the information delivery component is the data warehouse.

Page 58: Dátové sklady

58

Information Delivery (2)

• The information delivery component makes it easy for the users to access the information either directly from the enterprise-wide data warehouse, from the dependent data marts, or from the set of conformed data marts.

• Most of the information access in a data warehouse is through online queries and interactive analysis sessions.

Page 59: Dátové sklady

59

Information Delivery (3)

Page 60: Dátové sklady

60

Information Delivery (4)

• Almost all modern data warehouses provide for online analytical processing (OLAP).

• The primary data warehouse feeds data to proprietary multidimensional databases (MDDBs) where summarized data is kept as multidimensional cubes of information.

• The users perform complex multidimensional analysis using the information cubes in the MDDBs.

Page 61: Dátové sklady

61

Functions and Services

• Provide security to control information access• Monitor user access to improve service and for future

enhancements• Allow users to browse data warehouse content• Simplify access by hiding internal complexities of data

storage from users• Automatically reformat queries for optimal execution• Enable queries to be aware of aggregate tables for faster

results• Govern queries and control runaway queries• Provide self-service report generation for users,

consisting of a variety of flexible options to create, schedule, and run reports

Page 62: Dátové sklady

62

Functions and Services (2)

• Store result sets of queries and reports for future use

• Provide multiple levels of data granularity• Provide event triggers to monitor data loading• Make provision for the users to perform complex

analysis through online analytical processing (OLAP)

• Enable data feeds to downstream, specialized decisions support systems such as EIS and data mining

Page 63: Dátové sklady

Tools

Page 64: Dátové sklady

64

Súbor nástrojov (TOOLS)

• V dátovom sklade vývojári používajú nástroje tretích strán v rôznych fázach vývoja:– Generátory kódov pre prírpavu dátovej

extrakcie– Dotazovacie nástrojetretích strán– Generátory výstupných zostáv (report writers)

Page 65: Dátové sklady

65

Page 66: Dátové sklady

Základný účel a vlastnosti nástrojov

Page 67: Dátové sklady

67

Typy nástrojov

• Data Modeling• Data Extraction• Data Transformation• Data Loading• Data Quality• Queries and Reports • Online Analytical Processing (OLAP)• Alert Systems • Middleware and Connectivity• Data Warehouse Management

Page 68: Dátové sklady

68

Koniec prezentácie