Download - Datové sklady a BI aplikace

Transcript
Page 1: Datové sklady a BI aplikace

Datové sklady a BI aplikace

MFF Část 1

Říjen 2004

Ing. David Pirkl

Page 2: Datové sklady a BI aplikace

1. Přednáška

Page 3: Datové sklady a BI aplikace

Cíle školení

Seznámit s architekturou aplikací BI Datové sklady Data Mining CRM

Podrobně popsat metodologii tvorby datových skladů Ukázat na možnosti dimensionálního modelování Pokročilé analytické techniky využití data

Obchodní příležitosti a typické úlohy

Page 4: Datové sklady a BI aplikace

Co byste si měli odnést

Představu o architektuře řešení BI a významu jednotlivých komponent

Detailní znalost metodiky tvorby DW Principy dimensionálního modelování Znalost hlavních technik pokročilé analýzy dat a jejich

možnosti využití Praktické zkušenosti s práce s řešením od firmy

Microsoft a SPSS MS SQL Server 2000, MS Analysis Services Clementine, …

Page 5: Datové sklady a BI aplikace

Předpoklady

Žádné speciální znalosti nejsou požadovány Uživatelská znalost

Práce na PC Databází (např. MS Access) Základy statistiky a středoškolské matematiky

Page 6: Datové sklady a BI aplikace

Literatura

Kimball Raplh: The Data Warehouse Toolkit, John Wiley & Sons, 2002

Kimball Raplh: The Data Warehouse Lifecycle Toolkit, John Wiley & Sons, 1998

Inmon W. H.: Building the Data Warehouse, John Wiley & Sons, 2002 Lacko Luboslav: Databáze: datové sklady, OLAP a dolování dat s

příklady v MS SQL Serveru a Oracle, Computer Press, 2003 Humphries M., Hawkins M. W. : Data warehousing : návrh a

implementace, Computer Press, 2002

Berry M. J., Linoff G.: Data Mining Techniques for marketing, sales and customer support, John Wiley & Sons, 1997

Rud Olivia Parr: Data mining, Computer Press, 2001 Berka Petr: Dobývání znalostí z databází, Academia, 2003

Page 7: Datové sklady a BI aplikace

Literatura

Rozsáhle zdroje na Internetu: www.rkimball.com www.billinmon.com www.dw-institute.com www.dwinfocenter.org www.olapreport.com www.microsoft.com www.oracle.com www.kdnuggets.com www.dmreview.com …

Page 8: Datové sklady a BI aplikace

Vyučuje

Ing. David Pirkl

Page 9: Datové sklady a BI aplikace

Agenda dne

Základní pojmy Metodologie BDLC

Page 10: Datové sklady a BI aplikace

Základní pojmy

Mezi hlavní pojmy, s kterými se seznámíme, patří: BI – Business Intelligence Datový sklad Datové tržiště Proces ETL OLAP Reporting

Page 11: Datové sklady a BI aplikace

Business intelligence (BI)

Označuje proces transformace dat (údajů) na informace a převod těchto informací na znalosti, sloužící k podpoře podnikání (rozhodování) Identifikovat trhlinu mezi obchodními potřebami a

dostupnými informacemi

Page 12: Datové sklady a BI aplikace

Business intelligence (BI)

Data

Informace

ZnalostiZpracování dat

Nízké

Vysoké

OLTPOperační databáze

Data miningNeuronové sítě, …

OLAPReportingData warehouse

Page 13: Datové sklady a BI aplikace

Historie BI

Navazuje na rozvoj databázových systémů: Transakční systémy (OLTP) 60. léta – Dávkové zpracování výkazů

Složité nalézt a analyzovat informace Nákladné a neflexibilní, přeprogramování dle nových požadavků

70. léta – první manažerské aplikace (Lockheed) Terminálově orientované EIS a DSS aplikace

80. léta – Desktopové aplikace a analytické nástroje Dotazovací nástroje, tabulkové procesory, GUI Jednoduché na používání, přístup pouze k operačním databázím

90. léta – Rozvoj datových skladů, integrace OLAP databází a DM technik

Page 14: Datové sklady a BI aplikace

Co vedlo k BI

Orientace na zákazníka Potřeba efektivních a flexibilních analýz – cena

informace Potřeba oddělit analýzu od operačních potřeb Rozvoj technologie – relační databáze, OLAP

databáze

Page 15: Datové sklady a BI aplikace

Co vedlo k BI

Nemohu nalézt informace, které potřebuji Data jsou v různých místech po síti Různé verze dat, liší se

Nemohu se dostat k datům, která potřebuji Potřeba kontaktovat IT experta

Nerozumím datům, která jsem získal Data nejsou dokumentována (metadata)

Nemohu využít data, která jsem získal Výsledky jsou nepravděpodobné (chyby) Potřebuji transformovat data do jiné formy

Page 16: Datové sklady a BI aplikace

Současný a zítřejší stav

Mnoho nástrojů pro podporu řešení BI Propracovaná metodologie Vývoj směrem k co největší uživatelské přívětivosti Mnoho konzultačních firem nabízejících řešení BI

Page 17: Datové sklady a BI aplikace

Komponenty a aplikace BI

Mezi komponenty BI řešení lze zařadit: Reportingová řešení Datové sklady Data Mining řešení CRM specializované aplikace (optimalizace zásob,

obchodních cest, …)

Page 18: Datové sklady a BI aplikace

Architektura BI

Provoz ObchodÚčetnictví

Analytický data mart

ODS

Data marty

Prodej

Marketing

Ekonomika

Reporting

Uživatelé/Analytici

Kontaktní CRM

OLAP analýza

Data mining modely

2

3 4

5

6

13

8

9

12

11

107

Centrální datový sklad

2. vrstva

1. vrstva

0. vrstva

1 ETL

Page 19: Datové sklady a BI aplikace

Data Warehouse

Datový sklad je podnikový strukturovaný depozitář předmětově orientovaných, vzájemně provázaných, časově neměnných,

historických dat používaný na získávání informací a podporu rozhodování. V datovém skladu jsou uložena detailní a sumární data.

Datový sklad je podnikový strukturovaný depozitář předmětově orientovaných, vzájemně provázaných, časově neměnných,

historických dat používaný na získávání informací a podporu rozhodování. V datovém skladu jsou uložena detailní a sumární data.

Bill Inmon

Datový sklad je centrální úložiště různorodých dat firmy Řešení integračních efektů Jednotné místo uložení dat

Určeno pro analytickou podporu rozhodování (drill-down, drill-up) Zahrnuje nejen data v databází, ale i nástroje pro extrakci dat, nástroje pro reporting, analýzu dat, data mining… Prezentace dat uživatelsky příjemným způsobem zaměřeným na střední a vyšší management

Page 20: Datové sklady a BI aplikace

Předmětná orientace

Prodejní systém

Výplatnísystém

Nákupní systém

Zákazník

Prodejce

Zaměstnanec

Provozní systémyAplikační orientace

Datový skladPředmětná orientace

Page 21: Datové sklady a BI aplikace

Integrace

Prodejní systém

Výplatnísystém

Nákupní systém

Zákazník

Provozní systémyAplikační orientace

Datový skladPředmětná orientace

Page 22: Datové sklady a BI aplikace

Časová neměnnost, historie

Výplatnísystém

Zákazník

Provozní systémyAplikační orientace

Datový skladPředmětná orientace

insert načtení

create

update delete

zobrazení

Page 23: Datové sklady a BI aplikace

Přínosy řešení datového skladu

Integrace a čistota dat, integrační efekty Podpora úloh analytického charakteru a jejich

ekonomické a mimoekonomické efekty Vyšší flexibilita řízení a realizace změn Zpětná vazba Nezávislost vedoucích pracovníků na oddělení IT Kvalifikační efekty – v IT i v ekonomice řízení (práce

s informacemi, uvažování v kontextu)

Automatizace rutinních procesů (tvorba výkazů, zpráv) Kontrola plnění plánů a finanční analýza

Více

Page 24: Datové sklady a BI aplikace

Přínosy řešení datového skladu

Podpora analýzy dat: Trendy, sledování a analýza časových řad Poměrové ukazatele Identifikace odchylek Drill-down, Drill-up, Drill-across, Slice-dice

Page 25: Datové sklady a BI aplikace

OLTP

Provozní databáze

Vlastnost OLTP

Typická operace Update

Podpora analýz Nízká

Uživatelské rozhraní Stabilní

Velikost dat při transakci Malá

Úroveň dat Detailní

Stáří dat Současné

Orientace Záznam

Page 26: Datové sklady a BI aplikace

OLTP vs. DW

OLTP DW

Podpora transakcí - každodenní operace Analýza i historických dat

Data uložena na úrovni transakcí Integrace dat

Normalizovaný datový model Denormalizovaný model

Page 27: Datové sklady a BI aplikace

Data Mart (Datové tržiště)

Logická podmnožina datového skladu Část řešení datového skladu určená pro podporu

specifické analýzy (účetnictví) nebo oddělení firmy (marketing, prodej)

Vlastnost Data Warehouse Data Mart

Rozsah Enterprise Oddělení

Obsah Více oblastí Jedna oblast

Zdroje Hodně Málo

Velikost (typicky) 100 GB to > 1 TB < 100 GB

Implementace Měsíce až roky Měsíce

Page 28: Datové sklady a BI aplikace

ETL

Extraction-Transformation-Loading Kompletní proces načtení dat do datového skladu Zahrnuje mnoho subprocesů:

Extrakce – výběr dat Transformace – ověření, čištění, integrace dat Loading – načtení dat do DW Kontrola kvality Auditovaní Bezpečnost Zálohování & Obnova

Page 29: Datové sklady a BI aplikace

OLAP

On-Line Analytic Processing Obecné označení pro dotazování a zobrazení dat

z datového skladu založené na dimenzionálním modelu

Prakticky zkratka označuje multidimenzionální uložení a analýzu dat (OLAP databáze)

Page 30: Datové sklady a BI aplikace

ODS

Operational Data Store Architektura obsahující předmětově orientovaná,

integrovaná, současná, rychle se měnící a detailní data pro operační potřeby

ODS typicky obsahuje dat rychle se měnící v reálném čase

Pro podporu analytických a CRM aplikací

Page 31: Datové sklady a BI aplikace

Data Mining

Data mining je netriviální proces zjišťování platných, neznámých, potencionálně užitečných a snadno pochopitelných znalostí z dat.

Automatizované zpracování rozsáhlých datových souborů metodami na pokraji statistiky, strojového učení a umělé inteligence.

Page 32: Datové sklady a BI aplikace

CRM

Customer Relationship Management Systémy pro řízení vztahů se zákazníky

Page 33: Datové sklady a BI aplikace

Shrnutí pojmů

Shrnutí relevantních pojmů (některé budou probrány dále) OLTP – transakční systémy Datový sklad (DW) Datové tržiště ETL ODS OLAP CRM Data Mining (DM) Dimensionální modelování ROLAP, MOLAP, HOLAP Dotazovací nástroje DM techniky

Page 34: Datové sklady a BI aplikace

DW - opakování

Centrální úložiště relevantní firemních dat Integrace firemních datových zdrojů Historie v datech Centrální místo pro podporu informačních

potřeb uživatelů Velké objemy dat Navrženo pro podporu analýzy – speciální

struktury uložení dat

Page 35: Datové sklady a BI aplikace

Základní způsoby budování DW

Existují dva základní přístupy k budování DW: Metoda velkého třesku Přírůstková metoda

Page 36: Datové sklady a BI aplikace

Přístupy k tvorbě DS

Uživatelé

Data marty

Provoz

Obchod

Účetnictví

Marketing

Prodej

Ekonomika

Centrální datový sklad

Uživatelé

Uživatelé

„Velký třesk“

BUS Architektura

Centrální datový sklad

Data marty

Uživatelé

Uživatelé

Uživatelé

Inkrementální přírůstky

Provoz

Obchod

Účetnictví

Marketing

Prodej

Ekonomika

Page 37: Datové sklady a BI aplikace

Nezávislé datové tržiště

OLTPETL

Datové tržiště

Page 38: Datové sklady a BI aplikace

Nezávislé datové tržiště

ETL – 3 krát !!!

Page 39: Datové sklady a BI aplikace

Nezávislé datové tržiště

$Duplikace práce na ETLČasově i finančně náročné

Údržba nezávislých DM je náročná, těžkopádná

$

Page 40: Datové sklady a BI aplikace

DW architektura

md

md

DWDept’l

Dept’l

Dept’l

Detailní

Uživatelské nástroje

Závislé datové tržiště s odpovídajícími metadaty

Metadata

md

Page 41: Datové sklady a BI aplikace

DW architektura

Komplexní architektura

Konzistence dat

Detailní i agregovaná data

Metadata jsou konzistentní

Rychlý vývoj, ale …

? Budou ETL konzistentní?

? Jak je řízena redundance?

DW

Detailní Dept’l

md

Page 42: Datové sklady a BI aplikace

Základní způsoby budování DW

Dnes je preferovaná přírůstková metoda Přírůstková metoda zaručuje:

Projektovou zvládnutelnost řešení Reálné časové horizonty jednotlivých etap (2-4

měsíce) Řešení aktuálních uživatelských (obchodních) potřeb Zpětnou vazbu uživatelů

Page 43: Datové sklady a BI aplikace

Cíle datového skladu

Zajistit dostupnost firemních informací Zajistit konzistenci firemních informací Vytvořit adaptivní a pružný zdroj informací Zabezpečit ochranu firemních informací Vytvořit základnu pro firemní podporu

rozhodování (analytické centrum)

Page 44: Datové sklady a BI aplikace

DW procesy

Hlavní proces při tvorbě datového skladu Podprocesy:

Extrakce Transformace

Čištění dat Výběr dat Integrace Umělé klíče Agregace

Načtení (Loading) a tvorba indexů Data Quality Assurance

Page 45: Datové sklady a BI aplikace

DW procesy

Další procesy v DW Publikace dat (prezentační server) Update dat Dotazování Zpětná vazba (čistá dat do OLTP, data z DM do DW) Audit dat Bezpečnost Zálohování a obnova

Page 46: Datové sklady a BI aplikace

Architektura

Uložení dat:

- 0. vrstva DW - Není pro přímé dotazování

Procesy:

- Čištění dat - Integrace - Full vs. Inkrem. - Výběr - Duplicity - Standardizace - Conformní dimenze - Převod do prezentační vrstvy - a další

Uložení dat:

- 0. vrstva DW - Není pro přímé dotazování

Procesy:

- Čištění dat - Integrace - Full vs. Inkrem. - Výběr - Duplicity - Standardizace - Conformní dimenze - Převod do prezentační vrstvy - a další

B

U

S

Datové tržiště - Dimenzionální - Předmětně orientované - BUS architekt. - OLAP

Datové tržiště - Dimenzionální - Předmětně orientované - BUS architekt. - OLAP

Datové tržištěDatové tržiště

Datové tržištěDatové tržiště

DM modelování - scoring - předpovědi - segmentace - cross-selling - časové řady

DM modelování - scoring - předpovědi - segmentace - cross-selling - časové řady

Ad Hoc dotazováníAd Hoc

dotazování

Reportovací nástroje

Reportovací nástroje

IntranetIntranet

Provozní databáze

ETL Datový sklad„Prezentační vrstva“

Uživatelské aplikace

Výsledky modelůOprava chyb

Extrakce

Extrakce

Extrakce

Plnění

Plnění

Plnění

Prezentace

Prezentace

Prezentace

Analýza

Page 47: Datové sklady a BI aplikace

Architektura

Ekon.

Obchod

Provozní databáze

dbf

Externí data

Excel

Data mining aplikace

Data mining modely Scoring, cross-selling, …

MS DTS

ETL

Metainformační a reportingový

portál

MS Reporting Services

MS SQL Server 2000 EE

OLAP

MS Analysis Services

Relační databáze datového skladu

(0. a 1. vrstva, datová tržiště a ODS)

MS SQL Server 2000 Uživatelé

CRM aplikace a Internetové aplikace

Internetové a intranetové aplikace pro řízení vztahu se zákazníkem, podporu pracovníků distribuční sítě(např. on-line scoring)

WWW prohlížeč (IE)

Excel XP

ProClarity

Page 48: Datové sklady a BI aplikace

Produkty pro BI Nástroje pro BI

Microsoft (MS SQL Server, Analysis Services, Reporting Services) Oracle Sybase IQ IBM DB2, DB2 OLAP Server Microstrategy SPSS SAS SAP – Business Warehouse

Klientské nástroje ProClarity Oracle Discoverer MS Excel 2000 Business Objects Cognos: PowerPlay, Impromptu Brio: Brio Query Quadbase – EspressReport

Page 49: Datové sklady a BI aplikace

2. Přednáška

Page 50: Datové sklady a BI aplikace

Business Dimensional LifeCycle

Standardní metodologie vývoje datového skladu od Ralpha Kimballa

Projektový management

Projektový plán

Definice uživatelských

požadavků

Technická architektura

Výběr produktůinstalace

Dimensionální modelování

Fyzická úroveň

ETL procesy Nasazení

Údržba a růst

Uživatelské aplikace

specifikace

Uživatelské aplikace

vývoj

Page 51: Datové sklady a BI aplikace

Popis metodologie

Standardní metodologie tvorby datového skladu Modifikovaná metodika tvorby IS

Vyžaduje speciální znalosti analytiků/implementátorů

Jednotlivé fáze mají rozdílnou váhu v jednotlivých etapách 1. etapa – nastartování tvorby datového skladu (HW,

SW infrastruktura) Další etapy – dopady řešení na stávající infrastrukturu

Page 52: Datové sklady a BI aplikace

Agenda BDLC

Plán projektu a projektový management Business požadavky Dimenzionální modelování Architektura Fyzický design ETL Uživatelské aplikace Nasazení Správa a růst DW

Projektový management

Projektový plán

Definice

uživatelských

požadavků

Technická architektura

Výběr produktůinstalace

Dimensionální modelování

Fyzická úroveň

ETL procesy Nasazení

Údržba a růst

Uživatelské aplikace

specifikace

Uživatelské aplikace

vývoj

Projektový managementProjektový management

Projektový plán

Definice

uživatelských

požadavků

Technická architektura

Výběr produktůinstalace

Dimensionální modelování

Fyzická úroveň

ETL procesy Nasazení

Údržba a růst

Uživatelské aplikace

specifikace

Uživatelské aplikace

vývoj

Page 53: Datové sklady a BI aplikace

Plán projektu a projektový managm.

Existuje poptávka po DW, od koho, proč? Poptávka jediného oddělení Informatika Mnoho oddělení

Ohodnotit připravenost pro projekt DW Silný business sponzor Pocit potřeby podpory businessu Stupeň práce s informacemi dnes, ochota do budoucnosti

(„analytická kultura“) Stav IS/IT Proveditelnost (např. Existují zdroje dat?)

Kritický faktor úspěchu podpora managementu

Page 54: Datové sklady a BI aplikace

Plán projektu a projektový managm.

Jak odstranit nepřipravenost? Popsat hlavní potřeby business na konceptuální úrovni Potřeby managementu Prioritizace business potřeb Proof of concept

Pozor potom na přehnaná očekávání

Page 55: Datové sklady a BI aplikace

Plán projektu a projektový managm.

Nízké

Nízké

Vysoké

Vysoké

Náročnost

Obchodní dopad

Etapa A

Etapa D

Etapa C

Etapa B

Page 56: Datové sklady a BI aplikace

Plán projektu a projektový managm.

Definice rozsahu projektu – 1. etapy Řízeno obchodními potřebami ne harmonogramem Spolupráce IT a business Doporučeno jednoduchý obchodní problém řešitelný z

jednoho zdroje dat Limit na počet uživatelů (do 25) Urči kriteria úspěchu realizace

Největší riziko: neporozumění kvalitě a problémům v datech

Zadokumentuj

Page 57: Datové sklady a BI aplikace

Plán projektu a projektový managm.

Zdůvodnění rozsahu a záměru projektu ROI Náklady

HW a SW Náklady na údržbu Náklady na interní vývoj Náklady na externí vývoj Náklady na školení Náklady na podporu ze strany externích řešitelů Náklady na další rozvoj

Více

Page 58: Datové sklady a BI aplikace

Plán projektu a projektový managm.

Výnosy Těžko se určuje, spíše odhady Potřeba zapojit business (business sponzora)

Předpokládaný nárůst zákazníků vzhledem k lepším službám

Méně odcházejících zákazníků Větší návratnost mailingových kampaní Méně pracovníků (vyšší produktivita)

Zpětně ověřovat po skončení etapy – k jakému zlepšení došlo

Page 59: Datové sklady a BI aplikace

Plán projektu a projektový managm.

Vytvořte úvodní návrh plánu projektu Bude průběžně upřesňován

Určete jméno projektu Vyberte pracovníky na projekt

Jeden pracovník může být v několika rolích Ne všichni jsou po celou dobu projektu, ale po danou

část Sponzor projektu Zástupce business sponzora (business driver)

Projektový manažer (zadavatel, konzultační firma) Business vedoucí

Více

Page 60: Datové sklady a BI aplikace

Plán projektu a projektový managm.

Vyberte pracovníky na projekt Business Analytik Specialista datového modelování Databázový administrátor Designer ETL Vývojář uživatelských aplikací Školitel

Bezpečnostní architekt Technická podpora ETL programátor Data steward DQ manažer

Page 61: Datové sklady a BI aplikace

Plán projektu a projektový managm.

Vývoj DW inhouse vs. externě Nedoporučuje se nechat vyvíjet jen konzultační firmou (neměla by

obsadit všechny klíčové role v projektu) Konzultační firma má umožnit přenos know-how na firemní

pracovníky Najmou specialisty Nebo najmou pracovníky na rutinní práce a uvolnit tak ruce

firemním specialistům se znalostí provozních databází a fungování firmy

Vše založit na obchodních požadavcích nikoliv si nechat doporučit technologii jenom proto, že daná konzultační firma s ní pracuje a jinou neovládá

Page 62: Datové sklady a BI aplikace

Plán projektu a projektový managm.

Vytvoř projektový plán Jednotný Detailní

Měl by obsahovat pro každý krok Zdroje Odhadovaný čas na provedení Začátek Předpokládaný konec Předpokládaný konec - aktuálně Status – kolik již vykonáno Počet dní do dokončení Závislost na jiných úkolech (co musí být dokončeno před

zahájením) Zpoždění – A/N

Page 63: Datové sklady a BI aplikace

Projektový management

Podobné projektovému managementu IS/ITC projektů

Zvláštnosti: Různorodý tým s různou odpovědností Interaktnivní vývoj (nikdy nekončící vývoj DW) Nevypočitatelnost zdrojových dat a její dopady na plán

projektu Velká očekávání uživatelů, projekt je na očích

Page 64: Datové sklady a BI aplikace

Projektový management

Zahájení projektu – projekt tým kick-off Představení projektu DW koncept Tým a role Projektový management

Administrační nástroje Milníky Plán projektu

Diskuze Příští krok

Page 65: Datové sklady a BI aplikace

Projektový management

Monitorování stavu projektu Projektové schůzky

Většinou 1 hodina jednou týdně na stejném místě Jádro týmu plus aktuální lidé Dokumentovat – Dokument stavu projektu

Projektový plán – změny, řešení otázek, řešení požadavků na změnu, práce vykonaná od poslední schůzky, plánovaná práce, otevřené otázky, požadavky na změnu

Údržba projektové dokumentace a projektového plánu

Page 66: Datové sklady a BI aplikace

Projektový management Řízení rozsahu projektu

Vedení seznamu otázek – řešení Vedení seznamu požadavků na změnu rozsahu projektu

Změna – dopad na plán, rozpočet, rozsah projektu Dokumentovat požadavky na rozšíření řešení (např. slouží pro další

etapy) Vytvoř a realizuj komunikační plán

Komunikace je velmi důležitá S projektovým týmem

Projektové schůzky, zápisy, … S business sponzorem

Měsíční setkání, oběd, … S uživateli

Intranet, informace o projektu, kick-off meeting, … Executive management

Nepravidelná setkání, informace o výsledcích IS pracovníci

Měsíční setkání, informace o projektu

Page 67: Datové sklady a BI aplikace

Agenda BDLC

Plán projektu a projektový management Business požadavky Dimenzionální modelování Architektura Fyzický design ETL Uživatelské aplikace Nasazení Správa a růst DW

Projektový management

Projektový plán

Definice

uživatelských

požadavků

Technická architektura

Výběr produktůinstalace

Dimensionální modelování

Fyzická úroveň

ETL procesy Nasazení

Údržba a růst

Uživatelské aplikace

specifikace

Uživatelské aplikace

vývoj

Projektový managementProjektový management

Projektový plán

Definice

uživatelských

požadavků

Technická architektura

Výběr produktůinstalace

Dimensionální modelování

Fyzická úroveň

ETL procesy Nasazení

Údržba a růst

Uživatelské aplikace

specifikace

Uživatelské aplikace

vývoj

Page 68: Datové sklady a BI aplikace

Business požadavky

Uživatelské požadavky jsou kriticky důležité Určují

Jaká data budou v datovém skladě? Jak budou organizovaná? Jak často budou aktualizována?

Dopad na všechny další fáze tvorby DW

Page 69: Datové sklady a BI aplikace

Business požadavky

Požadavky

Dimesionální model

Projektový plána management

Údržba a růst

NasazeníUživatelské aplikace

ETL

Fyzická realizace

Architektura

Page 70: Datové sklady a BI aplikace

Business požadavky

Přístup k získání požadavků Nikoliv otázky co uživatelé chtějí za data Ale co dělají, jak hodnotí svojí práci (zpětná vazba), jak často, co

jsou jejich priority Používat slovník uživatelů Realizace

Interview - setkání s 1 nebo několika málo pracovníky, více do hloubky

Setkání – s více pracovníky, brainstorming, rychleji více pracovníků, náročnější, těžší na svolání – sladit harmonogram mnoha lidí, získat konceptuální pohled

Zahrnuje Uživatele IS pracovníky

Page 71: Datové sklady a BI aplikace

Business požadavky Doporučuje se začít s uživateli Příprava

Identifikovat tým pro interview Vedoucí interview Zapisovatel Přihlížející

Průzkum před interview Firemní zprávy, intranet, finanční zprávy, … Zjištění předchozích aktivit v oblasti DW, reporting řešení, podpory

rozhodování – „kdo zapomněl na minulost je nucen ji opakovat“ Výběr uživatelů pro interview

Společně s business sponzorem nebo projektovým vedoucím zadavatele Dle organizační struktury (dokumentované, nedokumentované) Porozumět formální i neformální struktuře Zvážit politické dopady když s někým nepovedeme interview Někdy podřízení vědí více Výběr pracovníků pro interview

Business IS

Page 72: Datové sklady a BI aplikace

Business požadavky

Vést interview horizontálně i vertikálně po organizaci Horizontálně – poznat celkové potřeby – aby řešení bylo navrženo s

ohledem na budoucí vývoj Vertikálně – porozumět strategii i jejímu taktickému naplňování

Interview s IS pracovníky Porozumět provozním systémům Zda existují data pro naplnění potřeb a požadavků uživatelů S programátory, správci, tvůrci datových modelů, help desk Jiný průběh než interview s uživateli – systematické postupné poznání

provozních databází a systémů (ne volná diskuze kam business půjde) Většinou náročnější než se na první pohled zdá – více interview

Chyba např. chci profitabilitu, zjistím že jsou data o nákladech a příjmech, myslím že ok

Problém že data mají různou granualitu (příjem na klienta, náklady na oddělení)

Page 73: Datové sklady a BI aplikace

Business požadavky

Připravit dotazník s otázkami na interview Rozdílné dle typu interview Hrubá struktura

Naplánovat interview Maximálně 3 – 4 za den pro jeden tým na interview Jedno interview (60 – 90 minut) Mezi interview alespoň 30 min přestávka Zápis dělat co nejdříve (kolem 4 hod na interview) Pozor na dovolené, pravidelné cesty, …

Page 74: Datové sklady a BI aplikace

Business požadavky

Nejdříve interview s business sponzorem Pak začít středním managementem Pak vrcholový nebo nižší úroveň Postupně oddělení a IS Nedoporučuje se ukončit jedno oddělení a pak na druhé a tak

dále… Každé oddělení jiný pohled, postupně si ho ujasňovat u všech

oddělení Mix interview podle různých oddělení

Naplánovat místo a čas interview U uživatele V konferenční místnosti Zvážit dostupnost místnosti (ne 20 min cesty od hlavního sídla v

podzemní místnosti – nikdo nenajde) Zvládnout všechna interview v co nejkratším přijatelném

čase

Page 75: Datové sklady a BI aplikace

Business požadavky

Začátek interview – svolat kick-off meeting uživatelů Úvod Popis projektu, proč Rozsah projektu Plán projektu (konceptuálně) Tým Role uživatelů (co od nich potřebujeme a proč) Milníky Příští krok

Page 76: Datové sklady a BI aplikace

Business požadavky Před vlastním interview zaslat průvodní dopis – co od uživatelů

chceme, proč Ať si připraví klíčové reporty Jazyk uživatelů ne DW

Realizace interview Nezapomenou na role týmu pro interview (např. zapisovatel má zapisovat

a ne se rozmluvit a přestat psát) Definujte terminologie Potvrzujte si čemu nerozumíte Nejprve představit projekt a cíl interview, na konec poděkovat a popsat

následující kroky První minuty interview jsou klíčové pro celý průběh (naladění uživatele,

připravit si dobře úvod) Být připraven na přidání nových interview do plánu

Doporučí vhodné kandidáty na interview

Page 77: Datové sklady a BI aplikace

Business požadavky Příklad dotazníků – Business Executive: A. Představení

Diskutuj cíle DW projektu a jeho celkový stav Diskutuj cíle interview (potřeba zjistit uživatelské potřeby, co je pracovní náplní, co by mělo

být, proč) a popiš průběh interview. Představ tým pro interview a role Potvrď si čas na interview Popiš další krok v interview

B. Zodpovědnosti Popište prosím Vaše oddělení a jeho vztah k celé organizaci Co je Vaše primární zodpovědnost, pracovní náplň?

C. Obchodní cíle, potřeby a otázky Jaké jsou cíle Vašeho oddělení? Co se snažíte splnit? Jaký je Váš prioritní cíl, který chcete

naplnit? Čím měříte úspěšnost Vaší práce? Jak poznáte, že vše jde dobře? Jak často měříte svou

úspěšnost (zpětná vazba)? Jaké funkce a části (pododdělení) jsou ve vašem oddělení nejvíce důležité pro naplnění cílů?

Jaké role hrají? Jak jednotlivé části oddělení spolupracují, aby dosáhli cílu a úspěchu? Jaké hlavní problémy teď řešíte? Co Vám brání v tom aby jste je vyřešili? Jaký to má dopad

na oddělení? Jak poznáte (identifikujete), že někde vznikl problém, výjimka, nebo že se problém blíží? Jaké vidíte možnosti a příležitosti z zefektivnění práce (vyšší ziskovosti)? Kde vidíte Vaše konkurenty (podobné organizace) v používání IT technologie? Dokážete rychle reagovat na změny v okolí (trhu, konkurence), co Vám v tom brání?

Page 78: Datové sklady a BI aplikace

Business požadavky D. Analytické požadavky

Jakou roli hrají data a analýzy při Vašem rozhodování a rozhodování Vašeho oddělení? Jaké klíčové informace potřebuje pro své rozhodování, aby jste mohli dosáhnout svých cílů, a

překonat problémy a předcházet jim? Jak tyto informace dnes získáváte? Kolik pracovníků pracuje ve Vašem oddělení? Kolik z nich pracuje z daty? Kolik z nich provádí

analýzy? Jsou nějaké informace, které dnes nemáte k dispozici, ale věříte, že by Vám pomohli v

rozhodování a dosažení Vašich cílů? Jaké reporty (výkazy) dnes používáte? Která data na reportech (výkazech) jsou důležitá –

klíčová? Jak reporty (výkazy) využíváte? Kdyby Vaše reporty (výkazy) byly dynamické, jak by Vám to pomohlo, co by se tím změnilo?

Jaké analýzy byste rádi prováděli? Jaké vidíte příležitosti k zlepšení Vašeho rozhodování, tím že bude zlepšen a zjednodušen

přístup k informacím? Jaký to bude mít finanční dopad? E. Souhrn

Shrň dosud získané poznatky (nahlas). Co musí projekt splnit aby jste ho považoval za úspěšný? Kritéria by měla být měřitelná. Poděkuj účastníkovi. Popiš další kroky, zaslání draft zápisu z interview do daného času, možnost znovu se sejít dle

potřeby, …

Page 79: Datové sklady a BI aplikace

Business požadavky

Definování kriterii úspěchu od uživatelů Příklady akceptovatelných kritérii

Implementační metriky (počet GB dat, počet uživatelů, …) Aktivita (počet dotazů, počet login) Úroveň služeb

Dostupnost DW Datová kvalita – počet chyb v datech Dostupnost dat v DW, kdy Odezva DW Odezva na podporu

Dopady na business (zvýšení zisku, …) Výkonnost proti stavu před DW

Hodinová analýza trvá jen 1 minutu

Page 80: Datové sklady a BI aplikace

Business požadavky

Překážky při interview Frustrovaný uživatel

„Už jsem všechno řekl co potřebuji oddělení IS“ Nikdo ho dosud nevyslyšel Říci mu, že pouze chceme si upřesnit a

verifikovat jeho předchozí požadavky Využít znalosti předchozích interview

Zaneprázdněný uživatel Lepší ho vynechat Nemá-li čas na interview nebude mít ani čas na

kontrolu zápisu ani na školení ohledně využití DW, …

Najít více kooperujícího uživatele je-li to možné

Page 81: Datové sklady a BI aplikace

Business požadavky

Nesdílný uživatel Odpovídá jedním slovem Výhodné klást více negativní otázky: co je špatně než jak to

je Někdy lepší raději ukončit a nalézt náhradního uživatele je-li

potřeba Nadšený uživatel

Místo jednoho přijde sedm nadšených uživatelů, kteří chtějí sdělit své názory na DW

Lze těžko stihnout v jedné hodině a dostat se k potřebným detailům

Zjistit jak homogenní skupina to je (stejné nebo různé funkce, náplně, …)

Vhodné rozdělit a naplánovat na více interview Neexistující uživatel

IS: My nejlépe víme co uživatelé potřebují Vyhnout se tomuto přístupu

Page 82: Datové sklady a BI aplikace

Business požadavky

Po interview vytvořit zápis Co nejdříve je to možné Popis pozice, odpovědnost, analytické potřeby, potřeba informací,

kritéria úspěchu Ne přepis interview ale syntéza poznatků Nechat schválit uživatelem

Vedoucí interview by si měl udržovat seznam otázek na které dosud nejsou známi odpovědi

Vyhodnotit obdržené reporty Sloupce popisné – dimenze Čísla - fakta

Page 83: Datové sklady a BI aplikace

Business požadavky

Na závěr vytvořit dokument popisující zjištěné potřeby Manažerské shrnutí Popis projektu Uživatelské potřeby (typicky podle business procesů)

Obecně Analytické a informační potřeby

Prvotní analýza primárních systémů Co nejvíce navázáno na uživatelské potřeby

Kritéria úspěchu Vysoká důležitost – ukazuje na relevanci projektu DW a

na reálnou dostupnost primárních dat Nechat schválit sponzorem projektu, uživateli,

managementem, …

Page 84: Datové sklady a BI aplikace

Business požadavky

Potřeba určit priority dalšího vývoje DW Postupné etapy

Setkání s uživateli a prezentace výsledků a dalších kroků

Page 85: Datové sklady a BI aplikace

Praktický příklad 1

ETL – DTS: Načtení dat do 0. vrstvy datového skladu Využití průvodce Import and Export data (uložit DTS balíček,

spouštět) Upravit vytvoření tabulky zákazník (pohlavi – varchar(10)) Přidání skriptu do transformace:

Načtení dat Prohlídka balíčku DTS a databáze

if DTSSource("pohlavi") = "M" then DTSDestination("pohlavi") = "Muž"end if

if DTSSource("pohlavi") = "Z" then DTSDestination("pohlavi") = „Žena"else DTSDestination("pohlavi") = "Firma"end if

Page 86: Datové sklady a BI aplikace

Praktický příklad 1

Page 87: Datové sklady a BI aplikace

Praktický příklad 2

Čištění dat: Podle informací od oddělení IT je primárním klíčem tabulky

obj_detail dvojice atributů id_objednavka, id_produkt Neměly by existovat žádné duplicity Je to skutečně pravda?

Napište SQL dotaz, který ověří tuto skutečnost

Page 88: Datové sklady a BI aplikace

Praktický příklad 2 SQL dotaz:

select id_objednavka, id_produktfrom obj_detailgroup by id_objednavka, id_produkthaving count(*) > 1

Vymazat duplicitu: select id_objednavka, id_produkt, max(mnozstvi) mnozstvi, max(cena) cena, max(cast(sleva as integer)) sleva into prac_duplicity

from dbo.obj_detailgroup by id_objednavka, id_produkthaving count(*) > 1

delete from dbo.obj_detailwhere id_objednavka = 8and id_produkt = 16

insert into dbo.obj_detailselect * from prac_duplicity

Page 89: Datové sklady a BI aplikace

Konec 1. dne

Děkuji za pozornost

Page 90: Datové sklady a BI aplikace

Děkujeme za pozornost

Ing. David [email protected]