Šušak Hrvoje IP

Post on 12-Apr-2016

46 views 3 download

description

izrada projekta iz kolegija Upravljanje poslovnim podacima

Transcript of Šušak Hrvoje IP

SVEUČILIŠTE U MOSTARU

EKONOMSKI FAKULTET

Projekt izrade OLAP kocke za analizu natjecanja Formule1

Izrada projekta

Student: Hrvoje Šušak 740/DS

Mentor: prof.dr.sc. Dražena Gašpar

Mostar, listopad 2015.

Sadržaj1. Uvod...................................................................................................................................................3

2. Opis problema.........................................................................................................................4

3. E-R model...............................................................................................................................6

4. Izvori podataka........................................................................................................................8

5. ETL alat..................................................................................................................................9

6. Dimenzijski model podataka.................................................................................................10

7. Izvješća.................................................................................................................................12

8. Zaključak...............................................................................................................................18

2

1. Uvod

Upravljanje podacima, naročito onima poslovne prirode, u svijetu današnjice predstavlja

jedan od stupova kvalitetnog i dugotrajnog poslovanja. Ti podaci su obično spremljeni u

transakcijskim bazama podataka. Oni su jako bitni za svakodnevno funkcioniranje

organizacije koja se njima koristi, jer se u njima nalaze najbitnije informacije o svim

relevantnim stvarima vezanim za poslovanje, u trenutku kad su nastali. No, iako odražavaju

situaciju u trenutku nastajanja, vrlo brzo gube na važnosti uslijed promjena u poslovanju, kao

i zbog dolaska novih podataka. Ali to ne znači da postaju beskorisni. Upravo suprotno.

Njihova važnost se kasnije vidi u korištenju tih istih podataka u predviđanjima i procjenama

budućih stanja. No, te podatke se ne može koristiti u njihovom izvornom obliku, već ih je

potrebno provući kroz neki od ETL alata. ETL kratica stoji za Extraction, Transformation,

Loading, što u prijevodu znači izvlačenje, pretvaranje i punjenje. Nakon što ove podatke

provučemo kroz odabrani ETL alat, spremamo ih u skladišta podataka, gdje su ti podaci

sistematizirani, pročišćeni i iskoristivi u budućem poslovanju, prvenstveno za provedbu

različitih analiza i stvaranja različitih predviđanja, koje najviše služe top menadžmentu za

donošenje odluka.

U ovom radu ćemo pokazati neke od prednosti korištenja ETL alata pri upravljanju podacima,

a kao primjer ćemo uzeti jedno natjecanje, odnosno jednu sezonu Formule1. Kako bi se

opisao poslovni sustav, izrađuje se najprije ER model za transakcijsku bazu, zatim se podaci

iz te relacijske baze te jedne datoteke – vanjskog izvora, vade, transformiraju i zatim izvoze u

integriranu bazu korištenjem programa Datamartist. Integrirani podaci imaju dimenzijsku

strukturu i predstavljeni su dimenzijskim modelom podataka. Nad transformiranim i

integriranim podacima provode se analize OLAP kockom kroz program BI-Lite CUBE-it

Zero i izvješćima pokazuju rezultati.

3

2. Opis problema

FIA (Federation Interationale de l'automobile) ili Međunarodna automobilistička federacija je

zatražila da se informatičkim putem procesuiraju utrke prethodne dvije sezone prestižnog

natjecanja Formula 1, kao uvod u potpunu informatizaciju svih natjecanja koje ova

organizacija pokriva. Na ovaj postupak ih je najviše nagnala potreba za sistematizacijom i

većom preglednosti nad događanjima u sezoni, kao i lakšom pohranom podataka.

Naime, sa sve većim i bržim napretkom tehnologije, svaka pojedina utrka generira sve veću

količinu podataka, te postaje sve teže pratiti i pregledati sve podatke koji su prikupljeni.

Pretpostavlja se da će narednih nekoliko godina napretka rezultirati time da će svaki pojedini

bolid generirati i do nekoliko desetaka gigabajta podataka po utrci, stoga je od vitalne

važnosti da se odmah uhvate u koštac sa tim problemom i počnu privikavati na računalnu

podršku i obradu podataka. U skladu sa tim, odlučeno je da se napravi baza podataka i da se

unesu podaci iz zadnje dvije sezone.

Ovaj zadatak je povjeren dotičnoj informatičkoj službi, da se obavi u najkraćem mogućem

roku, kako bi se što prije podaci počeli računalno obrađivati i pohranjivati. Federacija je

dostavila sve potrebne podatke i dala ih na raspolaganje timu informatičara, čija je dužnost da

te podatke koji su im povjereni pretvore u elektronički oblik te nakon što završe, donesu na

uvid čelnicima FIA-e na procjenu kvalitete i funkcionalnosti.

Naziv dimenzijskog modela je „Analiza natjecanja Formule 1“. Entiteti koje će ovaj model

sadržavati su Ekipa, Pilot, Utrka, Staza i Sezona.

U prvom entitetu, Ekipa, navedeni su podaci o nazivu ekipe, broju članova, broju pobjeda

2013. i 2014. godine, te ukupnom broju pobjeda kroz cijelo analizirano razdoblje.

Drugi entitet je Pilot. U njemu su sadržane informacije o imenu, prezimenu pilota, njegovoj

nacionalnosti, spolu (iako su svi piloti mahom muškog spola) te o broju bodova koje je svaki

pojedini pilot osvojio svake pojedine sezone.

Treći entitet je Utrka, on sadrži informacije o lokaciji održavanja utrke, pobjedniku utrke,

pobjedničkom timu, rekordnom vremenu utrke te o broju posjetitelja koji su došli vidjeti

utrku.

4

Četvrti entitet je Staza, a tu se nalaze svi relevantni podaci vezani za stazu na kojoj se utrka

održava, kao što je naziv staze, grad u kojem se nalazi, država u kojoj se nalazi, broj krugova

te dužinu pojedinog kruga koji se vozi.

Peta i posljednja dimenzija je Sezona, a u ona sadržava informacije o sezoni u kojoj se

pojedina utrka održava, dakle to je vremenski okvir natjecanja.

5

3. E-R model

U E-R modelu imamo predstavljenu transakcijsku bazu podataka, u koju se unose svi podaci

bitni za sustav na koji se odnose, kao i na način na koji sve funkcionira. U nastavku se može

vidjeti kako izgleda E-R model u ovom specifičnom slučaju.

Slika 1. E-R model

6

U nastavku će se moći vidjeti izgled i transakcijske baze podataka, koja je kreirana u MS

Accessu. Ona sadrži sve podatke koje administratori sustava smatraju bitnim za optimalan rad

sustava.

Slika 2. Relacijski model

7

4. Izvori podataka

Za izvore podataka koristiti ćemo E-R model koji ćemo samostalno napuniti podacima, a

dodatno ćemo koristiti i neke vanjske izvore.

Vanjski izvori

Pošto je cilj ovog cijelog projekta dokumentirati događaje koji se događaju tijekom utrka na

stazama, tako smo odlučili za vanjski izvor podataka uzeti evidenciju nesreća koje su se

dogodile na utrkama i koje su fatalno završile.

Slika 3. Evidencija nesreća

8

5. ETL alat

ETL alat koji je korišten u ovom projektu je Datamartist. On je korišten za ekstrakciju,

transformaciju i pročišćavanje podataka koji su se nalazili u bazi podataka, kao i onih

podataka koje smo dobili iz vanjskih izvora.

U nastavku ćemo pokazati kako izgleda sučelje ovog ETL alata, te kako ga koristiti u našem

konkretnom primjeru.

Slika 4. Sučelje Datamartist-a

9

Konačni izgled našeg primjera u Datamartist-u će izgledati ovako:

Slika 5. Prikaz konkretnog primjera u Datamartist-u

6. Dimenzijski model podataka

Ovakav model podataka nam služi da prikažemo transformirane podatke iz baze i ostalih

vanjskih izvora. A dimenzijski model podataka za ovaj konkretni primjer izgleda ovako:

Slika 6. Dimenzijski model

10

Dimenzije u modelu su:

Ekipa (ID_ekipa, Naziv, Broj pobjeda 2011, Broj članova, Broj pobjeda 2012, Total,

Gume)

Utrka (ID_utrka, Staza, Sezona, Pobjednik utrke, Pobjednički tim, Maksimalan broj

posjetitelja, Rekordno vrijeme kruga)

Pilot (ID_Pilot, Ime, Prezime, Spol, Nacionalnost, Ekipa)

Staze (ID_staza, Naziv, Grad, Država, Dužina (u m), Broj krugova, Kapacitet, Broj

stajaćih mjesta, Broj sjedećih mjesta)

Sezona (ID_sezona, Godina)

11

7. Izvješća

U nastavku ćemo pokazati neka od izvješća, koja su rađena pomoću alata BI-Lite CUBE-it

Zero.

1. Svrdlanje (Drill down) – u ovom izvješću je pokazan broj bodova svakog pojedinog

pilota u obe sezone.

Slika 7. Primjer svrdlanja u Excel tablici

12

Slika 8. Grafički primjer svrdlanja

13

2. Pivotiranje – je vrsta izvješća koja nam omogućava da zamijenimo retke i stupce,

odnosno njihova mjesta u tablici. U nastavku ćemo dati primjer pivotiranja. Ovako

izgleda tablica prije pivotiranja:

Slika 9. Izgled Excel tablice prije pivotiranja

A ovako izgleda tablica nakon pivotiranja:

Slika 10. Izgled Excel tablice nakon pivotiranja

14

3. Slice – je izvješće koje prikazuje samo podatak koji taržimo, odnosno u ovom slučaju,

broj posjetitelja na određenoj stazi u određenoj sezoni.

Slika 11. Primjer slice izvješća

Slika 12. Grafički primjer slice izvješća

15

4. Dice – u ovom izvješću ćemo pokazati broj bodova koji su osvojile pojedine momčadi

vozeći na datoj vrsti guma, podijeljeno po sezonama te to grafički prikazati:

Slika 13. Primjer dice izvješća

Slika 14. Grafički primjer dice izvješća

16

5. Top 5- U ovom izvješću ćemo pokazati top 5 pilota sa najvećom prosječnom zaradom,

te to, dakako, grafički prikazati:

Slika 15. Primjer "top 5 najboljih" izvješća

Alonso Button Hamilton Rosberg Vettel0

20000000

40000000

60000000

80000000

100000000

1200000002012

2012

Slika 16. Grafički prikaz "top 5 najboljih" izvješća

17

Još jedan primjer top 5 izvješća je prikaz 5 najlošijih staza prema kriteriju posjećenosti :

Slika 17. Primjer "top 5 najgorih" izvješća

A to grafički izgleda ovako:

2011

Albert ParkAutodromo Jose Carlos PaceCircuit Gilles-VilleneuveHungaroringSilverstone

Slika 18. Grafički prikaz "top 5 najgorih" izvješća

18

8. Zaključak

Podaci koji se nalaze u svakojakim organizacijama predstavljaju veliko bogatstvo i izdašan

izvor informacija koje itekako mogu koristiti svim članovima te organizacije. Stoga se

nameće potreba za upravljanjem tim podacima, a najefektivniji način je pomoću softverske

podrške. Jedno rješenje je i korištenje ETL alata, koji predstavljaju vrhunac napretka u

upravljanju podacima.

Jedan od takvih ETL alata je Datamartist. To je program koji je korišten prilikom izrade ovog

projekta, gdje se pokazao kao nesumnjivo jedan od najkorisnijih ETL alata, koji su dostupni

širim masama. Korištenje ovog alata, kao i njemu sličnih alata, uvelike poboljšava efikasnost

organizacije koja se njime služi, te svima uključenima uvelike olakšava pristup iskoristivim

informacijama, koje je relativno lako izvući iz hrpe podataka koji se svakodnevno prikupljaju.

19