Šušak Hrvoje IP

22
SVEUČILIŠTE U MOSTARU EKONOMSKI FAKULTET Projekt izrade OLAP kocke za analizu natjecanja Formule1 Izrada projekta

description

izrada projekta iz kolegija Upravljanje poslovnim podacima

Transcript of Šušak Hrvoje IP

Page 1: Šušak Hrvoje IP

SVEUČILIŠTE U MOSTARU

EKONOMSKI FAKULTET

Projekt izrade OLAP kocke za analizu natjecanja Formule1

Izrada projekta

Student: Hrvoje Šušak 740/DS

Mentor: prof.dr.sc. Dražena Gašpar

Mostar, listopad 2015.

Page 2: Šušak Hrvoje IP

Sadržaj1. Uvod...................................................................................................................................................3

2. Opis problema.........................................................................................................................4

3. E-R model...............................................................................................................................6

4. Izvori podataka........................................................................................................................8

5. ETL alat..................................................................................................................................9

6. Dimenzijski model podataka.................................................................................................10

7. Izvješća.................................................................................................................................12

8. Zaključak...............................................................................................................................18

2

Page 3: Šušak Hrvoje IP

1. Uvod

Upravljanje podacima, naročito onima poslovne prirode, u svijetu današnjice predstavlja

jedan od stupova kvalitetnog i dugotrajnog poslovanja. Ti podaci su obično spremljeni u

transakcijskim bazama podataka. Oni su jako bitni za svakodnevno funkcioniranje

organizacije koja se njima koristi, jer se u njima nalaze najbitnije informacije o svim

relevantnim stvarima vezanim za poslovanje, u trenutku kad su nastali. No, iako odražavaju

situaciju u trenutku nastajanja, vrlo brzo gube na važnosti uslijed promjena u poslovanju, kao

i zbog dolaska novih podataka. Ali to ne znači da postaju beskorisni. Upravo suprotno.

Njihova važnost se kasnije vidi u korištenju tih istih podataka u predviđanjima i procjenama

budućih stanja. No, te podatke se ne može koristiti u njihovom izvornom obliku, već ih je

potrebno provući kroz neki od ETL alata. ETL kratica stoji za Extraction, Transformation,

Loading, što u prijevodu znači izvlačenje, pretvaranje i punjenje. Nakon što ove podatke

provučemo kroz odabrani ETL alat, spremamo ih u skladišta podataka, gdje su ti podaci

sistematizirani, pročišćeni i iskoristivi u budućem poslovanju, prvenstveno za provedbu

različitih analiza i stvaranja različitih predviđanja, koje najviše služe top menadžmentu za

donošenje odluka.

U ovom radu ćemo pokazati neke od prednosti korištenja ETL alata pri upravljanju podacima,

a kao primjer ćemo uzeti jedno natjecanje, odnosno jednu sezonu Formule1. Kako bi se

opisao poslovni sustav, izrađuje se najprije ER model za transakcijsku bazu, zatim se podaci

iz te relacijske baze te jedne datoteke – vanjskog izvora, vade, transformiraju i zatim izvoze u

integriranu bazu korištenjem programa Datamartist. Integrirani podaci imaju dimenzijsku

strukturu i predstavljeni su dimenzijskim modelom podataka. Nad transformiranim i

integriranim podacima provode se analize OLAP kockom kroz program BI-Lite CUBE-it

Zero i izvješćima pokazuju rezultati.

3

Page 4: Šušak Hrvoje IP

2. Opis problema

FIA (Federation Interationale de l'automobile) ili Međunarodna automobilistička federacija je

zatražila da se informatičkim putem procesuiraju utrke prethodne dvije sezone prestižnog

natjecanja Formula 1, kao uvod u potpunu informatizaciju svih natjecanja koje ova

organizacija pokriva. Na ovaj postupak ih je najviše nagnala potreba za sistematizacijom i

većom preglednosti nad događanjima u sezoni, kao i lakšom pohranom podataka.

Naime, sa sve većim i bržim napretkom tehnologije, svaka pojedina utrka generira sve veću

količinu podataka, te postaje sve teže pratiti i pregledati sve podatke koji su prikupljeni.

Pretpostavlja se da će narednih nekoliko godina napretka rezultirati time da će svaki pojedini

bolid generirati i do nekoliko desetaka gigabajta podataka po utrci, stoga je od vitalne

važnosti da se odmah uhvate u koštac sa tim problemom i počnu privikavati na računalnu

podršku i obradu podataka. U skladu sa tim, odlučeno je da se napravi baza podataka i da se

unesu podaci iz zadnje dvije sezone.

Ovaj zadatak je povjeren dotičnoj informatičkoj službi, da se obavi u najkraćem mogućem

roku, kako bi se što prije podaci počeli računalno obrađivati i pohranjivati. Federacija je

dostavila sve potrebne podatke i dala ih na raspolaganje timu informatičara, čija je dužnost da

te podatke koji su im povjereni pretvore u elektronički oblik te nakon što završe, donesu na

uvid čelnicima FIA-e na procjenu kvalitete i funkcionalnosti.

Naziv dimenzijskog modela je „Analiza natjecanja Formule 1“. Entiteti koje će ovaj model

sadržavati su Ekipa, Pilot, Utrka, Staza i Sezona.

U prvom entitetu, Ekipa, navedeni su podaci o nazivu ekipe, broju članova, broju pobjeda

2013. i 2014. godine, te ukupnom broju pobjeda kroz cijelo analizirano razdoblje.

Drugi entitet je Pilot. U njemu su sadržane informacije o imenu, prezimenu pilota, njegovoj

nacionalnosti, spolu (iako su svi piloti mahom muškog spola) te o broju bodova koje je svaki

pojedini pilot osvojio svake pojedine sezone.

Treći entitet je Utrka, on sadrži informacije o lokaciji održavanja utrke, pobjedniku utrke,

pobjedničkom timu, rekordnom vremenu utrke te o broju posjetitelja koji su došli vidjeti

utrku.

4

Page 5: Šušak Hrvoje IP

Četvrti entitet je Staza, a tu se nalaze svi relevantni podaci vezani za stazu na kojoj se utrka

održava, kao što je naziv staze, grad u kojem se nalazi, država u kojoj se nalazi, broj krugova

te dužinu pojedinog kruga koji se vozi.

Peta i posljednja dimenzija je Sezona, a u ona sadržava informacije o sezoni u kojoj se

pojedina utrka održava, dakle to je vremenski okvir natjecanja.

5

Page 6: Šušak Hrvoje IP

3. E-R model

U E-R modelu imamo predstavljenu transakcijsku bazu podataka, u koju se unose svi podaci

bitni za sustav na koji se odnose, kao i na način na koji sve funkcionira. U nastavku se može

vidjeti kako izgleda E-R model u ovom specifičnom slučaju.

Slika 1. E-R model

6

Page 7: Šušak Hrvoje IP

U nastavku će se moći vidjeti izgled i transakcijske baze podataka, koja je kreirana u MS

Accessu. Ona sadrži sve podatke koje administratori sustava smatraju bitnim za optimalan rad

sustava.

Slika 2. Relacijski model

7

Page 8: Šušak Hrvoje IP

4. Izvori podataka

Za izvore podataka koristiti ćemo E-R model koji ćemo samostalno napuniti podacima, a

dodatno ćemo koristiti i neke vanjske izvore.

Vanjski izvori

Pošto je cilj ovog cijelog projekta dokumentirati događaje koji se događaju tijekom utrka na

stazama, tako smo odlučili za vanjski izvor podataka uzeti evidenciju nesreća koje su se

dogodile na utrkama i koje su fatalno završile.

Slika 3. Evidencija nesreća

8

Page 9: Šušak Hrvoje IP

5. ETL alat

ETL alat koji je korišten u ovom projektu je Datamartist. On je korišten za ekstrakciju,

transformaciju i pročišćavanje podataka koji su se nalazili u bazi podataka, kao i onih

podataka koje smo dobili iz vanjskih izvora.

U nastavku ćemo pokazati kako izgleda sučelje ovog ETL alata, te kako ga koristiti u našem

konkretnom primjeru.

Slika 4. Sučelje Datamartist-a

9

Page 10: Šušak Hrvoje IP

Konačni izgled našeg primjera u Datamartist-u će izgledati ovako:

Slika 5. Prikaz konkretnog primjera u Datamartist-u

6. Dimenzijski model podataka

Ovakav model podataka nam služi da prikažemo transformirane podatke iz baze i ostalih

vanjskih izvora. A dimenzijski model podataka za ovaj konkretni primjer izgleda ovako:

Slika 6. Dimenzijski model

10

Page 11: Šušak Hrvoje IP

Dimenzije u modelu su:

Ekipa (ID_ekipa, Naziv, Broj pobjeda 2011, Broj članova, Broj pobjeda 2012, Total,

Gume)

Utrka (ID_utrka, Staza, Sezona, Pobjednik utrke, Pobjednički tim, Maksimalan broj

posjetitelja, Rekordno vrijeme kruga)

Pilot (ID_Pilot, Ime, Prezime, Spol, Nacionalnost, Ekipa)

Staze (ID_staza, Naziv, Grad, Država, Dužina (u m), Broj krugova, Kapacitet, Broj

stajaćih mjesta, Broj sjedećih mjesta)

Sezona (ID_sezona, Godina)

11

Page 12: Šušak Hrvoje IP

7. Izvješća

U nastavku ćemo pokazati neka od izvješća, koja su rađena pomoću alata BI-Lite CUBE-it

Zero.

1. Svrdlanje (Drill down) – u ovom izvješću je pokazan broj bodova svakog pojedinog

pilota u obe sezone.

Slika 7. Primjer svrdlanja u Excel tablici

12

Page 13: Šušak Hrvoje IP

Slika 8. Grafički primjer svrdlanja

13

Page 14: Šušak Hrvoje IP

2. Pivotiranje – je vrsta izvješća koja nam omogućava da zamijenimo retke i stupce,

odnosno njihova mjesta u tablici. U nastavku ćemo dati primjer pivotiranja. Ovako

izgleda tablica prije pivotiranja:

Slika 9. Izgled Excel tablice prije pivotiranja

A ovako izgleda tablica nakon pivotiranja:

Slika 10. Izgled Excel tablice nakon pivotiranja

14

Page 15: Šušak Hrvoje IP

3. Slice – je izvješće koje prikazuje samo podatak koji taržimo, odnosno u ovom slučaju,

broj posjetitelja na određenoj stazi u određenoj sezoni.

Slika 11. Primjer slice izvješća

Slika 12. Grafički primjer slice izvješća

15

Page 16: Šušak Hrvoje IP

4. Dice – u ovom izvješću ćemo pokazati broj bodova koji su osvojile pojedine momčadi

vozeći na datoj vrsti guma, podijeljeno po sezonama te to grafički prikazati:

Slika 13. Primjer dice izvješća

Slika 14. Grafički primjer dice izvješća

16

Page 17: Šušak Hrvoje IP

5. Top 5- U ovom izvješću ćemo pokazati top 5 pilota sa najvećom prosječnom zaradom,

te to, dakako, grafički prikazati:

Slika 15. Primjer "top 5 najboljih" izvješća

Alonso Button Hamilton Rosberg Vettel0

20000000

40000000

60000000

80000000

100000000

1200000002012

2012

Slika 16. Grafički prikaz "top 5 najboljih" izvješća

17

Page 18: Šušak Hrvoje IP

Još jedan primjer top 5 izvješća je prikaz 5 najlošijih staza prema kriteriju posjećenosti :

Slika 17. Primjer "top 5 najgorih" izvješća

A to grafički izgleda ovako:

2011

Albert ParkAutodromo Jose Carlos PaceCircuit Gilles-VilleneuveHungaroringSilverstone

Slika 18. Grafički prikaz "top 5 najgorih" izvješća

18

Page 19: Šušak Hrvoje IP

8. Zaključak

Podaci koji se nalaze u svakojakim organizacijama predstavljaju veliko bogatstvo i izdašan

izvor informacija koje itekako mogu koristiti svim članovima te organizacije. Stoga se

nameće potreba za upravljanjem tim podacima, a najefektivniji način je pomoću softverske

podrške. Jedno rješenje je i korištenje ETL alata, koji predstavljaju vrhunac napretka u

upravljanju podacima.

Jedan od takvih ETL alata je Datamartist. To je program koji je korišten prilikom izrade ovog

projekta, gdje se pokazao kao nesumnjivo jedan od najkorisnijih ETL alata, koji su dostupni

širim masama. Korištenje ovog alata, kao i njemu sličnih alata, uvelike poboljšava efikasnost

organizacije koja se njime služi, te svima uključenima uvelike olakšava pristup iskoristivim

informacijama, koje je relativno lako izvući iz hrpe podataka koji se svakodnevno prikupljaju.

19