Petrovic Drazen-Seminarski Rad MibS

14
Banja Luka, Mart 2009. PANEVROPSKI UNIVERZITET APEIRON FAKULTET POSLOVNE INFORMATIKE Vanredne studije Smjer »Poslovna informatika« Predmet: Menadžment poslovno informacionih sistema Теma: “Data Mining” Predmetni nastavnik Doc. dr Gordana Radić Student Dražen Petrović,vandredni student 3. godine Index br:0097/06

description

Seminarski rad MIBS

Transcript of Petrovic Drazen-Seminarski Rad MibS

Page 1: Petrovic Drazen-Seminarski Rad MibS

Banja Luka, Mart 2009.

PANEVROPSKI UNIVERZITET APEIRON FAKULTET POSLOVNE INFORMATIKE

Vanredne studijeSmjer »Poslovna informatika«

Predmet: Menadžment poslovno informacionih sistema

Теma:

“Data Mining”

Predmetni nastavnik

Doc. dr Gordana Radić

Student

Dražen Petrović,vandredni student 3. godine

Index br:0097/06

Page 2: Petrovic Drazen-Seminarski Rad MibS

KRATKI SADRŽAJ

KRATKI SADRŽAJ 2

1. UVOD 3

2.DEFINICIJA 4

3.UPOTREBA DATA MINING-A 4

4.DM MODELI 6

4.1.CLUSTERING 64.2. NEURONSKE MREŽE 64.3.FUZZY LOGIKA 74.4.MEMORISKO ZASNOVANO PROSUĐIVANJE, MBR 74.5.STABLO ODLUČIVANJA 74.6. ANALIZA PIJAČNE TORBE 8

5.INTEGRACIJA DM SA DW 8

6.TIPOVI DM-A 9

7. ZAKLJUČAK 10

LITERATURA 11

2

Page 3: Petrovic Drazen-Seminarski Rad MibS

1.Uvod

Data mining je nova tehnologija koja se koristi u istraživanju tržišta i otkrivanju potencijalnih klijenata. To je metoda pretraživanja podataka koja se naglo razvila zahvaljujući razvoju računarske tehnologije jer je tek razvitkom brzih računarskih sistema postalo moguće efikasno pretraživati velike količine nagomilanih informacija. Zahvaljujući „rudarenju podataka”, skupovi podataka se pretvaraju u strukturirane informacije i znanje i na taj način su korisniji i vredniji za istraživanje.

3

Page 4: Petrovic Drazen-Seminarski Rad MibS

2.Definicija

Data Mining se može definisati kao proces podrške odlučivanju u kojem se traže uzorci informacija u podacima. To je tehnika pretraživanja podataka u cilju identifikacije traženih uzoraka i njhovih međusobnih relacija. Jednostavno rečeno Data Mining je izdvajanje interesantnih, novih i potencijalno korisnih informacija ili uzoraka sadržanih u velikim bazama podataka.Osnovni cilj Data Mininga jeste otkrivanje skrivenih veza, predvidivih nizova i egzaktnih klasifikacija.Osnovna poruka Data mininga jeste da je potrebno da se iz ogromne količine operativnih podataka i veza koje se ne mogu odmah sagledati definišu odgovarajuće relacije, obrasci ili forme ponašanja što u krajnjem slučaju daje potrebne informacije iz raspoloživih podataka.Data mining uključuje korištenje sofisticiranih alata za analizu i otkrivanje ranije nepoznatih modela i veza1.Ti alati mogu uključivati statističke modele, matematičke algoritme te metodu mašinskog učenja.Data mining ne predstavlja samo metodu prikupljanja i obrade podatka u Data mining je uključen i proces analize podataka te predviđanje.

Pretraživanje podataka može vršiti korisnik a može vršiti neki inteligentni program koji automatski pretražuju bazu umesto korisnika i nalazi uzorke.

3.Upotreba Data Mining-a

Upotreba DM je vrlo raširena kako u privatnom tako i u društvenom sektoru.U zapadno evropskim zemljama banke, osiguravajuće kuće,zdravstveni sektor te PIO često koriste DM kako bi smanjili troškove potstakli istraživanje te povećali prodaju. Pa tako npr banke I osiguravajuće kuće koriste DM kako bi spriječili prevare u ovom sektoru te DM pomaže u procesu upravljanja rizikom.Podaci o klijentima su bili prikupljani tokom godina te analizom tih podataka može se predvidjeti da li kod pojedinog klijenta postoji veći ili manji rizik za plasiranje sredstava. Zdravstveni sektor koristi DM kako bi prdvidio efikasnost nekog modela lječenja.Telefonske kompanije mogu lako da predvide na osnovu prikupljenih podataka tko će od klijenata ostati “vjeran” kompaniji a tko će preći u drugu kompaniju.

U društvenom sektoru DM se takodje koristi za sprečavanje prevara ali se DM koristi i za unapređenje te mjerenje postignuća raznih programa.Mnogo je primjera kako se može kvalitetno iskoristiti DM ali ja ću navesti jedan po meni najinteresantniji naime Američka agencija za vazdušnu plovidbu je metodom DM uspjela da prepozna obrasce nastajanja grešaka te ih ispravi I time sačuva mnoge ljudske živote tako što su analizirali podatke o padovima aviona.

Na našim prostorima se DM koristi najviše u marketinškim agencijama koje su usmjerene ka pojedinačnom kupcu (CRM).I to sledeći primjeri:

► direktni marketing – npr., katalozi i ponude različitih artikala se šalju kupcima za koje postoji najveća vjerojatnost odaziva;

1 Two Crows Corporation, Introduction to Data Mining and Knowledge Discovery, ThirdEdition (Potomac, MD: Two Crows Corporation, 1999); Pieter Adriaans and Dolf Zantinge,Data Mining (New York: Addison Wesley, 1996).

4

Page 5: Petrovic Drazen-Seminarski Rad MibS

► izradu profila kupaca – utvrđuje se uzorak ponašanja kupaca da bi mu se kasnije poslala prilagođena ponuda.

► segmentaciju – utvrđivanje grupa kupaca s jednakim karakteristika (uzorkom ponašanja)

► istraživanje povezanosti prodaje različitih proizvoda – analiza kupovne košare što se može npr. upotrijebiti za raspoređivanje artikala na policama.

► stimulacija kupovine drugih artikala istog poduzeća, odnosno veće količine istih artikala, što može nadoknaditi pridobivanje novih kupaca.

► zadržavanje kupaca – ovo je puno jeftinije od pridobivanja novih kupaca.

Za primjer možemo uzeti slanje reklamnih materijala te njihov odaziv na te kataloge.Postoje 2 mogućnosti kome ćemo kataloge uputiti, hoćemo li ih izabrati nasumično ili uz pomoć metode DM.

Sl.1. Povećanje odaziva upotrebom DM

Puna linija pokazuje odaziv kod nasumičnog izbora primatelja reklamnog materijala te je onda linearna jer se od 10 000 poslanih kataloga bilo 2000 odaziva. Crtkana linija pokazuje mogući odaziv ako su primatelji odabrani procesom DM. To znači da od 5000 primatelja, odazvalo bi se njih 1800. Znači, posljedica DM su niži troškovi, jer je potrebno slati manje podataka za isti učinak.Također razvijaju se rudarenja Weba (analiza podataka o posjeti Web stranica i analiza putova kojim posjetitelji dolaze do portala s podatcima) i rudarenje tekstova (analiziraju se tekstovi i unutar njih traže uzorci i pravila koji se koriste pri kategorizaciji članaka po područjima, otkrivanju autorstva i sl.)

5

Postotak odaziva

100 90 80 70 60 50 40 30 20 10 10 20 30 40 50 60 70 80 90 100 postotak primatelja reklamnog materijala

 

- - - - - odabir uz pomoć DM ________ nasumično odabrani

Page 6: Petrovic Drazen-Seminarski Rad MibS

4.DM modeli

DM se može podjeliti u nekoliko modela: Clustering Neuronske mreže Fuzzy logika Memorijsko zasnovano prosuđivanje (MBR) Stablo odlučivanja Analiza pijačne torbe

4.1.Clustering

Clustering je tehnika grupisanja i omogućava grupisanje podataka koji su slični. Grupisanja jest ustvari razvrstavanje jedinki u skupine u kojima je postignuta njihova najveća sličnost (segmentacija kupaca: podatci o starosti, zanimanju, dosadašnjoj kupnji).Pri podjeli u grupe potrebno je zadovoljiti dva osnovna kriterija:

o svaka grupa predstavlja homogen skup: primjeri koji pripadaju istoj grupi su medjusobno slični;

o svaka grupa mora se razlikovati od ostalih grupa, t.j. primjeri koji pripadaju odredjenoj grupi značajno se razlikuju od primjera koji pripadaju ostalim grupama.

Zavisno od konkretne metode, grupe mogu biti definisane na različit način:o identificirane grupe mogu biti ekskluzivne, tako da svaki primjer pripada isključivo

jednoj od grupa;o grupe se mogu preklapati; primjer može istovremeno pripadati nekolicini grupa;o grupe mogu biti definirane probabilistički: u tom slučaju primjer pripada svakoj od

grupa s odredjenom vjerojatnostio grupe mogu biti hijerarhijski strukturirane, sa grubom podjelom primjera na najvišem

nivou, koji se potom može finije strukturirati na nižim nivoima.

4.2. Neuronske mreže

One su zamišljene su da djeluju slično ljudskom mozgu. One se upotrebljavaju u analizi rizika i prognoziranju npr. vrijednosti dionica. Rudarenje podataka temeljeno na ovoj metodi počinje „učenjem“ mreže pomoću podataka za koje je poznata vrijednost koju želimo prognozirati. Nakon toga naučeno znanje se provjerava. Postupak učenja i provjere ponavlja se sve dok rezultati provjere ne budu zadovoljavajući. U osnovi ovaj DB model se svodi na sledeće neuronskoj mreži se daju određeni podaci za koje se zna izlazna vrijednost. Na osnovu ovih podataka neuronska mreža prepoznaje obrasce podataka.Zatim se na osnovu obrazaca pretražuje gomila podataka kako bi se našli ovi obrasci. Najlakše za objasniti suštinu neuronske mreže je kroz sledeći primjer:Kompanija koja se bavi davanjem kreditnih kartica raspolaže sa mnoštvom podataka koje je teško analizirati kako bi se prepoznale moguće prevare. Kompanija zna da je do 3 000 prijava za karticu 100 pokušaj prevare neuronska mreža analizira ova dva podatka te na osnovu njih dolazi do obrasca po kome se mogu prepoznati prevare.Ovaj obrazac se zatim koristi kako bi se ispitali svi podaci kod kompanije i otkrili podaci koji sadrže ovaj obrazac. Neuronske mreže su pogodne za prepoznavanje finih, skrivenih i novootkrivenih šema odnosa u kompleksnim podacima kao i za interpretaciju i razumevanje nekompletnih ulaznih podataka.

6

Page 7: Petrovic Drazen-Seminarski Rad MibS

4.3.Fuzzy logika

Šta je fuzzy logika? Da bi odgovorili na ovo pitanje, uporedićemo ovaj pristup sakonvencijalnom logikom. Osnove klasične logike je učvrstio još u antičkoj Grčkoj poznatifilozof Aristotel. Ova logika se zasniva na jasnim i precizno utvđenim pravilima, a počiva nateoriji skupova. Neki element može da pripada nekom skupu ili da ne pripada. Skupovi imajujasno određene granice. Tako su ovakvi skupovi, pa sa njima i logika, nazvani engleskom rečicrisp, koja ima značenje – jasan, bistar. Fuzzy (/fΛzi/) je engleska reč koja bi mogla da seprevede kao maglovito, nejasno, mutno.U fuzzy logici nije precizno definisana pripadnost jednog elementa određenom skupu,već se pripadnost meri u, recimo, procentima. Ove mere pripadnosti, skalirane, mogu dauzimaju vrednosti od 0 do1. Uzmimo kao primer dane u nedelji i napravimo dva skupa. Skupradnih dana i skup vikend. U crisp logici bi se u skupu radnih dana našli: ponedeljak, utorak,sreda, četvrtak i petak a u skupu vikend dana: subota i nedelja. Tj. pripadnost elementa nekomskupu bi se izrazila brojem 1 a nepripadanje brojem 0. Međutim u fuzzy zaključivanju bisituacija bila nešto drugačija. Petak, kao dan koji je delom radni dan a delom početak vikendabio bi negde na granici ova dva skupa. Tj. njegova pripadnost prvom, skupu radnih dana bi seizražavala, recimo brojem 0,75 dok bi pripadnost drugom, skupu vikend dana bila cifra 0,25.Slično bi bilo i za nedelju kao dan koji jeste vikend ali ne sasvim, celim svojim trajanjem, jeripak se nedelja uveče doživljava kao priprema za novu radnu nedelju odnosno mnogi ljudi ćega okarakterisati kao ne sasvim vikend dan, jer posle njega dolazi ponedeljak.Vidimo da je ova logika jako bliska ljudskoj percepciji o mnogim stvarima u životu.Mnoge slične situacije koje nisu jasno razdvojene, koje su mešavina više stvari susvakodnevno prisutne oko nas. Ovde smo na prilično nestabilnom terenu, jer relevantnimpostaje subjektivno mišljenje o nekoj stvari. Čak i kulturološko nasleđe ili generacijskerazlike imaju uticaja. Ali to je i poenta. Da li je desetogodišnjak koji sebe smatra visokimstvarno i visok? Ovde smo predstavili domen u kome jasna da – ne (tačno – netačno) logikaviše nije upotrebljiva. U fuzzy logici istinitost svakog tvrđenja se meri u procentima..

4.4.Memorisko zasnovano prosuđivanje, MBR

Memory Based Reasoning je tehnika DM koja se koristi za predviđanje i klasifikaciju.Ova tehnika je slična tehnici neuronskih mreža s tom razlikom što MBR traži slične podatke odnosno ne traži obrazac podataka.Na primjer ukuoliko doktor ima pacijenta sa više simptoma on će na osnovu iskustva sa sličnim pacijentima dati dijagnozu.

4.5.Stablo odlučivanja

Decision Tree je popularan metod za klasifikaciju i odlučivanje.Korištenje serije pitanja i pravila za kategorizaciju podataka mogu se predvidjeti ishodi.Stablo odlučivanja predstavlja tehniku odlučivanja koja se temelji na odnosima između strategije i stanja a koriste se za rešavanje složenih problema finansija, marketinga, uvođenja novih proizvoda i slično.Na sledećoj slici je primer stabla odlučivanja kod analize rizika poslovanja.

7

Page 8: Petrovic Drazen-Seminarski Rad MibS

Stablo odlučivanja se zasniva na 4 osnovne varijable:1. kostur stabla odlučivanja,koji pomoću grafikona pokazuje strategije, moguće posledice

svake strategije i identifikovano stanje2. verovatnoća različitih posledica izabrane strategije3. uslovna vrednost (troškovi) pripadajuće posledice4. očekivana vrednost za pripadajuće plaćanje ili troškove

4.6. Analiza pijačne torbe

Market Basket Analysis (MBA) se često naziva i grupisanje po sličnosti.Koristi se za pronalaženje grupe artikala koji se najčešće zajedno događaju u jednoj transakciji. Analiza pijačne torbe se bazira na teoriji da je veća vjerovatnoća da će te kupiti proizvod A ako ste kupili proizvod B. Ova DM model se široko upotrebljava u samoposlugama i tržnim centrima a u principu se radi o sledećoj situaciji: Kupac koji se odluči da kupi Pivo često se odlučuje da uz Pivo kupi i čips. Ovaj podatak predstavlja menadžerima važnu informaciju jer će uz Pivo izložiti i čips.Ovaj model se primjenjuje kako bi se usporedili podaci o više različitih lokacija te o navikama kupaca na različitim lokacijama.analize se mogu vršiti po više kriterija pa tako i na osnovu lokacije tržnog centera, dana u sedmici kada se vrši kupovina, doba godine itd.

5.Integracija DM sa DW

Postoji više razloga za ovu integraciju.Prvi razlog je da DM alati zahtevaju postojanje prečišćenih i integrisanih podataka.Tradicionalni DM alati bi iz tih razloga prvo izvršili transfer podatataka (možda i stotine MB) a nakon završenog rada često se javlja potreba za bovim podacima što znači da bi se ceo proces trebao ponoviti.Drugi razlog za integraciju DM alata sa DW jeste poboljšani korisnički interfejs.Stariji DM alati su zahtevali angažovanje niza stručnjaka da bi se postigli zadovoljavajući rezultati.Danas svaki poznavalac SQL jezika može koristiti mogućnosti DM a treći razlog su performanse sistema i mogućnost proširivanja koju obezbeđuje DW.Da bi smo mogli da bolje upotrebimo podatke koji se nalaze u DW neophodno je izabrati odgovarajući DM model. Neke od modela sam već naveo tako da o njima neću pisati u ovom dijelu rada. Napomenut ću samo da DM je skup metoda koje analizirajući date podatke traži uzorke u njima te relacije i pravila među njima i time dobijamo kvalitetniju informaciju.Odvajajući se od DW , koji ima jedinstven pristup podacima, DM daje rezultate

8

Page 9: Petrovic Drazen-Seminarski Rad MibS

koji pokazuju povezanos i unutrašnju zavisnost tih podataka.Ove povezanosti se baziraju na matematičkim i statističkim relacijama.

Podaci nekog istraživanja se nalaze u bazama podataka.pored ovih podataka koriste se i drugi dostupni izvori kako bi se dopunile postojeće baze. Poslje sakupljanja podataka vrši se selekcija podataka za analizu te se primjenjuje jedan od DM modela. Dobijamo uzorke podataka na kojima se bazira novo stečeno znanje.

6.Tipovi DM-aPo opštoj funkcionalnosti DM može biti:

o deskriptivan DMo prediktivan DM

Deskriptivan DM model pomaže u razumjevanju procesa ili ponašanja koje jeopisano podacima.Prediktivan model je jednačina ili skup pravila koji omogućava predikciju zavisne varijable ili atributa na osnovu skupa nezavisnih varijabli.Zavisno od prirode problema odnosno podatka biramo najprikladniji oblik modela.

9

Page 10: Petrovic Drazen-Seminarski Rad MibS

7. ZAKLJUČAK

U ovom radu sam samo zagrebao po ogrmnoj temi koja se sve više korist u skoro svim oblastima života i rada. Tehnika rudarenja podataka je primjenjena u gotovo svakom segmentu života iako mi toga nismo ni svjesni.Tako da kad god uđemo u tržni centar možemo biti gotovo sigurni da će raspored artikala koji se prodaju biti tako raspoređeni da nam se čini kao da smo ih mi tu postavili odnosno kako nam je sve na dohvat ruke.Radeći na ovom radu pobliže sam upoznao osnovne stvari vezane za ovu tematiku ali sam došao do zaključka da je ovo jedna od perspektivnijih oblasti u informatici.

10

Page 11: Petrovic Drazen-Seminarski Rad MibS

LITERATURA

http://www.albionresearch.com/data_mining/market_basket.php http://www.chicagobigroup.com/business_intelligence_white_papers/

business_intelligence_data_mining_techniques.pdf http://en.wikipedia.org/wiki/Market_basket_analysis http://www.doiserbia.nbs.bg.ac.yu/img/doi/0354-0243/2005/0354-02430501125S.pdf http://perun.im.ns.ac.yu/radovanovic/dmsem/completed/2006/

VizualizacijaKartonaNaucnihRadnika.pdf http://dms.irb.hr/tutorial/hr_tut_clustering_short.php Radić Gordana,Upravljanje poslovnim informacionim sistemima

11