INFORMACIONI SISTEMI ZA PODRŠKU...

INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTU

TEMA: CRISP-DM metodologija u Data Mining alatu Orange

AUTOR: Baketarić Lidija 202/07

2011, Beograd

2

Sadržaj:

CRISP – DM metodologija u Data Mining alatu Orange ............................................................................ 3

Business understanding ....................................................................................................................... 3

Data understanding ............................................................................................................................. 3

Data transformation ............................................................................................................................ 6

Modeling ............................................................................................................................................. 8

Evaluation ......................................................................................................................................... 11

Deployment ....................................................................................................................................... 13

3

CRISP – DM metodologija u Data Mining alatu Orange

Jedna od prepoznatljivih tehnologija otkrivanja zakonitosti u podacima je CRISP-DM

metodologija. Ova metodologija sastoji se iz sledećih faza:

1. Razumevanje poslovnog problema (Business understanding)

2. Razumevanje podataka (Data understanding)

3. Priprema podataka (Data transformation)

4. Modelovanje rešenja (Modeling )

5. Evaluacija rešenja ( Evaluation)

6. Primena rešenja (Deployment)

U nastavku biće prikazana CRISP-DM metodologija na primeru odobravanja kredita u

program Orange.

Business understanding

U ovoj fazi CRISP-DM metodologije upoznajemo se sa problemom koji treba da rešimo

kao i sa ciljevima i rezultatima koje se žele postići. U našem slučaju imamo podatke o

podnesenim zahtevima za odobravanje kredita i cilj nam je da uočimo zavisnost izmeĎu

datih atributa. Ova zavisnost će nam omogućiti da otkrijemo zakonitosti koje se javljaju

u podacima i da lakše otkrijemo kojoj klasi potencijalni klijenti pripadaju.

Data understanding

Faza razumevanja podataka je predviĎena da se upoznamo sa podacima sa kojima

treba da radimo, pokušavamo da shvatimo njihovo značenje, da otkrijemo zavisnosti

meĎu njima koristeći različite grafove i druge oblike vizualizacije. TakoĎe, u fazi

razumevanja podataka dolazimo do saznanja o kvalitetu samih podataka, obliku u kom

su data i mnoge druge stvari koje nam mogu pomoći u daljoj analizi.

U programu Orange prvi korak koji ćemo napraviti je prikazati same podatke pomoću

čvora Data table.

4

Slika 1 Data Table

Iz ovog tabelarnog prikaza na levoj strani možemo uočiti statistike podataka. Javlja se

21 atribut, 1000 slučajeva i nema nedostajućih podataka. Javljaju se različiti tipovi

podataka kao što su numerički, kategorički. Izlazni atribut uzima 2 vrednosti good i bad.

TakoĎe dodatnu analizu možemo izvršiti nekim od čvorova iz grupe Visualize kao što su

Attribute Statistics, Distributions.

Attribute Statistics služi za statistički prikaz posmatranih podataka. TakoĎe koristan je i

za pronalaženje svojstava odreĎenog skupa podataka kao što je pripadnost odreĎenoj

klasi, klasteru.

5

Slika 2 Attribute Statistics

Na ovoj slici možemo videti kako izgleda čvor Attribute Statistics na konkretnom

primeru. Ukoliko uzmemo da posmatramo atribut Purpose odnosno namenu korišćenja

kredita možemo videti da najviše ljudi uzima kredit da bi kupilo radio-tv (28%), zatim za

nov automobile (23,4%), nameštaj (18.1%) itd.

Čvor Distribution prikazuje distribuciju vrednosti bilo diskretnih bilo kontinualnih atributa.

Za diskretne atribute graf prikazuje koliko puta se svaka od vrednosti atributa pojavljuje

u podacima. Za kontinualne atribute vrednosti su prikazane u obliku histograma.

Slika 3 Čvor distribution

6

Ovako izgleda konkretan primer čvora distribution. Ovde je čvor distribution primenjen

na atribut Employment. Ovaj histogram nam pokazuje da je najveći broj aplikacija za

kredit podneto u kategoriji u kojoj je dužina radnog staža izmeĎu 1 i 4 godine. TakoĎe iz

ovog grafičkog prikaza podataka možemo uočiti da se najveći procenat dobrih

kandidata za kredit nalazi u kategoriji aplikanata čija je dužina radnog staža preko 7

godina.

S obzirom da čvor distribution pokazuje raspodelu slučajeva po vrednostima izabranog

atributa, omogućava nam da iz vizuelnog prikaza na početku analize podataka uočimo

neke paterne koji nam mogu biti od pomoći u daljoj analizi i modeliranju rešenja

posmatranog problema. Npr. Na osnovu gore predstavljenog grafičkog prikaza

možemo zaključiti da su aplikanti sa preko 7 godina radnog staža u najvećem procentu

dobri aplikanti. Kada bi se pojavio novi aplikant sa dužinom radnog staža preko 7

godina sa velikom sigurnošću bi mogli tvrditi da mu treba odobriti kredit.

Data transformation

Priprema podataka predstavlja fazu CRISP-DM metodologije u kojoj se podaci iz

nestrukturiranog oblika pretvaraju u strukturiran oblik pogodan za algoritme. Treba voditi

računa da priprema podataka ne ugrozi kvalitet podataka nad kojima se uočavaju

zakonitosti.

Jedan od čvorova koje možemo iskoristiti u ovoj fazi je čvor Rank koji računajući niz

mera za ocenu kvaliteta, odnosno korisnosti atributa, pruža informacije korisniku i

omogućava mu da izabere podskup atributa koje će koristiti u daljoj analizi. Najbolje

rangirani atributi mogu da se izaberu automatski ili sam korisnik može izabrati koliko će

atributa koristiti.

7

Slika 4 Čvor Rank

Sa desne strane prikaza čvora Rank možemo videti izračunati kvalitet atributa. Prvi red

prikazuje ime atributa a drugi broj njegovih vrednosti (odnosno C ako je atribut

kontinualan). Preostale kolone prikazuju različite mere kvaliteta. Korisnik ima

mogućnost da izabere mere koje želi da se obračunaju i prikažu.

Atributi koji se žele odabrati za dalju analizu se označavaju ili prosto klikom na taj atribut

u tabeli ili u delu Select Attributes na jedan od predstavljenih načina (All – biraju se svi

atributi, Manual – atributi se ručno biraju i Best ranked – bira se odreĎeni broj najbolje

rangiranih atributa na osnovu mera kvaliteta).

U ovom slučaju najbolje rangirani atributi prema meri kvaliteta Information Gain

(informaciona dobit) su checking status, duration real, credit history a najslabije

rangirani residence since, own telephone i num dependents.

Na ovom konkretnom primeru možemo izvršiti selekciju atributa koji će ući u dalju

analizu podataka, a na osnovu prethodno izvršene faze Data understanding. Ovo ćemo

izvršiti pomoću čvora Sellect Attributes koji se nalazi u kategoriji Data. Ovaj čvor nam

omogućuje da odaberemo samo atribute koji su nam od važnosti za analizu podataka a

ostale atribute u daljoj analizi zanemarujemo.

8

Slika 5 Čvor Select Attributes

U daljoj analizi ostaće 10 atributa. Atribute čija je informaciona dobit ispod 0.01

izbacićemo iz daljeg razmatranja (to su atributi married, sex, installment commitment,

existing credits, job, own telephone, residence since, num dependents, other pazment

plans, foreign worker, other parties).

TakoĎe u ovoj fazi mogu se koristiti i čvorovi kao što je Data Sampler kojim se uzorkuju

podaci, čvor Merge Data kojim se dva ili više atributa spajaju u jedan, Discretize ili

Continuize kojim se kontinualni podaci prevode u diskretne ili obrnuto, čvor Impute

kojim se mogu uneti nedostajuće vrednosti, i čvor Outliers kojim se mogu iz analize

odbaciti ekstremne vrednosti pojedinih atributa. Svi ovi čvorovi omogućavaju nam

poboljšavanje kvaliteta podataka koje prethodi propuštanju podataka kroz model.

MeĎutim, u ovom primeru odobravanja kredita nemamo potrebe za ovim vrstama

pripreme podataka.

Modeling

Kada su završene faze razumevanja posla, podataka i kada je izvršena faza pripreme

podataka za analizu pristupa se fazi modelovanja rešenja. Ova faza predstavlja

centralni deo u Data Mining-u, ali se može reći da oduzima najmanje vremena zato što

se koristimo unapred pripremljenim algoritmima.

Postoji nekoliko mogućih problema koji se mogu rešiti Data Mining-om:

9

1. Klasifikacija

2. Klasterovanje

3. Procena

4. Asocijativna pravila

Na posmatranom problem odobravanja kredita radi se o klasifikaciji podataka. Problem

klasifikacije predstavlja problem kojim se slučajevi koji se javljaju pokušavaju svrstati u

ispravnu klasu.

Postoje 2 klase podataka koje se javljaju u ovom slučaju u izlaznom atributu class i to

su good i bad odnosno dobar i loš aplikant, a svi slučajevi su opisani sa 10 atributa

slučajeva iz prošlosti.

U programu Orange postoji više algoritama za modeliranje rešenja pri klasifikaciji

podataka i ovi algoritmi se nalaze u čvorovima iz grupe Classify. Neki od čvorova za

izgradnju modela klasifikacije, odnosno algoritmi su:

1. C4.5

2. SVM

3. K-Nearest-Neighbours

4. Classification Tree i drugi.

Algoritam koji ćemo koristiti u ovom slučaju je Classification Tree. Izgradnja modela

klasifikacije se izvršava na sledeći način. Izvor podataka se povezuje sa čvorom

Classification Tree koji predstavlja algoritam za pravljenje stabla koje će biti klasifikator

slučajeva. Izlaz iz čvora Classification Tree je izgraĎeno stablo. Ako je potrebno

vizuelizovati dobijeno stablo to se može uraditi nadovezujući čvor Classification Tree

Graph na čvor Classification Tree. Grafički prikaz drva odlučivanja izgleda kao na

sledećoj slici.

Iz ovog grafičkog prikaza se mogu uočiti zakonitosti u podacima kao npr. Da aplikanti

čije stanje računa iznosi izmeĎu 0 i 200 i iznos kredita za koji apliciraju je manji od

12296.5 i ima ušteĎevinu u iznosu više od 1000 aplikant je dobar u 71.4%slučajeva.

10

Slika 6 Classification Tree Graph

TakoĎe ova pravila se mogu prikazati i pomoću čvora Classification Tree Viewer.

Obeleženi slučaj je isti kao i u grafičkom prikazu čvora Classification Tree.

Slika 7 Classification Tree Viewer

11

Evaluation

U fazi evaluacije pristupa se proveri tačnosti dobijenog modela i na osnovu toga se

donosi odluka da li je model primenljiv ili je potrebno još raditi na njemu kako bi se

postigla željena tačnost.

Za validaciju se u program Orange koristi čvor Test Learners iz grupe Evaluate. Ovaj

čvor služi za učenje algoritma na podacima. On nam omogućuje da uzorkujemo

podatke i da nad njima testiramo model. Postoje različiti načini uzorkovanja podataka.

Cross-validation deli podatke u zadati broj grupa. Leave one out –sličan je cross-

validation metodi uzorkovanja s tim što pri svakom ponavljanju izostavlja jedan slučaj iz

baze podataka. Na preostalim slučajevima se uči model a zatim se izostavljeni slučaj

testira na naučenom modelu.Ovaj metod je veoma stabilan i pouzdan ali je i veoma

spor i nije pogodan za velike skupove podataka. Random Sampling – metod slučajnog

uzorka koji nasumično deli podatke na podatke za učenje i test podatke u odreĎenoj

srazmeri i ovaj ceo postupak validacije se ponavlja navedeni broj puta. TakoĎe podaci

se mogu uzimati iz posebnih baza, test i training baze.

TakoĎe sa čvorom Test Learners se mora povezati čvor iz kog će on naučiti algoritam.

Slika 8 Test Learners

Tačnost izgraĎenog modela iznosi 0.7042 što znači da u približno 70% slučajeva

klasifikacija je tačna.. Ukoliko ovaj nivo tačnosti nije zadovoljavajući pristupa se izmeni

modela pre njegove primene.

12

Ova evaluacija podataka se može i grafički prikazati pomoću čvora ROC Analysis što je

prikazano na sledećoj slici.

Slika 9 Čvor ROC Analysis

ROC Analysis kriva predstavlja grafički prikaz osetljivosti, bilo stope stvarno pozitivnih

rezultata testiranja nasuprot lažno pozitivnim rezultatima. ROC Analysis radi na

sledećem principu. Klasifikacijom modela mapiramo slučajeve koji se javljaju u

odreĎene klase. Postoje dve klase problema predviĎanja u kojoj se ishod označava kao

pozitivna ili negativna klasa.Postoje četiri moguća konačnog ishoda. Ako je rezultat

predviĎanja pozitivan i stvarna vrednost je pozitivna takoĎe, onda je to pravi pozitivni, ali

ako je stvarna vrednost negativna onda je ishod lažno pozitivan. Nasuprot tome postoje

pravi negativni ishod i lažno negativni ishod.Ovaj grafički prikaz poredi dve operativne

karakteristike, pravu pozitivnu stopu i stopu lažno pozitivnih rezultata, kao kriterijum

promene. ROC Analysis nam obezbeĎuje alate za izbor najoptimalnijeg modela, i pruža

nam mogućnost da odbacimo modele koji nisu optimalni analizom koja se odnosi na

troškove kotneksta i klase distribucije. ROC Analysis nam omogućava da cost-benefit

analizom donesemo odluku o optimalnom modelu odlučivanja.Dijagonalna linija na

grafiku predstavlja ponašanje slučajnog klasifikatora.

13

Kada podaci dolaze iz više iteracija treninga i testiranja obično su prikazani u proseku.

Opcije kako taj prosek možemo da prikažemo su:

1. Merge – testira sve podatke kao da su došli iz jedne iteracije

2. Vertical – prikazuje prosek krive vertikalno, prikazujući odgovarajući interval

poverenja

3. Treshold

4. None

TakoĎe korisnik može sam da odredi troškove lažno pozitivnih i lažno negativnih

slučajeva kao i verovatnoću ciljne klase. TakoĎe ovo može izračunati i sam program iz

podataka.

Na prikazanoj slici možemo videti da ROC kriva dostiže klasifikator u tački 0.769 što

znači da ona predviĎa ciljnu klasu ako je verovatnoća veća ili jednaka 0.769. Mesto na

kom linija performansi dodiruje ROC krivu predstavlja optimalnu tačku za bilo koji od

datih klasifikatora.

Deployment

Na kraju projekta otkrivene zakonitosti treba i primeniti u organizaciji. Ova faza

predstavlja fazu u kojoj se primenjuje naš predstavljeni model i znanje koje smo

pomoću njega stekli.

Da bi se model primenio u organizaciji potrebno je ispuniti odreĎene pretpostavke kao

što je podrška top menadžmenta, detaljno razraĎen plan uvoĎenja rešenja u

organizaciju, primenljivost rešenja itd.

U ovoj fazi možemo koristiti čvor Predictions iz grupe Evaluate. Ovaj čvor uzima novi

skup podataka koji smo mu zadali, u ovom slučaju novog aplikanta i prikazuje jedan ili

više prediktora. Kao izlaz se prikazuje tabela sa podacima i predviĎanjem. Ovaj čvor

nam prikazuje prognozu klase i predviĎa verovatnoću za odabranu klasu. Uprkos svojoj

jednostavnosti ovaj čvor nam omogućava veoma zanimljivu alnalizu odluka prediktivnih

modela.

Primer. Ukoliko se pojavi aplikant (uzimamo novu tabelu i učitavamo je u čvor File) koji

ima ušteĎevinu veću od 1000, podneo je zahtev za kredit koji iznosi 7758, provereno

stanje iznosi izmeĎu 0 i 200 a namena korišćenja kredita je polovan automobil čvor

Predictions (prethodno povezan sa čvorom modela Classification tree) predviĎa da će

ovaj novi aplikant pripadati klasi dobar, odnosno da mu treba odobriti kredit.

14

Slika 10 Čvor Predictions

INFORMACIONI SISTEMI ZA PODRŠKU...

Documents

Transcript of INFORMACIONI SISTEMI ZA PODRŠKU...