INFORMACIONI SISTEMI ZA PODRŠKU...
Transcript of INFORMACIONI SISTEMI ZA PODRŠKU...
INFORMACIONI SISTEMI ZA PODRŠKU MENADŽMENTU
TEMA: CRISP-DM metodologija u Data Mining alatu Orange
AUTOR: Baketarić Lidija 202/07
2011, Beograd
2
Sadržaj:
CRISP – DM metodologija u Data Mining alatu Orange ............................................................................ 3
Business understanding ....................................................................................................................... 3
Data understanding ............................................................................................................................. 3
Data transformation ............................................................................................................................ 6
Modeling ............................................................................................................................................. 8
Evaluation ......................................................................................................................................... 11
Deployment ....................................................................................................................................... 13
3
CRISP – DM metodologija u Data Mining alatu Orange
Jedna od prepoznatljivih tehnologija otkrivanja zakonitosti u podacima je CRISP-DM
metodologija. Ova metodologija sastoji se iz sledećih faza:
1. Razumevanje poslovnog problema (Business understanding)
2. Razumevanje podataka (Data understanding)
3. Priprema podataka (Data transformation)
4. Modelovanje rešenja (Modeling )
5. Evaluacija rešenja ( Evaluation)
6. Primena rešenja (Deployment)
U nastavku biće prikazana CRISP-DM metodologija na primeru odobravanja kredita u
program Orange.
Business understanding
U ovoj fazi CRISP-DM metodologije upoznajemo se sa problemom koji treba da rešimo
kao i sa ciljevima i rezultatima koje se žele postići. U našem slučaju imamo podatke o
podnesenim zahtevima za odobravanje kredita i cilj nam je da uočimo zavisnost izmeĎu
datih atributa. Ova zavisnost će nam omogućiti da otkrijemo zakonitosti koje se javljaju
u podacima i da lakše otkrijemo kojoj klasi potencijalni klijenti pripadaju.
Data understanding
Faza razumevanja podataka je predviĎena da se upoznamo sa podacima sa kojima
treba da radimo, pokušavamo da shvatimo njihovo značenje, da otkrijemo zavisnosti
meĎu njima koristeći različite grafove i druge oblike vizualizacije. TakoĎe, u fazi
razumevanja podataka dolazimo do saznanja o kvalitetu samih podataka, obliku u kom
su data i mnoge druge stvari koje nam mogu pomoći u daljoj analizi.
U programu Orange prvi korak koji ćemo napraviti je prikazati same podatke pomoću
čvora Data table.
4
Slika 1 Data Table
Iz ovog tabelarnog prikaza na levoj strani možemo uočiti statistike podataka. Javlja se
21 atribut, 1000 slučajeva i nema nedostajućih podataka. Javljaju se različiti tipovi
podataka kao što su numerički, kategorički. Izlazni atribut uzima 2 vrednosti good i bad.
TakoĎe dodatnu analizu možemo izvršiti nekim od čvorova iz grupe Visualize kao što su
Attribute Statistics, Distributions.
Attribute Statistics služi za statistički prikaz posmatranih podataka. TakoĎe koristan je i
za pronalaženje svojstava odreĎenog skupa podataka kao što je pripadnost odreĎenoj
klasi, klasteru.
5
Slika 2 Attribute Statistics
Na ovoj slici možemo videti kako izgleda čvor Attribute Statistics na konkretnom
primeru. Ukoliko uzmemo da posmatramo atribut Purpose odnosno namenu korišćenja
kredita možemo videti da najviše ljudi uzima kredit da bi kupilo radio-tv (28%), zatim za
nov automobile (23,4%), nameštaj (18.1%) itd.
Čvor Distribution prikazuje distribuciju vrednosti bilo diskretnih bilo kontinualnih atributa.
Za diskretne atribute graf prikazuje koliko puta se svaka od vrednosti atributa pojavljuje
u podacima. Za kontinualne atribute vrednosti su prikazane u obliku histograma.
Slika 3 Čvor distribution
6
Ovako izgleda konkretan primer čvora distribution. Ovde je čvor distribution primenjen
na atribut Employment. Ovaj histogram nam pokazuje da je najveći broj aplikacija za
kredit podneto u kategoriji u kojoj je dužina radnog staža izmeĎu 1 i 4 godine. TakoĎe iz
ovog grafičkog prikaza podataka možemo uočiti da se najveći procenat dobrih
kandidata za kredit nalazi u kategoriji aplikanata čija je dužina radnog staža preko 7
godina.
S obzirom da čvor distribution pokazuje raspodelu slučajeva po vrednostima izabranog
atributa, omogućava nam da iz vizuelnog prikaza na početku analize podataka uočimo
neke paterne koji nam mogu biti od pomoći u daljoj analizi i modeliranju rešenja
posmatranog problema. Npr. Na osnovu gore predstavljenog grafičkog prikaza
možemo zaključiti da su aplikanti sa preko 7 godina radnog staža u najvećem procentu
dobri aplikanti. Kada bi se pojavio novi aplikant sa dužinom radnog staža preko 7
godina sa velikom sigurnošću bi mogli tvrditi da mu treba odobriti kredit.
Data transformation
Priprema podataka predstavlja fazu CRISP-DM metodologije u kojoj se podaci iz
nestrukturiranog oblika pretvaraju u strukturiran oblik pogodan za algoritme. Treba voditi
računa da priprema podataka ne ugrozi kvalitet podataka nad kojima se uočavaju
zakonitosti.
Jedan od čvorova koje možemo iskoristiti u ovoj fazi je čvor Rank koji računajući niz
mera za ocenu kvaliteta, odnosno korisnosti atributa, pruža informacije korisniku i
omogućava mu da izabere podskup atributa koje će koristiti u daljoj analizi. Najbolje
rangirani atributi mogu da se izaberu automatski ili sam korisnik može izabrati koliko će
atributa koristiti.
7
Slika 4 Čvor Rank
Sa desne strane prikaza čvora Rank možemo videti izračunati kvalitet atributa. Prvi red
prikazuje ime atributa a drugi broj njegovih vrednosti (odnosno C ako je atribut
kontinualan). Preostale kolone prikazuju različite mere kvaliteta. Korisnik ima
mogućnost da izabere mere koje želi da se obračunaju i prikažu.
Atributi koji se žele odabrati za dalju analizu se označavaju ili prosto klikom na taj atribut
u tabeli ili u delu Select Attributes na jedan od predstavljenih načina (All – biraju se svi
atributi, Manual – atributi se ručno biraju i Best ranked – bira se odreĎeni broj najbolje
rangiranih atributa na osnovu mera kvaliteta).
U ovom slučaju najbolje rangirani atributi prema meri kvaliteta Information Gain
(informaciona dobit) su checking status, duration real, credit history a najslabije
rangirani residence since, own telephone i num dependents.
Na ovom konkretnom primeru možemo izvršiti selekciju atributa koji će ući u dalju
analizu podataka, a na osnovu prethodno izvršene faze Data understanding. Ovo ćemo
izvršiti pomoću čvora Sellect Attributes koji se nalazi u kategoriji Data. Ovaj čvor nam
omogućuje da odaberemo samo atribute koji su nam od važnosti za analizu podataka a
ostale atribute u daljoj analizi zanemarujemo.
8
Slika 5 Čvor Select Attributes
U daljoj analizi ostaće 10 atributa. Atribute čija je informaciona dobit ispod 0.01
izbacićemo iz daljeg razmatranja (to su atributi married, sex, installment commitment,
existing credits, job, own telephone, residence since, num dependents, other pazment
plans, foreign worker, other parties).
TakoĎe u ovoj fazi mogu se koristiti i čvorovi kao što je Data Sampler kojim se uzorkuju
podaci, čvor Merge Data kojim se dva ili više atributa spajaju u jedan, Discretize ili
Continuize kojim se kontinualni podaci prevode u diskretne ili obrnuto, čvor Impute
kojim se mogu uneti nedostajuće vrednosti, i čvor Outliers kojim se mogu iz analize
odbaciti ekstremne vrednosti pojedinih atributa. Svi ovi čvorovi omogućavaju nam
poboljšavanje kvaliteta podataka koje prethodi propuštanju podataka kroz model.
MeĎutim, u ovom primeru odobravanja kredita nemamo potrebe za ovim vrstama
pripreme podataka.
Modeling
Kada su završene faze razumevanja posla, podataka i kada je izvršena faza pripreme
podataka za analizu pristupa se fazi modelovanja rešenja. Ova faza predstavlja
centralni deo u Data Mining-u, ali se može reći da oduzima najmanje vremena zato što
se koristimo unapred pripremljenim algoritmima.
Postoji nekoliko mogućih problema koji se mogu rešiti Data Mining-om:
9
1. Klasifikacija
2. Klasterovanje
3. Procena
4. Asocijativna pravila
Na posmatranom problem odobravanja kredita radi se o klasifikaciji podataka. Problem
klasifikacije predstavlja problem kojim se slučajevi koji se javljaju pokušavaju svrstati u
ispravnu klasu.
Postoje 2 klase podataka koje se javljaju u ovom slučaju u izlaznom atributu class i to
su good i bad odnosno dobar i loš aplikant, a svi slučajevi su opisani sa 10 atributa
slučajeva iz prošlosti.
U programu Orange postoji više algoritama za modeliranje rešenja pri klasifikaciji
podataka i ovi algoritmi se nalaze u čvorovima iz grupe Classify. Neki od čvorova za
izgradnju modela klasifikacije, odnosno algoritmi su:
1. C4.5
2. SVM
3. K-Nearest-Neighbours
4. Classification Tree i drugi.
Algoritam koji ćemo koristiti u ovom slučaju je Classification Tree. Izgradnja modela
klasifikacije se izvršava na sledeći način. Izvor podataka se povezuje sa čvorom
Classification Tree koji predstavlja algoritam za pravljenje stabla koje će biti klasifikator
slučajeva. Izlaz iz čvora Classification Tree je izgraĎeno stablo. Ako je potrebno
vizuelizovati dobijeno stablo to se može uraditi nadovezujući čvor Classification Tree
Graph na čvor Classification Tree. Grafički prikaz drva odlučivanja izgleda kao na
sledećoj slici.
Iz ovog grafičkog prikaza se mogu uočiti zakonitosti u podacima kao npr. Da aplikanti
čije stanje računa iznosi izmeĎu 0 i 200 i iznos kredita za koji apliciraju je manji od
12296.5 i ima ušteĎevinu u iznosu više od 1000 aplikant je dobar u 71.4%slučajeva.
10
Slika 6 Classification Tree Graph
TakoĎe ova pravila se mogu prikazati i pomoću čvora Classification Tree Viewer.
Obeleženi slučaj je isti kao i u grafičkom prikazu čvora Classification Tree.
Slika 7 Classification Tree Viewer
11
Evaluation
U fazi evaluacije pristupa se proveri tačnosti dobijenog modela i na osnovu toga se
donosi odluka da li je model primenljiv ili je potrebno još raditi na njemu kako bi se
postigla željena tačnost.
Za validaciju se u program Orange koristi čvor Test Learners iz grupe Evaluate. Ovaj
čvor služi za učenje algoritma na podacima. On nam omogućuje da uzorkujemo
podatke i da nad njima testiramo model. Postoje različiti načini uzorkovanja podataka.
Cross-validation deli podatke u zadati broj grupa. Leave one out –sličan je cross-
validation metodi uzorkovanja s tim što pri svakom ponavljanju izostavlja jedan slučaj iz
baze podataka. Na preostalim slučajevima se uči model a zatim se izostavljeni slučaj
testira na naučenom modelu.Ovaj metod je veoma stabilan i pouzdan ali je i veoma
spor i nije pogodan za velike skupove podataka. Random Sampling – metod slučajnog
uzorka koji nasumično deli podatke na podatke za učenje i test podatke u odreĎenoj
srazmeri i ovaj ceo postupak validacije se ponavlja navedeni broj puta. TakoĎe podaci
se mogu uzimati iz posebnih baza, test i training baze.
TakoĎe sa čvorom Test Learners se mora povezati čvor iz kog će on naučiti algoritam.
Slika 8 Test Learners
Tačnost izgraĎenog modela iznosi 0.7042 što znači da u približno 70% slučajeva
klasifikacija je tačna.. Ukoliko ovaj nivo tačnosti nije zadovoljavajući pristupa se izmeni
modela pre njegove primene.
12
Ova evaluacija podataka se može i grafički prikazati pomoću čvora ROC Analysis što je
prikazano na sledećoj slici.
Slika 9 Čvor ROC Analysis
ROC Analysis kriva predstavlja grafički prikaz osetljivosti, bilo stope stvarno pozitivnih
rezultata testiranja nasuprot lažno pozitivnim rezultatima. ROC Analysis radi na
sledećem principu. Klasifikacijom modela mapiramo slučajeve koji se javljaju u
odreĎene klase. Postoje dve klase problema predviĎanja u kojoj se ishod označava kao
pozitivna ili negativna klasa.Postoje četiri moguća konačnog ishoda. Ako je rezultat
predviĎanja pozitivan i stvarna vrednost je pozitivna takoĎe, onda je to pravi pozitivni, ali
ako je stvarna vrednost negativna onda je ishod lažno pozitivan. Nasuprot tome postoje
pravi negativni ishod i lažno negativni ishod.Ovaj grafički prikaz poredi dve operativne
karakteristike, pravu pozitivnu stopu i stopu lažno pozitivnih rezultata, kao kriterijum
promene. ROC Analysis nam obezbeĎuje alate za izbor najoptimalnijeg modela, i pruža
nam mogućnost da odbacimo modele koji nisu optimalni analizom koja se odnosi na
troškove kotneksta i klase distribucije. ROC Analysis nam omogućava da cost-benefit
analizom donesemo odluku o optimalnom modelu odlučivanja.Dijagonalna linija na
grafiku predstavlja ponašanje slučajnog klasifikatora.
13
Kada podaci dolaze iz više iteracija treninga i testiranja obično su prikazani u proseku.
Opcije kako taj prosek možemo da prikažemo su:
1. Merge – testira sve podatke kao da su došli iz jedne iteracije
2. Vertical – prikazuje prosek krive vertikalno, prikazujući odgovarajući interval
poverenja
3. Treshold
4. None
TakoĎe korisnik može sam da odredi troškove lažno pozitivnih i lažno negativnih
slučajeva kao i verovatnoću ciljne klase. TakoĎe ovo može izračunati i sam program iz
podataka.
Na prikazanoj slici možemo videti da ROC kriva dostiže klasifikator u tački 0.769 što
znači da ona predviĎa ciljnu klasu ako je verovatnoća veća ili jednaka 0.769. Mesto na
kom linija performansi dodiruje ROC krivu predstavlja optimalnu tačku za bilo koji od
datih klasifikatora.
Deployment
Na kraju projekta otkrivene zakonitosti treba i primeniti u organizaciji. Ova faza
predstavlja fazu u kojoj se primenjuje naš predstavljeni model i znanje koje smo
pomoću njega stekli.
Da bi se model primenio u organizaciji potrebno je ispuniti odreĎene pretpostavke kao
što je podrška top menadžmenta, detaljno razraĎen plan uvoĎenja rešenja u
organizaciju, primenljivost rešenja itd.
U ovoj fazi možemo koristiti čvor Predictions iz grupe Evaluate. Ovaj čvor uzima novi
skup podataka koji smo mu zadali, u ovom slučaju novog aplikanta i prikazuje jedan ili
više prediktora. Kao izlaz se prikazuje tabela sa podacima i predviĎanjem. Ovaj čvor
nam prikazuje prognozu klase i predviĎa verovatnoću za odabranu klasu. Uprkos svojoj
jednostavnosti ovaj čvor nam omogućava veoma zanimljivu alnalizu odluka prediktivnih
modela.
Primer. Ukoliko se pojavi aplikant (uzimamo novu tabelu i učitavamo je u čvor File) koji
ima ušteĎevinu veću od 1000, podneo je zahtev za kredit koji iznosi 7758, provereno
stanje iznosi izmeĎu 0 i 200 a namena korišćenja kredita je polovan automobil čvor
Predictions (prethodno povezan sa čvorom modela Classification tree) predviĎa da će
ovaj novi aplikant pripadati klasi dobar, odnosno da mu treba odobriti kredit.
14
Slika 10 Čvor Predictions