Bayes, id3,c45 m
-
Upload
miro-brtan -
Category
Real Estate
-
view
122 -
download
0
Transcript of Bayes, id3,c45 m
SVEUČILIŠTE U MOSTARUEKONOMSKI FAKULTET
Studenti:
Miro Brtan 45/DDM
Josip Iličid 48/DDM
Slaven Budimir 613/DS
Boris Matid 584/DS
Josip Marijanovid
Profesor:
Dr. sc. Brano Markić
Tema: Bayesov algoritam klasteriranja i
induktivna pravila –ID3/C4.5
UVOD
U suvremenim uvjetima poslovanja, poslovne organizacije se
susreću s enormno velikim količinama podataka pohranjenim u
bazama podataka. Pohranjene podatke možemo zamisliti kao rudnik
zlata iz kojega želimo na što bolji i jednostavniji način izvući što više
grumenja zlata tj. znanja koje je sakriveno u mnogobrojnim
podacima. Disciplina koja se bavi otkrivanjem znanja iz baza
podataka nazvana je data mining. Iz ovoga zaključujemo da data
mining nije ništa drugo nego otkrivanje korisnog znanja ili
informacija iz velike količine podataka.
Jedna od data mining podataka je metoda bayesovih mreža.
Bayesove mreže možemo definirati kao grafičke modele koji pokazuju
relacije temeljene na uvjetnim vjerojatnostima između setova varijabli.
Razlikujemo 3 vrste vjerojatnosti kod Bayesovih mreža:
1. A priori vjerojatnost - vjerojatnost se procjenjuje na temelju
provjerenih modela koje nije potrebno provjeravati (primjer: postoji
50% vjerojatnosti da de bačeni novčid pasti na “pismo“ i 50%
vjerojatnosti da de pasti na “glavu“)
2. Uvjetna vjerojatnost - vjerojatnost da je nešto istina uz poznate
dodatne informacije o svijetu (npr. siguran sam da me boli zub - koja je
vjerojatnost karijesa)
3. Združena vjerojatnost - kombinacija dva ili više događaja, za prikaz
svih mogudih ishoda koristimo združenu distribuciju vjerojatnosti.
BAYESOVA FORMULA
Bayesova mreža je naziv dobila po britanskom matematičaru Thomasu Bayesu (1702.‐1761.) koji je u svomu radu opisao matematičku formulu koja danas ima veliku važnost kod teorije vjerojatnost. Ako saznamo neku informaciju, može se dogoditi da se vjerojatnosti događaja promijene.
Kako bi izračunali vjerojatnost nekog događaja na temelju poznatih stanja, koristimo uvjetnu vjerojatnost.
Vjerojatnost da de se dogoditi događaj A ako se dogodio događaj B naziva se uvjetna vjerojatnost i označava se na sljededi način:
Formula glasi:
gdje je P(A,B) vjerojatnost istodobnog pojavljivanja A i B ,
a P(B) je vjerojatnost pojavljivanja B.
PRIMJER UVJETNE VJEROJATNOSTI ZAVISNIH DOGAĐAJA
Neka je S = populacija odraslih koji su kategorizirani po spolu i zaposlenosti na slijededi način:
ZAPOSLENI NEZAPOSLENI
M 460 40
Ž 140 260
Koliko je vjerojatno da de izabrana osoba biti muškarac, ako znamo da je
izabrana osoba zaposlena.
A –izabrana osoba je zaposlena
B –izabrana osoba je muškarac
Oprez ! p(A∩B) ne množimo jer A i B nisu nezavisni događaji(Dva događaja su
nezavisna ako bilo koji ishod jednog događaja ne utječe na vjerojatnost bilo
kojeg drugog događaja).
ALGORITAM ID3/C4.5
John Ross Quinlan – istraživač računalnih znanosti
Algoritam ID3 je prvi put predstavljen 1975.g. u
knjigi “Machine Learning”
ID3 i C4.5 algoritmi služe za generiranje stabla
odlučivanja iz dataseta
ID3 algoritam počinje sa orginalnim podacima S
kao korijenskim čvorom i računa
entropiju H(S) ( ili informacijski
dobitak IG(A) ) tog atributa
H(S)= entropija (mjera nesigurnosti u podacima)
S- data set
P(x) - omjer broja elemenata u klasi x prema broju elemenata u data setu
Kada je H(S)=0 podaci su savršeno klasificirani ( npr.svi podaci su iste klase)
Informacijski dobitak IG(A) je mjera razlike u
entropiji prije i poslje nakon što se data set
razgrana na atribute A
H(S) – entropija
T – podsetovi stvoreni od grananja dataseta po
atributu A
P(t) – omjer broja elemenata u podsetu (t) sa brojem
elemenata u datasetu
H(t) – entropija podseta t
Potrebno je pronaći koji će atribut biti korijen stabla.
U ovom slučaju je Outlook atribut s najvećom
informacijskom dobiti
Infor. dobit(S, Outlook) = 0.246
Humidity ima sljedeći najveću informacijsku dobit
Onfor. dobit(S, Humidity) = 0.151 i rabi se kao
sljedeći čvor za vrijednost atributa Outlook
Grananje se nastavlja dok svi podaci ne budu
savršeno klasificirani ili nestane atributa
Svrha je zamjeniti stručnjaka koji bi inače ručno
morao izraditi klasifikacijsko stablo
C 4.5
C 4.5 je nastavak Quinlanovog ID3 algoritma
Stabla odlučivanja napravljena ovim algoritmom se
mogu koristiti za klasifikaciju
C 4.5 gradi stabla odlučivanja iz trening podataka
na isti način kao i ID3, koristeći entropiju podataka
Slučajevi u kojima dolaze do izražaja posebnosti ovog
algoritma:
Svi uzorci u listi pripadaju istoj klasi
Nijedna od značajki ne daje informacijski dobitak
J48 je JAVA implementacija C 4.5 algoritma u WEKA
alatu za rudarenje podataka
Poboljšanja u odnosu na ID3:
Upravljanje stalnim i diskretnim atributima
Upravljanje nedostajućim ili ne upisanim vrijednostima
atributa
Uklanjanje nepotrebnih grana nakon stvaranja