Bayes, id3,c45 m

14
SVEUČILIŠTE U MOSTARU EKONOMSKI FAKULTET Studenti: Miro Brtan 45/DDM Josip Iličid 48/DDM Slaven Budimir 613/DS Boris Matid 584/DS Josip Marijanovid Profesor: Dr. sc. Brano Markić Tema: Bayesov algoritam klasteriranja i induktivna pravila ID3/C4.5

Transcript of Bayes, id3,c45 m

Page 1: Bayes, id3,c45 m

SVEUČILIŠTE U MOSTARUEKONOMSKI FAKULTET

Studenti:

Miro Brtan 45/DDM

Josip Iličid 48/DDM

Slaven Budimir 613/DS

Boris Matid 584/DS

Josip Marijanovid

Profesor:

Dr. sc. Brano Markić

Tema: Bayesov algoritam klasteriranja i

induktivna pravila –ID3/C4.5

Page 2: Bayes, id3,c45 m

UVOD

U suvremenim uvjetima poslovanja, poslovne organizacije se

susreću s enormno velikim količinama podataka pohranjenim u

bazama podataka. Pohranjene podatke možemo zamisliti kao rudnik

zlata iz kojega želimo na što bolji i jednostavniji način izvući što više

grumenja zlata tj. znanja koje je sakriveno u mnogobrojnim

podacima. Disciplina koja se bavi otkrivanjem znanja iz baza

podataka nazvana je data mining. Iz ovoga zaključujemo da data

mining nije ništa drugo nego otkrivanje korisnog znanja ili

informacija iz velike količine podataka.

Page 3: Bayes, id3,c45 m

Jedna od data mining podataka je metoda bayesovih mreža.

Bayesove mreže možemo definirati kao grafičke modele koji pokazuju

relacije temeljene na uvjetnim vjerojatnostima između setova varijabli.

Razlikujemo 3 vrste vjerojatnosti kod Bayesovih mreža:

1. A priori vjerojatnost - vjerojatnost se procjenjuje na temelju

provjerenih modela koje nije potrebno provjeravati (primjer: postoji

50% vjerojatnosti da de bačeni novčid pasti na “pismo“ i 50%

vjerojatnosti da de pasti na “glavu“)

2. Uvjetna vjerojatnost - vjerojatnost da je nešto istina uz poznate

dodatne informacije o svijetu (npr. siguran sam da me boli zub - koja je

vjerojatnost karijesa)

3. Združena vjerojatnost - kombinacija dva ili više događaja, za prikaz

svih mogudih ishoda koristimo združenu distribuciju vjerojatnosti.

Page 4: Bayes, id3,c45 m

BAYESOVA FORMULA

Bayesova mreža je naziv dobila po britanskom matematičaru Thomasu Bayesu (1702.‐1761.) koji je u svomu radu opisao matematičku formulu koja danas ima veliku važnost kod teorije vjerojatnost. Ako saznamo neku informaciju, može se dogoditi da se vjerojatnosti događaja promijene.

Kako bi izračunali vjerojatnost nekog događaja na temelju poznatih stanja, koristimo uvjetnu vjerojatnost.

Vjerojatnost da de se dogoditi događaj A ako se dogodio događaj B naziva se uvjetna vjerojatnost i označava se na sljededi način:

Formula glasi:

gdje je P(A,B) vjerojatnost istodobnog pojavljivanja A i B ,

a P(B) je vjerojatnost pojavljivanja B.

Page 5: Bayes, id3,c45 m

PRIMJER UVJETNE VJEROJATNOSTI ZAVISNIH DOGAĐAJA

Neka je S = populacija odraslih koji su kategorizirani po spolu i zaposlenosti na slijededi način:

ZAPOSLENI NEZAPOSLENI

M 460 40

Ž 140 260

Koliko je vjerojatno da de izabrana osoba biti muškarac, ako znamo da je

izabrana osoba zaposlena.

A –izabrana osoba je zaposlena

B –izabrana osoba je muškarac

Oprez ! p(A∩B) ne množimo jer A i B nisu nezavisni događaji(Dva događaja su

nezavisna ako bilo koji ishod jednog događaja ne utječe na vjerojatnost bilo

kojeg drugog događaja).

Page 6: Bayes, id3,c45 m

ALGORITAM ID3/C4.5

John Ross Quinlan – istraživač računalnih znanosti

Algoritam ID3 je prvi put predstavljen 1975.g. u

knjigi “Machine Learning”

ID3 i C4.5 algoritmi služe za generiranje stabla

odlučivanja iz dataseta

ID3 algoritam počinje sa orginalnim podacima S

kao korijenskim čvorom i računa

entropiju H(S) ( ili informacijski

dobitak IG(A) ) tog atributa

Page 7: Bayes, id3,c45 m

H(S)= entropija (mjera nesigurnosti u podacima)

S- data set

P(x) - omjer broja elemenata u klasi x prema broju elemenata u data setu

Kada je H(S)=0 podaci su savršeno klasificirani ( npr.svi podaci su iste klase)

Page 8: Bayes, id3,c45 m

Informacijski dobitak IG(A) je mjera razlike u

entropiji prije i poslje nakon što se data set

razgrana na atribute A

H(S) – entropija

T – podsetovi stvoreni od grananja dataseta po

atributu A

P(t) – omjer broja elemenata u podsetu (t) sa brojem

elemenata u datasetu

H(t) – entropija podseta t

Page 9: Bayes, id3,c45 m
Page 10: Bayes, id3,c45 m

Potrebno je pronaći koji će atribut biti korijen stabla.

U ovom slučaju je Outlook atribut s najvećom

informacijskom dobiti

Infor. dobit(S, Outlook) = 0.246

Humidity ima sljedeći najveću informacijsku dobit

Onfor. dobit(S, Humidity) = 0.151 i rabi se kao

sljedeći čvor za vrijednost atributa Outlook

Grananje se nastavlja dok svi podaci ne budu

savršeno klasificirani ili nestane atributa

Page 11: Bayes, id3,c45 m

Svrha je zamjeniti stručnjaka koji bi inače ručno

morao izraditi klasifikacijsko stablo

Page 12: Bayes, id3,c45 m

C 4.5

C 4.5 je nastavak Quinlanovog ID3 algoritma

Stabla odlučivanja napravljena ovim algoritmom se

mogu koristiti za klasifikaciju

C 4.5 gradi stabla odlučivanja iz trening podataka

na isti način kao i ID3, koristeći entropiju podataka

Page 13: Bayes, id3,c45 m

Slučajevi u kojima dolaze do izražaja posebnosti ovog

algoritma:

Svi uzorci u listi pripadaju istoj klasi

Nijedna od značajki ne daje informacijski dobitak

J48 je JAVA implementacija C 4.5 algoritma u WEKA

alatu za rudarenje podataka

Page 14: Bayes, id3,c45 m

Poboljšanja u odnosu na ID3:

Upravljanje stalnim i diskretnim atributima

Upravljanje nedostajućim ili ne upisanim vrijednostima

atributa

Uklanjanje nepotrebnih grana nakon stvaranja