Pertemuan 12&13 Model Datamining
-
Upload
yoshi-van-java -
Category
Documents
-
view
43 -
download
6
description
Transcript of Pertemuan 12&13 Model Datamining
Dr. Sri Kusumadewi
Model Datamining
Materi Kuliah – [12,13]:SISTEM PENDUKUNG KEPUTUSAN Mahasiswa dapat memahami dan
mengaplikasikan konsep klasifikasidan clustering dalam model datamining.
Sasaran
Referensi Utama
Turban, Efraim; Aronson, Jay, E.; Liang, Ting-Peng. 2005. Decision Support Systems and Intelligent Systems. International Edition, Edisi 7. New Jersey: Pearson Prentice-Hall Education International .
POKOK BAHASANDefinisiKategori ModelNaïve Bayesiank-Nearest NeighborClustering
Definisi“Mining”: proses atau usaha untuk mendapatkansedikit barang berharga dari sejumlah besarmaterial dasar yang telah ada.
DefinisiBeberapa faktor dalam pendefinisian data mining:◦ data mining adalah proses otomatis terhadap data
yang dikumpulkan di masa lalu◦ objek dari data mining adalah data yang berjumlah
besar atau kompleks◦ tujuan dari data mining adalah menemukan
hubungan-hubungan atau pola-pola yang mungkinmemberikan indikasi yang bermanfaat.
DefinisiDefinisi data mining◦ Data mining adalah serangkaian proses untuk
menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidakdiketahui secara manual.
◦ Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuanuntuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadarikeberadaannya
ClassificationKlasifikasi adalah suatu proses pengelom-pokandata dengan didasarkan pada ciri-ciri tertentu kedalam kelas-kelas yang telah ditentukan pula. Dua metode yang cukup dikenal dalamklasifikasi, antara lain:◦ Naive Bayes◦ K Nearest Neighbours (kNN)
Naïve Bayesian ClassificationTeorema Bayes:
P(C|X) = P(X|C)·P(C) / P(X)◦ P(X) bernilai konstan utk semua klas◦ P(C) merupakan frek relatif sample klas C Dicari P(C|X) bernilai maksimum, sama halnyadengan P(X|C)·P(C) juga bernilai maksimumMasalah: menghitung P(X|C) tidak mungkin!
Naïve Bayesian ClassificationApabila diberikan k atribut yang saling bebas(independence), nilai probabilitas dapatdiberikan sebagai berikut.
P(x1,…,xk|C) = P(x1|C) x … x P(xk|C)
Jika atribut ke-i bersifat diskret, maka P(xi|C) diestimasi sebagai frekwensi relatif dari sampelyang memiliki nilai xi sebagai atribut ke i dalamkelas C.
Naïve Bayesian ClassificationNamun jika atribut ke-i bersifat kontinu, makaP(xi|C) diestimasi dengan fungsi densitas Gauss.
dengan µ = mean, dan σ = deviasi standar.
( )2
2
2x
e21)x(f σ
µ−−
σπ=
Naïve Bayesian ClassificationContoh:◦ Untuk menetapkan suatu daerah akan dipilih sebagai
lokasi untuk mendirikan perumahan, telah dihimpun10 aturan. ◦ Ada 4 atribut yang digunakan, yaitu:
harga tanah per meter persegi (C1), jarak daerah tersebut dari pusat kota (C2), ada atau tidaknya angkutan umum di daerah tersebut (C3), dankeputusan untuk memilih daerah tersebut sebagai lokasiperumahan (C4).
Naïve Bayesian Classification◦ Tabel Aturan
YaAdaSedangSedang10TidakAdaJauhMahal9
YaTidakSedangMurah8TidakAdaJauhMurah7TidakAdaJauhSedang6TidakTidakSedangMahal5TidakTidakJauhMahal4
YaTidakDekatMahal3YaTidakDekatSedang2YaTidakDekatMurah1
Dipilih untukperumahan
(C4)
Ada angkutanumum(C3)
Jarak dari pusat kota
(C2)
Harga tanah(C1)Aturan ke-
Naïve Bayesian Classification◦ Probabilitas kemunculan setiap nilai untuk atribut Harga
Tanah (C1)
1155Jumlah3/51/531Mahal1/52/512Sedang1/52/512Murah
TidakYaTidakYa
ProbabilitasJumlah kejadian “Dipilih”Harga
tanah
Naïve Bayesian Classification◦ Probabilitas kemunculan setiap nilai untuk atribut Jarak
dari pusat kota (C2)
1155Jumlah4/5040Jauh1/52/512Sedang03/503Dekat
TidakYaTidakYa
ProbabilitasJumlah kejadian “Dipilih”Harga
tanah
Naïve Bayesian Classification◦ Probabilitas kemunculan setiap nilai untuk atribut Ada
angkutan umum (C3)
1155Jumlah2/54/524Tidak3/51/531Ada
TidakYaTidakYa
ProbabilitasJumlah kejadian “Dipilih”Harga
tanah
Naïve Bayesian Classification◦ Probabilitas kemunculan setiap nilai untuk atribut Dipilih
untuk perumahan (C4)
1/21/255JumlahTidakYaTidakYa
ProbabilitasJumlah kejadian “Dipilih”Harga
tanah
Naïve Bayesian ClassificationBerdasarkan data tersebut, apabila diketahui suatudaerah dengan harga tanah MAHAL, jarak dari pusatkota SEDANG, dan ADA angkutan umum, maka dapatdihitung:
◦ Likelihood Ya = 1/5 x 2/5 x 1/5 x 5/10 = 2/125 = 0,008
◦ Likelihood Tidak = 3/5 x 1/5 x 3/5 x 5/10 = 2/125 = 0,036
Naïve Bayesian ClassificationNilai probabilitas dapat dihitung dengan melakukannormalisasi terhadap likelihood tersebut sehinggajumlah nilai yang diperoleh = 1.
◦ Probabilitas Ya =
◦ Probabilitas Tidak =
.182,0036,0008,0
008,0=
+
.818,0036,0008,0
036,0=
+
Naïve Bayesian Classification◦ Modifikasi data
YaAda818010TidakAda187009
YaTidak10808TidakAda15757TidakAda252506TidakTidak85505TidakTidak206004
YaTidak35003YaTidak12002YaTidak21001
Dipilih untukperumahan
(C4)
Ada angkutanumum(C3)
Jarak dari pusat kota
(C2)
Harga tanah(C1)Aturan ke-
Naïve Bayesian Classification◦ Probabilitas kemunculan setiap nilai untuk atribut Harga
Tanah (C1)
435261,9637
212168,8787
Mean (µ)Deviasi standar (σ)
700180575804250500355020026001001
TidakYa
Naïve Bayesian Classification◦ Probabilitas kemunculan setiap nilai untuk atribut Jarak
dari pusat kota (C2)
17,26,3008
4,83,9623
Mean (µ)Deviasi standar (σ)
1885151042533812
2021
TidakYa
Naïve Bayesian ClassificationBerdasarkan hasil penghitungan tersebut, apabiladiberikan C1 = 300, C2 = 17, C3 = Tidak, maka:
( )
.0021,0e)8787,168(2
1)ya|3001C(f2
2
)8787,168(2212300
=π
==−−
( )
.0013,0e)261.9637(2
1)tidak|3001C(f2
2
)261.9637(2435300
=π
==−−
( )
.0009,0e)3.9623(2
1)ya|172C(f2
2
)3.9623(28,417
=π
==−−
( )
.0633,0e)6,3008(2
1)tidak|172C(f2
2
)6,3008(22,1717
=π
==−−
Naïve Bayesian ClassificationSehingga:◦ Likelihood Ya = (0,0021) x (0,0009) x 4/5 x 5/10
= 0,000000756.◦ Likelihood Tidak = (0,0013) x (0,0633) x 2/5 x 5/10
= 0,000016458.
Nilai probabilitas dapat dihitung dengan melakukannormalisasi terhadap likelihood tersebut sehinggajumlah nilai yang diperoleh = 1.◦ Probabilitas Ya =
◦ Probabilitas Tidak =
.0439,080,0000164560,00000075
60,00000075=
+
.9561,080,0000164560,00000075
80,00001645=
+
K-Nearest NeighborKonsep dasar dari K-NN adalah mencari jarak terdekat antara data yang akan dievaluasi dengan K tetangga terdekatnya dalam data pelatihan. Penghitungan jarak dilakukan dengan konsepEuclidean. Jumlah kelas yang paling banyak dengan jarakterdekat tersebut akan menjadi kelas dimanadata evaluasi tersebut berada.
K-Nearest NeighborAlgoritma◦ Tentukan parameter K = jumlah tetangga terdekat.◦ Hitung jarak antara data yang akan dievaluasi
dengan semua data pelatihan. ◦ Urutkan jarak yang terbentuk (urut naik) dan
tentukan jarak terdekat sampai urutan ke-K.◦ Pasangkan kelas (C) yang bersesuaian.◦ Cari jumlah kelas terbanyak dari tetangga terdekat
tersebut, dan tetapkan kelas tersebut sebagai kelasdata yang dievaluasi.
File: Kasus KNN.pdf
ClusteringClustering adalah proses pengelompokan objek yang didasarkan pada kesamaan antar objek. Tidak seperti proses klasifikasi yang bersifat supervised learning, pada clustering proses pengelompokandilakukan atas dasar unsupervised learning. Pada proses klasifikasi, akan ditentukan lokasi dari suatukejadian pada klas tertentu dari beberapa klas yang telah teridentifikasi sebelumnya. Sedangkan pada proses clustering, prosespengelompokan kejadian dalam klas akan dilakukansecara alami tanpa mengidentifikasi klas-klassebelumnya.
ClusteringSuatu metode clustering dikatakan baik apabila metode tersebut dapat menghasilkan cluster-cluster dengan kualitas yang sangat baik. Metode tersebut akan menghasilkan cluster-cluster dengan objek-objek yang memiliki tingkat kesamaan yang cukup tinggi dalam suatu cluster, dan memiliki tingkat ketidaksamaan yang cukup tinggi juga apabila objek-objek tersebut terletak pada cluster yang berbeda. Untuk mendapatkan kualitas yang baik, metode clustering sangat tergantung pada ukuran kesamaan yang akan digunakan dan kemampuannya untuk menemukan beberapa pola yang tersembunyi.
K-MeansKonsep dasar dari K-Means adalah pencarianpusat cluster secara iteratif. Pusat cluster ditetapkan berdasarkan jarak setiap data ke pusat cluster. Proses clustering dimulai dengan mengidentifikasi data yang akan dicluster, xij(i=1,...,n; j=1,...,m) dengan n adalah jumlah data yang akan dicluster dan m adalah jumlah variabel.
K-MeansPada awal iterasi, pusat setiap cluster ditetapkan secara bebas (sembarang), ckj (k=1,...,K; j=1,...,m). Kemudian dihitung jarak antara setiap data dengan setiap pusat cluster. Untuk melakukan penghitungan jarak data ke-i (Xi) pada pusat cluster ke-k (Ck), diberi nama (dik), dapat digunakan formula Euclidean, yaitu:
( )∑=
−=m
1j
2kjijik cxd
K-MeansSuatu data akan menjadi anggota dari cluster ke-J apabila jarak data tersebut ke pusat cluster ke-J bernilai paling kecil jika dibandingkan dengan jarak ke pusat cluster lainnya. Selanjutnya, kelompokkan data-data yang menjadi anggota pada setiap cluster. Nilai pusat cluster yang baru dapat dihitung dengan cara mencari nilai rata-rata dari data yang menjadi anggota pada cluster tersebut, dengan rumus:
kkeclusterxy;p
yc ijhj
p
1hhj
kj −∈==∑=
K-Means Algoritma:◦ Tentukan jumlah cluster (K), tetapkan pusat cluster
sembarang.◦ Hitung jarak setiap data ke pusat cluster.◦ Kelompokkan data ke dalam cluster yang dengan jarak yang
paling pendek.◦ Hitung pusat cluster.◦ Ulangi langkah 2 - 4 hingga sudah tidak ada lagi data yang
berpindah ke cluster yang lain.
File: Contoh KMeans.pdf
Penentuan Jumlah ClusterSalah satu masalah yang dihadapi pada proses clustering adalah pemilihan jumlah cluster yang optimal. Kauffman dan Rousseeuw (1990) memperkenal-kan suatu metode untuk menentukan jumlah cluster yang optimal, metode ini disebut dengan silhouette measure. Misalkan kita sebut A sebagai cluster dimana data Xiberada, hitung ai sebagai rata-rata jarak Xi ke semua data yang menjadi anggota A. Anggaplah bahwa C adalah sembarang cluster selain A.
Penentuan Jumlah ClusterHitung rata-rata jarak antara Xi dengan data yang menjadi anggota dari C, sebut sebagai d(Xi, C). Cari rata-rata jarak terkecil dari semua cluster, sebut sebagai bi, bi = min(d(Xi,C)) dengan C≠A.Silhoutte dari Xi, sebut sebagai si dapat dipandang sebagai berikut (Chih-Ping, 2005):
⎪⎪⎪⎪
⎩
⎪⎪⎪⎪
⎨
⎧
>−
=
<−
=
ii
i
i
ii
ii
i
i
i
ba,1ab
ba,0
ba,ba1
s
Penentuan Jumlah ClusterRata-rata si untuk semua data untuk k cluster tersebut disebut sebagai rata-rata silhouette ke-k, . Nilai rata-rata silhouette terbesar pada jumlah cluster (katakanlah: k) menunjukkan bahwa k merupakan jumlah cluster yang optimal.
ks~