Tugas_DWDM

16
Mata Kuliah : Data Warehouse and Data Mining 1. Jelaskan perbedaan antara Clustering dan Classification ! Jawab : Clustering berbeda dengan Classification. Clustering mengelompokkan data dengan karakteristik yang tidak harus sama (berdasarkan pada kemiripan/kedekatan dari suatu karakteristik data) ke suatu ‘kelompok’ yang sama (sebelumnya belum terbentuk kelompok data yang pasti). Sedangkan Classification mengklasifikasikan suatu data yang karakteristiknya sama ke dalam kelompok yang sudah ada. (kelompok data sudah tersedia, tidak ada pembentukan kelompok baru). 2. Berikan 2 contoh algoritma untuk Clustering. Jelaskan ! Jawab : - Algoritma K-Means Clustering 1. Tentukan jumlah cluster 2. Partisi item menjadi K initial cluster 3. Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya 4. Lakukan proses perhitungan dari daftar item, tandai item untuk kelompok yang mana berdasarkan pusat (mean) yang terdekat (dengan menggunakan distance dapat digunakan Euclidean distance). Hitung kembali pusat centroid untuk item baru yang

Transcript of Tugas_DWDM

Page 1: Tugas_DWDM

Mata Kuliah : Data Warehouse and Data Mining

1. Jelaskan perbedaan antara Clustering dan Classification !

Jawab :

Clustering berbeda dengan Classification.

Clustering mengelompokkan data dengan karakteristik yang tidak harus sama

(berdasarkan pada kemiripan/kedekatan dari suatu karakteristik data) ke suatu

‘kelompok’ yang sama (sebelumnya belum terbentuk kelompok data yang pasti).

Sedangkan Classification mengklasifikasikan suatu data yang karakteristiknya

sama ke dalam kelompok yang sudah ada. (kelompok data sudah tersedia, tidak

ada pembentukan kelompok baru).

2. Berikan 2 contoh algoritma untuk Clustering. Jelaskan !

Jawab :

- Algoritma K-Means Clustering

1. Tentukan jumlah cluster

2. Partisi item menjadi K initial cluster

3. Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya

4. Lakukan proses perhitungan dari daftar item, tandai item untuk kelompok

yang mana berdasarkan pusat (mean) yang terdekat (dengan menggunakan

distance dapat digunakan Euclidean distance). Hitung kembali pusat

centroid untuk item baru yang diterima pada cluster tersebut dari cluster

yang kehilangan item.

Rumus Ecluidean Distance :

5. Ulangi langkah 3 hingga tidak ada lagi tempat yang akan ditandai sebagai

cluster baru.

Contoh K-Means Clustering :

Diketahui :

Page 2: Tugas_DWDM

ItemObservasi

X1 X2A 5 3B -1 1C 1 -2D -3 -2

Ditanya : Lakukan cluster menjadi 2 kelompok (K = 2).

Jawab :

1. K = 2

2. Mempartisi item menjadi K = 2

3. Menghitung rata-rata setiap cluster

ClusterKoordinate dari Centroid

(AB)

(CD)

4. Melakukan proses perhitungan dari daftar item.

Melakukan perhitungan jarak dengan Eclidean dari masing-masing item

dari centroid (pusat) cluster dan tandai kembali setiap item berdasarkan

kedekatan group. Jika item bergerak dari initial configuration, Centroid

(pusat/means) cluster harus diupdate sebelum diproses. Menghitung

kuadrat jarak (squared distance) sbb:

A dekat pada cluster (AB) dibandingkan pada cluster (CD), maka tidak

perlu ditandai. Perhitungan selanjutnya :

B akan ditandai kembali menjadi anggota baru pada cluster (CD), sehingga

membentuk cluster baru (BCD) maka koordinat dari pusat cluster

terupdate sebagai berikut :

Page 3: Tugas_DWDM

ClusterKoordinate dari Centroid

A 5 3(BCD) -1 -1

Selanjutnya melakukan cek untuk setiap item untuk ditandai kembali.

Perhitungan kuadrat jarak (squared distances) diberikan sbb:

ClusterKoordinate dari Centroid

A B C DA 0 40 41 89

(BCD) 52 4 5 5

Karena setiap item yang baru telah ditandai untuk cluster berdasarkan

centroid (pusat) terdekat, maka proses telah dihentikan. Sehingga dengan

K = 2 cluster maka terbentuk cluster sebagai berikut : A dan (BCD).

- Algoritma K-Medoids

Dalam metode k-medoid ini setiap cluster dipresentasikan dari sebuah objek

di dalam cluster yang disebut dengan medoid. Clusternya dibangun dari hasil

mencocokkan setiap objek data yang paling dekat dengan cluster yang

dianggap sebagai medoid sementara.

1. pilih point k sebagai inisial centroid / nilai tengah (medoids) sebanyak k

cluster.

2. cari semua point yang paling dekat dengan medoid, dengan cara

menghitung jarak vector antar dokumen. (menggunakan Euclidian

distance)

3. secara random, pilih point yang bukan medoid.

4. hitung total distance

5. if TD baru < TD awal, tukar posisi medoid dengan medoids baru, jadilah

medoid yang baru.

6. ulangi langkah 2 - 5 sampai medoid tidak berubah.

Contoh K-Medoids :

X1 2 6X2 3 4X3 3 8

Page 4: Tugas_DWDM

X4 4 7X5 5 2X6 5 4X7 7 3X8 7 4X9 8 5X10 7 6

K = 2, c1 (3,4); c2 (7,4)

c1 Data Object(Xi) Cost Distance3.4 2 63.4 3 83.4 4 73.4 6 23.4 6 43.4 7 33.4 8 53.4 7 6

C2 Data Object(Xi) Cost Distance7.4 2 67.4 3 87.4 4 77.4 6 27.4 6 47.4 7 37.4 8 57.4 7 6

3. Berikan 2 contoh algoritma untuk Classification. Jelaskan !

Jawab :

- Naïve Bayes

Page 5: Tugas_DWDM

Naïve Bayes adalah metode klasifikasi yang berdasarkan probabilitas dan

teorema Bayesian dengan asumsi bahwa setiap variable bersifat bebas

(independence).

Contoh Naïve Bayes :

Diketahui :

Dokumen Kategori Fitur (Kemunculan)dokumen1 olahraga menang(2), bola(3), gol(2)dokumen2 politik partai(3), pemilu(2), capres(4)dokumen3 ? partai(2), menang(1), tandang(2)

Ditanya : Kategori untuk dokumen3 ?

Jawab :

1. Term document matrix yang terbentuk dari data :

bola capres gol menang partai pemilu tandangdokumen1 3 0 2 2 0 0 0dokumen2 0 4 0 0 3 2 0dokumen3 0 0 0 1 2 0 2

2. Membuat model probabilistic dengan perhitungan :

Ket :

adalah nilai kemunculan kata pada kategori

adalah jumlah keseluruhan kata pada kategori

adalah jumlah keseluruhan kata/fitur yang digunakan

dan

Ket :

adalah jumlah dokumen yang memiliki kategori

Page 6: Tugas_DWDM

adalah jumlah seluruh training dokumen

Model probabilistik yang terbentuk :

Kategoribola capres Gol menang partai pemilu tandang

olahraga

politik

3. Menentuan kategori dokumen3 :

p(“olahraga”|”dokumen3”) = p(“olahraga”) x p(“partai”|”olahraga”) x

p(“menang”|”olahraga”) x p(“tandang

“|”olahraga”)

=

=

p(“politik”|”dokumen3”) = p(“politik”) x p(“partai”|”politik”) x

p(“menang”|”politik”) x p(“tandang

“|”politik”)

=

=

Karena p(“politik”|”dokumen3”) > p(“olahraga”|”dokumen3”), maka

kategori dari dokumen3 adalah politik.

- Decision Tree (Algoritma C4.5)

Page 7: Tugas_DWDM

Decision Tree adalah model prediksi menggunakan struktur pohon atau

struktur berhirarki.

1. Pilih atribut sebagai akar dengan didasarkan pada nilai gain tertinggi dari

atribut-atribut yang ada. Untuk menghitung gain digunakan rumus :

…… (1)

Ket :

S : Himpunan kasus

A : Atribut

N : Jumlah partisi atribut A

|Si| : Jumlah kasus pada partisi ke i

|S| : Jumlah kasus dalam S

Sedangkan perhitungan nilai entropy dapat dilihat pada rumus 2 berikut :

…… (2)

Ket :

S : Himpunan Kasus

p : Proporsi terhadap S

(+) : instance positif

(-) : instance negatif

2. Buat cabang untuk masing-masing nilai.

3. Bagi kasus dalam cabang.

4. Ulangi proses untuk masing-masing cabang sampai semua kasus pada

cabang memiliki kelas yang sama.

Contoh Decision Tree :

Diketahui :

No. Outlook Temperature Humidity Windy Play1. Sunny Hot High False No2. Sunny Hot High True No3. Cloudy Hot High False Yes4. Rainy Mild High False Yes5. Rainy Cool Normal False Yes

Page 8: Tugas_DWDM

6. Rainy Cool Normal True Yes7. Cloudy Cool Normal True Yes8. Sunny Mild High False No9. Sunny Cool Normal False Yes10. Rainy Mild Normal False Yes11. Sunny Mild Normal True Yes12. Cloudy Mild High True Yes13. Cloudy Hot Normal False Yes14. Rainy Mild High True No

Ditanya : Keputusan bermain tenis (Ya / Tidak ) ?

Jawab :

a. Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah

kasus untuk keputusan No, dan Entropy dari semua kasus dan kasus yang

dibagi berdasarkan atribut OUTLOOK, TEMPERATURE, HUMIDITY

dan WINDY. Setelah itu lakukan penghitungan Gain untuk masingmasing

atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.

Node JUMLAH KASUS (S)

NO(S1) YES(S2) ENTROPY GAIN

1 TOTAL 14 4 10 0.863120569

OUTLOOK 0.258521037CLOUDY 4 0 4 0RAINY 5 1 4 0.72192809

5SUNNY 5 3 2 0.97095059

4TEMPERATURE

0.183850925

COOL 4 0 4 0HOT 4 2 2 1MILD 6 2 4 0.91829583

4HUMIDITY 0.370506501

HIGH 7 4 3 0.985228136

NORMAL

7 0 7 0

WINDY 0.005977711FALSE 8 2 6 0.81127812

4TRUE 6 4 2 0.91829583

4

Page 9: Tugas_DWDM

Baris TOTAL kolom Entropy pada table 2 dihitung dengan rumus 2,

sebagai berikut :

Sedangkan nilai Gain pada baris OUTLOOK dihitung dengan

menggunakan rumus 1

Sehingga didapat Gain(Total, Outlook) = 0.258521037

Dari hasil pada Tabel 2 dapat diketahui bahwa atribut dengan Gain

tertinggi adalah HUMIDITY yaitu sebesar 0.37. Dengan demikian

HUMIDITY dapat menjadi node akar. Ada 2 nilai atribut dari HUMIDITY

yaitu HIGH dan NORMAL. Dari kedua nilai atribut tersebut, nilai atribut

NORMAL sudah mengklasifikasikan kasus menjadi 1 yaitu keputusan-nya

Yes, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk

nilai atribut HIGH masih perlu dilakukan perhitungan lagi.

Dari hasil tersebut dapat digambarkan pohon keputusan sementara seperti

Gambar 2.

b. Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah

kasus untuk keputusan No, dan Entropy dari semua kasus dan kasus yang

dibagi berdasarkan atribut OUTLOOK, TEMPERATURE dan WINDY

Page 10: Tugas_DWDM

yang dapat menjadi node akar dari nilai atribut HIGH. Setelah itu lakukan

penghitungan Gain untuk masing-masing atribut. Hasil perhitungan

ditunjukkan oleh Tabel 3.

NodeJUMLAH KASUS

(S)NO(S1) YES(S2) ENTROPY GAIN

1.1 HUMIDITY HIGH

7 4 3 0.985228136

OUTLOOK 0.69951386CLOUDY 2 0 2 0RAINY 2 1 1 1SUNNY 3 3 0 0

TEMPERATURE

0.02024207

COOL 0 0 0 0HOT 3 2 1 0.918295834MILD 4 2 2 0.918295834

WINDY 0.020244207FALSE 4 2 2 1TRUE 3 2 1 0.918295834

Dari hasil pada Tabel 3 dapat diketahui bahwa atribut dengan Gain

tertinggi adalah OUTLOOK yaitu sebesar 0.67. Dengan demikian

OUTLOOK dapat menjadi node cabang dari nilai atribut HIGH. Ada 3

nilai atribut dari OUTLOOK yaitu CLOUDY, RAINY dan SUNNY. Dari

ketiga nilai atribut tersebut, nilai atribut CLOUDY sudah

mengklasifikasikan kasus menjadi 1 yaitu keputusan-nya Yes dan nilai

atribut SUNNY sudah mengklasifikasikan kasus menjadi satu dengan

keputusan No, sehingga tidak perlu dilakukan perhitungan lebih lanjut,

tetapi untuk nilai atribut RAINY masih perlu dilakukan perhitungan lagi.

Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan pada

gambar 3.

Page 11: Tugas_DWDM

c. Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah

kasus untuk keputusan No, dan Entropy dari semua kasus dan kasus yang

dibagi berdasarkan atribut TEMPERATURE dan WINDY yang dapat

menjadi node cabang dari nilai atribut RAINY. Setelah itu lakukan

penghitungan Gain untuk masing-masing atribut. Hasil perhitungan

ditunjukkan oleh Tabel 4.

NodeJUMLAH KASUS

(S)NO(S1) YES(S2) ENTROPY GAIN

1.1.2 HUMIDITY HIGH DAN OUTLOOK RAINY

2 1 1 1

TEMPERATURE 0COOL 0 0 0 0HOT 0 0 1 0MILD 2 1 1 1

WINDY 1FALSE 1 0 1 0TRUE 1 1 0 0

Dari hasil pada tabel 4 dapat diketahui bahwa atribut dengan Gain tertinggi

adalah WINDY yaitu sebesar 1. Dengan demikian WINDY dapat menjadi

Page 12: Tugas_DWDM

node cabang dari nilai atribut RAINY. Ada 2 nilai atribut dari WINDY

yaitu FALSE dan TRUE. Dari kedua nilai atribut tersebut, nilai atribut

FALSE sudah mengklasifikasikan kasus menjadi 1 yaitu keputusan-nya

Yes dan nilai atribut TRUE sudah mengklasifikasikan kasus menjadi satu

dengan keputusan No, sehingga tidak perlu dilakukan perhitungan lebih

lanjut untuk nilai atribut ini.

Dengan memperhatikan pohon keputusan pada Gambar 4, diketahui bahwa

semua kasus sudah masuk dalam kelas. Dengan demikian, pohon

keputusan pada Gambar 4 merupakan pohon keputusan terakhir yang

terbentuk.