Similarity/ Dissimilarity

21
Similarity/ Dissimilarity Various types of variable Data Mining: Concept and Techniques (Jiawei Han, Micheline Kamber)

description

Similarity/ Dissimilarity. Various types of variable Data Mining: Concept and Techniques ( Jiawei Han, Micheline Kamber ). Struktur data. Data matrix (object-by-variable structure) Struktur ini dalam bentuk tabel relasional , n objek x p variable: - PowerPoint PPT Presentation

Transcript of Similarity/ Dissimilarity

Page 1: Similarity/ Dissimilarity

Similarity/ Dissimilarity

Various types of variable

Data Mining: Concept and Techniques (Jiawei Han, Micheline Kamber)

Page 2: Similarity/ Dissimilarity

Struktur data Data matrix (object-by-variable structure)

Struktur ini dalam bentuk tabel relasional, n objek x p variable:

Dissimilarity matrix (object-by-object structure) Menyimpan kumpulan perkiraan dari seluruh pasangan n objek (n-by-

n tabel)

Struktur ini digunakan untuk menghitung klaster dari objek.

Page 3: Similarity/ Dissimilarity

Macam-macam type data dalam suatu variabel: Interval-scaled variable Binary variable Categorical variable Ratio variable

Page 4: Similarity/ Dissimilarity

Interval scaled variable Interval scaled variable: ukuran2 kontinu dari

skala linear Contoh: tinggi, berat, koordinat latitude atau

longitude (clustering rumah), temperatur cuaca

Page 5: Similarity/ Dissimilarity

Interval-scaled variables1. Hitung mean absolute deviation, sf:

2. Hitung ukuran yg distandarisasikan (or Z-score)

Page 6: Similarity/ Dissimilarity

Euclidean Distance

Manhattan Distance

Page 7: Similarity/ Dissimilarity

Contoh Penghitungan dissimilarity tanpa standarisasi

Page 8: Similarity/ Dissimilarity

Binary variable Variabel yang memiliki dua nilai 0 dan 1,

dimana 0absent, 1present Bagaimana menghitung ketidaksamaan

(dissimilarity)

Dissimilarity (jarak)

Page 9: Similarity/ Dissimilarity

Similarity:

Page 10: Similarity/ Dissimilarity

Contoh variabel biner Suatu tabel rekord pasien berisi atribut:

nama, gender, fever, cough, test-1,test-2, test-3, test-4

Nama object identifierGender simetric

atribute

Page 11: Similarity/ Dissimilarity

Categorical variable

Variabel kategori: secara umum sama dengan variabel biner namun mengambil lebih dari 2 keadaan.

Contoh: map color (5 states): red, yellow, green, pink, and blue

Ukuran dissimilarity:

Dimana, p: jumlah variable, dan m: juml. variabel yg bernilai sama

Page 12: Similarity/ Dissimilarity

Contoh

Dissimilarity

Page 13: Similarity/ Dissimilarity

Maka untuk categorical variable, test 1, p=1 dan d(i,j)=0 jika sama dan 1 jika beda. Sehingga dihasilkan matrik berikut:

Page 14: Similarity/ Dissimilarity

Ordinal Varible Ordinal variable : mirip dengan categorical

variable, namun memiliki arti dalam urutan dan berguna bila tidak dapat diukur secara objektif.

Contoh: profesional rank: assistant, associate, and full for professor.

Page 15: Similarity/ Dissimilarity

Jika ada nilai f dari suatu objek xif dan mempunyai states yg terurut dalam rangking 1,…, Mf, maka bisa dituliskan rif є {1, …Mf}

Merubah nilai rf dengan menormalisasi :[0,1] dengan rumusan:

Kemudian dicari nilai disimilarity- nya digunakan rumusan jarak

Page 16: Similarity/ Dissimilarity

Contoh ordinal variable (test-2) Ada 3 state dalam test 2: fair, good dan excellent,

sehingga Mf=3 Rubah nilai dlm objek tsb dengan 3(1, 2, dan 3). Normalisasi sehingga: rank-1=0, rank-2=0.5,

rank-3=1 Maka dengan rumusan Ecluidian Dist, didapatkan:

Page 17: Similarity/ Dissimilarity

Ratio-scaled variable Biasanya digunakan untuk ukuran positip pada

skala non linear seperti skala exponensial dg rumusan:

Contoh: pertumbuhan populasi bakteri atau kerusakan akibat radioaktif

Menggunakan transformasi logaritmik dengan formula yif=log(xif), nilai yif yang digunakan sbg interval value

Page 18: Similarity/ Dissimilarity

Contoh ratio-scaled variable (test-3) Maka dgn mengaplikasikan logaritmik dari

tiap2 nilai dalam test-3: didapatkan nilai: 2.65, 1.34, 2.21, dan 3.08 untuk objek 1-4

Sehingga dengan rumus jarak didapatkan :

Dinormalisasi ,Dg membagi 1.74

Page 19: Similarity/ Dissimilarity

Variable of Mixed Types Dalam dunia nyata, sering dijumpai

variable yg memiliki campuran, antara lain: interval scaled, symmetric binary, categorical, ordinal atau ratio-scaled.

Maka dapat digunakan rumusan berikut untuk mencari dissimilarity:

Dimana: ∂ij=0 jikaxjf atau xjf kosong &∂ij=1 jika ada nilainya

Page 20: Similarity/ Dissimilarity

Contoh perhitungan mix-variable Jika didapatkan dari perhitungan

sebelumnya didapatkan jarak dari tiap-tiap variabel (test1, test2, dan test 3:

Maka dengan mengaplikasikan rumusan tersebut didapatkan

Page 21: Similarity/ Dissimilarity

Final result of dissimilarity (test1, test2 & test3)