Contoh Implementasi Data Mining

7/26/2019 Contoh Implementasi Data Mining

1/20

TUGAS MATA KULIAH

MANAJEMEN DATA

Laporan Akhir Data Mining

Diajukan sebagai salah satu tugas mata kuliah

Manajemen Data

OLEH:

Dewan Rahadan ! "#$$#%&'

Dien A(a)ia ! "#$$#%&"

Dwike* No+i A,rika ! "#$$#%&-

UNI.ERSITAS KOM/UTER INDONESIA 0ANDUNG

&%$'


2/20

Laporan Akhir Data Mining

$1 0*,ine,, Under,tanding

$1$1 Deter(ine 0*,ine,, O23e4ti+e,

Latar 0e)akang

Dalam industri kendaraan bermotor terutama mobil, ada berbagai hal yang

dilakukan untuk menjaga kualitas produk. Salahsatunya adalah dengan kebijakan

klasifikasi produk. Dengan klasifikasi, maka perusahaan akan mampu

menentukan, jika perusahaan membuat sebuah produk dengan spesifikasi tertentu,

apakah perusahaan akan mendapatkan produk dengan kualitas A atau B, atau

bahkan C atau D. Sebagai perusahan yang bergerak di bidang produksi kendaraan

bermotor yaitu mobil, perusahaan X sudah sepatut melakukan kebijakan ini.

Dengan berbagai hal yang kami sebutkan sebelumnya, maka dari itu latar

belakang penelitian kami adalah untuk membatu perusahaan X untuk

mengklasifikasikan produk mobil yang diilikinya sesuai dengan standar

spesisfikasi mobil.

Kami akan membantu perusahaan X untuk menentukan klasifikasi kualitas

produk beradasarkan kategori, yaitu !good "sangat baik#, good "baik#, fair

"kurang baik#, dan bad "tidak baik#. Dengan memanfaatkan enam kriteria standar

mobil yaitu buying, maint, doors, persons, luggage, dan safety kita akan men$oba

membuat sebuah standar kriteria untuk menghasilkan tipe produk yaitu very

good, good, fair, dan bad.

%arapan kami, dengan penelitian ini, perusahaan X dapat menemukan $ara

mengklasifikasikan produknya dengan baik, sehingga kedepan, jika perusahaan

ingin meningkatkan dan memproduksi produk berdasarkan tingkatan dan kualitastertentu, perusahaan dapat menemukan ktiteria yang baik sesuai keinginan.

Karena pada kenyataannya, tidak semua spesifikasi produk akan menghasilkan

kualitas yang sama. Setiap kombinasi spesifikasi produk pasti akan menghasilkan

kualitas yang berbeda. Semoga penelitian ini, dapat membuka pengetahuan baru

bagi perusahaan dalam mengembangkan produk.


3/20

$1&1 A,,e,, Sit*ation

In+entor re,o*r4e,

Sumber daya yang terlibat dalam proje$t data mining ini antara lain &

a. 'ersonel ( data mining personil sebanyak ) orang

b. Computing resour$es ( komputer*laptop

$. Soft+are ( -KA, Mi$rosoft -$el /01)

Re5*ire(ent6 a,*(,i dan 2ata,an

Ada beberapa asumsi yang diterapkan pada proje$t data mining ini yaitu &

a. Data yang digunakan adalah data dummy dari suatu perusahaan

mobil

b. 2umlah data training yang digunakan sekitar 1/11 data dan jumlah

data testingsekitar 314 data dari data yang sama.

$. 2umlah data testing yang dilakukan se$ara manual sebanyak 10

data.

d. Metode data mining yang digunakan adalah metode klasifikasi

dengan algoritmaIterative Dichotomizer Three"5D)#.

e. 2ika nilai 6ain dari suatu atribut bernilai sama, maka atribut yang

diambil adalah atribut yang paling a+al mun$ul.

f. %asil dari data mining adalah untuk mengklasifikasikan kualitas

mobil yang akan diproduksi sesuai dengan standar spesifikasi

mobil.

g. Ada empat jenis kualitas mobil, diantaranya vgood "sangat baik#,

good "baik#,fair"sedang#, bad"kurang baik#.

h. Dalam uji $oba ini hanya menampilkan pohon keputusan dan tidak

dijelaskan proses pengambilan keputusan.

Re,iko dan Ke(*ngkinan

7esiko yang mungkin terjadi dalam uji $oba ini adalah ketidaktepatan hasil

klasifikasi. %al ini disebabkan oleh data yang mungkin tidak $o$ok dengan

metode yang di implementasikan. 8ntuk menangani hal tersebut maka langkah

yang dibutuhkan adalah&

a. Menambah jumlah data training.

b. Men$ari metode alternatif untuk kasus klasifikasi.


4/20

Ter(ino)og

Beberapa terminologi yang digunakan dalam laporan ini antara lain&

a. Data & fiktip

b. 'ersonil & orang yang terlibat dalam uji $oba

Ke*nt*ngan

Keuntungan yang diperoleh dari uji $oba data mining kualitas mobil yang akan

diproduksi ini sebagai berikut&

a. 'rodusen dapat memperkirakan mobil yang akan diproduksi berdasarkan

kualitas mobil yang telah diklasifikasikan sebelumnya.

b. 'rodusen dapat membuat standar 9uality tersendiri dari data histori yang

terdapat pada perusahaan.

$171 Deter(ine Data Mining Goa),

T*3*an Data Mining

:ujuan dari uji$oba data mining ini adalah untuk mengklasifikasikan mobil

berdasarkan kualitasnya kedalam empat kriteria sehingga dapat memprediksi

spesifikasi kualitas mobil selanjutnya.

$181 /rod*4e /ro3e4t /)an

/ro3e4t /)an,

'erkiraan jad+al proje$t ini

a. Business 8nderstanding & 1) ( /0 2anuari /01; "1 minggu#

b. Data 8nderstanding & 1) ( /0 2anuari /01; "1 minggu#

$. Data 'reparation & /0 ( /) 2anuari /01; ") hari#

d. Modeling & /) ( )1 2anuari /01; "1 minggu#

e. -!aluation & /) ( )1 2anuari /01; "1 minggu#

f. Deployment & /) ( )1 2anuari /01; "1 minggu#

/erkiraan too) dan teknik

Tool yang akan dipergunakan pada uji $oba ini adalah -KA !ersi ).;.1).

Algoritma yang digunakan pada metode klasifikasi ini adalah 5D) karena dari

data training yang ada jumlah data dari jenis atribut klasifikasinya tidak seimbang

sehingga metode 5D) $o$ok digunakan untuk kasus penentuan kualitas mobil.

&1 Data Under,tanding

&1$1 9o))e4t Initia) Data


5/20

Data a+al yang digunakan adalah data spesifikasi mobil sebagai data training

dan data testing. Data spesifikasi adalah dokumen yang berisi komponen yang

pada mobil seperti banyaknya pintu, muatan mobil, ukuran bagasi, keamanan,

biaya pemeliharaan dan biaya pembelian mobil. 2enis data yang digunakan pada

kedua dokumen spesifikasi mobil adalah jenis file e$el "ekstensi yang

digunakan adalah .ls# sehingga tidak perlu dilakukan integrasi data dari berbagai

sumber data.

&1&1 De,4ri2e Data

Berikut ini adalah $ontoh data training dan data testing yang akan

digunakan dalam melakukan data mining klasifikasi dengan menggunakan

algoritma 5D)&

6ambar 1 Data Spesifikasi Mobil

'enjelasan isi dokumen&

Atribut yang terdapat pada dokumen ini sebagai berikut&

$: No

Menyatakan nomor urutan dari data.

2) Buying

Merupakan biaya pembelian unit mobil. Atribut buying memiliki empat

kelompok yaitu&

Vhigh & menyatakan biaya pembelian yang sangat tinggi.

High & menyatakan biaya pembelian yang tinggi.

Med(Medium)& menyatakan biaya pembelian yang standar.

Lo & menyatakan biaya pembelian yang rendah.

3) Maint


6/20

Merupakan biaya pemeliharaan unit mobil. Atribut maint memiliki empat

kelompok yaitu&

Vhigh & menyatakan biaya pemeliharaan yang sangat tinggi.

High & menyatakan biaya pemeliharaan yang tinggi.

Med(Medium)& menyatakan biaya pemeliharaan yang standar.

Lo & menyatakan biaya pemeliharaan yang rendah.

4) Doors

Merupakan jumlah pintu dari setiap unit mobil. Atribut doors memiliki empat

kelompok yaitu&

/ & menyatakan jumlah pintu yang dimiliki unit mobil tersebut adalah /

pintu.

) & menyatakan jumlah pintu yang dimiliki unit mobil tersebut adalah )

pintu.

& menyatakan jumlah pintu yang dimiliki unit mobil tersebut adalah

pintu.

3 more & menyatakan jumlah pintu yang dimiliki unit mobil tersebut adalah 3

pintu atau lebih.

5) Persons

Merupakan jumlah penumpang dari setiap unit mobil termasuk supir. Atribut

!ersons memiliki tiga kelompok yaitu&

/ & menyatakan jumlah penumpang dalam satu unit mobil tersebut

adalah / orang.

& menyatakan jumlah penumpang dalam satu unit mobil tersebut

adalah orang.

more & menyatakan jumlah penumpang dalam satu unit mobil tersebut

adalah lebih dari orang.

6) Luggage

Merupakan besarnya ukuran bagasi dari setiap unit mobil. Atribut luggage

memiliki tiga kelompok yaitu&

"ig & menyatakan ukuran bagasi yang besar.Med & menyatakan ukuran bagasi yang sedang.

#mall & menyatakan ukuran bagasi yang ke$il.

7) Safety

Merupakan standar keamanan dari setiap unit mobil. Atributsafety memiliki

tiga kelompok yaitu&

High & menyatakan tingkat keamanan yang tinggi.

Med & menyatakan tingkat keamanan yang sedang.

Lo & menyatakan tingkat keamanan yang rendah.

8) Quality


7/20

Merupakan kualitas dari setiap unit mobil. Atribut $uality memiliki empat

kelompok yaitu&

Vgood& menyatakan kualitas yang sangat baik.

%ood & menyatakan kualitas yang baik.

&air & menyatakan kualitas yang sedang.

"ad & menyatakan kualitas yang kurang baik.

&171 .eri; Data


8/20

71#1 =or(at Data

Data disusun dengan aturan sebagai berikut&

:able 1 >ormat Data

0*ing Maint Door, /er,on, L*ggage Sa;et air

? ? ? ? ? ? @good

? ? ? ? ? ? 6ood

? ? ? ? ? ? Bad

? ? ? ? ? ? ?

81 Mode)ing

81$1 Se)e4t Mode)ing Te4hni5*e

:eknik pemodelan yang dipilih untuk kasus ini adalah De$ision :ree "5D)#.

5D) adalah model prediksi yang menggunakan struktur pohon atau struktur

hirarki. Metode ini mengubah data menjadi pohon keputusan dan aturanaturan

keputusan. Manfaat dari de$ision tree adalah kemampuan untuk menjabarkan

proses pengambilan keputusan yang kompleks menjadi lebih sederhana sehingga

pengambilan keputusan akan lebih menginterpretasikan solusi dari permasalahan.

7umus digunakan pada teknik pemodelan ini adalah&

Entropy ( S )=i=1

c

pi log2p i

Keterangan&

-ntropy & jumlah bit yang dibutuhkan untuk mengekstrak suatu kelas dari

sejumlah data a$ak pada ruang sampel S.

!i & probabilitas suatu atribut.

Gain (S , A )=Entropy (S ) v values(A)

|s

v||S|Entropy ( sv)

6ain & mengukur efekti!itas suatu atribut.

A & Atribut

! & menyatakan suatu nilai yang mungkin untuk atribut A.

!alues"A# & himpunan nilainilai yang mungkin untuk atribut A.

-ntropy"s!# & entropy untuk sampelsampel yang memiliki nilai !.

# & jumlah seluruh sampel data.

sv & jumlah sampel untuk nilai !.


9/20

9ontoh /erhit*ngan Man*a) Mengg*nakan A)gorit(a ID7

Dimisalkan terdapat 10 data sebagai berikut&

:able / 8ji Coba Data

BUYI

NG

MAIN

T

DOOR

S

PERSO

NS

LUGGA

GE

SAFET

Y

QUALI

TY

vhigh vhigh 2 2 med med Bad

vhigh vhigh 2 2 med high Bad

vhigh low 5more more big high Fair

high high 2 4 small high Fair

med low 5more more big med good

low med 2 4 small high good

med med 5more 4 med high vgood

med med 5more more big high vgood

med low 2 4 big high vgood

vhigh vhigh 2 2 small low bad

Berikut adalah langkahlangkah perhitungan algoritma 5D)&

1. Menghitung -ntropy"S#

Entropy ( S )=3

10 log2

3

102

10log2

2

10

2

10log2

2

103

10log2

3

10=0.97

/. Menghitung 6ain dari masingmasig atribut

a. 6ain Buying

Gain (S , Buying)=1.97( 4100.81)+( 1

100)+( 410 0.81)+(

1

100)=1.32

entropy(vhigh) [bad 3 , fair 1, good , vgood !

Entropy ( vhigh)=34 log2

3

4

1

4log2

1

4=0.81

entropy(high) [bad , fair 1, good , vgood !

Entropy (high )=11 log2

1

1=0

entropy(med) [bad , fair , good 1, vgood 3!

Entropy (med )=14 log2

1

43

4log23

4=0.81entropy(low) [bad , fair , good 1, vgood !

Entropy ( low )=1

1 log2

1

1=0

b. 6ain Maint

Gain (S , Maint)=1.97( 310 0)+(1

100)+( 3100.92)+(

3

101.58)=1.22

entropy(vhigh) [bad 3 , fair , good , vgood !


3

3=0

entropy(high) [bad , fair 1, good , vgood !


10/20

Entropy (high )=1

1 log2

1

1=0

entropy(med) [bad , fair , good 1, vgood 2!

Entropy (med )=1

3 log2

1

3

2

3log2

2

3=0.92

entropy(low) [bad , fair 1, good 1, vgood 1!

Entropy ( low )=1

3 log2

1

3

1

3log2

1

31

3log2

1

3=1.58

$. 6ain Doors

Gain (S , Doors )=1.97( 6101.79)+( 410 1.50)=0.29entropy(2) [bad 3 , fair 1, good 1, vgood 1!

Entropy (2 )=36 log2

3

6

1

6log2

1

6

1

6log2

1

6

1

6log2

1

6=1.79

entropy(5more) [bad , fair 1 , good 1, vgood 2!


1

4 1

4log2

1

42

4log2

2

4=1.50

d. 6ain 'ersons

Gain (S , Persons )=1.97( 3100)+( 4101.50)+( 3101.58)=0.89entropy(2) [bad 3 , fair , good , vgood !


3

3=0

entropy(4) [bad , fair 1 , good 1, vgood 2!

Entropy (4 )=1

4

log21

4

1

4

log21

4

2

4

log22

4

=1.50

entropy(more) [bad , fair 1 , good 1, vgood 1!

Entropy (more )=13 log2

1

3

1

3log2

1

3

1

3log2

1

3=1.58

e. 6ain uggage

Gain (S , Luggage )=1.97( 4101.50)+( 3

100.92)+( 3101.58)=0.62

entropy(Big) [bad , fair 1, good 1, vgood 2!

Entropy (big )=14 log2

1

4

1

4log2

1

4

2

4log 2

2

4=1.50

entropy("ed) [bad 2 , fair , good , vgood 1!


23 1

3log2

13=0.92

entropy(small) [bad 1 , fair 1 , good 1, vgood !

Entropy ( small )=13 log2

1

3

1

3log2

1

31

3log2

1

3=1.58

f. 6ain Safety

Gain (S , Luggage )=1.97( 7101.84)+( 2

101)+( 1100)=0.48

entropy(#igh) [bad 1 , fair 2, good 1, vgood 3!

Entropy (high )=1

7

log21

7

2

7

log22

7

1

7

log21

7

3

7

log23

7

=1.84


11/20

entropy("ed) [bad 1 , fair , good 1, vgood !

Entropy (med )=1

2 log2

1

21

2log2

1

2=1

entropy($ow) [bad 1 , fair , good , vgood !

Entropy ( low )=11 log2 11=

0

). Membandingkan hasil 6ain dari setiap atribut dan memilih 6ain yang

paling besar untuk dijadikan root. 6ain yang paling besar adalah 6ain

Buying dengan nilai 1.)/.

'ohon yang terbentuk adalah sebagai berikut&

6ambar / 'ohon Keputusan Dengan1oot 2 "uying

Keterangan&

Atribut high dan lo+ sudah mendapatkan hasil klasifikasinya karena nilai

entorpy dari high dan lo+ sudah pasti. Sedangkan atribut !high dan med

harus dihitung kembali untuk menentukan leaf selanjutnya.

. akukan kembali perhitungan untuk menentukan leaf dari pohon

keputusan tersebut.Menghitung -ntropy "S# berdasarkan atribut Buying "!high, med#.

Buying, @high

Entropy ( vhigh)=3

4 log2

3

4

1

4log2

1

4=0.81

a. 6ain Maint

Gain (S , Maint)=0.81( 340)+(1

40)=0.81

entropy(vhigh) [bad 3, fair !


3

3=0

entropy(low) [bad , fair 1!

Entropy ( low )=1

1 log2

1

1=0

b. 6ain Doors

Gain (S , Doors )=0.81(340)+(140)=0.81entropy(2) [bad 3, fair !


3

3=0

entropy(5 more) [bad , fair 1!


12/20

Entropy (5more )=1

1 log2

1

1=0

$. 6ain 'ersons

Gain(S , Persons

)=0.81

(3

40

)+(1

40

)=0.81

entropy(2) [bad 3, fair !


3

3=0

entropy(more) [bad , fair 1!

Entropy (more )=1

1 log2

1

1=0

d. 6ain uggage

Gain (S , Luggage )=0.81(250)+( 250)+(150)=0.81entropy(small) [bad 2 , fair !

Entropy ( small )=22 log2

2

2=0

entropy(med) [bad 2 , fair !

Entropy (med )=2

2 log2

2

2=0

entropy(big) [bad , fair 1!

Entropy (big )=11 log2

1

1=0

e. 6ain Safety

Gain (S , Luggage )=0.81

(2

41

)+

(1

4 0

)+

(1

40

)=0.31

entropy(high) [bad 1 , fair 1 !

Entropy (high )=12 log2

1

2

1

2log2

1

2=1

entropy(med) [bad 1 , fair !

Entropy (med )=1

1 log2

1

1=0

entropy(low) [bad 1 , fair !

Entropy ( low )=11 log2

1

1=0

3. Membandingkan hasil 6ain dari setiap atribut dan memilih 6ain yang

paling besar untuk dijadikan leaf selanjutnya. Karena nilai 6ain antara

maint, doors, persons dan luggage sama maka diambil nilai gain maint

yaitu 0.41.

'ohon yang terbentuk adalah sebagai berikut&


13/20

6ambar ) 'ohon Keputusan Dengan leaf 2 Maint

Keterangan&Atribut !high dan lo+ dari leaf maint sudah mendapatkan hasil klasifikasinya

karena nilai entorpy dari !high dan lo+ sudah pasti maka tidak akan di$ari

leaf untuk atribut maint.

;. akukan kembali perhitungan untuk menentukan leaf dari pohon

keputusan tersebut.

Menghitung -ntropy "S# berdasarkan atribut Buying "!high, med#.

Buying, Med


1

4

3

4log2

3

4=0.81

a. 6ain Maint

Gain (S , Maint)=0.81( 240)+(240)=0.31entropy(med) [good , vgood 2 !

Entropy (med )=2

2 log2

2

2=0

entropy(low) [good 1, vgood 1!

Entropy ( low )=12 log2

1

2

1

2log2

1

2=1

b. 6ain Doors

Gain (S , Doors )=0.81(140)+(

340.92)=0.12

entropy(2) [good , vgood 1 !

Entropy (2 )=1

1 log2

1

1=0

entropy(5 more) [good 1, vgood 2!

Entropy (5more )=13 log2

1

3

2

3log2

2

3=0.92

$. 6ain 'ersons

Gain (S , Persons )=0.81

(

2

4

1

)+

(

2

4

0

)=0.31


14/20

entropy(more) [good 1, vgood 1 !

Entropy (more )=1

2 log2

1

2

1

2log2

1

2=1

entropy(4) [good , vgood 2!

Entropy (4 )=22 log2 22=

0

d. 6ain uggage

Gain (S,luggage )=0.81( 34 0.92)+(1

40)=0.12

entropy(big) [good 1, vgood 2 !

Entropy (big )=1

3 log2

1

3

2

3log2

2

3=0.92

entropy(med) [good , vgood 1!


1

1=0

e. 6ain Safety

Gain (S , saety )=0.81(34 0)+(1

40)=0.81

entropy(high) [good , vgood 3 !

Entropy(high)=33 log2

3

3=0

entropy(med) [good 1, vgood !

Entropy (med )=1

1 log2

1

1=0

. Membandingkan hasil 6ain dari setiap atribut dan memilih 6ain yang

paling besar untuk dijadikan leaf selanjutnya.


15/20

8ntuk melakukan pengujian terhadap desain pemodelan digunakan data :raining

Set dan Cross @alidation. Metode klasifikasi akan menghasilkan prediksi

klasifikasinya dengan baik jika menggunakan data :raining Set. Biasanya data

training dan data testing dibagi menjadi 40&/0 dari data keseluruhan. Data

training digunakan untuk men$ari pemodelan yang tepat sedangkan data testing

digunakan untuk menguji pemodelan yang dihasilkan. Metode Cross @alidation

membagi data menjadi dua bagian, yaitu data pelatihan dan data pengujian.

Selanjutnya, setelah data diuji dilakukan proses silang dimana data pengujian

lantas dijadikan data pelatihan ataupun sebaliknya, data pelatihan sebelumnya

dijadikan kini menjadi data pengujian.

8171 0*i)d Mode)

Berikut adalah langkahlangkah pembangunan model menggunakan aplikasi

-KA.

1. Membuka aplikasi -KA sehingga mun$ul tampilan seperti berikut.

6ambar 3 :ampilan A+al -KA

/. Membuka >ile yang berektensi .$s! atau .arff untuk dilakukan training

data.


16/20

6ambar ; Membuka file Car.$s!

). :ampilan data yang siap di mining menggunakan -KA.

6ambar :ampilan Data Eang Siap Di Mining

. Memilih metode yang digunakan "5D)#


17/20

6ambar 4 'emilihan Metode

3. :ampilan 'engujian Metode 5D) Menggunakan :raining Set

6ambar F :ampilan 'engujian :raining Set


18/20

;. :ampilan 'engujian Menggunakan Cross @alidation

6ambar 10 :ampilan 'engujian Cross @alidation

8181 A,,e,, Mode)

%asil ketepatan dari masingmasing teknik dapat dilihat pada gambar 11 dan 1/.

6ambar 11 :ampilan Akurasi Dengan :raining Set


19/20

6ambar 1/ :ampilan Akurasi Dengan Cross @alidation

#1 E+a)*ation

#1$ E+a)*ate Re,*)t'roses modelling dilakukan dengan metode klasifikasi dengan algoritma

De$ision :ree "5D)#. Dengan menggunakan 1/11 training data, proses modelling

menghasilkan hasil sebagai berikut &

:able ) :ingkat Akurasi Model 5D)

Metode 8ji :raining Set Metode 8ji Cross @alidation

De$ision :ree "5D)# 100 G 4F,3F G

Dari hasil pengujian akurasi dari metode uji training set men$apai 100G, namun

untuk pengujian akurasi dari metode uji $ross !alidation men$apai 4F,3FG. Dapat

disimpulkan bah+a pengujian menggunakan training set lebih akurat.

#1& Re+iew /ro4e,,

'roses data mining klasifikasi kualitas mobil berdasarkan spesifikasinya

dilakukan dalam langkahlangkah berikut &


20/20

a. 0*,ine,, Under,tanding ( merupakan proses pemahaman terhadap domain

permasalahana dan menentukan data yang akan digunakan dalam proses data

mining.

b. Data *nder,tanding( meliputi proses pengumpulan data,$. Data preparation( Meliputi proses $leaning data.

d. Mode))ing ( dilakukan dengan menggunakan metode klasifikasi yaitu de$ision

tree "5D)# dan / metode pengujian ":raining Set dan Cross @alidation#.

e. E+a)*ation ( %asil dari modelling yang telah dilakukan bah+a metode

klasifikasi menggunakan 5D) $o$ok untuk kasus mengklasifikasikan kualitas

mobil dengan tingkat akurasi data sebesar 4F,3FG "$ross !alidation# dan tingkat

akurasi data 100G"training set#.

Contoh Implementasi Data Mining

Documents

Transcript of Contoh Implementasi Data Mining