KLASIFIKASI VARIETAS KOPI ARABIKA MENGGUNAKAN …

KLASIFIKASI VARIETAS KOPI ARABIKA MENGGUNAKAN

METODE SUPPORT VECTOR MACHINE (SVM)

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Informatika

Oleh :

Anastasia Novia Windrawati

165314090

PROGRAM STUDI INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2020

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ii

CLASSIFICATION OF ARABICA COFFEE VARIETY USING

SUPPORT VECTOR MACHINE (SVM) METHOD

A THESIS

Submitted in Partial Fulfillment of The Requirements

For The Degree of Sarjana Komputer

In Informatics Study Program

By :

Anastasia Novia Windrawati

165314090

INFORMATICS STUDY PROGRAM

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2020


v

HALAMAN PERSEMBAHAN

“Serahkanlah segala kekuatiranmu kepada-Nya, sebab Ia yang memelihara

kamu.”

1 Petrus 5:7

Skripsi ini didedikasikan kepada :

Ibu, Kakak, dan Adik

Terima kasih telah menjadi sosok-sosok dalam berbagai perspektif.


viii

ABSTRAK

Pengendalian mutu kopi merupakan salah satu hal yang memiliki pengaruh

dalam pendistribusian kopi. Kopi dengan hasil mutu yang baik tentunya dapat

meningkatkan daya jual sehingga sangat penting untuk mengetahui varietas kopi

dengan kualitas mutu baik sehingga nantinya dapat meningkatkan pendistribusian

varietas kopi di masing-masing daerah. Pengukuran kualitas kopi sendiri dapat

dilakukan melalui pengujian fisik maupun melalui pengujian cita rasa kopi.

Pengujian dengan menggunakan cita rasa kopi diukur melalui tingkat aroma,

keasaman, manis, dll. Pengelompokkan varietas kopi berdasarkan pengujian cita

rasa kopi dapat dilakukan dengan menggunakan penambangan data. Penambangan

data yang dilakukan dalam uji cita rasa kopi untuk mengelompokkan kopi kedalam

varietas tertentu diharapkan dapat menghasilkan akurasi yang baik dengan

menggunakan metode Support Vector Machine (SVM). Penelitian dilakukan

dengan menggunakan 689 data uji dan menggunakan pemodelan klasifikasi one

against one. Teknik pengujian yang digunakan yaitu 3-Fold Cross Validation.

Berdasarkan pengujian tersebut akurasi yang dihasilkan oleh sistem memiliki

akurasi optimal sebesar 48.33% dengan menggunakan Polynomial Kernel dan

normalisasi min-max.

Kata kunci : varietas kopi arabika, Data Mining, Polynomial Kernel, Support

Vector Machine (SVM).


ix

ABSTRACT

Coffee quality control is one thing that has advantages in the distribution of

coffee. Coffee with good quality can increase selling power, so it is very important

to know the varieties of coffee with good quality so as to increase the distribution

of coffee varieties in each region. The measurement of the quality of coffee itself

can be done through physical testing through testing the taste of coffee. Test by

using the taste of coffee, processing aroma, acidity, sweetness, etc. The grouping

of coffee varieties based on the assessment of the taste of coffee can be done using

data mining. Data mining which is done in a coffee flavor test to classify coffee into

certain varieties is expected to produce good classification using the Support Vector

Machine (SVM) method. The study was conducted using 689 dataset and using one

to one classification modeling. The testing technique used is 3-Fold Cross

Validation. Based on these tests, generated by a system that has an optimal accuracy

of 48.33% using Polynomial Kernel and min-max normalization.

Keywords: Arabica coffee varieties, Data Mining, Linear Kernel, Support

Vector Machine (SVM).


xii

DAFTAR ISI

HALAMAN PERSETUJUAN ............................................................................... iii

HALAMAN PENGESAHAN ................................................................................ iii

HALAMAN PERSEMBAHAN ............................................................................ iv

PERNYATAAN KEASLIAN KARYA ................................................................ vi

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

UNTUK KEPENTINGAN AKADEMIS ............................................................. vii

ABSTRAK ............................................................................................................ vii

ABSTRACT ........................................................................................................... ix

KATA PENGANTAR ............................................................................................ x

DAFTAR ISI ......................................................................................................... xii

DAFTAR TABEL ................................................................................................. xv

BAB I PENDAHULUAN ....................................................................................... 1

1.1 Latar belakang .......................................................................................... 1

1.2 Rumusan Masalah .................................................................................... 3

1.3 Tujuan ....................................................................................................... 3

1.4 Manfaat ..................................................................................................... 4

1.5 Batasan Masalah ....................................................................................... 4

1.6 Metodologi Penelitian .............................................................................. 4

1.7 Sistematika Penulisan ............................................................................... 5

BAB II TINJAUAN PUSTAKA ............................................................................. 6

2.1 KDD (Knowledge Discovery in Databases)............................................. 6

2.2 Penambangan Data ................................................................................... 6

2.3 Klasifikasi ................................................................................................. 7

2.4 Support Vector Machine ........................................................................... 8


xiii

2.5 Multi Class SVM .................................................................................... 15

2.5.1 One-against-all ............................................................................... 15

2.5.2 One-against-one .............................................................................. 17

2.6 Information Gain .................................................................................... 18

2.7 K-Fold Cross Validation ........................................................................ 20

2.8 Confusion Matrix ................................................................................... 21

2.9 Normalisasi ............................................................................................. 22

2.9.1 Normalisasi Min-Max...................................................................... 23

2.9.2 Normalisasi Z-Score ........................................................................ 24

2.10 Varietas Kopi Arabika ............................................................................ 26

2.11 Pengujian Mutu Kopi ............................................................................. 27

2.12 Pengujian Mutu Cita Rasa Kopi SCAA ................................................. 28

BAB III METODOLOGI PENELITIAN.............................................................. 31

3.1 Data ........................................................................................................ 31

3.2 Desain Alat Uji ....................................................................................... 37

3.3 Cara Mengolah Data ............................................................................... 38

3.3.1 Tahap Preprocessing ....................................................................... 38

3.3.2 K-Fold Cross Validation ................................................................. 42

3.3.3 Tahap Klasifikasi ............................................................................ 43

3.4 Desain Pengujian .................................................................................... 46

3.5 Kebutuhan Sistem ................................................................................... 47

3.5.1 Perangkat Keras (Hardware) .......................................................... 47

3.5.2 Perangkat Lunak (Software) ............................................................ 47

3.6 Perancangan Antar Muka Sistem ........................................................... 48

BAB IV IMPLEMENTASI DAN ANALISIS HASIL ......................................... 49


xiv

4.1 Distribusi Data ........................................................................................ 49

4.2 Preprocessing ......................................................................................... 50

4.2.1 Data Selection ................................................................................. 50

4.2.2 Transformasi Data ........................................................................... 53

4.3 Klasifikasi ............................................................................................... 55

4.4 Pelatihan dan Pengujian ......................................................................... 58

4.4.1 Uji Performa Fungsi Kernel ............................................................ 58

4.4.2 Uji Performa dengan Normalisasi ................................................... 59

4.5 Analisis Hasil ......................................................................................... 66

BAB V PENUTUP ................................................................................................ 70

5.1 Kesimpulan ............................................................................................. 70

5.2 Saran ....................................................................................................... 70

DAFTAR PUSTAKA ........................................................................................... 72


xv

DAFTAR TABEL

Tabel 2.1 Contoh data sampel ............................................................................... 11

Tabel 2.2 Plot hyperplane ..................................................................................... 13

Tabel 2.3 Hasil Klasifikasi .................................................................................... 14

Tabel 2.4 Contoh kombinasi biner 4 kelas dengan metode one-against-all .......... 16

Tabel 2.5 Contoh kombinasi biner dengan metode one-against-one .................... 17

Tabel 2.6 Ukuran evaluasi model klasifikasi ........................................................ 21

Tabel 2.7 Confusion Matrix ................................................................................. 22

Tabel 2.8 Sampel data sebelum dinormalisasi ...................................................... 24

Tabel 2.9 Sampel data setelah dinormalisasi min-max ......................................... 24

Tabel 2.10 Sampel data setelah dinormalisasi zscore ........................................... 26

Tabel 2.11 Skala Kualitas ..................................................................................... 30

Tabel 2.12 Skala Skor Total .................................................................................. 30

Tabel 3.1 Contoh sampel data ............................................................................... 31

Tabel 3.2 Penjelasan Atribut ................................................................................. 34

Tabel 3.3 Jumlah Seleksi Kelas ............................................................................ 39

Tabel 3.4 Atribut hasil Information Gain .............................................................. 41

Tabel 3.5 Simulasi pembagian data training dan data testing ............................... 43

Tabel 3.6 Tabel Pengujian..................................................................................... 47

Tabel 3.7 Spesifikasi PC ....................................................................................... 47

Tabel 4.1 Atribut Masukkan ................................................................................. 49

Tabel 4.2 Atribut Keluaran ................................................................................... 50

Tabel 4.3 Akurasi perangkingan atribut ................................................................ 51

Tabel 4.4 Transformasi atribut variety .................................................................. 53

Tabel 4.5 Sampel data sebelum dinormalisasi ...................................................... 54

Tabel 4.6 Sampel data setelah dinormalisasi min-max ......................................... 54

Tabel 4.7 Sampel data setelah dinormalisasi z-score ............................................ 55

Tabel 4.8 Implementasi fungsi SVM .................................................................... 56

Tabel 4.9 Hasil akurasi kernel ............................................................................... 58


xvi

Tabel 4.10 Hasil akurasi dengan normalisasi min-max ........................................ 60

Tabel 4.11 Hasil akurasi dengan normalisasi z-score ........................................... 63

Tabel 4.12 Confusion matrix Polynomial Kernel data uji ke-1 ............................ 66




xvii

DAFTAR GAMBAR

Gambar 2.1 Hyperplane yang mungkin untuk set data ........................................... 9

Gambar 2.2 Margin Hyperplane ............................................................................. 9

Gambar 2.3 Visualisasi hyperplane data uji .......................................................... 13

Gambar 2.4 Pemetaan data ke ruang vektor berdimensi lebih tinggi ................... 14

Gambar 2.5 Skema klasifikasi dengan metode one-against-all ........................... 16

Gambar 2.6 Skema klasifikasi menggunakan metode one-against-one ............... 18

Gambar 2.7 Skema pembagian data 3-Fold Cross Validation .............................. 20

Gambar 2.8 Cupping Form ................................................................................... 29

Gambar 3.1 Tahapan Penambangan Data ............................................................. 37

Gambar 3.2 Sampel data berbagai macam label kelas .......................................... 39

Gambar 3.3 Sampel data tiga macam label kelas .................................................. 40

Gambar 3.4 Hasil perangkingan atribut ................................................................ 41

Gambar 3.5 Klasifikasi dengan tiga kelas ............................................................ 44

Gambar 3.6 Kelas 1 dan kelas 2 ............................................................................ 44



Gambar 3.9 Hasil voting ....................................................................................... 46

Gambar 3.10 Prototype GUI Program .................................................................. 48

Gambar 4.1 Hasil variabel voting ......................................................................... 57

Gambar 4.2 Hasil variabel voting ......................................................................... 57

Gambar 4.3 Grafik Akurasi Fungsi Kernel ........................................................... 59

Gambar 4.4 Grafik Perbandingan Akurasi min-max ............................................ 61

Gambar 4.5 Grafik akurasi dengan min-max dan Polynomial Kernel .................. 61

Gambar 4.6 Grafik akurasi dengan min-max dan RBF Kernel ............................. 62

Gambar 4.7 Grafik akurasi dengan min-max dan Linear Kernel .......................... 62

Gambar 4.8 Grafik Perbandingan Akurasi Z-Score .............................................. 64

Gambar 4.9 Grafik akurasi dengan z-score dan Linear Kernel ............................. 64


xviii

Gambar 4.10 Grafik akurasi dengan z-score dan Polynomial Kernel ................... 65

Gambar 4.11 Grafik akurasi dengan z-score dan RBF Kernel.............................. 65

Gambar 4.12 Pengujian Data ................................................................................ 68


1

BAB I

PENDAHULUAN

1.1 Latar belakang

Tanaman kopi yang memiliki nama latin perpugenus coffea dari familia

Rubiaceae merupakan salah satu komoditas yang banyak diminati dan telah

memiliki segmen pasar yang cukup luas. Tanaman kopi ini bukan merupakan

tanaman homogen, kopi memiliki beragam varietas yang tersebar diseluruh

dunia dan tentunya beragam pula cara pengolahannya. Terdapat empat

kelompok besar dari 4500 jenis kopi diseluruh dunia yaitu Coffea Canephora

(Robusta), Coffea Arabica (Arabika), Coffea Excelsa (Excelsa), dan Coffea

Liberica (Liberica) (Spillane, 1990).

Arabika menjadi pemenang dalam pemasaran karena menyumbang

sekitar 70% dari produksi dunia, dibandingkan dengan robusta yang

menghasilkan 24%, sedangkan Liberica dan Excelsa memproduksi sebanyak

3%. Hal ini tak lepas dari kualitas dan kuantitas kopi arabika yang memiliki

rasa lebih enak serta jumlah kafein yang lebih rendah dibanding robusta. Oleh

sebab itu biasanya harga kopi arabika akan lebih mahal daripada kopi robusta

(Spillane, 1990).

Pengendalian mutu kopi merupakan salah satu hal yang penting dalam

pendistribusian kopi. Kopi yang bermutu tinggi akan meningkatkan daya jual

sehingga sangat penting untuk mengetahui varietas kopi dengan kualitas mutu

baik. Ukuran kualitas kopi sendiri dapat diukur melalui tingkat aroma,

keasaman, manis, dll. Pengelompokkan varietas kopi dapat dilakukan dengan

menggunakan pengujian mutu pada biji kopi. Pengujian ini terdiri dari dua

jenis yaitu pengujian secara mutu fisik dan pengujian secara mutu cita rasa.

Pengelompokkan ini kemudian dapat dilakukan dengan menggunakan

penambangan data.

Pada penelitian ini, akan digunakan metode Support Vector

Machine(SVM) dalam melakukan klasifikasi biji kopi varietas arabika.

Penggunaan karakteristik uji cita rasa kopi dapat membantu pengelompokkan


2

biji kopi ke dalam varietas kopi arabika tertentu. Penggunaan metode

klasifikasi ini mempunyai kemampuan generalisasi data yang tinggi serta

mampu menghasilkan model klasifikasi yang baik meskipun dilatih dengan

himpunan data yang relatif sedikit(dibanding ruang masalah yang harus

diselesaikan) hanya dengan pengaturan parameter yang sederhana. SVM

memiliki konsep dan parameter yang harus diatur sehingga relatif mudah

diimplementasikan karena penentuan support vector dapat dirumuskan dalam

masalah QP (Quadratic Programming) (Suyanto, 2019).

Penelitian yang berkaitan dengan klasifikasi varietas kopi arabika

sebelumnya telah banyak dilakukan dengan metode pengenalan citra. Seperti

pada penelitian yang dilakukan oleh (Sebatubun & Nugroho, 2017) dengan

menggunakan ekstraksi fitur bentuk circularity dan klasifikasi MultiLayer

Perceptron. Varietas kopi arabika yang digunakan yaitu Sigarar Utang dan

Lini S-795, dan hasil akurasi yang didapatkan yaitu sebesar 80%. Selain itu

(Nugroho & Sebatubun, 2020) melakukan klasifikasi kopi arabika

menggunakan metode Deep Learning yang diimplementasikan pada dataset

varietas kopi arabika Ciwangi Redbourbon, Ciwangi Catimor dan Rasuna

Sigararutang. Dengan menggunakan google autoML, penelitian tersebut

mendeteksi varietas Ciwangi Redbourbon sebesar 71.4%, Ciwangi Catimor

sebesar 85.7%, dan Rasuna sigararutang 80%. Penelitian lain yang berkaitan

dengan metode SVM sebelumnya dilakukan oleh (Condori, et al., 2014) yang

melakukan pengenalan biji kopi dengan menggunakan ekstraksi fitur

CGLCM dan metode klasifikasi SVM. Hasil akurasi yang didapatkan yaitu

sebesar 86% dengan menggunakan 3367 dataset gambar serta 12 kategori

cacat fisik. Selain itu penelitian SVM dengan kasus lain dilakukan oleh

(Sianturi, 2019) yang mengimplementasikan SVM pada aksara Batak Toba

dengan judul “Alih Aksara Batak Toba Tulisan Tangan Menggunakan

Metode Ekstraksi Ciri Freeman Chain Code (FCC) dan Metode Klasifikasi

Support Vector Machine(SVM)”. Dalam penelitian tersebut aksara Batak

Toba dapat dikenali dengan tingkat akurasi sebesar 87.7607%. Selain itu,

(Octaviani, et al., 2014) telah menerapkan metode SVM dengan judul


3

“Penerapan Metode Klasifikasi Support Vector Machine(SVM) pada Data

Akreditasi Sekolah Dasar (SD) di Kabupaten Magelang”. Penelitian ini

menghasilkan akurasi klasifikasi terbaik dengan menggunakan fungsi kernel

Gaussian Radial Basic Function (RBF) yang menghasilkan akurasi sebesar

100% dengan data training sebesar 337 data, sedangkan jika menggunakan

fungsi kernel Polynomial menghasilkan akurasi klasifikasi sebesar 98.810%.

Pada penelitian yang akan penulis lakukan, klasifikasi varietas biji kopi

arabika dilakukan dengan menggunakan metode Support Vector Machine

(SVM) dan varietas yang digunakan yaitu Bourbon, Caturra, dan Typica.

Proses klasifikasi dilakukan berdasarkan pengujian cita rasa kopi yang

menggunakan 689 dataset varietas kopi arabika.

1.2 Rumusan Masalah

• Bagaimana menggunakan dan membangun algoritma Support Vector

Machine (SVM) untuk melakukan klasifikasi varietas kopi ?

• Berapa akurasi yang diperoleh dalam mengelompokkan varietas kopi

arabika dengan menggunakan metode klasifikasi Support Vector Machine

(SVM) berdasarkan pengujian cita rasa kopi ?

• Bagaimana pengujian yang didapatkan dengan menggunakan 3-Fold

Cross Validation ?

1.3 Tujuan

• Membangun sistem klasifikasi varietas kopi Arabika menggunakan

metode Support Vector Machine (SVM).

• Analisis hasil akurasi yang berhasil didapatkan dalam mengelompokkan

varietas kopi Arabika dengan menggunakan metode Support Vector

Machine (SVM) berdasarkan pengujian cita rasa kopi.

• Mengetahui tingkat keberhasilan klasifikasi dengan menggunakan

pengujian 3-Fold Cross Validation.


4

1.4 Manfaat

Manfaat dari penelitian ini adalah :

1. Menambah wawasan, pengetahuan dan pemahaman mengenai algoritma

Support Vector Machine (SVM) dan klasifikasi penambangan data

menggunakan algoritma Support Vector Machine (SVM).

2. Membantu pihak-pihak yang berkaitan seperti lembaga penguji kualitas

kopi maupun para pengelola kopi untuk mengklasifikasikan biji kopi

berdasarkan uji cita rasa kopi.

1.5 Batasan Masalah

a. Atribut yang digunakan untuk menentukan varietas kopi arabika yaitu

berdasarkan pengujian mutu kopi dengan menggunakan pengujian cita

rasa kopi.

b. Data yang digunakan adalah data Coffee Beans Reviews by Coffee Quality

Institute yang berasal dari https://www.kaggle.com/ankurchavda/coffee-

beans-reviews-by-coffee-quality-institute.

1.6 Metodologi Penelitian

1. Studi literatur

Pada tahap ini peneliti mempelajari teori – teori melalu buku dan jurnal

yang berkaitan dengan Support Vector Machine (SVM).

2. Pembuatan alat uji

Tahap ini peneliti melakukan perancangan sistem dengan menggunakan

metode yang ada yang kemudian diterapkan dalam aplikasi berbasis

Matlab.

3. Analisis Hasil

Pada tahap ini peneliti melakukan penarikan kesimpulan dari alat uji

dengan menguji ketepatan dan tingkat akurasi dari algoritma yang ada.


5

1.7 Sistematika Penulisan

BAB I PENDAHULUAN

Bab ini berisi tentang latar belakang masalah, rumusan masalah, tujuan

penelitian, batasan masalah, metodologi penelitian serta sistematika

penulisan dari sistem yang akan diteliti.

BAB II TINJAUAN PUSTAKA

Bab ini berisi tentang teori-teori dasar yang berkaitan dengan penelitian

dalam penerapan sistem yang dibuat.

BAB III METODOLOGI PENELITIAN

Bab ini memuat langkah-langkah dalam penelitian yang bertujuan untuk

menjawab dan menyelesaikan rumusan masalah yang dimiliki yang terdiri

dari data, perangkat lunak dan perangkat keras, algoritma yang dipakai, serta

desain alat uji.

BAB IV IMPLEMENTASI DAN ANALISIS HASIL

Bab ini berisi hasil dari implementasi sistem yang telah dibuat dan

pembahasan yang mencakup analisis hasil dari penelitian yang telah

dilakukan.

BAB V PENUTUP

Bab ini berisi kesimpulan yang terdiri dari rangkuman keseluruhan isi yang

telah dibahas dan saran yang berisi saran penelitian untuk pengembangan

penelitian.

DAFTAR PUSTAKA

Bab ini berisi semua sumber kepustakaan yang digunakan dalam penelitian

baik berupa buku, jurnal, internet, dan sebagainya.


6

BAB II

TINJAUAN PUSTAKA

2.1 KDD (Knowledge Discovery in Databases)

Penambangan data atau Data Mining merupakan langkah analisis

terhadap proses penemuan pengetahuan di dalam basis data atau knowledge

discovery in databases yang disingkat KDD. Tahapan yang terdapat dalam

KDD yaitu :

1. Pembersihan data (data cleaning), untuk menghilangkan noise dan data

yang tidak konsisten.

2. Integrasi data (data integration), keadaan dimana terdapat sumber data

yang dikombinasikan.

3. Seleksi data (data selection), dimana data relevan dengan tugas analisis

yang diambil dari basis data.

4. Transformasi data (data transformation), data ditransformasikan dan

dikonsolidasikan ke dalam bentuk yang sesuai dengan penambangan data

dengan melakukan operasi penyederhanaan maupun agregasi.

5. Penambangan data (data mining), proses mendasar yang perlu dilakukan

dimana metode cerdas diterapkan dalam menghasilkan sebuah pola data.

6. Evaluasi pola (pattern evaluation), dilakukan untuk mengidentifikasi pola

yang benar-benar menarik yang mewakili pengetahuan.

7. Presentasi pengetahuan, dimana visualisasi dan teknik representasi

pengetahuan digunakan untuk menyajikan pengetahuan kepada pengguna.

(Han, et al., 2011)

2.2 Penambangan Data

Penambangan data merupakan teknik yang relatif cepat dan mudah

dalam menemukan pengetahuan, pola atau relasi antar data secara otomatis.

Penggabungan empat disiplin ilmu komputer ini menghantarkan pengetahuan


7

dapat ditemukan dalam lima proses berurutan yaitu seleksi, prapemrosesan,

transformasi, data mining, dan interpretasi/evaluasi. (Fayyad, et al., 1996).

Penambangan data memiliki tujuan untuk mengekstrak pengetahuan

dari sekumpulan data sehingga didapat struktur yang dapat dipahami oleh

manusia. Penemuan struktur dari data ini memiliki masalah dari berbagai segi

yang termasuk dalam komponen basisdata dan manajemen data,

prapemrosesan data, pertimbangan data dan inferensi, ukuran ketertarikan,

pertimbangan kompleksitas algoritma, pascapemrosesan terhadap struktur

yang ditemukan, visualisasi, dan online updating (Chakrabarti, et al., 2006).

Penggunaan teknik data mining dapat dibagi menjadi dua yaitu

deskriptif dan prediktif. Deskriptif berarti data mining digunakan untuk

mencari pola-pola yang dapat dipahami manusia yang menjelaskan

karakteristik data. Sedangkan prediktif berarti data mining digunakan untuk

membentuk sebuah model pengetahuan yang akan digunakan untuk

melakukan prediksi (Suyanto, 2019). Tugas data mining dapat

dikelompokkan menjadi enam bagian berdasarkan fungsionalitasnya seperti

klasifikasi, klasterisasi, regresi, deteksi anomali, pembelajaran aturan asosiasi

serta perangkuman (Fayyad, et al., 1996).

2.3 Klasifikasi

Klasifikasi merupakan bagian penting dalam data mining yang

digunakan untuk memprediksi label atau kelas dari model yang telah

dipelajari sebelumnya (Zaki & Jr., 2013). Melalui pendekatan teknik

klasifikasi ini data-data yang telah dipelajari kemudian akan menghasilkan

suatu pola atau aturan. Selanjutnya dari pola yang didapat, data baru yang

belum pernah dipelajari sebelumnya dapat diklasifikasi berdasarkan pola

tersebut.

Model klasifikasi dapat dibangun berdasarkan pengetahuan seorang

pakar(ahli). Namun, mengingat himpunan data yang relatif besar, model

klasifikasi lebih sering dibangun menggunakan teknik pembelajaran dalam


8

bidang machine learning. Proses pembelajaran secara otomatis terhadap

suatu himpunan data mampu menghasilkan model klasifikasi (fungsi target)

yang memetakan objek data x (input) ke salah satu kelas y yang telah

didefinisikan sebelumnya. Jadi, proses pembelajaran memerlukan masukan

(input) berupa himpunan data latih (training set) yang berlabel (memiliki

atribut kelas) dan mengeluarkan output yang berupa model klasifikasi

(Suyanto, 2019). Terdapat banyak model klasifikasi yang dapat digunakan

seperti decision tree, probabilistic classifiers, support vector machines, dan

sebagainya (Zaki & Jr., 2013).

2.4 Support Vector Machine

Support vector machine merupakan metode klasifikasi berdasarkan

pada diskriminan linear margin maksimum, tujuannya adalah untuk mencari

hyperplane dengan memaksimalkan jarak atau margin antar kelas. Kita dapat

menggunakan kernel trick untuk mencari batas keputusan nonlinear yang

optimal antar kelas yang berhubungan dengan hyperplane dalam beberapa

ruang dimensi “nonlinear” (Zaki & Jr., 2013).

Vapnik memperkenalkan SVM pada tahun 1992 sebagai suatu teknik

klasifikasi yang efisien untuk masalah nonlinier. SVM hanya menemukan

satu hyperplane yang posisinya tepat di tengah-tengah antara dua kelas. Jadi,

hyperplane tersebut membelah himpunan data menjadi dua kelas secara sama.

Artinya, jarak antara hyperplane dengan objek-objek data berbeda kelas yang

berdekatan (terluar). Mengapa harus memaksimalkan margin ? Tujuannya

yaitu agar memiliki kemampuan generalisasi yang tinggi terhadap data-data

yang akan datang (Suyanto, 2019).


9

(a) (b)

Gambar 2.1 Hyperplane yang mungkin untuk set data (Nugroho, et al.,

2003)

Konsep dasar dari proses pelatihan pada SVM yaitu untuk mencari

lokasi hyperplane. Pilihan untuk menemukan hyperplane yang mungkin

untuk suatu set data dapat terlihat seperti pada gambar 2.1(a), sedangkan

hyperplane dengan margin paling maksimal terdapat pada gambar 2.1(b).

Hyperplane terbaik antara kedua kelas dapat ditemukan dengan mengukur

margin hyperplane dan kemudian mencari titik maksimalnya. Margin adalah

jarak antara hyperplane tersebut dengan data terdekat dari masing-masing

kelas. Data yang paling dekat ini disebut sebagai support vector (Prasetyo,

2014).

Gambar 2.2 Margin Hyperplane


10

Seperti yang terlihat pada Gambar 2.2, SVM bekerja untuk menemukan

hyperplane dengan margin yang maksimal. Hyperplane klasifikasi linier

memisahkan kedua kelas dengan persamaan :

𝑤. 𝑥𝑖 + 𝑏 = 0 (2.1)

Keterangan :

w = vector bobot

x = nilai masukan atribut

b = bias

Sehingga didapatkan persamaan untuk kelas positif dan kelas negatif. Pada

kelas positif (+1), sehingga suatu data 𝑥𝑖 dapat diklasifikasikan sebagai kelas

+1 jika

𝑤. 𝑥𝑖 + 𝑏 > 1 (2.2)

dan dapat diklasifikasikan sebagai kelas -1 jika

𝑤. 𝑥𝑖 + 𝑏 ≤ −1 (2.3)

Margin hyperplane terbaik dapat ditemukan dengan memaksimalkan

nilai jarak antara hyperplane dengan titik terdekatnya menggunakan rumus

1

‖𝑤‖. Selanjutnya dapat dirumuskan sebagai Quadratic Programming (QP)

problem untuk mencari titik minimal persamaan

𝑚𝑖𝑛𝑤→ 𝜏(𝑤) =

1

2‖𝑤‖2 (2.4)

𝑦𝑖(𝑥𝑖 ∙ 𝑤 + 𝑏) − 1 ≥ 0 (2.5)

Permasalahan ini dapat diselesaikan dengan menggunakan berbagai

cara, salah satunya menggunakan Lagrange Multiplier.

𝐿(𝑤, 𝑏, 𝛼) = 1

2‖𝑤‖2 − ∑ 𝛼𝑖(𝑦𝑖(𝑥𝑖 ∙ 𝑤 + 𝑏) − 1), 𝑖 = 1,2, … , 𝑙𝑙

𝑖=1 (2.6)


11

Dengan 𝑎𝑖 ≥ 0 adalah Lagrange multipliers, nilai optimal dari

persamaan tersebut dapat dihitung dengan meminimalkan L terhadap w dan

b sekaligus memaksimalkan L terhadap 𝑎𝑖. Dengan diketahui titik optimal

gradient L = 0, maka persamaan (2.6) dapat dimodifikasi dengan

memaksimalkan

∑ 𝑎𝑖𝑙𝑖=1 −

1

2∑ 𝑎𝑖𝑎𝑗𝑦𝑖𝑦𝑗𝑥𝑖𝑥𝑗

𝑙𝑖,𝑖=1 (2.7)

𝑎𝑖 ≥ 0(𝑖 = 1,2, … 𝑙) ∑ 𝑎𝑖𝑦𝑖 = 0𝑙𝑖=1 (2.8)

Maksimalisasi ini menghasilkan sejumlah 𝑎𝑖 yang bernilai positif.

Data-data yang berhubungan dengan 𝑎𝑖 positif inilah yang disebut sebagai

support vector. Fungsi pemisah dapat didefinisikan sebagai berikut.

g(x) := sgn(f(x)) (2.9)

Dengan f(x) = wTx + b (2.10)

(Santosa, n.d.)

Berikut illustrasi cara kerja Support Vector Machine dengan data seperti

pada Tabel 2.1.

Tabel 2.1 Contoh data sampel

x1 x2 yi

4 4 1

6 4 -1

4 6 -1

4 8 1

Terdapat dua atribut x1 dan x2 yang akan menghasilkan dua bobot yaitu w1

dan w2. Kemudian margin diminimalkan menggunakan rumus pada

persamaan 2.4 dengan syarat sebagai berikut.

yi(w. xi + b) ≥ 1, i = 1,2,3, …, N (2.11)


12

yi(w1 . xi + w1 . xi +b) ≥ 1 (2.12)

Sehingga diperoleh persamaan sebagai berikut.

(1) 1 ( 4w1 + 4w2 + b ) ≥ 1 → ( 4w1 + 4w2 + b ) ≥ 1

(2) -1 ( 6w1 + 4w2 + b ) ≥ 1 → ( -6w1 -4w2 - b ) ≥ 1

(3) -1 ( 4w1 + 6w2 + b ) ≥ 1 → ( -4w1 -6w2 - b ) ≥ 1

(4) 1 ( 4w1 + 8w2 + b ) ≥ 1 → ( 4w1 + 8w2 + b ) ≥ 1

Selanjutnya yaitu mencari nilai w dan b dari persamaan (1) dan (2) sebagai

berikut.

+(-6𝑤1 -4𝑤2 - b ) ≥ 1( 4𝑤1 + 4𝑤2 + b ) ≥ 1

−2𝑤1 = 2 𝑤1 = −1

Kemudian mencari nilai w dan b dari persamaan (3) dan (4) sebagai berikut.

+( 4𝑤1 + 8𝑤2 + b ) ≥ 1( −4𝑤1 −6𝑤2 − b ) ≥ 1

2𝑤2= 2 𝑤2 = 1

Sehingga nilai b yang didapat dari persamaan (1) dan (4) yaitu :

+(4𝑤1 + 8𝑤2 + b ) ≥ 1( 4𝑤1 + 4𝑤2 + b ) ≥ 1

8𝑤1 + 12𝑤2 + 2𝑏 = 2

8(−1) + 12(1) + 2𝑏 = 2 −8 + 12 + 2𝑏 = 2 2𝑏 = 2 − 4 2𝑏 = −2 𝑏 = −1

Persamaan hyperplane menjadi :

𝑤1𝑥1 + 𝑤2𝑥2 + 𝑏 = 0 −1𝑥1 + 1𝑥2 − 1 = 0

𝑥2 − 1 = 𝑥1

Selanjutnya dibuat plot hyperplane dengan fungsi -x1 + x2 – 1 menggunakan

data seperti pada Tabel 2.2


13

Tabel 2.2 Plot hyperplane

x1 = x2 - 1 x2

-3 -2

-2 -1

-1 0

0 1

1 2

2 3

3 4

4 5

5 6

6 7

7 8

8 9

Gambar 2.3 Visualisasi hyperplane data uji

Setelah ditentukan garis hyperplane seperti pada Gambar 2.3, maka

langkah selanjutnya yaitu mengklasifikasikan data uji melalui hyperplane

-4

-2

0

2

4

6

8

10

-4 -2 0 2 4 6 8 10

x1

x2

Visualisasi Hyperplane


14

dengan menggunakan fungsi f(x) = -x1 + x2 – 1 dengan g(x) := sgn(f(x)).

Gambar 2.3 menunjukkan garis hyperplane yang memisahkan hasil data uji

yang terdapat pada Tabel 2.3 dengan label kelas positif disimbolkan dengan

warna kuning dan kelas negatif dengan warna merah.

Tabel 2.3 Hasil Klasifikasi

No X1 X2 Hasil Klasifikasi ( Kelas = sgn(f(x)) )

1 4 4 Sgn(-4 + 4 -1) = -1

2 2 8 Sgn(-2 + 8 -1) = 1

3 -2 4 Sgn(-(-2) + 4 -1) = 1

4 4 -2 Sgn(-4 + (-2) -1) = -1

Pada pembelajaran SVM, mudah untuk menyelesaikan masalah secara

linier. Tetapi pada kenyataannya masalah yang dihadapi dalam kondisi nyata

adalah masalah non-linier. Sehingga SVM dimodifikasi sedemikian rupa

dengan memasukkan fungsi kernel. Dalam fungsi non-linier, SVM pertama-

tama akan memetakan data 𝑥 menggunakan fungsi Φ(�⃑�) ke ruang vektor

yang berdimensi lebih tinggi. Seperti terlihat pada Gambar 2.4 menunjukkan

terdapat data berdimensi dua yang tidak dapat dipisahkan secara linier.

Selanjutnya fungsi Φ akan memetakan setiap data tersebut ke ruang vektor

baru yang berdimensi lebih tinggi atau berdimensi tiga. Sehingga kedua kelas

dapat terpisah secara linier oleh sebuah hyperplane.

Gambar 2.4 Pemetaan data ke ruang vektor berdimensi lebih tinggi


15

Pada umumnya terdapat empat fungsi kernel yang dapat digunakan

yaitu :

1. Kernel Linier

𝐾(𝑥, 𝑥𝑖) = 𝑥𝑘𝑇𝑥 (2.13)

2. Kernel Polynomial

𝐾(𝑥, 𝑥𝑘) = (𝑥𝑘𝑇𝑥 + 1)𝑑 (2.14)

3. Kernel Gaussian (Radial Basis Function, RBF)

𝐾(𝑥, 𝑥𝑘) = exp {−‖𝑥 − 𝑥𝑘‖22/𝜎2} (2.15)

4. Kernel Sigmoid

𝐾(𝑥, 𝑥𝑘) = tanh [𝜅𝑥𝑘𝑇𝑥 + 𝜃] (2.16)

Fungsi kernel dapat memberi kemudahan karena hanya perlu untuk

mengetahui fungsi kernel yang dipakai untuk menentukan support vector.

Kemudian SVM akan melakukan proses klasifikasi sebuah objek data x yang

diformulasikan dengan persamaan :

𝑓(𝑥) = ∑ 𝑎𝑖𝑦𝑖𝐾(𝑥, 𝑥𝑖) + 𝑏𝑛𝑖=1,𝑥𝑖 𝜖 𝑆𝑉 (2.17)

SV merupakan objek-objek data pada himpunan data latih yang terpilih

sebagai support vector (Suyanto, 2019).

2.5 Multi Class SVM

SVM hanya dapat mengklasifikasikan data ke dalam dua kelas pada saat

pertama kali diperkenalkan oleh Vapnik pada tahun 1992. Setelah

berkembangnya riset dan penelitian, SVM dapat berkembang menjadi multi

kelas (multi class) yang artinya teknik ini dapat mengklasifikasikan lebih dari

dua kelas. Dalam mengimplementasikan SVM multi kelas dapat

menggunakan dua pendekatan, yaitu dengan menggabungkan beberapa SVM

biner dan yang kedua yaitu menggabungkan semua data dari semua kelas ke

dalam sebuah bentuk permasalahan optimasi (Suyanto, 2019). Metode

dengan pendekatan pertama yaitu :

2.5.1 One-against-all

Metode ini menggunakan prinsip satu lawan semua dengan

membandingkan satu kelas dengan semua kelas lainnya. Ketika akan


16

melakukan klasifikasi data ke dalam k kelas, maka harus dibangun pula

sejumlah k model SVM biner. Setiap model biner SVM ke-i akan

dilatih dengan menggunakan keseluruhan data agar ditemukan apakah

merupakan bagian dari kelas ke-i atau bukan ketika diklasifikasikan.

Sebagai contoh, ketika akan mengklasifikasikan ke dalam 4 kelas maka

perlu dibangun pula 4 buah SVM biner seperti terlihat pada Tabel 2.4

dan Gambar 2.5. Kemudian SVM biner yang pertama dilatih dengan

dengan menggunakan semua data latih.

Tabel 2.4 Contoh kombinasi biner 4 kelas dengan metode one-

against-all

𝑦𝑖 = 1 𝑦𝑖 = −1 Hipotesis

Kelas 1 Kelas 1 𝑓1(𝑥) = (𝑤1)𝑥 + 𝑏1




Gambar 2.5 Skema klasifikasi dengan metode one-against-all

(Wicaksono, 2017)


17

2.5.2 One-against-one

Metode one against one atau satu lawan satu ini akan

membandingkan satu kelas dengan kelas lainnya dalam membangun

sejumlah model SVM. Ketika akan melakukan klasifikasi data ke dalam

k kelas, maka diharuskan untuk membangun sejumlah model dengan

rumus sebagai berikut.

𝑘(𝑘−1)

2 (2.18)

Keterangan :

k = jumlah kelas

(Suyanto, 2019)

Sehingga jika akan membangun sejumlah SVM biner dengan 4

kelas maka yang harus dibuat yaitu 4(4−1)

2= 6 buah biner SVM.

Sehingga setiap kelas harus dibandingkan dengan kelas lainnya seperti

pada Tabel 2.5. Voting dapat dilakukan untuk mendapatkan kelas

keputusan. Berikut ilustrasi klasifikasi dengan 4 buah jumlah kelas.

Tabel 2.5 Contoh kombinasi biner dengan metode one-against-one

𝑦𝑖 = 1 𝑦𝑖 = −1 Hipotesis

Kelas 1 Kelas 2 𝑓12(𝑥) = (𝑤12)𝑥 + 𝑤12






Setelah kombinasi kelas biner terbentuk, selanjutnya dilakukan

perbandingan tiap kelas. Pada Gambar 2.6 kelas f12(x) ditentukan

masuk ke dalam kelas 1 atau 2, diasumsikan pada contoh ditentukan


18

masuk pada kelas 1. Hal yang sama dilakukan pula pada kelas biner

yang lainnya. Sehingga setelah semua kelas biner mendapat kelas

keputusan kemudian dilakukan voting dengan kelas mana yang

mendapat hasil terbanyak. Pada contoh Gambar 2.6 kelas 1 mendapat

voting terbanyak, sehingga hasil klasifikasi yang didapatkan yaitu pada

kelas 1.

Gambar 2.6 Skema klasifikasi menggunakan metode one-against-one

(Wicaksono, 2017)

2.6 Information Gain

Information gain merupakan salah satu metode seleksi fitur yang

banyak dipakai oleh peneliti untuk menentukan batas dari kepentingan sebuah

atribut. Nilai information gain diperoleh dari nilai entropi sebelum pemisahan

dikurangi dengan nilai entropi setelah pemisahan. Pengukuran nilai ini hanya

digunakan sebagai tahap awal untuk penentuan atribut yang nantinya akan

digunakan atau dibuang. Atribut yang memenuhi kriteria pembobotan yang

nantinya akan digunakan dalam proses klasifikasi sebuah algoritma (Maulana

& Al Karomi, 2016). Pemilihan fitur dengan information gain dilakukan

dalam 3 tahapan, yaitu:

1. Menghitung nilai information gain untuk setiap atribut dalam dataset

original.


19

2. Tentukan batas (treshold) yang diinginkan. Hal ini akan memungkinkan

atribut yang berbobot sama dengan batas atau lebih besar akan

dipertahankan serta membuang atribut yang berada dibawah batas.

3. Dataset diperbaiki dengan pengurangan atribut.

Berikut rumus untuk menghitung Information Gain :

Gain(A) = I (D) – I (A) (2.19)

Keterangan :

A : atribut

D : jumlah seluruh sampel data

Gain (A) : information atribut A

I (D) : total entropi

I (A) : entropi A

Untuk mendapatkan nilai total entropi A, digunakan rumus :

info(D) = ∑ 𝑝𝑖 log2(𝑝𝑖)𝑚𝑖=1 (2.20)

Keterangan :

m : jumlah kelas klasifikasi

i : maksimal nilai pada atribut target

pi : jumlah sampel untuk kelas i

Untuk mendapatkan nilai entropi A, digunakan rumus :

infoA(D) = ∑|𝐷𝑗|

𝐷𝑥 𝑖𝑛𝑓𝑜(𝐷𝑖)

𝑣𝑗=1 (2.21)

Keterangan :

v : suatu nilai yang mungkin untuk atribut A

j : nilai maksimal yang mungkin untuk atribut A

|Dj| : jumlah sampel untuk nilai j

D : jumlah seluruh sampel data

Di : jumlah sampel untuk kelas i


20

2.7 K-Fold Cross Validation

Model klasifikasi yang dibangun dengan menggunakan teknik

pembelajaran dapat digunakan metode k-fold cross-validation untuk

mempartisi data. Himpunan data D dipartisi secara acak menjadi k fold (sub

himpunan) yang saling bebas: f1, f2, … fk, sehingga masing-masing fold berisi

1/k bagian data. Selanjutnya dapat dibangun k himpunan data: D1, D2, … Dk

yang masing-masing berisi (k-1) fold untuk data latih dan 1 fold untuk data

uji. Misalnya, dengan menggunakan k=5 maka akan didapatkan himpunan

data D1 berisi empat fold: f2, f3, f4, dan f5 untuk data latih serta satu fold f1

untuk data uji. Himpunan data D2 berisi fold f1, f3, f4 dan f5 sebagai data

latih sementara f2 digunakan sebagai data uji. Begitu pula seterusnya untuk

himpunan data D3, D4, dan D5. Tidak hanya sebatas dua himpunan saja, k

fold dapat dibangun menjadi tiga himpunan yang terdiri dari data latih, data

validasi dan data uji. Sehingga masing-masing berisi (k-2) fold untuk data

latih, 1 fold untuk data validasi dan 1 fold untuk data uji. Pada umumnya,

penggunaan k=10 lebih banyak digunakan karena akan mendapatkan akurasi

dengan bias dan variansi yang lebih relatif rendah. Dengan menggunakan

metode k-fold cross-validation, dapat digunakan untuk mengukur kualitas

dari model klasifikasi yang dibangun (Suyanto, 2019). Berikut diilustrasikan

pembagian data menggunakan 3-Fold Cross Validation yang membagi data

menjadi 1

3 data testing dan

2

3 data training.

Gambar 2.7 Skema pembagian data 3-Fold Cross Validation

Keterangan :

Testing set Training set

Dataset

Fold 1

Fold 2

Fold 3

Dataset

Fold 1

Fold 2

Fold 3

Dataset

Fold 1

Fold 2

Fold 3


21

2.8 Confusion Matrix

Confusion matrix merupakan ukuran evaluasi untuk menilai kualitas

classifier. Confusion matrix menyatakan jumlah data uji yang benar

diklasifikasikan dan jumlah data uji yang salah diklasifikasikan. Terdapat

beberapa ukuran yang dapat digunakan dalam menilai atau mengevaluasi

model klasifikasi seperti accuracy atau tingkat pengenalan, error rate atau

tingkat kesalahan, recall atau sensitivity atau true positive rate, specificity

atau true negative rate, precision, F-measure atau F1 atau F-score atau rata-

rata harmonik dari precision dan recall, serta Fβ (Han, et al., 2012).

Tabel 2.6 Ukuran evaluasi model klasifikasi

No Ukuran Rumus

1 Accuracy atau tingkat pengenalan 𝑇𝑃 + 𝑇𝑁

𝑃 + 𝑁

2 Error rate atau tingkat kesalahan 𝐹𝑃 + 𝐹𝑁

𝑃 + 𝑁

3 Recall atau true positive rate 𝑇𝑃

𝑃

4 Specificity atau true negative 𝑇𝑁

𝑁

5 Precision 𝑇𝑃

𝑇𝑃 + 𝐹𝑃

6 F atau F1 2 𝑥 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑥 𝑟𝑒𝑐𝑎𝑙𝑙

𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙

7 Fβ, di mana β adalah sebuah bilangan

riil non-negatif

(1 + 𝛽2) 𝑥 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑥 𝑟𝑒𝑐𝑎𝑙𝑙

𝛽2 𝑥 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙

Terdapat beberapa istilah penting dalam memahami ukuran evaluasi di atas

yaitu :

• TP atau True Positives adalah jumlah tuple positif yang dilabeli dengan

benar oleh classifier.


22

• TN atau True Negative adalah jumlah tuple negatif yang dilabeli dengan

benar oleh classifier.

• FP atau False Positives adalah jumlah tuple negatif yang salah dilabeli

oleh classifier.

• FN atau False Negative adalah jumlah tuple positif yang salah dilabeli

oleh classifier.

Istilah-istilah tersebut dapat digambarkan sebagai confusion matrix seperti

gambar berikut ini.

Tabel 2.7 Confusion Matrix

Kelas hasil Prediksi

Ya Tidak Jumlah

Kelas aktual Ya TP FN P

Tidak FP TN N

Jumlah P’ N’ P + N

TP dan TN menyatakan bahwa classifier mengenali tuple dengan benar,

yang berarti tuple positif dikenali sebagai positif dan tuple negatif dikenali

sebagai negatif. Sebaliknya, FP dan FN menyatakan bahwa classifier salah

dalam mengenali tuple, tuple negatif dikenali sebagai positif dan tuple negatif

dikenali sebagai posititf. P’ adalah jumlah tuple yang diberi label positif(TP

+ FP) sedangkan N’ adalah jumlah tuple yang diberi label negatif (TN + FN).

Sementara itu, jumlah keseluruhan tuple dapat dinyatakan sebagai (TP + TN

+ FP + FN) atau (P + N) atau (P’ + N’) (Suyanto, 2019).

2.9 Normalisasi

Keberagaman nilai atribut dalam suatu dataset seringkali membuat

suatu atribut dapat mendominasi seluruh dataset. Sehingga diperlukan adanya

normalisasi agar setiap atribut dalam dataset memiliki bobot yang sama.

Normalisasi adalah proses transformasi dimana sebuah atribut numerik

diskalakan dalam range yang lebih kecil seperti -1.0 sampai 1.0, atau 0.0


23

sampai 1.0 (Junaedi, et al., 2011). Terdapat beberapa metode yang dapat

diterapakan untuk menormalisasi data, salah satunya yaitu min-max dan z-

score.

2.9.1 Normalisasi Min-Max

Metode min-max merupakan metode yang sering dipergunakan

dalam menormalisasi data. Metode normalisasi ini merupakan metode

yang paling sederhana dengan melakukan transformasi linier terhadap data

asli dan memiliki kelebihan yaitu terdapat keseimbangan nilai

perbandingan antara nilai data sebelum dinormalisasi dengan nilai data

yang telah dinormaliasi (Rofiqoh, et al., 2017). Berikut rumus yang

digunakan dalam normalisasi min-max :

𝑣′ = 𝑣−𝑚𝑖𝑛𝐴

𝑚𝑎𝑥𝐴−𝑚𝑖𝑛𝐴(𝑛𝑒𝑤_𝑚𝑎𝑥𝐴 − 𝑛𝑒𝑤_𝑚𝑖𝑛𝐴) + 𝑛𝑒𝑤_𝑚𝑖𝑛𝐴 (2.22)

Keterangan :

v : value (data asli)

v’ : nilai value baru

A : atribut

maxA, minA : nilai value maksimum dan minimum dalam data asli

new_maxA, new_minA : rentang nilai value maximum dan minimum

yang sudah dinormalisasi, contoh [1,0]

Implementasi dari perhitungan normalisasi min-max dapat

dijabarkan seperti dalam contoh berikut ini yang menggunakan contoh

data sampel pada Tabel 2.8.

Normalisasi atribut X1 data ke-1

8.4 − 7

8.4 − 7(1 − 0) + 0 = 1


24

Normalisasi atribut X2 data ke-1

3 − 0

4 − 0(1 − 0) + 0 = 0.75

Tabel 2.8 Sampel data sebelum dinormalisasi

Dat

a

X1 X2

1 8.4 3

2 8.3 2

3 8 1

4 7 0

5 8 4

Setelah dilakukan normalisasi min-max, hasil transformasi data

tampil seperti pada Tabel 2.9.

Tabel 2.9 Sampel data setelah dinormalisasi min-max

Data X1 X2

1 1 0.75

2 0.93 0.50

3 0.71 0.25

4 0 0

5 0.71 1

2.9.2 Normalisasi Z-Score

Normalisasi z-score atau disebut juga zero-mean normalization

merupakan normalisasi yang dimana nilai dari sebuah atribut A

dinormalisasi berdasarkan nilai rata-rata dan standar deviasi dari atribut A

(Hardiani, et al., n.d.). Berikut rumus yang digunakan dalam normalisasi

z-score :

𝑣′ = 𝑣−�̅�

𝜎𝐴 (2.23)


25

Keterangan :

v : value (data asli)

v’ : nilai value baru

�̅� : nilai rata-rata atribut A

𝜎𝐴 : standar deviasi atribut A

Implementasi dari perhitungan normalisasi z-score dapat dijabarkan

seperti dalam contoh berikut ini yang menggunakan contoh data sampel

pada Tabel 2.8.

Hitung nilai rata-rata atribut X1

𝑋1̅̅̅̅ = 8.4+8.3+8+7+8

5= 7.94

Hitung nilai standar deviasi atribut X1

Data X1 X12

1 8.4 70.56

2 8.3 68.89

3 8 64

4 7 49

5 8 64

Jumlah 39.7 316.45

𝜎𝑋1 = √∑ 𝑋12 −

(∑ 𝑋1)2

𝑛𝑛 − 1

= √316.45 −

(39.7)2

55 − 1

= √316.45 − 315.218

4

= √0.308

= 0.55


26

Keterangan :

n : jumlah data

Normalisasi atribut X1 data ke-1 menggunakan rumus 2.23

𝑣′ = 8.4 − 7.94

0.55= 0.83

Setelah dilakukan normalisasi z-score, hasil transformasi data tampil

seperti pada Tabel 2.10.

Tabel 2.10 Sampel data setelah dinormalisasi z-score

Data X1 X2

1 0.83 0.63

2 0.65 0.00

3 0.11 -0.63

4 -1.69 -1.26

5 0.11 1.26

2.10 Varietas Kopi Arabika

Persebaran kopi arabika di dunia saat ini telah berkembang varietasnya

dan sangat variatif. Proses penanaman dan lokasi tanam yang berbeda

mengakibatkan mutu cita rasa kopi arabika berbeda pula. Ukuran cita rasa

kopi yang biasa digunakan meliputi aroma, flavor, aftertaste, acidity, body,

sweetness, cniformity, clean cup, balance, defect, serta overall (Team, 2007).

Beragam varietas kopi yang telah dikenal di seluruh dunia dikelompokkan

menjadi 4 jenis utama :

• Bourbon-Typica Group

• Ethiopian Landrace

• Introgressed

• F1 Hybrids

(Research, 2018)


27

Seperti terlihat pada keempat kelompok varietas kopi diatas, pada

penelitian ini akan digunakan kelompok varietas turunan dari kelompok

Bourbon-Typica Group. Dalam Bourbon Typica Group sendiri terdapat 23

turunan yang terdiri dari 3 kategori yaitu Bourbon (Bourbon, Bourbon

Mayaguez, Caturra, Jackson, K7, KP423, Pacas, SL28, Tekisic, Venecia,

Villa Sarchi), Typica (Harrar Rwanda, Maragogipe, Mibirizi, Nyasaland,

Pache, Pp3303/21, SL14, SL34, Typica) dan Bourbon and Typica (Catuai,

Mundo Novo, Pacamara) (Research, 2018). Dalam penelitian ini akan

digunakan 3 turunan dari kategori Bourbon dan Typica, ketiga turunan

tersebut yaitu :

• Bourbon

Kopi ini dikenal sebagai kopi yang berkualitas tinggi. Bourbon

memiliki ciri seperti relatif rendahnya tingkat produksi, mudah

terpengaruh oleh penyakit, dan kualitas cangkir yang sangat baik.

• Caturra

Caturra merupakan tanaman dengan potensi hasil yang tinggi dari

standar di bagian Amerika Tengah. Kopi ini sangat rentan terhadap

karat daun kopi.

• Typica

Typica merupakan salah satu kopi arabika yang penting secara budaya

dan genetis dengan kualitas tinggi di bagian Amerika Tengah. Kopi ini

memiliki kerentanan yang sangat tinggi terhadap karat daun, tetapi

dapat beradaptasi dengan baik pada kondisi terdingin.

(Research, 2019)

2.11 Pengujian Mutu Kopi

Standar umum pengujian mutu pada biji kopi dapat dilakukan dua acara

yaitu mutu fisik dan mutu cita rasa. Pengujian berdasarkan mutu fisik

merupakan suatu sistem yang digunakan untuk menilai kualitas dari biji kopi

berdasarkan fisiknya, baik menggunakan alat bantu atau menggunakan indra

manusia sesuai dengan standar yang berlaku. Standar yang digunakan dapat


28

berdasarkan Standar Nasional Indonesia(SNI) atau Specialty Coffee

Association of America (SCAA) untuk specialty coffee. Sedangkan pengujian

berdasarkan mutu cita rasa ditentukan berdasar uji organoleptik (analisis

sensorial) oleh panelis (Team, 2007)

2.12 Pengujian Mutu Cita Rasa Kopi SCAA

Standar pengujian mutu cita rasa yang dianjurkan oleh SCAA bertujuan

sebagai pedoman yang memastikan kemampuan untuk menilai kualitas kopi

secara akurat. Proses pengujian ini menggunakan gelas cupping sebagai alat

bantu. Ketentuan gelas cupping yang digunakan untuk menilai berdasarkan

rekomendasi SCAA yaitu memiliki bahan kaca atau keramik. Harus diantara

7-9 ons cairan (207ml hingga 266ml), dengan diameter atas antara 3 sampai

3.5 inci (76mm-89mm). Semua cangkir yang digunakan harus memiliki

volume, dimensi dan bahan pembuatan yang identik serta memiliki tutup.

Selain itu konsentrasi air yang digunakan kurang lebih 125-175 ppm (SCAA,

2015). Ketentuan persiapan pengujian yang telah dijabarkan merupakan

hanya sebagian kecil dari protokol yang terdapat dalam cupping protocol

SCAA.

Prosedur penilaian dilakukan dengan menggunakan SCAA Cupping

Form yang tampak pada Gambar 2.8 pada form ini diisikan dengan skala

kualitas seperti yang tertera pada Tabel 2.11. Skor penilaian berupa nilai

numerik dengan skala 6 sampai 9.


29

Gambar 2.8 Cupping Form


30

Tabel 2.11 Skala Kualitas

Quality Scale

6.00

(Good)

7.00

(Very Good)

8.00

(Excellent)

9.00

(Outstanding)

6.25 7.25 8.00 9.00

6.50 7.50 8.50 9.50

6.75 7.75 8.75 9.75

Sedangkan untuk penilaian akhir dihitung dengan menjumlahkan skor

individu yang diberikan untuk masing-masing atribut utama dalam kotak

yang ditandai dengan “Total Score”. Kemudian nilai defect dikurangkan

dengan Total Score untuk mendapatkan nilai Final Score. Pada Tabel 2.12

terdapat gambaran deskripsi dari Final Score.

Tabel 2.12 Skala Skor Total

Total Score Quality Classification

90 – 100 Outstanding

Specialty 85 – 89.99 Excellent

80 – 84.99 Very Good

< 80.0 Below Specialty Quality Not Specialty


31

BAB III

METODOLOGI PENELITIAN

3.1 Data

Pada penelitian ini digunakan data Coffee Bean Review yang diperoleh

dari Coffee Quality Institute dan dapat diakses di :

https://www.kaggle.com/ankurchavda/coffee-beans-reviews-by-coffee-

quality-institute yang terdiri dari 1312 data dan 44 atribut. Berikut merupakan

contoh dari sampel data kopi arabika.

Tabel 3.1 Contoh sampel data

ID

Com

pan

y

Alt

itud

e

Reg

ion

Pro

duce

r

Num

ber

.of.

Bag

s

Bag

.Wei

ght

1

metad agricultural

developmet plc

1950-

2200

guji-

hambela METAD PLC 300 60 kg

2

metad agricultural

developmet plc

1950-

2200

guji-

hambela METAD PLC 300 60 kg

29 cigrah s.a de c.v 1400 comayagua Reinerio Zepeda 275 69 kg

ID

Spec

ies

Ow

ner

Countr

y.o

f.O

rigin

Far

m.N

ame

Lot.

Num

ber

Mil

l

ICO

.Num

ber

1 Arabica metad plc Ethiopia metad plc metad plc 2014 / 2015

2 Arabica metad plc Ethiopia metad plc metad plc 2014 / 2015

29 Arabica

bismarck

castro Honduras

los

hicaques

102 cigrah s.a

de c.v. 13-111-053


32

ID

In.C

ountr

y.P

artn

er

Har

ves

t.Y

ear

Gra

din

g.D

ate

Ow

ner

.1

Var

iety

Pro

cess

ing.M

ethod

1

METAD Agricultural

Development plc 2014

April 4th,

2015 metad plc

Washed /

Wet

2

METAD Agricultural

Development plc 2014

April 4th,

2015 metad plc Other

Washed /

Wet

29

Instituto HondureÃ±o

del CafÃ© 2016

May

18th,

2017

Bismarck

Castro Caturra

ID

Aro

ma

Fla

vor

Aft

erta

ste

Aci

dit

y

Body

Bal

ance

Unif

orm

ity

Cle

an.C

up

Sw

eetn

ess

Cupper

.Poin

ts

Tota

l.C

up.P

oin

ts

1 8.67 8.83 8.67 8.75 8.5 8.42 10 10 10 8.75 90.58

2 8.75 8.67 8.5 8.58 8.42 8.42 10 10 10 8.58 89.92

29 8.17 8.08 8.08 8 8.08 8 10 10 10 8.25 86.67


33

ID

Mois

ture

Cat

egory

.One.

Def

ects

Quak

ers

Colo

r

Cat

egory

.Tw

o.D

efec

ts

Expir

atio

n

Cer

tifi

cati

on.B

ody

1 0.12 0 0 Green 0

April 3rd,

2016

METAD Agricultural

Development plc

2 0.12 0 0 Green 1

April 3rd,

2016

METAD Agricultural

Development plc

29 0.1 0 0 Green 3

May 18th,

2018

Instituto HondureÃ±o del

CafÃ©

ID

Cer

tifi

cati

on.A

ddre

ss

Cer

tifi

cati

on.C

onta

ct

unit

_of_

mea

sure

men

t alti

tude_

low

_m

eter

s

alti

tude_

hig

h_m

eter

s

alti

tude_

mea

n_m

eter

s

1

309fcf77415a3661ae83

e027f7e5f05dad786e44

19fef5a731de2db57d16

da10287413f5f99bc2dd m 1950 2200 2075

2

309fcf77415a3661ae83

e027f7e5f05dad786e44

19fef5a731de2db57d16

da10287413f5f99bc2dd m 1950 2200 2075

29

b4660a57e9f8cc613ae5

b8f02bfce8634c763ab4

7f521ca403540f81ec99

daec7da19c2788393880 m 1400 1400 1400


34

Berikut merupakan penjelasan dari setiap atribut pada sampel dataset Tabel

3.1.

Tabel 3.2 Penjelasan Atribut

No Atribut Keterangan

1 ID Id kopi.

2 Species Spesies kopi.

3 Owner Pemilik perusahaan atau nama

perusahaan.

4 Country of Origin Negara asal kopi.

5 Farm.Name Nama pertanian.

6 Lot.Number Lot number dibuat untuk membedakan

satu area pertanian, lereng bukit, hasil satu

hari, atau bahkan metode pemrosesan.

7 Mill Pabrik pemrosesan biji kopi.

8 ICO.Number Kombinasi angka yang meliputi kode

negara, kode untuk eksportir atau

penanam, dan nomor parsel. Nomor ICO

merupakan unik untuk setiap paket kopi.

9 Company Perusahaan yang membuat kopi.

10 Altitude Ketinggian penanaman kopi.

11 Region Wilayah tempat kopi itu tumbuh.

12 Producer Produsen yang memproduksi kopi.

13 Number.of.Bags Jumlah tas yang dipanen.

14 Bag.Weight Berat tas panen.

15 In.Country.Partner Mitra perusahaan di negara asal.

16 Harvest.Year Tahun panen.

17 Grading.Date Tanggal kopi direview.

18 Owner.1 Pemilik perusahaan atau nama

perusahaan.


35


19 Variety Jenis kopi.

20 Processing.Method Metode pemrosesan yang digunakan

untuk mengolah biji kopi.

21 Aroma Bau kopi setelah ditambahkan air panas.

22 Flavor Karakteristik rasa dari kopi.

23 Aftertaste Lama bertahannya suatu flavor positif

(rasa dan aroma) yang berasal dari langit-

langit belakang mulut dan bertahan setelah

kopi ditelan.

24 Acidity Ketajaman dan keaktifan keasaman pada

kopi.

25 Body Perasaan sentuhan kopi di mulut

khususnya antara lidah dan langit-langit

mulut.

26 Balance Semua aspek flavor, aftertaste, acidity dan

body seimbang, tidak ada satu rasa

mendominasi yang lain. Jika terdapat

salah satu aspek kurang atau berlebihan

maka nilai balance dapat berkurang.

27 Uniformity Keseragaman yang mengacu pada

konsistensi rasa dari sampel cangkir yang

berbeda.

28 Clean.Cup Kurangnya gangguan negatif dari

konsumsi pertama hingga akhir aftertaste

(tidak adanya cacat rasa).

29 Sweetness Rasa manis yang mengacu pada

kepenuhan rasa yang enak serta rasa manis

yang jelas. Hasil persepsi ini merupakan

hasil dari adanya karbohidrat tertentu.


36


30 Cupper.Points Aspek penilaian “keseluruhan” yang

dirasakan oleh panelis.

31 Total.Cup.Points Poin yang didapatkan dengan

menjumlahkan skor individu yang

kemudian dikurangi dengan jumlah cacat.

32 Moisture Jumlah cairan yang tersebar dalam jumlah

kecil di dalam biji kopi hijau, jika

kelembabannya stabil, biji kopi akan

mempertahankan kelembabannya sampai

ketika dipanggang.

33 Category.One.Defects Cacat utama pada biji kopi.

34 Quakers Biji kopi mentah, seringkali dengan

permukaan yang keriput dan tidak menjadi

gelap ketika di panggang.

35 Color Warna biji kopi.

36 Category.Two.Defects Cacat minor pada biji.

37 Expiration Waktu kadaluwarsa sertifikat biji kopi.

38 Certification.Body Badan sertifikasi.

39 Certification.Address Alamat sertifikasi.

40 Certification.Contact Kontak sertifikasi.

41 unit_of_measurement Unit pengukuran ketinggian pertanian.

42 altitude_low_meters Ketinggian pertanian yang terendah.

43 altitude_high_meters Ketinggian pertanian yang tertinggi.

44 altitude_mean_meters Ketinggian pertanian rata-rata.


37

3.2 Desain Alat Uji

Sub bab ini berisikan tentang perancangan sistem yang akan dibangun.

Proses yang terjadi dimulai dari tahap preprocessing data, training dan testing

data hingga proses klasifikasi. Berikut merupakan gambaran umum dari

tahapan penelitian yang dilakukan penulis.

Gambar 3.1 Tahapan Penambangan Data

Pada Gambar 3.1 menunjukkan sistem akan melakukan input dataset

kopi yang kemudian dilakukan tahap preprocessing data untuk mengolah

data ke dalam bentuk yang siap diproses oleh sistem. Pada tahap

preprocessing dilakukan beberapa tahapan seperti seleksi data dan

transformasi data, seleksi data akan menyeleksi data berdasarkan kelas dan

atribut sedangkan transformasi data mengubah data kelas kedalam bentuk

numerik dan kemudian dilakukan normalisasi data menggunakan normalisasi


38

min-max dan z-score. Setelah didapatkan dataset hasil preprocessing

selanjutnya terdapat dua tahapan proses yaitu proses training dan testing.

Pada tahapan training dilakukan pemberian label pada data, yaitu 1

untuk Bourbon, 2 untuk Caturra, dan 3 untuk Typica sebagai data latih yang

akan terbagi berdasarkan 3-Fold Cross Validation dengan 2/3 data akan

digunakan sebagai data training. Selanjutnya data dilatih untuk menghasilkan

model SVM. Model SVM yang dibangun menggunakan metode multiclass

one against one dan terdapat 3 fungsi kernel yang digunakan yaitu kernel

Linear, RBF dan Polynomial.

Pada tahapan testing yang menggunakan 1/3 dataset akan dilakukan

klasifikasi berdasarkan model SVM yang telah dibuat pada proses training.

Kemudian dilakukan perhitungan akurasi dengan menggunakan confusion

matrix yang akan membagi jumlah hasil prediksi benar dengan jumlah

seluruh data.

3.3 Cara Mengolah Data

3.3.1 Tahap Preprocessing

Tahapan dalam preprocessing data adalah seleksi data, transformasi data,

pembersihan data, integrasi data dan normalisasi.

a. Seleksi data

Tahapan ini dilakukan untuk menyeleksi data dan menentukan atribut-

atribut yang akan digunakan. Seleksi data yang dilakukan pada

penelitian ini menggunakan tools Microsoft Excel dengan memilih

data dengan label kelas Bourbon, Caturra dan Typica. Pada data yang

tersedia terdapat 29 label kelas yang terdiri dari Arusha, Blue

Mountain, Bourbon, Catuai, Caturra, Ethiopian Heirlooms, Ethiopian

Yirgacheffe, Gesha, Hawaiian Kona, Java, Mandheling, Marigojipe,

Moka Peaberry, Mundo Novo, Pacamara, Pacas, Pache Comun,

Peaberry, Ruiru 11, SL14, SL28, SL34, Sulawesi, Sumatra, Sumatra

Lintong, Typica, dan Yellow Bourbon. Dari 29 kelas yang tersedia,


39

pada penelitian ini hanya akan digunakan 3 kelas untuk dilakukan

pengelompokkan varietas. Ketiga kelas tersebut yaitu Bourbon,

Caturra dan Typica. Pemilihan ketiga kelas ini dilakukan dengan

pertimbangan jumlah dataset Bourbon, Caturra dan Typica yang lebih

seimbang dibandingkan dengan jumlah dataset pada kelas lain.

Jumlah data ketiga kelas tersebut tampak seperti pada Tabel 3.3.

Tabel 3.3 Jumlah Seleksi Kelas

Kelas Jumlah

Bourbon 225

Caturra 256

Typica 208

Total 689

Berikut ditampilkan sampel data dengan beragam label kelas pada

Gambar 3.2.

Gambar 3.2 Sampel data berbagai macam label kelas

Setelah ditentukan data dengan label kelas hanya Bourbon, Caturra

dan Typica maka data akan menjadi seperti pada Gambar 3.3.


40

Gambar 3.3 Sampel data tiga macam label kelas

Seleksi data yang dilakukan dengan menggunakan label kelas

Bourbon, Caturra, dan Typica menghasilkan sebanyak 689 data yang

akan digunakan dalam penelitian dari 1312 data yang tersedia.

Seleksi data yang selanjutnya dilakukan yaitu dengan

menentukan atribut yang akan digunakan, penentuan atribut dilakukan

dengan menggunakan ketentuan cupping form seperti yang terdapat

pada Gambar 2.8 dan menggunakan perangkingan atribut dengan

bantuan Weka tools versi 3.8. Metode yang diterapkan yaitu dengan

menggunakan Information Gain yang akan melakukan evaluasi

atribut pada data training untuk mendapatkan perangkingan atribut.

Seleksi atribut dengan menggunakan cupping form menghasilkan

sejumlah 12 atribut dari 44 atribut. Sehingga hasil dari seleksi atribut

tersebut yaitu Aroma, Flavor, Aftertaste, Acidity, Body, Balance,

Uniformity, Clean.Cup, Sweetness, Cupper.Points,

Category.One.Defects, dan Category.Two.Defects. Selanjutnya

dilakukan perangkingan atribut untuk melihat atribut-atribut yang

relevan dalam penelitian.

Hasil perangkingan atribut dengan menggunakan information

gain terlihat dalam Gambar 3.4 yang menempatkan atribut Balance

sebagai atribut yang memiliki nilai rangking tertinggi.


41

Gambar 3.4 Hasil perangkingan atribut

Setelah didapat hasil perangkingan atribut dari data uji 12

atribut, terdapat informasi dengan 3 atribut yang mendapatkan nilai

terendah yaitu Sweetness, Category.One.Defects, dan Clean.Cup.

Selanjutnya dilakukan seleksi atribut dengan menggunakan akurasi

yang terdapat pada WEKA seperti yang terdapat pada Tabel 4.3.

Sehingga atribut yang akan digunakan dalam penelitian ini hanya akan

menggunakan 11 atribut saja seperti tampak pada Tabel 3.4.

Tabel 3.4 Atribut hasil Information Gain

No. Nama Atribut

1. Aroma

2. Flavor

3. Aftertaste

4. Acidity

5. Body

6. Balance

7. Uniformity

8. Sweetness

9. Cupper.Points

10. Category.One.Defects

11. Category.Two.Defects


42

b. Transformasi data

Transformasi data pada penelitian ini dilakukan dengan dua cara.

Pertama, dilakukan transformasi data pada label kelas dengan

mengubah tipe data kolom Variety menjadi numerik agar dapat

diproses pada saat klasifikasi. Sehingga transformasi pada label kelas

akan menjadi seperti berikut.

• Bourbon : 1

• Caturra : 2

• Typica : 3

Selanjutnya transformasi data dilakukan dengan menormalisasi data

agar setiap atribut dalam dataset memiliki bobot yang sama sehingga

tidak ada salah satu atribut yang mendominasi. Hal ini dilakukan

karena jika terdapat atribut yang berbeda-beda seringkali pemrosesan

data menjadi bias. Normalisasi yang akan dilakukan yaitu

menggunakan normalisasi min-max dan z-score. Normalisasi min-

max akan mentransformasi nilai data berdasarkan nilai minimum dan

maksimum pada dataset, sedangkan normalisasi z-score

mentransformasi nilai data berdasarkan nilai rata-rata dan standar

deviasi.

3.3.2 K-Fold Cross Validation

Pada penelitian ini digunakan data sebanyak 689 data records yang

akan dibagi menjadi dua bagian untuk melakukan pengujian yaitu data

training dan data testing. Masing-masing kelompok data dibagi

berdasarkan pengujian 3-Fold Cross Validation yang ditentukan 2/3 data

training dan 1/3 data testing. Berikut ini ilustrasi pembagian data yang

dilakukan pada Tabel 3.5.


43

Tabel 3.5 Simulasi pembagian data training dan data testing

Keterangan :

Testing set Training set

3.3.3 Tahap Klasifikasi

Tahap klasifikasi ini menggunakan Support Vector Machine (SVM).

Support Vector Machine akan menggunakan tools pada Matlab

menggunakan fungsi biner yang akan ditambahkan fungsi multi kelas.

Berikut ilustrasi tahapan klasifikasi SVM menggunakan metode one-

against-one dengan tiga label kelas pada Gambar 3.5 sampai dengan

Gambar 3.9. SVM hanya dapat mengklasifikasikan 2 kelas saja, tetapi

dengan adanya konsep multiclass maka metode SVM memungkinkan

untuk melakukan klasifikasi lebih dari dua kelas. Pada Gambar 3.5

memperlihatkan terdapat 3 kelas data yang diperlihatkan dengan warna

hitam sebagai kelas 1, merah sebagai kelas 2, dan biru sebagai kelas 3.

Dengan menggunakan konsep multiclass dan metode one-against-one

maka akan dibangun 3 kelas biner. Tiga kelas biner ini diperoleh dengan

menggunakan rumus pada persamaan 2.18 sehingga model biner SVM

yang dibangun yaitu sejumlah 3(3-1)/2=3. Model biner SVM ini terdiri

dari kelas 1 lawan 2, 1 lawan 3, dan 2 lawan 3.

Data ke : 1 - 229

Data ke : 230 – 459

Data ke : 460 - 689

Data ke : 1 – 229

Data ke : 230 – 459

Data ke : 460 - 689

Data ke : 1 – 229

Data ke : 230 – 459

Data ke : 460 - 689


44

Gambar 3.5 Klasifikasi dengan tiga kelas (W, 2017)

Pada model kelas biner yang pertama seperti yang terlihat pada

Gambar 3.6, objek baru diklasifikasikan dengan menggunakan data

training dari kelas 1 dan 2. Diasumsikan objek data tersebut lebih dekat ke

kelas 2, maka kelas 2 akan dipilih untuk dilakukan voting.

Gambar 3.6 Kelas 1 dan kelas 2

Pada model kelas biner yang kedua seperti yang terlihat pada





45


Pada model kelas biner yang ketiga seperti yang terlihat pada





Selanjutnya dilakukan voting untuk menentukan kelas klasifikasi.

Hasil voting dari kelas biner pertama hingga ketiga, kelas 2 memiliki

voting terbanyak, sehingga hasil klasifikasi dari data objek baru akan

dikategorikan sebagai kelas 2 seperti yang terlihat pada Gambar 3.9.


46

Gambar 3.9 Hasil voting

3.4 Desain Pengujian

Pada penelitian ini digunakan pengujian menggunakan metode 3-Fold

Cross Validation yang akan membagi 689 data menjadi 3 bagian. Selanjutnya

dilakukan pengujian sebanyak 3 kali dengan menggunakan kelompok-

kelompok data yang telah terbagi. Illustrasi pembagian kelompok data

tampak seperti pada Table 3.5.

Setelah dilakukan pembagian kelompok data kemudian dilakukan

pengujian data. Pengujian data dilakukan sebanyak 3 kali karena

menggunakan 3-Fold Cross Validation. Tampak pengujian seperti pada

Tabel 3.6. Hasil dari pengujian ini yaitu sebuah confusion matrix yang

merepresentasikan jumlah prediksi dalam klasifikasi baik itu prediksi yang

benar maupun yang salah. Setelah didapatkan jumlah hasil prediksi, langkah

selanjutnya menghitung akurasi berdasarkan confusion matrix yang diperoleh.

Rumus perhitungan akurasi ini tampak seperti pada rumus 3.1.

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =𝑇𝑢𝑝𝑙𝑒 𝑏𝑒𝑛𝑎𝑟

𝐽𝑢𝑚𝑙𝑎ℎ 𝐷𝑎𝑡𝑎𝑥 100% (3.1)


47

Tabel 3.6 Tabel Pengujian

Percobaan Data Training Data Testing

1 2, 3 1

2 1, 3 2

3 1, 2 3

3.5 Kebutuhan Sistem

3.5.1 Perangkat Keras (Hardware)

Laptop diperlukan dalam menunjang pembuatan sistem, adapun

spesifikasi yang digunakan dalam pembuatan sistem ini yaitu :

Tabel 3.7 Spesifikasi PC

Model ASUS X45C

Platform Notebook-PC

Hard Disk Drive 500 Gigabyte

Graphic Processing Unit Intel® HD Graphics 3000

Operating System Microsoft Windows 10 Professional

Memory 4 Gigabyte

3.5.2 Perangkat Lunak (Software)

Perangkat lunak yang diperlukan adalah menggunakan software

Microsoft Excel 2013, Weka versi 3.8 dan Matlab versi R2016b untuk

membuat serta menjalankan sistem yang dibuat.


48

3.6 Perancangan Antar Muka Sistem

Gambar 3.10 Prototype GUI Program

Gambar 3.10 merupakan desain dari user interface yang akan digunakan.

Terdapat dua panel utama yang digunakan yaitu panel proses data dan panel

uji data tunggal. Pada panel proses data terdapat tombol Upload File untuk

memasukkan data tabel yang telah dilakukan preprocessing dan kemudian

muncul pada tabel Data Uji Cita Rasa Kopi. Selanjutnya proses training data

dilakukan pada tombol Train yang akan memberikan output confusion matrix

pada tabel Confusion Matrix Data Uji 1, 2, dan 3. Kemudian hasil akurasi

tampil pada field Akurasi dan Total Akurasi. Panel yang kedua yaitu panel

Uji Data Tunggal, panel ini digunakan untuk pengguna melakukan klasifikasi

terhadap data baru yang dimasukkan oleh user pada masing-masing field yang

dimana ketika telah dimasukkan keseluruhan data dan diklik tombol

Klasifikasi, sistem akan memberikan output varietas kopi pada panel Hasil

Klasifikasi. Tombol Reset digunakan untuk mengosongkon field isian dan

menjadi default seperti semula.


49

BAB IV

IMPLEMENTASI DAN ANALISIS HASIL

4.1 Distribusi Data

Penyajian distribusi data pada bagian ini bertujuan untuk menunjukkan

persebaran data yang digunakan dalam penelitian secara umum. Jumlah data

yang digunakan dalam penelitian adalah sebanyak 689 data dan 11 atribut.

Data terdiri dari dua jenis kategori yaitu atribut numerik dan atribut nominal.

Atribut masukan berjenis numerik dan penyebarannya ditampilkan seperti

pada Tabel 4.1.

Tabel 4.1 Atribut Masukkan

Atribut Masukan Nilai Minimum Nilai Maximum Mean

Aroma 5.08 8.5 7.55

Flavor 6.08 8.5 7.48

Aftertaste 6.17 8.42 7.36

Acidity 5.25 8.42 7.50

Body 6.33 8.33 7.49

Balance 6.08 8.58 7.48

Uniformity 6 10 9.85

Sweetness 6 10 9.93

Cupper.Points 5.25 9.25 7.44

Category.One.Defects 0 31 0.44

Category.Two.Defects 0 47 3.63

Sedangkan atribut keluaran terdiri dari atribut variety yang memiliki 3

jenis varietas kopi arabika. Ketiga varietas tersebut terdistribusi seperti dalam

Tabel 4.2.


50

Tabel 4.2 Atribut Keluaran

Atribut keluaran Jumlah Prosentase

variety Bourbon 225 32.66%

Caturra 255 37.01%

Typica 209 30.33%

Total data 689 100%

Terlihat pada data yang digunakan sebagai bahan penelitian, jenis

Caturra mendominasi data dengan persentase 37.01%, kemudian disusul

Bourbon dengan persentase 32.66% dan Typica 30.33%. Persebaran data

varietas ini cukup merata sebagai bahan penelitian untuk dilakukan proses

klasifikasi data.

4.2 Preprocessing

4.2.1 Data Selection

Tahap seleksi data ini bertujuan untuk memilih data agar dapat

menghasilkan akurasi yang akurat dan efektif. Proses seleksi data

dilakukan menggunakan tools Microsoft Excel. Pemilihan atribut

didasarkan pada test cup atau pengujian mutu cita rasa kopi yang

merupakan standar dalam penilaian kualitas kopi berdasarkan uji

organoleptic(analisis sensorial) oleh panelis.

Dengan menggunakan panduan cupping form seperti pada

Gambar 2.8, atribut yang digunakan dalam penelitian ini kemudian

diseleksi. Sehingga dari 44 atribut yang ada, kemudian data menjadi 12

atribut diantaranya yaitu Aroma, Flavor, Aftertaste, Acidity, Body,

Sweetness, Uniformity, Clean.Cup, Balance, Category.One.Defects,

Category.Two.Defects, dan Cupper.Points.

Setelah dilakukan seleksi data berdasarkan cupping form,

dilakukan pemilihan data berdasarkan varietas yang dipilih yaitu

berdasarkan varietas Bourbon, Caturra, dan Typica. Selanjutnya


51

dilakukan pengecekan atribut untuk menentukan apakah perlu

dilakukan reduksi data. Data direduksi dengan bantuan aplikasi Weka.

Dengan menggunakan fungsi information gain, data dirangking dan

menghasilkan urutan perangkingan seperti pada Gambar 3.4.

Selanjutnya dilakukan uji akurasi menggunakan aplikasi WEKA

dengan algoritma SVM untuk melihat pengaruh jumlah atribut pada

akurasi. Pengujian akurasi pada aplikasi WEKA menggunakan Linear

Kernel, RBF Kernel dan Polynomial Kernel. Pengujian ini

menggunakan 3-Fold cross validation dan hasil akurasi tampak seperti

pada Tabel 4.3.

Tabel 4.3 Akurasi perangkingan atribut

Jumlah

Atribut Atribut Linear RBF Polynomial

12 Balance, Category.Two.Defects,

Cupper.Points, Body, Flavor,

Aftertaste, Aroma, Acidity,

Uniformity, Sweetness,

Category.One.Defects,

Clean.Cup

48.19% 47.31% 50.07%




Uniformity, Sweetness,

Category.One.Defects

49.78% 47.17% 51.81%




Uniformity, Sweetness

49.78% 47.75% 49.06%


52

Jumlah

Atribut Atribut Linear RBF Polynomial

9

Balance, Category.Two.Defects,



Uniformity

49.93% 47.17% 49.35%



Aftertaste, Aroma, Acidity

50.07% 46.15% 48.91%



Aftertaste, Aroma

49.64% 44.70% 48.04%



Aftertaste

49.20% 45.28% 48.62%


Cupper.Points, Body, Flavor 46.73% 46.30% 47.17%


Cupper.Points, Body 46.44% 46.15% 48.19%


Cupper.Points 46.30% 44.56% 47.31%

2 Balance, Category.Two.Defects 45.28% 43.54% 46.73%

1 Balance 45.43% 44.70% 45.86%

Rata - rata 48.06% 45.90% 48.43%

Berdasarkan hasil akurasi pada Tabel 4.3, terdapat hasil akurasi

tertinggi pada atribut ke-11 menggunakan Polynomial Kernel dengan

hasil akurasi 51.81%. Dari hasil akurasi tersebut penulis melakukan

reduksi data sebanyak 1 atribut yaitu atribut Clean.Cup dari 12 atribut

sebagai bahan penelitian. Sehingga 11 atribut yang akan digunakan


53

yaitu Balance, Category.Two.Defects, Cupper.Points, Body, Flavor,

Aftertaste, Aroma, Acidity, Uniformity, Sweetness, dan

Category.One.Defects.

4.2.2 Transformasi Data

4.2.2.1 Transformasi Data Label

Setelah melakukan seleksi data selanjutnya dilakukan

transformasi data pada label kelas Variety dengan mengubah nilai

nominal pada Variety menjadi nilai numerik. Berikut contoh data

yang akan ditransformasi tampak seperti pada Tabel 4.4.

Tabel 4.4 Transformasi atribut variety

Atribut Data Sebelum

Ditransformasi

Data Setelah

Ditransformasi

Variety Bourbon 1

Caturra 2

Typica 3

4.2.2.2 Normalisasi

Setelah melakukan transformasi data, langkah preprocessing

yang selanjunya yaitu menormalisasi data. Normalisasi data

dilakukan untuk menskalakan nilai atribut agar setiap atribut

memiliki bobot yang sama. Normalisasi yang digunakan pada

penelitian ini yaitu menggunakan normalisasi min-max dan z-score.

Contoh sampel data sebelum dilakukan normalisasi tampak seperti

pada Tabel 4.5, contoh sampel data setelah dilakukan normalisasi

min-max tampak seperti pada Tabel 4.6, dan sampel data setelah

dinormalisasi z-score tampak seperti pada Tabel 4.7.


54

Tabel 4.5 Sampel data sebelum dinormalisasi

Dat

a

Bal

ance

Cat

egory

.Tw

o.D

efec

ts

Cup

per

.Poin

ts

Bod

y

Fla

vor

Aft

erta

ste

Aro

ma

Aci

dit

y

Un

iform

ity

Sw

eetn

ess

Cat

egory

.On

e.D

efec

ts

Var

iety

1 8.42 0 9.25 8.33 8.5 8.42 8.42 8.42 10 10 0 1

2 8.33 2 8.33 8 8.25 8 8.08 8.17 10 10 0 2

3 8 2 7.92 8 8.5 8 8.5 8 10 10 0 1

4 8 3 8.25 8.08 8.08 8.08 8.17 8 10 10 0 2

5 8 2 8 8 8.17 8.17 8.5 7.75 10 10 0 1

Tabel 4.6 Sampel data setelah dinormalisasi min-max

Dat

a

Bal

ance

Cat

ego

ry.T

wo

.Def

ects

Cu

pp

er.P

oin

ts

Bo

dy

Flav

or

Aft

ert

aste

Aro

ma

Aci

dit

y

Un

iform

ity

Sw

eetn

ess

Cat

egory

.One.

Def

ects

Var

iety

1 0.94 0 1 1 1 1 0.98 1 1 1 0 1

2 0.90 0.04 0.77 0.84 0.90 0.81 0.88 0.92 1 1 0 2

3 0.77 0.04 0.67 0.84 1 0.81 1 0.87 1 1 0 1

4 0.77 0.06 0.75 0.88 0.83 0.85 0.90 0.87 1 1 0 2

5 0.77 0.04 0.69 0.84 0.86 0.81 1 0.79 1 1 0 1


55

Tabel 4.7 Sampel data setelah dinormalisasi z-score

Dat

a

Bal

ance

Cat

ego

ry.T

wo

.Def

ects

Cu

pp

er.P

oin

ts

Bo

dy

Flav

or

Aft

ert

aste

Aro

ma

Aci

dit

y

Un

iform

ity

Sw

eetn

ess

Cat

egory

.On

e.D

efec

ts

Var

iety

1 2.80 -0.70 4.66 3.08 3.10 3.22 2.86 3.09 0.31 0.18 -0.20 1

2 2.53 -0.31 2.28 2.28 2.33 1.94 1.74 2.24 0.31 0.18 -0.20 2

3 1.54 -0.31 1.22 1.22 3.10 1.94 3.13 1.67 0.31 0.18 -0.20 1

4 1.54 -0.12 2.07 2.07 1.81 2.18 2.04 1.67 0.31 0.18 -0.20 2

5 1.54 -0.31 1.42 1.42 2.09 1.94 3.13 0.82 0.31 0.18 -0.20 1

4.3 Klasifikasi

Pada tahap klasifikasi Support Vector Machine ini dimulai dengan

membuat pemodelan klasifikasi yang akan digunakan. Pemodelan SVM yang

akan dibuat berdasarkan 3 kelas yang digunakan. Pada penelitian ini

digunakan 3 kelas yang digunakan yaitu Bourbon, Caturra dan Typica. Sesuai

dengan rumus pada nomor 2.18 maka pemodelan SVM yang dibuat yaitu

sebanyak (3*(3-1))/2=3 kelas model klasifikasi biner. Selanjutnya hasil dari

klasifikasi tersebut akan ditampung dan kemudian dilakukan voting dengan

hasil frekuensi terbanyak. Penelitian ini menggunakan library yang sudah

tersedia di Matlab untuk melakukan perhitungan dengan Support Vector

Machine. Function yang digunakan dalam membangun pemodelan prediksi

varietas kopi yaitu fitcsvm() dan svm1v1(). Penggunaan function fitcsvm()

secara umum dapat ditampilkan seperti dibawah ini.

fitcsvm(dataTraining, labelTraining, ’KernelFunction’, ’nama_kernel’);

Pada fungsi fitcsvm() ini terdapat 4 argumen yang diterapkan dalam

sistem. Argumen yang pertama yaitu dataTraining, argumen ini merupakan


56

data array yang berisi variabel input dalam penelitian yang dijadikan sebagai

data training. Data array ini berisi 11 kolom atribut yang telah dijelaskan

sebelumnya. Argument kedua yaitu labelTraining yang berisi 1 kolom atribut

dan merupakan data array yang menyatakan variabel output dalam penelitian

yaitu varietas kopi arabika. Argumen ketiga dan keempat menyatakan fungsi

kernel yang digunakan, argumen ini merupakan argumen tambahan sebagai

fungsi perhitungan dalam metode Support Vector Machine. Kernel yang

digunakan dalam penelitian ini yaitu Linear Kernel, Radial Basic

Function(RBF) Kernel, dan Polynomial Kernel. Implementasi fungsi kernel

pada matlab dapat terlihat seperti pada Tabel 4.8.

Tabel 4.8 Implementasi fungsi SVM

Fungsi Kernel Implementasi

Linear fitcsvm(DataTrain, LabelTrain,

‘KernelFunction’,’linear’);

Radial Basic Function(RBF)

fitcsvm(DataTrain, LabelTrain,

‘KernelFunction’,’rbf’);

Polynomial fitcsvm(DataTrain, LabelTrain,

‘KernelFunction’,’polynomial’);

Fungsi svm1v1() digunakan untuk melihat hasil prediksi data testing

dari implementasi Support Vector Machine yang sebelumnya telah dibuat.

Sehingga fungsi svm1v1() dapat diimplementasikan sebagai berikut :

[output,vote] = svm1v1(DataTrain, LabelTrain, DataTest(1,:));

Variabel output digunakan untuk menampung hasil klasifikasi dari

variabel DataTest yang merupakan variabel yang berisi data testing. Hasil

output ini didapat dari hasil voting terbanyak, voting ini diperoleh dari hasil

klasifikasi pada variabel vote. Variabel vote menampung hasil voting

keseluruhan kelas dan kemudian diambil hasil klasifikasi dengan jumlah


57

terbanyak. Pada argumen fungsi svm1v1() terdapat 3 argumen yang perlu

dimasukan. Pertama yaitu argumen DataTrain yang digunakan untuk

menampung data training yang digunakan. Argumen kedua yaitu LabelTrain

digunakan untuk menampung label training, sedangkan argumen

DataTest(1,:) berisi data testing yang dimasukan yaitu baris 1 dengan

menggunakan seluruh kolom yang ada. Berikut merupakan contoh isi dari

variable vote yang ditampilkan pada Gambar 4.1.

Gambar 4.1 Hasil variabel voting

Pada Gambar 4.1 terdapat hasil voting dari 3 model klasifikasi biner

yang telah dibuat. Kolom 1 pada gambar merupakan representasi dari label

kelas dan kolom 2 merupakan hasil voting. Tampak pada baris 1 kolom 1

label bernilai 1 yang artinya label 1 tersebut merupakan kelas Bourbon, begitu

pula dengan baris 2 kolom 1 yang merupakan representasi dari Caturra dan

baris 3 kolom 1 representasi dari Typica. Kemudian pada kolom 2 yang

merupakan hasil voting dari setiap label kelas menghasilkan voting sebesar 2

pada label 1, voting sebesar 0 pada label 2 dan 1 vote untuk label 3. Sehingga

voting terbanyak diperoleh label 1 dan hasil klasifikasi SVM terpilih pada

label 1 atau Bourbon.

Gambar 4.2 Hasil variabel voting


58

Pada Gambar 4.2 variabel output yang menampung hasil keluaran dari

klasifikasi akan menghasilkan keluaran dengan label 1 yang merupakan

representasi dari kelas Bourbon.

4.4 Pelatihan dan Pengujian

4.4.1 Uji Performa Fungsi Kernel

Pelatihan dan pengujian menggunakan fungsi kernel bertujuan untuk

mendapatkan fungsi kernel yang paling optimal untuk diimplementasikan

pada penelitian ini. Fungsi kernel yang digunakan dalam percobaan ini

yaitu Linear Kernel, Radian Basic Function(RBF) Kernel dan Polynomial

Kernel. Hasil uji coba yang didapatkan dilihat berdasarkan perhitungan

akurasi pada setiap fungsi kernel. Berikut merupakan hasil perhitungan

akurasi dari uji coba fungsi kernel menggunakan 3-Fold Cross Validation.

Tabel 4.9 Hasil akurasi kernel

Testing Group Akurasi

Linear RBF Polynomial

1 48.91% 32.75% 39.74%

2 41.30% 42.61% 32.17%

3 46.09% 43.48% 19.13%

Rata-rata 45.43% 39.61% 30.35%

Pada Tabel 4.9 terlihat bahwa rata-rata perhitungan akurasi varietas

kopi menggunakan SVM dengan kernel Linear memiliki hasil akurasi

sebesar 45.43%. Hasil akurasi ini lebih tinggi dari kernel RBF yang

memiliki rata-rata hasil akurasi tertinggi kedua sebesar 39.61%.

Sedangkan Polynomial menjadi kernel dengan akurasi terendah dengan

rata-rata akurasi sebesar 30.35%. Hal ini menunjukkan bahwa dengan

menggunakan 3-Fold Cross Validation tanpa normalisasi data, Linear

Kernel menghasilkan performa terbaik dibandingkan RBF maupun

Polynomial Kernel. Hasil akurasi tertinggi pada Linear Kernel terdapat


59

pada data percobaan ke-1 dengan akurasi sebesar 48.91%. Berikut

merupakan grafik performa uji kernel :

Gambar 4.3 Grafik Akurasi Fungsi Kernel

Grafik pada Gambar 4.3 menunjukkan akurasi tertinggi terdapat

pada Linear Kernel, yaitu pada percobaan ke-1 dengan akurasi sebesar

48.91%. Sedangkan akurasi terendah terdapat pada grup data uji ke-3

dengan akurasi sebesar 19.13% menggunakan Polynomial Kernel.

4.4.2 Uji Performa dengan Normalisasi

Pelatihan dan pengujian menggunakan proses normalisasi bertujuan

untuk melihat apakah proses normalisasi akan menghasilkan hasil akurasi

yang lebih baik. Normalisasi yang akan digunakan yaitu normalisasi min-

max dan z-score. Dengan menggunakan 3-Fold Cross Validation, hasil

akurasi menggunakan normalisasi min-max tampak seperti pada Tabel

4.10 .

48.91

41.3

46.09

32.75

42.6143.48

39.74

32.17

19.13

0

10

20

30

40

50

60

1 2 3

Aku

rasi

Grup Data Uji

Grafik Akurasi Fungsi Kernel

Linear

RBF

Polynomial


60

Tabel 4.10 Hasil akurasi dengan normalisasi min-max

Testing Group Akurasi MinMax


1 25.33% 34.93% 48.47%

2 33.48% 35.22% 42.61%

3 30.00% 44.35% 53.91%

Rata-rata 29.60% 38.17% 48.33%

Setelah dilakukan proses normalisasi dengan menggunakan

normalisasi min-max, dari ketiga kernel yang telah dilakukan uji coba

akurasi, hasil akurasi tertinggi diperoleh dengan menggunakan Polynomial

Kernel yaitu sebesar 48.33% yang kemudian disusul oleh RBF Kernel

sebesar 38.17%. Sedangkan akurasi terendah terdapat pada Linear Kernel

dengan akurasi sebesar 29.60%. Pada Linear Kernel mengalami penurunan

akurasi sebesar 20.11% dan RBF Kernel mengalami penurunan akurasi

sebesar 4.68%, sedangkan Polynomial Kernel mengalami kenaikan

akurasi sebesar 18.12% dengan akurasi tertinggi terdapat pada percobaan

ke-3 sebesar 53.91% seperti yang tampak pada Gambar 4.4 yang

menampilkan grafik perbandingan ketiga kernel dengan menggunakan

normalisasi min-max.


61

Gambar 4.4 Grafik Perbandingan Akurasi min-max

Tampak grafik pada Gambar 4.5 perbandingan hasil akurasi tanpa

normalisasi dan dengan menggunakan normalisasi pada Polynomial Kernel.

Setelah dilakukan normalisasi min-max, pada grup data uji ke-3 mengalami

kenaikan akurasi sebesar 34.78% dan grup data uji ke-1 sebesar 8.73%.

Meskipun pada grup data uji ke-2 memiliki akurasi lebih rendah

dibandingkan grup data uji ke-1 dan ke-3, tetapi jika dibandingkan dengan

tanpa normalisasi, pada percobaan ke-2 Polynomial Kernel mengalami

kenaikan akurasi sebesar 10.44%.

Gambar 4.5 Grafik akurasi dengan min-max dan Polynomial Kernel

25.33

33.4830

34.93 35.22

44.3548.47

42.61

53.91

0

10

20

30

40

50

60

1 2 3

Aku

rasi

Grup Data Uji

Perubahan Akurasi Dengan Normalisasi

Linear

RBF

Polynomial

48.47

42.61

53.91

39.7432.17

19.13

0.00

10.00

20.00

30.00

40.00

50.00

60.00

1 2 3

Aku

rasi

Grup Data Uji

Perubahan Akurasi Polynomial Kernel

Normalisasi

Non Normalisasi


62

Pada grafik yang tertera pada Gambar 4.6 hasil akurasi untuk RBF

Kernel pada grup data uji ke-1 dan ke-3 mengalami kenaikan sebesar 2.18%

dan 0.87% jika dilakukan normalisasi. Penurunan akurasi terjadi pada

percobaan ke-2 sebesar 7.39%.

Gambar 4.6 Grafik akurasi dengan min-max dan RBF Kernel

Berbeda halnya dengan Linear Kernel, pada Gambar 4.7 hasil akurasi

cenderung menurun jika dilakukan normalisasi pada setiap percobaan dan

mencapai akurasi tertinggi hanya 33.48% pada percobaan ke-2.

Gambar 4.7 Grafik akurasi dengan min-max dan Linear Kernel

34.9335.22

44.35

32.75

42.6143.48

0

10

20

30

40

50

1 2 3

Aku

rasi

Grup Data Uji

Perubahan Akurasi RBF Kernel

Normalisasi

Non Normalisasi

25.33

33.4830

48.91

41.3046.09

0

10

20

30

40

50

60

1 2 3

Aku

rasi

Grup Data Uji

Perubahan Akurasi Linear Kernel

Normalisasi

Non Normalisasi


63

Dari percobaan normalisasi ini dapat disimpulkan bahwa penerapan

normalisasi min-max dapat meningkatkan akurasi yang paling optimal

sebesar 53.91% dengan menggunakan Polynomial Kernel pada data uji ke-3.

Sehingga total akurasi tertinggi yang didapatkan dengan menggunakan kernel

Polynomial yaitu sebesar 48.33%.

Pengujian selanjutnya yaitu dengan menggunakan normalisasi z-score.

Hasil akurasi dengan menggunakan normalisasi z-score tampak seperti pada

Tabel 4.11.

Tabel 4.11 Hasil akurasi dengan normalisasi z-score

Testing Group Akurasi ZScore


1 49.78% 22.71% 41.48%

2 44.35% 34.78% 38.26%

3 48.26% 27.83% 42.17%

Rata-rata 47.46% 28.44% 40.64%

Setelah dilakukan proses normalisasi dengan menggunakan

normalisasi z-score, dari ketiga kernel yang telah dilakukan uji coba

akurasi, hasil akurasi tertinggi diperoleh dengan menggunakan Linear

Kernel yaitu sebesar 47.46% yang kemudian disusul oleh Polynomial

Kernel sebesar 40.64%. Sedangkan akurasi terendah terdapat pada RBF

Kernel dengan akurasi sebesar 28.44%. Linear Kernel mengalami

kenaikan akurasi sebesar 4.35% dan RBF Kernel mengalami kenaikan

akurasi sebesar 11.14%, sedangkan Polynomial Kernel mengalami

penurunan akurasi sebesar 16.91%. Akurasi tertinggi terdapat pada

percobaan ke-1 sebesar 49.78% menggunakan Linear Kernel seperti

tampak pada Gambar 4.8 yang menampilkan grafik perbandingan ketiga

kernel dengan menggunakan normalisasi z-score.


64

Gambar 4.8 Grafik Perbandingan Akurasi Z-Score

Pada Linear Kernel seperti terlihat pada Gambar 4.9, hasil akurasi

meningkat disetiap grup data uji jika dinormalisasi meskipun perbedaan

akurasi tidak terlalu jauh. Pada grup data uji ke-1 kenaikan akurasi sebesar

0.87%, grup data uji ke-2 sebesar 3.05% dan grup data uji ke-3 sebesar 2.17%.

Gambar 4.9 Grafik akurasi dengan z-score dan Linear Kernel

Tampak grafik pada Gambar 4.10 yang merupakan perbandingan hasil

akurasi tanpa normalisasi dan dengan menggunakan normalisasi pada

49.7844.35

48.26

22.71

34.78

27.83

41.4838.26

42.17

0

10

20

30

40

50

60

1 2 3

Aku

rasi

Grup Data Uji

Perubahan Akurasi Dengan Normalisasi Z-Score

Linear

RBF

Polynomial

48.91

41.346.09

49.7844.35

48.26

0

10

20

30

40

50

60

1 2 3

Aku

rasi

Grup Data Uji

Perubahan Akurasi Linear Kernel

Normalisasi

Non Normalisasi


65

Polynomial Kernel. Setelah dilakukan normalisasi z-score, pada grup data uji

ke-3 mengalami kenaikan akurasi sebesar 23.04% dan grup data uji ke-1

sebesar 1.74%. Meskipun pada grup data uji ke-2 memiliki akurasi lebih

rendah dibandingkan grup data uji ke-1 dan ke-3, tetapi jika dibandingkan

dengan tanpa normalisasi, pada percobaan ke-2 Polynomial Kernel

mengalami kenaikan akurasi sebesar 6.09%.

Gambar 4.10 Grafik akurasi dengan z-score dan Polynomial Kernel

Pada grafik yang tertera pada Gambar 4.11 hasil akurasi untuk RBF

Kernel cenderung mengalami penurunan akurasi pada setiap grup data uji jika

dilakukan normalisasi z-score.

Gambar 4.11 Grafik akurasi dengan z-score dan RBF Kernel

41.48

38.2642.17

39.7432.17

19.13

0.00

10.00

20.00

30.00

40.00

50.00

1 2 3

Aku

rasi

Grup Data Uji

Perubahan Akurasi Polynomial Kernel

Normalisasi

Non Normalisasi

22.71

34.78

27.8332.75

42.6143.48

0

10

20

30

40

50

1 2 3

Aku

rasi

Grup Data Uji

Perubahan Akurasi RBF Kernel

Normalisasi

Non Normalisasi


66

Penerapan normalisasi z-score dapat meningkatkan akurasi yang paling

optimal sebesar 49.78% dengan menggunakan Linear Kernel pada data uji

ke-1. Sehingga total akurasi tertinggi yang didapatkan dengan menggunakan

Linear Kernel yaitu sebesar 47.46%. Hasil akurasi optimal yang didapatkan

dengan menggunakan normalisasi z-score ini lebih rendah dibandingkan

dengan hasil akurasi optimal pada normalisasi min-max yang hasil akurasinya

sebesar 48.33% dengan menggunakan kernel Polynomial. Berdasarkan

pengujian normalisasi yang telah dilakukan, normalisasi min-max dapat

meningkatkan hasil akurasi data kopi yang optimal dengan menggunakan

Polynomial Kernel dari dataset yang sebelumnya tidak dinormalisasi dan

menghasilkan akurasi sebesar 45.43% dengan menggunakan Linear Kernel.

4.5 Analisis Hasil

Sistem klasifikasi yang dibangun pada penelitian ini seperti yang telah

dijelaskan pada nomor 3.3.3 dibuat dengan pemodelan one-to-one. Ketepatan

prediksi yang dibuat akan dihitung menggunakan akurasi untuk setiap data

uji yang diklasifikasikan. Teknik pengujian dilakukan dengan menggunakan

3-Fold Cross Validation dan Polynomial Kernel dengan normalisasi data.

Dari hasil uji performa yang telah dilakukan pada nomor 4.4.2, tampak bahwa

klasifikasi dengan menggunakan Polynomial Kernel setelah dilakukan

normalisasi data menghasilkan akurasi yang lebih baik dengan hasil akurasi

sebesar 48.33%. Berikut confusion matrix pada Tabel 4.12 sampai dengan

Tabel 4.14 yang terbentuk dari hasil prediksi sistem dengan menggunakan

Polynomial Kernel yang telah dinormalisasi menggunakan normalisasi min-

max.

Tabel 4.12 Confusion matrix Polynomial Kernel data uji ke-1

Bourbon Caturra Typica

Bourbon 50 0 20

Caturra 26 5 19

Typica 47 6 56


67



Bourbon 31 42 12

Caturra 15 54 9

Typica 15 39 13



Bourbon 43 27 0

Caturra 48 79 0

Typica 12 19 2

Confusion matrix yang terdapat pada Tabel 4.14 memperlihatkan

bahwa sistem dapat memprediksi 43 data varietas Bourbon dengan benar,

sedangkan 27 data lainnya salah untuk diprediksi dimana sistem memprediksi

Bourbon sebagai Caturra. Begitu pula pada baris kedua dan ketiga yang

menunjukkan varietas Caturra terprediksi benar sejumlah 79 data dan Typica

sebesar 2 data. Rumus untuk menghitung akurasi dilakukan berdasarkan

persamaan pada Tabel 2.6, berikut merupakan contoh perhitungan akurasi

berdasarkan confusion matrix pada Tabel 4.14.

Akurasi = 124

230 × 100% = 53.91%

Berdasarkan hasil prediksi data pada confusion matrix pada Tabel 4.12

hingga Tabel 4.14, persebaran jumlah prediksi hampir merata disetiap kelas.

Seperti pada contoh Tabel 4.13, prediksi benar untuk varietas Bourbon

sebesar 31 data, dan sisanya terprediksi salah sebagai Caturra sebesar 42 data

dan Typica sebesar 12 data. Hal ini menunjukkan bahwa pada prediksi

tersebut terdapat kemiripan karakteristik antar varietas yang cukup besar.

Sehingga sistem cenderung sulit untuk mengklasifikasikan data ke dalam


68

kelas atau kelompok yang tepat. Berdasarkan hal tersebut, maka dari hasil

confusion matrix yang diperoleh, sistem cenderung menghasilkan tingkat

akurasi yang relatif rendah.

Selanjutnya dilakukan pengujian oleh sistem dengan menggunakan uji

data tunggal. Terdapat masukan/input yang dimasukkan oleh pengguna.

Seperti tampak pada Gambar 4.12 merupakan penerapan GUI untuk

klasifikasi varietas kopi.

Gambar 4.12 Pengujian Data

Langkah awal yang dilakukan yaitu melatih data dengan mengupload

data file untuk training data. Lalu klik tombol Train untuk memulai

menghitung akurasi dan menampilkan confusion matrix. Maka hasil akurasi

akan muncul dan tabel confusion matrik yang berisi data hasil confusion

matrix dari klasifikasi yang telah dilakukan. Selanjutnya untuk melakukan uji

data tunggal pengguna harus memasukkan data-data uji kualitas kopi yang

berupa Aroma, Flavor, Aftertaste, Acidity, Body, Balance, Uniformity,

Sweetness, Cupper Point, Category One Defects, dan Category Two Defects.

Langkah akhir yang dilakukan yaitu melakukan klasifikasi dengan mengklik


69

tombol Klasifikasi, maka hasil klasifikasi dari data yang telah dimasukkan

oleh pengguna akan tampil dalam panel Hasil Klasifikasi. Tampak pada

Gambar 4.12, dari data yang telah dimasukkan pengguna, data tersebut

diklasifikasikan sebagai Caturra.


70

BAB V

PENUTUP

5.1 Kesimpulan

Dari hasil penelitian klasifikasi varietas kopi arabika berdasarkan uji

kualitas cita rasa kopi arabika menggunakan Support Vector Machine (SVM)

dapat disimpulkan sebagai berikut :

1. Pengujian menggunakan 11 atribut yang berupa Aroma, Flavor,

Aftertaste, Acidity, Body, Balance, Uniformity, Sweetness,

Cupper.Points, Category.One.Defects, dan Category.Two.Defects.

Hasil akurasi optimal pada pengujian 3-Fold Cross Validation

didapatkan dengan menggunakan kernel Polynomial menggunakan

normalisasi min-max dan data uji sebanyak 689 data. Akurasi optimal

yang didapatkan yaitu sebesar 48.33%.

2. Normalisasi data yang diterapkan pada dataset dapat mempengaruhi

hasil akurasi dari sistem klasifikasi. Pada pengujian menggunakan

Polynomial Kernel tanpa normalisasi menghasilkan akurasi sebesar

30.35%. Sedangkan jika menggunakan normalisasi min-max

menghasilkan akurasi 48.33% dan menggunakan normalisasi z-score

menghasilkan akurasi sebesar 40.64%.

5.2 Saran

Saran yang diberikan untuk pengembangan sistem dan penelitian yang

lebih baik kedepannya adalah sebagai berikut :

1. Menambahkan set data kopi dengan menambahkan kelas varietas kopi

arabika yang lainnya.

2. Menambahkan jumlah atribut yang digunakan baik berdasarkan form uji

mutu kopi secara cita rasa maupun uji kualitas kopi secara fisik.

3. Mengembangkan penelitian ini dengan menggunakan metode Support

Vector Machine yang lain seperti one against all serta menguji dengan

menggunakan jumlah cross validation yang berbeda.


71

4. Mengembangkan klasifikasi varietas kopi arabika berdasarkan pengujian

cita rasa kopi menggunakan metode klasifikasi yang lainnya.


72

DAFTAR PUSTAKA

Chakrabarti, S. et al., 2006. Data Mining Curriculum. A Proposal (Version 1.0), 30

April, p. 2.

Condori, R. H. M. et al., 2014. Automatic classification of physical defects in green

coffee beans using CGLCM and SVM. s.l., Latin American Computing Conference

(CLEI).

Fayyad, U., Piatetsky-Shapiro, G. & Smyth, P., 1996. From Data Mining to

Knowledge Discovery in Databases. AI Magazine, Volume 17, pp. 37-54.

Han, J., Kamber, M. & Pei, J., 2011. Data Mining : concepts and techniques.

Waltham: Morgan Kaufmann Publishers.

Han, J., Kamber, M. & Pei, J., 2012. Data Mining : Concepts and Techniques.

Waltham: Morgan Kaufmann Publishers.

Hardiani, T., Sulistyo, S. & Hartanto, R., n.d. Segmentasi Nasabah Tabungan

Menggunakan Model RFM (Recency, Frequency,Monetary) dan K-MeansPada

Lembaga Keuangan Mikro, Yogyakarta: Universitas Gadjah Mada.

Institute, C. R., 2019. Hawaiian Coffee Beans. [Online]

Available at: http://www.coffeeresearch.org/coffee/hawaii.htm

Junaedi, H., Budianto, H., Maryati, I. & Melani, Y., 2011. Data Transformation

Pada Data Mining. Surabaya, IDeaTech.

Maulana, M. R. & Al Karomi, M. A., 2016. INFORMATION GAIN UNTUK

MENGETAHUI PENGARUH ATRIBUT. Litbang Kota Pekalongan, pp. 113-123.

Nugroho, A. S., Witarto, A. B. & Handoko , D., 2003. Support Vector Machine -

Teori dan Aplikasinya dalam Bioinformatika, s.l.: IlmuKomputer.Com.

Nugroho, M. A. & Sebatubun, M. M., 2020. Klasifikasi Varietas Kopi Arabika

Berdasarkan Green Bean Coffee Menggunakan Metode Machine Learning. Jurnal

of Information System Management, I(2).


73

Octaviani, P. A., Wilandari, Y. & Ispriyanti, D., 2014. PENERAPAN METODE

KLASIFIKASI SUPPORT VECTOR. GAUSSIAN, pp. 811-820.

Prasetyo, E., 2014. DATA MINING - Mengolah Data menjadi Informasi

Menggunakan Matlab. Yogyakarta: Penerbit ANDI.

Research, W. C., 2018. Arabica Coffee Varieties, Portland: World Coffee Research.

Research, W. C., 2019. World Coffee Research. [Online]

Available at: https://varieties.worldcoffeeresearch.org/

Rofiqoh, U., Perdana, R. S. & Fauzi, M. A., 2017. Analisis Sentimen Tingkat

Kepuasan Pengguna Penyedia Layanan Telekomunikasi Seluler Indonesia Pada

Twitter Dngan Metode Support Vector Machine dan Lexicon Based Features.

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, I(12), pp. 1725-

1732.

Santosa, B., n.d. Tutorial Support Vector Machines, Surabaya: Kampus ITS.

SCAA, 2015. SCAA Protocols | Cupping Specialty Coffee, s.l.: the Specialty Coffee

Association of America.

Sebatubun, M. M. & Nugroho, M. A., 2017. Ekstraksi Fitur Circularity Untuk

Pengenalan Varietas Kopi Arabika. Teknologi Informasi dan Ilmu Komputer

(JTIIK), 4(4), pp. 283-289.

Sianturi, J. W., 2019. Alih Aksara Batak Toba Tulisan Tangan menggunakan

Metode Ekstraksi Ciri Freeman Chain Code (FCC) dan Metode Klasifikasi Support

Vector Machine (SVM). Yogyakarta: Universitas Sanata Dharma.

Spillane, J. J., 1990. Komoditi kopi : peranannya dalam perekonomian Indonesia.

Yogyakarta: Kanisius.

Struyf, A., Hubert, M. & Rousseeuw, P. J., n.d. Clustering in an Object-Oriented

Environment, Belgium: Department of Mathematics and Computer Science, U.I.A.,

Universiteitsplein.


74

Suyanto, 2019. Data Mining untuk Klasifikasi dan Klaterisasi Data. Bandung:

Penerbit INFORMATIKA.

Team, G. C., 2007. Canada-Indonesia Trade and Private Sector Assistance Project.

[Online]

Available at: http://www.tpsaproject.com/wp-content/uploads/2017-03-06-

Presentation-9-1123.03a.pdf

[Accessed 8 Maret 2020].

W, A. A. H., 2017. Penerapan Model Mesin Belajar Support Vector Machines

Pada Automatic Scroing untuk Jawaban Singkat, Yogyakarta: Universitas Atma

Jaya Yogyakarta.

Wicaksono, J. W., 2017. IDENTIFIKASI MAKNA KATA "SABAR" DALAM KARYA

SASTRA MENGGUNAKAN SUPPORT VECTOR MACHINE (SVM) KERNEL

POLINOMIAL, Yogyakarta: Universitas Sanata Dharma.

Zaki, M. J. & Jr., W. M., 2013. Data Mining and Analysis: Fundamental Concepts

and Algorithms. New York: Cambridge University Press.


KLASIFIKASI VARIETAS KOPI ARABIKA MENGGUNAKAN …

Documents

Transcript of KLASIFIKASI VARIETAS KOPI ARABIKA MENGGUNAKAN …