KLASIFIKASI VARIETAS KOPI ARABIKA MENGGUNAKAN …
Transcript of KLASIFIKASI VARIETAS KOPI ARABIKA MENGGUNAKAN …
KLASIFIKASI VARIETAS KOPI ARABIKA MENGGUNAKAN
METODE SUPPORT VECTOR MACHINE (SVM)
SKRIPSI
Diajukan untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Informatika
Oleh :
Anastasia Novia Windrawati
165314090
PROGRAM STUDI INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2020
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ii
CLASSIFICATION OF ARABICA COFFEE VARIETY USING
SUPPORT VECTOR MACHINE (SVM) METHOD
A THESIS
Submitted in Partial Fulfillment of The Requirements
For The Degree of Sarjana Komputer
In Informatics Study Program
By :
Anastasia Novia Windrawati
165314090
INFORMATICS STUDY PROGRAM
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2020
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
v
HALAMAN PERSEMBAHAN
“Serahkanlah segala kekuatiranmu kepada-Nya, sebab Ia yang memelihara
kamu.”
1 Petrus 5:7
Skripsi ini didedikasikan kepada :
Ibu, Kakak, dan Adik
Terima kasih telah menjadi sosok-sosok dalam berbagai perspektif.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
viii
ABSTRAK
Pengendalian mutu kopi merupakan salah satu hal yang memiliki pengaruh
dalam pendistribusian kopi. Kopi dengan hasil mutu yang baik tentunya dapat
meningkatkan daya jual sehingga sangat penting untuk mengetahui varietas kopi
dengan kualitas mutu baik sehingga nantinya dapat meningkatkan pendistribusian
varietas kopi di masing-masing daerah. Pengukuran kualitas kopi sendiri dapat
dilakukan melalui pengujian fisik maupun melalui pengujian cita rasa kopi.
Pengujian dengan menggunakan cita rasa kopi diukur melalui tingkat aroma,
keasaman, manis, dll. Pengelompokkan varietas kopi berdasarkan pengujian cita
rasa kopi dapat dilakukan dengan menggunakan penambangan data. Penambangan
data yang dilakukan dalam uji cita rasa kopi untuk mengelompokkan kopi kedalam
varietas tertentu diharapkan dapat menghasilkan akurasi yang baik dengan
menggunakan metode Support Vector Machine (SVM). Penelitian dilakukan
dengan menggunakan 689 data uji dan menggunakan pemodelan klasifikasi one
against one. Teknik pengujian yang digunakan yaitu 3-Fold Cross Validation.
Berdasarkan pengujian tersebut akurasi yang dihasilkan oleh sistem memiliki
akurasi optimal sebesar 48.33% dengan menggunakan Polynomial Kernel dan
normalisasi min-max.
Kata kunci : varietas kopi arabika, Data Mining, Polynomial Kernel, Support
Vector Machine (SVM).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ix
ABSTRACT
Coffee quality control is one thing that has advantages in the distribution of
coffee. Coffee with good quality can increase selling power, so it is very important
to know the varieties of coffee with good quality so as to increase the distribution
of coffee varieties in each region. The measurement of the quality of coffee itself
can be done through physical testing through testing the taste of coffee. Test by
using the taste of coffee, processing aroma, acidity, sweetness, etc. The grouping
of coffee varieties based on the assessment of the taste of coffee can be done using
data mining. Data mining which is done in a coffee flavor test to classify coffee into
certain varieties is expected to produce good classification using the Support Vector
Machine (SVM) method. The study was conducted using 689 dataset and using one
to one classification modeling. The testing technique used is 3-Fold Cross
Validation. Based on these tests, generated by a system that has an optimal accuracy
of 48.33% using Polynomial Kernel and min-max normalization.
Keywords: Arabica coffee varieties, Data Mining, Linear Kernel, Support
Vector Machine (SVM).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xii
DAFTAR ISI
HALAMAN PERSETUJUAN ............................................................................... iii
HALAMAN PENGESAHAN ................................................................................ iii
HALAMAN PERSEMBAHAN ............................................................................ iv
PERNYATAAN KEASLIAN KARYA ................................................................ vi
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN AKADEMIS ............................................................. vii
ABSTRAK ............................................................................................................ vii
ABSTRACT ........................................................................................................... ix
KATA PENGANTAR ............................................................................................ x
DAFTAR ISI ......................................................................................................... xii
DAFTAR TABEL ................................................................................................. xv
BAB I PENDAHULUAN ....................................................................................... 1
1.1 Latar belakang .......................................................................................... 1
1.2 Rumusan Masalah .................................................................................... 3
1.3 Tujuan ....................................................................................................... 3
1.4 Manfaat ..................................................................................................... 4
1.5 Batasan Masalah ....................................................................................... 4
1.6 Metodologi Penelitian .............................................................................. 4
1.7 Sistematika Penulisan ............................................................................... 5
BAB II TINJAUAN PUSTAKA ............................................................................. 6
2.1 KDD (Knowledge Discovery in Databases)............................................. 6
2.2 Penambangan Data ................................................................................... 6
2.3 Klasifikasi ................................................................................................. 7
2.4 Support Vector Machine ........................................................................... 8
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiii
2.5 Multi Class SVM .................................................................................... 15
2.5.1 One-against-all ............................................................................... 15
2.5.2 One-against-one .............................................................................. 17
2.6 Information Gain .................................................................................... 18
2.7 K-Fold Cross Validation ........................................................................ 20
2.8 Confusion Matrix ................................................................................... 21
2.9 Normalisasi ............................................................................................. 22
2.9.1 Normalisasi Min-Max...................................................................... 23
2.9.2 Normalisasi Z-Score ........................................................................ 24
2.10 Varietas Kopi Arabika ............................................................................ 26
2.11 Pengujian Mutu Kopi ............................................................................. 27
2.12 Pengujian Mutu Cita Rasa Kopi SCAA ................................................. 28
BAB III METODOLOGI PENELITIAN.............................................................. 31
3.1 Data ........................................................................................................ 31
3.2 Desain Alat Uji ....................................................................................... 37
3.3 Cara Mengolah Data ............................................................................... 38
3.3.1 Tahap Preprocessing ....................................................................... 38
3.3.2 K-Fold Cross Validation ................................................................. 42
3.3.3 Tahap Klasifikasi ............................................................................ 43
3.4 Desain Pengujian .................................................................................... 46
3.5 Kebutuhan Sistem ................................................................................... 47
3.5.1 Perangkat Keras (Hardware) .......................................................... 47
3.5.2 Perangkat Lunak (Software) ............................................................ 47
3.6 Perancangan Antar Muka Sistem ........................................................... 48
BAB IV IMPLEMENTASI DAN ANALISIS HASIL ......................................... 49
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiv
4.1 Distribusi Data ........................................................................................ 49
4.2 Preprocessing ......................................................................................... 50
4.2.1 Data Selection ................................................................................. 50
4.2.2 Transformasi Data ........................................................................... 53
4.3 Klasifikasi ............................................................................................... 55
4.4 Pelatihan dan Pengujian ......................................................................... 58
4.4.1 Uji Performa Fungsi Kernel ............................................................ 58
4.4.2 Uji Performa dengan Normalisasi ................................................... 59
4.5 Analisis Hasil ......................................................................................... 66
BAB V PENUTUP ................................................................................................ 70
5.1 Kesimpulan ............................................................................................. 70
5.2 Saran ....................................................................................................... 70
DAFTAR PUSTAKA ........................................................................................... 72
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xv
DAFTAR TABEL
Tabel 2.1 Contoh data sampel ............................................................................... 11
Tabel 2.2 Plot hyperplane ..................................................................................... 13
Tabel 2.3 Hasil Klasifikasi .................................................................................... 14
Tabel 2.4 Contoh kombinasi biner 4 kelas dengan metode one-against-all .......... 16
Tabel 2.5 Contoh kombinasi biner dengan metode one-against-one .................... 17
Tabel 2.6 Ukuran evaluasi model klasifikasi ........................................................ 21
Tabel 2.7 Confusion Matrix ................................................................................. 22
Tabel 2.8 Sampel data sebelum dinormalisasi ...................................................... 24
Tabel 2.9 Sampel data setelah dinormalisasi min-max ......................................... 24
Tabel 2.10 Sampel data setelah dinormalisasi zscore ........................................... 26
Tabel 2.11 Skala Kualitas ..................................................................................... 30
Tabel 2.12 Skala Skor Total .................................................................................. 30
Tabel 3.1 Contoh sampel data ............................................................................... 31
Tabel 3.2 Penjelasan Atribut ................................................................................. 34
Tabel 3.3 Jumlah Seleksi Kelas ............................................................................ 39
Tabel 3.4 Atribut hasil Information Gain .............................................................. 41
Tabel 3.5 Simulasi pembagian data training dan data testing ............................... 43
Tabel 3.6 Tabel Pengujian..................................................................................... 47
Tabel 3.7 Spesifikasi PC ....................................................................................... 47
Tabel 4.1 Atribut Masukkan ................................................................................. 49
Tabel 4.2 Atribut Keluaran ................................................................................... 50
Tabel 4.3 Akurasi perangkingan atribut ................................................................ 51
Tabel 4.4 Transformasi atribut variety .................................................................. 53
Tabel 4.5 Sampel data sebelum dinormalisasi ...................................................... 54
Tabel 4.6 Sampel data setelah dinormalisasi min-max ......................................... 54
Tabel 4.7 Sampel data setelah dinormalisasi z-score ............................................ 55
Tabel 4.8 Implementasi fungsi SVM .................................................................... 56
Tabel 4.9 Hasil akurasi kernel ............................................................................... 58
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvi
Tabel 4.10 Hasil akurasi dengan normalisasi min-max ........................................ 60
Tabel 4.11 Hasil akurasi dengan normalisasi z-score ........................................... 63
Tabel 4.12 Confusion matrix Polynomial Kernel data uji ke-1 ............................ 66
Tabel 4.13 Confusion matrix Polynomial Kernel data uji ke-2 ............................ 67
Tabel 4.14 Confusion matrix Polynomial Kernel data uji ke-3 ............................ 67
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvii
DAFTAR GAMBAR
Gambar 2.1 Hyperplane yang mungkin untuk set data ........................................... 9
Gambar 2.2 Margin Hyperplane ............................................................................. 9
Gambar 2.3 Visualisasi hyperplane data uji .......................................................... 13
Gambar 2.4 Pemetaan data ke ruang vektor berdimensi lebih tinggi ................... 14
Gambar 2.5 Skema klasifikasi dengan metode one-against-all ........................... 16
Gambar 2.6 Skema klasifikasi menggunakan metode one-against-one ............... 18
Gambar 2.7 Skema pembagian data 3-Fold Cross Validation .............................. 20
Gambar 2.8 Cupping Form ................................................................................... 29
Gambar 3.1 Tahapan Penambangan Data ............................................................. 37
Gambar 3.2 Sampel data berbagai macam label kelas .......................................... 39
Gambar 3.3 Sampel data tiga macam label kelas .................................................. 40
Gambar 3.4 Hasil perangkingan atribut ................................................................ 41
Gambar 3.5 Klasifikasi dengan tiga kelas ............................................................ 44
Gambar 3.6 Kelas 1 dan kelas 2 ............................................................................ 44
Gambar 3.7 Kelas 1 dan kelas 3 ............................................................................ 45
Gambar 3.8 Kelas 2 dan kelas 3 ............................................................................ 45
Gambar 3.9 Hasil voting ....................................................................................... 46
Gambar 3.10 Prototype GUI Program .................................................................. 48
Gambar 4.1 Hasil variabel voting ......................................................................... 57
Gambar 4.2 Hasil variabel voting ......................................................................... 57
Gambar 4.3 Grafik Akurasi Fungsi Kernel ........................................................... 59
Gambar 4.4 Grafik Perbandingan Akurasi min-max ............................................ 61
Gambar 4.5 Grafik akurasi dengan min-max dan Polynomial Kernel .................. 61
Gambar 4.6 Grafik akurasi dengan min-max dan RBF Kernel ............................. 62
Gambar 4.7 Grafik akurasi dengan min-max dan Linear Kernel .......................... 62
Gambar 4.8 Grafik Perbandingan Akurasi Z-Score .............................................. 64
Gambar 4.9 Grafik akurasi dengan z-score dan Linear Kernel ............................. 64
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xviii
Gambar 4.10 Grafik akurasi dengan z-score dan Polynomial Kernel ................... 65
Gambar 4.11 Grafik akurasi dengan z-score dan RBF Kernel.............................. 65
Gambar 4.12 Pengujian Data ................................................................................ 68
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1
BAB I
PENDAHULUAN
1.1 Latar belakang
Tanaman kopi yang memiliki nama latin perpugenus coffea dari familia
Rubiaceae merupakan salah satu komoditas yang banyak diminati dan telah
memiliki segmen pasar yang cukup luas. Tanaman kopi ini bukan merupakan
tanaman homogen, kopi memiliki beragam varietas yang tersebar diseluruh
dunia dan tentunya beragam pula cara pengolahannya. Terdapat empat
kelompok besar dari 4500 jenis kopi diseluruh dunia yaitu Coffea Canephora
(Robusta), Coffea Arabica (Arabika), Coffea Excelsa (Excelsa), dan Coffea
Liberica (Liberica) (Spillane, 1990).
Arabika menjadi pemenang dalam pemasaran karena menyumbang
sekitar 70% dari produksi dunia, dibandingkan dengan robusta yang
menghasilkan 24%, sedangkan Liberica dan Excelsa memproduksi sebanyak
3%. Hal ini tak lepas dari kualitas dan kuantitas kopi arabika yang memiliki
rasa lebih enak serta jumlah kafein yang lebih rendah dibanding robusta. Oleh
sebab itu biasanya harga kopi arabika akan lebih mahal daripada kopi robusta
(Spillane, 1990).
Pengendalian mutu kopi merupakan salah satu hal yang penting dalam
pendistribusian kopi. Kopi yang bermutu tinggi akan meningkatkan daya jual
sehingga sangat penting untuk mengetahui varietas kopi dengan kualitas mutu
baik. Ukuran kualitas kopi sendiri dapat diukur melalui tingkat aroma,
keasaman, manis, dll. Pengelompokkan varietas kopi dapat dilakukan dengan
menggunakan pengujian mutu pada biji kopi. Pengujian ini terdiri dari dua
jenis yaitu pengujian secara mutu fisik dan pengujian secara mutu cita rasa.
Pengelompokkan ini kemudian dapat dilakukan dengan menggunakan
penambangan data.
Pada penelitian ini, akan digunakan metode Support Vector
Machine(SVM) dalam melakukan klasifikasi biji kopi varietas arabika.
Penggunaan karakteristik uji cita rasa kopi dapat membantu pengelompokkan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
biji kopi ke dalam varietas kopi arabika tertentu. Penggunaan metode
klasifikasi ini mempunyai kemampuan generalisasi data yang tinggi serta
mampu menghasilkan model klasifikasi yang baik meskipun dilatih dengan
himpunan data yang relatif sedikit(dibanding ruang masalah yang harus
diselesaikan) hanya dengan pengaturan parameter yang sederhana. SVM
memiliki konsep dan parameter yang harus diatur sehingga relatif mudah
diimplementasikan karena penentuan support vector dapat dirumuskan dalam
masalah QP (Quadratic Programming) (Suyanto, 2019).
Penelitian yang berkaitan dengan klasifikasi varietas kopi arabika
sebelumnya telah banyak dilakukan dengan metode pengenalan citra. Seperti
pada penelitian yang dilakukan oleh (Sebatubun & Nugroho, 2017) dengan
menggunakan ekstraksi fitur bentuk circularity dan klasifikasi MultiLayer
Perceptron. Varietas kopi arabika yang digunakan yaitu Sigarar Utang dan
Lini S-795, dan hasil akurasi yang didapatkan yaitu sebesar 80%. Selain itu
(Nugroho & Sebatubun, 2020) melakukan klasifikasi kopi arabika
menggunakan metode Deep Learning yang diimplementasikan pada dataset
varietas kopi arabika Ciwangi Redbourbon, Ciwangi Catimor dan Rasuna
Sigararutang. Dengan menggunakan google autoML, penelitian tersebut
mendeteksi varietas Ciwangi Redbourbon sebesar 71.4%, Ciwangi Catimor
sebesar 85.7%, dan Rasuna sigararutang 80%. Penelitian lain yang berkaitan
dengan metode SVM sebelumnya dilakukan oleh (Condori, et al., 2014) yang
melakukan pengenalan biji kopi dengan menggunakan ekstraksi fitur
CGLCM dan metode klasifikasi SVM. Hasil akurasi yang didapatkan yaitu
sebesar 86% dengan menggunakan 3367 dataset gambar serta 12 kategori
cacat fisik. Selain itu penelitian SVM dengan kasus lain dilakukan oleh
(Sianturi, 2019) yang mengimplementasikan SVM pada aksara Batak Toba
dengan judul “Alih Aksara Batak Toba Tulisan Tangan Menggunakan
Metode Ekstraksi Ciri Freeman Chain Code (FCC) dan Metode Klasifikasi
Support Vector Machine(SVM)”. Dalam penelitian tersebut aksara Batak
Toba dapat dikenali dengan tingkat akurasi sebesar 87.7607%. Selain itu,
(Octaviani, et al., 2014) telah menerapkan metode SVM dengan judul
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3
“Penerapan Metode Klasifikasi Support Vector Machine(SVM) pada Data
Akreditasi Sekolah Dasar (SD) di Kabupaten Magelang”. Penelitian ini
menghasilkan akurasi klasifikasi terbaik dengan menggunakan fungsi kernel
Gaussian Radial Basic Function (RBF) yang menghasilkan akurasi sebesar
100% dengan data training sebesar 337 data, sedangkan jika menggunakan
fungsi kernel Polynomial menghasilkan akurasi klasifikasi sebesar 98.810%.
Pada penelitian yang akan penulis lakukan, klasifikasi varietas biji kopi
arabika dilakukan dengan menggunakan metode Support Vector Machine
(SVM) dan varietas yang digunakan yaitu Bourbon, Caturra, dan Typica.
Proses klasifikasi dilakukan berdasarkan pengujian cita rasa kopi yang
menggunakan 689 dataset varietas kopi arabika.
1.2 Rumusan Masalah
• Bagaimana menggunakan dan membangun algoritma Support Vector
Machine (SVM) untuk melakukan klasifikasi varietas kopi ?
• Berapa akurasi yang diperoleh dalam mengelompokkan varietas kopi
arabika dengan menggunakan metode klasifikasi Support Vector Machine
(SVM) berdasarkan pengujian cita rasa kopi ?
• Bagaimana pengujian yang didapatkan dengan menggunakan 3-Fold
Cross Validation ?
1.3 Tujuan
• Membangun sistem klasifikasi varietas kopi Arabika menggunakan
metode Support Vector Machine (SVM).
• Analisis hasil akurasi yang berhasil didapatkan dalam mengelompokkan
varietas kopi Arabika dengan menggunakan metode Support Vector
Machine (SVM) berdasarkan pengujian cita rasa kopi.
• Mengetahui tingkat keberhasilan klasifikasi dengan menggunakan
pengujian 3-Fold Cross Validation.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4
1.4 Manfaat
Manfaat dari penelitian ini adalah :
1. Menambah wawasan, pengetahuan dan pemahaman mengenai algoritma
Support Vector Machine (SVM) dan klasifikasi penambangan data
menggunakan algoritma Support Vector Machine (SVM).
2. Membantu pihak-pihak yang berkaitan seperti lembaga penguji kualitas
kopi maupun para pengelola kopi untuk mengklasifikasikan biji kopi
berdasarkan uji cita rasa kopi.
1.5 Batasan Masalah
a. Atribut yang digunakan untuk menentukan varietas kopi arabika yaitu
berdasarkan pengujian mutu kopi dengan menggunakan pengujian cita
rasa kopi.
b. Data yang digunakan adalah data Coffee Beans Reviews by Coffee Quality
Institute yang berasal dari https://www.kaggle.com/ankurchavda/coffee-
beans-reviews-by-coffee-quality-institute.
1.6 Metodologi Penelitian
1. Studi literatur
Pada tahap ini peneliti mempelajari teori – teori melalu buku dan jurnal
yang berkaitan dengan Support Vector Machine (SVM).
2. Pembuatan alat uji
Tahap ini peneliti melakukan perancangan sistem dengan menggunakan
metode yang ada yang kemudian diterapkan dalam aplikasi berbasis
Matlab.
3. Analisis Hasil
Pada tahap ini peneliti melakukan penarikan kesimpulan dari alat uji
dengan menguji ketepatan dan tingkat akurasi dari algoritma yang ada.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5
1.7 Sistematika Penulisan
BAB I PENDAHULUAN
Bab ini berisi tentang latar belakang masalah, rumusan masalah, tujuan
penelitian, batasan masalah, metodologi penelitian serta sistematika
penulisan dari sistem yang akan diteliti.
BAB II TINJAUAN PUSTAKA
Bab ini berisi tentang teori-teori dasar yang berkaitan dengan penelitian
dalam penerapan sistem yang dibuat.
BAB III METODOLOGI PENELITIAN
Bab ini memuat langkah-langkah dalam penelitian yang bertujuan untuk
menjawab dan menyelesaikan rumusan masalah yang dimiliki yang terdiri
dari data, perangkat lunak dan perangkat keras, algoritma yang dipakai, serta
desain alat uji.
BAB IV IMPLEMENTASI DAN ANALISIS HASIL
Bab ini berisi hasil dari implementasi sistem yang telah dibuat dan
pembahasan yang mencakup analisis hasil dari penelitian yang telah
dilakukan.
BAB V PENUTUP
Bab ini berisi kesimpulan yang terdiri dari rangkuman keseluruhan isi yang
telah dibahas dan saran yang berisi saran penelitian untuk pengembangan
penelitian.
DAFTAR PUSTAKA
Bab ini berisi semua sumber kepustakaan yang digunakan dalam penelitian
baik berupa buku, jurnal, internet, dan sebagainya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6
BAB II
TINJAUAN PUSTAKA
2.1 KDD (Knowledge Discovery in Databases)
Penambangan data atau Data Mining merupakan langkah analisis
terhadap proses penemuan pengetahuan di dalam basis data atau knowledge
discovery in databases yang disingkat KDD. Tahapan yang terdapat dalam
KDD yaitu :
1. Pembersihan data (data cleaning), untuk menghilangkan noise dan data
yang tidak konsisten.
2. Integrasi data (data integration), keadaan dimana terdapat sumber data
yang dikombinasikan.
3. Seleksi data (data selection), dimana data relevan dengan tugas analisis
yang diambil dari basis data.
4. Transformasi data (data transformation), data ditransformasikan dan
dikonsolidasikan ke dalam bentuk yang sesuai dengan penambangan data
dengan melakukan operasi penyederhanaan maupun agregasi.
5. Penambangan data (data mining), proses mendasar yang perlu dilakukan
dimana metode cerdas diterapkan dalam menghasilkan sebuah pola data.
6. Evaluasi pola (pattern evaluation), dilakukan untuk mengidentifikasi pola
yang benar-benar menarik yang mewakili pengetahuan.
7. Presentasi pengetahuan, dimana visualisasi dan teknik representasi
pengetahuan digunakan untuk menyajikan pengetahuan kepada pengguna.
(Han, et al., 2011)
2.2 Penambangan Data
Penambangan data merupakan teknik yang relatif cepat dan mudah
dalam menemukan pengetahuan, pola atau relasi antar data secara otomatis.
Penggabungan empat disiplin ilmu komputer ini menghantarkan pengetahuan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7
dapat ditemukan dalam lima proses berurutan yaitu seleksi, prapemrosesan,
transformasi, data mining, dan interpretasi/evaluasi. (Fayyad, et al., 1996).
Penambangan data memiliki tujuan untuk mengekstrak pengetahuan
dari sekumpulan data sehingga didapat struktur yang dapat dipahami oleh
manusia. Penemuan struktur dari data ini memiliki masalah dari berbagai segi
yang termasuk dalam komponen basisdata dan manajemen data,
prapemrosesan data, pertimbangan data dan inferensi, ukuran ketertarikan,
pertimbangan kompleksitas algoritma, pascapemrosesan terhadap struktur
yang ditemukan, visualisasi, dan online updating (Chakrabarti, et al., 2006).
Penggunaan teknik data mining dapat dibagi menjadi dua yaitu
deskriptif dan prediktif. Deskriptif berarti data mining digunakan untuk
mencari pola-pola yang dapat dipahami manusia yang menjelaskan
karakteristik data. Sedangkan prediktif berarti data mining digunakan untuk
membentuk sebuah model pengetahuan yang akan digunakan untuk
melakukan prediksi (Suyanto, 2019). Tugas data mining dapat
dikelompokkan menjadi enam bagian berdasarkan fungsionalitasnya seperti
klasifikasi, klasterisasi, regresi, deteksi anomali, pembelajaran aturan asosiasi
serta perangkuman (Fayyad, et al., 1996).
2.3 Klasifikasi
Klasifikasi merupakan bagian penting dalam data mining yang
digunakan untuk memprediksi label atau kelas dari model yang telah
dipelajari sebelumnya (Zaki & Jr., 2013). Melalui pendekatan teknik
klasifikasi ini data-data yang telah dipelajari kemudian akan menghasilkan
suatu pola atau aturan. Selanjutnya dari pola yang didapat, data baru yang
belum pernah dipelajari sebelumnya dapat diklasifikasi berdasarkan pola
tersebut.
Model klasifikasi dapat dibangun berdasarkan pengetahuan seorang
pakar(ahli). Namun, mengingat himpunan data yang relatif besar, model
klasifikasi lebih sering dibangun menggunakan teknik pembelajaran dalam
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8
bidang machine learning. Proses pembelajaran secara otomatis terhadap
suatu himpunan data mampu menghasilkan model klasifikasi (fungsi target)
yang memetakan objek data x (input) ke salah satu kelas y yang telah
didefinisikan sebelumnya. Jadi, proses pembelajaran memerlukan masukan
(input) berupa himpunan data latih (training set) yang berlabel (memiliki
atribut kelas) dan mengeluarkan output yang berupa model klasifikasi
(Suyanto, 2019). Terdapat banyak model klasifikasi yang dapat digunakan
seperti decision tree, probabilistic classifiers, support vector machines, dan
sebagainya (Zaki & Jr., 2013).
2.4 Support Vector Machine
Support vector machine merupakan metode klasifikasi berdasarkan
pada diskriminan linear margin maksimum, tujuannya adalah untuk mencari
hyperplane dengan memaksimalkan jarak atau margin antar kelas. Kita dapat
menggunakan kernel trick untuk mencari batas keputusan nonlinear yang
optimal antar kelas yang berhubungan dengan hyperplane dalam beberapa
ruang dimensi “nonlinear” (Zaki & Jr., 2013).
Vapnik memperkenalkan SVM pada tahun 1992 sebagai suatu teknik
klasifikasi yang efisien untuk masalah nonlinier. SVM hanya menemukan
satu hyperplane yang posisinya tepat di tengah-tengah antara dua kelas. Jadi,
hyperplane tersebut membelah himpunan data menjadi dua kelas secara sama.
Artinya, jarak antara hyperplane dengan objek-objek data berbeda kelas yang
berdekatan (terluar). Mengapa harus memaksimalkan margin ? Tujuannya
yaitu agar memiliki kemampuan generalisasi yang tinggi terhadap data-data
yang akan datang (Suyanto, 2019).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9
(a) (b)
Gambar 2.1 Hyperplane yang mungkin untuk set data (Nugroho, et al.,
2003)
Konsep dasar dari proses pelatihan pada SVM yaitu untuk mencari
lokasi hyperplane. Pilihan untuk menemukan hyperplane yang mungkin
untuk suatu set data dapat terlihat seperti pada gambar 2.1(a), sedangkan
hyperplane dengan margin paling maksimal terdapat pada gambar 2.1(b).
Hyperplane terbaik antara kedua kelas dapat ditemukan dengan mengukur
margin hyperplane dan kemudian mencari titik maksimalnya. Margin adalah
jarak antara hyperplane tersebut dengan data terdekat dari masing-masing
kelas. Data yang paling dekat ini disebut sebagai support vector (Prasetyo,
2014).
Gambar 2.2 Margin Hyperplane
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
10
Seperti yang terlihat pada Gambar 2.2, SVM bekerja untuk menemukan
hyperplane dengan margin yang maksimal. Hyperplane klasifikasi linier
memisahkan kedua kelas dengan persamaan :
𝑤. 𝑥𝑖 + 𝑏 = 0 (2.1)
Keterangan :
w = vector bobot
x = nilai masukan atribut
b = bias
Sehingga didapatkan persamaan untuk kelas positif dan kelas negatif. Pada
kelas positif (+1), sehingga suatu data 𝑥𝑖 dapat diklasifikasikan sebagai kelas
+1 jika
𝑤. 𝑥𝑖 + 𝑏 > 1 (2.2)
dan dapat diklasifikasikan sebagai kelas -1 jika
𝑤. 𝑥𝑖 + 𝑏 ≤ −1 (2.3)
Margin hyperplane terbaik dapat ditemukan dengan memaksimalkan
nilai jarak antara hyperplane dengan titik terdekatnya menggunakan rumus
1
‖𝑤‖. Selanjutnya dapat dirumuskan sebagai Quadratic Programming (QP)
problem untuk mencari titik minimal persamaan
𝑚𝑖𝑛𝑤→ 𝜏(𝑤) =
1
2‖𝑤‖2 (2.4)
𝑦𝑖(𝑥𝑖 ∙ 𝑤 + 𝑏) − 1 ≥ 0 (2.5)
Permasalahan ini dapat diselesaikan dengan menggunakan berbagai
cara, salah satunya menggunakan Lagrange Multiplier.
𝐿(𝑤, 𝑏, 𝛼) = 1
2‖𝑤‖2 − ∑ 𝛼𝑖(𝑦𝑖(𝑥𝑖 ∙ 𝑤 + 𝑏) − 1), 𝑖 = 1,2, … , 𝑙𝑙
𝑖=1 (2.6)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11
Dengan 𝑎𝑖 ≥ 0 adalah Lagrange multipliers, nilai optimal dari
persamaan tersebut dapat dihitung dengan meminimalkan L terhadap w dan
b sekaligus memaksimalkan L terhadap 𝑎𝑖. Dengan diketahui titik optimal
gradient L = 0, maka persamaan (2.6) dapat dimodifikasi dengan
memaksimalkan
∑ 𝑎𝑖𝑙𝑖=1 −
1
2∑ 𝑎𝑖𝑎𝑗𝑦𝑖𝑦𝑗𝑥𝑖𝑥𝑗
𝑙𝑖,𝑖=1 (2.7)
𝑎𝑖 ≥ 0(𝑖 = 1,2, … 𝑙) ∑ 𝑎𝑖𝑦𝑖 = 0𝑙𝑖=1 (2.8)
Maksimalisasi ini menghasilkan sejumlah 𝑎𝑖 yang bernilai positif.
Data-data yang berhubungan dengan 𝑎𝑖 positif inilah yang disebut sebagai
support vector. Fungsi pemisah dapat didefinisikan sebagai berikut.
g(x) := sgn(f(x)) (2.9)
Dengan f(x) = wTx + b (2.10)
(Santosa, n.d.)
Berikut illustrasi cara kerja Support Vector Machine dengan data seperti
pada Tabel 2.1.
Tabel 2.1 Contoh data sampel
x1 x2 yi
4 4 1
6 4 -1
4 6 -1
4 8 1
Terdapat dua atribut x1 dan x2 yang akan menghasilkan dua bobot yaitu w1
dan w2. Kemudian margin diminimalkan menggunakan rumus pada
persamaan 2.4 dengan syarat sebagai berikut.
yi(w. xi + b) ≥ 1, i = 1,2,3, …, N (2.11)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12
yi(w1 . xi + w1 . xi +b) ≥ 1 (2.12)
Sehingga diperoleh persamaan sebagai berikut.
(1) 1 ( 4w1 + 4w2 + b ) ≥ 1 → ( 4w1 + 4w2 + b ) ≥ 1
(2) -1 ( 6w1 + 4w2 + b ) ≥ 1 → ( -6w1 -4w2 - b ) ≥ 1
(3) -1 ( 4w1 + 6w2 + b ) ≥ 1 → ( -4w1 -6w2 - b ) ≥ 1
(4) 1 ( 4w1 + 8w2 + b ) ≥ 1 → ( 4w1 + 8w2 + b ) ≥ 1
Selanjutnya yaitu mencari nilai w dan b dari persamaan (1) dan (2) sebagai
berikut.
+(-6𝑤1 -4𝑤2 - b ) ≥ 1( 4𝑤1 + 4𝑤2 + b ) ≥ 1
−2𝑤1 = 2 𝑤1 = −1
Kemudian mencari nilai w dan b dari persamaan (3) dan (4) sebagai berikut.
+( 4𝑤1 + 8𝑤2 + b ) ≥ 1( −4𝑤1 −6𝑤2 − b ) ≥ 1
2𝑤2= 2 𝑤2 = 1
Sehingga nilai b yang didapat dari persamaan (1) dan (4) yaitu :
+(4𝑤1 + 8𝑤2 + b ) ≥ 1( 4𝑤1 + 4𝑤2 + b ) ≥ 1
8𝑤1 + 12𝑤2 + 2𝑏 = 2
8(−1) + 12(1) + 2𝑏 = 2 −8 + 12 + 2𝑏 = 2 2𝑏 = 2 − 4 2𝑏 = −2 𝑏 = −1
Persamaan hyperplane menjadi :
𝑤1𝑥1 + 𝑤2𝑥2 + 𝑏 = 0 −1𝑥1 + 1𝑥2 − 1 = 0
𝑥2 − 1 = 𝑥1
Selanjutnya dibuat plot hyperplane dengan fungsi -x1 + x2 – 1 menggunakan
data seperti pada Tabel 2.2
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13
Tabel 2.2 Plot hyperplane
x1 = x2 - 1 x2
-3 -2
-2 -1
-1 0
0 1
1 2
2 3
3 4
4 5
5 6
6 7
7 8
8 9
Gambar 2.3 Visualisasi hyperplane data uji
Setelah ditentukan garis hyperplane seperti pada Gambar 2.3, maka
langkah selanjutnya yaitu mengklasifikasikan data uji melalui hyperplane
-4
-2
0
2
4
6
8
10
-4 -2 0 2 4 6 8 10
x1
x2
Visualisasi Hyperplane
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14
dengan menggunakan fungsi f(x) = -x1 + x2 – 1 dengan g(x) := sgn(f(x)).
Gambar 2.3 menunjukkan garis hyperplane yang memisahkan hasil data uji
yang terdapat pada Tabel 2.3 dengan label kelas positif disimbolkan dengan
warna kuning dan kelas negatif dengan warna merah.
Tabel 2.3 Hasil Klasifikasi
No X1 X2 Hasil Klasifikasi ( Kelas = sgn(f(x)) )
1 4 4 Sgn(-4 + 4 -1) = -1
2 2 8 Sgn(-2 + 8 -1) = 1
3 -2 4 Sgn(-(-2) + 4 -1) = 1
4 4 -2 Sgn(-4 + (-2) -1) = -1
Pada pembelajaran SVM, mudah untuk menyelesaikan masalah secara
linier. Tetapi pada kenyataannya masalah yang dihadapi dalam kondisi nyata
adalah masalah non-linier. Sehingga SVM dimodifikasi sedemikian rupa
dengan memasukkan fungsi kernel. Dalam fungsi non-linier, SVM pertama-
tama akan memetakan data 𝑥 menggunakan fungsi Φ(�⃑�) ke ruang vektor
yang berdimensi lebih tinggi. Seperti terlihat pada Gambar 2.4 menunjukkan
terdapat data berdimensi dua yang tidak dapat dipisahkan secara linier.
Selanjutnya fungsi Φ akan memetakan setiap data tersebut ke ruang vektor
baru yang berdimensi lebih tinggi atau berdimensi tiga. Sehingga kedua kelas
dapat terpisah secara linier oleh sebuah hyperplane.
Gambar 2.4 Pemetaan data ke ruang vektor berdimensi lebih tinggi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15
Pada umumnya terdapat empat fungsi kernel yang dapat digunakan
yaitu :
1. Kernel Linier
𝐾(𝑥, 𝑥𝑖) = 𝑥𝑘𝑇𝑥 (2.13)
2. Kernel Polynomial
𝐾(𝑥, 𝑥𝑘) = (𝑥𝑘𝑇𝑥 + 1)𝑑 (2.14)
3. Kernel Gaussian (Radial Basis Function, RBF)
𝐾(𝑥, 𝑥𝑘) = exp {−‖𝑥 − 𝑥𝑘‖22/𝜎2} (2.15)
4. Kernel Sigmoid
𝐾(𝑥, 𝑥𝑘) = tanh [𝜅𝑥𝑘𝑇𝑥 + 𝜃] (2.16)
Fungsi kernel dapat memberi kemudahan karena hanya perlu untuk
mengetahui fungsi kernel yang dipakai untuk menentukan support vector.
Kemudian SVM akan melakukan proses klasifikasi sebuah objek data x yang
diformulasikan dengan persamaan :
𝑓(𝑥) = ∑ 𝑎𝑖𝑦𝑖𝐾(𝑥, 𝑥𝑖) + 𝑏𝑛𝑖=1,𝑥𝑖 𝜖 𝑆𝑉 (2.17)
SV merupakan objek-objek data pada himpunan data latih yang terpilih
sebagai support vector (Suyanto, 2019).
2.5 Multi Class SVM
SVM hanya dapat mengklasifikasikan data ke dalam dua kelas pada saat
pertama kali diperkenalkan oleh Vapnik pada tahun 1992. Setelah
berkembangnya riset dan penelitian, SVM dapat berkembang menjadi multi
kelas (multi class) yang artinya teknik ini dapat mengklasifikasikan lebih dari
dua kelas. Dalam mengimplementasikan SVM multi kelas dapat
menggunakan dua pendekatan, yaitu dengan menggabungkan beberapa SVM
biner dan yang kedua yaitu menggabungkan semua data dari semua kelas ke
dalam sebuah bentuk permasalahan optimasi (Suyanto, 2019). Metode
dengan pendekatan pertama yaitu :
2.5.1 One-against-all
Metode ini menggunakan prinsip satu lawan semua dengan
membandingkan satu kelas dengan semua kelas lainnya. Ketika akan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16
melakukan klasifikasi data ke dalam k kelas, maka harus dibangun pula
sejumlah k model SVM biner. Setiap model biner SVM ke-i akan
dilatih dengan menggunakan keseluruhan data agar ditemukan apakah
merupakan bagian dari kelas ke-i atau bukan ketika diklasifikasikan.
Sebagai contoh, ketika akan mengklasifikasikan ke dalam 4 kelas maka
perlu dibangun pula 4 buah SVM biner seperti terlihat pada Tabel 2.4
dan Gambar 2.5. Kemudian SVM biner yang pertama dilatih dengan
dengan menggunakan semua data latih.
Tabel 2.4 Contoh kombinasi biner 4 kelas dengan metode one-
against-all
𝑦𝑖 = 1 𝑦𝑖 = −1 Hipotesis
Kelas 1 Kelas 1 𝑓1(𝑥) = (𝑤1)𝑥 + 𝑏1
Kelas 2 Kelas 2 𝑓2(𝑥) = (𝑤2)𝑥 + 𝑏2
Kelas 3 Kelas 3 𝑓3(𝑥) = (𝑤3)𝑥 + 𝑏3
Kelas 4 Kelas 4 𝑓4(𝑥) = (𝑤4)𝑥 + 𝑏4
Gambar 2.5 Skema klasifikasi dengan metode one-against-all
(Wicaksono, 2017)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17
2.5.2 One-against-one
Metode one against one atau satu lawan satu ini akan
membandingkan satu kelas dengan kelas lainnya dalam membangun
sejumlah model SVM. Ketika akan melakukan klasifikasi data ke dalam
k kelas, maka diharuskan untuk membangun sejumlah model dengan
rumus sebagai berikut.
𝑘(𝑘−1)
2 (2.18)
Keterangan :
k = jumlah kelas
(Suyanto, 2019)
Sehingga jika akan membangun sejumlah SVM biner dengan 4
kelas maka yang harus dibuat yaitu 4(4−1)
2= 6 buah biner SVM.
Sehingga setiap kelas harus dibandingkan dengan kelas lainnya seperti
pada Tabel 2.5. Voting dapat dilakukan untuk mendapatkan kelas
keputusan. Berikut ilustrasi klasifikasi dengan 4 buah jumlah kelas.
Tabel 2.5 Contoh kombinasi biner dengan metode one-against-one
𝑦𝑖 = 1 𝑦𝑖 = −1 Hipotesis
Kelas 1 Kelas 2 𝑓12(𝑥) = (𝑤12)𝑥 + 𝑤12
Kelas 1 Kelas 3 𝑓13(𝑥) = (𝑤13)𝑥 + 𝑤13
Kelas 1 Kelas 4 𝑓14(𝑥) = (𝑤14)𝑥 + 𝑤14
Kelas 2 Kelas 3 𝑓23(𝑥) = (𝑤23)𝑥 + 𝑤23
Kelas 2 Kelas 4 𝑓24(𝑥) = (𝑤24)𝑥 + 𝑤24
Kelas 3 Kelas 4 𝑓34(𝑥) = (𝑤34)𝑥 + 𝑤34
Setelah kombinasi kelas biner terbentuk, selanjutnya dilakukan
perbandingan tiap kelas. Pada Gambar 2.6 kelas f12(x) ditentukan
masuk ke dalam kelas 1 atau 2, diasumsikan pada contoh ditentukan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18
masuk pada kelas 1. Hal yang sama dilakukan pula pada kelas biner
yang lainnya. Sehingga setelah semua kelas biner mendapat kelas
keputusan kemudian dilakukan voting dengan kelas mana yang
mendapat hasil terbanyak. Pada contoh Gambar 2.6 kelas 1 mendapat
voting terbanyak, sehingga hasil klasifikasi yang didapatkan yaitu pada
kelas 1.
Gambar 2.6 Skema klasifikasi menggunakan metode one-against-one
(Wicaksono, 2017)
2.6 Information Gain
Information gain merupakan salah satu metode seleksi fitur yang
banyak dipakai oleh peneliti untuk menentukan batas dari kepentingan sebuah
atribut. Nilai information gain diperoleh dari nilai entropi sebelum pemisahan
dikurangi dengan nilai entropi setelah pemisahan. Pengukuran nilai ini hanya
digunakan sebagai tahap awal untuk penentuan atribut yang nantinya akan
digunakan atau dibuang. Atribut yang memenuhi kriteria pembobotan yang
nantinya akan digunakan dalam proses klasifikasi sebuah algoritma (Maulana
& Al Karomi, 2016). Pemilihan fitur dengan information gain dilakukan
dalam 3 tahapan, yaitu:
1. Menghitung nilai information gain untuk setiap atribut dalam dataset
original.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
19
2. Tentukan batas (treshold) yang diinginkan. Hal ini akan memungkinkan
atribut yang berbobot sama dengan batas atau lebih besar akan
dipertahankan serta membuang atribut yang berada dibawah batas.
3. Dataset diperbaiki dengan pengurangan atribut.
Berikut rumus untuk menghitung Information Gain :
Gain(A) = I (D) – I (A) (2.19)
Keterangan :
A : atribut
D : jumlah seluruh sampel data
Gain (A) : information atribut A
I (D) : total entropi
I (A) : entropi A
Untuk mendapatkan nilai total entropi A, digunakan rumus :
info(D) = ∑ 𝑝𝑖 log2(𝑝𝑖)𝑚𝑖=1 (2.20)
Keterangan :
m : jumlah kelas klasifikasi
i : maksimal nilai pada atribut target
pi : jumlah sampel untuk kelas i
Untuk mendapatkan nilai entropi A, digunakan rumus :
infoA(D) = ∑|𝐷𝑗|
𝐷𝑥 𝑖𝑛𝑓𝑜(𝐷𝑖)
𝑣𝑗=1 (2.21)
Keterangan :
v : suatu nilai yang mungkin untuk atribut A
j : nilai maksimal yang mungkin untuk atribut A
|Dj| : jumlah sampel untuk nilai j
D : jumlah seluruh sampel data
Di : jumlah sampel untuk kelas i
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
20
2.7 K-Fold Cross Validation
Model klasifikasi yang dibangun dengan menggunakan teknik
pembelajaran dapat digunakan metode k-fold cross-validation untuk
mempartisi data. Himpunan data D dipartisi secara acak menjadi k fold (sub
himpunan) yang saling bebas: f1, f2, … fk, sehingga masing-masing fold berisi
1/k bagian data. Selanjutnya dapat dibangun k himpunan data: D1, D2, … Dk
yang masing-masing berisi (k-1) fold untuk data latih dan 1 fold untuk data
uji. Misalnya, dengan menggunakan k=5 maka akan didapatkan himpunan
data D1 berisi empat fold: f2, f3, f4, dan f5 untuk data latih serta satu fold f1
untuk data uji. Himpunan data D2 berisi fold f1, f3, f4 dan f5 sebagai data
latih sementara f2 digunakan sebagai data uji. Begitu pula seterusnya untuk
himpunan data D3, D4, dan D5. Tidak hanya sebatas dua himpunan saja, k
fold dapat dibangun menjadi tiga himpunan yang terdiri dari data latih, data
validasi dan data uji. Sehingga masing-masing berisi (k-2) fold untuk data
latih, 1 fold untuk data validasi dan 1 fold untuk data uji. Pada umumnya,
penggunaan k=10 lebih banyak digunakan karena akan mendapatkan akurasi
dengan bias dan variansi yang lebih relatif rendah. Dengan menggunakan
metode k-fold cross-validation, dapat digunakan untuk mengukur kualitas
dari model klasifikasi yang dibangun (Suyanto, 2019). Berikut diilustrasikan
pembagian data menggunakan 3-Fold Cross Validation yang membagi data
menjadi 1
3 data testing dan
2
3 data training.
Gambar 2.7 Skema pembagian data 3-Fold Cross Validation
Keterangan :
Testing set Training set
Dataset
Fold 1
Fold 2
Fold 3
Dataset
Fold 1
Fold 2
Fold 3
Dataset
Fold 1
Fold 2
Fold 3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21
2.8 Confusion Matrix
Confusion matrix merupakan ukuran evaluasi untuk menilai kualitas
classifier. Confusion matrix menyatakan jumlah data uji yang benar
diklasifikasikan dan jumlah data uji yang salah diklasifikasikan. Terdapat
beberapa ukuran yang dapat digunakan dalam menilai atau mengevaluasi
model klasifikasi seperti accuracy atau tingkat pengenalan, error rate atau
tingkat kesalahan, recall atau sensitivity atau true positive rate, specificity
atau true negative rate, precision, F-measure atau F1 atau F-score atau rata-
rata harmonik dari precision dan recall, serta Fβ (Han, et al., 2012).
Tabel 2.6 Ukuran evaluasi model klasifikasi
No Ukuran Rumus
1 Accuracy atau tingkat pengenalan 𝑇𝑃 + 𝑇𝑁
𝑃 + 𝑁
2 Error rate atau tingkat kesalahan 𝐹𝑃 + 𝐹𝑁
𝑃 + 𝑁
3 Recall atau true positive rate 𝑇𝑃
𝑃
4 Specificity atau true negative 𝑇𝑁
𝑁
5 Precision 𝑇𝑃
𝑇𝑃 + 𝐹𝑃
6 F atau F1 2 𝑥 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑥 𝑟𝑒𝑐𝑎𝑙𝑙
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙
7 Fβ, di mana β adalah sebuah bilangan
riil non-negatif
(1 + 𝛽2) 𝑥 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑥 𝑟𝑒𝑐𝑎𝑙𝑙
𝛽2 𝑥 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙
Terdapat beberapa istilah penting dalam memahami ukuran evaluasi di atas
yaitu :
• TP atau True Positives adalah jumlah tuple positif yang dilabeli dengan
benar oleh classifier.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
22
• TN atau True Negative adalah jumlah tuple negatif yang dilabeli dengan
benar oleh classifier.
• FP atau False Positives adalah jumlah tuple negatif yang salah dilabeli
oleh classifier.
• FN atau False Negative adalah jumlah tuple positif yang salah dilabeli
oleh classifier.
Istilah-istilah tersebut dapat digambarkan sebagai confusion matrix seperti
gambar berikut ini.
Tabel 2.7 Confusion Matrix
Kelas hasil Prediksi
Ya Tidak Jumlah
Kelas aktual Ya TP FN P
Tidak FP TN N
Jumlah P’ N’ P + N
TP dan TN menyatakan bahwa classifier mengenali tuple dengan benar,
yang berarti tuple positif dikenali sebagai positif dan tuple negatif dikenali
sebagai negatif. Sebaliknya, FP dan FN menyatakan bahwa classifier salah
dalam mengenali tuple, tuple negatif dikenali sebagai positif dan tuple negatif
dikenali sebagai posititf. P’ adalah jumlah tuple yang diberi label positif(TP
+ FP) sedangkan N’ adalah jumlah tuple yang diberi label negatif (TN + FN).
Sementara itu, jumlah keseluruhan tuple dapat dinyatakan sebagai (TP + TN
+ FP + FN) atau (P + N) atau (P’ + N’) (Suyanto, 2019).
2.9 Normalisasi
Keberagaman nilai atribut dalam suatu dataset seringkali membuat
suatu atribut dapat mendominasi seluruh dataset. Sehingga diperlukan adanya
normalisasi agar setiap atribut dalam dataset memiliki bobot yang sama.
Normalisasi adalah proses transformasi dimana sebuah atribut numerik
diskalakan dalam range yang lebih kecil seperti -1.0 sampai 1.0, atau 0.0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
23
sampai 1.0 (Junaedi, et al., 2011). Terdapat beberapa metode yang dapat
diterapakan untuk menormalisasi data, salah satunya yaitu min-max dan z-
score.
2.9.1 Normalisasi Min-Max
Metode min-max merupakan metode yang sering dipergunakan
dalam menormalisasi data. Metode normalisasi ini merupakan metode
yang paling sederhana dengan melakukan transformasi linier terhadap data
asli dan memiliki kelebihan yaitu terdapat keseimbangan nilai
perbandingan antara nilai data sebelum dinormalisasi dengan nilai data
yang telah dinormaliasi (Rofiqoh, et al., 2017). Berikut rumus yang
digunakan dalam normalisasi min-max :
𝑣′ = 𝑣−𝑚𝑖𝑛𝐴
𝑚𝑎𝑥𝐴−𝑚𝑖𝑛𝐴(𝑛𝑒𝑤_𝑚𝑎𝑥𝐴 − 𝑛𝑒𝑤_𝑚𝑖𝑛𝐴) + 𝑛𝑒𝑤_𝑚𝑖𝑛𝐴 (2.22)
Keterangan :
v : value (data asli)
v’ : nilai value baru
A : atribut
maxA, minA : nilai value maksimum dan minimum dalam data asli
new_maxA, new_minA : rentang nilai value maximum dan minimum
yang sudah dinormalisasi, contoh [1,0]
Implementasi dari perhitungan normalisasi min-max dapat
dijabarkan seperti dalam contoh berikut ini yang menggunakan contoh
data sampel pada Tabel 2.8.
Normalisasi atribut X1 data ke-1
8.4 − 7
8.4 − 7(1 − 0) + 0 = 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
24
Normalisasi atribut X2 data ke-1
3 − 0
4 − 0(1 − 0) + 0 = 0.75
Tabel 2.8 Sampel data sebelum dinormalisasi
Dat
a
X1 X2
1 8.4 3
2 8.3 2
3 8 1
4 7 0
5 8 4
Setelah dilakukan normalisasi min-max, hasil transformasi data
tampil seperti pada Tabel 2.9.
Tabel 2.9 Sampel data setelah dinormalisasi min-max
Data X1 X2
1 1 0.75
2 0.93 0.50
3 0.71 0.25
4 0 0
5 0.71 1
2.9.2 Normalisasi Z-Score
Normalisasi z-score atau disebut juga zero-mean normalization
merupakan normalisasi yang dimana nilai dari sebuah atribut A
dinormalisasi berdasarkan nilai rata-rata dan standar deviasi dari atribut A
(Hardiani, et al., n.d.). Berikut rumus yang digunakan dalam normalisasi
z-score :
𝑣′ = 𝑣−�̅�
𝜎𝐴 (2.23)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25
Keterangan :
v : value (data asli)
v’ : nilai value baru
�̅� : nilai rata-rata atribut A
𝜎𝐴 : standar deviasi atribut A
Implementasi dari perhitungan normalisasi z-score dapat dijabarkan
seperti dalam contoh berikut ini yang menggunakan contoh data sampel
pada Tabel 2.8.
Hitung nilai rata-rata atribut X1
𝑋1̅̅̅̅ = 8.4+8.3+8+7+8
5= 7.94
Hitung nilai standar deviasi atribut X1
Data X1 X12
1 8.4 70.56
2 8.3 68.89
3 8 64
4 7 49
5 8 64
Jumlah 39.7 316.45
𝜎𝑋1 = √∑ 𝑋12 −
(∑ 𝑋1)2
𝑛𝑛 − 1
= √316.45 −
(39.7)2
55 − 1
= √316.45 − 315.218
4
= √0.308
= 0.55
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
26
Keterangan :
n : jumlah data
Normalisasi atribut X1 data ke-1 menggunakan rumus 2.23
𝑣′ = 8.4 − 7.94
0.55= 0.83
Setelah dilakukan normalisasi z-score, hasil transformasi data tampil
seperti pada Tabel 2.10.
Tabel 2.10 Sampel data setelah dinormalisasi z-score
Data X1 X2
1 0.83 0.63
2 0.65 0.00
3 0.11 -0.63
4 -1.69 -1.26
5 0.11 1.26
2.10 Varietas Kopi Arabika
Persebaran kopi arabika di dunia saat ini telah berkembang varietasnya
dan sangat variatif. Proses penanaman dan lokasi tanam yang berbeda
mengakibatkan mutu cita rasa kopi arabika berbeda pula. Ukuran cita rasa
kopi yang biasa digunakan meliputi aroma, flavor, aftertaste, acidity, body,
sweetness, cniformity, clean cup, balance, defect, serta overall (Team, 2007).
Beragam varietas kopi yang telah dikenal di seluruh dunia dikelompokkan
menjadi 4 jenis utama :
• Bourbon-Typica Group
• Ethiopian Landrace
• Introgressed
• F1 Hybrids
(Research, 2018)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
27
Seperti terlihat pada keempat kelompok varietas kopi diatas, pada
penelitian ini akan digunakan kelompok varietas turunan dari kelompok
Bourbon-Typica Group. Dalam Bourbon Typica Group sendiri terdapat 23
turunan yang terdiri dari 3 kategori yaitu Bourbon (Bourbon, Bourbon
Mayaguez, Caturra, Jackson, K7, KP423, Pacas, SL28, Tekisic, Venecia,
Villa Sarchi), Typica (Harrar Rwanda, Maragogipe, Mibirizi, Nyasaland,
Pache, Pp3303/21, SL14, SL34, Typica) dan Bourbon and Typica (Catuai,
Mundo Novo, Pacamara) (Research, 2018). Dalam penelitian ini akan
digunakan 3 turunan dari kategori Bourbon dan Typica, ketiga turunan
tersebut yaitu :
• Bourbon
Kopi ini dikenal sebagai kopi yang berkualitas tinggi. Bourbon
memiliki ciri seperti relatif rendahnya tingkat produksi, mudah
terpengaruh oleh penyakit, dan kualitas cangkir yang sangat baik.
• Caturra
Caturra merupakan tanaman dengan potensi hasil yang tinggi dari
standar di bagian Amerika Tengah. Kopi ini sangat rentan terhadap
karat daun kopi.
• Typica
Typica merupakan salah satu kopi arabika yang penting secara budaya
dan genetis dengan kualitas tinggi di bagian Amerika Tengah. Kopi ini
memiliki kerentanan yang sangat tinggi terhadap karat daun, tetapi
dapat beradaptasi dengan baik pada kondisi terdingin.
(Research, 2019)
2.11 Pengujian Mutu Kopi
Standar umum pengujian mutu pada biji kopi dapat dilakukan dua acara
yaitu mutu fisik dan mutu cita rasa. Pengujian berdasarkan mutu fisik
merupakan suatu sistem yang digunakan untuk menilai kualitas dari biji kopi
berdasarkan fisiknya, baik menggunakan alat bantu atau menggunakan indra
manusia sesuai dengan standar yang berlaku. Standar yang digunakan dapat
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
28
berdasarkan Standar Nasional Indonesia(SNI) atau Specialty Coffee
Association of America (SCAA) untuk specialty coffee. Sedangkan pengujian
berdasarkan mutu cita rasa ditentukan berdasar uji organoleptik (analisis
sensorial) oleh panelis (Team, 2007)
2.12 Pengujian Mutu Cita Rasa Kopi SCAA
Standar pengujian mutu cita rasa yang dianjurkan oleh SCAA bertujuan
sebagai pedoman yang memastikan kemampuan untuk menilai kualitas kopi
secara akurat. Proses pengujian ini menggunakan gelas cupping sebagai alat
bantu. Ketentuan gelas cupping yang digunakan untuk menilai berdasarkan
rekomendasi SCAA yaitu memiliki bahan kaca atau keramik. Harus diantara
7-9 ons cairan (207ml hingga 266ml), dengan diameter atas antara 3 sampai
3.5 inci (76mm-89mm). Semua cangkir yang digunakan harus memiliki
volume, dimensi dan bahan pembuatan yang identik serta memiliki tutup.
Selain itu konsentrasi air yang digunakan kurang lebih 125-175 ppm (SCAA,
2015). Ketentuan persiapan pengujian yang telah dijabarkan merupakan
hanya sebagian kecil dari protokol yang terdapat dalam cupping protocol
SCAA.
Prosedur penilaian dilakukan dengan menggunakan SCAA Cupping
Form yang tampak pada Gambar 2.8 pada form ini diisikan dengan skala
kualitas seperti yang tertera pada Tabel 2.11. Skor penilaian berupa nilai
numerik dengan skala 6 sampai 9.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29
Gambar 2.8 Cupping Form
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
30
Tabel 2.11 Skala Kualitas
Quality Scale
6.00
(Good)
7.00
(Very Good)
8.00
(Excellent)
9.00
(Outstanding)
6.25 7.25 8.00 9.00
6.50 7.50 8.50 9.50
6.75 7.75 8.75 9.75
Sedangkan untuk penilaian akhir dihitung dengan menjumlahkan skor
individu yang diberikan untuk masing-masing atribut utama dalam kotak
yang ditandai dengan “Total Score”. Kemudian nilai defect dikurangkan
dengan Total Score untuk mendapatkan nilai Final Score. Pada Tabel 2.12
terdapat gambaran deskripsi dari Final Score.
Tabel 2.12 Skala Skor Total
Total Score Quality Classification
90 – 100 Outstanding
Specialty 85 – 89.99 Excellent
80 – 84.99 Very Good
< 80.0 Below Specialty Quality Not Specialty
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31
BAB III
METODOLOGI PENELITIAN
3.1 Data
Pada penelitian ini digunakan data Coffee Bean Review yang diperoleh
dari Coffee Quality Institute dan dapat diakses di :
https://www.kaggle.com/ankurchavda/coffee-beans-reviews-by-coffee-
quality-institute yang terdiri dari 1312 data dan 44 atribut. Berikut merupakan
contoh dari sampel data kopi arabika.
Tabel 3.1 Contoh sampel data
ID
Com
pan
y
Alt
itud
e
Reg
ion
Pro
duce
r
Num
ber
.of.
Bag
s
Bag
.Wei
ght
1
metad agricultural
developmet plc
1950-
2200
guji-
hambela METAD PLC 300 60 kg
2
metad agricultural
developmet plc
1950-
2200
guji-
hambela METAD PLC 300 60 kg
29 cigrah s.a de c.v 1400 comayagua Reinerio Zepeda 275 69 kg
ID
Spec
ies
Ow
ner
Countr
y.o
f.O
rigin
Far
m.N
ame
Lot.
Num
ber
Mil
l
ICO
.Num
ber
1 Arabica metad plc Ethiopia metad plc metad plc 2014 / 2015
2 Arabica metad plc Ethiopia metad plc metad plc 2014 / 2015
29 Arabica
bismarck
castro Honduras
los
hicaques
102 cigrah s.a
de c.v. 13-111-053
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
32
ID
In.C
ountr
y.P
artn
er
Har
ves
t.Y
ear
Gra
din
g.D
ate
Ow
ner
.1
Var
iety
Pro
cess
ing.M
ethod
1
METAD Agricultural
Development plc 2014
April 4th,
2015 metad plc
Washed /
Wet
2
METAD Agricultural
Development plc 2014
April 4th,
2015 metad plc Other
Washed /
Wet
29
Instituto Hondureño
del Café 2016
May
18th,
2017
Bismarck
Castro Caturra
ID
Aro
ma
Fla
vor
Aft
erta
ste
Aci
dit
y
Body
Bal
ance
Unif
orm
ity
Cle
an.C
up
Sw
eetn
ess
Cupper
.Poin
ts
Tota
l.C
up.P
oin
ts
1 8.67 8.83 8.67 8.75 8.5 8.42 10 10 10 8.75 90.58
2 8.75 8.67 8.5 8.58 8.42 8.42 10 10 10 8.58 89.92
29 8.17 8.08 8.08 8 8.08 8 10 10 10 8.25 86.67
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
33
ID
Mois
ture
Cat
egory
.One.
Def
ects
Quak
ers
Colo
r
Cat
egory
.Tw
o.D
efec
ts
Expir
atio
n
Cer
tifi
cati
on.B
ody
1 0.12 0 0 Green 0
April 3rd,
2016
METAD Agricultural
Development plc
2 0.12 0 0 Green 1
April 3rd,
2016
METAD Agricultural
Development plc
29 0.1 0 0 Green 3
May 18th,
2018
Instituto Hondureño del
Café
ID
Cer
tifi
cati
on.A
ddre
ss
Cer
tifi
cati
on.C
onta
ct
unit
_of_
mea
sure
men
t alti
tude_
low
_m
eter
s
alti
tude_
hig
h_m
eter
s
alti
tude_
mea
n_m
eter
s
1
309fcf77415a3661ae83
e027f7e5f05dad786e44
19fef5a731de2db57d16
da10287413f5f99bc2dd m 1950 2200 2075
2
309fcf77415a3661ae83
e027f7e5f05dad786e44
19fef5a731de2db57d16
da10287413f5f99bc2dd m 1950 2200 2075
29
b4660a57e9f8cc613ae5
b8f02bfce8634c763ab4
7f521ca403540f81ec99
daec7da19c2788393880 m 1400 1400 1400
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34
Berikut merupakan penjelasan dari setiap atribut pada sampel dataset Tabel
3.1.
Tabel 3.2 Penjelasan Atribut
No Atribut Keterangan
1 ID Id kopi.
2 Species Spesies kopi.
3 Owner Pemilik perusahaan atau nama
perusahaan.
4 Country of Origin Negara asal kopi.
5 Farm.Name Nama pertanian.
6 Lot.Number Lot number dibuat untuk membedakan
satu area pertanian, lereng bukit, hasil satu
hari, atau bahkan metode pemrosesan.
7 Mill Pabrik pemrosesan biji kopi.
8 ICO.Number Kombinasi angka yang meliputi kode
negara, kode untuk eksportir atau
penanam, dan nomor parsel. Nomor ICO
merupakan unik untuk setiap paket kopi.
9 Company Perusahaan yang membuat kopi.
10 Altitude Ketinggian penanaman kopi.
11 Region Wilayah tempat kopi itu tumbuh.
12 Producer Produsen yang memproduksi kopi.
13 Number.of.Bags Jumlah tas yang dipanen.
14 Bag.Weight Berat tas panen.
15 In.Country.Partner Mitra perusahaan di negara asal.
16 Harvest.Year Tahun panen.
17 Grading.Date Tanggal kopi direview.
18 Owner.1 Pemilik perusahaan atau nama
perusahaan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35
No Atribut Keterangan
19 Variety Jenis kopi.
20 Processing.Method Metode pemrosesan yang digunakan
untuk mengolah biji kopi.
21 Aroma Bau kopi setelah ditambahkan air panas.
22 Flavor Karakteristik rasa dari kopi.
23 Aftertaste Lama bertahannya suatu flavor positif
(rasa dan aroma) yang berasal dari langit-
langit belakang mulut dan bertahan setelah
kopi ditelan.
24 Acidity Ketajaman dan keaktifan keasaman pada
kopi.
25 Body Perasaan sentuhan kopi di mulut
khususnya antara lidah dan langit-langit
mulut.
26 Balance Semua aspek flavor, aftertaste, acidity dan
body seimbang, tidak ada satu rasa
mendominasi yang lain. Jika terdapat
salah satu aspek kurang atau berlebihan
maka nilai balance dapat berkurang.
27 Uniformity Keseragaman yang mengacu pada
konsistensi rasa dari sampel cangkir yang
berbeda.
28 Clean.Cup Kurangnya gangguan negatif dari
konsumsi pertama hingga akhir aftertaste
(tidak adanya cacat rasa).
29 Sweetness Rasa manis yang mengacu pada
kepenuhan rasa yang enak serta rasa manis
yang jelas. Hasil persepsi ini merupakan
hasil dari adanya karbohidrat tertentu.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
36
No Atribut Keterangan
30 Cupper.Points Aspek penilaian “keseluruhan” yang
dirasakan oleh panelis.
31 Total.Cup.Points Poin yang didapatkan dengan
menjumlahkan skor individu yang
kemudian dikurangi dengan jumlah cacat.
32 Moisture Jumlah cairan yang tersebar dalam jumlah
kecil di dalam biji kopi hijau, jika
kelembabannya stabil, biji kopi akan
mempertahankan kelembabannya sampai
ketika dipanggang.
33 Category.One.Defects Cacat utama pada biji kopi.
34 Quakers Biji kopi mentah, seringkali dengan
permukaan yang keriput dan tidak menjadi
gelap ketika di panggang.
35 Color Warna biji kopi.
36 Category.Two.Defects Cacat minor pada biji.
37 Expiration Waktu kadaluwarsa sertifikat biji kopi.
38 Certification.Body Badan sertifikasi.
39 Certification.Address Alamat sertifikasi.
40 Certification.Contact Kontak sertifikasi.
41 unit_of_measurement Unit pengukuran ketinggian pertanian.
42 altitude_low_meters Ketinggian pertanian yang terendah.
43 altitude_high_meters Ketinggian pertanian yang tertinggi.
44 altitude_mean_meters Ketinggian pertanian rata-rata.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
37
3.2 Desain Alat Uji
Sub bab ini berisikan tentang perancangan sistem yang akan dibangun.
Proses yang terjadi dimulai dari tahap preprocessing data, training dan testing
data hingga proses klasifikasi. Berikut merupakan gambaran umum dari
tahapan penelitian yang dilakukan penulis.
Gambar 3.1 Tahapan Penambangan Data
Pada Gambar 3.1 menunjukkan sistem akan melakukan input dataset
kopi yang kemudian dilakukan tahap preprocessing data untuk mengolah
data ke dalam bentuk yang siap diproses oleh sistem. Pada tahap
preprocessing dilakukan beberapa tahapan seperti seleksi data dan
transformasi data, seleksi data akan menyeleksi data berdasarkan kelas dan
atribut sedangkan transformasi data mengubah data kelas kedalam bentuk
numerik dan kemudian dilakukan normalisasi data menggunakan normalisasi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
38
min-max dan z-score. Setelah didapatkan dataset hasil preprocessing
selanjutnya terdapat dua tahapan proses yaitu proses training dan testing.
Pada tahapan training dilakukan pemberian label pada data, yaitu 1
untuk Bourbon, 2 untuk Caturra, dan 3 untuk Typica sebagai data latih yang
akan terbagi berdasarkan 3-Fold Cross Validation dengan 2/3 data akan
digunakan sebagai data training. Selanjutnya data dilatih untuk menghasilkan
model SVM. Model SVM yang dibangun menggunakan metode multiclass
one against one dan terdapat 3 fungsi kernel yang digunakan yaitu kernel
Linear, RBF dan Polynomial.
Pada tahapan testing yang menggunakan 1/3 dataset akan dilakukan
klasifikasi berdasarkan model SVM yang telah dibuat pada proses training.
Kemudian dilakukan perhitungan akurasi dengan menggunakan confusion
matrix yang akan membagi jumlah hasil prediksi benar dengan jumlah
seluruh data.
3.3 Cara Mengolah Data
3.3.1 Tahap Preprocessing
Tahapan dalam preprocessing data adalah seleksi data, transformasi data,
pembersihan data, integrasi data dan normalisasi.
a. Seleksi data
Tahapan ini dilakukan untuk menyeleksi data dan menentukan atribut-
atribut yang akan digunakan. Seleksi data yang dilakukan pada
penelitian ini menggunakan tools Microsoft Excel dengan memilih
data dengan label kelas Bourbon, Caturra dan Typica. Pada data yang
tersedia terdapat 29 label kelas yang terdiri dari Arusha, Blue
Mountain, Bourbon, Catuai, Caturra, Ethiopian Heirlooms, Ethiopian
Yirgacheffe, Gesha, Hawaiian Kona, Java, Mandheling, Marigojipe,
Moka Peaberry, Mundo Novo, Pacamara, Pacas, Pache Comun,
Peaberry, Ruiru 11, SL14, SL28, SL34, Sulawesi, Sumatra, Sumatra
Lintong, Typica, dan Yellow Bourbon. Dari 29 kelas yang tersedia,
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
39
pada penelitian ini hanya akan digunakan 3 kelas untuk dilakukan
pengelompokkan varietas. Ketiga kelas tersebut yaitu Bourbon,
Caturra dan Typica. Pemilihan ketiga kelas ini dilakukan dengan
pertimbangan jumlah dataset Bourbon, Caturra dan Typica yang lebih
seimbang dibandingkan dengan jumlah dataset pada kelas lain.
Jumlah data ketiga kelas tersebut tampak seperti pada Tabel 3.3.
Tabel 3.3 Jumlah Seleksi Kelas
Kelas Jumlah
Bourbon 225
Caturra 256
Typica 208
Total 689
Berikut ditampilkan sampel data dengan beragam label kelas pada
Gambar 3.2.
Gambar 3.2 Sampel data berbagai macam label kelas
Setelah ditentukan data dengan label kelas hanya Bourbon, Caturra
dan Typica maka data akan menjadi seperti pada Gambar 3.3.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
40
Gambar 3.3 Sampel data tiga macam label kelas
Seleksi data yang dilakukan dengan menggunakan label kelas
Bourbon, Caturra, dan Typica menghasilkan sebanyak 689 data yang
akan digunakan dalam penelitian dari 1312 data yang tersedia.
Seleksi data yang selanjutnya dilakukan yaitu dengan
menentukan atribut yang akan digunakan, penentuan atribut dilakukan
dengan menggunakan ketentuan cupping form seperti yang terdapat
pada Gambar 2.8 dan menggunakan perangkingan atribut dengan
bantuan Weka tools versi 3.8. Metode yang diterapkan yaitu dengan
menggunakan Information Gain yang akan melakukan evaluasi
atribut pada data training untuk mendapatkan perangkingan atribut.
Seleksi atribut dengan menggunakan cupping form menghasilkan
sejumlah 12 atribut dari 44 atribut. Sehingga hasil dari seleksi atribut
tersebut yaitu Aroma, Flavor, Aftertaste, Acidity, Body, Balance,
Uniformity, Clean.Cup, Sweetness, Cupper.Points,
Category.One.Defects, dan Category.Two.Defects. Selanjutnya
dilakukan perangkingan atribut untuk melihat atribut-atribut yang
relevan dalam penelitian.
Hasil perangkingan atribut dengan menggunakan information
gain terlihat dalam Gambar 3.4 yang menempatkan atribut Balance
sebagai atribut yang memiliki nilai rangking tertinggi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
41
Gambar 3.4 Hasil perangkingan atribut
Setelah didapat hasil perangkingan atribut dari data uji 12
atribut, terdapat informasi dengan 3 atribut yang mendapatkan nilai
terendah yaitu Sweetness, Category.One.Defects, dan Clean.Cup.
Selanjutnya dilakukan seleksi atribut dengan menggunakan akurasi
yang terdapat pada WEKA seperti yang terdapat pada Tabel 4.3.
Sehingga atribut yang akan digunakan dalam penelitian ini hanya akan
menggunakan 11 atribut saja seperti tampak pada Tabel 3.4.
Tabel 3.4 Atribut hasil Information Gain
No. Nama Atribut
1. Aroma
2. Flavor
3. Aftertaste
4. Acidity
5. Body
6. Balance
7. Uniformity
8. Sweetness
9. Cupper.Points
10. Category.One.Defects
11. Category.Two.Defects
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
42
b. Transformasi data
Transformasi data pada penelitian ini dilakukan dengan dua cara.
Pertama, dilakukan transformasi data pada label kelas dengan
mengubah tipe data kolom Variety menjadi numerik agar dapat
diproses pada saat klasifikasi. Sehingga transformasi pada label kelas
akan menjadi seperti berikut.
• Bourbon : 1
• Caturra : 2
• Typica : 3
Selanjutnya transformasi data dilakukan dengan menormalisasi data
agar setiap atribut dalam dataset memiliki bobot yang sama sehingga
tidak ada salah satu atribut yang mendominasi. Hal ini dilakukan
karena jika terdapat atribut yang berbeda-beda seringkali pemrosesan
data menjadi bias. Normalisasi yang akan dilakukan yaitu
menggunakan normalisasi min-max dan z-score. Normalisasi min-
max akan mentransformasi nilai data berdasarkan nilai minimum dan
maksimum pada dataset, sedangkan normalisasi z-score
mentransformasi nilai data berdasarkan nilai rata-rata dan standar
deviasi.
3.3.2 K-Fold Cross Validation
Pada penelitian ini digunakan data sebanyak 689 data records yang
akan dibagi menjadi dua bagian untuk melakukan pengujian yaitu data
training dan data testing. Masing-masing kelompok data dibagi
berdasarkan pengujian 3-Fold Cross Validation yang ditentukan 2/3 data
training dan 1/3 data testing. Berikut ini ilustrasi pembagian data yang
dilakukan pada Tabel 3.5.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
43
Tabel 3.5 Simulasi pembagian data training dan data testing
Keterangan :
Testing set Training set
3.3.3 Tahap Klasifikasi
Tahap klasifikasi ini menggunakan Support Vector Machine (SVM).
Support Vector Machine akan menggunakan tools pada Matlab
menggunakan fungsi biner yang akan ditambahkan fungsi multi kelas.
Berikut ilustrasi tahapan klasifikasi SVM menggunakan metode one-
against-one dengan tiga label kelas pada Gambar 3.5 sampai dengan
Gambar 3.9. SVM hanya dapat mengklasifikasikan 2 kelas saja, tetapi
dengan adanya konsep multiclass maka metode SVM memungkinkan
untuk melakukan klasifikasi lebih dari dua kelas. Pada Gambar 3.5
memperlihatkan terdapat 3 kelas data yang diperlihatkan dengan warna
hitam sebagai kelas 1, merah sebagai kelas 2, dan biru sebagai kelas 3.
Dengan menggunakan konsep multiclass dan metode one-against-one
maka akan dibangun 3 kelas biner. Tiga kelas biner ini diperoleh dengan
menggunakan rumus pada persamaan 2.18 sehingga model biner SVM
yang dibangun yaitu sejumlah 3(3-1)/2=3. Model biner SVM ini terdiri
dari kelas 1 lawan 2, 1 lawan 3, dan 2 lawan 3.
Data ke : 1 - 229
Data ke : 230 – 459
Data ke : 460 - 689
Data ke : 1 – 229
Data ke : 230 – 459
Data ke : 460 - 689
Data ke : 1 – 229
Data ke : 230 – 459
Data ke : 460 - 689
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
44
Gambar 3.5 Klasifikasi dengan tiga kelas (W, 2017)
Pada model kelas biner yang pertama seperti yang terlihat pada
Gambar 3.6, objek baru diklasifikasikan dengan menggunakan data
training dari kelas 1 dan 2. Diasumsikan objek data tersebut lebih dekat ke
kelas 2, maka kelas 2 akan dipilih untuk dilakukan voting.
Gambar 3.6 Kelas 1 dan kelas 2
Pada model kelas biner yang kedua seperti yang terlihat pada
Gambar 3.7, objek baru diklasifikasikan dengan menggunakan data
training dari kelas 1 dan 3. Diasumsikan objek data tersebut lebih dekat ke
kelas 3, maka kelas 3 akan dipilih untuk dilakukan voting.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
45
Gambar 3.7 Kelas 1 dan kelas 3
Pada model kelas biner yang ketiga seperti yang terlihat pada
Gambar 3.10, objek baru diklasifikasikan dengan menggunakan data
training dari kelas 2 dan 3. Diasumsikan objek data tersebut lebih dekat ke
kelas 2, maka kelas 2 akan dipilih untuk dilakukan voting.
Gambar 3.8 Kelas 2 dan kelas 3
Selanjutnya dilakukan voting untuk menentukan kelas klasifikasi.
Hasil voting dari kelas biner pertama hingga ketiga, kelas 2 memiliki
voting terbanyak, sehingga hasil klasifikasi dari data objek baru akan
dikategorikan sebagai kelas 2 seperti yang terlihat pada Gambar 3.9.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
46
Gambar 3.9 Hasil voting
3.4 Desain Pengujian
Pada penelitian ini digunakan pengujian menggunakan metode 3-Fold
Cross Validation yang akan membagi 689 data menjadi 3 bagian. Selanjutnya
dilakukan pengujian sebanyak 3 kali dengan menggunakan kelompok-
kelompok data yang telah terbagi. Illustrasi pembagian kelompok data
tampak seperti pada Table 3.5.
Setelah dilakukan pembagian kelompok data kemudian dilakukan
pengujian data. Pengujian data dilakukan sebanyak 3 kali karena
menggunakan 3-Fold Cross Validation. Tampak pengujian seperti pada
Tabel 3.6. Hasil dari pengujian ini yaitu sebuah confusion matrix yang
merepresentasikan jumlah prediksi dalam klasifikasi baik itu prediksi yang
benar maupun yang salah. Setelah didapatkan jumlah hasil prediksi, langkah
selanjutnya menghitung akurasi berdasarkan confusion matrix yang diperoleh.
Rumus perhitungan akurasi ini tampak seperti pada rumus 3.1.
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =𝑇𝑢𝑝𝑙𝑒 𝑏𝑒𝑛𝑎𝑟
𝐽𝑢𝑚𝑙𝑎ℎ 𝐷𝑎𝑡𝑎𝑥 100% (3.1)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
47
Tabel 3.6 Tabel Pengujian
Percobaan Data Training Data Testing
1 2, 3 1
2 1, 3 2
3 1, 2 3
3.5 Kebutuhan Sistem
3.5.1 Perangkat Keras (Hardware)
Laptop diperlukan dalam menunjang pembuatan sistem, adapun
spesifikasi yang digunakan dalam pembuatan sistem ini yaitu :
Tabel 3.7 Spesifikasi PC
Model ASUS X45C
Platform Notebook-PC
Hard Disk Drive 500 Gigabyte
Graphic Processing Unit Intel® HD Graphics 3000
Operating System Microsoft Windows 10 Professional
Memory 4 Gigabyte
3.5.2 Perangkat Lunak (Software)
Perangkat lunak yang diperlukan adalah menggunakan software
Microsoft Excel 2013, Weka versi 3.8 dan Matlab versi R2016b untuk
membuat serta menjalankan sistem yang dibuat.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
48
3.6 Perancangan Antar Muka Sistem
Gambar 3.10 Prototype GUI Program
Gambar 3.10 merupakan desain dari user interface yang akan digunakan.
Terdapat dua panel utama yang digunakan yaitu panel proses data dan panel
uji data tunggal. Pada panel proses data terdapat tombol Upload File untuk
memasukkan data tabel yang telah dilakukan preprocessing dan kemudian
muncul pada tabel Data Uji Cita Rasa Kopi. Selanjutnya proses training data
dilakukan pada tombol Train yang akan memberikan output confusion matrix
pada tabel Confusion Matrix Data Uji 1, 2, dan 3. Kemudian hasil akurasi
tampil pada field Akurasi dan Total Akurasi. Panel yang kedua yaitu panel
Uji Data Tunggal, panel ini digunakan untuk pengguna melakukan klasifikasi
terhadap data baru yang dimasukkan oleh user pada masing-masing field yang
dimana ketika telah dimasukkan keseluruhan data dan diklik tombol
Klasifikasi, sistem akan memberikan output varietas kopi pada panel Hasil
Klasifikasi. Tombol Reset digunakan untuk mengosongkon field isian dan
menjadi default seperti semula.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
49
BAB IV
IMPLEMENTASI DAN ANALISIS HASIL
4.1 Distribusi Data
Penyajian distribusi data pada bagian ini bertujuan untuk menunjukkan
persebaran data yang digunakan dalam penelitian secara umum. Jumlah data
yang digunakan dalam penelitian adalah sebanyak 689 data dan 11 atribut.
Data terdiri dari dua jenis kategori yaitu atribut numerik dan atribut nominal.
Atribut masukan berjenis numerik dan penyebarannya ditampilkan seperti
pada Tabel 4.1.
Tabel 4.1 Atribut Masukkan
Atribut Masukan Nilai Minimum Nilai Maximum Mean
Aroma 5.08 8.5 7.55
Flavor 6.08 8.5 7.48
Aftertaste 6.17 8.42 7.36
Acidity 5.25 8.42 7.50
Body 6.33 8.33 7.49
Balance 6.08 8.58 7.48
Uniformity 6 10 9.85
Sweetness 6 10 9.93
Cupper.Points 5.25 9.25 7.44
Category.One.Defects 0 31 0.44
Category.Two.Defects 0 47 3.63
Sedangkan atribut keluaran terdiri dari atribut variety yang memiliki 3
jenis varietas kopi arabika. Ketiga varietas tersebut terdistribusi seperti dalam
Tabel 4.2.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
50
Tabel 4.2 Atribut Keluaran
Atribut keluaran Jumlah Prosentase
variety Bourbon 225 32.66%
Caturra 255 37.01%
Typica 209 30.33%
Total data 689 100%
Terlihat pada data yang digunakan sebagai bahan penelitian, jenis
Caturra mendominasi data dengan persentase 37.01%, kemudian disusul
Bourbon dengan persentase 32.66% dan Typica 30.33%. Persebaran data
varietas ini cukup merata sebagai bahan penelitian untuk dilakukan proses
klasifikasi data.
4.2 Preprocessing
4.2.1 Data Selection
Tahap seleksi data ini bertujuan untuk memilih data agar dapat
menghasilkan akurasi yang akurat dan efektif. Proses seleksi data
dilakukan menggunakan tools Microsoft Excel. Pemilihan atribut
didasarkan pada test cup atau pengujian mutu cita rasa kopi yang
merupakan standar dalam penilaian kualitas kopi berdasarkan uji
organoleptic(analisis sensorial) oleh panelis.
Dengan menggunakan panduan cupping form seperti pada
Gambar 2.8, atribut yang digunakan dalam penelitian ini kemudian
diseleksi. Sehingga dari 44 atribut yang ada, kemudian data menjadi 12
atribut diantaranya yaitu Aroma, Flavor, Aftertaste, Acidity, Body,
Sweetness, Uniformity, Clean.Cup, Balance, Category.One.Defects,
Category.Two.Defects, dan Cupper.Points.
Setelah dilakukan seleksi data berdasarkan cupping form,
dilakukan pemilihan data berdasarkan varietas yang dipilih yaitu
berdasarkan varietas Bourbon, Caturra, dan Typica. Selanjutnya
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
51
dilakukan pengecekan atribut untuk menentukan apakah perlu
dilakukan reduksi data. Data direduksi dengan bantuan aplikasi Weka.
Dengan menggunakan fungsi information gain, data dirangking dan
menghasilkan urutan perangkingan seperti pada Gambar 3.4.
Selanjutnya dilakukan uji akurasi menggunakan aplikasi WEKA
dengan algoritma SVM untuk melihat pengaruh jumlah atribut pada
akurasi. Pengujian akurasi pada aplikasi WEKA menggunakan Linear
Kernel, RBF Kernel dan Polynomial Kernel. Pengujian ini
menggunakan 3-Fold cross validation dan hasil akurasi tampak seperti
pada Tabel 4.3.
Tabel 4.3 Akurasi perangkingan atribut
Jumlah
Atribut Atribut Linear RBF Polynomial
12 Balance, Category.Two.Defects,
Cupper.Points, Body, Flavor,
Aftertaste, Aroma, Acidity,
Uniformity, Sweetness,
Category.One.Defects,
Clean.Cup
48.19% 47.31% 50.07%
11 Balance, Category.Two.Defects,
Cupper.Points, Body, Flavor,
Aftertaste, Aroma, Acidity,
Uniformity, Sweetness,
Category.One.Defects
49.78% 47.17% 51.81%
10 Balance, Category.Two.Defects,
Cupper.Points, Body, Flavor,
Aftertaste, Aroma, Acidity,
Uniformity, Sweetness
49.78% 47.75% 49.06%
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
52
Jumlah
Atribut Atribut Linear RBF Polynomial
9
Balance, Category.Two.Defects,
Cupper.Points, Body, Flavor,
Aftertaste, Aroma, Acidity,
Uniformity
49.93% 47.17% 49.35%
8 Balance, Category.Two.Defects,
Cupper.Points, Body, Flavor,
Aftertaste, Aroma, Acidity
50.07% 46.15% 48.91%
7 Balance, Category.Two.Defects,
Cupper.Points, Body, Flavor,
Aftertaste, Aroma
49.64% 44.70% 48.04%
6 Balance, Category.Two.Defects,
Cupper.Points, Body, Flavor,
Aftertaste
49.20% 45.28% 48.62%
5 Balance, Category.Two.Defects,
Cupper.Points, Body, Flavor 46.73% 46.30% 47.17%
4 Balance, Category.Two.Defects,
Cupper.Points, Body 46.44% 46.15% 48.19%
3 Balance, Category.Two.Defects,
Cupper.Points 46.30% 44.56% 47.31%
2 Balance, Category.Two.Defects 45.28% 43.54% 46.73%
1 Balance 45.43% 44.70% 45.86%
Rata - rata 48.06% 45.90% 48.43%
Berdasarkan hasil akurasi pada Tabel 4.3, terdapat hasil akurasi
tertinggi pada atribut ke-11 menggunakan Polynomial Kernel dengan
hasil akurasi 51.81%. Dari hasil akurasi tersebut penulis melakukan
reduksi data sebanyak 1 atribut yaitu atribut Clean.Cup dari 12 atribut
sebagai bahan penelitian. Sehingga 11 atribut yang akan digunakan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
53
yaitu Balance, Category.Two.Defects, Cupper.Points, Body, Flavor,
Aftertaste, Aroma, Acidity, Uniformity, Sweetness, dan
Category.One.Defects.
4.2.2 Transformasi Data
4.2.2.1 Transformasi Data Label
Setelah melakukan seleksi data selanjutnya dilakukan
transformasi data pada label kelas Variety dengan mengubah nilai
nominal pada Variety menjadi nilai numerik. Berikut contoh data
yang akan ditransformasi tampak seperti pada Tabel 4.4.
Tabel 4.4 Transformasi atribut variety
Atribut Data Sebelum
Ditransformasi
Data Setelah
Ditransformasi
Variety Bourbon 1
Caturra 2
Typica 3
4.2.2.2 Normalisasi
Setelah melakukan transformasi data, langkah preprocessing
yang selanjunya yaitu menormalisasi data. Normalisasi data
dilakukan untuk menskalakan nilai atribut agar setiap atribut
memiliki bobot yang sama. Normalisasi yang digunakan pada
penelitian ini yaitu menggunakan normalisasi min-max dan z-score.
Contoh sampel data sebelum dilakukan normalisasi tampak seperti
pada Tabel 4.5, contoh sampel data setelah dilakukan normalisasi
min-max tampak seperti pada Tabel 4.6, dan sampel data setelah
dinormalisasi z-score tampak seperti pada Tabel 4.7.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
54
Tabel 4.5 Sampel data sebelum dinormalisasi
Dat
a
Bal
ance
Cat
egory
.Tw
o.D
efec
ts
Cup
per
.Poin
ts
Bod
y
Fla
vor
Aft
erta
ste
Aro
ma
Aci
dit
y
Un
iform
ity
Sw
eetn
ess
Cat
egory
.On
e.D
efec
ts
Var
iety
1 8.42 0 9.25 8.33 8.5 8.42 8.42 8.42 10 10 0 1
2 8.33 2 8.33 8 8.25 8 8.08 8.17 10 10 0 2
3 8 2 7.92 8 8.5 8 8.5 8 10 10 0 1
4 8 3 8.25 8.08 8.08 8.08 8.17 8 10 10 0 2
5 8 2 8 8 8.17 8.17 8.5 7.75 10 10 0 1
Tabel 4.6 Sampel data setelah dinormalisasi min-max
Dat
a
Bal
ance
Cat
ego
ry.T
wo
.Def
ects
Cu
pp
er.P
oin
ts
Bo
dy
Flav
or
Aft
ert
aste
Aro
ma
Aci
dit
y
Un
iform
ity
Sw
eetn
ess
Cat
egory
.One.
Def
ects
Var
iety
1 0.94 0 1 1 1 1 0.98 1 1 1 0 1
2 0.90 0.04 0.77 0.84 0.90 0.81 0.88 0.92 1 1 0 2
3 0.77 0.04 0.67 0.84 1 0.81 1 0.87 1 1 0 1
4 0.77 0.06 0.75 0.88 0.83 0.85 0.90 0.87 1 1 0 2
5 0.77 0.04 0.69 0.84 0.86 0.81 1 0.79 1 1 0 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
55
Tabel 4.7 Sampel data setelah dinormalisasi z-score
Dat
a
Bal
ance
Cat
ego
ry.T
wo
.Def
ects
Cu
pp
er.P
oin
ts
Bo
dy
Flav
or
Aft
ert
aste
Aro
ma
Aci
dit
y
Un
iform
ity
Sw
eetn
ess
Cat
egory
.On
e.D
efec
ts
Var
iety
1 2.80 -0.70 4.66 3.08 3.10 3.22 2.86 3.09 0.31 0.18 -0.20 1
2 2.53 -0.31 2.28 2.28 2.33 1.94 1.74 2.24 0.31 0.18 -0.20 2
3 1.54 -0.31 1.22 1.22 3.10 1.94 3.13 1.67 0.31 0.18 -0.20 1
4 1.54 -0.12 2.07 2.07 1.81 2.18 2.04 1.67 0.31 0.18 -0.20 2
5 1.54 -0.31 1.42 1.42 2.09 1.94 3.13 0.82 0.31 0.18 -0.20 1
4.3 Klasifikasi
Pada tahap klasifikasi Support Vector Machine ini dimulai dengan
membuat pemodelan klasifikasi yang akan digunakan. Pemodelan SVM yang
akan dibuat berdasarkan 3 kelas yang digunakan. Pada penelitian ini
digunakan 3 kelas yang digunakan yaitu Bourbon, Caturra dan Typica. Sesuai
dengan rumus pada nomor 2.18 maka pemodelan SVM yang dibuat yaitu
sebanyak (3*(3-1))/2=3 kelas model klasifikasi biner. Selanjutnya hasil dari
klasifikasi tersebut akan ditampung dan kemudian dilakukan voting dengan
hasil frekuensi terbanyak. Penelitian ini menggunakan library yang sudah
tersedia di Matlab untuk melakukan perhitungan dengan Support Vector
Machine. Function yang digunakan dalam membangun pemodelan prediksi
varietas kopi yaitu fitcsvm() dan svm1v1(). Penggunaan function fitcsvm()
secara umum dapat ditampilkan seperti dibawah ini.
fitcsvm(dataTraining, labelTraining, ’KernelFunction’, ’nama_kernel’);
Pada fungsi fitcsvm() ini terdapat 4 argumen yang diterapkan dalam
sistem. Argumen yang pertama yaitu dataTraining, argumen ini merupakan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
56
data array yang berisi variabel input dalam penelitian yang dijadikan sebagai
data training. Data array ini berisi 11 kolom atribut yang telah dijelaskan
sebelumnya. Argument kedua yaitu labelTraining yang berisi 1 kolom atribut
dan merupakan data array yang menyatakan variabel output dalam penelitian
yaitu varietas kopi arabika. Argumen ketiga dan keempat menyatakan fungsi
kernel yang digunakan, argumen ini merupakan argumen tambahan sebagai
fungsi perhitungan dalam metode Support Vector Machine. Kernel yang
digunakan dalam penelitian ini yaitu Linear Kernel, Radial Basic
Function(RBF) Kernel, dan Polynomial Kernel. Implementasi fungsi kernel
pada matlab dapat terlihat seperti pada Tabel 4.8.
Tabel 4.8 Implementasi fungsi SVM
Fungsi Kernel Implementasi
Linear fitcsvm(DataTrain, LabelTrain,
‘KernelFunction’,’linear’);
Radial Basic Function(RBF)
fitcsvm(DataTrain, LabelTrain,
‘KernelFunction’,’rbf’);
Polynomial fitcsvm(DataTrain, LabelTrain,
‘KernelFunction’,’polynomial’);
Fungsi svm1v1() digunakan untuk melihat hasil prediksi data testing
dari implementasi Support Vector Machine yang sebelumnya telah dibuat.
Sehingga fungsi svm1v1() dapat diimplementasikan sebagai berikut :
[output,vote] = svm1v1(DataTrain, LabelTrain, DataTest(1,:));
Variabel output digunakan untuk menampung hasil klasifikasi dari
variabel DataTest yang merupakan variabel yang berisi data testing. Hasil
output ini didapat dari hasil voting terbanyak, voting ini diperoleh dari hasil
klasifikasi pada variabel vote. Variabel vote menampung hasil voting
keseluruhan kelas dan kemudian diambil hasil klasifikasi dengan jumlah
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
57
terbanyak. Pada argumen fungsi svm1v1() terdapat 3 argumen yang perlu
dimasukan. Pertama yaitu argumen DataTrain yang digunakan untuk
menampung data training yang digunakan. Argumen kedua yaitu LabelTrain
digunakan untuk menampung label training, sedangkan argumen
DataTest(1,:) berisi data testing yang dimasukan yaitu baris 1 dengan
menggunakan seluruh kolom yang ada. Berikut merupakan contoh isi dari
variable vote yang ditampilkan pada Gambar 4.1.
Gambar 4.1 Hasil variabel voting
Pada Gambar 4.1 terdapat hasil voting dari 3 model klasifikasi biner
yang telah dibuat. Kolom 1 pada gambar merupakan representasi dari label
kelas dan kolom 2 merupakan hasil voting. Tampak pada baris 1 kolom 1
label bernilai 1 yang artinya label 1 tersebut merupakan kelas Bourbon, begitu
pula dengan baris 2 kolom 1 yang merupakan representasi dari Caturra dan
baris 3 kolom 1 representasi dari Typica. Kemudian pada kolom 2 yang
merupakan hasil voting dari setiap label kelas menghasilkan voting sebesar 2
pada label 1, voting sebesar 0 pada label 2 dan 1 vote untuk label 3. Sehingga
voting terbanyak diperoleh label 1 dan hasil klasifikasi SVM terpilih pada
label 1 atau Bourbon.
Gambar 4.2 Hasil variabel voting
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
58
Pada Gambar 4.2 variabel output yang menampung hasil keluaran dari
klasifikasi akan menghasilkan keluaran dengan label 1 yang merupakan
representasi dari kelas Bourbon.
4.4 Pelatihan dan Pengujian
4.4.1 Uji Performa Fungsi Kernel
Pelatihan dan pengujian menggunakan fungsi kernel bertujuan untuk
mendapatkan fungsi kernel yang paling optimal untuk diimplementasikan
pada penelitian ini. Fungsi kernel yang digunakan dalam percobaan ini
yaitu Linear Kernel, Radian Basic Function(RBF) Kernel dan Polynomial
Kernel. Hasil uji coba yang didapatkan dilihat berdasarkan perhitungan
akurasi pada setiap fungsi kernel. Berikut merupakan hasil perhitungan
akurasi dari uji coba fungsi kernel menggunakan 3-Fold Cross Validation.
Tabel 4.9 Hasil akurasi kernel
Testing Group Akurasi
Linear RBF Polynomial
1 48.91% 32.75% 39.74%
2 41.30% 42.61% 32.17%
3 46.09% 43.48% 19.13%
Rata-rata 45.43% 39.61% 30.35%
Pada Tabel 4.9 terlihat bahwa rata-rata perhitungan akurasi varietas
kopi menggunakan SVM dengan kernel Linear memiliki hasil akurasi
sebesar 45.43%. Hasil akurasi ini lebih tinggi dari kernel RBF yang
memiliki rata-rata hasil akurasi tertinggi kedua sebesar 39.61%.
Sedangkan Polynomial menjadi kernel dengan akurasi terendah dengan
rata-rata akurasi sebesar 30.35%. Hal ini menunjukkan bahwa dengan
menggunakan 3-Fold Cross Validation tanpa normalisasi data, Linear
Kernel menghasilkan performa terbaik dibandingkan RBF maupun
Polynomial Kernel. Hasil akurasi tertinggi pada Linear Kernel terdapat
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
59
pada data percobaan ke-1 dengan akurasi sebesar 48.91%. Berikut
merupakan grafik performa uji kernel :
Gambar 4.3 Grafik Akurasi Fungsi Kernel
Grafik pada Gambar 4.3 menunjukkan akurasi tertinggi terdapat
pada Linear Kernel, yaitu pada percobaan ke-1 dengan akurasi sebesar
48.91%. Sedangkan akurasi terendah terdapat pada grup data uji ke-3
dengan akurasi sebesar 19.13% menggunakan Polynomial Kernel.
4.4.2 Uji Performa dengan Normalisasi
Pelatihan dan pengujian menggunakan proses normalisasi bertujuan
untuk melihat apakah proses normalisasi akan menghasilkan hasil akurasi
yang lebih baik. Normalisasi yang akan digunakan yaitu normalisasi min-
max dan z-score. Dengan menggunakan 3-Fold Cross Validation, hasil
akurasi menggunakan normalisasi min-max tampak seperti pada Tabel
4.10 .
48.91
41.3
46.09
32.75
42.6143.48
39.74
32.17
19.13
0
10
20
30
40
50
60
1 2 3
Aku
rasi
Grup Data Uji
Grafik Akurasi Fungsi Kernel
Linear
RBF
Polynomial
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
60
Tabel 4.10 Hasil akurasi dengan normalisasi min-max
Testing Group Akurasi MinMax
Linear RBF Polynomial
1 25.33% 34.93% 48.47%
2 33.48% 35.22% 42.61%
3 30.00% 44.35% 53.91%
Rata-rata 29.60% 38.17% 48.33%
Setelah dilakukan proses normalisasi dengan menggunakan
normalisasi min-max, dari ketiga kernel yang telah dilakukan uji coba
akurasi, hasil akurasi tertinggi diperoleh dengan menggunakan Polynomial
Kernel yaitu sebesar 48.33% yang kemudian disusul oleh RBF Kernel
sebesar 38.17%. Sedangkan akurasi terendah terdapat pada Linear Kernel
dengan akurasi sebesar 29.60%. Pada Linear Kernel mengalami penurunan
akurasi sebesar 20.11% dan RBF Kernel mengalami penurunan akurasi
sebesar 4.68%, sedangkan Polynomial Kernel mengalami kenaikan
akurasi sebesar 18.12% dengan akurasi tertinggi terdapat pada percobaan
ke-3 sebesar 53.91% seperti yang tampak pada Gambar 4.4 yang
menampilkan grafik perbandingan ketiga kernel dengan menggunakan
normalisasi min-max.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
61
Gambar 4.4 Grafik Perbandingan Akurasi min-max
Tampak grafik pada Gambar 4.5 perbandingan hasil akurasi tanpa
normalisasi dan dengan menggunakan normalisasi pada Polynomial Kernel.
Setelah dilakukan normalisasi min-max, pada grup data uji ke-3 mengalami
kenaikan akurasi sebesar 34.78% dan grup data uji ke-1 sebesar 8.73%.
Meskipun pada grup data uji ke-2 memiliki akurasi lebih rendah
dibandingkan grup data uji ke-1 dan ke-3, tetapi jika dibandingkan dengan
tanpa normalisasi, pada percobaan ke-2 Polynomial Kernel mengalami
kenaikan akurasi sebesar 10.44%.
Gambar 4.5 Grafik akurasi dengan min-max dan Polynomial Kernel
25.33
33.4830
34.93 35.22
44.3548.47
42.61
53.91
0
10
20
30
40
50
60
1 2 3
Aku
rasi
Grup Data Uji
Perubahan Akurasi Dengan Normalisasi
Linear
RBF
Polynomial
48.47
42.61
53.91
39.7432.17
19.13
0.00
10.00
20.00
30.00
40.00
50.00
60.00
1 2 3
Aku
rasi
Grup Data Uji
Perubahan Akurasi Polynomial Kernel
Normalisasi
Non Normalisasi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
62
Pada grafik yang tertera pada Gambar 4.6 hasil akurasi untuk RBF
Kernel pada grup data uji ke-1 dan ke-3 mengalami kenaikan sebesar 2.18%
dan 0.87% jika dilakukan normalisasi. Penurunan akurasi terjadi pada
percobaan ke-2 sebesar 7.39%.
Gambar 4.6 Grafik akurasi dengan min-max dan RBF Kernel
Berbeda halnya dengan Linear Kernel, pada Gambar 4.7 hasil akurasi
cenderung menurun jika dilakukan normalisasi pada setiap percobaan dan
mencapai akurasi tertinggi hanya 33.48% pada percobaan ke-2.
Gambar 4.7 Grafik akurasi dengan min-max dan Linear Kernel
34.9335.22
44.35
32.75
42.6143.48
0
10
20
30
40
50
1 2 3
Aku
rasi
Grup Data Uji
Perubahan Akurasi RBF Kernel
Normalisasi
Non Normalisasi
25.33
33.4830
48.91
41.3046.09
0
10
20
30
40
50
60
1 2 3
Aku
rasi
Grup Data Uji
Perubahan Akurasi Linear Kernel
Normalisasi
Non Normalisasi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
63
Dari percobaan normalisasi ini dapat disimpulkan bahwa penerapan
normalisasi min-max dapat meningkatkan akurasi yang paling optimal
sebesar 53.91% dengan menggunakan Polynomial Kernel pada data uji ke-3.
Sehingga total akurasi tertinggi yang didapatkan dengan menggunakan kernel
Polynomial yaitu sebesar 48.33%.
Pengujian selanjutnya yaitu dengan menggunakan normalisasi z-score.
Hasil akurasi dengan menggunakan normalisasi z-score tampak seperti pada
Tabel 4.11.
Tabel 4.11 Hasil akurasi dengan normalisasi z-score
Testing Group Akurasi ZScore
Linear RBF Polynomial
1 49.78% 22.71% 41.48%
2 44.35% 34.78% 38.26%
3 48.26% 27.83% 42.17%
Rata-rata 47.46% 28.44% 40.64%
Setelah dilakukan proses normalisasi dengan menggunakan
normalisasi z-score, dari ketiga kernel yang telah dilakukan uji coba
akurasi, hasil akurasi tertinggi diperoleh dengan menggunakan Linear
Kernel yaitu sebesar 47.46% yang kemudian disusul oleh Polynomial
Kernel sebesar 40.64%. Sedangkan akurasi terendah terdapat pada RBF
Kernel dengan akurasi sebesar 28.44%. Linear Kernel mengalami
kenaikan akurasi sebesar 4.35% dan RBF Kernel mengalami kenaikan
akurasi sebesar 11.14%, sedangkan Polynomial Kernel mengalami
penurunan akurasi sebesar 16.91%. Akurasi tertinggi terdapat pada
percobaan ke-1 sebesar 49.78% menggunakan Linear Kernel seperti
tampak pada Gambar 4.8 yang menampilkan grafik perbandingan ketiga
kernel dengan menggunakan normalisasi z-score.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
64
Gambar 4.8 Grafik Perbandingan Akurasi Z-Score
Pada Linear Kernel seperti terlihat pada Gambar 4.9, hasil akurasi
meningkat disetiap grup data uji jika dinormalisasi meskipun perbedaan
akurasi tidak terlalu jauh. Pada grup data uji ke-1 kenaikan akurasi sebesar
0.87%, grup data uji ke-2 sebesar 3.05% dan grup data uji ke-3 sebesar 2.17%.
Gambar 4.9 Grafik akurasi dengan z-score dan Linear Kernel
Tampak grafik pada Gambar 4.10 yang merupakan perbandingan hasil
akurasi tanpa normalisasi dan dengan menggunakan normalisasi pada
49.7844.35
48.26
22.71
34.78
27.83
41.4838.26
42.17
0
10
20
30
40
50
60
1 2 3
Aku
rasi
Grup Data Uji
Perubahan Akurasi Dengan Normalisasi Z-Score
Linear
RBF
Polynomial
48.91
41.346.09
49.7844.35
48.26
0
10
20
30
40
50
60
1 2 3
Aku
rasi
Grup Data Uji
Perubahan Akurasi Linear Kernel
Normalisasi
Non Normalisasi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
65
Polynomial Kernel. Setelah dilakukan normalisasi z-score, pada grup data uji
ke-3 mengalami kenaikan akurasi sebesar 23.04% dan grup data uji ke-1
sebesar 1.74%. Meskipun pada grup data uji ke-2 memiliki akurasi lebih
rendah dibandingkan grup data uji ke-1 dan ke-3, tetapi jika dibandingkan
dengan tanpa normalisasi, pada percobaan ke-2 Polynomial Kernel
mengalami kenaikan akurasi sebesar 6.09%.
Gambar 4.10 Grafik akurasi dengan z-score dan Polynomial Kernel
Pada grafik yang tertera pada Gambar 4.11 hasil akurasi untuk RBF
Kernel cenderung mengalami penurunan akurasi pada setiap grup data uji jika
dilakukan normalisasi z-score.
Gambar 4.11 Grafik akurasi dengan z-score dan RBF Kernel
41.48
38.2642.17
39.7432.17
19.13
0.00
10.00
20.00
30.00
40.00
50.00
1 2 3
Aku
rasi
Grup Data Uji
Perubahan Akurasi Polynomial Kernel
Normalisasi
Non Normalisasi
22.71
34.78
27.8332.75
42.6143.48
0
10
20
30
40
50
1 2 3
Aku
rasi
Grup Data Uji
Perubahan Akurasi RBF Kernel
Normalisasi
Non Normalisasi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
66
Penerapan normalisasi z-score dapat meningkatkan akurasi yang paling
optimal sebesar 49.78% dengan menggunakan Linear Kernel pada data uji
ke-1. Sehingga total akurasi tertinggi yang didapatkan dengan menggunakan
Linear Kernel yaitu sebesar 47.46%. Hasil akurasi optimal yang didapatkan
dengan menggunakan normalisasi z-score ini lebih rendah dibandingkan
dengan hasil akurasi optimal pada normalisasi min-max yang hasil akurasinya
sebesar 48.33% dengan menggunakan kernel Polynomial. Berdasarkan
pengujian normalisasi yang telah dilakukan, normalisasi min-max dapat
meningkatkan hasil akurasi data kopi yang optimal dengan menggunakan
Polynomial Kernel dari dataset yang sebelumnya tidak dinormalisasi dan
menghasilkan akurasi sebesar 45.43% dengan menggunakan Linear Kernel.
4.5 Analisis Hasil
Sistem klasifikasi yang dibangun pada penelitian ini seperti yang telah
dijelaskan pada nomor 3.3.3 dibuat dengan pemodelan one-to-one. Ketepatan
prediksi yang dibuat akan dihitung menggunakan akurasi untuk setiap data
uji yang diklasifikasikan. Teknik pengujian dilakukan dengan menggunakan
3-Fold Cross Validation dan Polynomial Kernel dengan normalisasi data.
Dari hasil uji performa yang telah dilakukan pada nomor 4.4.2, tampak bahwa
klasifikasi dengan menggunakan Polynomial Kernel setelah dilakukan
normalisasi data menghasilkan akurasi yang lebih baik dengan hasil akurasi
sebesar 48.33%. Berikut confusion matrix pada Tabel 4.12 sampai dengan
Tabel 4.14 yang terbentuk dari hasil prediksi sistem dengan menggunakan
Polynomial Kernel yang telah dinormalisasi menggunakan normalisasi min-
max.
Tabel 4.12 Confusion matrix Polynomial Kernel data uji ke-1
Bourbon Caturra Typica
Bourbon 50 0 20
Caturra 26 5 19
Typica 47 6 56
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
67
Tabel 4.13 Confusion matrix Polynomial Kernel data uji ke-2
Bourbon Caturra Typica
Bourbon 31 42 12
Caturra 15 54 9
Typica 15 39 13
Tabel 4.14 Confusion matrix Polynomial Kernel data uji ke-3
Bourbon Caturra Typica
Bourbon 43 27 0
Caturra 48 79 0
Typica 12 19 2
Confusion matrix yang terdapat pada Tabel 4.14 memperlihatkan
bahwa sistem dapat memprediksi 43 data varietas Bourbon dengan benar,
sedangkan 27 data lainnya salah untuk diprediksi dimana sistem memprediksi
Bourbon sebagai Caturra. Begitu pula pada baris kedua dan ketiga yang
menunjukkan varietas Caturra terprediksi benar sejumlah 79 data dan Typica
sebesar 2 data. Rumus untuk menghitung akurasi dilakukan berdasarkan
persamaan pada Tabel 2.6, berikut merupakan contoh perhitungan akurasi
berdasarkan confusion matrix pada Tabel 4.14.
Akurasi = 124
230 × 100% = 53.91%
Berdasarkan hasil prediksi data pada confusion matrix pada Tabel 4.12
hingga Tabel 4.14, persebaran jumlah prediksi hampir merata disetiap kelas.
Seperti pada contoh Tabel 4.13, prediksi benar untuk varietas Bourbon
sebesar 31 data, dan sisanya terprediksi salah sebagai Caturra sebesar 42 data
dan Typica sebesar 12 data. Hal ini menunjukkan bahwa pada prediksi
tersebut terdapat kemiripan karakteristik antar varietas yang cukup besar.
Sehingga sistem cenderung sulit untuk mengklasifikasikan data ke dalam
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
68
kelas atau kelompok yang tepat. Berdasarkan hal tersebut, maka dari hasil
confusion matrix yang diperoleh, sistem cenderung menghasilkan tingkat
akurasi yang relatif rendah.
Selanjutnya dilakukan pengujian oleh sistem dengan menggunakan uji
data tunggal. Terdapat masukan/input yang dimasukkan oleh pengguna.
Seperti tampak pada Gambar 4.12 merupakan penerapan GUI untuk
klasifikasi varietas kopi.
Gambar 4.12 Pengujian Data
Langkah awal yang dilakukan yaitu melatih data dengan mengupload
data file untuk training data. Lalu klik tombol Train untuk memulai
menghitung akurasi dan menampilkan confusion matrix. Maka hasil akurasi
akan muncul dan tabel confusion matrik yang berisi data hasil confusion
matrix dari klasifikasi yang telah dilakukan. Selanjutnya untuk melakukan uji
data tunggal pengguna harus memasukkan data-data uji kualitas kopi yang
berupa Aroma, Flavor, Aftertaste, Acidity, Body, Balance, Uniformity,
Sweetness, Cupper Point, Category One Defects, dan Category Two Defects.
Langkah akhir yang dilakukan yaitu melakukan klasifikasi dengan mengklik
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
69
tombol Klasifikasi, maka hasil klasifikasi dari data yang telah dimasukkan
oleh pengguna akan tampil dalam panel Hasil Klasifikasi. Tampak pada
Gambar 4.12, dari data yang telah dimasukkan pengguna, data tersebut
diklasifikasikan sebagai Caturra.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
70
BAB V
PENUTUP
5.1 Kesimpulan
Dari hasil penelitian klasifikasi varietas kopi arabika berdasarkan uji
kualitas cita rasa kopi arabika menggunakan Support Vector Machine (SVM)
dapat disimpulkan sebagai berikut :
1. Pengujian menggunakan 11 atribut yang berupa Aroma, Flavor,
Aftertaste, Acidity, Body, Balance, Uniformity, Sweetness,
Cupper.Points, Category.One.Defects, dan Category.Two.Defects.
Hasil akurasi optimal pada pengujian 3-Fold Cross Validation
didapatkan dengan menggunakan kernel Polynomial menggunakan
normalisasi min-max dan data uji sebanyak 689 data. Akurasi optimal
yang didapatkan yaitu sebesar 48.33%.
2. Normalisasi data yang diterapkan pada dataset dapat mempengaruhi
hasil akurasi dari sistem klasifikasi. Pada pengujian menggunakan
Polynomial Kernel tanpa normalisasi menghasilkan akurasi sebesar
30.35%. Sedangkan jika menggunakan normalisasi min-max
menghasilkan akurasi 48.33% dan menggunakan normalisasi z-score
menghasilkan akurasi sebesar 40.64%.
5.2 Saran
Saran yang diberikan untuk pengembangan sistem dan penelitian yang
lebih baik kedepannya adalah sebagai berikut :
1. Menambahkan set data kopi dengan menambahkan kelas varietas kopi
arabika yang lainnya.
2. Menambahkan jumlah atribut yang digunakan baik berdasarkan form uji
mutu kopi secara cita rasa maupun uji kualitas kopi secara fisik.
3. Mengembangkan penelitian ini dengan menggunakan metode Support
Vector Machine yang lain seperti one against all serta menguji dengan
menggunakan jumlah cross validation yang berbeda.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
71
4. Mengembangkan klasifikasi varietas kopi arabika berdasarkan pengujian
cita rasa kopi menggunakan metode klasifikasi yang lainnya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
72
DAFTAR PUSTAKA
Chakrabarti, S. et al., 2006. Data Mining Curriculum. A Proposal (Version 1.0), 30
April, p. 2.
Condori, R. H. M. et al., 2014. Automatic classification of physical defects in green
coffee beans using CGLCM and SVM. s.l., Latin American Computing Conference
(CLEI).
Fayyad, U., Piatetsky-Shapiro, G. & Smyth, P., 1996. From Data Mining to
Knowledge Discovery in Databases. AI Magazine, Volume 17, pp. 37-54.
Han, J., Kamber, M. & Pei, J., 2011. Data Mining : concepts and techniques.
Waltham: Morgan Kaufmann Publishers.
Han, J., Kamber, M. & Pei, J., 2012. Data Mining : Concepts and Techniques.
Waltham: Morgan Kaufmann Publishers.
Hardiani, T., Sulistyo, S. & Hartanto, R., n.d. Segmentasi Nasabah Tabungan
Menggunakan Model RFM (Recency, Frequency,Monetary) dan K-MeansPada
Lembaga Keuangan Mikro, Yogyakarta: Universitas Gadjah Mada.
Institute, C. R., 2019. Hawaiian Coffee Beans. [Online]
Available at: http://www.coffeeresearch.org/coffee/hawaii.htm
Junaedi, H., Budianto, H., Maryati, I. & Melani, Y., 2011. Data Transformation
Pada Data Mining. Surabaya, IDeaTech.
Maulana, M. R. & Al Karomi, M. A., 2016. INFORMATION GAIN UNTUK
MENGETAHUI PENGARUH ATRIBUT. Litbang Kota Pekalongan, pp. 113-123.
Nugroho, A. S., Witarto, A. B. & Handoko , D., 2003. Support Vector Machine -
Teori dan Aplikasinya dalam Bioinformatika, s.l.: IlmuKomputer.Com.
Nugroho, M. A. & Sebatubun, M. M., 2020. Klasifikasi Varietas Kopi Arabika
Berdasarkan Green Bean Coffee Menggunakan Metode Machine Learning. Jurnal
of Information System Management, I(2).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
73
Octaviani, P. A., Wilandari, Y. & Ispriyanti, D., 2014. PENERAPAN METODE
KLASIFIKASI SUPPORT VECTOR. GAUSSIAN, pp. 811-820.
Prasetyo, E., 2014. DATA MINING - Mengolah Data menjadi Informasi
Menggunakan Matlab. Yogyakarta: Penerbit ANDI.
Research, W. C., 2018. Arabica Coffee Varieties, Portland: World Coffee Research.
Research, W. C., 2019. World Coffee Research. [Online]
Available at: https://varieties.worldcoffeeresearch.org/
Rofiqoh, U., Perdana, R. S. & Fauzi, M. A., 2017. Analisis Sentimen Tingkat
Kepuasan Pengguna Penyedia Layanan Telekomunikasi Seluler Indonesia Pada
Twitter Dngan Metode Support Vector Machine dan Lexicon Based Features.
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, I(12), pp. 1725-
1732.
Santosa, B., n.d. Tutorial Support Vector Machines, Surabaya: Kampus ITS.
SCAA, 2015. SCAA Protocols | Cupping Specialty Coffee, s.l.: the Specialty Coffee
Association of America.
Sebatubun, M. M. & Nugroho, M. A., 2017. Ekstraksi Fitur Circularity Untuk
Pengenalan Varietas Kopi Arabika. Teknologi Informasi dan Ilmu Komputer
(JTIIK), 4(4), pp. 283-289.
Sianturi, J. W., 2019. Alih Aksara Batak Toba Tulisan Tangan menggunakan
Metode Ekstraksi Ciri Freeman Chain Code (FCC) dan Metode Klasifikasi Support
Vector Machine (SVM). Yogyakarta: Universitas Sanata Dharma.
Spillane, J. J., 1990. Komoditi kopi : peranannya dalam perekonomian Indonesia.
Yogyakarta: Kanisius.
Struyf, A., Hubert, M. & Rousseeuw, P. J., n.d. Clustering in an Object-Oriented
Environment, Belgium: Department of Mathematics and Computer Science, U.I.A.,
Universiteitsplein.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
74
Suyanto, 2019. Data Mining untuk Klasifikasi dan Klaterisasi Data. Bandung:
Penerbit INFORMATIKA.
Team, G. C., 2007. Canada-Indonesia Trade and Private Sector Assistance Project.
[Online]
Available at: http://www.tpsaproject.com/wp-content/uploads/2017-03-06-
Presentation-9-1123.03a.pdf
[Accessed 8 Maret 2020].
W, A. A. H., 2017. Penerapan Model Mesin Belajar Support Vector Machines
Pada Automatic Scroing untuk Jawaban Singkat, Yogyakarta: Universitas Atma
Jaya Yogyakarta.
Wicaksono, J. W., 2017. IDENTIFIKASI MAKNA KATA "SABAR" DALAM KARYA
SASTRA MENGGUNAKAN SUPPORT VECTOR MACHINE (SVM) KERNEL
POLINOMIAL, Yogyakarta: Universitas Sanata Dharma.
Zaki, M. J. & Jr., W. M., 2013. Data Mining and Analysis: Fundamental Concepts
and Algorithms. New York: Cambridge University Press.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI