HALAMAN JUDUL KLASIFIKASI MENGGUNAKAN METODE REGRESI LOGISTIK …repository.ub.ac.id/3988/1/Deisi...
Transcript of HALAMAN JUDUL KLASIFIKASI MENGGUNAKAN METODE REGRESI LOGISTIK …repository.ub.ac.id/3988/1/Deisi...
i
HALAMAN JUDUL
KLASIFIKASI MENGGUNAKAN METODE REGRESI
LOGISTIK DAN SUPPORT VECTOR MACHINE
SKRIPSI
Sebagai salah satu syarat untuk memperoleh gelar Sarjana Sains
dalam bidang Statistika
oleh :
Deisi Antika Ayungtyas
135090501111028
PROGRAM STUDI STATISTIKA
JURUSAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS BRAWIJAYA
MALANG
2017
ii
LEMBAR PENGESAHAN SKRIPSI
KLASIFIKASI MENGGUNAKAN METODE REGRESI
LOGISTIK DAN SUPPORT VECTOR MACHINE
oleh :
DEISI ANTIKA AYUNGTYAS
135090501111028
Setelah dipertahankan di depan Majelis Penguji
pada tanggal 11 Juli 2017
dan dinyatakan memenuhi syarat untuk memperoleh gelar
Sarjana Sains dalam bidang Statistika
Dosen Pembimbing
Samingun Handoyo, S.Si., M.Cs.
NIP. 197304151998021002
Mengetahui,
Ketua Jurusan Matematika
Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Brawijaya
Ratno Bagus Edy Wibowo, S.Si., M.Si., Ph.D.
NIP. 197509082000031003
iii
LEMBAR PERNYATAAN
Saya yang bertanda tangan di bawah ini:
Nama : Deisi Antika Ayungtyas
NIM : 135090501111028
Jurusan : Matematika
Program Studi : Statistika
Judul Skripsi : Klasifikasi Menggunakan Metode Regresi
Logistik dan Support Vector Machine
Dengan ini menyatakan bahwa:
1. Isi dari Skripsi yang saya buat adalah benar-benar karya
sendiri dan tidak menjiplak karya orang lain, selain nama-
nama yang termaktub di isi dan tertulis di daftar pustaka
dalam Skripsi ini.
2. Apabila dikemudian hari ternyata Skripsi yang saya tulis
terbukti hasil jiplakan, maka saya akan bersedia
menanggung segala resiko yang akan saya terima.
Demikian pernyataan ini dibuat dengan segala kesadaran.
Malang, 11 Juli 2017
Yang menyatakan,
Deisi Antika Ayungtyas
135090501111028
iv
KLASIFIKASI MENGGUNAKAN REGRESI LOGISTIK DAN
SUPPORT VECTOR MACHINE
ABSTRAK
Klasifikasi merupakan suatu teknik yang digunakan untuk
mengetahui atau memperkirakan kelas dari suatu objek berdasarkan
atribut yang ada. Klasifikasi dapat diselesaikan menggunakan
metode statistika dan machine learning. Salah satu metode statistika
klasik yang biasa digunakan untuk menyelesaikan masalah
klasifikasi yaitu Analisis Regresi Logistik. Regresi logistik
merupakan model statistika yang digunakan untuk mengetahui ada
tidaknya hubungan antara dua variabel atau lebih, di mana variabel
respon bersifat kategorik dan variabel prediktor bersifat kategori atau
numerik. Support Vector Machine (SVM) merupakan metode
learning machine yang bekerja atas prinsip Structural Risk
Minimization (SRM) yang bertujuan membuat hyperlane terbaik
yang memisahkan dua kelas. Tujuan dari penelitian ini adalah
mengetahui metode yang lebih baik antara metode Regresi Logistik
dan Support Vector Machine berdasarkan nilai APER (Apparent
Error Rate) dan uji Press’Q. Data yang digunakan adalah Data 1
yaitu data tingkat penyakit stroke, Data 2 yaitu data klasifikasi
pemilihan tempat berbelanja masyarakat di Sidoarjo, dan Data 3
yaitu Data debitur kredit usaha rakyat Bank BRI Malang.
Berdasarkan hasil analisis regresi logistik dan Support Vector
Machine yang diterapkan pada ketiga data tersebut didapatkan nilai
APER untuk analisis regresi logistik masing - masing data yaitu Data
1 sebesar 14%, Data 2 sebesar 16%, dan Data 3 sebesar 9.1%. Nilai
APER untuk Support Vector Machine masing-masing data yaitu
Data 1 sebesar 8%, Data 2 sebesar 12%, dan Data 3 sebesar 9.1%.
Sedangkan hasil uji Press’Q menunjukan bahwa hasil klasifikasi
menggunakan analisis regresi logistik dan Support Vector Machine
telah konsisten. Secara keseluruhan dapat disimpulkan bahwa
metode Support Vector Machine lebih baik daripada Analisis Regresi
Logistik. Walaupun kedua metode diterapkan pada karakteristik data
yang berbeda Support Vector Machine masih memberikan hasil
yang baik.
Kata Kunci: Analisis Regresi Logistik, Support Vector Machine,
APER, Uji Press’Q.
v
CLASSIFICATION USING LOGISTIC REGRESSION AND
SUPPORT VECTOR MACHINE
ABSTRACT
Classification is a technique that used to determine or estimate the
class of an object based on an existing attribute. Classification
problem can be solved using statistics method and machine learning.
One of a calassic statistics method that can be used to solve
classification problem is Logistic Regression Analysis. Logistic
regression is statistical technique that used to determine whether a
relation or not between two variable or more, which response
variable is categorycal and predictor variables is numericaly word.
Support Vector Machine (SVM) is learning machine method that
works based on the principle Structural Risk Minimization (SRM)
which intended to make best hyperlane that separates two classes of
input. The purpose of this research is to determine the best method
between Logistic Regression and Support Vector Machine based on
APER (Apparent Error Rate) values and Press ‘Q test. The data used
are Data 1st : stroke disease levels, Data 2
nd : classification
communities shopping site selection in Sidoarjo, Data 3rd
: business
credit debitur in Bank BRI Malang. According to the Logistic
Regression and Support Vector Mechine results that applied to the
those third data, obtained APER values from Logistic regression
analysis are Data 1st 14%, Data 2
nd 16%, and Data 3
rd 9.1%. Obtained
APER values from Support Vector Machine are Data 1st 8%, Data 2
nd
12%, and Data 3rd
9.1%. Subsequently for Press’Q test result shows
that classification using logistic regression analysis and support
vector machine has been consistent. Overall can be conluded that
Support Vector Machine method is better than Logistic Regression
Analysis. Even though there are different data characteristics,
Support Vector Machine still provide excellent performance.
Keywords : Logistic Regression Analysis, Support Vector Machine,
APER, Press „Q test.
vi
KATA PENGANTAR
Puji syukur kepada Allah SWT atas segala rahmat dan
karunia-Nya sehingga tugas akhir dengan judul “Klasifikasi
Menggunakan Metode Regresi Logistik dan Support Vector
Machine” dapat diselesaikan dengan baik.
Penulis mengucapkan terima kasih kepada pihak-pihak yang
telah membantu selama pengerjaan tugas akhir baik secara langsung
maupun tidak langsung :
1. Kepada Bapak Samingun Handoyo, S.Si., M.Cs. Selaku
dosen pembimbing skripsi yang senantiasa memberikan
waktu, saran dan bimbingan dalam menyelesaikan tugas
akhir ini
2. Kepada Bapak Achmad Efendi, S.Si, M.Sc, Ph.D. selaku
dosen penguji I dan kepada Ibu Dr. Umu Sa‟adah, M.Si.
selaku dosen penguji II yang telah memberikan saran dan
bimbingan dalam menyelesaikan tugas akhir ini.
3. Kepada Ibu Rahma Fitriani, S.Si, M.Sc, Ph.D. selaku ketua
Program Studi Statistika FMIPA Universitas Brawijaya
4. Kepada Bapak Ratno Bagus Edy Wibowo, S.Si, M.Si, Ph.D.
selaku Ketua Jurusan Matematika.
5. Seluruh jajaran dosen, staf dan karyawan Jurusan
Matematika FMIPA Universitas Brawijaya atas ilmu dan
bantuannya.
6. Bapak, Ibuk dan Keluarga yang senantiasa mendukung dan
berdoa untuk kelancaran Tugas Akhir ini.
7. Muhammad Mawardiansah yang selalu memberi semangat,
motivasi dan dukungan.
8. Teman seperjuangan Yanti, Rizki, Bella, Nia, Eff, Tata,
Husna, Anton dan Rara, yang selalu membantu dan memberi
semangat dalam pengerjaan tugas akhir.
9. Teman statistika angkatan 2013 dan kepada semua pihak
yang telah membantu sehingga tugas akhir ini dapat
terselesaikan dengan baik.
vii
Penulis menyadari bahwa tugas akhir ini masih jauh dari
sempurna. Oleh karena itu saran dan kritik sangat penulis
harapkan untuk kesempurnaan tugas akhir ini. Akhir kata, Penulis
berharap semoga tulisan ini dapat memberikan manfaat kepada
semua pihak yang memerlukannya.
Malang, Juli 2017
Penulis
viii
DAFTAR ISI
Halaman
HALAMAN JUDUL.......................................................................... i
LEMBAR PENGESAHAN SKRIPSI ............................................ ii
LEMBAR PERNYATAAN ........................................................... iii
ABSTRAK ........................................................................................ iv
ABSTRACT ...................................................................................... v
KATA PENGANTAR ..................................................................... vi
DAFTAR ISI ................................................................................. viii
DAFTAR GAMBAR ........................................................................ x
DAFTAR TABEL ............................................................................ xi
DAFTAR LAMPIRAN ................................................................. xii
BAB I PENDAHULUAN
1.1. Latar Belakang .................................................................. 1
1.2. Rumusan Masalah ............................................................. 2
1.3. Tujuan Penelitian .............................................................. 2
1.4. Manfaat Penelitian ............................................................ 3
1.5. Batasan Masalah ............................................................... 3
BAB II TINJAUAN PUSTAKA 2.1 Klasifikasi .......................................................................... 5
2.2 Analisis Regresi Logistik … .............................................. 6
2.2.1 Asumsi Multikolinieritas .......................................... 8
2.2.2 Pendugaan Parameter Regresi Logistik .................... 8
2.2.3 Pengujian Signifikansi Parameter ........................... 11
2.2.4 Uji Kesesuaian Model ............................................. 12
2.2.5 Klasifikasi Pada Regresi Logistik ........................... 13
2.3 Support Vector Machine .................................................. 14
2.3.1 Support Vector Classification ................................. 14
2.3.2 Kernel ...................................................................... 19
2.3.3 K-Fold Cross Validation ......................................... 21
2.3.4 Normalisasi ............................................................. 21
2.4 Tingkat Ketepatan Klasifikasi .......................................... 21
BAB III METODE PENELITIAN
3.1 Sumber Data ..................................................................... 23
3.2 Prosedur Analisis ............................................................. 26
3.3 Diagram Alir Penelitian ................................................... 27
ix
BAB VI HASIL DAN PEMBAHASAN 4.1 Hasil Analisis Regresi Logistik ....................................... .33
4.1.1 Pendeteksian Multikolinieritas ............................... .33
4.1.2 Hasil Pendugaan Parameter .................................... 34
4.1.3 Uji Signifikansi Parameter ...................................... 36
4.1.4 Model dengan Variabel yang Signifikan ............... 39
4.1.5 Uji Kesesuaian Model ............................................. 40
4.1.6 Ketepatan Klasifikasi Regresi Logistik................... 41
4.2 Support Vector Machine… ............................................. 45
4.2.1 Proses Training ....................................................... 45
4.2.2 Proses Testing dan Ketepatan Klasifikasi ............... 47
4.3 Pembahasan ...................................................................... 51
BAB V KESIMPULAN DAN SARAN 5.1 Kesimpuan ....................................................................... 53
5.2 Saran…............................................................................. 54
DAFTAR PUSTAKA ..................................................................... 55
LAMPIRAN .................................................................................... 59
x
DAFTAR GAMBAR
Halaman
Gambar 2.1 Support Vector Classifier ............................................. 15
Gambar 2.2 Margin Optimal ............................................................ 16
Gambar 2.3 Transformasi input space ke feature space .................. 20
Gambar 3.1 Diagram Alir Penelitian ............................................... 28
Gambar 3.2 Diagram Alir Analisis Regresi Logistik ....................... 30
Gambar 3.3 Diagram Alir Metode Support Vector Machine ........... 31
xi
DAFTAR TABEL
Halaman
Tabel 2.1 Fungsi Kernel ...................................................................... 20
Tabel 2.2 Tabel Perhitungan Nilai APER ........................................... 22
Tabel 4.1 Nilai VIF Data 1 ................................................................ 33
Tabel 4.2 Nilai VIF Data 2 .................................................................. 33
Tabel 4.3 Nilai VIF Data 3 .................................................................. 34
Tabel 4.4 Hasil Nilai Duga Parameter Data 1 ..................................... 34
Tabel 4.5 Hasil Nilai Duga Parameter Data 2 ..................................... 35
Tabel 4.6 Hasil Nilai Duga Parameter Data 3 .................................... 35
Tabel 4.7 Uji Signifikansi Parameter Simultan Setiap Data ............... 36
Tabel 4.8 Nilai Duga Parameter dan Uji Parsial Data 1 ...................... 37
Tabel 4.9 Nilai Duga Parameter dan Uji Parsial Data 2 ..................... 38
Tabel 4.10 Nilai Duga Parameter dan Uji Parsial Data 3 ...................... 38
Tabel 4.11 Model Regresi Logistik Variabel Signifikan Data 1 .......... 39
Tabel 4.12 Model Regresi Logistik Variabel Signifikan Data 2 .......... 39
Tabel 4.13 Model Regresi Logistik Variabel Signifikan Data 3 .......... 40
Tabel 4.14 Uji Kesesuaian Model untuk Setiap Data ............................ 40
Tabel 4.15 Ketepatan Klasifikasi Data Training Data 1 ....................... 41
Tabel 4.16 Ketepatan Klasifikasi Data Training Data 2 ....................... 42
Tabel 4.17 Ketepatan Klasifikasi Data Training Data 3 ....................... 42
Tabel 4.18 Ketepatan Klasifikasi Data Testing Data 1 .......................... 43
Tabel 4.19 Ketepatan Klasifikasi Data Testing Data 2 .......................... 44
Tabel 4.20 Ketepatan Klasifikasi Data Testing Data 3 ........................ 44
Tabel 4.21 Rentang Nilai Parameter Fungsi Kernel .............................. 46
Tabel 4.22 Parameter Terbaik Fungsi Kernel ........................................ 46
Tabel 4.23 Nilai Duga b Masing-masing Data ...................................... 46
Tabel 4.24 Ketepatan Klasifikasi SVM Data Training Data 1 .............. 47
Tabel 4.25 Ketepatan Klasifikasi SVM Data Training Data 2 ............. 48
Tabel 4.26 Ketepatan Klasifikasi SVM Data Training Data 3 .............. 49
Tabel 4.27 Ketepatan Klasifikasi SVM Data Testing Data 1 ................ 49
Tabel 4.28 Ketepatan Klasifikasi SVM Data Testing Data 2 ................ 50
Tabel 4.29 Ketepatan Klasifikasi SVM Data Testing Data 3 ................ 51
xii
DAFTAR LAMPIRAN
Halaman
Lampiran 1. Data 1 ........................................................................ 59
Lampiran 2. Data 2 ......................................................................... 60
Lampiran 3. Data 3 ........................................................................ 61
Lampiran 4. Source Code Analisis Regresi Logistik Data 1 .......... 62
Lampiran 5. Source Code Analisis Regresi Logistik Data 2 .......... 66
Lampiran 6. Source Code Analisis Regresi Logistik Data 3 .......... 68
Lampiran 7. Source Code Support Vector Machine Data 1 ........... 70
Lampiran 8. Source Code Support Vector Machine Data 2 ........... 71
Lampiran 9. Source Code Support Vector Machine Data 3 ........... 72
Lampiran 10. Output Analisis Regresi Logistik Model Penuh
untuk Data 1 .............................................................. 73
Lampiran 11. Output Analisis Regresi Logistik Model Penuh
untuk Data 2 .............................................................. 73
Lampiran 12. Output Analisis Regresi Logistik Model Penuh
untuk Data 3 .............................................................. 73
Lampiran 13. Output Analisis Regresi Logistik Model dengan
Variabel yang Signifikan untuk Data 1 ..................... 74
Lampiran 14. Output Analisis Regresi Logistik Model dengan
Variabel yang Signifikan untuk Data 2 ..................... 74
Lampiran 15. Output Analisis Regresi Logistik Model dengan
Variabel yang Signifikan untuk Data 3 ..................... 74
Lampiran 16. Nilai Duga Parameter Kernel Radial Basis
Function untuk Data 1 .............................................. 75
Lampiran 17. Nilai Duga Parameter Kernel Radial Basis
Function untuk Data 2 ............................................... 75
Lampiran 18. Nilai Duga Parameter Kernel Radial Basis
Function untuk Data 3 ............................................... 76
Lampiran 19. Nilai Lagrange Multiplier masing-masing Data ........ 77
Lampiran 20. Hasil Klasifikasi Analisis Regresi Logistik ............... 80
Lampiran 21. Hasil Klasifikasi Support Vector Machine ................ 81
Lampiran 22. Perhitungan Manual Support Vector Machine ........... 82
1
BAB I
PENDAHULUAN
1.1. Latar Belakang
Klasifikasi merupakan suatu teknik yang digunakan untuk
mengetahui atau memperkirakan kelas dari suatu objek berdasarkan
atribut yang ada. Klasifikasi ini dapat diterapkan pada beberapa
bidang antara lain: bidang kesehatan, perbankan, industri bahkan
perdagangan. Di beberapa bidang, klasifikasi digunakan sebagai alat
untuk pengambilan keputusan pada masalah yang kompleks dan data
yang besar. Adapun beberapa metode yang biasa digunakan untuk
menyelesaikan kasus klasifikasi adalah Naïve Bayes, Decision Tree
based Methods, Rule-based Methods, Support Vector Machine,
Neural Network dan K-Nearest Neighbor (KNN). Pada pemodelan
klasifikasi diperlukan model terbaik yang dapat digunakan untuk
memprediksi data sehingga sesuai dengan kelompok target. Nilai
APER (Apparent Error Rate) yang rendah dapat dijadikan salah satu
pertimbangan dalam pemilihan model terbaik. Kasus klasifikasi
dapat diselesaikan menggunakan metode statistika dan machine
learning. Salah satu metode statistika klasik yang biasa digunakan
untuk menyelesaikan masalah klasifikasi yaitu Analisis Regresi
Logistik.
Regresi logistik merupakan teknik statistika yang digunakan
untuk mengetahui ada tidaknya hubungan antara dua variabel atau
lebih, di mana variabel respon bersifat kategorik dan variabel
prediktor bersifat kategorik atau numerik. Selain itu, dalam
penerapannya model regresi logistik dapat digunakan untuk
menyelesaikan masalah klasifikasi. Menurut Maulidya (2013),
analisis regresi logistik lebih baik daripada analisis diskriminan
dalam menyelesaikan masalah klasifikasi konsumen berdasarkan
tempat berbelanja di Sidoarjo. Menurut penelitian yang dilakukan
Zulkifli (2014) mengenai klasifikasi pemilihan jurusan siswa
berdasarkan nilai ketuntasan dan minat siswa di SMA Negeri 5
Malang, analisis regresi logistik memiliki ketepatan klasifikasi yang
baik yakni sebesar 95,4%. Selain menggunakan metode statistika,
kasus klasifikasi dapat diselesaikan menggunakan machine learning.
Berdeda dengan machine learning, model regresi logistik dapat
digunakan untuk mengetahui hubungan antar variabel respon
sekaligus dapat digunakan untuk klasifikasi. Salah satu metode
2
machine learning yang digunakan untuk menyelesaikan kasus
klasifikasi yaitu Support Vector Machine.
Support Vector Machine (SVM) merupakan metode machine
learning yang bekerja atas prinsip Structural Risk Minimization
(SRM) yang bertujuan membuat hyperlane terbaik yang memisahkan
dua kelas pada input. Support Vector Machine merupakan algoritma
mesin pembelajaran yang saat ini cukup banyak dikembangkan.
SVM memiliki prinsip dasar klasifikasi secara linier dapat
dipisahkan, namun pada perkembangannya SVM dirancang agar
dapat bekerja pada masalah non-linier dengan memasukan konsep
kernel pada ruang berdimensi tinggi yang akan ditentukan
hyperplane yang dapat memaksimalkan jarak (margin) antar kelas
data. Nugroho (2003) menjelaskan bahwa SVM merupakan metode
yang tepat untuk menyelesaikan masalah berdimensi tinggi dengan
keterbatasan sampel data yang ada, pendekatan prinsip SRM pada
SVM akan memberikan kesalahan generalisasi yang lebih kecil.
Pada penelitian yang dilakukan Burges (1998) menyimpulkan
bahwa SVM memiliki tingkat akurasi yang lebih baik daripada
metode klasifikasi Naïve Bayes, C.45, dan KNN. Menurut penelitian
Akbar (2015) mengenai pendeteksian penyakit stroke menggunakan
metode Support Vector Machine didapatkan nilai akurasi yang baik
yaitu sebesar 89.39%.
Berdasarkan uraian tersebut, penelitian ini akan
membandingkan metode klasifikasi terbaik antara Analisis Regresi
Logistik dengan metode Support Vector Machine berdasarkan nilai
APER (Apparent Error Rate) dan uji Press’Q.
1.2. Rumusan Masalah
Berdasarkan latar belakang di atas maka rumusan masalah pada
penelitian ini adalah sebagai berikut:
1. Bagaimana model klasifikasi menggunakan metode Regresi
Logistik dan Support Vector Machine?
2. Metode mana yang lebih baik antara menggunakan metode
Regresi Logistik dan Support Vector Machine untuk
menyelesaikan masalah klasifikasi berdasarkan nilai APER
(Apparent Error Rate) dan uji Press’Q?
1.3. Tujuan
Berdasarkan rumusan masalah, maka tujuan yang ingin dicapai
dalam penelitian ini adalah sebagai berikut:
3
1. Membentuk model klasifikasi pada metode Regresi Logistik dan
Support Vector Machine.
2. Mengetahui metode yang lebih baik antara metode Regresi
Logistik dan Support Vector Machine untuk klasifikasi
berdasarkan nilai APER (Apparent Error Rate) dan uji Press’Q.
1.4. Manfaat
Hasil penelitian ini diharapkan dapat memberikan informasi
metode yang lebih baik untuk klasifikasi. Selain itu hasil penelitian
ini diharapkan dapat menambah pengetahuan pengguna terhadap
kegunaan metode Support Vector Machine dan Regresi Logistik
untuk klasifikasi.
1.5. Batasan Masalah
Batasan masalah pada penelitian ini adalah sebagai berikut:
1. Metode kernel yang digunakan untuk menyelesaikan masalah
klasifikasi adalah kernel Radial Basis Function.
2. Nilai APER (Apparent Error Rate) dan uji Press’Q digunakan
sebagai indikator pemilihan metode yang lebih baik.
4
5
BAB II
TINJAUAN PUSTAKA
1.1. Klasifikasi
Data mining didefinisikan sebagai proses yang dilakukan
untuk mendapatkan informasi dari data yang dapat berguna untuk
pengambilan keputusan. Terdapat beberapa bidang ilmu yang
termasuk dalam data mining dua diantaranya yaitu: machine learning
dan statistika (Hermawati, 2013). Pada penerapannya analisis
statistika digunakan untuk mendapatkan model statistika. Secara
umum model statistika ini digunakan untuk menjelaskan hubungan
suatu sistem, meramalkan keadaan pada periode mendatang, dan
untuk klasifikasi objek. Klasifikasi merupakan suatu teknik yang
digunakan untuk mengetahui atau memperkirakan kelas dari suatu
objek berdasarkan atribut yang ada. Atribut adalah sifat atau
karakteristik dari suatu objek yang nilainya bermacam-macam,
misalkan warna kulit, hobi dan lain sebagainya. Sedangkan definisi
variabel adalah karakteristik suatu objek yang nilainya unik, misal
tinggi badan berat badan dan lainnya. Atribut memiliki arti yang
lebih luas daripada variabel sehingga apabila suatu metode mengolah
data berdasarkan variabel maka hasilnya dapat merepresentasikan
atributnya (Prasetyo, 2012). Masalah klasifikasi dapat diselesaikan
dengan statistika. Pada pendekatan statistika, umumnya ditandai
dengan memiliki model probabilitas yang menyediakan probabilitas
suatu objek berada di masing-masing kelas. Teknik statistika klasik
yang biasa digunakan untuk menyelesaikan masalah klasifikasi
adalah analisis diskriminan dan analisis regresi logistik (Michie dkk,
1994).
Machine Learning merupakan sebuah ilmu pembelajaran yang
memfokuskan pada algoritma komputer yang dapat memperbaiki
dirinya sendiri secara otomatis melalui pengalaman. Metode ini
dibedakan menjadi Supervised Learning (pembelajaran terawasi) dan
Unsupervised Learning (pembelajaran tidak terawasi).
Supervised Learning adalah suatu metode pembelajaran yang
memiliki data input dan output yang telah diketahui sebelumnya.
Unsupervised Learning adalah metode pembelajaran yang tidak
memerlukan target output. Tujuan pembelajaran Supervised
Learning adalah untuk membangun model yang menghasilkan output
6
(label) yang sesuai dengan data input, metode Rule-based Methods,
Support Vector Machine, dan Decision Tree based Methods
merupakan metode yang termasuk dalam pembelajaran Supervised
Learning. Sedangkan tujuan pembelajaran Unsupervised Learning
adalah untuk mengelompokan data berdasarkan kemiripan variabel-
variabel, yang termasuk dalam metode pembelajaran ini adalah
Clustering (Scholkopf dan Smola, 2002).
2.2. Analisis Regresi Logistik
Analisis Regresi adalah suatu teknik statistika yang digunakan
untuk mengetahui hubungan antara dua variabel atau lebih. Analisis
regresi logistik merupakan salah satu jenis analisis regresi dimana
variabel respon bersifat kategorik dan variabel prediktor bersifat
kategorik atau numerik. Apabila variabel respon terdiri dari dua
kategorik disebut regresi logistik biner, yaitu variabel respon yang
terdiri dari dua kategori yaitu bernilai 1 jika kejadian sukses dan
bernilai 0 jika kejadian gagal. Sedangkan apabila variabel respon
terdiri dari lebih dari dua kategori dan kategori tersebut merupakan
tingkatan disebut regresi logistik ordinal. Model peluang antara
variabel prediktor X1i,X2i,…, Xpi dengan variabel respon (π) adalah
sebagai berikut (Hosmer dan Lemeshow, 2000):
( ) ( )
( ) (2.1)
di mana:
( ) : peluang terjadinya kategori variabel respon
: variabel prediktor ke-j
: banyaknya variabel prediktor
: intersep
: koefisien regresi untuk setiap variabel prediktor
:1,2,…,n
Untuk mempermudah interpretasi dan pendugaan parameter,
peluang pada persamaan diatas dilakukan transformasi logit
sehingga didapatkan fungsi logit sebagai berikut:
( ) = logit ( ) . ( )
( )/,
Jika
7
( ) ( )
( )
( ) ( ( )
( ))
(
(
(
(
( )
( ( )
( ) ∑
(2.2)
Regresi logistik ordinal merupakan salah satu metode yang
digunakan untuk mengetahui hubungan variabel prediktor dan
variabel respon di mana variabel respon terdiri dari lebih dari dua
kategori berskala ordinal atau tingkatan. Pada regresi ordinal model
logit yang digunakan adalah model logit kumulatif. Peluang
kumulatif regresi logistik ordinal kategori ke-r adalah sebagai
berikut:
( | ) ( ∑
)
( ∑ )
Persamaan di atas dilakukan transformasi logit sehingga
didapatkan fungsi logit sebagai berikut:
( ( | )) ( ( | )
( | ))
Kemudian didapatkan persamaan sebagai berikut:
( ( | )) ∑
8
Karena model regresi logistik ordinal menggunakan peluang
kumulatif, maka model peluang untuk masing-masing kategori dapat
dituliskan sebagai berikut:
( | ) ( | ) ( ( )| )
( | ) ( ) ( ∑
)
( ∑ )
( | ) ( ) ( ∑
)
. ∑ /
( ∑
)
( ∑ )
( | ) ( ) ( ∑
)
( ∑ )
2.2.1. Asumsi Multikolinieritas
Multikolinieritas merupakan adanya korelasi pada beberapa
atau semua variabel prediktor. Menurut Hosmer dan Lemeshow
(2000), model regresi logistik juga sensitif dengan adanya
kolinieritas seperti pada regresi linier. Kolinieritas yang tinggi
mengindikasikan adanya ketergantungan yang tinggi antara dua atau
lebih variabel prediktor.
Gujarati (2004), menjelaskan bahwa multikolinieritas dapat
diketahui dengan melihat nilai Variance Inflation Factor (VIF). Nilai
VIF dapat dihitung dengan formula sebagai berikut :
(2.3)
Di mana merupakan koefisien determinasi dari auxiilary
regression. Nilai berbanding lurus dengan VIF, semakin besar
nilai maka semakin besar nilai VIF. Jika nilai VIF bernilai lebih
dari 10, maka sudah dipastikan bahwa pada data tersebut terdapat
multikolinieritas.
2.2.2. Pendugaan Parameter Regresi Logistik
Metode yang digunakan untuk menduga parameter pada
regresi logistik adalah metode Maximum Likelihood (MLE). Metode
ini menduga β dengan memaksimumkan fungsi likelihood (Novianti
dan Purnami, 2012). Fungsi likelihood bagi model regresi logistik
biner adalah sebagai berikut:
9
( ) ∏ ( | ) ∏ ( ) ( ( ))
(2.4)
Memaksimalkan nilai log likelihood sebagai berikut:
( ) = ln(∏ ( ) ( ( ))
)
= ( ( )∑
( ( ))
∑
= ∑[ ( ( )) (
) ( ( ))]
= ∑[ ( ( )) ( ( )) ( ( ))]
= ∑( (
( )
( )) ( ( )))
( ) = ∑
( ∑
) ∑ ( ( ∑
))
Agar persamaan di atas mencapai maksimum maka turunan parsial
pertama terhadap disama dengankan nol (Agresti, 2002).
( )
= ∑
( ∑
) ∑ ( ( ∑
))
0 = ∑ ( )
( )
= ∑
( ∑
) ∑ ( ( ∑
))
0 = ∑
∑ ( )
(2.5)
Hasil turunan parsial pertama pada persamaan 2.5 di atas
merupakan persamaan non linier. Untuk mendapatkan penduga
parameter β maka persamaan tersebut perlu diselesaikan
menggunakan metode numerik. Salah satu metode numerik yang
biasa digunakan adalah iterasi Newton Raphson.
10
Dikarenakan variabel respon pada regresi logistik ordinal
terdiri dari lebih dari dua kategori, maka regresi logistik ordinal
memiliki variabel respon yang berdistribusi secara multinomial.
Bentuk umum fungsi likelihood variabel respon yang berdistribusi
multinomial adalah sebagai berikut:
( ) ∏[ ( ) ( )
( ) ( ) ]
(2.6)
Jika diasumsikan pada variabel respon terdapat tiga
kategori yaitu 1,2,3 maka bentuk persamaaan fungsi log likelihood
dapat dituliskan sebagai berikut:
( ) ∏, ( ) ( )
( ) -
∑ ( ( )) ( ( )) ( ( ))
∑ ( ( ∑
)
( ∑ )
)
( ( ∑
)
. ∑ /
( ∑
)
( ∑ )
)
( ( ∑
)
( ∑ )
)
Agar persamaan di atas mencapai maksimum maka turunan
parsial pertama terhadap parameter model regresi logistik ordinal
disama dengankan nol (Agresti, 2002).
( )
∑* ( .
∑
/
.
∑
/
) ( )
( ( )
( )
( ∑ )
( ∑ )
)]
( )
11
∑*( )( ( )
( )
. ∑ /
. ∑ /
)
( )( . ∑
/
. ∑ /
)+
( )
∑* (
.
∑
/
.
∑
/
) ( )
( . ∑
/
. ∑ /
. ∑
/
. ∑ /
)
( ) ( . ∑
/
. ∑ /
)+
(2.7)
Persamaan 2.7 merupakan persamaan non linier sehingga
untuk mendapatkan penduga parameter β maka persamaan tersebut
perlu diselesaikan menggunakan metode numerik. Adapun metode
numerik yang biasa digunakan adalah iterasi Newton Raphson untuk
menyelesaikan masalah non linier.
2.2.3. Pengujian Signifikansi Parameter
Pengujian signifikansi parameter pada model dilakukan untuk
mengetahui variabel prediktor yang berpengaruh secara nyata
terhadap variabel respon. Terdapat dua pengujian signifikansi
parameter yaitu pengujian secara simultan dan parsial.
a. Uji Simultan
Uji simultan dilakukan untuk mengetahui pengaruh variabel
prediktor terhadap variabel respon secara serempak atau bersama-
sama. Uji simultan ini menggunakan statistik uji G (Hosmer dan
Lemeshow, 2000). Hipotesis yang melandasi uji signifikansi
parameter secara simultan adalah sebagai berikut:
H0:
H1: minimal terdapat satu yang tidak sama dengan nol
12
Berikut adalah formula statistik uji G :
(
)
(.
/
.
/
∏ ( ) ( ( ))
) ( ) (2.8)
Di mana:
: penduga Likelihood tanpa variabel prediktor
: penduga Likelihood dengan variabel prediktor
: banyaknya pengamatan dengan Y bernilai 1
: banyaknya pengamatan dengan Y bernilai 0
Statistik uji G mengikuti sebaran dengan derajat bebas p , di
mana p merupakan banyaknya variabel prediktor. H0 akan ditolak
jika nilai G ≥ ( ) .
b. Uji Parsial
Uji parsial dilakukan untuk mengetahui pengaruh setiap
variabel prediktor terhadap variabel respon yang dilakukan
menggunakan uji Wald. Hipotesis yang melandasi adalah sebagai
berikut:
H0:
H1:
Berikut adalah rumus statistik uji Wald
( ) ( ) (2.9)
: penduga bagi
( ) : salah baku bagi penduga
Statistik uji Wald mengikuti sebaran normal. H0 akan ditolak
apabila nilai
⁄
2.2.4. Uji Kesesuaian Model
Uji kesesuaian model digunakan untuk mengetahui apakah
model yang dihasilkan sudah sesuai, artinya bahwa model yang
dihasilkan mampu memberikan gambaran tentang data. Statistik uji
13
yang digunakan untuk uji kesesuaian model adalah uji Pearson.
Hipotesis yang mendasari adalah sebagai berikut:
H0: Model sesuai
H1: Model tidak sesuai
Berikut adalah statistik uji Pearson
∑ ( )
( )
∑(
√ ( ))
( )
(2.10)
di mana:
: variabel respon pada pengamatan ke-i
: total pengamatan ke-i
: peluang variabel respon untuk pengamatan ke-i
Model dikatakan sesuai apabila statistik uji bernilai
kurang dari ( ) .
2.2.5. Klasifikasi pada Regresi Logistik
Regresi logistik merupakan salah satu metode statistika klasik
yang digunakan untuk menyelesaikan masalah klasifikasi. Pada
pendekatan menggunakan regresi logistik, untuk memprediksi kelas
dilakukan dengan cara menghitung probabilitas. Klasifikasi yang
berasal dari variabel respon biner dilakukan dengan cara menentukan
nilai titik potong. Titik potong yang dapat digunakan sebesar 0.5.
Klasifikasi berdasarkan pada pendekatan analisis regresi logistik
dengan menggunakan model peluang dengan ketentuan sebagai
berikut:
{ ( )
( )
Apabila peluang yang dihasilkan dari model bernilai lebih
kecil dari 0.5 maka hasil prediksi adalah kategori 0, sedangkan
peluang yang dihasilkan dari model bernilai lebih besar atau sama
dengan 0.5 maka hasil prediksi adalah kategori 1. Menurut Bishop
(2006), seperti pada masalah klasifikasi biner, pada kasus klasifikasi
multilevel (variabel respon lebih dari dua) dilakukan dengan cara
menghitung peluang setiap kategori sehingga penentuan nilai
14
parameter pada model regresi logistik merupakan hal yang penting.
karena berhubungan dengan probabilitas yang didapatkan.
Pada kasus multilevel, penentuan prediksi kategori atau kelas
didasarkan pada besarnya nilai peluang. Penentuan kategori
didasarkan pada nilai terbesar peluang tiap kategori. Apabila kategori
1 memiliki nilai peluang paling besar diantara dua kategori lainnya
maka prediksi kelas adalah kategori 1, begitu seterusnya.
2.3. Support Vector Machine
Support Vector Machine (SVM) pertama kali diperkenalkan
oleh Vapnik, Boser dan Guyon pada tahun 1992 pada seminar
Annual Workshop on Computational Learning Theory.
SVM merupakan suatu sistem pembelajaran yang
menggunakan fungsi-fungsi linier dalam sebuah ruang berdimensi
tinggi (feature space) dan dilatih dengan algoritma didasarkan pada
teori optimasi (Christianini, 2000). SVM bekerja atas prinsip
Structural Risk Minimization yang bertujuan membuat hyperlane
terbaik yang memisahkan dua kelas pada input. SVM memiliki
prinsip dasar klasifikasi secara linier dapat dipisahkan, namun pada
perkembangannya, SVM dirancang agar dapat bekerja pada masalah
non-linier dengan memasukan konsep kernel pada ruang berdimensi
tinggi yang akan ditentukan hyperplane yang dapat memaksimalkan
jarak (margin) antar kelas data (Nugroho, 2003).
2.3.1. Support Vector Classification
Menurut Hastie,dkk (2008), SVM adalah suatu teknik untuk
melakukan prediksi baik dalam kasus klasifikasi maupun regresi.
Teknik ini berusaha untuk menemukan fungsi pemisah (hyperlane)
yang optimal yang dapat memisahkan data set dari dua kelas yang
berbeda. Fungsi pemisah didefinisikan sebagai berikut:
( ) (2.11)
Di mana merupakan vektor bobot dan adalah bias.
Hyperlane adalah pemisah linier yang membagi ruang menjadi dua
bagian yang dapat memisahkan data dengan memaksimalkan margin.
15
Gambar.2.1. Support Vector Classifier (Sembiring, 2007).
Berdasarkan Gambar 2.1 menjelaskan bahwa pada kasus
separable, garis linier menunjukan batas pemisah, sedangkan garis
putus-putus menunjukan margin maksimal dengan lebar
‖ ‖ .
Hyperlane terbaik adalah hyperlane yang terletak di tengah-tengah
antara dua objek dari dua kelas. Untuk mendapatkan hyperlane
terbaik dilakukan dengan memaksimalkan margin atau jarak antara
dua objek dari kelas yang berbeda. Terdiri dua hyperlane pendukung
yaitu hyperlane yang menunjukan kelas +1 dan hyperlane yang
menunjukan kelas -1, dengan persamaan sebagai berikut:
16
Gambar.2.2. Margin optimal
Berdasarkan gambar di atas, jarak antara dua objek pada
kelas yang berbeda adalah margin yang didefinisikan sebagai .
Margin ini dapat dituliskan sebagai proyeksi vektor pada
vektor . Sehingga dapat dituliskan bahwa margin sebagai proyeksi
dari jarak antara dua support vector dari kelas yang berbeda dengan
persamaan sebagai berikut:
( )
( )
‖ ‖
‖ ‖
( ) ( )
‖ ‖
‖ ‖
Sehingga persamaan optimasi yang didapatkan adalah,
(
‖ ‖)
Persamaan di atas dapat juga dituliskan menjadi permasalahan
minimum sebagai berikut:
17
(
‖ ‖)
(
‖ ‖)
Dari permasalahan optimasi di atas ingin didapatkan nilai yang
non negatif sehingga pada persamaan di atas dikuadratkan sehinga
didapatkan persamaan sebagai berikut:
(
‖ ‖ )
Sehingga masalah optimasi pada SVM kasus separable
dapat dituliskan sebagai berikut:
Fungsi tujuan = (
‖ ‖ ) (2.12)
Constraint : ( )
Pada umumnya kasus separable jarang terpenuhi, masalah
klasifikasi yang sering ditemui adalah kasus nonseparable. Pada
kasus nonseparable memaksimalkan margin dengan berusaha
meminimalkan kesalahan klasifikasi yang dinyatakan dengan
variabel slack dan dilambangkan sebagai atau biasa disebut soft
margin hyperlane. Masalah optimasi dapat dituliskan sebagai
berikut:
Fungsi tujuan = (
‖ ‖ ∑
) (2.13)
Constraint : ( )
C merupakan koefisien yang menentukan besar penalti
akibat kesalahan klasifikasi. Meminimumkan ∑ berarti
meminimumkan eror pada data pelatihan. Masalah optimasi pada
persamaan dapat diselesaikan dengan solusi Quadratic Programming
menggunakan Lagrange Multiplier. Persamaan 2.14 digunakan
untuk meminimalkan variabel slack yang merupakan hasil penurunan
bentuk lain yang disebut primal Lagrange yang dapat dituliskan
sebagai berikut:
18
( )
‖ ‖ ∑
∑ * ( ) +
∑
(2.14)
di mana: : koefisien yang menentukan besar penalti akibat kesalahan
klasifikasi
: Lagrange Multiplier
Solusi optimal di atas harus diminimalkan terhadap variabel
dan dan dimaksimalkan terhadap variabel . Persamaan
lagrange dapat diselesaikan jika memenuhi kondisi tertentu.
Karush-Kuhn-Tucker (KKT) condition merupakan suatu cara untuk
optimalisasi dalam pemrograman nonlinier dengan memenuhi
beberapa kondisi. Dengan pendekatan KKT, pertidaksamaan
nonlinier dapat digunakan dalam generalisasi pengali lagrange yang
dapat menggunakan bentuk persamaan biasa (Burges, 1998). Berikut
adalah kondisi KKT yang digunakan primal yang digunakan untuk
menghitung nilai alpha:
( )
∑
(2.15)
( )
∑
(2.16)
( )
(2.17)
* ( ) +
Persamaan lagrange dapat diselesaikan jika semua kondisi
KKT terpenuhi, hal ini digunakan sebagai batasan pencarian
optimasi lagrange agar didapatkan nilai alpha yang optimal. Dengan
substitusi kondisi KKT pada Persamaan 2.15 diperoleh dual
lagrange sebagai berikut :
19
Fungsi tujuan :
max ∑
∑ ∑ ( )
(2.18)
Constraint : ,
∑
C merupakan parameter yang menentukan besar penalti berupa
bilangan positif. Kemudian didapatkan nilai lagrange multiplier
yang optimum dengan vektor bobot dapat dihitung dengan formula
sebagai berikut:
∑
( ) (2.19)
Sedangkan formula yang digunakan untuk menghitung bias
adalah sebagai berikut:
∑ ( )
(2.20)
Di mana merupakan banyaknya support vector dengan . Untuk memprediksi kelas data dapat menggunakan formula
sebagai berikut:
( ) ∑
( ) (2.21)
2.3.2. Kernel
Kernel merupakan fungsi yang digunakan untuk transformasi
data ke dalam dimensi ruang fitur (feature space). Kernel ini
memetakan data dari ruang berdimensi lebih rendah ke ruang
dimensi yang lebih tinggi sehingga lebih mudah dipisahkan. Data
dipetakan menggunakan fungsi pemetaan ( ) ke dalam
feature space sehingga terbentuk bidang yang memisahkan data
sesuai dengan kelasnya.
20
Gambar.2.3. Transformasi input space ke feature space
Suatu fungsi dapat menjadi fungsi kernel jika memenuhi
teorema Mercer yang menyatakan bahwa matriks kernel harus
bersifat positive semi-definite (Vapnik,1999) . Berikut adalah fungsi
kernel yang biasa digunakan:
Tabel.2.1. Fungsi Kernel
No. Kernel Fungsi kernel
1 Linier ( )
2 Polynomial ( ) (
) ,
3 Radial Basis Function ( ) ( ‖ ‖ ),
4 Sigmoid ( ) ( )
Pemilihan fungsi kernel yang tepat adalah hal yang penting
karena akan menentukan feature space sesuai dengan fungsi pemisah
yang dicari. Biasanya metode cross validation dapat digunakan
untuk menentukan fungsi kernel (Hastie dkk, 2008). Menurut Hsu,
dkk (2016), merekomendasikan untuk mencoba fungsi kernel RBF
terlebih dahulu karena dapat mengakomodir hubungan antara kelas
dan atribut yang tidak linier, dan juga memiliki perilaku seperti
fungsi kernel linier dan kernel sigmoid pada parameter yang berbeda.
Sesuai dengan uraian tersebut pada penelitian ini digunakan fungsi
kernel RBF untuk menyelesaikan masalah klasifikasi.
21
2.3.3. K-fold cross validation
Menurut Hsu, dkk (2016), K-fold cross validation dapat
digunakan untuk menentukan nilai parameter C dan parameter fungsi
kernel pada data pelatihan. Cross validation merupakan metode
penarikan contoh dan evaluasi hasil klasifikasi. Pada proses pelatihan
pada support vector machine diperlukan pemilihan parameter fungsi
kernel dan nilai C yang optimal. Pemilihan tersebut biasanya
dilakukan dengan memperkirakan kemampuan generalisasi. Metode
yang biasa digunakan untuk memperkirakan kemampuan generalisasi
adalah Cross validation. Biasanya metode cross validation dapat
digunakan untuk menentukan fungsi kernel (Hastie dkk, 2008).
Metode ini membagi data menjadi k bagian yang sama
kemudian data dibagi menjadi dua bagian yaitu data pelatihan
(training) dan pengujian (testing). Proses dilakukan sebanyak k kali.
Akan dicoba beberapa nilai parameter dan nilai parameter terbaik
ditentukan melalui metode Cross validation. Pencarian nilai
parameter ini disebut grid search, yaitu mencari kombinasi
parameter secara satu persatu, kemudian pemilihan kombinasi
tersebut didasarkan dari kombinasi yang memberikan akurasi
klasifikasi terbesar.
2.3.4. Normalisasi
Atribut data cenderung memiliki rentang yang sangat beragam
sehingga diperlukan teknik untuk mengubah skala data agar berada
pada rentang yang sama. Teknik ini sebut dengan normalisasi.
Keuntungan teknik ini adalah untuk menghindari atribut dengan
skala lebih besar mendominasi atribut pada kisaran angka yang lebih
kecil. Normalisasi ini dilakukan dengan cara mengubah skala nilai
atribut pada kisaran [-1,1] atau [0,1] (Hsu dkk, 2016). Mengubah
skala nilai atribut dalam kisaran [0,1] dapat menggunakan formula
sebagai berikut:
( )
( ) ( ) (2.22)
2.4. Tingkat Ketepatan Klasifikasi
Terdapat beberapa ukuran untuk mengukur hasil prediksi
klasifikasi, misalnya uji Press’Q dan APER (Apparent Error Rate).
Press’Q merupakan suatu ukuran yang digunakan untuk mengetahui
22
kestabilan dalam klasifikasi. Rumus statistik uji Press’Q adalah
sebagai berikut:
( )
( ) ( )
(2.23)
di mana:
: banyaknya total pengamatan
: banyaknya individu yang tepat klasifikasi
: banyaknya kelompok
Klasifikasi yang dilakukan dapat dikatakan konsisten atau stabil
jika nilai statistik uji Press’Q bernilai lebih besar dari titik kritis Khi
kuadrat dengan derajat bebas satu (Hair dkk, 2010). Selain uji
Press’Q, untuk mengetahui ketepatan klasifikasi dapat menghitung
APER (Apparent Error Rate). Nilai APER merupakan proporsi dari
banyaknya individu yang salah klasifikasi. Dengan demikian, metode
dengan nilai APER terkecil merupakan metode memiliki tingkat
ketepatan klasifikasi yang besar (Johnson dan Winchern, 1998).
Tabel.2.2. Tabel perhitungan nilai APER
Kelas Hasil prediksi klasifikasi
Total 0 1
0
1
Total
di mana dan merupakan banyaknya individu yang tepat
klasifikasi, sedangkan dan merupakan banyaknya individu
yang salah klasifikasi. Berikut adalah rumus untuk menghitung
APER:
(2.24)
23
BAB III
METODE PENELITIAN
3.1. Data
Data yang digunakan dalam penelitian ini adalah data sekunder
dengan uraian sebagai berikut:
1. Data 1
Sumber: Akbar, A.L (2015). Implementasi algoritma Support
Vector Machine untuk mengetahui tingkat resiko
stroke.
Y : Tingkat Resiko Stroke
1= Normal
2= Rentan
3= Mengkhawatirkan
X1: Umur
0= Kurang dari 65 tahun
1= Lebih dari atau samadengan 65 tahun
X2: Kolestrol Total
1= Normal
2= Tinggi
3= Sangat tinggi
X3: HDL (High Density Lipoprotein)
0= Rendah
1= Normal
X4: LDL (Low Density Lipoprotein)
1= Normal
2= Tinggi
3= Sangat tinggi
X5: Triglinerida
1= Normal
2= Tinggi
3= Sangat tinggi
Cara mengukur kadar kolesterol darah adalah dengan
memasukkan plasma darah ke dalam tabung reaksi dan
ditambahkan reagen warna kolesterol kemudian diinkubasi
dengan temperature tertentu, kandungan kadar kolesterol dapat
24
diukur dengan fotometer. Pengukuran HDL yaitu dengan
penambahan reagen HDL pada plasma kemudian diukur dengan
fotometer. Kadar LDL dapat dihitung dengan rumus kolesterol
dikurangi dengan HDL. Sedangkan untuk pemeriksaan
trigliserida darah dapat dilakukan dengan menambahkan reagen
warna trigliserida kemudian kadar trigliserida dapat diukur
dengan fotometer.
Data 1 terdiri dari 200 amatan. Sebelum melakukan analisis,
data di bagi menjadi data training sebanyak 75% dan data
testing sebanyak 25%. Sebanyak 150 amatan digunakan sebagai
data training dan sebanyak 50 amatan sebagai data testing.
2. Data 2
Sumber: Maulidya (2013). Perbandingan Analisis Diskriminan
dan Regresi Logistik.
Y: Jenis tempat belanja di wilayah Taman, Sidoarjo
1= Pasar Tradisional (Pasar Taman, Pasar Agro)
0= Pasar Modern, terdiri dari supermarket (Alfamidi,Master)
X1: Usia (tahun)
X2: Jenis Kelamin
1= Perempuan
0= Laki-laki
X3: Pendidikan
1= Di bawah SMP
2= SMA
3= Perguruan tinggi
X4: Pekerjaan
1= Ibu rumah tangga 4= Pegawai Negeri
2= Wiraswasta 5= Mahasiswa/Pelajar
3= Swasta
X5: Pendapatan
1= Kurang dari Rp.1000.000 4= Tidak diisi
2= Rp.1000.000 - Rp.3000.000
3= Lebih dari Rp.3000.000
X6: Produk, yang diukur dengan tiga butir pertanyaan, di
mana teknik penilaiannya menggunakan skala likert,
terdapat lima poin mulai dari sangat setuju (skor 5),
25
setuju (skor 4), cukup setuju (skor 3), tidak setuju (skor
2), dan sangat tidak setuju (skor 1).
X7: Harga, yang diukur dengan tiga butir pertanyaan, di
mana teknik penilaiannya menggunakan skala likert,
terdapat lima poin mulai dari sangat setuju (skor 5),
setuju (skor 4), cukup setuju (skor 3), tidak setuju (skor
2), dan sangat tidak setuju (skor 1).
X8: Promosi, yang diukur dengan tiga butir pertanyaan, di
mana teknik penilaiannya menggunakan skala likert,
terdapat lima poin mulai dari sangat setuju (skor 5),
setuju (skor 4), cukup setuju (skor 3), tidak setuju (skor
2), dan sangat tidak setuju (skor 1).
X9: Lokasi, yang diukur dengan tiga butir pertanyaan, di
mana teknik penilaiannya menggunakan skala likert,
terdapat lima poin mulai dari sangat setuju (skor 5),
setuju (skor 4), cukup setuju (skor 3), tidak setuju (skor
2), dan sangat tidak setuju (skor 1).
Data 2 terdiri dari 100 amatan. Sebelum melakukan
analisis, data di bagi menjadi data training sebanyak 75% dan
data testing sebanyak 25%. Sebanyak 75 amatan digunakan
sebagai data training dan sebanyak 25 amatan sebagai data
testing.
3. Data 3
Sumber: Utama, M.P (2012). Analisis Faktor-Faktor Yang
Mempengaruhi Keputusan Pemberian Kredit Usaha
Rakyat (KUR)
Y: Keputusan pemberian kredit
1= Keputusan kredit diterima
0= Keputusan kredit ditolak
X1: Tingkat pendidikan (tahun)
X2: Banyaknya tanggungan keluarga (orang)
X3: Lama Usaha (tahun)
X4: Laba usaha (rupiah)
X5: Jumlah pinjaman (rupiah)
X6: Jangka waktu pinjaman (bulan)
26
Data 3 terdiri dari 89 amatan. Sebelum melakukan
analisis, data di bagi menjadi data training sebanyak 75% dan
data testing sebanyak 25%. Sebanyak 67 amatan digunakan
sebagai data training dan sebanyak 22 amatan sebagai data
testing.
3.2. Prosedur Analisis
Prosedur analisis dalam penelitian ini adalah sebagai berikut:
1. Persiapan data dengan cara membagi data menjadi dua bagian
yaitu data pelatihan dan data pengujian, pembagian ini
dilakukan secara acak. Sebesar 75% data digunakan sebagai
data pelatihan dan 25% data digunakan sebagai pengujian.
2. Melakukan klasifikasi menggunakan regresi logistik dengan
prosedur sebagai berikut:
a. Pemeriksaan asumsi multikolinieritas antar peubah prediktor
dengan menghitung Variance Inflation Factor sesuai dengan
Persamaan (2.3).
b. Membentuk model logistik dengan melibatkan semua
peubah prediktor.
c. Melakukan uji signifikansi parameter secara simultan dan
parsial sesuai dengan Persamaan (2.8) dan (2.9).
d. Membentuk model logistik dengan variabel yang signifikan.
e. Melakukan klasifikasi sesuai dengan model yang telah
terbentuk.
f. Melakukan perhitungan ketepatan klasifikasi dengan
indikator APER dan uji Press’Q pada metode regresi logistik
sesuai Persamaan (2.23) dan Persamaan (2.24).
3. Melakukan klasifikasi menggunakan Support Vector Machine
dengan prosedur sebagai berikut:
a. Melakukan normalisasi data dengan mengubah skala nilai
data atribut pada rentang [0,1] dengan Persamaan (2.22).
b. Membentuk model klasifikasi pada data pelatihan dengan
proses sebagai berikut:
i. Input data pelatihan dan membagi data menggunakan
metode K-Fold Cross Validation, dengan nilai K yang
digunakan adalah 10.
ii. Memetakan data dari input space ke dalam feature space
menggunakan fungsi kernel.
27
iii. Menduga parameter pada fungsi kernel menggunakan
metode grid search.
iv. Menyelesaikan masalah optimasi dengan quadratic
programming.
v. Menentukan support vector.
vi. Menduga parameter b.
vii. Menyusun model hyperlane
c. Melakukan prediksi pada data pengujian menggunakan
model yang sudah didapatkan.
d. Melakukan perhitungan ketepatan klasifikasi dengan
indikator APER dan uji Press’Q pada metode Support
Vector Machine sesuai Persamaan (2.23) dan Persamaan
(2.24).
4. Melakukan interpretasi hasil.
5. Membandingkan Ketepatan Klasifikasi pada Regresi Logistik
dan Support Vector Machine.
3.3. Diagram Alir Penelitian
Diagram alir pada penelitian ini disajikan pada Gambar 3.1,
Gambar 3.2 dan Gambar 3.3.
28
Data Pelatihan Data Pengujian
Model
A
Evaluasi
Model SVM
Regresi
Logistik
Mulai
Data
SVM Evaluasi Model
Regresi Logistik
Model
B
Klasifikasi
A
Gambar 3.1 Diagram Alir Penelitian
29
Selesai
Membandingkan Uji
Press Q dan nilai APER
Regresi Logistik dengan
SVM
A
Uji Press Q dan
menghitung nilai
APER
30
Gambar.3.2. Diagram Alir Regresi Logistik
Mulai
Data
Regresi Logistik
Asumsi Non
Multikolinieritas
Pendugaan Parameter
Uji Signifikansi Parameter
secara Simultan dan Parsial
Uji Kesesuaian Model
Selesai
Ya
Tidak
31
Gambar.3.3. Digram Alir Metode Support Vector Machine
Mulai
Input
data
Normalisasi Data
Memetakan data pada feature space
menggunakan fungsi kernel Radial
Basis Function
Pendugaan parameter dengan
metode grid search
Menyelesaikan optimasi dengan
Quadratic Programming
Pendugaan parameter b
Selesai
Membentuk model
hyperlane pada input
32
33
BAB IV
HASIL DAN PEMBAHASAN
4.1. Hasil Analisis Regresi Logistik
Prosedur analisis klasifikasi menggunakan regresi logistik
meliputi pendeteksian multikolinieritas, pendugaan dan uji
signifikansi parameter, uji kesesuaian model, dan menghitung
ketepatan klasifikasi.
4.1.1. Pendeteksian Multikolinieritas
Seperti pada analisis regresi linier, analisis regresi logistik juga
sensitif dengan adanya kolinieritas pada variabel prediktor.
Pendeteksian adanya multikolinieritas dapat diketahui dengan
melihat nilai Variance Inflation Factor (VIF). Berikut adalah nilai
VIF untuk setiap variabel prediktor:
Tabel.4.1. Nilai VIF pada Data 1
Variabel VIF
X1 1.132
X2 2.241
X3 1.402
X4 2.209
X5 1.199
Berdasarkan Tabel 4.1 pada Data 1 yaitu kasus klasifikasi
tingkat resiko stroke, menunjukan bahwa nilai VIF pada semua
variabel prediktor bernilai lebih kecil dari 10 sehingga dapat
disimpulkan bahwa tidak terdapat kolinieritas atau ketergantungan
antar variabel prediktor pada Data 1.
Tabel.4.2. Nilai VIF pada Data 2
Variabel VIF
X1 1.401
X2 1.382
X3 1.249
X4 1.683
X5 1.729
X6 1.212
X7 1.633
X8 1.353
X9 2.214
34
Berdasarkan Tabel 4.2 pada Data 2 yaitu kasus klasifikasi
tempat berbelanja di Sidoarjo, menunjukan bahwa nilai VIF pada
semua variabel prediktor bernilai lebih kecil dari 10 sehingga dapat
disimpulkan bahwa tidak terdapat kolinieritas atau ketergantungan
antar variabel prediktor pada Data 2.
Tabel.4.3. Nilai VIF pada Data 3
Variabel VIF
X1 2.087
X2 2.151
X3 2.097
X4 3.679
X5 2.253
X6 1.373
Berdasarkan Tabel 4.3 pada Data 3 yaitu kasus klasifikasi
pemberian kredit usaha rakyat, menunjukan bahwa nilai VIF pada
semua variabel prediktor bernilai lebih kecil dari 10 sehingga dapat
disimpulkan bahwa tidak terdapat kolinieritas atau ketergantungan
antar variabel prediktor pada Data 3.
4.1.2. Hasil Pendugaan Parameter
Berikut adalah hasil penduga parameter menggunakan
Maximum Likelihood Estimation untuk semua variabel prediktor
selengkapnya dapat dilihat pada Lampiran 10:
Tabel.4.4. Hasil Nilai Duga Parameter pada Data 1
Koefisien Estimasi
Intersep 1
Intersep 2
0.631
2.99
Umur > 65 tahun 0.973
Kolestrol Total Tinggi 1.901
Sangat tinggi 1.985
HDL ≥ 35 -0.735
LDL Tinggi -0.94
Sangat tinggi -1.331
Triglinerida Tinggi 19.159
Sangat tinggi 18.838
35
Berikut adalah model penuh untuk Data 1:
( ) = ( ) ( )
( ) ( ) ( )
( ) ( )
( ) = ( ) ( )
( ) ( ) ( )
( ) ( )
Tabel.4.5. Hasil Nilai Duga Parameter pada Data 2
Koefisien Estimasi
Intersep -15.715
Usia (X1) 0.047
Jenis kelamin (X2) -1.856
Pendidikan (X3) -0.952
Pekerjaan (X4) 0.584
Pendapatan (X5) 0.301
Produk (X6) 0.072
Harga (X7) 0.039
Promosi (X8) 0.182
Lokasi (X9) 1.399
Berikut adalah model penuh untuk Data 2:
( ) =
Tabel.4.6. Hasil Nilai Duga Parameter pada Data 3
Koefisien Estimasi
Intersep -4.156
Tingkat pendidikan (X1) -0.459
Tanggungan keluarga (X2) -0.848
Lam usaha (X3) 2.232
Laba usaha (X4) 1.456x 10-5
Jumlah pinjaman (X5) -1.08x 10-7
Jangka waktu (X6) -0.101
Berikut adalah model penuh untuk Data 3:
( ) =
36
4.1.3. Uji Signifikansi Parameter
Uji signifikansi parameter dilakukan untuk mengetahui
pengaruh variabel prediktor terhadap variabel respon secara
bersama-sama maupun secara parsial.
a. Uji Simultan
Uji simultan dilakukan untuk mengetahui pengaruh variabel
prediktor terhadap variabel respon secara serempak atau bersama-
sama. Uji ini dilakukan dengan statistik uji G. Hipotesis yang
melandasi uji signifikansi parameter secara simultan adalah sebagai
berikut:
H0:
H1: minimal terdapat satu yang tidak sama dengan nol
Berikut adalah hasil pengujian signifikansi parameter secara
simultan:
Tabel.4.7. Uji Signifikansi Parameter Secara Simultan Untuk Setiap
Data
Data Statistik Uji G Titik Kritis
Data 1 132.270 11.071
Data 2 59.628 16.918
Data 3 60.569 12.591
Berdasarkan hasil pengujian pada Tabel 4.7 dapat diketahui
bahwa nilai statistik uji G untuk Data 1 adalah sebesar 132.270. Nilai
statistik uji G lebih besar dari titik kritis ( ) , dengan demikian dapat
disimpulkan bahwa variabel umur, kolestrol total, LDL, HDL, dan
triglinerida berpengaruh nyata secara bersama-sama terhadap tingkat
resiko stroke seseorang.
Sedangkan untuk Data 2 dapat diketahui bahwa nilai statistik
uji G adalah sebesar 59.628. Nilai statistik uji G lebih besar dari titik
kritis ( ) , dengan demikian dapat disimpulkan bahwa variabel usia,
jenis kelamin, pendidikan, pekerjaan, pendapatan, produk, harga,
promosi, dan lokasi berpengaruh nyata secara bersama-sama
terhadap penentuan tempat berbelanja masyarakat di Sidoarjo.
Berdasarkan hasil pengujian pada Tabel 4.7 dapat diketahui
bahwa nilai statistik uji G untuk Data 3 adalah sebesar 60.569. Nilai
statistik uji G lebih besar dari titik kritis ( ) , dengan demikian dapat
37
disimpulkan bahwa tingkat pendidikan, banyaknya tanggungan
keluarga, lama usaha, laba usaha, jumlah pinjaman, dan jangka
waktu lama pinjaman berpengaruh nyata secara bersama-sama
terhadap keputusan pemberian kredit.
b. Uji Signifikansi Parsial
Uji parsial dilakukan untuk mengetahui pengaruh setiap variabel
prediktor terhadap variabel respon yang dilakukan menggunakan uji
Wald. Hipotesis yang melandasi adalah sebagai berikut:
H0:
H1:
Pada uji signifikansi parameter secara parsial ini dapat
dilakukan dengan membandingkan p-value masing-masing variabel
prediktor dengan taraf nyata 0.05. H0 akan ditolak apabila p-value
bernilai kurang dari 0.05. berikut adalah hasil nilai duga parameter
dan uji sigifikansi parsial masing-masing data untuk selengkapnya
dapat dilihat pada Lampiran 10:
Tabel.4.8. Nilai Duga Parameter dan Uji Signifikansi Parsial Data 1
Koefisien Estimasi p-value
Intersep 1 0.631 0.302
Intersep 2 2.99 0.000
Umur > 65 tahun 0.973 0.006
Kolestrol
Total
Tinggi 1.901 0.000
Sangat tinggi 1.985 0.000
HDL ≥ 35 -0.735 0.216
LDL Tinggi -0.94
0.017
Sangat tinggi -1.331
0.030
Triglinerida Tinggi 19.159 0.302
Sangat tinggi 18.838 0.000
Berdasarkan Tabel 4.8 dapat dilihat bahwa variabel umur,
kolestrol total, LDL dan triglinerida berpengaruh secara nyata
terhadap tingkat resiko stroke seseorang.
38
Tabel.4.9. Nilai Duga Parameter dan Uji Signifikansi Parsial Data 2
Koefisien Estimasi SE Nilai Z p-value
Intersep -15.715 6.488 -2.422 0.015
Usia (X1) 0.047 0.053 0.894 0.371
Jenis kelamin (X2) -1.856 1.155 -1.607 0.108
Pendidikan (X3) -0.952 0.75 -1.266 0.205
Pekerjaan (X4) 0.584 0.458 1.275 0.202
Pendapatan (X5) 0.301 0.489 0.615 0.538
Produk (X6) 0.072 0.289 0.251 0.802
Harga (X7) 0.039 0.297 0.131 0.895
Promosi (X8) 0.182 0.239 0.763 0.445
Lokasi (X9) 1.399 0.340 4.113 0.000
Berdasarkan Tabel 4.9 dapat dilihat bahwa hanya variabel
lokasi yang berpengaruh secara nyata terhadap penentuan tempat
berbelanja masyarakat di Sidoarjo. Variabel lainnya yaitu usia, jenis
kelamin, pendidikan, pekerjaan, pendapatan, produk, harga, dan
promosi tidak berpengaruh nyata terhadap penentuan tempat
berbelanja masyarakat di Sidoarjo.
Tabel.4.10. Nilai Duga Parameter dan Uji Signifikansi Parsial Data 3
Koefisien Estimasi SE Nilai Z p-value
intersep -4.156 4.664 -0.891 0.373
Tingkat
pendidikan (X1) -0.459 0.313 -1.516 0.129
Tanggungan
keluarga (X2) -0.848 0.504 -1.681 0.092
Lama usaha (X3) 2.232 0.933 2.393 0.016
Laba usaha (X4) 1.46 x 10-5
5.20 x 10-6
2.799 0.005
Jumlah pinjaman
(X5) -1.08 x 10
-7 6.14 x 10
-8 -1.764 0.077
Jangka waktu
(X6) -0.101 0.087 -1.161 0.245
Berdasarkan Tabel 4.10 dapat dilihat bahwa variabel lama
usaha dan laba usaha yang berpengaruh secara nyata terhadap
keputusan pemberian kredit. Variabel lainnya yaitu tingkat
pendidikan, banyaknya tanggungan keluarga, jumlah pinjaman,dan
39
jangka waktu lama pinjaman tidak berpengaruh nyata terhadap
keputusan pemberian kredit.
4.1.4. Membentuk Model dengan Variabel Prediktor yang
Signifikan
Pemodelan regresi logistik dengan variabel prediktor yang
signifikan dilakukan dengan metode backward. Proses pemodelan
metode ini yaitu memodelkan semua variabel prediktor dengan
variabel respon, kemudian mengeluarkan satu persatu variabel
prediktor yang paling tidak signifikan. Selanjutnya memodelkan
kembali variabel prediktor lainnya dengan variabel respon. Hingga
didapatkan model akhir yaitu model dengan semua variabel prediktor
yang signifikan. Berikut adalah hasil pemodelan menggunakan
metode backward selengkapnya dapat dilihat pada Lampiran 13:
Tabel.4.11. Tabel Nilai Duga Parameter Model Regresi Logistik
dengan variabel yang signifikan untuk Data 1
Koefisien Estimasi p-value
Intersep 1 1.327 0.000
Intersep 2 3.590 0.000
X2 Tinggi 1.223 0.009
Sangat tinggi 1.014 0.045
X5 Tinggi 19.247 0.975
Sangat tinggi 18.972 0.000
Berdasarkan hasil di atas, model regresi logistik dengan
variabel prediktor yang signifikan dapat dituliskan sebagai berikut:
( ) ( ) ( )
( ) ( )
( ) ( ) ( )
( ) ( )
Tabel.4.12. Tabel Nilai Duga Parameter Model Regresi Logistik
dengan variabel yang signifikan untuk Data 2
Variabel Estimasi SE Z p-value
Intersep -11.3967 2.4852 -4.586 0.000
X9 1.2297 0.2669 4.608 0.000
40
Berdasarkan hasil di atas, model regresi logistik dengan
variabel prediktor yang signifikan dapat dituliskan sebagai berikut:
( )
Tabel.4.13. Tabel Nilai Duga Parameter Model Regresi Logistik
dengan variabel yang signifikan untuk Data 3
Variabel Estimasi SE Z p-value
Intersep -11.89 3.54 -3.358 0.000
X3 1.856 0.623 2.977 0.003
X4 1.241x 10-5
4.11x 10-6
3.020 0.003
X5 -8.82x 10-8
4.28x 10-8
-2.058 0.039
Berdasarkan hasil di atas, model regresi logistik dengan
variabel prediktor yang signifikan dapat dituliskan sebagai berikut:
( )
4.1.5. Uji Kesesuaian Model
Uji kesesuaian model digunakan untuk mengetahui apakah
model yang dihasilkan sudah sesuai. Hipotesis yang mendasari
adalah sebagai berikut:
H0: Model sesuai
H1: Model tidak sesuai
Berikut adalah hasil pengujian kesesuaian model dengan Uji
Pearson:
Tabel.4.14. Uji Kesesuaian Model untuk Setiap Data
Data Statistik Uji Titik Kritis ( )
Data 1 46.608 173.004
Data 2 52.596 84.821
Data3 30.602 79.082
Berdasarkan Tabel 4.14 diketahui bahwa statistik uji pearson
untuk Data 1 bernilai kurang dari dari titik kritis ( ) sehingga
diputuskan untuk menerima H0. Artinya adalah model regresi
logistik yang didapatkan dapat menggambarkan kondisi yang
sebenarnya.
Sedangkan untuk Data 2 diketahui bahwa statistik uji
pearson bernilai kurang dari dari titik kritis ( ) sehingga
41
diputuskan untuk menerima H0. Artinya adalah model regresi
logistik yang didapatkan dapat menggambarkan kondisi yang
sebenarnya.
Berdasarkan Tabel 4.14 diketahui bahwa statistik uji pearson
untuk Data 3 bernilai kurang dari dari titik kritis ( ) sehingga
diputuskan untuk menerima H0. Artinya adalah model regresi
logistik yang didapatkan dapat menggambarkan kondisi yang
sebenarnya.
4.1.6. Ketepatan Klasifikasi Regresi Logistik
a. Ketepatan Klasifikasi Pada Data Training
Data training umumnya digunakan untuk membentuk model.
Sebelum model tersebut diujikan pada data baru perlu diketahui
seberapa kebaikan model tersebut dengan menghitung ketepatan
klasifikasi pada data training. Ketepatan klasifikasi digunakan untuk
mengetahui seberapa baik model yang didapatkan dapat
memprediksi kelas pada data. Berikut adalah tabel ketepatan
klasifikasi pada data training selengkapnya dapat dilihat pada
Lampiran 20:
Tabel.4.15. Tabel Ketepatan Klasifikasi untuk Data Training Data 1
Kategori Hasil Klasifikasi
Total APER Uji
Press’Q ( )
1 2 3
1 82 0 0 82
25.33% 115.32 3.841 2 32 0 0 32
3 6 0 30 36
Total 120 0 30 150
Berdasarkan Tabel 4.15 menunjukan bahwa terdapat 82
amatan yang tepat klasifikasi pada kategori 1 yaitu tingkat resiko
stroke normal, dan tidak terdapat amatan yang salah klasifikasi pada
kategori 1. Selain itu pada data training terdapat 32 amatan dengan
kategori 2, dan semua amatan tersebut tidak tepat klasifikasi. Dan
terdapat 30 amatan yang tepat klasifikasi pada kategori 3 yaitu
tingkat resiko stroke mengkhawatirkan, dan terdapat 6 amatan yang
salah klasifikasi pada kategori 3. Nilai APER sebesar 25.33%, hal ini
menunjukan model regresi yang didapatkan sudah baik untuk
menyelesaikan kasus klasifikasi resiko tingkat penyakit stroke.
Selain itu, untuk mengetahui kestabilan dalam klasifikasi digunakan
42
uji Press’Q. Berdasarkan hasil diatas nilai statistik uji Press’Q
bernilai lebih dari ( ) sehingga disimpulkan bahwa klasifikasi yang
dilakukan sudah konsisten.
Tabel.4.16. Tabel Ketepatan Klasifikasi untuk Data Training Data 2
Kategori Hasil Klasifikasi
Total APER Uji
Press’Q ( )
0 1
0 32 7 39
16% 34.68 3.841 1 5 31 36
Total 37 38 75
Berdasarkan Tabel 4.16 dapat dilihat bahwa terdapat 32
amatan yang tepat klasifikasi pada kategori 0 yaitu jenis tempat
belanja pasar modern, dan terdapat 7 amatan pada kategori 0 yang
salah klasifikasi. Selain itu terdapat sebanyak 31 amatan yang tepat
klasifikasi pada kategori 1 yaitu jenis tempat belanja pasar
tradisional, dan terdapat 5 amatan pada kategori 1 yang salah
klasifikasi. Nilai APER model regresi logistik yaitu sebesar 16%, hal
ini menunjukan model regresi yang didapatkan sudah baik untuk
menyelesaikan kasus klasifikasi tempat berbelanja masyarakat di
wilayah taman Sidoarjo. Selain itu, untuk mengetahui kestabilan
dalam klasifikasi digunakan uji Press’Q. Berdasarkan hasil diatas
nilai statistik uji Press’Q bernilai lebih dari ( ) sehingga
disimpulkan bahwa klasifikasi yang dilakukan sudah konsisten.
Tabel.4.17. Tabel Ketepatan Klasifikasi untuk Data Training Data 3
Kategori Hasil Klasifikasi
Total APER Uji
Press’Q ( )
0 1
0 16 3 19
7.46% 48.493 3.841 1 2 46 48
Total 18 49 67
Berdasarkan Tabel 4.17 dapat dilihat bahwa terdapat 16
amatan yang tepat klasifikasi pada kategori 0 yaitu keputusan kredit
ditolak, dan terdapat 3 amatan pada kategori 0 yang salah klasifikasi.
Selain itu terdapat sebanyak 46 amatan yang tepat klasifikasi pada
kategori 1 yaitu keputusan kredit diterima, dan terdapat 2 amatan
yang salah klasifikasi pada kategori 1. Nilai APER model regresi
43
logistik yaitu sebesar 7.46%, hal ini menunjukan model regresi yang
didapatkan sudah baik untuk menyelesaikan kasus klasifikasi
keputusan pemberian kredit. Selain itu, untuk mengetahui kestabilan
dalam klasifikasi digunakan uji Press’Q. Berdasarkan hasil diatas
nilai statistik uji Press’Q bernilai lebih dari ( ) sehingga
disimpulkan bahwa klasifikasi yang dilakukan sudah konsisten.
b. Ketepatan Klasifikasi Pada Data Testing
Model yang telah didapatkan pada data training akan
digunakan untuk klasifikasi pada data baru yaitu data testing.
Apabila model yang didapatkan merupakan model yang baik maka
akan memberikan kesalahan klasifikasi yang kecil. Ketepatan
klasifikasi pada penelitian ini didasarkan pada dua indikator yaitu
nilai APER (Apparent Error Rate) dan uji Press’Q. Semakin kecil
nilai APER maka ketepatan klasifikasi juga semakin besar. Berikut
adalah tabel ketepatan klasifikasi pada data testing selengkapnya
dapat dilihat pada Lampiran 20:
Tabel. 4.18. Tabel Ketepatan Klasifikasi untuk Data Testing Data 1
Kategori Hasil Klasifikasi
Total APER Uji
Press’Q ( )
1 2 3
1 36 0 0 36
14% 25.92 3.841 2 5 0 0 5
3 2 0 7 2
Total 43 0 7 50
Berdasarkan Tabel 4.18 menunjukan bahwa terdapat 36
amatan yang tepat klasifikasi pada kategori 1 yaitu tingkat resiko
stroke normal, dan tidak terdapat amatan yang salah klasifikasi pada
kategori 1. Selain itu pada data testing terdapat 5 amatan dengan
kategori 2, dan kelima amatan tersebut tidak tepat klasifikasi. Dan
terdapat 7 amatan yang tepat klasifikasi pada kategori 3 yaitu tingkat
resiko stroke mengkhawatirkan, dan terdapat 2 amatan yang salah
klasifikasi pada kategori 3. Nilai APER sebesar 14%, hal ini
menunjukan model regresi yang didapatkan sudah baik untuk
menyelesaikan kasus klasifikasi resiko tingkat penyakit stroke.
Selain itu, untuk mengetahui kestabilan dalam klasifikasi digunakan
uji Press’Q. Berdasarkan hasil diatas nilai statistik uji Press’Q
44
bernilai lebih dari ( ) sehingga disimpulkan bahwa klasifikasi yang
dilakukan sudah konsisten.
Tabel. 4.19. Tabel Ketepatan Klasifikasi untuk Data Testing Data 2
Kategori Hasil Klasifikasi
Total APER Uji
Press’Q ( )
0 1
0 8 2 11
16% 11.56 3.841 1 2 13 14
Total 9 16 25
Berdasarkan Tabel 4.19 dapat dilihat bahwa terdapat 8
amatan yang tepat klasifikasi pada kategori 0 yaitu jenis tempat
belanja pasar modern, dan terdapat 2 amatan pada kategori 0 yang
salah klasifikasi. Selain itu terdapat sebanyak 13 amatan yang tepat
klasifikasi pada kategori 1 yaitu jenis tempat belanja pasar
tradisional, dan terdapat 2 amatan pada kategori 1 yang salah
klasifikasi. Nilai APER model regresi logistik yaitu sebesar 16%, hal
ini menunjukan model regresi yang didapatkan sudah baik untuk
menyelesaikan kasus klasifikasi tempat berbelanja masyarakat di
wilayah taman sidoarjo. Selain itu, untuk mengetahui kestabilan
dalam klasifikasi digunakan uji Press’Q. Berdasarkan hasil diatas
nilai statistik uji Press’Q bernilai lebih dari ( ) sehingga
disimpulkan bahwa klasifikasi yang dilakukan sudah konsisten.
Tabel. 4.20. Tabel Ketepatan Klasifikasi untuk Data Testing Data 3
Kategori Hasil Klasifikasi
Total APER Uji
Press’Q ( )
0 1
0 9 2 11
9.1% 14.727 3.841 1 0 11 11
Total 9 13 22
Berdasarkan Tabel 4.20 dapat dilihat bahwa terdapat 9
amatan yang tepat klasifikasi pada kategori 0 yaitu keputusan kredit
ditolak, dan terdapat 2 amatan pada kategori 0 yang salah klasifikasi.
Selain itu terdapat sebanyak 11 amatan yang tepat klasifikasi pada
kategori 1 yaitu keputusan kredit diterima, dan tidak terdapat
kesalahan klasifikasi pada kategori 1. Nilai APER model regresi
logistik yaitu sebesar 9.1%, hal ini menunjukan model regresi yang
didapatkan sudah baik untuk menyelesaikan kasus klasifikasi
45
keputusan pemberian kredit. Selain itu, untuk mengetahui kestabilan
dalam klasifikasi digunakan uji Press’Q. Berdasarkan hasil diatas
nilai statistik uji Press’Q bernilai lebih dari ( ) sehingga
disimpulkan bahwa klasifikasi yang dilakukan sudah konsisten.
4.2. Support Vector Machine
4.2.1. Proses Training
Pada proses pelatihan akan dihasilkan model yang kemudian
akan digunakan untuk klasifikasi pada data testing.
a. Normalisasi Data Input
Normalisasi ini dilakukan dengan cara mengubah skala nilai
atribut pada kisaran [0,1]. Langkah awal untuk melakukan
normalisasi ini adalah dengan cara menentukan nilai maksimum dan
minimum setiap atribut pada data input. Kemudian mengubah skala
nilai atribut sesuai dengan Persamaan (2.22). Misalkan ingin
mengubah skala nilai atribut umur pada amatan pertama, dilakukan
dengan cara sebagai berikut:
( )
( ) ( )
Nilai atribut umur pada amatan pertama diubah menjadi
0.29167. Dengan cara yang sama dilakukan untuk mengubah nilai
atribut lainnya.
b. Memetakan data input ke dalam feature space
Pemetaan data input ke dalam feature space merupakan hal
yang paling penting dalam menyelesaikan kasus klasifikasi pada
support vector machine. Untuk memetakan data ke dalam feature
space dilakukan dengan menggunakan fungsi kernel sehingga
pemilihan parameter kernel sangat penting. Fungsi kernel yang
digunakan pada penelitian ini adalah Radial Basis Function.
c. Menduga parameter pada fungsi Kernel
Menduga parameter fungsi kernel dilakukan dengan metode
gridsearch. Pada metode ini akan dicobakan beberapa nilai
parameter. Berikut adalah rentang nilai parameter fungsi kernel
Radial Basis Function :
46
Tabel.4.21. Rentang Nilai Parameter Fungsi Kernel
Batas Cost
Batas Bawah Batas Atas
Beberapa nilai pada rentang seperti pada Tabel 4.21 akan
dicobakan untuk menemukan parameter terbaik. Sehingga
didapatkan parameter terbaik fungsi kernel sebagai berikut
selengkapnya dapat dilihat pada Lampiran 16:
Tabel.4.22. Parameter Terbaik Fungsi Kernel
Parameter Data 1 Data 2 Data 3
Cost
Penentuan nilai parameter kernel pada support vector machine
dilakukan menggunakan metode grid search. Pada metode ini
dilakukan dengan cara mencoba beberapa nilai parameter sehingga
didapatkan nilai parameter terbaik. Pada penelitian ini dicobakan
beberapa nilai parameter dengan rentang nilai seperti yang dituliskan
pada Tabel 4.21. Hasil padaTabel 4.21 menunjukan nilai parameter
terbaik yang didapatkan melalui metode grid search.
d. Mendapatkan Nilai Lagrange Multiplier
Masalah optimasi pada support vector machine diselesaikan
menggunakan Quadratic Programming dan didapatkan nilai
Lagrange Multiplier (alpha). Pada data 1 didapatkan nilai Lagrange
Multiplier (alpha) sebanyak 58, pada Data 2 didapatkan sebanyak 78,
dan Data 3 sebanyak 31. Nilai Lagrange Multiplier yang didapatkan
dapat dilihat pada Lampiran 19.
e. Menduga nilai b
Nilai parameter b dapat diduga menggunakan Persamaan 2.20.
Berikut adalah nilai duga b untuk masing-masing data:
Tabel.4.23. Nilai duga b masing-masing data
Parameter Data 1 Data2 Data3
b 2.948
0.263 0.861 3.705
47
Berdasarkan Tabel 4.23 didapatkan nilai b untuk Data 1
sebesar 2.948 dan 3.705, Data 2 sebesar 0.263, dan Data 3 sebesar
0.861.
f. Model Klasifikasi Support Vector Machine
Berdasarkan hasil di atas, model klasifikasi Support Vector
Machine untuk masing masing data dapat dituliskan sebagai berikut:
Data 1 : ( ) ∑
( ‖ ‖ )
( ) ∑
( ‖ ‖ )
Data 2 : ( ) ∑
( ‖ ‖ )
Data 3 : ( ) ∑
( ‖ ‖ )
4.2.2. Proses Testing dan Ketepatan Klasifikasi
Model yang sudah didapatkan pada data training digunakan
untuk klasifikasi pada data testing. Pada hasil klasifikasi ini akan
diketahui seberapa besar ketepatan klasifikasi model yang
didapatkan.
a. Ketepatan Klasifikasi Pada Data Training
Data training umumnya digunakan untuk membentuk model.
Sebelum model tersebut diujikan pada data baru perlu diketahui
seberapa kebaikan model tersebut dengan menghitung ketepatan
klasifikasi pada data training. Berikut adalah ketepatan klasifikasi
pada data training selengkapnya dapat dilihat pada Lampiran 21:
Tabel.4.24. Hasil Klasifikasi Support Vector Machine untuk data
training Data 1
Kategori Hasil Klasifikasi
Total APER Uji
Press’Q ( )
1 2 3
1 81 3 1 85
4% 265.08 3.841 2 0 32 0 32
3 1 1 31 33
Total 82 36 32 150
48
Berdasarkan Tabel 4.24 dapat dilihat bahwa terdapat 81
amatan yang tepat klasifikasi pada kategori 1 yaitu tingkat resiko
stroke normal, dan terdapat 4 amatan pada kategori 1 yang salah
klasifikasi. Terdapat sebanyak 32 amatan yang tepat klasifikasi pada
kategori 2 yaitu tingkat resiko stroke rentan, dan tidak terdapat
kesalahan klasifikasi pada kategori 2. Selain itu, terdapat 31 amatan
yang tepat klasifikasi pada kategori 3 yaitu tingkat resiko stroke
mengkhawatirkan, dan terdapat 2 amatan pada kategori 3 yang salah
klasifikasi. Nilai APER metode Support Vector Machine pada Data 1
yaitu sebesar 4%, hal ini menunjukan model klasifikasi pada Support
Vector Machine yang didapatkan sudah baik untuk menyelesaikan
kasus klasifikasi resiko tingkat stroke. Selain itu, untuk mengetahui
kestabilan dalam klasifikasi digunakan uji Press’Q. Berdasarkan
hasil di atas nilai statistik uji Press’Q bernilai lebih dari ( )
sehingga disimpulkan bahwa klasifikasi yang dilakukan sudah
konsisten.
Tabel.4.25. Hasil Klasifikasi Support Vector Machine untuk data
training Data 2
Kategori Hasil Klasifikasi
Total APER Uji
Press’Q ( )
0 1
0 36 5 41
8% 52.92 3.841 1 1 33 34
Total 37 38 75
Berdasarkan Tabel 4.25 dapat dilihat bahwa terdapat 36
amatan yang tepat klasifikasi pada kategori 0 yaitu jenis tempat
belanja pasar modern, dan terdapat 5 amatan pada kategori 0 yang
salah klasifikasi. Selain itu terdapat sebanyak 33 amatan yang tepat
klasifikasi pada kategori 1 yaitu jenis tempat belanja pasar
tradisional, dan terdapat 1 amatan pada kategori 1 yang salah
klasifikasi. Nilai APER metode support vector machine pada Data 2
yaitu sebesar 8%, hal ini menunjukan model klasifikasi pada Support
Vector Machine yang didapatkan sudah baik untuk menyelesaikan
kasus klasifikasi tempat berbelanja masyarakat di wilayah taman
Sidoarjo. Selain itu, untuk mengetahui kestabilan dalam klasifikasi
digunakan uji Press’Q. Berdasarkan hasil di atas nilai statistik uji
49
Press’Q bernilai lebih dari ( ) sehingga disimpulkan bahwa
klasifikasi yang dilakukan sudah konsisten.
Tabel.4.26. Hasil Klasifikasi Support Vector Machine untuk data
training Data 3
Kategori Hasil Klasifikasi
Total APER Uji
Press’Q ( )
0 1
0 48 1 19
2.98% 59.238 3.841 1 1 17 18
Total 49 18 67
Berdasarkan Tabel 4.26 dapat dilihat bahwa terdapat 48
amatan yang tepat klasifikasi pada kategori 0 yaitu keputusan kredit
ditolak, dan terdapat 1 amatan pada kategori 0 yang salah klasifikasi.
Selain itu terdapat sebanyak 17 amatan yang tepat klasifikasi pada
kategori 1 yaitu keputusan kredit diterima, dan terdapat 1 amatan
pada kategori 1 yang salah klasifikasi. Nilai APER metode Support
Vector Machine pada Data 3 yaitu sebesar 2.98%, hal ini
menunjukan model klasifikasi pada Support Vector Machine yang
didapatkan sudah baik untuk menyelesaikan kasus klasifikasi
keputusan pemberian kredit. Selain itu, untuk mengetahui kestabilan
dalam klasifikasi digunakan uji Press’Q. Berdasarkan hasil diatas
nilai statistik uji Press’Q bernilai lebih dari ( ) sehingga
disimpulkan bahwa klasifikasi yang dilakukan sudah konsisten.
b. Ketepatan Klasifikasi Pada Data Testing
Model yang sudah didapatkan pada data training digunakan
untuk klasifikasi pada data testing. Pada hasil klasifikasi ini akan
diketahui seberapa besar ketepatan klasifikasi model yang
didapatkan. Berikut adalah hasil klasifikasi pada Support Vector
Machine selengkapnya dapat dilihat pada Lampiran 21:
Tabel.4.27. Hasil Klasifikasi Support Vector Machine untuk data
testing Data 1
Kategori Hasil Klasifikasi
Total APER Uji
Press’Q ( )
1 2 3
1 35 0 1 36
8% 77.44 3.841 2 1 8 1 10
3 0 1 3 4
Total 36 9 5 50
50
Berdasarkan Tabel 4.27 dapat dilihat bahwa terdapat 35
amatan yang tepat klasifikasi pada kategori 1 yaitu tingkat resiko
stroke normal, dan terdapat 1 amatan pada kategori 1 yang salah
klasifikasi. Terdapat sebanyak 8 amatan yang tepat klasifikasi pada
kategori 2 yaitu tingkat resiko stroke rentan, dan terdapat 2 amatan
yang salah klasifikasi pada kategori 2. Selain itu, terdapat 3 amatan
yang tepat klasifikasi pada kategori 3 yaitu tingkat resiko stroke
mengkhawatirkan, dan terdapat 1 amatan pada kategori 3 yang salah
klasifikasi Nilai APER metode Support Vector Machine pada Data 1
yaitu sebesar 8%, hal ini menunjukan model klasifikasi pada Support
Vector Machine yang didapatkan sudah baik untuk menyelesaikan
kasus klasifikasi resiko tingkat stroke. Selain itu, untuk mengetahui
kestabilan dalam klasifikasi digunakan uji Press’Q. Berdasarkan
hasil di atas nilai statistik uji Press’Q bernilai lebih dari ( )
sehingga disimpulkan bahwa klasifikasi yang dilakukan sudah
konsisten.
Tabel.4.28. Hasil Klasifikasi Support Vector Machine untuk data
testing Data 2
Kategori Hasil Klasifikasi
Total APER Uji
Press’Q ( )
0 1
0 9 2 11
12% 14.44 3.841 1 1 13 14
Total 10 15 25
Berdasarkan Tabel 4.28 dapat dilihat bahwa terdapat 9
amatan yang tepat klasifikasi pada kategori 0 yaitu jenis tempat
belanja pasar modern, dan terdapat 2 amatan pada kategori 0 yang
salah klasifikasi. Selain itu terdapat sebanyak 13 amatan yang tepat
klasifikasi pada kategori 1 yaitu jenis tempat belanja pasar
tradisional, dan terdapat 1 amatan pada kategori 1 yang salah
klasifikasi. Nilai APER metode support vector machine pada Data 2
yaitu sebesar 12%, hal ini menunjukan model klasifikasi pada
Support Vector Machine yang didapatkan sudah baik untuk
menyelesaikan kasus klasifikasi tempat berbelanja masyarakat di
wilayah taman Sidoarjo. Selain itu, untuk mengetahui kestabilan
dalam klasifikasi digunakan uji Press’Q. Berdasarkan hasil di atas
51
nilai statistik uji Press’Q bernilai lebih dari ( ) sehingga
disimpulkan bahwa klasifikasi yang dilakukan sudah konsisten.
Tabel.4.29. Hasil Klasifikasi Support Vector Machine untuk data
testing Data 3
Kategori Hasil Klasifikasi
Total APER Uji
Press’Q ( )
0 1
0 13 2 15
9.1% 14.727 3.841 1 0 7 7
Total 13 9 22
Berdasarkan Tabel 4.29 dapat dilihat bahwa terdapat 13
amatan yang tepat klasifikasi pada kategori 0 yaitu keputusan kredit
ditolak, dan terdapat 2 amatan pada kategori 0 yang salah klasifikasi.
Selain itu terdapat sebanyak 7 amatan yang tepat klasifikasi pada
kategori 1 yaitu keputusan kredit diterima, dan tidak terdapat
kesalahan klasifikasi pada kategori 1. Nilai APER metode Support
Vector Machine pada Data 3 yaitu sebesar 9.1%, hal ini menunjukan
model klasifikasi pada Support Vector Machine yang didapatkan
sudah baik untuk menyelesaikan kasus klasifikasi keputusan
pemberian kredit. Selain itu, untuk mengetahui kestabilan dalam
klasifikasi digunakan uji Press’Q. Berdasarkan hasil diatas nilai
statistik uji Press’Q bernilai lebih dari ( ) sehingga disimpulkan
bahwa klasifikasi yang dilakukan sudah konsisten.
4.3. Pembahasan
Akbar (2015) menerapkan metode Support Vector Machine
untuk menyelesaikan kasus klasifikasi tingkat stroke. Penelitian
tersebut menyimpulkan bahwa metode Support Vector Machine
memberikan akurasi yang baik, yaitu sebesar 89.39%. Pada
penelitian ini data tersebut diterapkan pada metode Analisis Regresi
Logistik dan Support Vector Machine dengan menggunakan kernel
yang berbeda yaitu kernel Radial Basis Function (RBF). Hasil dari
penelitian ini menunjukan bahwa ketika data tersebut diterapkan
menggunakan metode analisis Regresi Logistik memberikan nilai
APER sebesar 14% atau tingkat akurasi sebesar 86% dan nilai APER
Support Vector Machine 8% atau tingkat akurasi sebesar 92%.
Ketika data tingkat penyakit stroke ini diterapkan pada Analisis
52
Regresi Logistik hasil menunjukan bahwa Analisis Regresi Logistik
tidak mampu memprediksi respon kategori 2. Kemungkinan hal ini
disebabkan karena banyaknya amatan pada ketiga respon tidak
seimbang. Sebanyak total 40 amatan dengan respon kategori 2 terjadi
salah klasifikasi. Sedangkan metode Support Vector Machine mampu
memprediksi respon kategori 2 dengan baik. Hal ini merupakan salah
satu kelebihan dari metode Support Vector Machine dibandingkan
dengan metode lain, yaitu metode Support Vector Machine tidak
terlalu sensitif apabila diterapkan pada imbalance data sehingga
tetap memberikan hasil yang baik (Sembiring, 2007).
Pada tahun 2013, Maulidya membandingkan Analisis
Diskriminan dan Analisis Regresi Logistik untuk menyelesaikan
kasus klasifikasi tempat belanja masyarakat di Sidoarjo. Hasil
penelitian tersebut menyimpulkan bahwa Analisis Regresi Logistik
lebih baik daripada Analisis Diskriminan dengan akurasi sebesar
80%. Pada penelitian ini data tersebut diterapkan pada metode
Analisis Regresi Logistik dan Support Vector Machine. Hasil dari
penelitian ini menunjukan bahwa ketika data tersebut diterapkan
menggunakan metode analisis Regresi Logistik memberikan nilai
APER sebesar 16% atau tingkat akurasi sebesar 84% dan Support
Vector Machine nilai APER sebesar 12% atau tingkat akurasi sebesar
88%. Hal ini menunjukan bahwa metode Support Vector Machine
lebih baik dalam menyelesaikan klasifikasi daripada Regresi logistik
apabila diterapkan pada Data 2.
Utama (2011) melakukan penelitian untuk mengetahui faktor-
faktor yang mempengaruhi keputusan pemberian kredit usaha rakyat
Bank BRI cabang Malang. Pada penelitian tersebut menggunakan
Analisis Regresi untuk mengetahui kausalitas antar variabel. Pada
penelitian ini data tersebut diterapkan pada metode Analisis Regresi
Logistik dan Support Vector Machine. Hasil dari penelitian ini
menunjukan bahwa ketika data tersebut diterapkan menggunakan
metode analisis Regresi Logistik memberikan nilai APER pada data
testing sebesar 9.1% atau tingkat akurasi sebesar 90.9% dan Support
Vector Machine nilai APER sebesar 9.1% atau tingkat akurasi
sebesar 90.9%. Hal ini menunjukan bahwa metode Support Vector
Machine lebih baik dalam menyelesaikan klasifikasi daripada
Regresi logistik apabila diterapkan pada Data 3.
53
BAB V
KESIMPULAN DAN SARAN
1.1. Kesimpulan
Berdasarkan hasil di atas dapat diambil kesimpulan sebagai
berikut:
1. Model klasifikasi Analisis Regresi Logistik dan Support Vector
Machine yang terbentuk dapat dituliskan sebagai berikut:
Model Data Persamaan
Regresi
Logistik
Data 1
( ) ( ) ( )
( ) ( )
( ) ( ) ( )
( ) ( )
Data 2 ( )
Data 3 ( )
Support
Vector
Machine
Data 1
( ) ∑
( ‖ ‖ )
( ) ∑
( ‖ ‖ )
Data 2 ( ) ∑
( ‖ ‖ )
Data 3 ( ) ∑
( ‖ ‖ )
2. Berdasarkan uji Press’Q disimpulkan bahwa Analisis Regresi
Logistik dan Support Vector Machine telah konsisten dalam
menyelesaikan kasus klasifikasi pada ketiga data tersebut.
Selain itu nilai APER menggunakan Analisis Regresi Logistik
untuk Data 1 sebersar 14%, Data 2 sebesar 16%, dan Data 3
sebesar 9.1%. sedangkan nilai APER menggunakan Support
54
Vector Machine untuk Data 1 sebesar 8%, Data 2 sebesar 12%,
dan Data 3 sebesar 9.1%.
3. Secara keseluruhan dapat disimpulkan dalam menyelesaikan
masalah klasifikasi, metode Support Vector Machine lebih baik
daripada Analisis Regresi Logistik apabila diterapkan pada Data
1, Data 2 dan Data 3. Walaupun karakteristik data berbeda,
Support Vector Machine masih memberikan hasil yang baik.
Namun disisi lain Support Vector Machine tidak dapat
digunakan untuk mengetahui hubungan antar variabel
sebagaimana Analisis Regresi Logistik.
1.2. Saran
Pada penelitian ini Analisis regresi tidak mampu memprediksi
respon kategori 2 pada Data 1 dikarenakan banyak amatan pada
setiap kaegori variabel respon tidak seimbang, sehingga hasil yang
didapatkan tidak maksimal. Pada penelitian selanjutnya agar
memperhatikan banyak amatan pada setiap kategori variabel respon.
55
DAFTAR PUSTAKA
Agresti, A. 2002. Categorical Data Analysis. Second Edition.
Willey-Interscince. New Jersey.
Akbar, A.L. 2015. Implementasi Algoritma Support Vector Machine
Untuk Mengetahui Tingkat Resiko Stroke. Tugas Akhir
Fakultas Ilmu Komputer Universitas Brawijaya
Burges, C.J.C. 1998. A Tutorial on Support Vector Machines for
Pattern Recognition. Kluwer Academic. Boston.
Bishop, C.M. 2006. Pattern Recognition and Machine Learning.
Springer. Cambrige.
Cristianini, N. 2000. An Introduction to Support Vector Machines.
Cambrige University Press. Cambrige.
Gujarati, D.N. 2004. Basic Econometrics, Fourth Edition. The
McGraw-Hill Companies.
Hastie, T., Tibshirani, R dan Friedman, J. 2008. Elements of
Statistical Learning.Second Edition. Springer Science
Bussines Media. Stanford.
Hair, Jr. J.F., Black, W.C dan Babin, B.J. 2010. Multivariate Data
Analysis. Seventh Edition. Pearson Prentice Hall. America.
Hermawati, F.A. 2013. Data Mining. CV Andi Offset. Yogyakarta.
Hosmer, D.W dan Lemeshow, S. 2000. Applied Logistic
Regression.Second Edition. Willey-Interscince. Canada.
Hsu, C., Chang, C dan Lin, L. 2016. A Practical Guide to Support
Vector Classification. Departement of Computer Science.
http://ww.csie.ntu.edu.tw/~cjlin.
Johnson, R dan Wichern, D.W. 1998. Applied Multivariate
Statistical Analysis, Prentice-Hall, Englewood Cliffs, N.J
56
Maulidya. 2013. Perbandingan Analisis Diskriminan dan Regresi
Logistik. Jurnal Jurusan Matematika Universitas Negeri
Surabaya.
Michie, D., Spiegelhater, D.J dan Taylor, C.C. 1994. Machine
Learning, Neural, and Statistical Classification. Cambridge.
Novianti, F.A dan Purnami, S.W. 2012. Analisis Diagnosis Pasien
Kanker Payudara Menggunakan Regresi Logistik dan
Support Vector Machine Berdasarkan Hasil Mmografi.
Jurnal SAINS DAN SENI ITS.
Nugroho, A.S., Witarto, A.B dan Handoko, D. 2003. Support Vector
Machine Teori dan Aplikasinya Dalam Bioinformatika.
IlmuKomputer.com.
Octaviani, P.A., Wilandari, Y dan Ispriyanti, D. dkk. 2014.
Penerapan Metode Klasifikasi Support Vector Machine
(SVM) Pada Data Akreditasi Sekolah Dasar di Kabupaten
Magelang. Jurnal GAUSSIAN Universitas Diponegoro.
Prasetyo, E. 2012. Data Mining Konsep dan Aplikasinya
Menggunakan MATLAB. CV Andi Offset. Yogyakarta.
Rachman, F dan Purnami, S.W. 2012. Perbandingan Klasifikasi
Tingkat Keganasan Breast Cancer Dengan Menggunakan
Regresi Logistik Ordinal Dan Support Vector Machine
(SVM). Jurnal SAINS DAN SENI ITS.
Santosa, B. 2015. Tutorial Support Vector Machine. Teknik Industri
ITS.
Scholkopf, B dan Smola, A.J. 2002. Learning With Kernels. The
MTT Press Cambridge Massachussets. London.
Sembiring, K. 2007. Penerapan Teknik Support Vector Machine
untuk Pendeteksian Intrusi pada Jaringan. Jurnal Teknik
Informatika ITB.
57
Utama, M.P. 2012. Analisis Faktor-Faktor Yang Mempengaruhi
Keputusan Pemberian Kredit Usaha Rakyat. Tugas Akhir
Jurusan Ekonomi Universitas Brawijaya.
Vapnik, V.N. 1999. The Nature of Statistical Learning Theory.
Second Edition. Springer. New York.
Zulkifli, M.J.M. 2013. Pendekatan Regresi Logistik Multinomial
Pada Klasifikasi Pemilihan Jurusan Siswa SMA 5 Negeri
Malang. Tugas Akhir Jurusan Matematika Universitas
Brawijaya.
58