HALAMAN JUDUL KLASIFIKASI MENGGUNAKAN METODE REGRESI LOGISTIK …repository.ub.ac.id/3988/1/Deisi...

i

HALAMAN JUDUL

KLASIFIKASI MENGGUNAKAN METODE REGRESI

LOGISTIK DAN SUPPORT VECTOR MACHINE

SKRIPSI

Sebagai salah satu syarat untuk memperoleh gelar Sarjana Sains

dalam bidang Statistika

oleh :

Deisi Antika Ayungtyas

135090501111028

PROGRAM STUDI STATISTIKA

JURUSAN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS BRAWIJAYA

MALANG

2017

ii

LEMBAR PENGESAHAN SKRIPSI

KLASIFIKASI MENGGUNAKAN METODE REGRESI

LOGISTIK DAN SUPPORT VECTOR MACHINE

oleh :

DEISI ANTIKA AYUNGTYAS

135090501111028

Setelah dipertahankan di depan Majelis Penguji

pada tanggal 11 Juli 2017

dan dinyatakan memenuhi syarat untuk memperoleh gelar

Sarjana Sains dalam bidang Statistika

Dosen Pembimbing

Samingun Handoyo, S.Si., M.Cs.

NIP. 197304151998021002

Mengetahui,

Ketua Jurusan Matematika

Fakultas Matematika dan Ilmu Pengetahuan Alam

Universitas Brawijaya

Ratno Bagus Edy Wibowo, S.Si., M.Si., Ph.D.

NIP. 197509082000031003

iii

LEMBAR PERNYATAAN

Saya yang bertanda tangan di bawah ini:

Nama : Deisi Antika Ayungtyas

NIM : 135090501111028

Jurusan : Matematika

Program Studi : Statistika

Judul Skripsi : Klasifikasi Menggunakan Metode Regresi

Logistik dan Support Vector Machine

Dengan ini menyatakan bahwa:

1. Isi dari Skripsi yang saya buat adalah benar-benar karya

sendiri dan tidak menjiplak karya orang lain, selain nama-

nama yang termaktub di isi dan tertulis di daftar pustaka

dalam Skripsi ini.

2. Apabila dikemudian hari ternyata Skripsi yang saya tulis

terbukti hasil jiplakan, maka saya akan bersedia

menanggung segala resiko yang akan saya terima.

Demikian pernyataan ini dibuat dengan segala kesadaran.

Malang, 11 Juli 2017

Yang menyatakan,

Deisi Antika Ayungtyas

135090501111028

iv

KLASIFIKASI MENGGUNAKAN REGRESI LOGISTIK DAN

SUPPORT VECTOR MACHINE

ABSTRAK

Klasifikasi merupakan suatu teknik yang digunakan untuk

mengetahui atau memperkirakan kelas dari suatu objek berdasarkan

atribut yang ada. Klasifikasi dapat diselesaikan menggunakan

metode statistika dan machine learning. Salah satu metode statistika

klasik yang biasa digunakan untuk menyelesaikan masalah

klasifikasi yaitu Analisis Regresi Logistik. Regresi logistik

merupakan model statistika yang digunakan untuk mengetahui ada

tidaknya hubungan antara dua variabel atau lebih, di mana variabel

respon bersifat kategorik dan variabel prediktor bersifat kategori atau

numerik. Support Vector Machine (SVM) merupakan metode

learning machine yang bekerja atas prinsip Structural Risk

Minimization (SRM) yang bertujuan membuat hyperlane terbaik

yang memisahkan dua kelas. Tujuan dari penelitian ini adalah

mengetahui metode yang lebih baik antara metode Regresi Logistik

dan Support Vector Machine berdasarkan nilai APER (Apparent

Error Rate) dan uji Press’Q. Data yang digunakan adalah Data 1

yaitu data tingkat penyakit stroke, Data 2 yaitu data klasifikasi

pemilihan tempat berbelanja masyarakat di Sidoarjo, dan Data 3

yaitu Data debitur kredit usaha rakyat Bank BRI Malang.

Berdasarkan hasil analisis regresi logistik dan Support Vector

Machine yang diterapkan pada ketiga data tersebut didapatkan nilai

APER untuk analisis regresi logistik masing - masing data yaitu Data

1 sebesar 14%, Data 2 sebesar 16%, dan Data 3 sebesar 9.1%. Nilai

APER untuk Support Vector Machine masing-masing data yaitu

Data 1 sebesar 8%, Data 2 sebesar 12%, dan Data 3 sebesar 9.1%.

Sedangkan hasil uji Press’Q menunjukan bahwa hasil klasifikasi

menggunakan analisis regresi logistik dan Support Vector Machine

telah konsisten. Secara keseluruhan dapat disimpulkan bahwa

metode Support Vector Machine lebih baik daripada Analisis Regresi

Logistik. Walaupun kedua metode diterapkan pada karakteristik data

yang berbeda Support Vector Machine masih memberikan hasil

yang baik.

Kata Kunci: Analisis Regresi Logistik, Support Vector Machine,

APER, Uji Press’Q.

v

CLASSIFICATION USING LOGISTIC REGRESSION AND

SUPPORT VECTOR MACHINE

ABSTRACT

Classification is a technique that used to determine or estimate the

class of an object based on an existing attribute. Classification

problem can be solved using statistics method and machine learning.

One of a calassic statistics method that can be used to solve

classification problem is Logistic Regression Analysis. Logistic

regression is statistical technique that used to determine whether a

relation or not between two variable or more, which response

variable is categorycal and predictor variables is numericaly word.

Support Vector Machine (SVM) is learning machine method that

works based on the principle Structural Risk Minimization (SRM)

which intended to make best hyperlane that separates two classes of

input. The purpose of this research is to determine the best method

between Logistic Regression and Support Vector Machine based on

APER (Apparent Error Rate) values and Press ‘Q test. The data used

are Data 1st : stroke disease levels, Data 2

nd : classification

communities shopping site selection in Sidoarjo, Data 3rd

: business

credit debitur in Bank BRI Malang. According to the Logistic

Regression and Support Vector Mechine results that applied to the

those third data, obtained APER values from Logistic regression

analysis are Data 1st 14%, Data 2

nd 16%, and Data 3

rd 9.1%. Obtained

APER values from Support Vector Machine are Data 1st 8%, Data 2

nd

12%, and Data 3rd

9.1%. Subsequently for Press’Q test result shows

that classification using logistic regression analysis and support

vector machine has been consistent. Overall can be conluded that

Support Vector Machine method is better than Logistic Regression

Analysis. Even though there are different data characteristics,

Support Vector Machine still provide excellent performance.

Keywords : Logistic Regression Analysis, Support Vector Machine,

APER, Press „Q test.

vi

KATA PENGANTAR

Puji syukur kepada Allah SWT atas segala rahmat dan

karunia-Nya sehingga tugas akhir dengan judul “Klasifikasi

Menggunakan Metode Regresi Logistik dan Support Vector

Machine” dapat diselesaikan dengan baik.

Penulis mengucapkan terima kasih kepada pihak-pihak yang

telah membantu selama pengerjaan tugas akhir baik secara langsung

maupun tidak langsung :

1. Kepada Bapak Samingun Handoyo, S.Si., M.Cs. Selaku

dosen pembimbing skripsi yang senantiasa memberikan

waktu, saran dan bimbingan dalam menyelesaikan tugas

akhir ini

2. Kepada Bapak Achmad Efendi, S.Si, M.Sc, Ph.D. selaku

dosen penguji I dan kepada Ibu Dr. Umu Sa‟adah, M.Si.

selaku dosen penguji II yang telah memberikan saran dan

bimbingan dalam menyelesaikan tugas akhir ini.

3. Kepada Ibu Rahma Fitriani, S.Si, M.Sc, Ph.D. selaku ketua

Program Studi Statistika FMIPA Universitas Brawijaya

4. Kepada Bapak Ratno Bagus Edy Wibowo, S.Si, M.Si, Ph.D.

selaku Ketua Jurusan Matematika.

5. Seluruh jajaran dosen, staf dan karyawan Jurusan

Matematika FMIPA Universitas Brawijaya atas ilmu dan

bantuannya.

6. Bapak, Ibuk dan Keluarga yang senantiasa mendukung dan

berdoa untuk kelancaran Tugas Akhir ini.

7. Muhammad Mawardiansah yang selalu memberi semangat,

motivasi dan dukungan.

8. Teman seperjuangan Yanti, Rizki, Bella, Nia, Eff, Tata,

Husna, Anton dan Rara, yang selalu membantu dan memberi

semangat dalam pengerjaan tugas akhir.

9. Teman statistika angkatan 2013 dan kepada semua pihak

yang telah membantu sehingga tugas akhir ini dapat

terselesaikan dengan baik.

vii

Penulis menyadari bahwa tugas akhir ini masih jauh dari

sempurna. Oleh karena itu saran dan kritik sangat penulis

harapkan untuk kesempurnaan tugas akhir ini. Akhir kata, Penulis

berharap semoga tulisan ini dapat memberikan manfaat kepada

semua pihak yang memerlukannya.

Malang, Juli 2017

Penulis

viii

DAFTAR ISI

Halaman

HALAMAN JUDUL.......................................................................... i

LEMBAR PENGESAHAN SKRIPSI ............................................ ii

LEMBAR PERNYATAAN ........................................................... iii

ABSTRAK ........................................................................................ iv

ABSTRACT ...................................................................................... v

KATA PENGANTAR ..................................................................... vi

DAFTAR ISI ................................................................................. viii

DAFTAR GAMBAR ........................................................................ x

DAFTAR TABEL ............................................................................ xi

DAFTAR LAMPIRAN ................................................................. xii

BAB I PENDAHULUAN

1.1. Latar Belakang .................................................................. 1

1.2. Rumusan Masalah ............................................................. 2

1.3. Tujuan Penelitian .............................................................. 2

1.4. Manfaat Penelitian ............................................................ 3

1.5. Batasan Masalah ............................................................... 3

BAB II TINJAUAN PUSTAKA 2.1 Klasifikasi .......................................................................... 5

2.2 Analisis Regresi Logistik … .............................................. 6

2.2.1 Asumsi Multikolinieritas .......................................... 8

2.2.2 Pendugaan Parameter Regresi Logistik .................... 8

2.2.3 Pengujian Signifikansi Parameter ........................... 11

2.2.4 Uji Kesesuaian Model ............................................. 12

2.2.5 Klasifikasi Pada Regresi Logistik ........................... 13

2.3 Support Vector Machine .................................................. 14

2.3.1 Support Vector Classification ................................. 14

2.3.2 Kernel ...................................................................... 19

2.3.3 K-Fold Cross Validation ......................................... 21

2.3.4 Normalisasi ............................................................. 21

2.4 Tingkat Ketepatan Klasifikasi .......................................... 21

BAB III METODE PENELITIAN

3.1 Sumber Data ..................................................................... 23

3.2 Prosedur Analisis ............................................................. 26

3.3 Diagram Alir Penelitian ................................................... 27

ix

BAB VI HASIL DAN PEMBAHASAN 4.1 Hasil Analisis Regresi Logistik ....................................... .33

4.1.1 Pendeteksian Multikolinieritas ............................... .33

4.1.2 Hasil Pendugaan Parameter .................................... 34

4.1.3 Uji Signifikansi Parameter ...................................... 36

4.1.4 Model dengan Variabel yang Signifikan ............... 39

4.1.5 Uji Kesesuaian Model ............................................. 40

4.1.6 Ketepatan Klasifikasi Regresi Logistik................... 41

4.2 Support Vector Machine… ............................................. 45

4.2.1 Proses Training ....................................................... 45

4.2.2 Proses Testing dan Ketepatan Klasifikasi ............... 47

4.3 Pembahasan ...................................................................... 51

BAB V KESIMPULAN DAN SARAN 5.1 Kesimpuan ....................................................................... 53

5.2 Saran…............................................................................. 54

DAFTAR PUSTAKA ..................................................................... 55

LAMPIRAN .................................................................................... 59

x

DAFTAR GAMBAR

Halaman

Gambar 2.1 Support Vector Classifier ............................................. 15

Gambar 2.2 Margin Optimal ............................................................ 16

Gambar 2.3 Transformasi input space ke feature space .................. 20

Gambar 3.1 Diagram Alir Penelitian ............................................... 28

Gambar 3.2 Diagram Alir Analisis Regresi Logistik ....................... 30

Gambar 3.3 Diagram Alir Metode Support Vector Machine ........... 31

xi

DAFTAR TABEL

Halaman

Tabel 2.1 Fungsi Kernel ...................................................................... 20

Tabel 2.2 Tabel Perhitungan Nilai APER ........................................... 22

Tabel 4.1 Nilai VIF Data 1 ................................................................ 33

Tabel 4.2 Nilai VIF Data 2 .................................................................. 33

Tabel 4.3 Nilai VIF Data 3 .................................................................. 34

Tabel 4.4 Hasil Nilai Duga Parameter Data 1 ..................................... 34

Tabel 4.5 Hasil Nilai Duga Parameter Data 2 ..................................... 35

Tabel 4.6 Hasil Nilai Duga Parameter Data 3 .................................... 35

Tabel 4.7 Uji Signifikansi Parameter Simultan Setiap Data ............... 36

Tabel 4.8 Nilai Duga Parameter dan Uji Parsial Data 1 ...................... 37

Tabel 4.9 Nilai Duga Parameter dan Uji Parsial Data 2 ..................... 38

Tabel 4.10 Nilai Duga Parameter dan Uji Parsial Data 3 ...................... 38

Tabel 4.11 Model Regresi Logistik Variabel Signifikan Data 1 .......... 39



Tabel 4.14 Uji Kesesuaian Model untuk Setiap Data ............................ 40

Tabel 4.15 Ketepatan Klasifikasi Data Training Data 1 ....................... 41



Tabel 4.18 Ketepatan Klasifikasi Data Testing Data 1 .......................... 43

Tabel 4.19 Ketepatan Klasifikasi Data Testing Data 2 .......................... 44

Tabel 4.20 Ketepatan Klasifikasi Data Testing Data 3 ........................ 44

Tabel 4.21 Rentang Nilai Parameter Fungsi Kernel .............................. 46

Tabel 4.22 Parameter Terbaik Fungsi Kernel ........................................ 46

Tabel 4.23 Nilai Duga b Masing-masing Data ...................................... 46

Tabel 4.24 Ketepatan Klasifikasi SVM Data Training Data 1 .............. 47

Tabel 4.25 Ketepatan Klasifikasi SVM Data Training Data 2 ............. 48

Tabel 4.26 Ketepatan Klasifikasi SVM Data Training Data 3 .............. 49

Tabel 4.27 Ketepatan Klasifikasi SVM Data Testing Data 1 ................ 49



xii

DAFTAR LAMPIRAN

Halaman

Lampiran 1. Data 1 ........................................................................ 59

Lampiran 2. Data 2 ......................................................................... 60

Lampiran 3. Data 3 ........................................................................ 61

Lampiran 4. Source Code Analisis Regresi Logistik Data 1 .......... 62



Lampiran 7. Source Code Support Vector Machine Data 1 ........... 70



Lampiran 10. Output Analisis Regresi Logistik Model Penuh

untuk Data 1 .............................................................. 73


untuk Data 2 .............................................................. 73


untuk Data 3 .............................................................. 73

Lampiran 13. Output Analisis Regresi Logistik Model dengan

Variabel yang Signifikan untuk Data 1 ..................... 74





Lampiran 16. Nilai Duga Parameter Kernel Radial Basis

Function untuk Data 1 .............................................. 75


Function untuk Data 2 ............................................... 75


Function untuk Data 3 ............................................... 76

Lampiran 19. Nilai Lagrange Multiplier masing-masing Data ........ 77

Lampiran 20. Hasil Klasifikasi Analisis Regresi Logistik ............... 80

Lampiran 21. Hasil Klasifikasi Support Vector Machine ................ 81

Lampiran 22. Perhitungan Manual Support Vector Machine ........... 82

1

BAB I

PENDAHULUAN

1.1. Latar Belakang

Klasifikasi merupakan suatu teknik yang digunakan untuk

mengetahui atau memperkirakan kelas dari suatu objek berdasarkan

atribut yang ada. Klasifikasi ini dapat diterapkan pada beberapa

bidang antara lain: bidang kesehatan, perbankan, industri bahkan

perdagangan. Di beberapa bidang, klasifikasi digunakan sebagai alat

untuk pengambilan keputusan pada masalah yang kompleks dan data

yang besar. Adapun beberapa metode yang biasa digunakan untuk

menyelesaikan kasus klasifikasi adalah Naïve Bayes, Decision Tree

based Methods, Rule-based Methods, Support Vector Machine,

Neural Network dan K-Nearest Neighbor (KNN). Pada pemodelan

klasifikasi diperlukan model terbaik yang dapat digunakan untuk

memprediksi data sehingga sesuai dengan kelompok target. Nilai

APER (Apparent Error Rate) yang rendah dapat dijadikan salah satu

pertimbangan dalam pemilihan model terbaik. Kasus klasifikasi

dapat diselesaikan menggunakan metode statistika dan machine

learning. Salah satu metode statistika klasik yang biasa digunakan

untuk menyelesaikan masalah klasifikasi yaitu Analisis Regresi

Logistik.

Regresi logistik merupakan teknik statistika yang digunakan

untuk mengetahui ada tidaknya hubungan antara dua variabel atau

lebih, di mana variabel respon bersifat kategorik dan variabel

prediktor bersifat kategorik atau numerik. Selain itu, dalam

penerapannya model regresi logistik dapat digunakan untuk

menyelesaikan masalah klasifikasi. Menurut Maulidya (2013),

analisis regresi logistik lebih baik daripada analisis diskriminan

dalam menyelesaikan masalah klasifikasi konsumen berdasarkan

tempat berbelanja di Sidoarjo. Menurut penelitian yang dilakukan

Zulkifli (2014) mengenai klasifikasi pemilihan jurusan siswa

berdasarkan nilai ketuntasan dan minat siswa di SMA Negeri 5

Malang, analisis regresi logistik memiliki ketepatan klasifikasi yang

baik yakni sebesar 95,4%. Selain menggunakan metode statistika,

kasus klasifikasi dapat diselesaikan menggunakan machine learning.

Berdeda dengan machine learning, model regresi logistik dapat

digunakan untuk mengetahui hubungan antar variabel respon

sekaligus dapat digunakan untuk klasifikasi. Salah satu metode

2

machine learning yang digunakan untuk menyelesaikan kasus

klasifikasi yaitu Support Vector Machine.

Support Vector Machine (SVM) merupakan metode machine

learning yang bekerja atas prinsip Structural Risk Minimization

(SRM) yang bertujuan membuat hyperlane terbaik yang memisahkan

dua kelas pada input. Support Vector Machine merupakan algoritma

mesin pembelajaran yang saat ini cukup banyak dikembangkan.

SVM memiliki prinsip dasar klasifikasi secara linier dapat

dipisahkan, namun pada perkembangannya SVM dirancang agar

dapat bekerja pada masalah non-linier dengan memasukan konsep

kernel pada ruang berdimensi tinggi yang akan ditentukan

hyperplane yang dapat memaksimalkan jarak (margin) antar kelas

data. Nugroho (2003) menjelaskan bahwa SVM merupakan metode

yang tepat untuk menyelesaikan masalah berdimensi tinggi dengan

keterbatasan sampel data yang ada, pendekatan prinsip SRM pada

SVM akan memberikan kesalahan generalisasi yang lebih kecil.

Pada penelitian yang dilakukan Burges (1998) menyimpulkan

bahwa SVM memiliki tingkat akurasi yang lebih baik daripada

metode klasifikasi Naïve Bayes, C.45, dan KNN. Menurut penelitian

Akbar (2015) mengenai pendeteksian penyakit stroke menggunakan

metode Support Vector Machine didapatkan nilai akurasi yang baik

yaitu sebesar 89.39%.

Berdasarkan uraian tersebut, penelitian ini akan

membandingkan metode klasifikasi terbaik antara Analisis Regresi

Logistik dengan metode Support Vector Machine berdasarkan nilai

APER (Apparent Error Rate) dan uji Press’Q.

1.2. Rumusan Masalah

Berdasarkan latar belakang di atas maka rumusan masalah pada

penelitian ini adalah sebagai berikut:

1. Bagaimana model klasifikasi menggunakan metode Regresi

Logistik dan Support Vector Machine?

2. Metode mana yang lebih baik antara menggunakan metode

Regresi Logistik dan Support Vector Machine untuk

menyelesaikan masalah klasifikasi berdasarkan nilai APER

(Apparent Error Rate) dan uji Press’Q?

1.3. Tujuan

Berdasarkan rumusan masalah, maka tujuan yang ingin dicapai

dalam penelitian ini adalah sebagai berikut:

3

1. Membentuk model klasifikasi pada metode Regresi Logistik dan

Support Vector Machine.

2. Mengetahui metode yang lebih baik antara metode Regresi

Logistik dan Support Vector Machine untuk klasifikasi

berdasarkan nilai APER (Apparent Error Rate) dan uji Press’Q.

1.4. Manfaat

Hasil penelitian ini diharapkan dapat memberikan informasi

metode yang lebih baik untuk klasifikasi. Selain itu hasil penelitian

ini diharapkan dapat menambah pengetahuan pengguna terhadap

kegunaan metode Support Vector Machine dan Regresi Logistik

untuk klasifikasi.

1.5. Batasan Masalah

Batasan masalah pada penelitian ini adalah sebagai berikut:

1. Metode kernel yang digunakan untuk menyelesaikan masalah

klasifikasi adalah kernel Radial Basis Function.

2. Nilai APER (Apparent Error Rate) dan uji Press’Q digunakan

sebagai indikator pemilihan metode yang lebih baik.

5

BAB II

TINJAUAN PUSTAKA

1.1. Klasifikasi

Data mining didefinisikan sebagai proses yang dilakukan

untuk mendapatkan informasi dari data yang dapat berguna untuk

pengambilan keputusan. Terdapat beberapa bidang ilmu yang

termasuk dalam data mining dua diantaranya yaitu: machine learning

dan statistika (Hermawati, 2013). Pada penerapannya analisis

statistika digunakan untuk mendapatkan model statistika. Secara

umum model statistika ini digunakan untuk menjelaskan hubungan

suatu sistem, meramalkan keadaan pada periode mendatang, dan

untuk klasifikasi objek. Klasifikasi merupakan suatu teknik yang

digunakan untuk mengetahui atau memperkirakan kelas dari suatu

objek berdasarkan atribut yang ada. Atribut adalah sifat atau

karakteristik dari suatu objek yang nilainya bermacam-macam,

misalkan warna kulit, hobi dan lain sebagainya. Sedangkan definisi

variabel adalah karakteristik suatu objek yang nilainya unik, misal

tinggi badan berat badan dan lainnya. Atribut memiliki arti yang

lebih luas daripada variabel sehingga apabila suatu metode mengolah

data berdasarkan variabel maka hasilnya dapat merepresentasikan

atributnya (Prasetyo, 2012). Masalah klasifikasi dapat diselesaikan

dengan statistika. Pada pendekatan statistika, umumnya ditandai

dengan memiliki model probabilitas yang menyediakan probabilitas

suatu objek berada di masing-masing kelas. Teknik statistika klasik

yang biasa digunakan untuk menyelesaikan masalah klasifikasi

adalah analisis diskriminan dan analisis regresi logistik (Michie dkk,

1994).

Machine Learning merupakan sebuah ilmu pembelajaran yang

memfokuskan pada algoritma komputer yang dapat memperbaiki

dirinya sendiri secara otomatis melalui pengalaman. Metode ini

dibedakan menjadi Supervised Learning (pembelajaran terawasi) dan

Unsupervised Learning (pembelajaran tidak terawasi).

Supervised Learning adalah suatu metode pembelajaran yang

memiliki data input dan output yang telah diketahui sebelumnya.

Unsupervised Learning adalah metode pembelajaran yang tidak

memerlukan target output. Tujuan pembelajaran Supervised

Learning adalah untuk membangun model yang menghasilkan output

6

(label) yang sesuai dengan data input, metode Rule-based Methods,

Support Vector Machine, dan Decision Tree based Methods

merupakan metode yang termasuk dalam pembelajaran Supervised

Learning. Sedangkan tujuan pembelajaran Unsupervised Learning

adalah untuk mengelompokan data berdasarkan kemiripan variabel-

variabel, yang termasuk dalam metode pembelajaran ini adalah

Clustering (Scholkopf dan Smola, 2002).

2.2. Analisis Regresi Logistik

Analisis Regresi adalah suatu teknik statistika yang digunakan

untuk mengetahui hubungan antara dua variabel atau lebih. Analisis

regresi logistik merupakan salah satu jenis analisis regresi dimana

variabel respon bersifat kategorik dan variabel prediktor bersifat

kategorik atau numerik. Apabila variabel respon terdiri dari dua

kategorik disebut regresi logistik biner, yaitu variabel respon yang

terdiri dari dua kategori yaitu bernilai 1 jika kejadian sukses dan

bernilai 0 jika kejadian gagal. Sedangkan apabila variabel respon

terdiri dari lebih dari dua kategori dan kategori tersebut merupakan

tingkatan disebut regresi logistik ordinal. Model peluang antara

variabel prediktor X1i,X2i,…, Xpi dengan variabel respon (π) adalah

sebagai berikut (Hosmer dan Lemeshow, 2000):

( ) ( )

( ) (2.1)

di mana:

( ) : peluang terjadinya kategori variabel respon

: variabel prediktor ke-j

: banyaknya variabel prediktor

: intersep

: koefisien regresi untuk setiap variabel prediktor

:1,2,…,n

Untuk mempermudah interpretasi dan pendugaan parameter,

peluang pada persamaan diatas dilakukan transformasi logit

sehingga didapatkan fungsi logit sebagai berikut:

( ) = logit ( ) . ( )

( )/,

Jika

7

( ) ( )

( )

( ) ( ( )

( ))

(

(

(

(

( )

( ( )

( ) ∑

(2.2)

Regresi logistik ordinal merupakan salah satu metode yang

digunakan untuk mengetahui hubungan variabel prediktor dan

variabel respon di mana variabel respon terdiri dari lebih dari dua

kategori berskala ordinal atau tingkatan. Pada regresi ordinal model

logit yang digunakan adalah model logit kumulatif. Peluang

kumulatif regresi logistik ordinal kategori ke-r adalah sebagai

berikut:

( | ) ( ∑

)

( ∑ )

Persamaan di atas dilakukan transformasi logit sehingga

didapatkan fungsi logit sebagai berikut:

( ( | )) ( ( | )

( | ))

Kemudian didapatkan persamaan sebagai berikut:

( ( | )) ∑

8

Karena model regresi logistik ordinal menggunakan peluang

kumulatif, maka model peluang untuk masing-masing kategori dapat

dituliskan sebagai berikut:

( | ) ( | ) ( ( )| )

( | ) ( ) ( ∑

)

( ∑ )

( | ) ( ) ( ∑

)

. ∑ /

( ∑

)

( ∑ )

( | ) ( ) ( ∑

)

( ∑ )

2.2.1. Asumsi Multikolinieritas

Multikolinieritas merupakan adanya korelasi pada beberapa

atau semua variabel prediktor. Menurut Hosmer dan Lemeshow

(2000), model regresi logistik juga sensitif dengan adanya

kolinieritas seperti pada regresi linier. Kolinieritas yang tinggi

mengindikasikan adanya ketergantungan yang tinggi antara dua atau

lebih variabel prediktor.

Gujarati (2004), menjelaskan bahwa multikolinieritas dapat

diketahui dengan melihat nilai Variance Inflation Factor (VIF). Nilai

VIF dapat dihitung dengan formula sebagai berikut :

(2.3)

Di mana merupakan koefisien determinasi dari auxiilary

regression. Nilai berbanding lurus dengan VIF, semakin besar

nilai maka semakin besar nilai VIF. Jika nilai VIF bernilai lebih

dari 10, maka sudah dipastikan bahwa pada data tersebut terdapat

multikolinieritas.

2.2.2. Pendugaan Parameter Regresi Logistik

Metode yang digunakan untuk menduga parameter pada

regresi logistik adalah metode Maximum Likelihood (MLE). Metode

ini menduga β dengan memaksimumkan fungsi likelihood (Novianti

dan Purnami, 2012). Fungsi likelihood bagi model regresi logistik

biner adalah sebagai berikut:

9

( ) ∏ ( | ) ∏ ( ) ( ( ))

(2.4)

Memaksimalkan nilai log likelihood sebagai berikut:

( ) = ln(∏ ( ) ( ( ))

)

= ( ( )∑

( ( ))

∑

= ∑[ ( ( )) (

) ( ( ))]

= ∑[ ( ( )) ( ( )) ( ( ))]

= ∑( (

( )

( )) ( ( )))

( ) = ∑

( ∑

) ∑ ( ( ∑

))

Agar persamaan di atas mencapai maksimum maka turunan parsial

pertama terhadap disama dengankan nol (Agresti, 2002).

( )

= ∑

( ∑

) ∑ ( ( ∑

))

0 = ∑ ( )

( )

= ∑

( ∑

) ∑ ( ( ∑

))

0 = ∑

∑ ( )

(2.5)

Hasil turunan parsial pertama pada persamaan 2.5 di atas

merupakan persamaan non linier. Untuk mendapatkan penduga

parameter β maka persamaan tersebut perlu diselesaikan

menggunakan metode numerik. Salah satu metode numerik yang

biasa digunakan adalah iterasi Newton Raphson.

10

Dikarenakan variabel respon pada regresi logistik ordinal

terdiri dari lebih dari dua kategori, maka regresi logistik ordinal

memiliki variabel respon yang berdistribusi secara multinomial.

Bentuk umum fungsi likelihood variabel respon yang berdistribusi

multinomial adalah sebagai berikut:

( ) ∏[ ( ) ( )

( ) ( ) ]

(2.6)

Jika diasumsikan pada variabel respon terdapat tiga

kategori yaitu 1,2,3 maka bentuk persamaaan fungsi log likelihood

dapat dituliskan sebagai berikut:

( ) ∏, ( ) ( )

( ) -

∑ ( ( )) ( ( )) ( ( ))

∑ ( ( ∑

)

( ∑ )

)

( ( ∑

)

. ∑ /

( ∑

)

( ∑ )

)

( ( ∑

)

( ∑ )

)

Agar persamaan di atas mencapai maksimum maka turunan

parsial pertama terhadap parameter model regresi logistik ordinal

disama dengankan nol (Agresti, 2002).

( )

∑* ( .

∑

/

.

∑

/

) ( )

( ( )

( )

( ∑ )

( ∑ )

)]

( )

11

∑*( )( ( )

( )

. ∑ /

. ∑ /

)

( )( . ∑

/

. ∑ /

)+

( )

∑* (

.

∑

/

.

∑

/

) ( )

( . ∑

/

. ∑ /

. ∑

/

. ∑ /

)

( ) ( . ∑

/

. ∑ /

)+

(2.7)

Persamaan 2.7 merupakan persamaan non linier sehingga

untuk mendapatkan penduga parameter β maka persamaan tersebut

perlu diselesaikan menggunakan metode numerik. Adapun metode

numerik yang biasa digunakan adalah iterasi Newton Raphson untuk

menyelesaikan masalah non linier.

2.2.3. Pengujian Signifikansi Parameter

Pengujian signifikansi parameter pada model dilakukan untuk

mengetahui variabel prediktor yang berpengaruh secara nyata

terhadap variabel respon. Terdapat dua pengujian signifikansi

parameter yaitu pengujian secara simultan dan parsial.

a. Uji Simultan

Uji simultan dilakukan untuk mengetahui pengaruh variabel

prediktor terhadap variabel respon secara serempak atau bersama-

sama. Uji simultan ini menggunakan statistik uji G (Hosmer dan

Lemeshow, 2000). Hipotesis yang melandasi uji signifikansi

parameter secara simultan adalah sebagai berikut:

H0:

H1: minimal terdapat satu yang tidak sama dengan nol

12

Berikut adalah formula statistik uji G :

(

)

(.

/

.

/

∏ ( ) ( ( ))

) ( ) (2.8)

Di mana:

: penduga Likelihood tanpa variabel prediktor

: penduga Likelihood dengan variabel prediktor

: banyaknya pengamatan dengan Y bernilai 1

: banyaknya pengamatan dengan Y bernilai 0

Statistik uji G mengikuti sebaran dengan derajat bebas p , di

mana p merupakan banyaknya variabel prediktor. H0 akan ditolak

jika nilai G ≥ ( ) .

b. Uji Parsial

Uji parsial dilakukan untuk mengetahui pengaruh setiap

variabel prediktor terhadap variabel respon yang dilakukan

menggunakan uji Wald. Hipotesis yang melandasi adalah sebagai

berikut:

H0:

H1:

Berikut adalah rumus statistik uji Wald

( ) ( ) (2.9)

: penduga bagi

( ) : salah baku bagi penduga

Statistik uji Wald mengikuti sebaran normal. H0 akan ditolak

apabila nilai

⁄

2.2.4. Uji Kesesuaian Model

Uji kesesuaian model digunakan untuk mengetahui apakah

model yang dihasilkan sudah sesuai, artinya bahwa model yang

dihasilkan mampu memberikan gambaran tentang data. Statistik uji

13

yang digunakan untuk uji kesesuaian model adalah uji Pearson.

Hipotesis yang mendasari adalah sebagai berikut:

H0: Model sesuai

H1: Model tidak sesuai

Berikut adalah statistik uji Pearson

∑ ( )

( )

∑(

√ ( ))

( )

(2.10)

di mana:

: variabel respon pada pengamatan ke-i

: total pengamatan ke-i

: peluang variabel respon untuk pengamatan ke-i

Model dikatakan sesuai apabila statistik uji bernilai

kurang dari ( ) .

2.2.5. Klasifikasi pada Regresi Logistik

Regresi logistik merupakan salah satu metode statistika klasik

yang digunakan untuk menyelesaikan masalah klasifikasi. Pada

pendekatan menggunakan regresi logistik, untuk memprediksi kelas

dilakukan dengan cara menghitung probabilitas. Klasifikasi yang

berasal dari variabel respon biner dilakukan dengan cara menentukan

nilai titik potong. Titik potong yang dapat digunakan sebesar 0.5.

Klasifikasi berdasarkan pada pendekatan analisis regresi logistik

dengan menggunakan model peluang dengan ketentuan sebagai

berikut:

{ ( )

( )

Apabila peluang yang dihasilkan dari model bernilai lebih

kecil dari 0.5 maka hasil prediksi adalah kategori 0, sedangkan

peluang yang dihasilkan dari model bernilai lebih besar atau sama

dengan 0.5 maka hasil prediksi adalah kategori 1. Menurut Bishop

(2006), seperti pada masalah klasifikasi biner, pada kasus klasifikasi

multilevel (variabel respon lebih dari dua) dilakukan dengan cara

menghitung peluang setiap kategori sehingga penentuan nilai

14

parameter pada model regresi logistik merupakan hal yang penting.

karena berhubungan dengan probabilitas yang didapatkan.

Pada kasus multilevel, penentuan prediksi kategori atau kelas

didasarkan pada besarnya nilai peluang. Penentuan kategori

didasarkan pada nilai terbesar peluang tiap kategori. Apabila kategori

1 memiliki nilai peluang paling besar diantara dua kategori lainnya

maka prediksi kelas adalah kategori 1, begitu seterusnya.

2.3. Support Vector Machine

Support Vector Machine (SVM) pertama kali diperkenalkan

oleh Vapnik, Boser dan Guyon pada tahun 1992 pada seminar

Annual Workshop on Computational Learning Theory.

SVM merupakan suatu sistem pembelajaran yang

menggunakan fungsi-fungsi linier dalam sebuah ruang berdimensi

tinggi (feature space) dan dilatih dengan algoritma didasarkan pada

teori optimasi (Christianini, 2000). SVM bekerja atas prinsip

Structural Risk Minimization yang bertujuan membuat hyperlane

terbaik yang memisahkan dua kelas pada input. SVM memiliki

prinsip dasar klasifikasi secara linier dapat dipisahkan, namun pada

perkembangannya, SVM dirancang agar dapat bekerja pada masalah

non-linier dengan memasukan konsep kernel pada ruang berdimensi

tinggi yang akan ditentukan hyperplane yang dapat memaksimalkan

jarak (margin) antar kelas data (Nugroho, 2003).

2.3.1. Support Vector Classification

Menurut Hastie,dkk (2008), SVM adalah suatu teknik untuk

melakukan prediksi baik dalam kasus klasifikasi maupun regresi.

Teknik ini berusaha untuk menemukan fungsi pemisah (hyperlane)

yang optimal yang dapat memisahkan data set dari dua kelas yang

berbeda. Fungsi pemisah didefinisikan sebagai berikut:

( ) (2.11)

Di mana merupakan vektor bobot dan adalah bias.

Hyperlane adalah pemisah linier yang membagi ruang menjadi dua

bagian yang dapat memisahkan data dengan memaksimalkan margin.

15

Gambar.2.1. Support Vector Classifier (Sembiring, 2007).

Berdasarkan Gambar 2.1 menjelaskan bahwa pada kasus

separable, garis linier menunjukan batas pemisah, sedangkan garis

putus-putus menunjukan margin maksimal dengan lebar

‖ ‖ .

Hyperlane terbaik adalah hyperlane yang terletak di tengah-tengah

antara dua objek dari dua kelas. Untuk mendapatkan hyperlane

terbaik dilakukan dengan memaksimalkan margin atau jarak antara

dua objek dari kelas yang berbeda. Terdiri dua hyperlane pendukung

yaitu hyperlane yang menunjukan kelas +1 dan hyperlane yang

menunjukan kelas -1, dengan persamaan sebagai berikut:

16

Gambar.2.2. Margin optimal

Berdasarkan gambar di atas, jarak antara dua objek pada

kelas yang berbeda adalah margin yang didefinisikan sebagai .

Margin ini dapat dituliskan sebagai proyeksi vektor pada

vektor . Sehingga dapat dituliskan bahwa margin sebagai proyeksi

dari jarak antara dua support vector dari kelas yang berbeda dengan

persamaan sebagai berikut:

( )

( )

‖ ‖

‖ ‖

( ) ( )

‖ ‖

‖ ‖

Sehingga persamaan optimasi yang didapatkan adalah,

(

‖ ‖)

Persamaan di atas dapat juga dituliskan menjadi permasalahan

minimum sebagai berikut:

17

(

‖ ‖)

(

‖ ‖)

Dari permasalahan optimasi di atas ingin didapatkan nilai yang

non negatif sehingga pada persamaan di atas dikuadratkan sehinga

didapatkan persamaan sebagai berikut:

(

‖ ‖ )

Sehingga masalah optimasi pada SVM kasus separable

dapat dituliskan sebagai berikut:

Fungsi tujuan = (

‖ ‖ ) (2.12)

Constraint : ( )

Pada umumnya kasus separable jarang terpenuhi, masalah

klasifikasi yang sering ditemui adalah kasus nonseparable. Pada

kasus nonseparable memaksimalkan margin dengan berusaha

meminimalkan kesalahan klasifikasi yang dinyatakan dengan

variabel slack dan dilambangkan sebagai atau biasa disebut soft

margin hyperlane. Masalah optimasi dapat dituliskan sebagai

berikut:

Fungsi tujuan = (

‖ ‖ ∑

) (2.13)

Constraint : ( )

C merupakan koefisien yang menentukan besar penalti

akibat kesalahan klasifikasi. Meminimumkan ∑ berarti

meminimumkan eror pada data pelatihan. Masalah optimasi pada

persamaan dapat diselesaikan dengan solusi Quadratic Programming

menggunakan Lagrange Multiplier. Persamaan 2.14 digunakan

untuk meminimalkan variabel slack yang merupakan hasil penurunan

bentuk lain yang disebut primal Lagrange yang dapat dituliskan

sebagai berikut:

18

( )

‖ ‖ ∑

∑ * ( ) +

∑

(2.14)

di mana: : koefisien yang menentukan besar penalti akibat kesalahan

klasifikasi

: Lagrange Multiplier

Solusi optimal di atas harus diminimalkan terhadap variabel

dan dan dimaksimalkan terhadap variabel . Persamaan

lagrange dapat diselesaikan jika memenuhi kondisi tertentu.

Karush-Kuhn-Tucker (KKT) condition merupakan suatu cara untuk

optimalisasi dalam pemrograman nonlinier dengan memenuhi

beberapa kondisi. Dengan pendekatan KKT, pertidaksamaan

nonlinier dapat digunakan dalam generalisasi pengali lagrange yang

dapat menggunakan bentuk persamaan biasa (Burges, 1998). Berikut

adalah kondisi KKT yang digunakan primal yang digunakan untuk

menghitung nilai alpha:

( )

∑

(2.15)

( )

∑

(2.16)

( )

(2.17)

* ( ) +

Persamaan lagrange dapat diselesaikan jika semua kondisi

KKT terpenuhi, hal ini digunakan sebagai batasan pencarian

optimasi lagrange agar didapatkan nilai alpha yang optimal. Dengan

substitusi kondisi KKT pada Persamaan 2.15 diperoleh dual

lagrange sebagai berikut :

19

Fungsi tujuan :

max ∑

∑ ∑ ( )

(2.18)

Constraint : ,

∑

C merupakan parameter yang menentukan besar penalti berupa

bilangan positif. Kemudian didapatkan nilai lagrange multiplier

yang optimum dengan vektor bobot dapat dihitung dengan formula

sebagai berikut:

∑

( ) (2.19)

Sedangkan formula yang digunakan untuk menghitung bias

adalah sebagai berikut:

∑ ( )

(2.20)

Di mana merupakan banyaknya support vector dengan . Untuk memprediksi kelas data dapat menggunakan formula

sebagai berikut:

( ) ∑

( ) (2.21)

2.3.2. Kernel

Kernel merupakan fungsi yang digunakan untuk transformasi

data ke dalam dimensi ruang fitur (feature space). Kernel ini

memetakan data dari ruang berdimensi lebih rendah ke ruang

dimensi yang lebih tinggi sehingga lebih mudah dipisahkan. Data

dipetakan menggunakan fungsi pemetaan ( ) ke dalam

feature space sehingga terbentuk bidang yang memisahkan data

sesuai dengan kelasnya.

20

Gambar.2.3. Transformasi input space ke feature space

Suatu fungsi dapat menjadi fungsi kernel jika memenuhi

teorema Mercer yang menyatakan bahwa matriks kernel harus

bersifat positive semi-definite (Vapnik,1999) . Berikut adalah fungsi

kernel yang biasa digunakan:

Tabel.2.1. Fungsi Kernel

No. Kernel Fungsi kernel

1 Linier ( )

2 Polynomial ( ) (

) ,

3 Radial Basis Function ( ) ( ‖ ‖ ),

4 Sigmoid ( ) ( )

Pemilihan fungsi kernel yang tepat adalah hal yang penting

karena akan menentukan feature space sesuai dengan fungsi pemisah

yang dicari. Biasanya metode cross validation dapat digunakan

untuk menentukan fungsi kernel (Hastie dkk, 2008). Menurut Hsu,

dkk (2016), merekomendasikan untuk mencoba fungsi kernel RBF

terlebih dahulu karena dapat mengakomodir hubungan antara kelas

dan atribut yang tidak linier, dan juga memiliki perilaku seperti

fungsi kernel linier dan kernel sigmoid pada parameter yang berbeda.

Sesuai dengan uraian tersebut pada penelitian ini digunakan fungsi

kernel RBF untuk menyelesaikan masalah klasifikasi.

21

2.3.3. K-fold cross validation

Menurut Hsu, dkk (2016), K-fold cross validation dapat

digunakan untuk menentukan nilai parameter C dan parameter fungsi

kernel pada data pelatihan. Cross validation merupakan metode

penarikan contoh dan evaluasi hasil klasifikasi. Pada proses pelatihan

pada support vector machine diperlukan pemilihan parameter fungsi

kernel dan nilai C yang optimal. Pemilihan tersebut biasanya

dilakukan dengan memperkirakan kemampuan generalisasi. Metode

yang biasa digunakan untuk memperkirakan kemampuan generalisasi

adalah Cross validation. Biasanya metode cross validation dapat

digunakan untuk menentukan fungsi kernel (Hastie dkk, 2008).

Metode ini membagi data menjadi k bagian yang sama

kemudian data dibagi menjadi dua bagian yaitu data pelatihan

(training) dan pengujian (testing). Proses dilakukan sebanyak k kali.

Akan dicoba beberapa nilai parameter dan nilai parameter terbaik

ditentukan melalui metode Cross validation. Pencarian nilai

parameter ini disebut grid search, yaitu mencari kombinasi

parameter secara satu persatu, kemudian pemilihan kombinasi

tersebut didasarkan dari kombinasi yang memberikan akurasi

klasifikasi terbesar.

2.3.4. Normalisasi

Atribut data cenderung memiliki rentang yang sangat beragam

sehingga diperlukan teknik untuk mengubah skala data agar berada

pada rentang yang sama. Teknik ini sebut dengan normalisasi.

Keuntungan teknik ini adalah untuk menghindari atribut dengan

skala lebih besar mendominasi atribut pada kisaran angka yang lebih

kecil. Normalisasi ini dilakukan dengan cara mengubah skala nilai

atribut pada kisaran [-1,1] atau [0,1] (Hsu dkk, 2016). Mengubah

skala nilai atribut dalam kisaran [0,1] dapat menggunakan formula

sebagai berikut:

( )

( ) ( ) (2.22)

2.4. Tingkat Ketepatan Klasifikasi

Terdapat beberapa ukuran untuk mengukur hasil prediksi

klasifikasi, misalnya uji Press’Q dan APER (Apparent Error Rate).

Press’Q merupakan suatu ukuran yang digunakan untuk mengetahui

22

kestabilan dalam klasifikasi. Rumus statistik uji Press’Q adalah

sebagai berikut:

( )

( ) ( )

(2.23)

di mana:

: banyaknya total pengamatan

: banyaknya individu yang tepat klasifikasi

: banyaknya kelompok

Klasifikasi yang dilakukan dapat dikatakan konsisten atau stabil

jika nilai statistik uji Press’Q bernilai lebih besar dari titik kritis Khi

kuadrat dengan derajat bebas satu (Hair dkk, 2010). Selain uji

Press’Q, untuk mengetahui ketepatan klasifikasi dapat menghitung

APER (Apparent Error Rate). Nilai APER merupakan proporsi dari

banyaknya individu yang salah klasifikasi. Dengan demikian, metode

dengan nilai APER terkecil merupakan metode memiliki tingkat

ketepatan klasifikasi yang besar (Johnson dan Winchern, 1998).

Tabel.2.2. Tabel perhitungan nilai APER

Kelas Hasil prediksi klasifikasi

Total 0 1

0

1

Total

di mana dan merupakan banyaknya individu yang tepat

klasifikasi, sedangkan dan merupakan banyaknya individu

yang salah klasifikasi. Berikut adalah rumus untuk menghitung

APER:

(2.24)

23

BAB III

METODE PENELITIAN

3.1. Data

Data yang digunakan dalam penelitian ini adalah data sekunder

dengan uraian sebagai berikut:

1. Data 1

Sumber: Akbar, A.L (2015). Implementasi algoritma Support

Vector Machine untuk mengetahui tingkat resiko

stroke.

Y : Tingkat Resiko Stroke

1= Normal

2= Rentan

3= Mengkhawatirkan

X1: Umur

0= Kurang dari 65 tahun

1= Lebih dari atau samadengan 65 tahun

X2: Kolestrol Total

1= Normal

2= Tinggi

3= Sangat tinggi

X3: HDL (High Density Lipoprotein)

0= Rendah

1= Normal

X4: LDL (Low Density Lipoprotein)

1= Normal

2= Tinggi

3= Sangat tinggi

X5: Triglinerida

1= Normal

2= Tinggi

3= Sangat tinggi

Cara mengukur kadar kolesterol darah adalah dengan

memasukkan plasma darah ke dalam tabung reaksi dan

ditambahkan reagen warna kolesterol kemudian diinkubasi

dengan temperature tertentu, kandungan kadar kolesterol dapat

24

diukur dengan fotometer. Pengukuran HDL yaitu dengan

penambahan reagen HDL pada plasma kemudian diukur dengan

fotometer. Kadar LDL dapat dihitung dengan rumus kolesterol

dikurangi dengan HDL. Sedangkan untuk pemeriksaan

trigliserida darah dapat dilakukan dengan menambahkan reagen

warna trigliserida kemudian kadar trigliserida dapat diukur

dengan fotometer.

Data 1 terdiri dari 200 amatan. Sebelum melakukan analisis,

data di bagi menjadi data training sebanyak 75% dan data

testing sebanyak 25%. Sebanyak 150 amatan digunakan sebagai

data training dan sebanyak 50 amatan sebagai data testing.

2. Data 2

Sumber: Maulidya (2013). Perbandingan Analisis Diskriminan

dan Regresi Logistik.

Y: Jenis tempat belanja di wilayah Taman, Sidoarjo

1= Pasar Tradisional (Pasar Taman, Pasar Agro)

0= Pasar Modern, terdiri dari supermarket (Alfamidi,Master)

X1: Usia (tahun)

X2: Jenis Kelamin

1= Perempuan

0= Laki-laki

X3: Pendidikan

1= Di bawah SMP

2= SMA

3= Perguruan tinggi

X4: Pekerjaan

1= Ibu rumah tangga 4= Pegawai Negeri

2= Wiraswasta 5= Mahasiswa/Pelajar

3= Swasta

X5: Pendapatan

1= Kurang dari Rp.1000.000 4= Tidak diisi

2= Rp.1000.000 - Rp.3000.000

3= Lebih dari Rp.3000.000

X6: Produk, yang diukur dengan tiga butir pertanyaan, di

mana teknik penilaiannya menggunakan skala likert,

terdapat lima poin mulai dari sangat setuju (skor 5),

25

setuju (skor 4), cukup setuju (skor 3), tidak setuju (skor

2), dan sangat tidak setuju (skor 1).

X7: Harga, yang diukur dengan tiga butir pertanyaan, di





X8: Promosi, yang diukur dengan tiga butir pertanyaan, di





X9: Lokasi, yang diukur dengan tiga butir pertanyaan, di





Data 2 terdiri dari 100 amatan. Sebelum melakukan

analisis, data di bagi menjadi data training sebanyak 75% dan

data testing sebanyak 25%. Sebanyak 75 amatan digunakan

sebagai data training dan sebanyak 25 amatan sebagai data

testing.

3. Data 3

Sumber: Utama, M.P (2012). Analisis Faktor-Faktor Yang

Mempengaruhi Keputusan Pemberian Kredit Usaha

Rakyat (KUR)

Y: Keputusan pemberian kredit

1= Keputusan kredit diterima

0= Keputusan kredit ditolak

X1: Tingkat pendidikan (tahun)

X2: Banyaknya tanggungan keluarga (orang)

X3: Lama Usaha (tahun)

X4: Laba usaha (rupiah)

X5: Jumlah pinjaman (rupiah)

X6: Jangka waktu pinjaman (bulan)

26

Data 3 terdiri dari 89 amatan. Sebelum melakukan

analisis, data di bagi menjadi data training sebanyak 75% dan

data testing sebanyak 25%. Sebanyak 67 amatan digunakan

sebagai data training dan sebanyak 22 amatan sebagai data

testing.

3.2. Prosedur Analisis

Prosedur analisis dalam penelitian ini adalah sebagai berikut:

1. Persiapan data dengan cara membagi data menjadi dua bagian

yaitu data pelatihan dan data pengujian, pembagian ini

dilakukan secara acak. Sebesar 75% data digunakan sebagai

data pelatihan dan 25% data digunakan sebagai pengujian.

2. Melakukan klasifikasi menggunakan regresi logistik dengan

prosedur sebagai berikut:

a. Pemeriksaan asumsi multikolinieritas antar peubah prediktor

dengan menghitung Variance Inflation Factor sesuai dengan

Persamaan (2.3).

b. Membentuk model logistik dengan melibatkan semua

peubah prediktor.

c. Melakukan uji signifikansi parameter secara simultan dan

parsial sesuai dengan Persamaan (2.8) dan (2.9).

d. Membentuk model logistik dengan variabel yang signifikan.

e. Melakukan klasifikasi sesuai dengan model yang telah

terbentuk.

f. Melakukan perhitungan ketepatan klasifikasi dengan

indikator APER dan uji Press’Q pada metode regresi logistik

sesuai Persamaan (2.23) dan Persamaan (2.24).

3. Melakukan klasifikasi menggunakan Support Vector Machine

dengan prosedur sebagai berikut:

a. Melakukan normalisasi data dengan mengubah skala nilai

data atribut pada rentang [0,1] dengan Persamaan (2.22).

b. Membentuk model klasifikasi pada data pelatihan dengan

proses sebagai berikut:

i. Input data pelatihan dan membagi data menggunakan

metode K-Fold Cross Validation, dengan nilai K yang

digunakan adalah 10.

ii. Memetakan data dari input space ke dalam feature space

menggunakan fungsi kernel.

27

iii. Menduga parameter pada fungsi kernel menggunakan

metode grid search.

iv. Menyelesaikan masalah optimasi dengan quadratic

programming.

v. Menentukan support vector.

vi. Menduga parameter b.

vii. Menyusun model hyperlane

c. Melakukan prediksi pada data pengujian menggunakan

model yang sudah didapatkan.

d. Melakukan perhitungan ketepatan klasifikasi dengan

indikator APER dan uji Press’Q pada metode Support

Vector Machine sesuai Persamaan (2.23) dan Persamaan

(2.24).

4. Melakukan interpretasi hasil.

5. Membandingkan Ketepatan Klasifikasi pada Regresi Logistik

dan Support Vector Machine.

3.3. Diagram Alir Penelitian

Diagram alir pada penelitian ini disajikan pada Gambar 3.1,

Gambar 3.2 dan Gambar 3.3.

28

Data Pelatihan Data Pengujian

Model

A

Evaluasi

Model SVM

Regresi

Logistik

Mulai

Data

SVM Evaluasi Model

Regresi Logistik

Model

B

Klasifikasi

A

Gambar 3.1 Diagram Alir Penelitian

29

Selesai

Membandingkan Uji

Press Q dan nilai APER

Regresi Logistik dengan

SVM

A

Uji Press Q dan

menghitung nilai

APER

30

Gambar.3.2. Diagram Alir Regresi Logistik

Mulai

Data

Regresi Logistik

Asumsi Non

Multikolinieritas

Pendugaan Parameter

Uji Signifikansi Parameter

secara Simultan dan Parsial

Uji Kesesuaian Model

Selesai

Ya

Tidak

31

Gambar.3.3. Digram Alir Metode Support Vector Machine

Mulai

Input

data

Normalisasi Data

Memetakan data pada feature space

menggunakan fungsi kernel Radial

Basis Function

Pendugaan parameter dengan

metode grid search

Menyelesaikan optimasi dengan

Quadratic Programming

Pendugaan parameter b

Selesai

Membentuk model

hyperlane pada input

33

BAB IV

HASIL DAN PEMBAHASAN

4.1. Hasil Analisis Regresi Logistik

Prosedur analisis klasifikasi menggunakan regresi logistik

meliputi pendeteksian multikolinieritas, pendugaan dan uji

signifikansi parameter, uji kesesuaian model, dan menghitung

ketepatan klasifikasi.

4.1.1. Pendeteksian Multikolinieritas

Seperti pada analisis regresi linier, analisis regresi logistik juga

sensitif dengan adanya kolinieritas pada variabel prediktor.

Pendeteksian adanya multikolinieritas dapat diketahui dengan

melihat nilai Variance Inflation Factor (VIF). Berikut adalah nilai

VIF untuk setiap variabel prediktor:

Tabel.4.1. Nilai VIF pada Data 1

Variabel VIF

X1 1.132

X2 2.241

X3 1.402

X4 2.209

X5 1.199

Berdasarkan Tabel 4.1 pada Data 1 yaitu kasus klasifikasi

tingkat resiko stroke, menunjukan bahwa nilai VIF pada semua

variabel prediktor bernilai lebih kecil dari 10 sehingga dapat

disimpulkan bahwa tidak terdapat kolinieritas atau ketergantungan

antar variabel prediktor pada Data 1.


Variabel VIF

X1 1.401

X2 1.382

X3 1.249

X4 1.683

X5 1.729

X6 1.212

X7 1.633

X8 1.353

X9 2.214

34


tempat berbelanja di Sidoarjo, menunjukan bahwa nilai VIF pada

semua variabel prediktor bernilai lebih kecil dari 10 sehingga dapat




Variabel VIF

X1 2.087

X2 2.151

X3 2.097

X4 3.679

X5 2.253

X6 1.373


pemberian kredit usaha rakyat, menunjukan bahwa nilai VIF pada

semua variabel prediktor bernilai lebih kecil dari 10 sehingga dapat



4.1.2. Hasil Pendugaan Parameter

Berikut adalah hasil penduga parameter menggunakan

Maximum Likelihood Estimation untuk semua variabel prediktor

selengkapnya dapat dilihat pada Lampiran 10:

Tabel.4.4. Hasil Nilai Duga Parameter pada Data 1

Koefisien Estimasi

Intersep 1

Intersep 2

0.631

2.99

Umur > 65 tahun 0.973

Kolestrol Total Tinggi 1.901

Sangat tinggi 1.985

HDL ≥ 35 -0.735

LDL Tinggi -0.94

Sangat tinggi -1.331

Triglinerida Tinggi 19.159

Sangat tinggi 18.838

35

Berikut adalah model penuh untuk Data 1:

( ) = ( ) ( )

( ) ( ) ( )

( ) ( )

( ) = ( ) ( )

( ) ( ) ( )

( ) ( )


Koefisien Estimasi

Intersep -15.715

Usia (X1) 0.047

Jenis kelamin (X2) -1.856

Pendidikan (X3) -0.952

Pekerjaan (X4) 0.584

Pendapatan (X5) 0.301

Produk (X6) 0.072

Harga (X7) 0.039

Promosi (X8) 0.182

Lokasi (X9) 1.399


( ) =


Koefisien Estimasi

Intersep -4.156

Tingkat pendidikan (X1) -0.459

Tanggungan keluarga (X2) -0.848

Lam usaha (X3) 2.232

Laba usaha (X4) 1.456x 10-5

Jumlah pinjaman (X5) -1.08x 10-7

Jangka waktu (X6) -0.101


( ) =

36

4.1.3. Uji Signifikansi Parameter

Uji signifikansi parameter dilakukan untuk mengetahui

pengaruh variabel prediktor terhadap variabel respon secara

bersama-sama maupun secara parsial.

a. Uji Simultan

Uji simultan dilakukan untuk mengetahui pengaruh variabel

prediktor terhadap variabel respon secara serempak atau bersama-

sama. Uji ini dilakukan dengan statistik uji G. Hipotesis yang

melandasi uji signifikansi parameter secara simultan adalah sebagai

berikut:

H0:

H1: minimal terdapat satu yang tidak sama dengan nol

Berikut adalah hasil pengujian signifikansi parameter secara

simultan:

Tabel.4.7. Uji Signifikansi Parameter Secara Simultan Untuk Setiap

Data

Data Statistik Uji G Titik Kritis

Data 1 132.270 11.071

Data 2 59.628 16.918

Data 3 60.569 12.591

Berdasarkan hasil pengujian pada Tabel 4.7 dapat diketahui

bahwa nilai statistik uji G untuk Data 1 adalah sebesar 132.270. Nilai

statistik uji G lebih besar dari titik kritis ( ) , dengan demikian dapat

disimpulkan bahwa variabel umur, kolestrol total, LDL, HDL, dan

triglinerida berpengaruh nyata secara bersama-sama terhadap tingkat

resiko stroke seseorang.

Sedangkan untuk Data 2 dapat diketahui bahwa nilai statistik

uji G adalah sebesar 59.628. Nilai statistik uji G lebih besar dari titik

kritis ( ) , dengan demikian dapat disimpulkan bahwa variabel usia,

jenis kelamin, pendidikan, pekerjaan, pendapatan, produk, harga,

promosi, dan lokasi berpengaruh nyata secara bersama-sama

terhadap penentuan tempat berbelanja masyarakat di Sidoarjo.

Berdasarkan hasil pengujian pada Tabel 4.7 dapat diketahui

bahwa nilai statistik uji G untuk Data 3 adalah sebesar 60.569. Nilai

statistik uji G lebih besar dari titik kritis ( ) , dengan demikian dapat

37

disimpulkan bahwa tingkat pendidikan, banyaknya tanggungan

keluarga, lama usaha, laba usaha, jumlah pinjaman, dan jangka

waktu lama pinjaman berpengaruh nyata secara bersama-sama

terhadap keputusan pemberian kredit.

b. Uji Signifikansi Parsial

Uji parsial dilakukan untuk mengetahui pengaruh setiap variabel

prediktor terhadap variabel respon yang dilakukan menggunakan uji

Wald. Hipotesis yang melandasi adalah sebagai berikut:

H0:

H1:

Pada uji signifikansi parameter secara parsial ini dapat

dilakukan dengan membandingkan p-value masing-masing variabel

prediktor dengan taraf nyata 0.05. H0 akan ditolak apabila p-value

bernilai kurang dari 0.05. berikut adalah hasil nilai duga parameter

dan uji sigifikansi parsial masing-masing data untuk selengkapnya

dapat dilihat pada Lampiran 10:

Tabel.4.8. Nilai Duga Parameter dan Uji Signifikansi Parsial Data 1

Koefisien Estimasi p-value

Intersep 1 0.631 0.302

Intersep 2 2.99 0.000

Umur > 65 tahun 0.973 0.006

Kolestrol

Total

Tinggi 1.901 0.000

Sangat tinggi 1.985 0.000

HDL ≥ 35 -0.735 0.216

LDL Tinggi -0.94

0.017

Sangat tinggi -1.331

0.030

Triglinerida Tinggi 19.159 0.302


Berdasarkan Tabel 4.8 dapat dilihat bahwa variabel umur,

kolestrol total, LDL dan triglinerida berpengaruh secara nyata

terhadap tingkat resiko stroke seseorang.

38


Koefisien Estimasi SE Nilai Z p-value

Intersep -15.715 6.488 -2.422 0.015

Usia (X1) 0.047 0.053 0.894 0.371

Jenis kelamin (X2) -1.856 1.155 -1.607 0.108

Pendidikan (X3) -0.952 0.75 -1.266 0.205

Pekerjaan (X4) 0.584 0.458 1.275 0.202

Pendapatan (X5) 0.301 0.489 0.615 0.538

Produk (X6) 0.072 0.289 0.251 0.802

Harga (X7) 0.039 0.297 0.131 0.895

Promosi (X8) 0.182 0.239 0.763 0.445

Lokasi (X9) 1.399 0.340 4.113 0.000

Berdasarkan Tabel 4.9 dapat dilihat bahwa hanya variabel

lokasi yang berpengaruh secara nyata terhadap penentuan tempat

berbelanja masyarakat di Sidoarjo. Variabel lainnya yaitu usia, jenis

kelamin, pendidikan, pekerjaan, pendapatan, produk, harga, dan

promosi tidak berpengaruh nyata terhadap penentuan tempat

berbelanja masyarakat di Sidoarjo.


Koefisien Estimasi SE Nilai Z p-value

intersep -4.156 4.664 -0.891 0.373

Tingkat

pendidikan (X1) -0.459 0.313 -1.516 0.129

Tanggungan

keluarga (X2) -0.848 0.504 -1.681 0.092

Lama usaha (X3) 2.232 0.933 2.393 0.016

Laba usaha (X4) 1.46 x 10-5

5.20 x 10-6

2.799 0.005

Jumlah pinjaman

(X5) -1.08 x 10

-7 6.14 x 10

-8 -1.764 0.077

Jangka waktu

(X6) -0.101 0.087 -1.161 0.245

Berdasarkan Tabel 4.10 dapat dilihat bahwa variabel lama

usaha dan laba usaha yang berpengaruh secara nyata terhadap

keputusan pemberian kredit. Variabel lainnya yaitu tingkat

pendidikan, banyaknya tanggungan keluarga, jumlah pinjaman,dan

39

jangka waktu lama pinjaman tidak berpengaruh nyata terhadap

keputusan pemberian kredit.

4.1.4. Membentuk Model dengan Variabel Prediktor yang

Signifikan

Pemodelan regresi logistik dengan variabel prediktor yang

signifikan dilakukan dengan metode backward. Proses pemodelan

metode ini yaitu memodelkan semua variabel prediktor dengan

variabel respon, kemudian mengeluarkan satu persatu variabel

prediktor yang paling tidak signifikan. Selanjutnya memodelkan

kembali variabel prediktor lainnya dengan variabel respon. Hingga

didapatkan model akhir yaitu model dengan semua variabel prediktor

yang signifikan. Berikut adalah hasil pemodelan menggunakan

metode backward selengkapnya dapat dilihat pada Lampiran 13:

Tabel.4.11. Tabel Nilai Duga Parameter Model Regresi Logistik

dengan variabel yang signifikan untuk Data 1

Koefisien Estimasi p-value

Intersep 1 1.327 0.000

Intersep 2 3.590 0.000

X2 Tinggi 1.223 0.009


X5 Tinggi 19.247 0.975


Berdasarkan hasil di atas, model regresi logistik dengan

variabel prediktor yang signifikan dapat dituliskan sebagai berikut:

( ) ( ) ( )

( ) ( )

( ) ( ) ( )

( ) ( )



Variabel Estimasi SE Z p-value

Intersep -11.3967 2.4852 -4.586 0.000

X9 1.2297 0.2669 4.608 0.000

40



( )



Variabel Estimasi SE Z p-value

Intersep -11.89 3.54 -3.358 0.000

X3 1.856 0.623 2.977 0.003

X4 1.241x 10-5

4.11x 10-6

3.020 0.003

X5 -8.82x 10-8

4.28x 10-8

-2.058 0.039



( )

4.1.5. Uji Kesesuaian Model

Uji kesesuaian model digunakan untuk mengetahui apakah

model yang dihasilkan sudah sesuai. Hipotesis yang mendasari

adalah sebagai berikut:

H0: Model sesuai

H1: Model tidak sesuai

Berikut adalah hasil pengujian kesesuaian model dengan Uji

Pearson:

Tabel.4.14. Uji Kesesuaian Model untuk Setiap Data

Data Statistik Uji Titik Kritis ( )

Data 1 46.608 173.004

Data 2 52.596 84.821

Data3 30.602 79.082

Berdasarkan Tabel 4.14 diketahui bahwa statistik uji pearson

untuk Data 1 bernilai kurang dari dari titik kritis ( ) sehingga

diputuskan untuk menerima H0. Artinya adalah model regresi

logistik yang didapatkan dapat menggambarkan kondisi yang

sebenarnya.

Sedangkan untuk Data 2 diketahui bahwa statistik uji

pearson bernilai kurang dari dari titik kritis ( ) sehingga

41



sebenarnya.

Berdasarkan Tabel 4.14 diketahui bahwa statistik uji pearson

untuk Data 3 bernilai kurang dari dari titik kritis ( ) sehingga



sebenarnya.

4.1.6. Ketepatan Klasifikasi Regresi Logistik

a. Ketepatan Klasifikasi Pada Data Training

Data training umumnya digunakan untuk membentuk model.

Sebelum model tersebut diujikan pada data baru perlu diketahui

seberapa kebaikan model tersebut dengan menghitung ketepatan

klasifikasi pada data training. Ketepatan klasifikasi digunakan untuk

mengetahui seberapa baik model yang didapatkan dapat

memprediksi kelas pada data. Berikut adalah tabel ketepatan

klasifikasi pada data training selengkapnya dapat dilihat pada

Lampiran 20:

Tabel.4.15. Tabel Ketepatan Klasifikasi untuk Data Training Data 1

Kategori Hasil Klasifikasi

Total APER Uji

Press’Q ( )

1 2 3

1 82 0 0 82

25.33% 115.32 3.841 2 32 0 0 32

3 6 0 30 36

Total 120 0 30 150

Berdasarkan Tabel 4.15 menunjukan bahwa terdapat 82

amatan yang tepat klasifikasi pada kategori 1 yaitu tingkat resiko

stroke normal, dan tidak terdapat amatan yang salah klasifikasi pada

kategori 1. Selain itu pada data training terdapat 32 amatan dengan

kategori 2, dan semua amatan tersebut tidak tepat klasifikasi. Dan

terdapat 30 amatan yang tepat klasifikasi pada kategori 3 yaitu

tingkat resiko stroke mengkhawatirkan, dan terdapat 6 amatan yang

salah klasifikasi pada kategori 3. Nilai APER sebesar 25.33%, hal ini

menunjukan model regresi yang didapatkan sudah baik untuk

menyelesaikan kasus klasifikasi resiko tingkat penyakit stroke.

Selain itu, untuk mengetahui kestabilan dalam klasifikasi digunakan

42

uji Press’Q. Berdasarkan hasil diatas nilai statistik uji Press’Q

bernilai lebih dari ( ) sehingga disimpulkan bahwa klasifikasi yang

dilakukan sudah konsisten.



Total APER Uji

Press’Q ( )

0 1

0 32 7 39

16% 34.68 3.841 1 5 31 36

Total 37 38 75

Berdasarkan Tabel 4.16 dapat dilihat bahwa terdapat 32

amatan yang tepat klasifikasi pada kategori 0 yaitu jenis tempat

belanja pasar modern, dan terdapat 7 amatan pada kategori 0 yang

salah klasifikasi. Selain itu terdapat sebanyak 31 amatan yang tepat

klasifikasi pada kategori 1 yaitu jenis tempat belanja pasar

tradisional, dan terdapat 5 amatan pada kategori 1 yang salah

klasifikasi. Nilai APER model regresi logistik yaitu sebesar 16%, hal

ini menunjukan model regresi yang didapatkan sudah baik untuk

menyelesaikan kasus klasifikasi tempat berbelanja masyarakat di

wilayah taman Sidoarjo. Selain itu, untuk mengetahui kestabilan

dalam klasifikasi digunakan uji Press’Q. Berdasarkan hasil diatas

nilai statistik uji Press’Q bernilai lebih dari ( ) sehingga

disimpulkan bahwa klasifikasi yang dilakukan sudah konsisten.



Total APER Uji

Press’Q ( )

0 1

0 16 3 19

7.46% 48.493 3.841 1 2 46 48

Total 18 49 67


amatan yang tepat klasifikasi pada kategori 0 yaitu keputusan kredit

ditolak, dan terdapat 3 amatan pada kategori 0 yang salah klasifikasi.

Selain itu terdapat sebanyak 46 amatan yang tepat klasifikasi pada

kategori 1 yaitu keputusan kredit diterima, dan terdapat 2 amatan

yang salah klasifikasi pada kategori 1. Nilai APER model regresi

43

logistik yaitu sebesar 7.46%, hal ini menunjukan model regresi yang

didapatkan sudah baik untuk menyelesaikan kasus klasifikasi

keputusan pemberian kredit. Selain itu, untuk mengetahui kestabilan




b. Ketepatan Klasifikasi Pada Data Testing

Model yang telah didapatkan pada data training akan

digunakan untuk klasifikasi pada data baru yaitu data testing.

Apabila model yang didapatkan merupakan model yang baik maka

akan memberikan kesalahan klasifikasi yang kecil. Ketepatan

klasifikasi pada penelitian ini didasarkan pada dua indikator yaitu

nilai APER (Apparent Error Rate) dan uji Press’Q. Semakin kecil

nilai APER maka ketepatan klasifikasi juga semakin besar. Berikut

adalah tabel ketepatan klasifikasi pada data testing selengkapnya

dapat dilihat pada Lampiran 20:

Tabel. 4.18. Tabel Ketepatan Klasifikasi untuk Data Testing Data 1


Total APER Uji

Press’Q ( )

1 2 3

1 36 0 0 36

14% 25.92 3.841 2 5 0 0 5

3 2 0 7 2

Total 43 0 7 50

Berdasarkan Tabel 4.18 menunjukan bahwa terdapat 36


stroke normal, dan tidak terdapat amatan yang salah klasifikasi pada

kategori 1. Selain itu pada data testing terdapat 5 amatan dengan

kategori 2, dan kelima amatan tersebut tidak tepat klasifikasi. Dan

terdapat 7 amatan yang tepat klasifikasi pada kategori 3 yaitu tingkat

resiko stroke mengkhawatirkan, dan terdapat 2 amatan yang salah

klasifikasi pada kategori 3. Nilai APER sebesar 14%, hal ini

menunjukan model regresi yang didapatkan sudah baik untuk

menyelesaikan kasus klasifikasi resiko tingkat penyakit stroke.

Selain itu, untuk mengetahui kestabilan dalam klasifikasi digunakan

uji Press’Q. Berdasarkan hasil diatas nilai statistik uji Press’Q

44

bernilai lebih dari ( ) sehingga disimpulkan bahwa klasifikasi yang

dilakukan sudah konsisten.



Total APER Uji

Press’Q ( )

0 1

0 8 2 11

16% 11.56 3.841 1 2 13 14

Total 9 16 25







klasifikasi. Nilai APER model regresi logistik yaitu sebesar 16%, hal

ini menunjukan model regresi yang didapatkan sudah baik untuk


wilayah taman sidoarjo. Selain itu, untuk mengetahui kestabilan






Total APER Uji

Press’Q ( )

0 1

0 9 2 11

9.1% 14.727 3.841 1 0 11 11

Total 9 13 22





kategori 1 yaitu keputusan kredit diterima, dan tidak terdapat

kesalahan klasifikasi pada kategori 1. Nilai APER model regresi

logistik yaitu sebesar 9.1%, hal ini menunjukan model regresi yang


45





4.2. Support Vector Machine

4.2.1. Proses Training

Pada proses pelatihan akan dihasilkan model yang kemudian

akan digunakan untuk klasifikasi pada data testing.

a. Normalisasi Data Input

Normalisasi ini dilakukan dengan cara mengubah skala nilai

atribut pada kisaran [0,1]. Langkah awal untuk melakukan

normalisasi ini adalah dengan cara menentukan nilai maksimum dan

minimum setiap atribut pada data input. Kemudian mengubah skala

nilai atribut sesuai dengan Persamaan (2.22). Misalkan ingin

mengubah skala nilai atribut umur pada amatan pertama, dilakukan

dengan cara sebagai berikut:

( )

( ) ( )

Nilai atribut umur pada amatan pertama diubah menjadi

0.29167. Dengan cara yang sama dilakukan untuk mengubah nilai

atribut lainnya.

b. Memetakan data input ke dalam feature space

Pemetaan data input ke dalam feature space merupakan hal

yang paling penting dalam menyelesaikan kasus klasifikasi pada

support vector machine. Untuk memetakan data ke dalam feature

space dilakukan dengan menggunakan fungsi kernel sehingga

pemilihan parameter kernel sangat penting. Fungsi kernel yang

digunakan pada penelitian ini adalah Radial Basis Function.

c. Menduga parameter pada fungsi Kernel

Menduga parameter fungsi kernel dilakukan dengan metode

gridsearch. Pada metode ini akan dicobakan beberapa nilai

parameter. Berikut adalah rentang nilai parameter fungsi kernel

Radial Basis Function :

46

Tabel.4.21. Rentang Nilai Parameter Fungsi Kernel

Batas Cost

Batas Bawah Batas Atas

Beberapa nilai pada rentang seperti pada Tabel 4.21 akan

dicobakan untuk menemukan parameter terbaik. Sehingga

didapatkan parameter terbaik fungsi kernel sebagai berikut

selengkapnya dapat dilihat pada Lampiran 16:

Tabel.4.22. Parameter Terbaik Fungsi Kernel

Parameter Data 1 Data 2 Data 3

Cost

Penentuan nilai parameter kernel pada support vector machine

dilakukan menggunakan metode grid search. Pada metode ini

dilakukan dengan cara mencoba beberapa nilai parameter sehingga

didapatkan nilai parameter terbaik. Pada penelitian ini dicobakan

beberapa nilai parameter dengan rentang nilai seperti yang dituliskan

pada Tabel 4.21. Hasil padaTabel 4.21 menunjukan nilai parameter

terbaik yang didapatkan melalui metode grid search.

d. Mendapatkan Nilai Lagrange Multiplier

Masalah optimasi pada support vector machine diselesaikan

menggunakan Quadratic Programming dan didapatkan nilai

Lagrange Multiplier (alpha). Pada data 1 didapatkan nilai Lagrange

Multiplier (alpha) sebanyak 58, pada Data 2 didapatkan sebanyak 78,

dan Data 3 sebanyak 31. Nilai Lagrange Multiplier yang didapatkan

dapat dilihat pada Lampiran 19.

e. Menduga nilai b

Nilai parameter b dapat diduga menggunakan Persamaan 2.20.

Berikut adalah nilai duga b untuk masing-masing data:

Tabel.4.23. Nilai duga b masing-masing data

Parameter Data 1 Data2 Data3

b 2.948

0.263 0.861 3.705

47

Berdasarkan Tabel 4.23 didapatkan nilai b untuk Data 1

sebesar 2.948 dan 3.705, Data 2 sebesar 0.263, dan Data 3 sebesar

0.861.

f. Model Klasifikasi Support Vector Machine

Berdasarkan hasil di atas, model klasifikasi Support Vector

Machine untuk masing masing data dapat dituliskan sebagai berikut:

Data 1 : ( ) ∑

( ‖ ‖ )

( ) ∑

( ‖ ‖ )

Data 2 : ( ) ∑

( ‖ ‖ )

Data 3 : ( ) ∑

( ‖ ‖ )

4.2.2. Proses Testing dan Ketepatan Klasifikasi

Model yang sudah didapatkan pada data training digunakan

untuk klasifikasi pada data testing. Pada hasil klasifikasi ini akan

diketahui seberapa besar ketepatan klasifikasi model yang

didapatkan.

a. Ketepatan Klasifikasi Pada Data Training

Data training umumnya digunakan untuk membentuk model.

Sebelum model tersebut diujikan pada data baru perlu diketahui

seberapa kebaikan model tersebut dengan menghitung ketepatan

klasifikasi pada data training. Berikut adalah ketepatan klasifikasi

pada data training selengkapnya dapat dilihat pada Lampiran 21:

Tabel.4.24. Hasil Klasifikasi Support Vector Machine untuk data

training Data 1


Total APER Uji

Press’Q ( )

1 2 3

1 81 3 1 85

4% 265.08 3.841 2 0 32 0 32

3 1 1 31 33

Total 82 36 32 150

48



stroke normal, dan terdapat 4 amatan pada kategori 1 yang salah

klasifikasi. Terdapat sebanyak 32 amatan yang tepat klasifikasi pada

kategori 2 yaitu tingkat resiko stroke rentan, dan tidak terdapat

kesalahan klasifikasi pada kategori 2. Selain itu, terdapat 31 amatan

yang tepat klasifikasi pada kategori 3 yaitu tingkat resiko stroke

mengkhawatirkan, dan terdapat 2 amatan pada kategori 3 yang salah

klasifikasi. Nilai APER metode Support Vector Machine pada Data 1

yaitu sebesar 4%, hal ini menunjukan model klasifikasi pada Support

Vector Machine yang didapatkan sudah baik untuk menyelesaikan

kasus klasifikasi resiko tingkat stroke. Selain itu, untuk mengetahui

kestabilan dalam klasifikasi digunakan uji Press’Q. Berdasarkan

hasil di atas nilai statistik uji Press’Q bernilai lebih dari ( )

sehingga disimpulkan bahwa klasifikasi yang dilakukan sudah

konsisten.


training Data 2


Total APER Uji

Press’Q ( )

0 1

0 36 5 41

8% 52.92 3.841 1 1 33 34

Total 37 38 75







klasifikasi. Nilai APER metode support vector machine pada Data 2



kasus klasifikasi tempat berbelanja masyarakat di wilayah taman

Sidoarjo. Selain itu, untuk mengetahui kestabilan dalam klasifikasi

digunakan uji Press’Q. Berdasarkan hasil di atas nilai statistik uji

49

Press’Q bernilai lebih dari ( ) sehingga disimpulkan bahwa

klasifikasi yang dilakukan sudah konsisten.


training Data 3


Total APER Uji

Press’Q ( )

0 1

0 48 1 19

2.98% 59.238 3.841 1 1 17 18

Total 49 18 67





kategori 1 yaitu keputusan kredit diterima, dan terdapat 1 amatan

pada kategori 1 yang salah klasifikasi. Nilai APER metode Support

Vector Machine pada Data 3 yaitu sebesar 2.98%, hal ini

menunjukan model klasifikasi pada Support Vector Machine yang






b. Ketepatan Klasifikasi Pada Data Testing

Model yang sudah didapatkan pada data training digunakan

untuk klasifikasi pada data testing. Pada hasil klasifikasi ini akan

diketahui seberapa besar ketepatan klasifikasi model yang

didapatkan. Berikut adalah hasil klasifikasi pada Support Vector

Machine selengkapnya dapat dilihat pada Lampiran 21:


testing Data 1


Total APER Uji

Press’Q ( )

1 2 3

1 35 0 1 36

8% 77.44 3.841 2 1 8 1 10

3 0 1 3 4

Total 36 9 5 50

50



stroke normal, dan terdapat 1 amatan pada kategori 1 yang salah

klasifikasi. Terdapat sebanyak 8 amatan yang tepat klasifikasi pada

kategori 2 yaitu tingkat resiko stroke rentan, dan terdapat 2 amatan

yang salah klasifikasi pada kategori 2. Selain itu, terdapat 3 amatan

yang tepat klasifikasi pada kategori 3 yaitu tingkat resiko stroke

mengkhawatirkan, dan terdapat 1 amatan pada kategori 3 yang salah

klasifikasi Nilai APER metode Support Vector Machine pada Data 1



kasus klasifikasi resiko tingkat stroke. Selain itu, untuk mengetahui

kestabilan dalam klasifikasi digunakan uji Press’Q. Berdasarkan

hasil di atas nilai statistik uji Press’Q bernilai lebih dari ( )

sehingga disimpulkan bahwa klasifikasi yang dilakukan sudah

konsisten.


testing Data 2


Total APER Uji

Press’Q ( )

0 1

0 9 2 11

12% 14.44 3.841 1 1 13 14

Total 10 15 25







klasifikasi. Nilai APER metode support vector machine pada Data 2

yaitu sebesar 12%, hal ini menunjukan model klasifikasi pada

Support Vector Machine yang didapatkan sudah baik untuk


wilayah taman Sidoarjo. Selain itu, untuk mengetahui kestabilan

dalam klasifikasi digunakan uji Press’Q. Berdasarkan hasil di atas

51




testing Data 3


Total APER Uji

Press’Q ( )

0 1

0 13 2 15

9.1% 14.727 3.841 1 0 7 7

Total 13 9 22





kategori 1 yaitu keputusan kredit diterima, dan tidak terdapat

kesalahan klasifikasi pada kategori 1. Nilai APER metode Support

Vector Machine pada Data 3 yaitu sebesar 9.1%, hal ini menunjukan

model klasifikasi pada Support Vector Machine yang didapatkan

sudah baik untuk menyelesaikan kasus klasifikasi keputusan

pemberian kredit. Selain itu, untuk mengetahui kestabilan dalam

klasifikasi digunakan uji Press’Q. Berdasarkan hasil diatas nilai

statistik uji Press’Q bernilai lebih dari ( ) sehingga disimpulkan

bahwa klasifikasi yang dilakukan sudah konsisten.

4.3. Pembahasan

Akbar (2015) menerapkan metode Support Vector Machine

untuk menyelesaikan kasus klasifikasi tingkat stroke. Penelitian

tersebut menyimpulkan bahwa metode Support Vector Machine

memberikan akurasi yang baik, yaitu sebesar 89.39%. Pada

penelitian ini data tersebut diterapkan pada metode Analisis Regresi

Logistik dan Support Vector Machine dengan menggunakan kernel

yang berbeda yaitu kernel Radial Basis Function (RBF). Hasil dari

penelitian ini menunjukan bahwa ketika data tersebut diterapkan

menggunakan metode analisis Regresi Logistik memberikan nilai

APER sebesar 14% atau tingkat akurasi sebesar 86% dan nilai APER

Support Vector Machine 8% atau tingkat akurasi sebesar 92%.

Ketika data tingkat penyakit stroke ini diterapkan pada Analisis

52

Regresi Logistik hasil menunjukan bahwa Analisis Regresi Logistik

tidak mampu memprediksi respon kategori 2. Kemungkinan hal ini

disebabkan karena banyaknya amatan pada ketiga respon tidak

seimbang. Sebanyak total 40 amatan dengan respon kategori 2 terjadi

salah klasifikasi. Sedangkan metode Support Vector Machine mampu

memprediksi respon kategori 2 dengan baik. Hal ini merupakan salah

satu kelebihan dari metode Support Vector Machine dibandingkan

dengan metode lain, yaitu metode Support Vector Machine tidak

terlalu sensitif apabila diterapkan pada imbalance data sehingga

tetap memberikan hasil yang baik (Sembiring, 2007).

Pada tahun 2013, Maulidya membandingkan Analisis

Diskriminan dan Analisis Regresi Logistik untuk menyelesaikan

kasus klasifikasi tempat belanja masyarakat di Sidoarjo. Hasil

penelitian tersebut menyimpulkan bahwa Analisis Regresi Logistik

lebih baik daripada Analisis Diskriminan dengan akurasi sebesar

80%. Pada penelitian ini data tersebut diterapkan pada metode

Analisis Regresi Logistik dan Support Vector Machine. Hasil dari

penelitian ini menunjukan bahwa ketika data tersebut diterapkan

menggunakan metode analisis Regresi Logistik memberikan nilai

APER sebesar 16% atau tingkat akurasi sebesar 84% dan Support

Vector Machine nilai APER sebesar 12% atau tingkat akurasi sebesar

88%. Hal ini menunjukan bahwa metode Support Vector Machine

lebih baik dalam menyelesaikan klasifikasi daripada Regresi logistik

apabila diterapkan pada Data 2.

Utama (2011) melakukan penelitian untuk mengetahui faktor-

faktor yang mempengaruhi keputusan pemberian kredit usaha rakyat

Bank BRI cabang Malang. Pada penelitian tersebut menggunakan

Analisis Regresi untuk mengetahui kausalitas antar variabel. Pada

penelitian ini data tersebut diterapkan pada metode Analisis Regresi

Logistik dan Support Vector Machine. Hasil dari penelitian ini

menunjukan bahwa ketika data tersebut diterapkan menggunakan

metode analisis Regresi Logistik memberikan nilai APER pada data

testing sebesar 9.1% atau tingkat akurasi sebesar 90.9% dan Support

Vector Machine nilai APER sebesar 9.1% atau tingkat akurasi

sebesar 90.9%. Hal ini menunjukan bahwa metode Support Vector

Machine lebih baik dalam menyelesaikan klasifikasi daripada

Regresi logistik apabila diterapkan pada Data 3.

53

BAB V

KESIMPULAN DAN SARAN

1.1. Kesimpulan

Berdasarkan hasil di atas dapat diambil kesimpulan sebagai

berikut:

1. Model klasifikasi Analisis Regresi Logistik dan Support Vector

Machine yang terbentuk dapat dituliskan sebagai berikut:

Model Data Persamaan

Regresi

Logistik

Data 1

( ) ( ) ( )

( ) ( )

( ) ( ) ( )

( ) ( )

Data 2 ( )

Data 3 ( )

Support

Vector

Machine

Data 1

( ) ∑

( ‖ ‖ )

( ) ∑

( ‖ ‖ )

Data 2 ( ) ∑

( ‖ ‖ )

Data 3 ( ) ∑

( ‖ ‖ )

2. Berdasarkan uji Press’Q disimpulkan bahwa Analisis Regresi

Logistik dan Support Vector Machine telah konsisten dalam

menyelesaikan kasus klasifikasi pada ketiga data tersebut.

Selain itu nilai APER menggunakan Analisis Regresi Logistik

untuk Data 1 sebersar 14%, Data 2 sebesar 16%, dan Data 3

sebesar 9.1%. sedangkan nilai APER menggunakan Support

54

Vector Machine untuk Data 1 sebesar 8%, Data 2 sebesar 12%,

dan Data 3 sebesar 9.1%.

3. Secara keseluruhan dapat disimpulkan dalam menyelesaikan

masalah klasifikasi, metode Support Vector Machine lebih baik

daripada Analisis Regresi Logistik apabila diterapkan pada Data

1, Data 2 dan Data 3. Walaupun karakteristik data berbeda,

Support Vector Machine masih memberikan hasil yang baik.

Namun disisi lain Support Vector Machine tidak dapat

digunakan untuk mengetahui hubungan antar variabel

sebagaimana Analisis Regresi Logistik.

1.2. Saran

Pada penelitian ini Analisis regresi tidak mampu memprediksi

respon kategori 2 pada Data 1 dikarenakan banyak amatan pada

setiap kaegori variabel respon tidak seimbang, sehingga hasil yang

didapatkan tidak maksimal. Pada penelitian selanjutnya agar

memperhatikan banyak amatan pada setiap kategori variabel respon.

55

DAFTAR PUSTAKA

Agresti, A. 2002. Categorical Data Analysis. Second Edition.

Willey-Interscince. New Jersey.

Akbar, A.L. 2015. Implementasi Algoritma Support Vector Machine

Untuk Mengetahui Tingkat Resiko Stroke. Tugas Akhir

Fakultas Ilmu Komputer Universitas Brawijaya

Burges, C.J.C. 1998. A Tutorial on Support Vector Machines for

Pattern Recognition. Kluwer Academic. Boston.

Bishop, C.M. 2006. Pattern Recognition and Machine Learning.

Springer. Cambrige.

Cristianini, N. 2000. An Introduction to Support Vector Machines.

Cambrige University Press. Cambrige.

Gujarati, D.N. 2004. Basic Econometrics, Fourth Edition. The

McGraw-Hill Companies.

Hastie, T., Tibshirani, R dan Friedman, J. 2008. Elements of

Statistical Learning.Second Edition. Springer Science

Bussines Media. Stanford.

Hair, Jr. J.F., Black, W.C dan Babin, B.J. 2010. Multivariate Data

Analysis. Seventh Edition. Pearson Prentice Hall. America.

Hermawati, F.A. 2013. Data Mining. CV Andi Offset. Yogyakarta.

Hosmer, D.W dan Lemeshow, S. 2000. Applied Logistic

Regression.Second Edition. Willey-Interscince. Canada.

Hsu, C., Chang, C dan Lin, L. 2016. A Practical Guide to Support

Vector Classification. Departement of Computer Science.

http://ww.csie.ntu.edu.tw/~cjlin.

Johnson, R dan Wichern, D.W. 1998. Applied Multivariate

Statistical Analysis, Prentice-Hall, Englewood Cliffs, N.J

http://ww.csie.ntu.edu.tw/~cjlin

56

Maulidya. 2013. Perbandingan Analisis Diskriminan dan Regresi

Logistik. Jurnal Jurusan Matematika Universitas Negeri

Surabaya.

Michie, D., Spiegelhater, D.J dan Taylor, C.C. 1994. Machine

Learning, Neural, and Statistical Classification. Cambridge.

Novianti, F.A dan Purnami, S.W. 2012. Analisis Diagnosis Pasien

Kanker Payudara Menggunakan Regresi Logistik dan

Support Vector Machine Berdasarkan Hasil Mmografi.

Jurnal SAINS DAN SENI ITS.

Nugroho, A.S., Witarto, A.B dan Handoko, D. 2003. Support Vector

Machine Teori dan Aplikasinya Dalam Bioinformatika.

IlmuKomputer.com.

Octaviani, P.A., Wilandari, Y dan Ispriyanti, D. dkk. 2014.

Penerapan Metode Klasifikasi Support Vector Machine

(SVM) Pada Data Akreditasi Sekolah Dasar di Kabupaten

Magelang. Jurnal GAUSSIAN Universitas Diponegoro.

Prasetyo, E. 2012. Data Mining Konsep dan Aplikasinya

Menggunakan MATLAB. CV Andi Offset. Yogyakarta.

Rachman, F dan Purnami, S.W. 2012. Perbandingan Klasifikasi

Tingkat Keganasan Breast Cancer Dengan Menggunakan

Regresi Logistik Ordinal Dan Support Vector Machine

(SVM). Jurnal SAINS DAN SENI ITS.

Santosa, B. 2015. Tutorial Support Vector Machine. Teknik Industri

ITS.

Scholkopf, B dan Smola, A.J. 2002. Learning With Kernels. The

MTT Press Cambridge Massachussets. London.

Sembiring, K. 2007. Penerapan Teknik Support Vector Machine

untuk Pendeteksian Intrusi pada Jaringan. Jurnal Teknik

Informatika ITB.

57

Utama, M.P. 2012. Analisis Faktor-Faktor Yang Mempengaruhi

Keputusan Pemberian Kredit Usaha Rakyat. Tugas Akhir

Jurusan Ekonomi Universitas Brawijaya.

Vapnik, V.N. 1999. The Nature of Statistical Learning Theory.

Second Edition. Springer. New York.

Zulkifli, M.J.M. 2013. Pendekatan Regresi Logistik Multinomial

Pada Klasifikasi Pemilihan Jurusan Siswa SMA 5 Negeri

Malang. Tugas Akhir Jurusan Matematika Universitas

Brawijaya.

HALAMAN JUDUL KLASIFIKASI MENGGUNAKAN METODE REGRESI LOGISTIK …repository.ub.ac.id/3988/1/Deisi...

Documents

Transcript of HALAMAN JUDUL KLASIFIKASI MENGGUNAKAN METODE REGRESI LOGISTIK …repository.ub.ac.id/3988/1/Deisi...