75-226-1-PB

4
KAJIAN MODEL REGRESI LOGISTIK DAN GEOGRAPHICALLY WEIGHTED LOGISTIC REGRESSION (GWLR) DENGAN FUNGSI PEMBOBOT ADAPTIVE GAUSSIAN KERNEL DAN GWLR DENGAN FUNGSI PEMBOBOT BISQUARE KERNEL Lintang Asdya Rakhmasanti, Waego Hadi Nugroho, Eni Sumarminingsih Jurusan Matematika, F.MIPA, Universitas Brawijaya Email: [email protected] Abstrak. Analisis regresi logistik biner merupakan analisis untuk mengetahui bagaimana hubungan antara peubah respon yang bersifat biner dengan satu atau lebih peubah prediktor. Analisis ini akan menghasilkan model yang kurang tepat apabila diterapkan pada data yang dipengaruhi lokasi secara geografis atau biasa disebut dengan data spasial. Hal ini karena analisis regresi logistik biner mengabaikan pengaruh dari lokasi tersebut. Pengaruh spasial ini tidak boleh diabaikan karena akan mengurangi kebaikan model. Salah satu analisis spasial adalah Geographically Weighted Logistic Regression (GWLR). Analisis ini digunakan untuk mengetahui hubungan antara peubah respon yang bersifat kategorik dengan satu atau lebih peubah respon pada data spasial. Pengujian heterogenitas spasial perlu dilakukan sebelum melakukan pemodelan. Pengujian ini menggunakan statistik uji Breuch Pagan. Dalam pemodelan ini, diperlukan jarak antar lokasi dan bandwidth untuk pembobotan dalam model. Fungsi pembobot yang digunakan adalah fungsi pembobot adaptive Gaussian dan adaptive bisquare kernel. Fungsi pembobot tersebut memberikan nilai bandwidth yang berbeda pada setiap lokasi. Berdasarkan hasil pemodelan, diketahui bahwa faktor yang mempengaruhi Indeks Pembangunan Manusia (IPM) Jawa Timur tahun 2010 pada beberapa lokasi adalah persentase penduduk miskin dan laju pertumbuhan ekonomi. Faktor yang mempengaruhi balita gizi buruk Jawa Timur tahun 2011 adalah persentase pemeriksaan neonatus dan penduduk miskin, sedangkan yang mempengaruhi angka buta huruf Jawa Timur tahun 2011 adalah rasio fasilitas per jumlah siswa sekolah menengah pertama. Model yang sesuai untuk digunakan dalam memodelkan ketiga data adalah model GWLR dengan fungsi pembobot adaptive Gaussian kernel. Kata Kunci: Analisis Regresi Logistik Biner, GWLR, Fungsi Pembobot Adaptive Gaussian dan Bisquare Kernel. 1. PENDAHULUAN Analisis regresi kurang tepat untuk digunakan pada kumpulan data yang dipengaruhi oleh lokasi geografis atau biasa disebut dengan data spasial. Oleh karena itu para peneliti mengembangkan metode Geographically Weighted Regression (GWR). Metode ini mulai dikembangkan untuk membentuk model pada kumpulan data yang dipengaruhi oleh lokasi atau letak secara geografis data tersebut. Pada analisis regresi dengan peubah respon bersifat kategori, Atkinson et al. (2003) menuliskan bahwa GWR dikembangkan untuk memprediksi atau menduga model dari kumpulan data yang memiliki peubah respon biner melalui model logistik. Teknik ini disebut Geographically Weighted Logistic Regression (GWLR). Bagian penting dalam pemodelan menggunakan metode GWR adalah menentukan pembobot untuk menduga parameter model. Pembobot yang sering digunakan adalah fungsi kernel gaussian dan bisquare. Chasco et al. (2008) mengatakan bahwa fungsi kernel pada umumnya dibagi menjadi dua kategori, yaitu, fixed dan adaptive kernel. Metode yang digunakan dalam penelitian ini adalah geographically weighted logistic regression dengan menggunakan fungsi pembobot adaptive gaussian kernel dan adaptive bisquare kernel. Pada penelitan ini, permasalahan yang dibahas adalah IPM 2010 sebagai data 1, balita gizi buruk 2011 sebagai data 2, dan angka buta huruf 2011 sebagai data 3 untuk Provinsi Jawa Timur. Penelitian ini bertujuan untuk memodelkan ketiga data dengan menggunakan model regresi logistik dan Geographically Weighted Logistic Regression (GWLR). Dengan demikian, dapat diketahui model mana yang lebih sesuai serta faktor apa saja yang mempengaruhi ketiga permasalahan tersebut. 2. TINJAUAN PUSTAKA 2.1 Model Geographically Weighted Logistic Regression (GWLR) Geographically Weighted Regression (GWR) dikembangkan untuk membentuk model pada kumpulan data yang dipengaruhi oleh lokasi data tersebut. GWR memungkinkan parameter bagi masing-masing lokasi dalam pengamatan untuk diduga dan dipetakan. Hal ini akan membantu dalam pembentukkan model regresi yang lebih tepat bila dibandingkan dengan analisis regresi biasa (Brunsdon, et al., 1996 ). GWR dikembangkan untuk menduga model dari kumpulan data yang

Transcript of 75-226-1-PB

Page 1: 75-226-1-PB

KAJIAN MODEL REGRESI LOGISTIK DAN GEOGRAPHICALLY

WEIGHTED LOGISTIC REGRESSION (GWLR) DENGAN FUNGSI

PEMBOBOT ADAPTIVE GAUSSIAN KERNEL DAN GWLR DENGAN

FUNGSI PEMBOBOT BISQUARE KERNEL

Lintang Asdya Rakhmasanti, Waego Hadi Nugroho, Eni Sumarminingsih

Jurusan Matematika, F.MIPA, Universitas Brawijaya

Email: [email protected]

Abstrak. Analisis regresi logistik biner merupakan analisis untuk mengetahui bagaimana hubungan antara peubah respon

yang bersifat biner dengan satu atau lebih peubah prediktor. Analisis ini akan menghasilkan model yang kurang tepat apabila

diterapkan pada data yang dipengaruhi lokasi secara geografis atau biasa disebut dengan data spasial. Hal ini karena analisis

regresi logistik biner mengabaikan pengaruh dari lokasi tersebut. Pengaruh spasial ini tidak boleh diabaikan karena akan

mengurangi kebaikan model. Salah satu analisis spasial adalah Geographically Weighted Logistic Regression (GWLR).

Analisis ini digunakan untuk mengetahui hubungan antara peubah respon yang bersifat kategorik dengan satu atau lebih

peubah respon pada data spasial. Pengujian heterogenitas spasial perlu dilakukan sebelum melakukan pemodelan. Pengujian

ini menggunakan statistik uji Breuch Pagan. Dalam pemodelan ini, diperlukan jarak antar lokasi dan bandwidth untuk

pembobotan dalam model. Fungsi pembobot yang digunakan adalah fungsi pembobot adaptive Gaussian dan adaptive

bisquare kernel. Fungsi pembobot tersebut memberikan nilai bandwidth yang berbeda pada setiap lokasi. Berdasarkan hasil

pemodelan, diketahui bahwa faktor yang mempengaruhi Indeks Pembangunan Manusia (IPM) Jawa Timur tahun 2010 pada

beberapa lokasi adalah persentase penduduk miskin dan laju pertumbuhan ekonomi. Faktor yang mempengaruhi balita gizi

buruk Jawa Timur tahun 2011 adalah persentase pemeriksaan neonatus dan penduduk miskin, sedangkan yang

mempengaruhi angka buta huruf Jawa Timur tahun 2011 adalah rasio fasilitas per jumlah siswa sekolah menengah pertama.

Model yang sesuai untuk digunakan dalam memodelkan ketiga data adalah model GWLR dengan fungsi pembobot adaptive

Gaussian kernel.

Kata Kunci: Analisis Regresi Logistik Biner, GWLR, Fungsi Pembobot Adaptive Gaussian dan Bisquare Kernel.

1. PENDAHULUAN

Analisis regresi kurang tepat untuk digunakan pada kumpulan data yang dipengaruhi oleh lokasi

geografis atau biasa disebut dengan data spasial. Oleh karena itu para peneliti mengembangkan

metode Geographically Weighted Regression (GWR). Metode ini mulai dikembangkan untuk

membentuk model pada kumpulan data yang dipengaruhi oleh lokasi atau letak secara geografis data

tersebut. Pada analisis regresi dengan peubah respon bersifat kategori, Atkinson et al. (2003)

menuliskan bahwa GWR dikembangkan untuk memprediksi atau menduga model dari kumpulan data

yang memiliki peubah respon biner melalui model logistik. Teknik ini disebut Geographically

Weighted Logistic Regression (GWLR). Bagian penting dalam pemodelan menggunakan metode

GWR adalah menentukan pembobot untuk menduga parameter model. Pembobot yang sering

digunakan adalah fungsi kernel gaussian dan bisquare. Chasco et al. (2008) mengatakan bahwa fungsi

kernel pada umumnya dibagi menjadi dua kategori, yaitu, fixed dan adaptive kernel. Metode yang

digunakan dalam penelitian ini adalah geographically weighted logistic regression dengan

menggunakan fungsi pembobot adaptive gaussian kernel dan adaptive bisquare kernel.

Pada penelitan ini, permasalahan yang dibahas adalah IPM 2010 sebagai data 1, balita gizi

buruk 2011 sebagai data 2, dan angka buta huruf 2011 sebagai data 3 untuk Provinsi Jawa Timur.

Penelitian ini bertujuan untuk memodelkan ketiga data dengan menggunakan model regresi logistik

dan Geographically Weighted Logistic Regression (GWLR). Dengan demikian, dapat diketahui model

mana yang lebih sesuai serta faktor apa saja yang mempengaruhi ketiga permasalahan tersebut.

2. TINJAUAN PUSTAKA

2.1 Model Geographically Weighted Logistic Regression (GWLR)

Geographically Weighted Regression (GWR) dikembangkan untuk membentuk model pada

kumpulan data yang dipengaruhi oleh lokasi data tersebut. GWR memungkinkan parameter bagi

masing-masing lokasi dalam pengamatan untuk diduga dan dipetakan. Hal ini akan membantu dalam

pembentukkan model regresi yang lebih tepat bila dibandingkan dengan analisis regresi biasa

(Brunsdon, et al., 1996 ). GWR dikembangkan untuk menduga model dari kumpulan data yang

Page 2: 75-226-1-PB

294

memiliki peubah respon yang bersifat kategori melalui model logistik. Teknik ini disebut

geographically weighted logistic regression (Atkinson, et al., 2003).

Pada teknik GWLR lokasi geografis dimasukkan ke dalam model melalui fungsi pembobot.

Pembobot (wij) diberikan pada masing-masing observasi. Sehingga model yang terbentuk adalah:

( ) ( ( ) ∑ ( )

)

( ( ) ∑ ( ) )

Bentuk logit untuk GWLR adalah:

[ ( )] ( ) ∑ ( )

2.2 Pengujian Parameter Model GWLR

Purhadi et. al. dalam Lailiyah dan Purhadi (2012) mengatakan bahwa pada model GWLR

dilakukan pengujian hipotesis, yaitu, uji parameter secara parsial dan serentak. Hipotesis uji parsial

adalah sebagai berikut:

H0 : ( )

H1 : ( )

Statistik uji yang digunakan adalah

( )

( ( ))

Hipotesis nol ditolak apabila |Z| > Zα/2.

Hipotesis uji serentak adalah sebagai berikut :

H0 : β1( ) = β2( ) = ... = βp( ) = 0

H1 : paling tidak terdapat ada satu βj ( ) ≠ 0

Statistik uji yang digunakan adalah:

( ( )) [ ( )

( )]

Kriteria penolakan H0 adalah apabila ( ( )) > χ2v( α).

2.3 Pembobot dan Penentuan Bandwidth Optimum

Pembobotan digunakan untuk memberikan penekanan yang berbeda untuk observasi yang

berbeda dalam menghasilkan pendugaan parameter (Saefuddin, et al., 2012). Pembobotan yang

digunakan dalam penelitian ini adalah pembobot fungsi adaptive kernel, yaitu, adaptive Gaussian dan

Bisquare. Fungsi adaptive kernel memiliki nilai bandwidth yang berbeda pada setiap observasi.

(Chasco et al., 2008).

Fungsi pembobot kernel adaptive Gaussian sebagai berikut (Chasco et al., 2008):

(

⁄ )

Fungsi pembobot kernel adaptive Bisquare adalah sebagai berikut :

{[ ( ⁄ ) ]

Jarak euclidean dihitung dengan menggunakan rumus :

√( ) ( )

Penentuan bandwidth yang optimum merupakan salah satu hal yang penting. Bandwidth

merupakan sebuah nilai yang mengontrol kisaran suatu lingkaran pengaruh pada masing-masing

observasi (Chasco et al., 2008). Ukuran bandwidth harus dipilih dengan baik karena dapat

mempengaruhi hasil regresi. Pada penelitian ini digunakan metode AIC, karena menurut

Forheringham, et al. (2002) AIC lebih umum dalam pengaplikasian dibandingkan dengan CV karena

AIC dapat digunakan dalam GWR poisson dan logistik. AIC dituliskan dengan persamaan berikut:

( ) ( ) ( ) Menurut Forheringham, et al. (2002), selain dapat digunakan untuk memperoleh nilai

bandwidth yang optimum, AIC juga dapat digunakan dalam pemilihan model terbaik. Pada penelitian

ini, AIC digunakan untuk menentukan bandwidth optimum dan pemilihan model terbaik.

Page 3: 75-226-1-PB

295

2.4 Pengujian Asumsi Non Multikolinieritas dan Heterogenitas Spasial

Asumsi non-multikolinieritas mengharuskan tidak adanya korelasi antara satu peubah prediktor

dengan peubah prediktor lainnya. Salah satu cara untuk mendeteksi adanya multikolinieritas dalam

data adalah dengan melihat nilai Varian Inflation Factor (VIF). Apabila nilai VIF > 10, maka dapat

dikatakan bahwa terdapat multikolinieritas. Persamaan dari VIF dituliskan sebagai berikut (Kutner, et.

al.,2005):

Heterogenitas Spasial terjadi akibat adanya perbedaan antara satu wilayah dengan wilayah

lainnya. Pengujian heterogenitas Spasial menggunakan uji Breusch-Pagan. Anselin dalam

Suhardiyanto (2012) mengatakan bahwa hipotesis yang mendasari pengujian heterogenitas spasial

menggunakan uji Breusch-Pagan adalah:

H0 : σ12 = σ2

2 = ... = σn

2 = σ

2

H1 : minimal terdapat satu σi2 ≠ σ

2

Statistik uji BP adalah

( ) (

) (

)

dengan vektor f adalah

(

)

3. METODOLOGI

3.1 Sumber Data

Data yang digunakan pada penelitian ini adalah data sekunder yang diperoleh dari Badan Pusat

Statistik (BPS) yaitu berdasarkan hasil Survei Sosial Ekonomi Nasional (SUSENAS) tahun 2010,

Dinas Kesehatan Provinsi Jawa Timur, Laporan eksekutif pendidikan Provinsi Jawa Timur tahun

2011, dan Provinsi Jawa Timur dalam angka 2012. Pada penelitian ini, data yang digunakan adalah

indeks pembangunan manusia di Jawa Timur tahun 2010, persentase balita gizi buruk di Jawa Timur

tahun 2011, dan angka buta huruf di Jawa Timur tahun 2011.

3.2 Metode Analisis

Tahapan penelitian adalah: (1) melakukan pengujian multikolinieritas; (2) melakukan pemodelan

regresi logistik; (3) melakukan pengujian heterogenitas spasial; (4) melakukan pemodelan GWLR.

Prosedur pemodelan GWLR adalah (1) menghitung jarak euclidean antar lokasi; (2) menentukan

bandwidth optimum; (3) menghitung matriks pembobot dengan fungsi pembobot adaptive gaussian

dan bisquare kernel; (4) melakukan pendugaan serta pengujian parameter model; (5) melakukan

pengujian asumsi non multikolinieritas dan heterogenitas spasial.

4. HASIL DAN PEMBAHASAN

Pengujian asumsi non multikolinieritas menghasilkan keputusan bahwa tidak terdapat

multikolinieritas pada data karena nilai VIF untuk masing-masing peubah prediktor bernilai di bawah

10. Sehingga data dapat dimodelkan menggunakan model regresi logistik. Pengujian heterogenitas

spasial menghasilkan keputusan bahwa terdapat keragaman spasial pada masing-masing data,

sehingga data dapat dimodelkan menggunakan model GWLR.

Model regresi logistik yang terbentuk untuk data 1 (Indeks Pembangunan Manusia) adalah:

( ) ( )

( )

[ ( )]

Perhitungan jarak auclidean dan matriks pembobot dilakukan dengan bantuan Ms. Excel 2007,

sedangkan perhitungan bandwidth pada setiap lokasi dilakukan dengan bantuan software R 3.0.1.

Pendugaan parameter model dilakukan dengan bantuan software GWR 4. Pendugaan serta pengujian

parameter pada model GWLR dilakukan pada setiap kabupaten/kota. Hasil pengujian parameter pada

data 1 untuk fungsi pembobot adaptive gaussian kernel adalah sebagai berikut:

Page 4: 75-226-1-PB

296

Tabel 1. Hasil pengujian parameter pada data 1 untuk Kota Probolinggo

Parameter Nilai duga Salah baku Stat uji Z Keputusan

β0 5.650 2.711 2.084 Tolak H0

β1 -2.483 1.557 -1.594 Terima H0

β2 6.408 3.608 1.776 Tolak H0

β3 2.095 1.935 1.083 Terima H0

Berdasarkan Tabel 1., model GWLR yang terbentuk adalah

( ) ( )

( )

[ ( )]

Berdasarkan persamaan di atas, diperoleh informasi bahwa setiap kenaikan 1% persentase penduduk

miskin (X1) akan menurunkan peluang IPM Kota Probolinggo bernilai tinggi sebesar 0.083 kali

dengan mengasumsikan peubah lain bernilai konstan. Selain itu, setiap kenaikan 1% laju

pertumbuhan ekonomi (X2) akan meningkatkan peluang IPM Kota Probolinggo bernilai tinggi sebesar

606 kali. Setiap kenaikan 1% tingkat pengangguran terbuka (X3) akan meningkatkan peluang IPM

Kota Probolinggo bernilai tinggi sebesar 8.125 kali.

Pemilihan model dilakukan dengan melihat nilai AIC dari setiap model. Berdasarkan penelitian

ini, untuk ketiga data yang digunakan nilai AIC terkecil terdapat pada model GWLR dengan fungsi

pembobot adaptive gaussian kernel. Hal ini menandakan bahwa pada data tersebut, model ini lebih

baik digunakan dibandingkan model regresi logistik maupun GWLR dengan fungsi pembobot

adaptive bisquare kernel

5. KESIMPULAN

Model Geographically Weighted Logistic Regression (GWLR) dengan fungsi pembobot

adaptive gaussian kernel lebih sesuai digunakan untuk memodelkan data Indeks Pembangunan

Manusia (IPM) tahun 2010, balita gizi buruk 2011, dan angka buta huruf 2011 Provinsi Jawa Timur.

Berdasarkan hasil pemodelan, faktor yang mempengaruhi IPM adalah persentase penduduk mikin dan

laju pertumbuhan ekonomi. Faktor yang mempengaruhi persentase balita gizi buruk adalah persentase

ibu hamil yang mendapatkan tablet Fe dan persentase penduduk miskin. Faktor yang mempengaruhi

pada angka buta huruf adalah rasio fasilitas sekolah mengengah pertama per jumlah siswa sekolah

mengengah pertama

DAFTAR PUSTAKA

Atkinson, P. M., German, S. E., Sear, D. A. dan Clark, M. J., (2003), Exploring the Relation Between

Riverbank Erosion and Geomorphological Controls Using Geographically Weighted Logistic

Regression, Geographical Analysis, 35, hal. 59-82.

Brundsdon, C., Fotheringham, A. S. dan Charlton, M. E., (1996), Geographically Weighted Regression:

A Method for Exploring Spatial Nonstationarity, Geographical Analysis, 28, hal. 281-298.

Chasco, C., Garcia, I. dan Vicens, J., (2008), Modeling Spatial Variations in Household Disposable

Income with Geographically Weighted Regression, Munich Personal RePEc Archive Paper, No.

9581.

Fotheringham, A. S., Brunsdon, C. dan Charlton, M., (2002), Geographically Weighted Regression The

Analysis of Spatially Varying Relationships, John Wiley & Sons Ltd. England.

Kutner, M. H., Nachtsheim, C.J., Neter, J. dan Li, W., (2005), Applied Liner Statistical Models, Fifth

Edition, Mc Graw Hill. New York.

Lailiyah, N. dan Purhadi, (2012), Pemodelan Faktor-Faktor yang Mempengaruhi Tingkat Buta Huruf

Kabupaten/Kota di Jawa Timur dengan Geographically Weighted Ordinal Logistic Regression,

Jurnal Sains dan Seni ITS, 1, hal. 213-218.

Saefuddin, A., Setiabudi, N.A. dan Fitrianto, A., (2012), On Comparison Between Logistic Regression

and Geographically Weighted Logistic Regression: with Application to Indonesian Poverty Data,

World Applied Sciences Journal, 19(2), hal. 205-210.