KAJIAN MODEL REGRESI LOGISTIK DAN GEOGRAPHICALLY
WEIGHTED LOGISTIC REGRESSION (GWLR) DENGAN FUNGSI
PEMBOBOT ADAPTIVE GAUSSIAN KERNEL DAN GWLR DENGAN
FUNGSI PEMBOBOT BISQUARE KERNEL
Lintang Asdya Rakhmasanti, Waego Hadi Nugroho, Eni Sumarminingsih
Jurusan Matematika, F.MIPA, Universitas Brawijaya
Email: [email protected]
Abstrak. Analisis regresi logistik biner merupakan analisis untuk mengetahui bagaimana hubungan antara peubah respon
yang bersifat biner dengan satu atau lebih peubah prediktor. Analisis ini akan menghasilkan model yang kurang tepat apabila
diterapkan pada data yang dipengaruhi lokasi secara geografis atau biasa disebut dengan data spasial. Hal ini karena analisis
regresi logistik biner mengabaikan pengaruh dari lokasi tersebut. Pengaruh spasial ini tidak boleh diabaikan karena akan
mengurangi kebaikan model. Salah satu analisis spasial adalah Geographically Weighted Logistic Regression (GWLR).
Analisis ini digunakan untuk mengetahui hubungan antara peubah respon yang bersifat kategorik dengan satu atau lebih
peubah respon pada data spasial. Pengujian heterogenitas spasial perlu dilakukan sebelum melakukan pemodelan. Pengujian
ini menggunakan statistik uji Breuch Pagan. Dalam pemodelan ini, diperlukan jarak antar lokasi dan bandwidth untuk
pembobotan dalam model. Fungsi pembobot yang digunakan adalah fungsi pembobot adaptive Gaussian dan adaptive
bisquare kernel. Fungsi pembobot tersebut memberikan nilai bandwidth yang berbeda pada setiap lokasi. Berdasarkan hasil
pemodelan, diketahui bahwa faktor yang mempengaruhi Indeks Pembangunan Manusia (IPM) Jawa Timur tahun 2010 pada
beberapa lokasi adalah persentase penduduk miskin dan laju pertumbuhan ekonomi. Faktor yang mempengaruhi balita gizi
buruk Jawa Timur tahun 2011 adalah persentase pemeriksaan neonatus dan penduduk miskin, sedangkan yang
mempengaruhi angka buta huruf Jawa Timur tahun 2011 adalah rasio fasilitas per jumlah siswa sekolah menengah pertama.
Model yang sesuai untuk digunakan dalam memodelkan ketiga data adalah model GWLR dengan fungsi pembobot adaptive
Gaussian kernel.
Kata Kunci: Analisis Regresi Logistik Biner, GWLR, Fungsi Pembobot Adaptive Gaussian dan Bisquare Kernel.
1. PENDAHULUAN
Analisis regresi kurang tepat untuk digunakan pada kumpulan data yang dipengaruhi oleh lokasi
geografis atau biasa disebut dengan data spasial. Oleh karena itu para peneliti mengembangkan
metode Geographically Weighted Regression (GWR). Metode ini mulai dikembangkan untuk
membentuk model pada kumpulan data yang dipengaruhi oleh lokasi atau letak secara geografis data
tersebut. Pada analisis regresi dengan peubah respon bersifat kategori, Atkinson et al. (2003)
menuliskan bahwa GWR dikembangkan untuk memprediksi atau menduga model dari kumpulan data
yang memiliki peubah respon biner melalui model logistik. Teknik ini disebut Geographically
Weighted Logistic Regression (GWLR). Bagian penting dalam pemodelan menggunakan metode
GWR adalah menentukan pembobot untuk menduga parameter model. Pembobot yang sering
digunakan adalah fungsi kernel gaussian dan bisquare. Chasco et al. (2008) mengatakan bahwa fungsi
kernel pada umumnya dibagi menjadi dua kategori, yaitu, fixed dan adaptive kernel. Metode yang
digunakan dalam penelitian ini adalah geographically weighted logistic regression dengan
menggunakan fungsi pembobot adaptive gaussian kernel dan adaptive bisquare kernel.
Pada penelitan ini, permasalahan yang dibahas adalah IPM 2010 sebagai data 1, balita gizi
buruk 2011 sebagai data 2, dan angka buta huruf 2011 sebagai data 3 untuk Provinsi Jawa Timur.
Penelitian ini bertujuan untuk memodelkan ketiga data dengan menggunakan model regresi logistik
dan Geographically Weighted Logistic Regression (GWLR). Dengan demikian, dapat diketahui model
mana yang lebih sesuai serta faktor apa saja yang mempengaruhi ketiga permasalahan tersebut.
2. TINJAUAN PUSTAKA
2.1 Model Geographically Weighted Logistic Regression (GWLR)
Geographically Weighted Regression (GWR) dikembangkan untuk membentuk model pada
kumpulan data yang dipengaruhi oleh lokasi data tersebut. GWR memungkinkan parameter bagi
masing-masing lokasi dalam pengamatan untuk diduga dan dipetakan. Hal ini akan membantu dalam
pembentukkan model regresi yang lebih tepat bila dibandingkan dengan analisis regresi biasa
(Brunsdon, et al., 1996 ). GWR dikembangkan untuk menduga model dari kumpulan data yang
294
memiliki peubah respon yang bersifat kategori melalui model logistik. Teknik ini disebut
geographically weighted logistic regression (Atkinson, et al., 2003).
Pada teknik GWLR lokasi geografis dimasukkan ke dalam model melalui fungsi pembobot.
Pembobot (wij) diberikan pada masing-masing observasi. Sehingga model yang terbentuk adalah:
( ) ( ( ) ∑ ( )
)
( ( ) ∑ ( ) )
Bentuk logit untuk GWLR adalah:
[ ( )] ( ) ∑ ( )
2.2 Pengujian Parameter Model GWLR
Purhadi et. al. dalam Lailiyah dan Purhadi (2012) mengatakan bahwa pada model GWLR
dilakukan pengujian hipotesis, yaitu, uji parameter secara parsial dan serentak. Hipotesis uji parsial
adalah sebagai berikut:
H0 : ( )
H1 : ( )
Statistik uji yang digunakan adalah
( )
( ( ))
Hipotesis nol ditolak apabila |Z| > Zα/2.
Hipotesis uji serentak adalah sebagai berikut :
H0 : β1( ) = β2( ) = ... = βp( ) = 0
H1 : paling tidak terdapat ada satu βj ( ) ≠ 0
Statistik uji yang digunakan adalah:
( ( )) [ ( )
( )]
Kriteria penolakan H0 adalah apabila ( ( )) > χ2v( α).
2.3 Pembobot dan Penentuan Bandwidth Optimum
Pembobotan digunakan untuk memberikan penekanan yang berbeda untuk observasi yang
berbeda dalam menghasilkan pendugaan parameter (Saefuddin, et al., 2012). Pembobotan yang
digunakan dalam penelitian ini adalah pembobot fungsi adaptive kernel, yaitu, adaptive Gaussian dan
Bisquare. Fungsi adaptive kernel memiliki nilai bandwidth yang berbeda pada setiap observasi.
(Chasco et al., 2008).
Fungsi pembobot kernel adaptive Gaussian sebagai berikut (Chasco et al., 2008):
(
⁄ )
Fungsi pembobot kernel adaptive Bisquare adalah sebagai berikut :
{[ ( ⁄ ) ]
Jarak euclidean dihitung dengan menggunakan rumus :
√( ) ( )
Penentuan bandwidth yang optimum merupakan salah satu hal yang penting. Bandwidth
merupakan sebuah nilai yang mengontrol kisaran suatu lingkaran pengaruh pada masing-masing
observasi (Chasco et al., 2008). Ukuran bandwidth harus dipilih dengan baik karena dapat
mempengaruhi hasil regresi. Pada penelitian ini digunakan metode AIC, karena menurut
Forheringham, et al. (2002) AIC lebih umum dalam pengaplikasian dibandingkan dengan CV karena
AIC dapat digunakan dalam GWR poisson dan logistik. AIC dituliskan dengan persamaan berikut:
( ) ( ) ( ) Menurut Forheringham, et al. (2002), selain dapat digunakan untuk memperoleh nilai
bandwidth yang optimum, AIC juga dapat digunakan dalam pemilihan model terbaik. Pada penelitian
ini, AIC digunakan untuk menentukan bandwidth optimum dan pemilihan model terbaik.
295
2.4 Pengujian Asumsi Non Multikolinieritas dan Heterogenitas Spasial
Asumsi non-multikolinieritas mengharuskan tidak adanya korelasi antara satu peubah prediktor
dengan peubah prediktor lainnya. Salah satu cara untuk mendeteksi adanya multikolinieritas dalam
data adalah dengan melihat nilai Varian Inflation Factor (VIF). Apabila nilai VIF > 10, maka dapat
dikatakan bahwa terdapat multikolinieritas. Persamaan dari VIF dituliskan sebagai berikut (Kutner, et.
al.,2005):
Heterogenitas Spasial terjadi akibat adanya perbedaan antara satu wilayah dengan wilayah
lainnya. Pengujian heterogenitas Spasial menggunakan uji Breusch-Pagan. Anselin dalam
Suhardiyanto (2012) mengatakan bahwa hipotesis yang mendasari pengujian heterogenitas spasial
menggunakan uji Breusch-Pagan adalah:
H0 : σ12 = σ2
2 = ... = σn
2 = σ
2
H1 : minimal terdapat satu σi2 ≠ σ
2
Statistik uji BP adalah
( ) (
) (
)
dengan vektor f adalah
(
)
3. METODOLOGI
3.1 Sumber Data
Data yang digunakan pada penelitian ini adalah data sekunder yang diperoleh dari Badan Pusat
Statistik (BPS) yaitu berdasarkan hasil Survei Sosial Ekonomi Nasional (SUSENAS) tahun 2010,
Dinas Kesehatan Provinsi Jawa Timur, Laporan eksekutif pendidikan Provinsi Jawa Timur tahun
2011, dan Provinsi Jawa Timur dalam angka 2012. Pada penelitian ini, data yang digunakan adalah
indeks pembangunan manusia di Jawa Timur tahun 2010, persentase balita gizi buruk di Jawa Timur
tahun 2011, dan angka buta huruf di Jawa Timur tahun 2011.
3.2 Metode Analisis
Tahapan penelitian adalah: (1) melakukan pengujian multikolinieritas; (2) melakukan pemodelan
regresi logistik; (3) melakukan pengujian heterogenitas spasial; (4) melakukan pemodelan GWLR.
Prosedur pemodelan GWLR adalah (1) menghitung jarak euclidean antar lokasi; (2) menentukan
bandwidth optimum; (3) menghitung matriks pembobot dengan fungsi pembobot adaptive gaussian
dan bisquare kernel; (4) melakukan pendugaan serta pengujian parameter model; (5) melakukan
pengujian asumsi non multikolinieritas dan heterogenitas spasial.
4. HASIL DAN PEMBAHASAN
Pengujian asumsi non multikolinieritas menghasilkan keputusan bahwa tidak terdapat
multikolinieritas pada data karena nilai VIF untuk masing-masing peubah prediktor bernilai di bawah
10. Sehingga data dapat dimodelkan menggunakan model regresi logistik. Pengujian heterogenitas
spasial menghasilkan keputusan bahwa terdapat keragaman spasial pada masing-masing data,
sehingga data dapat dimodelkan menggunakan model GWLR.
Model regresi logistik yang terbentuk untuk data 1 (Indeks Pembangunan Manusia) adalah:
( ) ( )
( )
[ ( )]
Perhitungan jarak auclidean dan matriks pembobot dilakukan dengan bantuan Ms. Excel 2007,
sedangkan perhitungan bandwidth pada setiap lokasi dilakukan dengan bantuan software R 3.0.1.
Pendugaan parameter model dilakukan dengan bantuan software GWR 4. Pendugaan serta pengujian
parameter pada model GWLR dilakukan pada setiap kabupaten/kota. Hasil pengujian parameter pada
data 1 untuk fungsi pembobot adaptive gaussian kernel adalah sebagai berikut:
296
Tabel 1. Hasil pengujian parameter pada data 1 untuk Kota Probolinggo
Parameter Nilai duga Salah baku Stat uji Z Keputusan
β0 5.650 2.711 2.084 Tolak H0
β1 -2.483 1.557 -1.594 Terima H0
β2 6.408 3.608 1.776 Tolak H0
β3 2.095 1.935 1.083 Terima H0
Berdasarkan Tabel 1., model GWLR yang terbentuk adalah
( ) ( )
( )
[ ( )]
Berdasarkan persamaan di atas, diperoleh informasi bahwa setiap kenaikan 1% persentase penduduk
miskin (X1) akan menurunkan peluang IPM Kota Probolinggo bernilai tinggi sebesar 0.083 kali
dengan mengasumsikan peubah lain bernilai konstan. Selain itu, setiap kenaikan 1% laju
pertumbuhan ekonomi (X2) akan meningkatkan peluang IPM Kota Probolinggo bernilai tinggi sebesar
606 kali. Setiap kenaikan 1% tingkat pengangguran terbuka (X3) akan meningkatkan peluang IPM
Kota Probolinggo bernilai tinggi sebesar 8.125 kali.
Pemilihan model dilakukan dengan melihat nilai AIC dari setiap model. Berdasarkan penelitian
ini, untuk ketiga data yang digunakan nilai AIC terkecil terdapat pada model GWLR dengan fungsi
pembobot adaptive gaussian kernel. Hal ini menandakan bahwa pada data tersebut, model ini lebih
baik digunakan dibandingkan model regresi logistik maupun GWLR dengan fungsi pembobot
adaptive bisquare kernel
5. KESIMPULAN
Model Geographically Weighted Logistic Regression (GWLR) dengan fungsi pembobot
adaptive gaussian kernel lebih sesuai digunakan untuk memodelkan data Indeks Pembangunan
Manusia (IPM) tahun 2010, balita gizi buruk 2011, dan angka buta huruf 2011 Provinsi Jawa Timur.
Berdasarkan hasil pemodelan, faktor yang mempengaruhi IPM adalah persentase penduduk mikin dan
laju pertumbuhan ekonomi. Faktor yang mempengaruhi persentase balita gizi buruk adalah persentase
ibu hamil yang mendapatkan tablet Fe dan persentase penduduk miskin. Faktor yang mempengaruhi
pada angka buta huruf adalah rasio fasilitas sekolah mengengah pertama per jumlah siswa sekolah
mengengah pertama
DAFTAR PUSTAKA
Atkinson, P. M., German, S. E., Sear, D. A. dan Clark, M. J., (2003), Exploring the Relation Between
Riverbank Erosion and Geomorphological Controls Using Geographically Weighted Logistic
Regression, Geographical Analysis, 35, hal. 59-82.
Brundsdon, C., Fotheringham, A. S. dan Charlton, M. E., (1996), Geographically Weighted Regression:
A Method for Exploring Spatial Nonstationarity, Geographical Analysis, 28, hal. 281-298.
Chasco, C., Garcia, I. dan Vicens, J., (2008), Modeling Spatial Variations in Household Disposable
Income with Geographically Weighted Regression, Munich Personal RePEc Archive Paper, No.
9581.
Fotheringham, A. S., Brunsdon, C. dan Charlton, M., (2002), Geographically Weighted Regression The
Analysis of Spatially Varying Relationships, John Wiley & Sons Ltd. England.
Kutner, M. H., Nachtsheim, C.J., Neter, J. dan Li, W., (2005), Applied Liner Statistical Models, Fifth
Edition, Mc Graw Hill. New York.
Lailiyah, N. dan Purhadi, (2012), Pemodelan Faktor-Faktor yang Mempengaruhi Tingkat Buta Huruf
Kabupaten/Kota di Jawa Timur dengan Geographically Weighted Ordinal Logistic Regression,
Jurnal Sains dan Seni ITS, 1, hal. 213-218.
Saefuddin, A., Setiabudi, N.A. dan Fitrianto, A., (2012), On Comparison Between Logistic Regression
and Geographically Weighted Logistic Regression: with Application to Indonesian Poverty Data,
World Applied Sciences Journal, 19(2), hal. 205-210.
Top Related