BAB II TINJAUAN PUSTAKA 2.1 Regresi Parametrikerepo.unud.ac.id/16087/3/0808405003-3-BAB_II.pdf ·...
Transcript of BAB II TINJAUAN PUSTAKA 2.1 Regresi Parametrikerepo.unud.ac.id/16087/3/0808405003-3-BAB_II.pdf ·...
5
BAB II
TINJAUAN PUSTAKA
2.1 Regresi Parametrik
Regresi parametrik merupakan metode statistika yang digunakan untuk
mengetahui pola hubungan antara variabel prediktor dengan variabel respon,
dengan asumsi bahwa telah diketahui bentuk fungsi regresinya.
Secara umum bentuk regresi parametrik linier ditulis sebagai berikut:
𝑦𝑖 = 𝛽0 + 𝛽𝑗𝑋𝑖 + 𝜀𝑖 , 𝑖 = 1,2, . . , 𝑛 𝑑𝑎𝑛 𝑗 = 1,2, … , 𝑘 (2.1)
atau dalam bentuk matriks dapat ditulis dengan:
𝑌 = 𝑋𝛽 + 𝜀 , 𝜀~𝑁(0, 𝜎2) (2.2)
Menduga koefisien regresi 𝛽 pada regresi sederhana dapat menggunakan
metode kuadrat terkecil. Metode ini dilakukan dengan meminimumkan 𝜀𝑇𝜀
terhadap 𝛽. 𝜀𝑇𝜀 = (𝑌 − 𝑋𝛽)𝑇(𝑌 − 𝑋𝛽), kemudian 𝜀𝑇𝜀 diturunkan terhadap 𝛽 dan
disamakan dengan nol sehingga diperoleh penduga :
�̂� = (𝑋𝑇𝑋)−1(𝑋𝑇𝑌) (2.3)
(Eubank,1998)
2.2 Regresi Nonparametrik
Untuk n pengamatan yang independen, (𝑡𝑖, 𝑦𝑖) dimana 𝑖 = 1,2, … , 𝑛 maka
model regresi secara umum dapat ditulis dengan :
𝑦𝑖 = 𝑓(𝑡𝑖) + 𝜀𝑖 , 𝑖 = 1,2, … , 𝑛 (2.4)
6
𝑦𝑖 adalah variabel respon ke-i, 𝑓(𝑡𝑖) adalah fungsi regresi yang tidak diketahui
bentuk kurva regresinya dan 𝜀𝑖 adalah error random atau galat acak yang
diasumsikan independen dan identik dengan rataan 0 dan keragaman 𝜎2.
Menurut Eubank jika fungsi regresi 𝑓(𝑡𝑖) tidak diketahui atau tidak
tergantung pada asumsi bentuk kurva tertentu, maka fungsi regresi dapat diduga
menggunakan regresi nonparametrik. Pendekatan nonparametrik digunakan untuk
menduga kurva regresi yang tidak diketahui bentuk kurva regresinya dan tidak
ingin terikat pada asumsi tertentu seperti pada regresi parametrik. Dalam regresi
nonparametrik data diharapkan mencari sendiri bentuk pendugaanya, sehingga
memiliki fleksibilitas yang tinggi. Kurva regresi hanya diasumsikan termuat
dalam suatu ruang fungsi yang berdimensi tak hingga dan merupakan fungsi
mulus (smooth). Menduga fungsi 𝑓(𝑡𝑖) dilakukan berdasarkan data pengamatan
dengan menggunakan teknik smoothing yang dapat digunakan antara lain penduga
histogram, kernel, deret orthogonal, spline, k-NN, deret fourier, dan Wavelet
(Eubank, 1988).
2.3 Regresi Semiparametrik
Regresi semiparametrik merupakan gabungan antara regresi parametrik dan
regresi nonparametrik. Model regresi semiparametrik dapat ditulis sebagai
berikut:
𝑦𝑖 = 𝑋𝑖𝑇𝛽 + 𝑓(𝑡𝑖) + 𝜀𝑖 , 𝑖 = 1,2, … , 𝑛 (2.5)
7
𝑦𝑖 adalah variabel respon ke-i, 𝑋𝑖 adalah komponen parametrik, 𝑓(𝑡𝑖) adalah
fungsi regresi yang tidak diketahui bentuk kurva regresinya dan 𝜀𝑖 adalah galat
acak dengan 𝜀𝑖~𝑁(0, 𝜎2).
2.4 Penduga Densitas Kernel
Misalkan suatu sampel random 𝑡1, 𝑡2, … , 𝑡𝑛 dari suatu populasi dengan
fungsi densitas 𝑔(𝑡) tidak diketahui. Berdasarkan sampel random ini akan diduga
fungsi densitasnya. Metode yang paling sederhana adalah dengan membentuk
histogram frekuensi relatif. Range data dibagi atas 𝑘 interval dengan batas interval
a1,a2, …,ak, sehingga a1 a2 … ak. Penduga densitas untuk suatu nilai 𝑡 yang
berada dalam interval 𝑎𝑖 < 𝑡 ≤ 𝑎𝑖+1, dinotasikan �̂�ℎ(𝑡), dinyatakan dengan
formula berikut:
�̂�ℎ(𝑡) =banyak data pada interval 𝑎𝑖 sampai dengan 𝑎𝑖+1
𝑛𝑏
dengan lebar interval antara ai sampai dengan ai+1 disebut bin width yang
dinotasikan dengan (Wand dan Jones, 1995).
Histogram yang kurang halus dapat diatasi dengan prosedur nonparametrik,
salah satunya menggunakan penduga (estimator) kernel. Penduga densitas kernel
merupakan pengembangan dari penduga histogram. Penduga kernel diperkenalkan
oleh Rosenblatt dan Parzen sehingga disebut penduga densitas kernel Rosenblatt-
Parzen. Rosenblatt memberi bobot pada setiap pengamatan, dengan memilih
fungsi , sehingga pengamatan yang lebih dekat ke 𝑡 akan memberi sumbangan
b
K
8
yang lebih besar terhadap �̂�ℎ(𝑡). Fungsi K ini merupakan fungsi pembobot yang
dinamakan fungsi kernel (Hardle, 1994).
Secara umum kernel dengan bandwidth h (Wand dan Jones, 1995)
didefinisikan sebagai:
𝐾ℎ(𝑡) =1
ℎ𝐾 (
𝑡
ℎ) , untuk − ∞ < 𝑡 < ∞ dan ℎ > 0 (2.6)
serta memenuhi:
(i) 𝐾(𝑡) 0, untuk semua 𝑡
(ii) ∫ 𝐾(𝑡)𝑑𝑡 = 1∞
−∞
(iii) ∫ 𝑡2𝐾(𝑡)𝑑𝑡 = 𝜎2 > 0∞
−∞
(iv) ∫ 𝑡𝐾(𝑡)𝑑𝑡 = 0∞
−∞
maka penduga densitas kernel untuk fungsi densitas 𝑔(𝑡) adalah
�̂�ℎ(𝑡) =1
𝑛∑ 𝐾ℎ(𝑡 − 𝑡𝑖) =
1
𝑛ℎ∑ 𝐾 (
𝑡 − 𝑡𝑖
ℎ) (2.7)
𝑛
𝑖=1
𝑛
𝑖=1
Pada persamaan (2.7) terlihat bahwa �̂�ℎ(𝑡) tergantung pada fungsi kernel
dan parameter . Bentuk bobot kernel ditentukan oleh fungsi kernel ,
sedangkan ukuran bobotnya ditentukan oleh parameter pemulus yang disebut
bandwidth. Peran bandwidth seperti lebar interval pada histogram.
Beberapa jenis fungsi kernel (Hardle, 1990) antara lain:
a. Kernel Uniform :𝐾(𝑡) =1
2I(|t| ≤ 1)
b. Kernel Triangle : 𝐾(𝑡) = (1 − |𝑡|)I(|𝑡| ≤ 1)
c. Kernel Epanechnikov : 𝐾(𝑡) =3
4(1 − 𝑡2)I(|𝑡| ≤ 1)
d. Kernel Quartic : 𝐾(𝑡) =15
16(1 − 𝑡2)2I(|𝑡| ≤ 1)
K
K
h K
h
9
e. Kernel Triweight : 𝐾(𝑡) =35
32(1 − 𝑡2)3I(|𝑡| ≤ 1)
f. Kernel Gaussian : 𝐾(𝑡) =1
√2𝜇exp (
1
2(−𝑡2)) , −∞ < 𝑡 ≤ ∞
g. Kernel Cosinus : 𝐾(𝑡) =𝜋
4cos (
𝜋
2𝑡) I(|𝑡| ≤ 1)
Dengan I adalah fungsi indikator.
Berikut disajikan bentuk kurva dari masing-masing fungsi kernel pada
selang [-1,1] (Wikipedia) pada gambar 2.1:
Gambar 2.1(a) Kernel Uniform
Gambar 2.1(b) Kernel Triangle
Gambar 2.1(c) Kernel Epanechnikov
10
2.5 Regresi Nonparametrik Kernel
Regresi kernel adalah teknik statistika nonparametrik untuk menduga fungsi
regresi 𝑓(𝑡𝑖) pada model regresi nonparametrik 𝑦𝑖 = 𝑓(𝑡𝑖) + 𝜀𝑖, 𝑑𝑒𝑛𝑔𝑎𝑛 𝑖 =
1,2, … , 𝑛. Secara teoritis fungsi regresi (Carmona, 2003) didefinisikan sebagai:
Gambar 2.1(f) Kernel Gaussian
Gambar 2.1(e) Kernel Triweight
Gambar 2.1(d) Kernel Quartic
Gambar 2.1(g) Kernel Cosinus
11
𝑓(𝑡) = 𝐸(𝑌|𝑇 = 𝑡) = ∫ 𝑦 𝑔(𝑦|𝑡)𝑑𝑦
∞
−∞
=∫ 𝑦 𝑔(𝑡, 𝑦)𝑑𝑦
∞
−∞
𝑔(𝑡) (2.8)
Fungsi densitas bersama 𝑔(𝑡, 𝑦) tidak diketahui dan dapat diduga dengan
kernel multiplikatif, yaitu:
�̂�ℎ1,ℎ2(𝑡, 𝑦) =
1
𝑛ℎ1ℎ2∑ 𝐾 (
𝑡 − 𝑡1
ℎ1)
𝑛
𝑖=1
𝐾 (𝑦 − 𝑦𝑖
ℎ2)
=1
𝑛∑ 𝐾ℎ1
(𝑡 − 𝑡1
ℎ1) 𝐾ℎ2
(𝑦 − 𝑦𝑖
ℎ2) (2.9)
𝑛
𝑖=1
sehingga diperoleh penduga fungsi regresi, yaitu:
𝑓(𝑡) =∫ 𝑦�̂�ℎ1ℎ2
(𝑡, 𝑦)𝑑𝑦∞
−∞
�̂�ℎ(𝑡) (2.10)
akan dihitung pembilang pada persamaan (2.10)
∫ 𝑦 �̂�ℎ1ℎ2(𝑡, 𝑦)𝑑𝑦 = ∫
1
𝑛𝑦 ∑ 𝐾ℎ1
(𝑡 − 𝑡𝑖)𝐾ℎ2(𝑦 − 𝑦𝑖)𝑑𝑦
𝑛
𝑖=1
∞
−∞
∞
−∞
=1
𝑛∑ 𝐾ℎ1
(𝑡 − 𝑡𝑖) ∫ 𝑦 𝐾ℎ2(𝑦 − 𝑦𝑖)𝑑𝑦
𝑛
𝑖=1
𝑛
𝑖=1
=1
𝑛∑ 𝐾ℎ1
(𝑡 − 𝑡𝑖) ∫𝑦
ℎ2𝐾(
𝑦 − 𝑦𝑖
ℎ2)𝑑𝑦
∞
−∞
𝑛
𝑖=1
dengan memisalkan 𝑦 = 𝑦𝑖 + 𝑧ℎ2 →𝑑𝑦
𝑑𝑧= ℎ2 → 𝑑𝑦 = ℎ2𝑑𝑧, sehingga:
=1
𝑛∑ 𝐾ℎ1
(𝑡 − 𝑡𝑖) ∫𝑦𝑖 + 𝑧ℎ2
ℎ2
∞
−∞
𝑛
𝑖=1
𝐾 (𝑧ℎ2
ℎ2) ℎ2𝑑𝑧
=1
𝑛∑ 𝐾ℎ1
(𝑡 − 𝑡𝑖) ∫ (𝑦𝑖 + 𝑧ℎ2)𝐾(𝑧)ℎ2𝑑𝑧
∞
=∞
𝑛
𝑖=1
12
=1
𝑛∑ 𝐾ℎ𝑖
(𝑡 − 𝑡𝑖) (𝑦𝑖 ∫ 𝐾(𝑧)
∞
−∞
𝑑𝑧 + ℎ2 ∫ 𝑧𝐾(𝑧)𝑑𝑧
∞
−∞
)
𝑛
𝑖=1
karena ∫ 𝐾(𝑧)𝑑𝑧 = 1∞
−∞ dan ∫ 𝑧 𝐾(𝑧)𝑑𝑧 = 0
∞
−∞, maka diperoleh:
∫ 𝑦 �̂�ℎ1ℎ2(𝑡, 𝑦)𝑑𝑦 =
1
𝑛∑ 𝐾ℎ1
(𝑡 − 𝑡𝑖)𝑦𝑖 (2.11)
𝑛
𝑖=1
∞
−∞
dengan mengganti pembilang dan penyebut pada (2.10) dengan (2.11) dan (2.7)
maka diperoleh:
𝑓(𝑡) =
1𝑛
∑ 𝐾ℎ(𝑡 − 𝑡𝑖)𝑦𝑖𝑛𝑖=1
1𝑛
∑ 𝐾ℎ(𝑡 − 𝑡𝑖)𝑛𝑖=1
(2.12)
𝑓(𝑡) =∑ 𝐾ℎ(𝑡 − 𝑡𝑖)𝑦𝑖
𝑛𝑖=1
∑ 𝐾ℎ(𝑡 − 𝑡𝑖)𝑛𝑖=1
(2.13)
𝑓(𝑡) = ∑ 𝑤ℎ𝑖(𝑡) 𝑦𝑖
𝑛
𝑖=1
(2.14)
Dengan
𝑤ℎ𝑖(𝑡) =𝐾ℎ(𝑡 − 𝑡𝑖)
∑ 𝐾ℎ(𝑡 − 𝑡𝑖)𝑛𝑖=1
=
1ℎ
𝐾 (𝑡 − 𝑡𝑖
ℎ)
1ℎ
∑ 𝐾𝑛𝑖=1 (
𝑡 − 𝑡𝑖
ℎ)
=𝐾 (
𝑡 − 𝑡𝑖
ℎ)
∑ 𝐾𝑛𝑖=1 (
𝑡 − 𝑡𝑖
ℎ)
(2.15)
Penduga (2.12) diusulkan oleh Nadaraya dan Watson, sehingga penduga
ini sering disebut penduga Nadaraya-Watson (Hardle, 1994). Pada regresi kernel,
ukuran penduganya ditentukan oleh bandwidth. Smoothing pada regresi kernel
pendugannya saling melengkapi (Ryan,1996).
13
2.6 Pemilihan Bandwidth Optimal
Permasalahan utama pada kernel smoothing bukan terletak pada pemilihan
fungsi kernel tetapi pada pemilihan bandwidth (Hastie dan Tibshirani, 1990).
Bandwidth (h) adalah parameter pemulus (smoothing) yang berfungsi untuk
mengontrol kemulusan dari kurva yang diduga. Bandwidth yang terlalu kecil akan
menghasilkan kurva yang undersmoothing yaitu sangat kasar dan sangat fluktuatif
(Gambar 2.2), dan sebaliknya bandwidth yang terlalu lebar akan menghasilkan
kurva yang oversmoothing yaitu sangat mulus (Gambar 2.3), tetapi tidak sesuai
dengan pola data (Hardle, 1994). Oleh karena itu perlu dipilih bandwidth yang
optimal untuk menghasilkan kurva yang optimal (Gambar 2.4)
Plot Estimasi Kernel Triangle
Waktu (milidetik)
Pe
rce
pa
tan
(g
)
10 20 30 40 50
-10
0-5
00
50
Gambar 2.2. Kurva regresi dengan menggunakan bandwidth (h) yang terlalu kecil.
(Sumber: Lestari (2010))
14
Plot Estimasi Kernel Triangle
Waktu (milidetik)
Pe
rce
pa
tan
(g
)
10 20 30 40 50
-10
0-5
00
50
Gambar 2.3. Kurva regresi dengan menggunakan bandwidth (h) yang terlalu
besar. (Sumber : Lestari (2010))
Plot Estimasi Kernel Triangle
Waktu (milidetik)
Pe
rce
pa
tan
(g
)
10 20 30 40 50
-10
0-5
00
50
Gambar 2.4. Kurva regresi dengan menggunakan bandwidth (h) optimal
(Sumber : Lestari (2010))
15
Suatu kriteria untuk ℎ akan dibatasi pada kelas penduga linear, yang mana
untuk setiap ℎ ada matriks 𝐻(ℎ) berukuran 𝑛 × 𝑛, 𝐻(ℎ) simetri dan semidefinit
positif, sehingga 𝑓ℎ = 𝐻(ℎ)𝑌 dengan elemen-elemen 𝐻(ℎ) adalah:
.
𝑤𝑖𝑗 =𝐾(
𝑡 − 𝑡𝑖
ℎ)
∑ 𝐾𝑛𝑖=1 (
𝑡 − 𝑡𝑖
ℎ)
(2.15)
Salah satu metode untuk mendapatkan ℎ optimal adalah dengan
menggunakan kriteria Generalized Cross Validation (GCV) (Eubank, 1988), yang
didefinisikan sebagai berikut:
𝐺𝐶𝑉(ℎ) =𝑀𝑆𝐸
(1𝑛 𝑡𝑟(𝐼 − 𝐻(ℎ)))
2 (2.16)
dengan 𝑀𝑆𝐸:
𝑀𝑆𝐸 =1
𝑛∑(𝑦𝑖 − 𝑓ℎ(𝑡𝑖))2
𝑛
𝑖=1
2.7 Pertumbuhan Balita
Pertumbuhan balita dapat dilihat dari perkembangan berat badan balita
tersebut. Pertumbuhan balita bisa dipantau dengan melihat grafik berat badan
yang terdapat di kartu menuju sehat (KMS).
Standar acuan pertumbuhan balita adalah Berat Badan menurut Umur
(BB/U), Berat Badan menurut Tinggi Badan (BB/TB), dan Tinggi Badan menurut
Umur (TB/U). Parameter Yang umum digunakan di Indonesia adalah Berat Badan
menurut Umur (BB/U) sesuai dengan standar tabel WHO-NCHS (National Center
of Health Statistics) dan parameter ini dipakai menyeluruh di Posyandu.
16
Klasifikasinya adalah normal, underweight (kurus) dan overweight (gemuk)
(Masruri,2009) dalam Setyaningsih (2010).