BAB II TINJAUAN PUSTAKA 2.1 Regresi Parametrikerepo.unud.ac.id/16087/3/0808405003-3-BAB_II.pdf ·...

5

BAB II

TINJAUAN PUSTAKA

2.1 Regresi Parametrik

Regresi parametrik merupakan metode statistika yang digunakan untuk

mengetahui pola hubungan antara variabel prediktor dengan variabel respon,

dengan asumsi bahwa telah diketahui bentuk fungsi regresinya.

Secara umum bentuk regresi parametrik linier ditulis sebagai berikut:

𝑦𝑖 = 𝛽0 + 𝛽𝑗𝑋𝑖 + 𝜀𝑖 , 𝑖 = 1,2, . . , 𝑛 𝑑𝑎𝑛 𝑗 = 1,2, … , 𝑘 (2.1)

atau dalam bentuk matriks dapat ditulis dengan:

𝑌 = 𝑋𝛽 + 𝜀 , 𝜀~𝑁(0, 𝜎2) (2.2)

Menduga koefisien regresi 𝛽 pada regresi sederhana dapat menggunakan

metode kuadrat terkecil. Metode ini dilakukan dengan meminimumkan 𝜀𝑇𝜀

terhadap 𝛽. 𝜀𝑇𝜀 = (𝑌 − 𝑋𝛽)𝑇(𝑌 − 𝑋𝛽), kemudian 𝜀𝑇𝜀 diturunkan terhadap 𝛽 dan

disamakan dengan nol sehingga diperoleh penduga :

�̂� = (𝑋𝑇𝑋)−1(𝑋𝑇𝑌) (2.3)

(Eubank,1998)

2.2 Regresi Nonparametrik

Untuk n pengamatan yang independen, (𝑡𝑖, 𝑦𝑖) dimana 𝑖 = 1,2, … , 𝑛 maka

model regresi secara umum dapat ditulis dengan :

𝑦𝑖 = 𝑓(𝑡𝑖) + 𝜀𝑖 , 𝑖 = 1,2, … , 𝑛 (2.4)

6

𝑦𝑖 adalah variabel respon ke-i, 𝑓(𝑡𝑖) adalah fungsi regresi yang tidak diketahui

bentuk kurva regresinya dan 𝜀𝑖 adalah error random atau galat acak yang

diasumsikan independen dan identik dengan rataan 0 dan keragaman 𝜎2.

Menurut Eubank jika fungsi regresi 𝑓(𝑡𝑖) tidak diketahui atau tidak

tergantung pada asumsi bentuk kurva tertentu, maka fungsi regresi dapat diduga

menggunakan regresi nonparametrik. Pendekatan nonparametrik digunakan untuk

menduga kurva regresi yang tidak diketahui bentuk kurva regresinya dan tidak

ingin terikat pada asumsi tertentu seperti pada regresi parametrik. Dalam regresi

nonparametrik data diharapkan mencari sendiri bentuk pendugaanya, sehingga

memiliki fleksibilitas yang tinggi. Kurva regresi hanya diasumsikan termuat

dalam suatu ruang fungsi yang berdimensi tak hingga dan merupakan fungsi

mulus (smooth). Menduga fungsi 𝑓(𝑡𝑖) dilakukan berdasarkan data pengamatan

dengan menggunakan teknik smoothing yang dapat digunakan antara lain penduga

histogram, kernel, deret orthogonal, spline, k-NN, deret fourier, dan Wavelet

(Eubank, 1988).

2.3 Regresi Semiparametrik

Regresi semiparametrik merupakan gabungan antara regresi parametrik dan

regresi nonparametrik. Model regresi semiparametrik dapat ditulis sebagai

berikut:

𝑦𝑖 = 𝑋𝑖𝑇𝛽 + 𝑓(𝑡𝑖) + 𝜀𝑖 , 𝑖 = 1,2, … , 𝑛 (2.5)

7

𝑦𝑖 adalah variabel respon ke-i, 𝑋𝑖 adalah komponen parametrik, 𝑓(𝑡𝑖) adalah

fungsi regresi yang tidak diketahui bentuk kurva regresinya dan 𝜀𝑖 adalah galat

acak dengan 𝜀𝑖~𝑁(0, 𝜎2).

2.4 Penduga Densitas Kernel

Misalkan suatu sampel random 𝑡1, 𝑡2, … , 𝑡𝑛 dari suatu populasi dengan

fungsi densitas 𝑔(𝑡) tidak diketahui. Berdasarkan sampel random ini akan diduga

fungsi densitasnya. Metode yang paling sederhana adalah dengan membentuk

histogram frekuensi relatif. Range data dibagi atas 𝑘 interval dengan batas interval

a1,a2, …,ak, sehingga a1 a2 … ak. Penduga densitas untuk suatu nilai 𝑡 yang

berada dalam interval 𝑎𝑖 < 𝑡 ≤ 𝑎𝑖+1, dinotasikan �̂�ℎ(𝑡), dinyatakan dengan

formula berikut:

�̂�ℎ(𝑡) =banyak data pada interval 𝑎𝑖 sampai dengan 𝑎𝑖+1

𝑛𝑏

dengan lebar interval antara ai sampai dengan ai+1 disebut bin width yang

dinotasikan dengan (Wand dan Jones, 1995).

Histogram yang kurang halus dapat diatasi dengan prosedur nonparametrik,

salah satunya menggunakan penduga (estimator) kernel. Penduga densitas kernel

merupakan pengembangan dari penduga histogram. Penduga kernel diperkenalkan

oleh Rosenblatt dan Parzen sehingga disebut penduga densitas kernel Rosenblatt-

Parzen. Rosenblatt memberi bobot pada setiap pengamatan, dengan memilih

fungsi , sehingga pengamatan yang lebih dekat ke 𝑡 akan memberi sumbangan

b

K

8

yang lebih besar terhadap �̂�ℎ(𝑡). Fungsi K ini merupakan fungsi pembobot yang

dinamakan fungsi kernel (Hardle, 1994).

Secara umum kernel dengan bandwidth h (Wand dan Jones, 1995)

didefinisikan sebagai:

𝐾ℎ(𝑡) =1

ℎ𝐾 (

𝑡

ℎ) , untuk − ∞ < 𝑡 < ∞ dan ℎ > 0 (2.6)

serta memenuhi:

(i) 𝐾(𝑡) 0, untuk semua 𝑡

(ii) ∫ 𝐾(𝑡)𝑑𝑡 = 1∞

−∞

(iii) ∫ 𝑡2𝐾(𝑡)𝑑𝑡 = 𝜎2 > 0∞

−∞

(iv) ∫ 𝑡𝐾(𝑡)𝑑𝑡 = 0∞

−∞

maka penduga densitas kernel untuk fungsi densitas 𝑔(𝑡) adalah

�̂�ℎ(𝑡) =1

𝑛∑ 𝐾ℎ(𝑡 − 𝑡𝑖) =

1

𝑛ℎ∑ 𝐾 (

𝑡 − 𝑡𝑖

ℎ) (2.7)

𝑛

𝑖=1

𝑛

𝑖=1

Pada persamaan (2.7) terlihat bahwa �̂�ℎ(𝑡) tergantung pada fungsi kernel

dan parameter . Bentuk bobot kernel ditentukan oleh fungsi kernel ,

sedangkan ukuran bobotnya ditentukan oleh parameter pemulus yang disebut

bandwidth. Peran bandwidth seperti lebar interval pada histogram.

Beberapa jenis fungsi kernel (Hardle, 1990) antara lain:

a. Kernel Uniform :𝐾(𝑡) =1

2I(|t| ≤ 1)

b. Kernel Triangle : 𝐾(𝑡) = (1 − |𝑡|)I(|𝑡| ≤ 1)

c. Kernel Epanechnikov : 𝐾(𝑡) =3

4(1 − 𝑡2)I(|𝑡| ≤ 1)

d. Kernel Quartic : 𝐾(𝑡) =15

16(1 − 𝑡2)2I(|𝑡| ≤ 1)

K

K

h K

h

9

e. Kernel Triweight : 𝐾(𝑡) =35

32(1 − 𝑡2)3I(|𝑡| ≤ 1)

f. Kernel Gaussian : 𝐾(𝑡) =1

√2𝜇exp (

1

2(−𝑡2)) , −∞ < 𝑡 ≤ ∞

g. Kernel Cosinus : 𝐾(𝑡) =𝜋

4cos (

𝜋

2𝑡) I(|𝑡| ≤ 1)

Dengan I adalah fungsi indikator.

Berikut disajikan bentuk kurva dari masing-masing fungsi kernel pada

selang [-1,1] (Wikipedia) pada gambar 2.1:

Gambar 2.1(a) Kernel Uniform

Gambar 2.1(b) Kernel Triangle

Gambar 2.1(c) Kernel Epanechnikov

10

2.5 Regresi Nonparametrik Kernel

Regresi kernel adalah teknik statistika nonparametrik untuk menduga fungsi

regresi 𝑓(𝑡𝑖) pada model regresi nonparametrik 𝑦𝑖 = 𝑓(𝑡𝑖) + 𝜀𝑖, 𝑑𝑒𝑛𝑔𝑎𝑛 𝑖 =

1,2, … , 𝑛. Secara teoritis fungsi regresi (Carmona, 2003) didefinisikan sebagai:

Gambar 2.1(f) Kernel Gaussian

Gambar 2.1(e) Kernel Triweight

Gambar 2.1(d) Kernel Quartic

Gambar 2.1(g) Kernel Cosinus

11

𝑓(𝑡) = 𝐸(𝑌|𝑇 = 𝑡) = ∫ 𝑦 𝑔(𝑦|𝑡)𝑑𝑦

∞

−∞

=∫ 𝑦 𝑔(𝑡, 𝑦)𝑑𝑦

∞

−∞

𝑔(𝑡) (2.8)

Fungsi densitas bersama 𝑔(𝑡, 𝑦) tidak diketahui dan dapat diduga dengan

kernel multiplikatif, yaitu:

�̂�ℎ1,ℎ2(𝑡, 𝑦) =

1

𝑛ℎ1ℎ2∑ 𝐾 (

𝑡 − 𝑡1

ℎ1)

𝑛

𝑖=1

𝐾 (𝑦 − 𝑦𝑖

ℎ2)

=1

𝑛∑ 𝐾ℎ1

(𝑡 − 𝑡1

ℎ1) 𝐾ℎ2

(𝑦 − 𝑦𝑖

ℎ2) (2.9)

𝑛

𝑖=1

sehingga diperoleh penduga fungsi regresi, yaitu:

𝑓(𝑡) =∫ 𝑦�̂�ℎ1ℎ2

(𝑡, 𝑦)𝑑𝑦∞

−∞

�̂�ℎ(𝑡) (2.10)

akan dihitung pembilang pada persamaan (2.10)

∫ 𝑦 �̂�ℎ1ℎ2(𝑡, 𝑦)𝑑𝑦 = ∫

1

𝑛𝑦 ∑ 𝐾ℎ1

(𝑡 − 𝑡𝑖)𝐾ℎ2(𝑦 − 𝑦𝑖)𝑑𝑦

𝑛

𝑖=1

∞

−∞

∞

−∞

=1

𝑛∑ 𝐾ℎ1

(𝑡 − 𝑡𝑖) ∫ 𝑦 𝐾ℎ2(𝑦 − 𝑦𝑖)𝑑𝑦

𝑛

𝑖=1

𝑛

𝑖=1

=1

𝑛∑ 𝐾ℎ1

(𝑡 − 𝑡𝑖) ∫𝑦

ℎ2𝐾(

𝑦 − 𝑦𝑖

ℎ2)𝑑𝑦

∞

−∞

𝑛

𝑖=1

dengan memisalkan 𝑦 = 𝑦𝑖 + 𝑧ℎ2 →𝑑𝑦

𝑑𝑧= ℎ2 → 𝑑𝑦 = ℎ2𝑑𝑧, sehingga:

=1

𝑛∑ 𝐾ℎ1

(𝑡 − 𝑡𝑖) ∫𝑦𝑖 + 𝑧ℎ2

ℎ2

∞

−∞

𝑛

𝑖=1

𝐾 (𝑧ℎ2

ℎ2) ℎ2𝑑𝑧

=1

𝑛∑ 𝐾ℎ1

(𝑡 − 𝑡𝑖) ∫ (𝑦𝑖 + 𝑧ℎ2)𝐾(𝑧)ℎ2𝑑𝑧

∞

=∞

𝑛

𝑖=1

12

=1

𝑛∑ 𝐾ℎ𝑖

(𝑡 − 𝑡𝑖) (𝑦𝑖 ∫ 𝐾(𝑧)

∞

−∞

𝑑𝑧 + ℎ2 ∫ 𝑧𝐾(𝑧)𝑑𝑧

∞

−∞

)

𝑛

𝑖=1

karena ∫ 𝐾(𝑧)𝑑𝑧 = 1∞

−∞ dan ∫ 𝑧 𝐾(𝑧)𝑑𝑧 = 0

∞

−∞, maka diperoleh:

∫ 𝑦 �̂�ℎ1ℎ2(𝑡, 𝑦)𝑑𝑦 =

1

𝑛∑ 𝐾ℎ1

(𝑡 − 𝑡𝑖)𝑦𝑖 (2.11)

𝑛

𝑖=1

∞

−∞

dengan mengganti pembilang dan penyebut pada (2.10) dengan (2.11) dan (2.7)

maka diperoleh:

𝑓(𝑡) =

1𝑛

∑ 𝐾ℎ(𝑡 − 𝑡𝑖)𝑦𝑖𝑛𝑖=1

1𝑛

∑ 𝐾ℎ(𝑡 − 𝑡𝑖)𝑛𝑖=1

(2.12)

𝑓(𝑡) =∑ 𝐾ℎ(𝑡 − 𝑡𝑖)𝑦𝑖

𝑛𝑖=1


(2.13)

𝑓(𝑡) = ∑ 𝑤ℎ𝑖(𝑡) 𝑦𝑖

𝑛

𝑖=1

(2.14)

Dengan

𝑤ℎ𝑖(𝑡) =𝐾ℎ(𝑡 − 𝑡𝑖)


=

1ℎ

𝐾 (𝑡 − 𝑡𝑖

ℎ)

1ℎ

∑ 𝐾𝑛𝑖=1 (

𝑡 − 𝑡𝑖

ℎ)

=𝐾 (

𝑡 − 𝑡𝑖

ℎ)

∑ 𝐾𝑛𝑖=1 (

𝑡 − 𝑡𝑖

ℎ)

(2.15)

Penduga (2.12) diusulkan oleh Nadaraya dan Watson, sehingga penduga

ini sering disebut penduga Nadaraya-Watson (Hardle, 1994). Pada regresi kernel,

ukuran penduganya ditentukan oleh bandwidth. Smoothing pada regresi kernel

pendugannya saling melengkapi (Ryan,1996).

13

2.6 Pemilihan Bandwidth Optimal

Permasalahan utama pada kernel smoothing bukan terletak pada pemilihan

fungsi kernel tetapi pada pemilihan bandwidth (Hastie dan Tibshirani, 1990).

Bandwidth (h) adalah parameter pemulus (smoothing) yang berfungsi untuk

mengontrol kemulusan dari kurva yang diduga. Bandwidth yang terlalu kecil akan

menghasilkan kurva yang undersmoothing yaitu sangat kasar dan sangat fluktuatif

(Gambar 2.2), dan sebaliknya bandwidth yang terlalu lebar akan menghasilkan

kurva yang oversmoothing yaitu sangat mulus (Gambar 2.3), tetapi tidak sesuai

dengan pola data (Hardle, 1994). Oleh karena itu perlu dipilih bandwidth yang

optimal untuk menghasilkan kurva yang optimal (Gambar 2.4)

Plot Estimasi Kernel Triangle

Waktu (milidetik)

Pe

rce

pa

tan

(g

)

10 20 30 40 50

-10

0-5

00

50

Gambar 2.2. Kurva regresi dengan menggunakan bandwidth (h) yang terlalu kecil.

(Sumber: Lestari (2010))

14


Waktu (milidetik)

Pe

rce

pa

tan

(g

)

10 20 30 40 50

-10

0-5

00

50

Gambar 2.3. Kurva regresi dengan menggunakan bandwidth (h) yang terlalu

besar. (Sumber : Lestari (2010))


Waktu (milidetik)

Pe

rce

pa

tan

(g

)

10 20 30 40 50

-10

0-5

00

50

Gambar 2.4. Kurva regresi dengan menggunakan bandwidth (h) optimal

(Sumber : Lestari (2010))

15

Suatu kriteria untuk ℎ akan dibatasi pada kelas penduga linear, yang mana

untuk setiap ℎ ada matriks 𝐻(ℎ) berukuran 𝑛 × 𝑛, 𝐻(ℎ) simetri dan semidefinit

positif, sehingga 𝑓ℎ = 𝐻(ℎ)𝑌 dengan elemen-elemen 𝐻(ℎ) adalah:

.

𝑤𝑖𝑗 =𝐾(

𝑡 − 𝑡𝑖

ℎ)

∑ 𝐾𝑛𝑖=1 (

𝑡 − 𝑡𝑖

ℎ)

(2.15)

Salah satu metode untuk mendapatkan ℎ optimal adalah dengan

menggunakan kriteria Generalized Cross Validation (GCV) (Eubank, 1988), yang

didefinisikan sebagai berikut:

𝐺𝐶𝑉(ℎ) =𝑀𝑆𝐸

(1𝑛 𝑡𝑟(𝐼 − 𝐻(ℎ)))

2 (2.16)

dengan 𝑀𝑆𝐸:

𝑀𝑆𝐸 =1

𝑛∑(𝑦𝑖 − 𝑓ℎ(𝑡𝑖))2

𝑛

𝑖=1

2.7 Pertumbuhan Balita

Pertumbuhan balita dapat dilihat dari perkembangan berat badan balita

tersebut. Pertumbuhan balita bisa dipantau dengan melihat grafik berat badan

yang terdapat di kartu menuju sehat (KMS).

Standar acuan pertumbuhan balita adalah Berat Badan menurut Umur

(BB/U), Berat Badan menurut Tinggi Badan (BB/TB), dan Tinggi Badan menurut

Umur (TB/U). Parameter Yang umum digunakan di Indonesia adalah Berat Badan

menurut Umur (BB/U) sesuai dengan standar tabel WHO-NCHS (National Center

of Health Statistics) dan parameter ini dipakai menyeluruh di Posyandu.

16

Klasifikasinya adalah normal, underweight (kurus) dan overweight (gemuk)

(Masruri,2009) dalam Setyaningsih (2010).

BAB II TINJAUAN PUSTAKA 2.1 Regresi Parametrikerepo.unud.ac.id/16087/3/0808405003-3-BAB_II.pdf ·...

Documents

Transcript of BAB II TINJAUAN PUSTAKA 2.1 Regresi Parametrikerepo.unud.ac.id/16087/3/0808405003-3-BAB_II.pdf ·...