ESTIMASI PARAMETER MODEL KELAS LATEN …eprints.uns.ac.id/9620/1/193451511201108081.pdfterobservasi...
Transcript of ESTIMASI PARAMETER MODEL KELAS LATEN …eprints.uns.ac.id/9620/1/193451511201108081.pdfterobservasi...
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
i
ESTIMASI PARAMETER MODEL KELAS LATEN MENGGUNAKAN
ALGORITMA EXPECTATION- MAXIMIZATION (EM)
oleh
NURNAINI HIDAYATI
M0105014
SKRIPSI
ditulis dan diajukan untuk memenuhi sebagian persyaratan
memperoleh gelar Sarjana Sains Matematika
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
2011
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
ii
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
iii
ABSTRAK
Nurnaini Hidayati, 2011. ESTIMASI PARAMETER MODEL KELAS
LATEN MENGGUNAKAN ALGORITMA EXPECTATION-
MAXIMIZATION (EM). Fakultas Matematika dan Ilmu Pengetahuan Alam.
Universitas Sebelas Maret.
Klasifikasi adalah pengelompokan objek ke dalam beberapa kelompok
berdasarkan ukuran kemiripan atau ciri-ciri umum antar objek. Dalam klasifikasi
kadang ditemukan objek yang tidak bisa diukur secara langsung karena tidak
mempunyai nilai kuantitatif. Objek tersebut disebut dengan variabel tidak terukur
atau tidak terobservasi (variabel laten). Klasifikasi terhadap variabel laten
memerlukan data-data ataupun variabel terobservasi yang digunakan sebagai
indikator, yang biasa disebut sebagai variabel manifes. Alat statistik yang dapat
digunakan untuk klasifikasi terhadap variabel laten berdasarkan variabel manifes
yang keduanya bertipe kategorik adalah analisis kelas laten. Adanya variabel laten
mengakibatkan metode estimasi maksimum likelihood tidak bisa digunakan secara
langsung. Tujuan dari penelitian ini adalah mengkaji ulang estimasi parameter
model kelas laten menggunakan algoritma expectation-maximization (EM).
Algoritma EM digunakan untuk menentukan nilai estimasi maksimum
likelihood dari parameter-parameter dalam model dengan menganggap data
terobservasi sebagai data yang tidak lengkap (incomplete data) yang dilakukan
secara iteratif. Setiap iterasi dari algoritma EM terdiri dari dua tahap yaitu tahap
penentuan harga harapan (tahap ekspektasi) untuk menggantikan informasi yang
hilang pada permasalahan data yang tidak lengkap dan tahap pemaksimuman
(tahap maksimisasi) sebagai upaya optimasi nilai parameter berdasarkan hasil
pada tahap ekspektasi.
Hasil dari penelitian ini adalah pada tahap ekspektasi diperoleh fungsi
yaitu ( ) ∑ ∑ ( | )
∏ ∏ ( )
dan pada
tahap maksimisasi diperoleh estimator dengan persamaan
∑ ( | )
dan
∑ ( | )
∑ ( | )
. Kedua tahap
tersebut dilakukan secara iteratif hingga diperoleh estimator yang dapat
memaksimumkan fungsi likelihood secara konvergen.
Kata kunci : estimasi maksimum likelihood, variabel laten, variabel manifes, data
tidak lengkap, algoritma EM.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
iv
ABSTRACT
Nurnaini Hidayati, 2011. PARAMETER ESTIMATION OF LATENT
CLASS MODEL USING THE EXPECTATION-MAXIMIZATION (EM)
ALGORITHM. Faculty of Mathematics and Natural Sciences. Sebelas Maret
University.
Classification is a grouping of the objects into several groups based on
similarity measure or the common characteristic among the objects. In the
classification sometimes finding the object that can not be measured directly
because it does not have a quantitative value. That object is called unmeasured or
unobserved variable (latent variable). Classifying latent variable requires data or
observed variables used as indicators, commonly referred as manifest variable.
Statistic tool used to classify the latent variable based on the manifest variable
which both are categorical type is latent class analysis. Maximum likelihood
estimation method can not be used directly because of the existence of latent
variable. The aim of this research is to review the parameter estimation of latent
class model using the Expectation-Maximization (EM) algorithm.
EM algorithm is used to determine the value of maximum likelihood
estimation from parameters in the model with regarded the observed data as
incomplete data proceeded iteratively. Each iteration of the EM algorithm consists
of two steps, they are determination of the expectation value (expectation step) to
replace the missing information on the incomplete data problem and maximization
step as an effort to optimize the parameter value based on result in the
expectations step.
The results of this research are the function,
( ) ∑ ∑ ( | )
∏ ∏ ( )
is obtained in
the expectation step and the estimator
∑ ( | )
and
∑ ( | )
∑ ( | )
is obtained in the maximization step. Both steps are
proceeded iteratively until the estimator that can maximize the likelihood function
in a convergent is obtained.
Key word : maximum likelihood estimation, latent variable, manifest variable,
incomplete data, EM algorithm.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
v
MOTO
“Maka sesungguhnya disamping ada kesukaran terdapat pula
kemudahan. Sesungguhnya disamping ada kepayahan (jasmani) itu,
ada pula kelapangan”
( Al-insyirah 22 : 5-6)
Orang yang sukses adalah orang yang dapat mengalahkan rasa
takut dan rasa malu
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
vi
PERSEMBAHAN
Kupersembahkan karyaku ini kepada…
Bapak dan ibuku tersayang…
Kebahagiaan kalian adalah alasan sekaligus tujuan
hidupku…
Seandainya aku bisa mencintai kalian lebih dari kalian
mencintaiku…
Kakak dan adikku tersayang…
Terimakasih atas kasih sayang tak berbatas…
Sahabat-sahabatku…
Kalian adalah hal terindah yang pernah ku miliki…
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
vii
KATA PENGANTAR
Bismillahirohmanirrohim. Alhamdulillahirobbil’alamin, puji syukur
penulis panjatkan kehadirat Allah SWT, atas rahmat dan hidayah-Nya penulis
dapat menyelesaikan skripsi ini.
Penulis menyadari bahwa dalam menyelesaikan skripsi ini banyak pihak
yang telah membantu. Untuk itu, pada kesempatan ini penulis ingin mengucapkan
terima kasih kepada:
1. Dra. Etik Zukhronah, M.Si sebagai Pembimbing I dan Drs. Pangadi, M.Si
sebagai Pembimbing II yang telah memberikan bimbingan selama
menyelesaikan skripsi.
2. Semua teman-teman Jurusan Matematika angkatan 2005.
3. Semua pihak yang telah membantu penyelesaian skripsi ini.
Penulis berharap semoga skripsi ini dapat bermanfaat bagi seluruh
pembaca.
Surakarta, Maret 2011
Penulis
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
viii
DAFTAR ISI
Halaman
HALAMAN JUDUL ……………………………...…………………………...... i
HALAMAN PENGESAHAN ……………………...………………………..….. ii
ABSTRAK………………………………………...…………………………....... iii
ABSTRACT…………………………………………...……………...…………... iv
MOTO…....………………………………………...……….…………………… v
PERSEMBAHAN……………………………………………….………………. vi
KATA PENGANTAR ……………………………………...………………........ vii
DAFTAR ISI ……………………………………...…………….………………. viii
DAFTAR TABEL………………………………...…………….……………….. x
DAFTAR NOTASI ……………………………...………………..……………... xi
BAB I PENDAHULUAN……………………………………………………….. 1
1.1 Latar Belakang Masalah………………..…………………………… 1
1.2 Perumusan Masalah…………………………………..……………... 2
1.3 Tujuan Penelitian……………………..…..…………………………. 2
1.4 Manfaat Penelitian………………………..…………………………. 3
BAB II LANDASAN TEORI……………………...…………………………….. 4
2.1 Tinjauan Pustaka…………………………...………………………... 4
2.1.1 Probabilitas…………………………………………………... 4
2.1.2 Teorema Bayes………………………………………………. 5
2.1.3 Metode Estimasi Maksimum Likelihood………………….… 6
2.1.4 Model Campuran…………………………………………….. 7
2.1.5 Ketidaksamaan Jensen.……………………...………………. 8
2.1.6 Algoritma EM……………………………………………….. 10
2.1.7 Metode Pengali Lagrange…………………………………… 15
2.1.8 Kriteria Pemilihan Model……………………………………. 16
2.2 Kerangka Pemikiran…………………….....………………………... 18
BAB III METODE PENELITIAN………………………...…………………….. 19
BAB IV PEMBAHASAN…………………………...…………………………... 20
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
ix
4.1 Model Kelas Laten…………….……..………..…………………….. 20
4.2 Estimasi Parameter Model Kelas Laten……………...……………… 23
4.2.1 Tahap Ekspektasi………..………..………………………..... 24
4.2.2 Tahap Maksimisasi………..………………………………… 25
4.3 Contoh Kasus………………………………………………………... 28
4.4.1 Hasil Estimasi Parameter……………………………..……... 29
4.4.2 Pemilihan Model Terbaik……………………………...…….. 34
BAB V PENUTUP………………………………………………………………. 36
5.1 Kesimpulan…………………………………………………….......... 36
5.2 Saran……………………………………………………………….... 37
DAFTAR PUSTAKA……………………………………………………………. 38
LAMPIRAN……………………………………………………………………... 40
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
x
DAFTAR TABEL
Halaman
Tabel 4.1 Analisis struktur laten berdasarkan variabel laten dan variabel
manifes…………...…………………………….……………….. 20
Tabel 4.2 Probabilitas individu berada pada kelas 1 dan 2 ( ) …..……..… 30
Tabel 4.3 Probabilitas bersyarat ( ) dengan 2 kelas laten ………...……. 30
Tabel 4.4 Probabilitas individu berada pada kelas 1, 2, dan 3 ( ) …...…… 31
Tabel 4.5 Probabilitas bersyarat ( ) dengan 3 kelas laten …….……..…. 31
Tabel 4.6 Probabilitas individu berada pada kelas 1, 2, 3, dan 4 ( ) …...… 33
Tabel 4.7 Probabilitas bersyarat ( ) dengan 4 kelas laten …..……….…. 33
Tabel 4.8 Informasi kriteria pemilihan model………..…………………….. 34
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xi
DAFTAR NOTASI
: variabel laten
: variabel manifes
: banyaknya kelas pada variabel laten
: banyaknya variabel manifes
: kemungkinan outcome variabel manifes
: probabilitas individu berada pada kelas laten
: probabilitas variabel manifes dengan outcome dengan syarat
varibel laten pada kelas
: banyaknya individu
: fungsi likelihood data lengkap
: nilai awal untuk
: nilai awal untuk
: estimator untuk
: estimator untuk
: vektor indikator yang merepresentasikan keanggotaan individu
pada kelas laten
: banyaknya iterasi
( ) : fungsi Lagrange
: pengali Lagrange
: banyaknya sel pada tabel kontingensi
: frekuensi sel
: frekuensi harapan sel
: rasio likelihood
: uji kecocokan Chi-kuadrat
: distribusi Chi-kuadrat dengan dan derajat bebas yang sesuai
dengan model
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xii
: maksimum log likelihood
: jumlah parameter yang diestimasi
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
1
BAB I
PENDAHULUAN
1.1 Latar Belakang Masalah
Secara umum klasifikasi adalah pengelompokan objek ke dalam beberapa
kelompok berdasarkan ukuran kemiripan atau ciri-ciri umum antar objek. Dengan
klasifikasi diharapkan objek-objek yang ada pada kelompok yang sama memiliki
kemiripan yang lebih besar dibandingkan dengan antar objek pada kelompok yang
berbeda. Objek dalam hal ini dapat berupa responden, brand atau produk, atau
objek pengamatan lainnya.
Dalam usaha pengklasifikasian kadang ditemukan objek yang tidak bisa
diukur secara langsung. Objek tersebut disebut dengan variabel tidak terukur
(variabel laten) karena variabel tersebut tidak mempunyai nilai kuantitatif.
Klasifikasi terhadap variabel laten memerlukan data-data ataupun variabel-
variabel yang digunakan sebagai indikator, yang biasa disebut sebagai variabel
manifes. Alat statistik yang sering digunakan untuk klasifikasi terhadap variabel
laten adalah analisis faktor.
Dalam analisis faktor variabel yang diukur disyaratkan bertipe kontinu,
padahal dalam kehidupan sehari-hari sering dijumpai data berupa data kategorik,
yaitu data yang memiliki ukuran skala yang berupa kategori dan tidak memiliki
ukuran kuantitatif. Sebagai contoh, filosofi politik diukur dalam 3 kategori yaitu
liberal, moderat dan konservatif. Untuk melakukan klasifikasi pada data kategorik
diperlukan suatu alat statistik yaitu analisis kelas laten atau latent class analysis
(LCA).
Dalam analisis kelas laten, estimasi parameter diperlukan untuk mencari
estimator dari parameter populasi yang besarnya tidak diketahui. Metode estimasi
parameter yang sering digunakan adalah metode estimasi maksimum likelihood
karena praktis digunakan untuk mendapatkan estimator yang tidak bias dan
bervariansi minimum. Adanya variabel laten mengakibatkan metode estimasi
maksimum likelihood tidak bisa digunakan secara langsung, sehingga diperlukan
modifikasi atau augmented data agar metode estimasi maksimum likelihood dapat
digunakan secara lebih sederhana.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
2
Menurut Andersen [1], terdapat dua metode yang dapat digunakan untuk
menyelasaikan estimasi maksimum likelihood pada model kelas laten, yaitu
algoritma EM dan algoritma Newton Raphson. Haberman dalam Demster dkk. [4]
berpendapat bahwa algoritma EM lebih lambat mencapai konvergen dibandingkan
algoritma Newton Raphson, akan tetapi algoritma EM lebih sederhana karena
tidak memerlukan matriks turunan kedua dari fungsi likelihood.
Dalam analisis kelas laten augmented data dilakukan dengan
memasangkan data dari variabel manifes dengan data dari variabel laten. Oleh
karena itu, augmented data disebut sebagai data lengkap dan data terobservasi
disebut data tidak lengkap karena data dari variabel laten sebagai pasangannya
tidak terobservasi. Menurut Demster dkk. [4], algoritma EM digunakan untuk
menentukan nilai estimasi maksimum likelihood dari parameter-parameter jika
dalam model terdapat data yang tidak lengkap (incomplete data).
Menurut Linzer dan Lewis [10], model kelas laten adalah model campuran
dengan distribusi komponennya berupa tabel kontingensi multinomial dengan
semua variabelnya independen. Oleh karena itu, algoritma EM dapat dijalankan
memalui pendekatan model campuran.
Berdasarkan uraian tersebut, penelitian ini mengkaji ulang estimasi
parameter model kelas laten menggunakan algoritma EM melalui pendekatan
model campuran (mixture model).
1.2 Perumusan Masalah
Berdasarkan latar belakang masalah yang telah diuraikan, disusun
perumusan masalah yaitu bagaimana estimasi parameter model kelas laten
menggunakan algoritma EM melalui pendekatan model campuran.
1.3 Tujuan
Tujuan yang ingin dicapai dari penelitian ini adalah mengkaji ulang
estimasi parameter model kelas laten menggunakan algoritma EM melalui
pendekatan model campuran.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
3
1.4 Manfaat
Manfaat dari penelitian ini diharapkan dapat menambah wawasan
mengenai analisis kelas laten sebagai metode klasifikasi jika dalam sebuah
penelitian terdapat variabel yang tidak terobservasi atau tidak terukur (variabel
laten). Selain itu diharapkan dapat menambah wawasan mengenai metode
estimasi parameter model kelas laten dengan algoritma EM melalui pendekatan
model campuran.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
4
BAB II
LANDASAN TEORI
Bab ini terdiri dari dua subbab, yaitu tinjauan pustaka dan kerangka
pemikiran.
2.1 Tinjauan Pustaka
Pada tinjauan pustaka diberikan pengertian dasar yang diperlukan pada
pembahasan, yaitu konsep probabilitas, teorema Bayes, metode maksimum
likelihood, model campuran , ketidaksamaan Jensen, algoritma EM, dan metode
pengali Lagrange.
2.1.1 Probabilitas
Dalam suatu eksperimen, S menotasikan ruang sampel dan
menggambarkan kejadian-kejadian yang mungkin terjadi. Suatu fungsi himpunan
yang menghubungkan nilai nyata ( ) dengan setiap kejadian disebut
probabilitas fungsi himpunan dan ( ) disebut probabilitas dari jika memenuhi
persyaratan
1) ( ) untuk setiap
2) ( )
3) (⋃ ) ∑ ( )
(Jika adalah kejadian-kejadian yang mutually exlusive).
Berikut diuraikan definisi mengenai konsep probabilitas.
Definisi 2.1 (Krewski dan Biks, [9])
Misalkan suatu ruang sampel S terdiri dari himpunan-himpunan kejadian yang
tidak kosong (nonempty set) ( ) Himpunan-himpunan tersebut dikatakan
independen jika untuk sembarang dari kejadian berlaku
(⋂
) ∏ . /
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
5
Sebuah himpunan dikatakan mutually independent (simply independent) jika
himpunan tersebut k x k independen untuk semua nilai k.
Definisi 2.2 (Krewski dan Biks, [9])
Misalkan himpunan bagian dari S dan
maka kejadian disebut exhaustive.
Definisi 2.3 (Bain dan Engelhardt, [2])
Probabilitas kejadian A dengan syarat B didefinisikan sebagai
( | ) ( )
( )
dengan ( )
2.1.2 Teorema Bayes
Teorema 2.1 (Bain dan Engelhardt, [2])
Jika sembarang himpunan bagian dari dan adalah partisi dari
. Untuk dan berlaku
( | ) ( ) ( | )
∑ ( ) ( | )
Bukti:
Misalkan merupakan partisi dari ruang sampel ,
dengan yang bersifat
1)
2)
Misalkan adalah sembarang kejadian yang merupakan himpunan bagian dari ,
yang bersifat ( ) . Kejadian dapat dipandang sebagai gabungan kejadian-
kejadian yang saling terpisah satu sama lain sebagai
( ) ( ) ( )
Probabilitas kejadian dapat ditulis sebagai
( ) ,( ) ( ) ( )-
( ) ( ) ( )
( ) ( | ) ( ) ( | ) ( ) ( | )
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
6
∑ ( ) ( | )
( )
Berdasarkan Definisi 2.3 diketahui bahwa
( | ) ( )
( )
( ) ( | )
( ) ( )
Persamaan (2.1) disubstitusikan ke persamaan (2.2) diperoleh
( | ) ( ) ( | )
∑ ( ) ( | )
Terbukti
2.1.3 Metode Estimasi Maksimum Likelihood
Estimasi titik adalah suatu nilai tunggal yang dihitung berdasarkan
pengukuran dari sampel dan digunakan sebagai estimator dari nilai parameter
populasi yang besarnya tidak diketahui.
Definisi 2.4 (Bain dan Engelhardt, [2]). Fungsi kepadatan bersama dari
variabel random berukuran , yang diestimasi melalui
adalah ( ) dan fungsi inilah yang didefinisikan sebagai fungsi
likelihood. Untuk independen, fungsi likelihood adalah fungsi dari
yang dinotasikan dengan ( ) yaitu
( ) ( ) ( ) ( )
∏ ( ) ( )
Nilai yang memaksimumkan ( ) disebut sebagai estimator maksimum
likelihood yang dinotasikan dengan . Nilai diperoleh dengan cara
mendiferensialkan ( ) terhadap dan menyamakannya dengan 0. Untuk
mempermudah perhitungan dalam mencari nilai , ( ) dapat dimodifikasi ke
dalam bentuk log karena fungsi log adalah monoton, oleh karena itu persamaan
(2.3) dapat dimodifikasi menjadi
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
7
( ) (∏ ( )
)
∑
( )
2.1.4 Model Campuran
Fungsi distribusi model campuran merupakan kombinasi linear dari dua
atau lebih fungsi kepadatan probabilitas (fkp). Kegunaan mendasar dari model
campuran adalah dapat menggambarkan fkp yang rumit atau kompleks.
Berikut diberikan dua definisi mengenai fkp model campuran dan fungsi
log likelihood data lengkap yang diambil dari McLachlan dan Peel [12].
Definisi 2.5.
Dimisalkan adalah sampel random berukuran , adalah vektor
random berdimensi p dalam dengan fungsi kepadatan probabilitas ( )
dengan . Dimisalkan (
) adalah sampel random
terobservasi dengan adalah nilai terobservasi dari vektor random .
Diasumsikan diskrit, fungsi kepadatan probabilitas dari dapat ditulis
sebagai
( ) ∑ ( )
dengan dan ∑ . Parameter proporsi
campuran dan ( ) adalah fungsi kepadatan campuran untuk komponen
.
Banyaknya komponen campuran biasanya telah diketahui, tetapi pada
banyak kasus banyaknya komponen campuran tidak diketahui dan harus
ditentukan menggunakan data terobservasi.
Definisi 2.6.
Data lengkap didefinisikan sebagai (
) dengan adalah data dari
variabel tidak terobservasi yang berpasangan satu-satu dengan sebagai data
dari variabel yang terobservasi. Digunakan vektor indikator
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
8
( dan ) untuk menentukan keanggotaan setiap
individu dalam komponen model campuran dengan bernilai 1 jika
berasal dari kelas dan bernilai 0 untuk yang lain, fungsi log likelihoodnya
adalah
∑∑
( )
2.1.5 Ketidaksamaan Jensen
Ketidaksamaan Jensen merupakan alat statistik yang sangat bermanfaat
dalam perhitungan matematika yang sulit, seperti logaritma penjumlahan dalam
analisis kelas laten. Aplikasi dari ketidaksamaan Jensen meliputi algoritma EM,
metode estimasi Bayesian dan inferensi Bayesian.
Berikut diberikan teorema dan definisi mengenai ketidaksamaan Jensen
untuk fungsi cembung dan cekung yang diambil dari Harpaz dan Haralick [8].
Teorema 2.2.
Ketidaksamaan Jensen menyatakan jika adalah suatu fungsi cembung dan
suatu variabel random, berlaku
, ( )- ( , -)
Definisi 2.7.
Suatu fungsi ( ) dikatakan sebagai fungsi cembung pada interval ( ) jika
( ) dan berlaku
( ( ) ) ( ) ( ) ( )
Teorema 2.3.
Jika ( ) adalah fungsi cembung pada interval ( ) dan jika
( ) dan dengan ∑ maka
∑
( ) (∑
) ( )
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
9
Bukti Teorema 2.3:
Teorema 2.3 dibuktikan secara induksi matematika. Persamaan (2.4) benar untuk
dan , diasumsikan benar untuk dan akan dibuktikan benar
untuk ,
∑
( ) ( ) ( )∑
( )
( ) ( ) (∑
)
( ( ) ( )∑
)
(∑
)
Terbukti
Bukti Teorema 2.2:
Jika adalah variabel random diskrit dengan sebagai probabilitasnya, maka
persamaan (2.4) dapat ditulis kembali sebagai berikut
, ( )- ( , -)
dan jika ( ) benar-benar cembung (strictly convex) maka , -
Terbukti
Teorema 2.4.
Jika ( ) diturunkan dua kali dalam ( ) dan ( ) maka ( ) disebut
fungsi cembung dalam ( )
Bukti :
Untuk membuktikan Teorema 2.4, digunakan deret Taylor orde dua yaitu
( ) ( ) ( )( ) ⁄ ( )( )
Jika ( ) maka
( ) ( ) ( )( )
Untuk ( ) dan diperoleh ( )( )
maka
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
10
+
( ) ( ) ( )( )
( ( ) ) ( ( ) )( )( ) ( )
Dengan cara yang sama untuk diperoleh ( ) maka
( ) ( ) ( )( )
( ( ) ) ( ( ) )( ( )) ( )
Dengan mengalikan terhadap persamaan (2.5) dan ( ) terhadap persamaan
(2.6) kemudian dijumlahkan akan menunjukkan ketidaksamaan kecembungan
sebagai berikut
( ) ( ( ( ) ) ( ( ) )( )( ))
( ) ( ) ( ) . ( ( ) ) ( ( ) )( ( ))/
( ) ( ) ( ) ( ( ) )
Terbukti
Definisi 2.8.
Fungsi benar-benar cekung (strictly concave) jika – adalah benar-benar
cembung.
Teorema 2.5.
( ) adalah benar-benar cembung dalam ( ).
Bukti:
( ) ( ) maka ( ) ⁄ untuk ( ).
Terbukti
Berdasarkan Teorema 2.5 dan Definisi 2.8, diketahui bahwa ( ) adalah fungsi
yang benar-benar cekung, sehingga untuk ( ) berlaku
, ( )- ( , -)
2.1.6 Algoritma EM
Metode estimasi maksimum likelihood adalah metode klasik yang dapat
digunakan secara praktis untuk mendapatkan estimator yang tidak bias dan
bervariansi minimum atau uniformly minimum variance unbiased estimator
(UMVUE). Tetapi, dalam kasus statistik dengan permasalahan data yang akan
dicari nilai estimasinya tidak memuat informasi yang dibutuhkan secara lengkap,
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
11
metode estimasi maksimum likelihood tidak bisa digunakan secara langsung.
Solusi untuk permasalahan tersebut salah satunya adalah dengan algoritma EM.
Dalam algoritma EM digunakan istilah data lengkap dan data tidak lengkap.
Agar metode estimasi maksimum likelihood dapat digunakan secara lebih
sederhana, perlu dilakukan modifikasi atau augmented data. Augmented data
tersebut disebut sebagai data lengkap dan data yang tersedia sebagai data tidak
lengkap.
Suatu karakteristik utama dari algoritma EM adalah melakukan perhitungan
secara iteratif (berulang-ulang) untuk mendapatkan estimator dengan adanya
permasalahan data tidak lengkap. Menurut Demster dkk. [3], setiap iterasi dari
algoritma EM terdiri dari dua tahap.
1) Tahap Ekspektasi atau Expectation Step (E Step)
Pada tahap ekspektasi dicari fungsi yaitu ekspektasi dari fungsi likelihood
data lengkap berdasarkan data terobservasi yang digunakan untuk mengganti
keberadaan atau keanggotaan setiap individu pada setiap kelas laten yang
tidak diketahui. Fungsi dinotasikan sebagai
( ) | , ( | )-
2) Tahap Maksimisasi atau Maximization Step (M Step)
Pada tahap maksimisasi dicari nilai estimator yang dapat memaksimumkan
fungsi yang telah didefinisikan pada tahap ekspektasi. Nilai estimator
dinotasikan sebagai
( )
dengan adalah estimator untuk parameter pada iterasi ke- .
Kedua tahap tersebut akan dilakukan berulang-ulang hingga didapatkan estimator
yang dapat memaksimumkan fungsi likelihood yang konvergen.
Berikut ini dijelaskan mengenai prosedur algoritma EM menurut Harpaz
dan Haralick [8] dan sifat kekonvergenannya.
1) Prosedur algoritma EM
Dimisalkan adalah variabel manifes dan (
) adalah data
terobservasi sebagai data yang tidak lengkap dengan adalah vektor berdimensi
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
12
, . Dimisalkan ( ) adalah data lengkap dengan adalah
variabel laten yang berkorespondensi satu-satu dengan dan (
)
adalah vektor data tidak terobservasi. Fungsi kepadatan bersama antara dan
dinotasikan dengan ( | ) . Fungsi log likelihood data terobservasi
didefinisikan sebagai
( ) ( ) ( | )
∑ ( | )
( )
Permasalahan dalam memaksimumkan persamaan (2.7) adalah adanya
bentuk logaritma penjumlahan dan data variabel yang tidak terobservasi. Ide
dari algoritma EM adalah membangun batas bawah (lower bound) untuk fungsi
likelihood sehingga bentuk penjumlahan logaritma bisa diatasi.
Dimisalkan ( ) adalah sembarang fungsi kepadatan probabilitas dari
dengan ∑ ( ) , persamaan (2.7) dapat ditulis kembali sebagai
( ) ∑ ( | )
( )
( )
∑ ( ) ( | )
( )
Berdasarkan ketidaksamaan Jensen untuk fungsi cekung diperoleh
( ) ∑ ( ) ( | )
( )
∑ ( ) ( | )
∑ ( ) ( )
( ( )) ( )
( ( )) adalah batas bawah dari fungsi likelihood.
Berikut dicari ( ) untuk persamaan (2.8) sehingga ( ( ))
menjadi batas yang optimum (tight bound),
( ( )) ∑ ( ) ( | )
( )
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
13
( ) * ( | )
( )+
( ) [ ( | ) ( | )
( )]
( ) * ( | )
( )+ ( ), ( | )-
( ) * ( )
( | )+ ( | )
( ( )|| ( | )) ( ) ( )
( ( )|| ( | )) disebut Kullback-Leiber Distance yang memiliki sifat
1. ( ( )|| ( | )) ( )
2. ( ) ( ( )|| ( | ))
( ( )) menjadi batas yang optimum atau sama dengan ( ) jika
( ( )|| ( | )) minimum yaitu ketika ( ( )|| ( | )) .
Berikut ini dicari kondisi ( ( )|| ( | )) minimum,
( ( )|| ( | ))
( ) * ( )
( | )+ ( )
kondisi persamaan (2.10) terjadi jika
( ) ( | ) ( )
Persamaan (2.11) disubstitusikan ke persamaan (2.8) diperoleh
( ( | )) ∑ ( | ) ( | )
∑ ( | ) ( | )
( ) ( )
dengan
( ) ∑ ( | ) ( | )
dan
( ) ∑ ( | ) ( | )
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
14
( ) disebut entropi dari ( | ) yang bernilai konstan. Dapat
dibuktikan bahwa ( ) ( )
Bukti:
( ) ( ) ∑ ( | ) ( | )
∑ ( | ) ( | )
∑ ( | ) ( ( | )
( | ))
∑ ( | ) ( ( ( | )
( | )))
[∑ ( | ) ( ( | )
( | ))
]
[∑ ( | )
]
, -
( )
Terbukti bahwa ( ) ( ) maka ( ) ( ).
Memaksimumkan ( ( | )) sama dengan memaksimumkan
( ) Tahap penentuan fungsi inilah yang disebut dengan tahap ekspektasi
yang kemudian akan dicari nilai estimator yang memaksimumkan fungsi Q
tersebut pada tahap maksimisasi.
2) Kekonvergenan algoritma EM
Teorema 2.6 (Dempster dkk. , [4])
Fungsi likelihood berdasarkan data terobservasi tidak mengalami penurunan
setelah iterasi EM
( ) ( )
Bukti:
Pada saat ( ( )|| ( | )) , persamaan (2.9) menjadi
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
15
( ) ( ( | ))
( ) ( )
dan
( ) ( ) * ( ) ( )+
* ( ) ( )+
Dari persamaan (2.12) diketahui bahwa ( ) ( ) . Pada tahap
maksimisasi dicari nilai yang dapat memaksimumkan fungsi sehingga dari
definisi tersebut diperoleh informasi bahwa ( ) ( ) .
Kekonvergenan algoritma EM dapat dibuktikan sebagai
( ) ( ) * ( ) ( )+
* ( ) ( )+
( )
Persamaan (2.13) menunjukkan bahwa fungsi log likelihood berdasarkan data
terobservasi tidak mengalami penurunan setelah iterasi EM, maka demikian pula
dengan fungsi likelihoodnya.
Terbukti
2.1.7 Metode Pengali Lagrange
Metode pengali Lagrange adalah sebuah teknik dalam menyelesaikan
optimasi dengan kendala persamaan. Inti dari metode pengali Lagrange adalah
mengubah persoalan titik ekstrim terkendala menjadi persoalan ekstrim bebas
kendala. Fungsi yang terbentuk dari transformasi tersebut dinamakan fungsi
Lagrange.
Definisi 2.9 (Gluss dan Wisstein, [5])
Misalkan permasalahan yang dihadapi adalah memaksimumkan ( ) dengan
kendala ( ) , maka fungsi Lagrangenya adalah
( ) ( ( ))
dengan adalah pengali Lagrange.
Kriteria yang harus dipenuhi untuk memperoleh nilai ekstrim adalah
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
16
atau
Pada kasus variabel, jika fungsi objektifnya mempunyai bentuk
( ) dengan kendala ( ) , maka fungsi
Lagrangenya adalah
( ) ( ( ))
2.1.8 Kriteria Pemilihan Model
Ada beberapa kriteria yang digunakan untuk memilih model terbaik dalam
analisis kelas laten. Diantaranya adalah kriteria parsimony dan kriteria kecocokan
model absolut.
1) Kriteria Parsimony
Sifat parsimony adalah sifat yang menghubungkan antara kecocokan
model (dengan data) dengan banyaknya perameter dalam model yang
bersangkutan. Prinsip dari sifat parsimony adalah kesederhanaan yaitu model
sederhana lebih baik daripada model kompleks. Kesederhanaan dalam sifat
parsimony berarti banyaknya estimasi parameter lebih sedikit.
Dua ukuran parsimony yang digunakan dalam analisis kelas laten adalah
Akaike Information Criteria (AIC) dan Bayesian Information Criteria (BIC) yang
didefinisikan sebagai
dengan adalah maksimum log likelihood dan adalah jumlah parameter yang
diestimasi.
Nilai dan yang lebih kecil merepresentasikan keseimbangan
optimum antara kecocokan model dengan banyaknya parameter, sehingga model
yang lebih baik adalah model dengan nilai dan minimun. Namun
menurut Lin dan Dayton dalam Linzer dan Lewis [10], lebih tepat digunakan
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
17
untuk model kelas laten karena kesederhanaannya. Dan menurut Posada dan
Buckley [13], akan memilih model lebih sederhana daripada untuk
.
2) Kriteria Kecocokan Model Absolut
Kriteria kecocokan model absolut mengacu pada apakah model kelas laten
merepresentasikan data dengan cukup baik atau model dapat dikatakan cocok
dengan data tanpa membandingkan dengan model yang lain. Menurut Collins dan
Lanza [2], terdapat dua statistik uji yang dapat digunakan untuk menguji hipotesis
yang menyatakan kecocokan model dengan data yaitu statistik rasio likelihood
( ) dan uji kecocokan Chi-kuadrat ( ).
Dimisalkan terdapat variabel terobservasi (variabel manifes)
dan setiap variabel terobservasi mempunyai kemungkinan outcome (kategori)
dan tabel kontingensi yang dibentuk dari tabulasi silang variabel terobservasi
memiliki sel sebanyak dengan ∏ . Frekuensi sel dilambangkan
dengan dan adalah frekuensi harapan sel yang didefinisikan sebagai
∑ ∏∏( )
rasio likelihood dan uji kecocokan Chi-kuadratnya adalah
∑
∑( )
Nilai dan dibandingkan dengan distribusi Chi-kuadrat ( ) yang
sesuai dengan derajat bebas dalam model. Model dapat dikatakan cocok dengan
data jika nilai dan lebih kecil dari . Derajat bebas yang bersesuaian
dengan dan adalah
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
18
dengan adalah jumlah parameter yang diestimasi yaitu jumlah dari kelas laten
dan probabilitas bersyarat ( ) yang diestimasi.
2.2 Kerangka Pemikiran
Mengacu pada tinjauan pustaka, dapat disusun suatu kerangka pemikiran
yang mendasari penulisan skripsi ini. Dalam penelitian kadang terdapat variabel
yang tidak dapat diukur secara langsung (unosreved variable) atau variabel
tersebut tidak mempunyai ukuran kuantitatif, variabel tersebut disebut dengan
variabel laten, sehingga diperlukan beberapa variabel terobservasi (observed
variable) yang dapat dijadikan sebagai alat ukur tidak langsung dari variabel
laten. Variabel-variabel tersebut sering dikenal sebagai variabel manifes atau
variabel indikator (indicator variable). Dan alat statistik yang digunakan untuk
klasifikasi terhadap variabel lalen dengan variabel manifes sebagai indikatornya
yang keduanya bertipe kategorik adalah analisis kelas laten atau latent class
analysis (LCA).
Adanya variabel laten menyebabkan metode estimasi maksimum likelihood
tidak bisa digunakan secara langsung untuk estimasi model kelas laten sehingga
diperlukan modifikasi atau augmented data agar metode estimasi maksimum
likelihood dapat digunakan secara lebih sederhana. Metode estimasi yang dapat
digunakan untuk menyelasaikan estimasi maksimum likelihood dalam model
kelas laten adalah algoritma EM dan algoritma Newton Raphson. Algoritma EM
memiliki keunggulan lebih sederhana dan praktis digunakan dibandingkan dengan
algoritma Newton Raphson. Dalam algoritma EM, augmented data disebut
sebagai data lengkap dan data yang tersedia disebut sebagai data tidak lengkap.
Skripsi ini mengkaji ulang estimasi parameter model kelas laten
menggunakan algoritma EM dengan memandang kelas pada variabel laten sebagai
komponen dari model campuran.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
19
BAB III
METODE PENELITIAN
Metode yang digunakan dalam penulisan skripsi ini adalah studi literatur
yaitu dengan mengumpulkan dan mempelajari referensi yang berupa buku dan
jurnal yang berkaitan dengan materi algoritma EM dan model kelas laten. Berikut
ini adalah langkah-langkah yang dilakukan dalam mengestimasi parameter model
kelas laten.
1. Menentukan fungsi log likelihood data lengkap.
2. Mengestimasi parameter menggunakan algoritma EM dengan langkah-
langkah sebagai berikut.
a. Input : data dari variabel manifes.
b. Menetapkan dan inisialisasi awal yaitu dan
.
c. Tahap ekspektasi
Menghitung ( | ) dan menentukan ( ).
d. Tahap maksimisasi
Menghitung
( ).
e. Menetapkan .
Ulangi tahap ekspektasi dan maksimisasi hingga konvergen.
f. Output : dan
.
3. Memilih model terbaik berdasarkan 2.1.8.
4. Mengaplikasikan pada contoh kasus.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
20
BAB IV
PEMBAHASAN
Pada bab ini dibicarakan tiga pokok bahasan yaitu model kelas laten,
estimasi perameter model kelas laten, dan contoh kasus.
4.1 Model Kelas Laten
Analisis struktur laten dapat diklasifikasikan berdasarkan tipe variabel
manifes dan latennya seperti terdapat pada Tabel 4.1.
Tabel 4.1. Analisis struktur laten berdasarkan variabel laten dan variabel manifes
Variabel manifes
Variabel laten
Kontinu Kategorik
Kontinu Analisis faktor Analisis profil laten
Kategorik Analisis ciri laten Analisis kelas laten
Pada umumnya variabel laten pada analisis faktor dan analisis ciri laten
adalah bertipe kontinu dan diasumsikan berdistribusi normal, sedangkan pada
analisis profil laten dan analisis kelas laten variabel latennya bertipe kategorik dan
diasumsikan berdistribusi multinomial. Variabel manifes pada analisis faktor dan
analisis profil laten bertipe kontinu dan diasumsikan berdistribusi normal. Pada
analisis ciri laten dan analisis kelas laten, variabel manifesnya bertipe kategorik
dan diasumsikan berdistribusi binomial atau multinomial (Vermunt dan
Magidson, [14]).
Menurut Linzer dan Lewis [10], analisis kelas laten pertama kali
diperkenalkan oleh Lazarsfeld pada tahun 1950, dengan nama latents structure
analysis dengan variabel manifes dan variabel laten yang hanya terdiri dari dua
kategori. Goodman memperluas variabel manifes dan variabel laten menjadi
politomi dan suatu model dapat terdapat lebih dari satu variabel laten.
Model dengan satu variabel laten ( ) dan 4 variabel manifes ( )
diilustrasikan oleh Goodman [7] pada Gambar 4.1.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
21
Gambar 4.1 Diagram path LCA
Dimisalkan terdapat variabel manifes dengan adalah variabel manifes
ke- ( ) dan satu variabel laten sebanyak kelas. Probabilitas
individu pada variabel adalah
( ) (( ) ( ) ( ))
∑ ( )
( )
dan
( ) ( ) ( | )
( ) ( | )
( ) (⋂
| ) ( )
dengan ( ) adalah probabilitas kelas laten ( ).
Ide dasar dari kelas laten adalah independensi lokal yaitu variabel manifes
independen dengan syarat variabel laten, sehingga probabilitas variabel manifes
dengan syarat variabel laten adalah
( | ) ∏ ( | )
( )
Persamaan (4.3) disubstitusikan ke parsamaan (4.2) diperoleh
( ) ( )∏ ( | )
( )
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
22
Persamaan (4.4) disubstitusikan ke parsamaan (4.1) diperoleh
( ) ∑ ( )∏ ( | )
dengan
∑ ( )
( )
Persamaan (4.1) menyatakan bahwa individu-individu diklasifikasikan dalam
kelas laten yang mutually exclusive dan exhaustive dan persamaan (4.4)
menyatakan variabel manifes mutually independent (Goodman, [5]).
Dimisalkan setiap terdapat kemungkinan outcome. adalah nilai
terobservasi dari variabel manives dengan bernilai 1 jika individu berasal
dari respon variabel manifes dan 0 untuk yang lain. Terdapat variabel laten
sebanyak kelas Menurut Linzer dan Lewis [10] probabilitas individu dengan
variabel manifes berpola ( ) berada pada kelas laten
( ) adalah
( ) ( | ) ∏∏( )
( )
dengan
( | ) ( )
dan
∑
Fungsi kepadatan probabilitas untuk semua kelas adalah
( ) ∑
( ) ( )
∑ ∏∏( )
dengan
( ) ( )
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
23
4.2 Estimasi Parameter Model Kelas Laten
Beberapa parameter statistik seperti rata-rata dan standar deviasi dapat
dengan mudah diestimasi dengan menyelesaikan suatu persamaan yang dikenal
dengan solusi close-form. Tetapi untuk model statistik yang kompleks seperti
model kelas laten, penurunan secara close-form tidak bisa dicapai sehingga
diperlukan augmented data untuk mendapatkan nilai parameter yang diinginkan.
Didefinisikan adalah variabel manifes dengan (
)
adalah data terobservasi dari variabel manifes dan adalah variabel laten dengan
(
) adalah vektor data tidak terobservasi. Data lengkap
didefinisikan sebagai ( ) dan berpasangan satu-satu dengan dengan
. Data menjadi tidak lengkap karena sebagai pasangan dari
tidak tersedia. Adanya permasalahan data tidak lengkap tersebut dapat diatasi
dengan algoritma EM untuk menyelesaikan estimasi maksimum likelihood.
Menurut Collins dan Lanza [3], seluruh data terobservasi adalah campuran
dari beberapa kelas laten. Oleh karena itu, persamaan (4.8) dapat dipandang
sebagai model campuran dengan sebagai proporsi campuran dan ( )
sebagai fungsi kepadatan multinomial dengan satu kali percobaan dengan bentuk
fkp pada persamaan (4.6). Sehingga algoritma EM dapat digunakan melalui
pendekatan model campuran.
Langkah awal yang dilakukan adalah menentukan fungsi likelihood dari
data terobservasi, yaitu
( ) ∏ ( )
Untuk mempermudah perhitungan digunakan fungsi log likelihood sebagai
( ) ∏ ( )
∑
( )
∑ ∑
∏∏( )
( )
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
24
Terdapat dua masalah dalam penentuan nilai maksimum fungsi log
likelihood pada persamaan (4.10) yaitu adanya bentuk logaritma penjumlahan
sebanyak mengakibatkan penurunan secara close form tidak dapat dicapai dan
jumlah kelas tidak diketahui, sehingga digunakan fungsi log likelihood data
lengkap. Berdasarkan Definisi 2.6 fungsi log likelihood data lengkap adalah
∑∑
∏∏( )
( )
dengan adalah vektor indikator yang merepresentasikan keanggotaan
(membership) individu pada kelas laten, bernilai 1 jika individu berasal dari
kelas dan 0 untuk yang lain.
Algoritma EM dimulai dengan pemilihan nilai awal untuk dan yang
diberi nama dan
kemudian melalui tahap ekspektasi dan maksimisasi
secara berulang-ulang hingga dicapai dan
yang konvergen.
4.2.1 Tahap Ekspektasi
Fungsi diperoleh dengan menentukan ekspektasi dari persamaan (4.11)
berdasarkan variabel dengan syarat variabel . Fungsi ditentukan sebagai
( ) | [ ]
| *∑∑
∏∏( )
+
∑∑ | , -
∏∏( )
( )
Karena nilai dari biner yaitu 0 dan 1, maka ekspektasinya adalah hanya
pada saat bernilai 1 yaitu ketika barasal dari kelas sebagai
| , - ( | ) ( | ) ( )
Dengan teorema Bayes diperoleh
| , - ( ) ( | )
∑ ( ) ( | )
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
25
( )∏ ∏ . ( | )/
∑ ( )∏ ∏ . ( | )/
( )
Persamaan (4.7) dan persamaan (4.9) disubstitusikan ke persamaan (4.14)
diperoleh
| , - ∏ ∏ ( )
∑ ∏ ∏ ( )
( )
( )
∑ ( )
Substitusi nilai dan
pada persamaan (4.15) diperoleh nilai
probabilitas variabel pada kelas laten dengan syarat variabel dengan pola .
Dimisalkan terdapat dua kelas laten, nilai parameter dan
disubstitusikan ke persamaan (4.15), jika ( | ) mendekati nilai 1 dan
( | ) mendekati nilai 0 maka dapat disimpulkan data dengan pola
berasal dari kelas laten pertama. Jadi pada tahap ekspektasi ditentukan dari mana
asal masing-masing data yang terobservasi, apakah dari kelas pertama, kedua, dan
seterusnya (banyaknya kelas ditentukan oleh peneliti).
Persamaan (4.13) disubstitusikan ke persamaan (4.12) diperoleh fungsi
sebagai
( ) ∑∑ ( | )
∏∏( )
4.2.2 Tahap Maksimisasi
Dari persamaaan (4.5) diketahui ∑ ( ) , sehingga
pemaksimumkan fungsi dapat dilakukan menggunakan metode pengali
Lagrange dengan kendala ∑ ( ) . Fungsi Lagrangenya adalah
( ) ( ) (∑ ( )
)
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
26
∑∑ ( | )
∏∏( )
(∑
) ( )
dengan adalah pengali Lagrange.
Berikut ini dicari nilai maksimum untuk dengan cara menurunkan
persamaan (4.16) terhadap dan dan menyamakannya dengan 0,
( )
∑ ( | )
( )
( )
∑
( )
Dari persamaan (4.17) diperoleh
∑ ( | )
( )
Persamaan (4.19) disubstitusikan ke persamaan (4.18) diperoleh
∑∑ ( | )
( )
Karena ∑ ( | ) maka dari persamaan (4.20) diperoleh
– . Dengan mensubstitusikan – ke persamaan (4.19) diperoleh
sebagai estimator dari sebagai
∑ ( | )
( )
sebagai estimator dari diperoleh dengan cara menyelesaikan
fungsi Lagrange dengan kendala ∑
sebagai
( ) ( ) (∑
)
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
27
∑∑ ( | )
∏∏( )
(∑
) ( )
Nilai maksimum untuk diperoleh dengan cara menurunkan persamaan
(4.22) terhadap dan dan menyamakannya dengan 0,
( )
∑ ( | )
( )
( )
∑
( )
Dari persamaan (4.23) diperoleh
∑ ( | )
( )
Persamaan (4.25) disubstitusikan ke persamaan (4.24) diperoleh
∑ ∑ ( | )
( )
Karena bernilai 1 jika individu berasal dari respon variabel manifes dan
0 untuk yang lain, maka ∑
. Persamaan (4.26) menjadi
∑ ( | )
( )
Persamaan (4.27) disubstitusikan ke persamaan (4.25) diperoleh estimator
untuk yang diberi label sebagai
∑ ( | )
∑ ( | )
( )
Pemilihan nilai awal dan kompleksitas model kelas laten kadang
menyebabkan fungsi log likelihood hanya mencapai maksimum lokal. Oleh
karena itu lebih baik menjalankan algoritma lebih dari satu kali dengan nilai awal
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
28
yang berbeda untuk memastikan fungsi log likelihood telah mencapai maksimum
global.
4.3 Contoh Kasus
Pada subbab ini dibahas mengenai penentuan tipe responden pada General
Social Survey tahun 1982 dengan sampel sebanyak 1202 responden, data diambil
dari McCutcheon [10] dilampirkan di Lampiran 1. General Social Survey
merupakan survei sosiologis yang digunakan untuk mengumpulkan data tentang
karakteristik demografi dan sikap warga Amerika Serikat. Survei tersebut
dilakukan oleh National Opinion Research melalui tatap muka langsung dengan
responden yang dipilih secara random.
Terdapat empat variabel manifes yang digunakan sebagai indikator untuk
menentukan tipe responden. Berikut adalah penjelasan mengenai empat variabel
manifes dengan masing-masing kategorinya.
1) Tujuan
Variabel tujuan merupakan variabel manifes mengenai opini responden
terhadap tujuan dari survei. Responden diberi pertanyaan “Menurut anda,
apakah tujuan dari survei ini baik atau hanya membuang waktu dan uang?”.
Variabel ini terdiri dari tiga kategori yaitu
a) 1 untuk kategori baik
b) 2 untuk kategori percaya
c) 3 untuk kategori pemborosan.
2) Ketepatan
Variabel ketepatan merupakan variabel manifes mengenai opini responden
tentang ketepatan pemilihan responden. Pertanyaan yang diberikan adalah
“Apakah hasil survei dapat dipercaya?”. Variabel ini terdiri dari dua kategori
yaitu
a) 1 untuk kategori tepat
b) 2 untuk kategori tidak tepat.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
29
3) Pemahaman
Variabel ini mengenai penilaian petugas survei tehadap tingkat pemahaman
responden terhadap pertanyaan-pertanyaan dalam survei dengan pertanyaan
“Apakah pemahaman responden terhadap pertanyaan baik atau lemah?”.
Variabel ini terdiri dari dua kategori yaitu
a) 1 untuk kategori baik
b) 2 untuk kategori lemah.
4) Kerjasama
Variabel ini mengenai penilaian petugas survei terhadap sikap responden
dalam menjawab pertanyaan. Pertanyaannya untuk petugas survei adalah
“Bagaimana sikap responden saat menjawab pertanyaan?”. Variabel ini
terdiri dari tiga kategori yaitu
a) 1 untuk ketegori tertarik
b) 2 untuk kategori kooperatif
c) 3 untuk ketegori tidak sabar.
Pada kasus ini tipe responden berperan sebagai variabel laten karena penentuan
tipe responden dilakukan berdasarkan informasi yang diperoleh dari variabel
manifes. Analisis diawali dengan estimasi parameter model dengan dua kelas
laten kemudian tiga kelas laten dan empat kelas laten. Kemudian dilanjutkan
dengan pemilihan model terbaik.
4.3.1 Hasil Estimasi Parameter
Estimasi parameter dengan algoritma EM dihitung menggunakan bantuan
software R 2.7.2 paket poLCA 1.1. Algoritma diawali tahap ekspektasi yaitu
inisialisasi nilai awal dilanjutkan dengan substitusi dan
ke persamaan
(4.15) hingga diperoleh nilai ( | ). Tahap selanjutnya adalah tahap
maksimisasi yaitu substitusi nilai ( | ) yang diperoleh pada tahap
ekspektasi ke persamaan (4.21) dan (4.28). Paket poLCA 1.1 secara otomatis
menentukan inisialisasi nilai awal secara random dengan ketentuan bernilai antara
0 dan 1. Hasil keluaran dari R 2.7.2 paket poLCA 1.1dilampirkan di Lampiran 2.
Berikut adalah hasil estimasi parameter dengan dua kelas laten, tiga kelas
laten, dan empat kelas laten.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
30
1) Dengan dua kelas laten
Algoritma EM dijalankan dengan 10 nilai awal yang berbeda untuk
masing-masing parameter. Dengan maksimum iterasi sebanyak 500 iterasi
algoritma telah mencapai konvergen. Nilai estimator untuk model dengan dua
kelas laten disajikan pada Tabel 4.2 dan Tabel 4.3.
Tabel 4.2 Probabilitas individu berada pada kelas 1 dan 2 ( )
Kelas 1 0.1923
Kelas 2 0.8077
Tabel 4.3 Probabilitas bersyarat ( ) dengan 2 kelas laten
Variabel
manifes Kategori
Kelas variabel laten
Kelas 1 Kelas 2
TUJUAN
Baik 0.2154 0.8953
Percaya 0.2066 0.0579
Pemborosan 0.5780 0.0468
KETEPATAN Tepat 0.0297 0.6367
Tidak tepat 0.9703 0.3633
PEMAHAMAN Baik 0.7422 0.8327
Lemah 0.2578 0.1673
KERJASAMA
Tertarik 0.6478 0.8840
Kooparatif 0.2498 0.1043
Tidak sabar 0.1024 0.0117
Dari Tabel 4.2 diketahui probabilitas seorang responden berada pada kelas
satu adalah 0.1923 dan probabilitas responden berada pada kelas dua adalah
0.8077. Tipe responden pada kelas satu dan kelas dua dapat ditentukan
berdasarkan Tabel 4.3. Pada kelas satu probabilitas tertinggi untuk variabel tujuan
adalah pemborosan, probabilitas tertinggi untuk variabel ketepatan adalah tidak
tepat, probabilitas tertinggi untuk variabel pemahaman adalah baik, dan
probabilitas tertinggi untuk variabel kerjasama adalah tertarik. Disimpulkan
bahwa responden pada kelas satu menilai survei adalah sesuatu yang sia-sia,
menilai survei tidak tepat sasaran, namun memiliki pemahaman yang baik
terhadap pertanyaan survei, dan menunjukkan kerjasama yang baik saat survei
dilakukan. Dari ciri-ciri tersebut responden pada kelas satu dapat dinamakan
sebagai responden skeptis.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
31
Dengan melihat probabilitas bersyarat tertinggi untuk masing-masing
variabel manifes, disimpulkan bahwa responden pada kelas dua menilai survei
memiliki tujuan yang baik, survei sudah tepat sasaran, memiliki pemahaman yang
baik pada pertanyaan survei, dan menunjukkan kerjasama yang baik saat survei
dilakukan. Dari ciri-ciri tersebut responden kelas dua dapat dinamakan sebagai
responden ideal.
2) Dengan tiga kelas laten
Algoritma EM dijalankan dengan 10 nilai awal yang berbeda untuk masing-
masing parameter. Dengan maksimum iterasi sebanyak 1000 iterasi algoritma
telah mencapai konvergen. Nilai estimator untuk model dengan tiga kelas laten
disajikan pada Tabel 4.4 dan Tabel 4.5.
Tabel 4.4 Probabilitas individu berada pada kelas 1, 2, dan 3 ( )
Kelas 1 0.2070
Kelas 2 0.1723
Kelas 3 0.6208
Tabel 4.5 Probabilitas bersyarat ( ) dengan 3 kelas laten
Variabel
manifes Kategori
Kelas variabel laten
Kelas 1 Kelas 2 Kelas 3
TUJUAN
Baik 0.9117 0.1427 0.8881
Percaya 0.0716 0.2246 0.0532
Pemborosan 0.0167 0.6327 0.0587
KETEPATAN Tepat 0.6478 0.0313 0.6130
Tidak tepat 0.3522 0.9687 0.3870
PEMAHAMAN Baik 0.3131 0.7531 1.0000
Lemah 0.6869 0.2469 0.0000
KERJASAMA
Tertarik 0.6897 0.6410 0.9431
Kooparatif 0.2553 0.2561 0.0569
Tidak sabar 0.0550 0.1030 0.0000
Dari Tabel 4.4 diperoleh informasi bahwa probabilitas responden masuk
ke kelas satu sebesar 0.2070, kelas dua sebesar 0.1723, kelas tiga sebesar 0.6208.
Tabel 4.5 memberikan informasi mengenai tipe responden setiap kelas. Pada kelas
satu probabilitas bersyarat tertinggi untuk variabel manifes tujuan adalah baik,
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
32
probabilitas bersyarat tertinggi untuk variabel manifes ketepatan adalah tepat,
probabilitas bersyarat tertinggi untuk variabel manifes pemahaman adalah lemah,
dan probabilitas bersyarat tertinggi untuk variabel manifes kerjasama adalah
tertarik. Dari informasi tersebut dapat dinyatakan responden pada kelas satu
menilai survei mempunyai tujuan yang baik, survei yang dilakukan tepat sasaran,
dan memikili pemahaman yang lemah terhadap pertanyaan survei tetapi bisa
bekerjasama saat survei dilakukan. Berdasarkan ciri-ciri yang dimiliki, responden
pada kelas satu dapat dinamakan responden optimis.
Berdasarkan probabilitas bersyarat variabel manifes tertinggi pada kelas
dua, responden pada kelas dua cenderung melihat tujuan dari survei sebagai
sesuatu yang sia-sia, menilai survei yang dilakukan tidak tepat sasaran, namun
memiliki pemahaman yang baik terhadap survei dan dapat bekerjasama saat
survei dilakukan. Berdasarkan ciri-ciri tersebut responden pada kelas dua
memiliki pandangan yang negatif terhadap survei sehingga dapat dinamakan
responden ragu-ragu atau skeptis.
Berdasarkan probabilitas bersyarat variabel manifes tertinggi kelas tiga,
dapat disimpulkan responden pada kelas tiga memiliki penilaian yang bagus
terhadap tujuan survei dan menganggap survei yang dilakukan tepat sasaran,
memiliki pemahaman yang baik terhadap pertanyaan survei dan menunjukkan
kerjasama yang baik saat survei dilakukan, sehingga responden pada kelas tiga
dapat dinamakan sebagai responden ideal.
3) Dengan empat kelas laten
Algoritma EM dijalankan dengan 10 nilai awal yang berbeda untuk
masing-masing parameter. Dengan maksimum iterasi sebanyak 5000 iterasi
algoritma telah mencapai konvergen. Nilai estimator untuk model dengan empat
kelas laten disajikan pada Tabel 4.6 dan Tabel 4.7.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
33
Tabel 4.6 Probabilitas individu berada pada kelas 1, 2, 3, dan 4 ( )
Kelas 1 0.5721
Kelas 2 0.1790
Kelas 3 0.2209
Kelas 4 0.0280
Tabel 4.7 Probabilitas bersyarat ( ) dengan 4 kelas laten
Variabel manifes Kategori Kelas variabel laten
Kelas 1 Kelas 2 Kelas 3 Kelas 4
TUJUAN
Baik 0.9120 0.1812 0.9231 0.2305
Percaya 0.0414 0.2431 0.0749 0.0989
Pemborosan 0.0465 0.5758 0.0020 0.6706
KETEPATAN Tepat 0.6258 0.0855 0.6558 0.0626
Tidak tepat 0.3742 0.9145 0.3442 0.9374
PEMAHAMAN Baik 1.0000 0.8508 0.3814 0.2386
Lemah 0.0000 0.1492 0.6186 0.7614
KERJASAMA
Tertarik 0.9510 0.7636 0.7147 0.0000
Kooparatif 0.0490 0.1966 0.2418 0.5585
Tidak sabar 0.0000 0.0398 0.0435 0.4415
Dari Tabel 4.6 diperoleh informasi bahwa probabilitas responden masuk
ke kelas satu sebesar 0.5721, kelas dua sebesar 0.1790, kelas tiga sebesar 0.2209,
dan kelas empat sebasar 0.0241. Tabel 4.7 memberikan informasi mengenai tipe
responden setiap kelas. Pada kelas satu probabilitas bersyarat tertinggi untuk
variabel manifes tujuan adalah baik, probabilitas bersyarat tertinggi untuk variabel
manifes ketepatan adalah tepat, probabilitas bersyarat tertinggi untuk variabel
manifes pemahaman adalah baik, dan probabilitas bersyarat tertinggi untuk
variabel manifes kerjasamaadalah tertarik. Dari informasi tersebut dapat
dinyatakan responden pada kelas satu menilai survei mempunyai tujuan yang
baik, survei yang dilakukan tepat sasaran, memikili pemahaman yang baik
terhadap survei, dan bisa bekerjasama saat survei dilakukan. Berdasarkan ciri-ciri
yang dimiliki, responden pada kelas satu dapat dinamakan responden ideal.
Berdasarkan probabilitas bersyarat variabel manifes tertingginya,
responden pada kelas dua cenderung melihat tujuan dari survei sebagai sesuatu
yang sia-sia, menilai survei yang dilakukan tidak tepat sasaran, namun memiliki
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
34
pemahaman yang baik terhadap survei dan dapat bekerjasama saat survei
dilakukan. Berdasarkan ciri-ciri tersebut responden pada kelas dua dapat
dinamakan responden ragu-ragu atau skeptis.
Responden pada kelas tiga menilai survei memiliki tujuan yang baik,
survei yang dilakukan tepat sasaran,memiliki pemahaman yang lemah terhadap
pertanyaan survei, dan menunjukan kerjasama yang baik saat survei dilakukan.
Berdasarkan ciri-ciri tersebut responden pada kelas tiga dapat dinamakan
responden optimis.
Responden pada kelas empat menilai survei sebagai sesuatu yang sia-sia,
survei tidak tepat sasaran, mamiliki pemahaman yang lemah terhadap pertanyaan
survei, dan dapat bekerjasama saat survei dilakukan walaupun tidak
tertarik.Berdasarkan ciri-ciri tersebut responden pada kelas empat dapat
dinamakan responden kurang ideal.
4.3.2 Pemilihan Model Terbaik
Pemodelan menggunakan software R 2.7.2 paket poLCA 1.1 diperoleh
informasi kriteria pemilihan model pada Tabel 4.8.
Tabel 4.8 Informasi kriteria pemilihan model
model
2 kelas laten 5592.536 5658.729 79.337 93.253 22 33.924
3 kelas laten 5549.091 5650.926 21.392 23.532 15 24.996
4 kelas laten 5547.242 5681.719 6.043 5.113 8 15.507
Dari Tabel 4.8 diketahui nilai terkecil adalah model dengan empat
kelas laten sedangkan nilai terkecil adalah model dengan tiga kelas laten.
Karena maka lebih tepat digunakan daripada , oleh karena itu
model terpilih adalah model dengan tiga kelas laten. Kemudian digunakan kriteria
kecocokan model absolut untuk menentukan apakah model dengan tiga kelas laten
cocok dengan data. Diketahui dari Tabel 4.8 bahwa model dengan tiga kelas laten
yang memenuhi kriteria kecocokan model absolut karena nilai sebesar 21.392
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
35
dan sebasar 23.532 lebih kecil dari nilai distribusi Chi-kuadrat dengan derajat
bebas 15 dan sebesar 24.996.
Model dengan tiga kelas laten memenuhi kriteria parsimony dan kriteria
kecocockan model absolut. Oleh karena itu disimpulkan bahwa responden
General Social Survey tahun 1982 diklasifikasikan menjadi tiga tipe responden
yaitu responden optimis, skeptis, dan ideal.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
36
BAB V
PENUTUP
5.1 Kesimpulan
Berdasarkan hasil dari pembahasan dapat diambil kesimpulan estimasi
parameter model kelas laten menggunakan algoritma EM diawali dengan
inisialisasi nilai awal yang dinotasikan dengan dan
. Tahap
selanjutnya tahap ekspektasi dan tahap maksimisasi sebagai berikut.
a) Tahap Ekspektasi
Pada tahap ekspektasi dilakukan substitusi dan
untuk
( | ) sehingga diperoleh fungsi sebagai
( ) ∑∑ ( | )
∏∏( )
b) Tahap Maksimisasi
Pada tahap maksimisasi dicari nilai parameter ( ) dengan
memaksimumkan fungsi yang diperoleh pada tahap ekspektasi
menggunakan metode pengali Lagrange, hingga diperoleh
∑ ( | )
dan
∑ ( | )
∑ ( | )
Kedua tahap tersebut dijalankan secara berulang-ulang sampai diperoleh
estimator yang dapat memaksimumkan fungsi likelihood yang konvergen.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
37
5.2 Saran
Berdasarkan batasan masalah, skripsi ini hanya membahas tentang
estimasi parameter model kelas laten menggunakan algoritma EM. Salah satu
kesulitan yang dihadapai dalam penggunaan algoritma EM untuk estimasi
parameter model kelas laten adalah adanya kemungkinan independensi lokal yang
tidak terpenuhi akibatnya tidak ada model yang memenuhi kriteria kecocokan
model absolut. Bagi pembaca yang tertarik pada pemodelan kelas laten, dapat
melakukan penelitian mengenai estimasi parameter model kelas laten dengan
permasalahan independensi lokal yang tidak terpenuhi.
Estimasi parameter model kelas laten dapat pula dilakukan dengan metode
algoritma Newton Raphson melalui pendekatan loglinear. Selain itu masih
terdapat analisis struktur laten yang dapat dikaji seperti analisis ciri laten dan
analisis profil laten.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
38
DAFTAR PUSTAKA
[1] Andersen, E. B., Latent Structure Analysis: A Survey, Scandinavian Journal
of Statistics, vol. 9, no.1, pp. 1-22, 1982.
[2] Bain, L. J and M. Engelhardt, Introduction to Probability and Mathematical
Statistics, Duxbury Press, California, 1992.
[3] Collins, L. M. and S. T. Lanza, Latent Class and Latent Transition Analysis,
John Wiley and Sons, New Jersey, USA, 2010.
[4] Dempster, A. D., N. M. Laird, and D. B. Rubin, Maximum Likelihood from
Incomplete Data via the EM Algorithm, Journal of the Royal Statistical
Society B, vol. 39, pp. 1-38, 1977.
[5] Gluss, D. and E. W. Weisstein, Lagrange Multiplier,
http://mathworld.world.wolfram.com/LagrangeMultiplier.html, 1999.
[6] Goodman, L. A., Exploratory Latent Structure Analysis Using Both
Identifiable and Unidentifiable Models, American Journal of Biometrica,
vol. 61, no. 2, pp. 215-231, 1974.
[7] Goodman, L. A., The Analysis of Qualitative Variable When Some of the
Variables Are Unobservable, American Journal of Socioligy, vol. 79, no. 5,
pp. 1179-1259, 1974.
[8] Harpaz, R. and R. Haralick, The EM Algorithm as a Lower Bound
Optimization Technique, The Graduate Centre, New York, 2006.
[9] Krewski, D. and M. Bicks, A Note on Independent and Exhaustive Events,
Journal of The American Statistican, vol. 38, no.4, pp. 290-291, 1984.
[10] Linzer, D. A. and J. Lewis, poLCA: Polytomous Variable Latent Class
Analysis Version 1.1, http://userwww.service.emory.edu/~dlinzer/poLCA,
2006.
[11] McCutheon, A., Latent Class Analysis, SAGE Publication, Newbury Park,
1987.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
39
[12] McLachlan, G. and D. Peel, Finite Mixture Models, John Wiley and Sons,
New York, USA, 2000.
[13] Posada, D. and T. R. Buckley, Model Selection and Model Averaging in
Phylogenetics: Advantages of Akaike Information Criterion and Bayesian
Approaches Over Likelihood Ratio Test, Oxford Journal: Society of
Sistematic Biologists, vol. 53, no.5, pp. 793-808, 2004.
[14] Vermunt, J. K. and J. Magidson, Latent Variable,
http://www.statisticalinnovations.com/articles/articles.html#articles, 2000.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
40
LAMPIRAN
Lampiran 1 Data General Social Survey tahun 1982 dengan sampel sebanyak
1202 responden
Lampiran 2 Output software R 2.7.2 paket poLCA 1.1
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
41
LAMPIRAN 1
Data General Social Survey tahun 1982 dengan sampel sebanyak 1202 responden
purpose accuracy understa cooperate frekuensi
1 1 1 1 419
1 1 1 2 35
1 1 1 3 2
1 1 2 1 71
1 1 2 2 25
1 1 2 3 5
1 2 1 1 270
1 2 1 2 25
1 2 1 3 4
1 2 2 1 42
1 2 2 2 16
1 2 2 3 5
2 1 1 1 23
2 1 1 2 4
2 1 1 3 1
2 1 2 1 6
2 1 2 2 2
2 1 2 3 0
2 2 1 1 43
2 2 1 2 9
2 2 1 3 2
2 2 2 1 9
2 2 2 2 3
2 2 2 3 2
3 1 1 1 26
3 1 1 2 3
3 1 1 3 0
3 1 2 1 1
3 1 2 2 2
3 1 2 3 0
3 2 1 1 85
3 2 1 2 23
3 2 1 3 6
3 2 2 1 13
3 2 2 2 12
3 2 2 3 8
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
42
LAMPIRAN 2
Output software R 2.7.2 pakage poLCA 1.1
dua kelas laten
> f<-cbind(TUJUAN,KETEPATAN,PEMAHAMAN,KERJASAMA)~1 > gss82.lc2<-poLCA(f,gss82,nclass=2,nrep=10,maxiter=500) Model 1: llik = -2783.268 ... best llik = -2783.268 Model 2: llik = -2783.268 ... best llik = -2783.268 Model 3: llik = -2783.268 ... best llik = -2783.268 Model 4: llik = -2783.268 ... best llik = -2783.268 Model 5: llik = -2783.268 ... best llik = -2783.268 Model 6: llik = -2783.268 ... best llik = -2783.268 Model 7: llik = -2783.268 ... best llik = -2783.268 Model 8: llik = -2783.268 ... best llik = -2783.268 Model 9: llik = -2783.268 ... best llik = -2783.268 Model 10: llik = -2783.268 ... best llik = -2783.268 Conditional item response (column) probabilities, by outcome variable, for each class (row) $TUJUAN Pr(1) Pr(2) Pr(3) class 1: 0.2154 0.2066 0.5780 class 2: 0.8953 0.0579 0.0468 $KETEPATAN Pr(1) Pr(2) class 1: 0.0297 0.9703 class 2: 0.6367 0.3633 $PEMAHAMAN Pr(1) Pr(2) class 1: 0.7422 0.2578 class 2: 0.8327 0.1673 $KERJASAMA Pr(1) Pr(2) Pr(3) class 1: 0.6478 0.2498 0.1024 class 2: 0.8840 0.1043 0.0117 Estimated class population shares 0.1923 0.8077 Predicted class memberships (by modal posterior prob.) 0.1864 0.8136 ========================================================= Fit for 2 latent classes: ========================================================= number of observations: 1202 number of estimated parameters: 13 residual degrees of freedom: 22 maximum log-likelihood: -2783.268
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
43
AIC(2): 5592.536 BIC(2): 5658.729 G^2(2): 79.33723 (Likelihood ratio/deviance statistic) X^2(2): 93.25329 (Chi-square goodness of fit)
tiga kelas laten
> gss82.lc3<-poLCA(f,gss82,nclass=3,nrep=10,maxiter=1000) Model 1: llik = -2754.545 ... best llik = -2754.545 Model 2: llik = -2754.545 ... best llik = -2754.545 Model 3: llik = -2754.545 ... best llik = -2754.545 Model 4: llik = -2754.545 ... best llik = -2754.545 Model 5: llik = -2754.545 ... best llik = -2754.545 Model 6: llik = -2754.545 ... best llik = -2754.545 Model 7: llik = -2762.005 ... best llik = -2754.545 Model 8: llik = -2754.545 ... best llik = -2754.545 Model 9: llik = -2754.545 ... best llik = -2754.545 Model 10: llik = -2754.545 ... best llik = -2754.545 Conditional item response (column) probabilities, by outcome variable, for each class (row) $TUJUAN Pr(1) Pr(2) Pr(3) class 1: 0.9117 0.0716 0.0167 class 2: 0.1427 0.2246 0.6327 class 3: 0.8881 0.0532 0.0587 $KETEPATAN Pr(1) Pr(2) class 1: 0.6478 0.3522 class 2: 0.0313 0.9687 class 3: 0.6130 0.3870 $PEMAHAMAN Pr(1) Pr(2) class 1: 0.3131 0.6869 class 2: 0.7531 0.2469 class 3: 1.0000 0.0000 $KERJASAMA Pr(1) Pr(2) Pr(3) class 1: 0.6897 0.2553 0.055 class 2: 0.6410 0.2561 0.103 class 3: 0.9431 0.0569 0.000 Estimated class population shares 0.207 0.1723 0.6208 Predicted class memberships (by modal posterior prob.) 0.1481 0.1822 0.6697
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
44
========================================================= Fit for 3 latent classes: ========================================================= number of observations: 1202 number of estimated parameters: 20 residual degrees of freedom: 15 maximum log-likelihood: -2754.545 AIC(3): 5549.091 BIC(3): 5650.926 G^2(3): 21.89202 (Likelihood ratio/deviance statistic) X^2(3): 23.53221 (Chi-square goodness of fit)
empat kelas laten
> gss82.lc4<-poLCA(f,gss82,nclass=4,nrep=10,maxiter=5000) Model 1: llik = -2746.850 ... best llik = -2746.850 Model 2: llik = -2746.621 ... best llik = -2746.621 Model 3: llik = -2746.621 ... best llik = -2746.621 Model 4: llik = -2746.850 ... best llik = -2746.621 Model 5: llik = -2746.850 ... best llik = -2746.621 Model 6: llik = -2746.850 ... best llik = -2746.621 Model 7: llik = -2746.621 ... best llik = -2746.621 Model 8: llik = -2746.850 ... best llik = -2746.621 Model 9: llik = -2746.621 ... best llik = -2746.621 Model 10: llik = -2746.621 ... best llik = -2746.621 Conditional item response (column) probabilities, by outcome variable, for each class (row) $TUJUAN Pr(1) Pr(2) Pr(3) class 1: 0.9120 0.0414 0.0465 class 2: 0.1812 0.2431 0.5758 class 3: 0.9231 0.0749 0.0020 class 4: 0.2305 0.0989 0.6706 $KETEPATAN Pr(1) Pr(2) class 1: 0.6258 0.3742 class 2: 0.0855 0.9145 class 3: 0.6558 0.3442 class 4: 0.0626 0.9374 $PEMAHAMAN Pr(1) Pr(2) class 1: 1.0000 0.0000 class 2: 0.8508 0.1492 class 3: 0.3814 0.6186 class 4: 0.2386 0.7614 $KERJASAMA Pr(1) Pr(2) Pr(3) class 1: 0.9510 0.0490 0.0000 class 2: 0.7636 0.1966 0.0398 class 3: 0.7147 0.2418 0.0435 class 4: 0.0000 0.5585 0.4415
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
45
Estimated class population shares 0.5721 0.179 0.2209 0.028 Predicted class memberships (by modal posterior prob.) 0.6639 0.1639 0.1481 0.0241 ========================================================= Fit for 4 latent classes: ========================================================= number of observations: 1202 number of estimated parameters: 27 residual degrees of freedom: 8 maximum log-likelihood: -2746.621 AIC(4): 5547.242 BIC(4): 5684.719 G^2(4): 6.042825 (Likelihood ratio/deviance statistic) X^2(4): 5.11293 (Chi-square goodness of fit)