Pendeteksian Differential Item Functioning pada Item Dikotomus...
Transcript of Pendeteksian Differential Item Functioning pada Item Dikotomus...
i
Pendeteksian Differential Item Functioning pada Item Dikotomus
dengan Menggunakan Pendekatan Item Response Theory (IRT),
Logistic Regression (LR), dan Confirmatory Factor Analysis (CFA)
Tesis
Diajukan untuk memenuhi sebagian persyaratan memperoleh
gelar Master dalam bidang Psikologi (M.Si)
Oleh:
YULISTIN TRESNAWATY
NIM: 2110070000022
FAKULTAS PSIKOLOGI
UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH
JAKARTA
1434 H/2013 M
ii
MOTTO:
”Sesungguhnya bersama setiap
kesulitan ada kemudahan”
(Q.S. Al- Insyirah: 6)
Karya ini merupakan salah satu persembahan terbaikku untuk:
Mamaku tercinta (Hj. Halidawati MS) dan Papaku tercinta (H. Zet Efran Badri, M.Si)
serta semua orang yang menyayangiku, dan mendoakan aku dengan tulus dalam
kebaikan.
iii
ABSTRAK
(A) Fakultas Psikologi
(B) Januari 2013
(C) Yulistin Tresnawaty
(D) Pendeteksian Differential Item Functioning pada Item Dikotomus dengan Menggunakan
Pendekatan Item Response Theory (IRT), Logistic Regression (LR), dan Confirmatory
Factor Analysis (CFA)
(E) xx + 111 halaman
(F) Tujuan Penelitian ini adalah untuk mendeteksi : (1) item-item dikotomus dalam tes
Multidimensional Aptitude Battery (MAB) yang secara statistik signifikan terdeteksi
Differential Item Functioning (DIF) bila dideteksi dengan menggunakan pendekatan Item
Response Theory (IRT); (2) item-item dikotomus dalam tes MAB yang secara statistik
signifikan terdeteksi DIF bila dideteksi dengan menggunakan metode Logistic Regression
(LR); (3) item-item dikotomus dalam tes MAB yang secara statistik signifikan terdeteksi
DIF bila dideteksi dengan menggunakan metode Confirmatory Factor Analysis (CFA).
Data yang digunakan dalam penelitian ini adalah respons testee terhadap item tes MAB.
Sebelum dianalisis muatan DIF-nya, terlebih dahulu item tes dipilih berdasarkan teori tes
klasik dengan menggunakan program ITEMAN, dan dikalibrasi berdasarkan teori respon
item model parameter dengan menggunakan program BILOG. Kemudian dilakukan
pengujian validitas konstruk dengan menggunakan analisis faktor dengan menggunakan
program MPLUS. Selanjutnya dilakukan pendeteksian DIF dengan pendekatan IRT
dengan bantuan program QUEST, LR dan CFA dengan bantuan program MPLUS.
Hasil penelitian ini menunjukkan bahwa: (1) ada 9 item tes MAB yang secara statistik
signifikan memuat DIF bila dideteksi dengan pendekatan IRT; (2) ada 11 item tes MAB
yang secara statistik signifikan memuat DIF bila dideteksi dengan pendekatan LR; dan (3)
ada 20 item tes MAB yang secara statistik signifikan memuat DIF bila dideteksi dengan
pendekatan CFA.
(G) Daftar Pustaka: 40; buku: 19 + Jurnal: 19 + Disertasi: 2 (1982-2012)
iv
ABSTRACT
(A) Faculty of Psychology
(B) January 2013
(C) Yulistin Tresnawaty
(D) Detection of Differential Item Functioning on Dichotomous Item with the Item Response
Theory (IRT), Logistic Regression (LR), and Confirmatory Factor Analysis (CFA)
method.
(E) xx + 111 page
(F) The objective of this research study is to conceive: (1) dichotomous items of
Multidimensional Aptitude Battery (MAB) which statistically significantly contain
Differential Item Funtioning (DIF) if detected by the item response theory (IRT); (2)
dichotomous items of MAB which statistically significantly contain DIF if detected by
logistic regression (LR); and (3) dichotomous items of MAB which statistically
significantly contain DIF if detected by confirmatory factor analysis (CFA).
The data for the study consist of testee responses to the MAB test items. Before subject to
the DIF analysis, test items were sorted according to the classical theories using the
ITEMAN program package, two-parametre item response model using BILOG program,
and then construct validity test with confirmatory factor analysis using MPLUS program.
Good test items were then subjected to the DIF analysis using the IRT method using
QUEST, LR and CFA method using MPLUS.
Result of the study show: (1) 9 test items were detected by the IRT 1PL method as
statistically significantly contain DIF; (2) 11 test items were detected as containing DIF
by the LR method; and (3) CFA detected 20 test items with DIF.
(G) References: 40; book: 19 + Journal: 19 + Disertation: 2 (1982-2012)
v
KATA PENGANTAR
Assalamu’alaikum Warrahmatullahi Wabarakatuh….
Alhamdulillah... segala puji bagi Allah atas segala rahmat dan karunia yang
diberikannya, sehingga penulis mampu untuk menyelesaikan tesisi ini. Shalawat dan salam
tak lupa juga selalu tercurahkan kepada Nabi Muhammad S.A.W beserta keluarga, sahabat
dan seluruh ummatnya.
Terselesaikannya tesis ini tidak lepas dari arahan, bimbingan, motivasi, dan bantuan
dari berbagai pihak. Dalam sebuah hadits dikemukakan bahwa “orang yang paling banyak
bersyukur kepada Allah ialah orang yang paling banyak berterima kasih kepada sesama
hamba-Nya”. Oleh karena itu, dengan hati yang tulus, penulis ucapkan terimakasih kepada
semua pihak yang telah membantu proses penyelesaian tesis ini, terutama kepada:
1. Bapak Jahja Umar, Ph.D, Dekan Fakultas Psikologi, dosen sekaligus pembimbing
pertama dan penguji tesis ini. Terimakasih banyak penulis ucapkan atas segala waktu,
tenaga, dan pikiran yang telah dikhlaskan selama bapak membimbing penulis dalam
menyelesaikan tesis ini. Motivasi-motivasi yang bapak berikan dalam kemasan bercerita
layaknya orangtua kepada anak, sungguh sangat menginsprasi penulis untuk terus maju
dan berkembang. Semoga Allah senantiasa memberkahi kesehatan dan kemuliaan kepada
bapak. Aamiin…
2. Bapak Dr. Ir. Bastari, M.A, Ketua Jurusan Psikometri, dosen sekaligus pembimbing
kedua dan penguji tesis ini. Terimakasih banyak atas segala arahan, kesabaran, dan
perhatian demi terselesaikannya tesis ini. Begitu banyak kemudahan-kemudahan yang
penulis dapatkan, baik dalam waktu untuk bimbingan dan diskusi disela-sela kesibukan
bapak yang sangat sibuk sekali, mencarikan dan meminjamkan referensi-referensi yang
penulis butuhkan dalam penulisan tesis ini, bahkan masih menyempatkan waktu untuk
vi
sekedar mendengarkan cerita dan kendala penulis dalam proses penyelesaian tesis ini
sehingga penulis merasa nyaman dan bisa menemukan langkah yang tepat untuk
melewati semua kendala-kendala tersebut. Semoga Allah memberkahi keselamatan,
kesehatan, kebahagian serta memudahkan segala urusan bapak. Aamiin..
3. Bapak Dr. Suprananto, selaku penguji tesis ini. Terimakasih penulis ucapkan atas
sharing, motivasi, saran dan masukan yang berharga demi menjadikan tesis ini
berkualitas, khususnya dalam aspek bahasa dan EYD.
4. Jajaran Dekanat, Pudek I ibu Dra. Fadhilah Suralaga, M.Si, Pudek II Bapak Bambang
Suryadi, Ph.D., dan Pudek III ibu Dra. Zahrotun Nihayah, M.Si
5. Seluruh Dosen Magister Psikologi Fakultas Psikologi UIN Syarif Hidayatullah Jakarta
serta seluruh staf bagian akademik, dan keuangan Magister Psikologi Fakultas Psikologi
UIN Syarif Hidayatullah Jakarta yang telah membantu kelancaran administrasi bagi
penulis.
6. Kedua orang tua penulis, Mama tercinta Hj. Halidawati MS dan Papa tercinta H. Zet
Efran Badri, M.Si yang sudah berkorban jiwa raganya dengan segenap cinta dan kasih
sayang yang tak terhingga untuk penulis dalam bentuk doa yang tak kering terucap dari
kedua bibir mereka serta dukungan moril bahkan materil yang tak henti-hentinya mereka
berikan kepada penulis. Kakak-kakak, ayuk-ayuk, adik, dan keponakan-keponakan
tercinta: Abang Ade dan Ayuk Sevi, Inga Anik dan Mas Anton, adik lelakiku satu-
satunya Frizki (terimakasih sudah menemani penulis begadang untuk menyelesaikan tesis
ini), serta keponakan-keponakanku tercinta Abang Haiqal, Mas Rasya, Donga Aqil dan
adik Nadhim. Keluarga besar di Bengkulu, Makdang Bah, Pakwo Ramlan, Makwo Semi,
Makwo Dewi, Makwo Asba, Wan Fian, Cik Gadis, dan Wancik sekeluarga terimakasih
atas segala dukungan moril dan materil yang diberikan sehingga penulis bisa
menyelesaikan tesis ini. Kepada keluargaku, khususnya Mama dan Papa, ikatan cinta
vii
kasih ini takkan terlerai dan putus. Ya Allah.. ampunilah dosa kami dan dosa kedua
orangtua kami, sayangilah mereka sebagaimana mereka menyayangi kami, berikanlah
kami kebahagiaan serta kemuliaan di dunia dan di akhirat, dan peliharalah keluarga kami
dari siksa api neraka. Aamiin..
7. Bapak Drs. H. Asep Haerul Gani, Psi dan Ibu Dra. Hj. Ai Khojanah, terimakasih penulis
ucapkan kepada bapak dan ibu yang sudah penulis anggap sebagai kedua orangtua
sendiri, sungguh penulis begitu terharu atas segala perhatian, motivasi, bahkan kasih
sayang yang bapak dan ibu berikan kepada penulis dengan “omelan” khasnya sehingga
memacu penulis untuk terus berkembang dan belajar akan banyak hal. Ya.. Allah berkahi
dan bahagiakanlah kehidupan mereka. Aamiin…
8. Para sahabat. Khususnya: saudari Puti Febrayosi dan keluarga, terimakasih kak… atas
segala hal yang terjadi dalam proses “perjuangan” ini, terimakasih sudah menjadi teman
sekaligus saudari yang baik, teman berdiskusi, teman “curhat”, teman mengkhayal,
teman berbagi suka duka dan teman yang saling menyemangati dikala lelah, jenuh dan
resah, sungguh “perjuangan” panjang ini memiliki kenangan indah yang memang pantas
untuk dikenang kita nanti. Saudari Anita Supita beserta suami, terimakasih mbak… sudah
menjadi teman sekaligus saudari yang baik dan teman berbagi suka maupun duka,
terimakasih juga sudah membantu “kiri-kanan” dalam mencarikan data-data penelitian
ini. Saudara Adit beserta istri, terimakasih dit.. sudah menjadi teman yang baik dari masa
Menengah Pertama hingga sekarang, meski jarak membentang, tak henti-hentinya
menyemangati penulis untuk segera menyelesaikan tesis ini meskipun dalam sambungan
langsung jarak jauh dengan pertanyaan yang sama, yang seolah-olah di replay “kapan
lulus? Kapan ini dan kapan itu?”. Kepada para sahabat, penulis ucapkan terimakasih atas
ukhuwah, cinta dan kasih sayang yang diberikan. Ya… Allah… sesungguhnya Engkau
tahu bahwa hati-hati ini telah berkumpul untuk mencurahkan kecintaan kepada-Mu,
viii
bertemu untuk taat kepada-Mu, maka kuatkanlah ikatan pertaliannya dan kekalkanlah
kasih sayangnya. Aamiin..
9. Ibu Rahmawati, S.T, M.ed (Puspendik), Tari, Mbak Rini (UIN), Weni (UGM), dan Susi
(UIN). Terimakasih atas keikhlasan waktu dan segala bentuk support yang sudah
diberikan demi kelancaran dalam penelitian ini. Sungguh kehadiran kalian merupakan
suatu bentuk “pertolongan” Allah dari arah yang tak terduga. Semoga Allah membalas
kebaikan kalian dengan yang lebih baik lagi. Aamiin…
10. Ustadzah Dra. Mardiyah dan keluarga, terimakasih Ummi… atas segala doa, pengertian,
dan perhatiannya. Maafkan ketika penulis mengantuk saat belajar tahsin dikarenakan
kurang tidur selama penyelesaian tesis ini, atau bahkan penulis lupa menghafal dan
mempelajarinya kembali. Semoga Allah memberkahi kebaikan dan kesehatan kepada
Ummi dan keluarga. Aamiin…
11. Ustadzah Maya Sofa dan teman-teman di kajian pekanan ahad pagi. Mila, bu Atin, bu Iin,
mbak Sri, dr. Dian, bu Noer, dan bu Rina. Terimakasih atas segala doa, pengertian, dan
perhatiannya. Taklupa juga penulis haturkan maaf ketika selama penyelesaian tesis ini,
penulis sering meng-cancel atau bahkan memindahkan kajian ketempat lain. Semoga
Allah memberkahi silaturahim dan ukhuwah diantara kita. Aamiin…
12. Teman-teman. Angkatan Pertama Magister Psikologi UIN Jakarta: bu Ida, bu Mita, bu
Eha, Bunda Elis, Pa’e, Kaputi, Kade, Kika, Rizka, Kanisa, dan teman-teman semuanya.
Teman-teman S-1 Psikologi: mbak Ita, Lili, Mila, Bundo, Desti, Indah, Rika, dan Sofa.
Teman-teman masa kecilku: Adit, Yulia, Tria, Evi, dan Putri. Kepada teman-teman,
terimakasih atas sharingnya, bisikan dukungan saat dirundung kecemasan, perhatian,
hiburan, saran, dan doa yang tiada hentinya.
13. Terimakasih kepada semua pihak yang telah memberikan bantuan dalam penulisan tesis
ini, meskipun penulis lupa untuk menyebutkan namanya.
ix
14. Terimakasih yang teramat sangat untuk diri penulis sendiri.
Sulit kiranya untuk membalas segala bentuk perhatian, dukungan, dan bantuan yang
diberikan kepada penulis. Semoga Allah SWT membalas dengan sebaik-baiknya pembalasan.
Aamiin..
Penulis menyadari bahwa tesis ini masih jauh dari kesempurnaan, terdapat banyak
kekurangan dan kesalahan, sehingga besar harapan penulis bagi segenap pembaca untuk
memberikan masukan yang lebih baik. Akhir kata, terimakasih atas kerjasamanya dan mohon
maaf atas semua salah dan khilaf
Wassalamu’alaikum Warahmatullahi Wabarakatuh…
Jakarta, Januari 2013
Yulistin Tresnawaty
x
DAFTAR ISI
HALAMAN JUDUL…………………………………………………………….... i
HALAMAN PERSETUJUAN…………………………………………………… ii
HALAMAN PENGESAHAN…………………………………………………….. iii
LEMBAR PERNYATAAN……………………………………………………… iv
HALAMAN MOTTO…………………………………………………………….. v
ABSTRAK………………………………………………………………………… vi
KATA PENGANTAR…………………………………………………………….. viii
DAFTAR ISI………………………………………………………………………. xiii
DAFTAR TABEL………………………………………………………………… xviii
DAFTAR GAMBAR……………………………………………………………… xix
DAFTAR LAMPIRAN…………………………………………………………… xx
BAB 1 PENDAHULUAN……………………………………………………….... 1-12
1.1 Latar Belakang Masalah………………………………………………... 1
1.2 Pembatasan dan Perumusan Masalah………………….………………. 6
1.2.1 Pembatasan Masalah……………..………………………………. 6
1.2.2 Perumusan Masalah………………………………………..……... 8
1.3 Tujuan dan Manfaat Penelitian…………………………………………. 9
1.3.1 Tujuan Penelitian…………………………………………………. 9
1.3.2 Manfaat Penelitian………………………………………………... 10
1.8 Sistematika Penulisan………………………………………………....... 11
BAB 2 LANDASAN TEORI……………………………………………………… 13-55
2.1 Differential Item Functioning…………………………………………... 13
2.1.1 Pengertian DIF……………………………………………………. 13
2.1.2 Jenis Bias………………………………………………………….. 16
2.1.3 DIF Berdasarkan Faktor Jenis Kelamin………………………....... 18
2.2 Deteksi DIF Menurut Item Response Theory (IRT)……………………. 20
2.2.1 Pengertian Item Response Theory………………………………… 21
2.2.2 Asumsi Dalam Item Response Theory……………………………. 23
xi
2.2.3 Item Characteristic Curve (ICC)…………………………………. 24
2.2.4 Local Independent……………………………………………….... 28
2.2.5 Model-Model Dalam IRT………………………………………… 29
2.2.6 Estimasi Parameter Item………………………………………….. 35
2.2.7 Pemilihan Model…………………………………………………. 39
2.2.8 Fungsi Informasi………………………………………………….. 40
2.3 Deteksi DIF Menurut Logistic Regression……………………………… 42
2.3.1 Asumsi Dasar Logistic Regression……………………………….. 44
2.3.2 Prosedur Analisis Logistic Regression…………………................. 45
2.3.3 Keunggulan Dan Kelemahan Logistic Regression………………... 46
2.4 Deteksi DIF Menurut Confirmatory Factor Analysis………………….. 47
2.4.1 Model Penelitian Uji Validitas Confirmatory Factor Analysis…... 51
2.4.2 Model Penelitian Deteksi DIF Dengan CFA…………………….. 51
2.5 Multidimensional Aptitude Battery Tes Sebagai Instrumen Penelitian… 52
2.6 Penelitian Yang Relevan………………………………………………... 53
2.7 Hipotesis………………………………………………………………... 54
BAB 3 METODE PENELITIAN………………………………………………… 56-73
3.1 Sampel Sumber Informasi………………………………………………. 56
3.2 Instrument Penelitian………………………………………………….... 57
3.3 Teknik Pengumpulan Data……………………………………………. 62
3.4 Prosedur Penelitian……………………………………………………... 62
3.5 Kriteria Item Yang Baik………………………………………………... 65
3.6 Perangkat Lunak Yang Digunakan……………………………………... 72
BAB 4 HASIL PENELITIAN……………………………………………………. 74-106
4.1 Uji Validitas Konstruk Dengan Pendekatan CFA…………………….... 74
4.2 Hasil Estimasi Bias Jenis Kelamin Dengan Pendekatan IRT 1PL……... 85
4.2.1 Subtes Information (V1)………………………………………….. 85
4.2.2 Subtes Comprehension (V2)…………………………………….... 86
4.2.3 Subtes Aritmatic (V3)…………………………………………...... 86
4.2.4 Subtes Similarities (V4)…………………………………………... 87
4.2.5 Subtes Vocabulary (V5)…………………………………………... 87
xii
4.2.6 Subtes Digit Symbol (P1)…………………………………………. 88
4.2.7 Subtes Spatial (P3)………………………………………………... 89
4.2.8 Subtes Picture Arrangement (P4)………………………………… 89
4.2.9 Subtes Object Assembly (P5)……………………………………... 90
4.3 Hasil Estimasi Bias Jenis Kelamin Dengan Pendekatan Logistic
Regression................................................................................................. 90
4.3.1 Subtes Information (V1)………………………………………….. 91
4.3.2 Subtes Comprehension (V2)…………………………………….... 92
4.3.3 Subtes Aritmatic (V3)…………………………………………….. 92
4.3.4 Subtes Similarities (V4)…………………………………………... 93
4.3.5 Subtes Vocabulary (V5)…………………………………………... 93
4.3.6 Subtes Digit Symbol (P1)…………………………………………. 94
4.3.7 Subtes Spatial (P3)………………………………………………... 95
4.3.8 Subtes Picture Arrangement (P4)…………………………………. 96
4.3.9 Subtes Object Assembly (P5)……………………………………… 96
4.4 Hasil Estimasi Bias Jenis Kelamin Dengan Pendekatan CFA…………. 97
4.4.1 Subtes Information (V1)………………………………………….. 98
4.4.2 Subtes Comprehension (V2)……………………………………… 99
4.4.3 Subtes Aritmatic (V3)……………………………………………... 100
4.4.4 Subtes Similarities (V4)…………………………………………… 101
4.4.5 Subtes Vocabulary (V5)…………………………………………… 101
4.4.6 Subtes Digit Symbol (P1)………………………………………….. 102
4.4.7 Subtes Spatial (P3)………………………………………………… 102
4.4.8 Subtes Picture Arrangement (P4)………………………………..... 103
4.4.9 Subtes Object Assembly (P5)……………………………………… 104
BAB 5 KESIMPULAN DAN SARAN…………………………………………… 107-111
5.1 Kesimpulan……………………………………………………………... 107
5.2 Saran……………………………………………………………………. 110
DAFTAR PUSTAKA…………………………………………………………….. 112-114
LAMPIRAN……………………………………………………………………….. 115-224
xiii
DAFTAR TABEL
Tabel 3.1 Hasil Analisis Item MAB Berdasarkan Teori Tes Klasik…………………… 66
Tabel 3.2 Parameter Item dan Parameter Testee Subtes Information (V1)...................... 67
Tabel 3.3 Parameter Item dan Parameter Testee Subtes Comprehension (V2)................ 68
Tabel 3.4 Parameter Item dan Parameter Testee Subtes Aritmatic (V3)…...................... 68
Tabel 3.5 Parameter Item dan Parameter Testee Subtes Similarities (V4)...................... 69
Tabel 3.6 Parameter Item dan Parameter Testee Subtes Vocabulary (V5)...................... 69
Tabel 3.7 Parameter Item dan Parameter Testee Subtes Digit Symbol (P1)…................. 70
Tabel 3.8 Parameter Item dan Parameter Testee Subtes Spatial (P3)….......................... 70
Tabel 3.9 Parameter Item dan Parameter Testee Subtes Picture Arrangement (P4)........ 71
Tabel 3.10 Parameter Item dan Parameter Testee Subtes Object Assembly (P5)…........... 71
Tabel 4.1 Chi-square Model Fit Dari Kesembilan Subtes Pada Kelompok
Gabungan, Kelompok Perempuan, dan Kelompok Laki-laki ……………….. 76
Tabel 4.2 Hasil Uji Validitas Dengan Pendekatan CFA Dari Subtes V1 MAB……....... 79
Tabel 4.3 Hasil Uji Validitas Dengan Pendekatan CFA Dari Subtes V2 MAB……....... 80
Tabel 4.4 Hasil Uji Validitas Dengan Pendekatan CFA Dari Subtes V3 MAB……....... 80
Tabel 4.5 Hasil Uji Validitas Dengan Pendekatan CFA Dari Subtes V4 MAB……....... 81
Tabel 4.6 Hasil Uji Validitas Dengan Pendekatan CFA Dari Subtes V5 MAB……....... 81
Tabel 4.7 Hasil Uji Validitas Dengan Pendekatan CFA Dari Subtes P1 MAB……........ 82
Tabel 4.8 Hasil Uji Validitas Dengan Pendekatan CFA Dari Subtes P3 MAB……........ 82
Tabel 4.9 Hasil Uji Validitas Dengan Pendekatan CFA Dari Subtes P4 MAB……........ 83
Tabel 4.10 Hasil Uji Validitas Dengan Pendekatan CFA Dari Subtes P5 MAB……....... 83
Tabel 4.11 Hasil Perhitungan χ² Pada Subtes V1 Berdasarkan IRT 1 PL ……................ 85
Tabel 4.12 Hasil Perhitungan χ² Pada Subtes V2 Berdasarkan IRT 1 PL ……................ 86
Tabel 4.13 Hasil Perhitungan χ² Pada Subtes V3 Berdasarkan IRT 1 PL ……................ 87
xiv
Tabel 4.14 Hasil Perhitungan χ² Pada Subtes V4 Berdasarkan IRT 1 PL ……................ 87
Tabel 4.15 Hasil Perhitungan χ² Pada Subtes V5 Berdasarkan IRT 1 PL ……................ 88
Tabel 4.16 Hasil Perhitungan χ² Pada Subtes P1 Berdasarkan IRT 1 PL ……................. 88
Tabel 4.17 Hasil Perhitungan χ² Pada Subtes P3 Berdasarkan IRT 1 PL ……................. 89
Tabel 4.18 Hasil Perhitungan χ² Pada Subtes P4 Berdasarkan IRT 1 PL ……................. 90
Tabel 4.19 Hasil Perhitungan χ² Pada Subtes P5 Berdasarkan IRT 1 PL ……................. 90
Tabel 4.20 Hasil Estimasi Bias Subtes V1 Berdasarkan Logistic Regression................... 91
Tabel 4.21 Hasil Estimasi Bias Subtes V2 Berdasarkan Logistic Regression................... 92
Tabel 4.22 Hasil Estimasi Bias Subtes V3 Berdasarkan Logistic Regression................... 93
Tabel 4.23 Hasil Estimasi Bias Subtes V4 Berdasarkan Logistic Regression................... 93
Tabel 4.24 Hasil Estimasi Bias Subtes V5 Berdasarkan Logistic Regression................... 94
Tabel 4.25 Hasil Estimasi Bias Subtes P1 Berdasarkan Logistic Regression.................... 95
Tabel 4.26 Hasil Estimasi Bias Subtes P3 Berdasarkan Logistic Regression.................... 95
Tabel 4.27 Hasil Estimasi Bias Subtes P4 Berdasarkan Logistic Regression.................... 96
Tabel 4.28 Hasil Estimasi Bias Subtes P5 Berdasarkan Logistic Regression.................... 97
Tabel 4.29 Model Fit MAB Dengan Menggunakan CFA………………………………. 98
Tabel 4.30 Hasil Perhitungan Nilai t Subtes V1 Berdasarkan CFA ................................. 99
Tabel 4.31 Hasil Perhitungan Nilai t Subtes V2 Berdasarkan CFA ................................. 100
Tabel 4.32 Hasil Perhitungan Nilai t Subtes V3 Berdasarkan CFA ................................. 100
Tabel 4.33 Hasil Perhitungan Nilai t Subtes V4 Berdasarkan CFA ................................. 101
Tabel 4.34 Hasil Perhitungan Nilai t Subtes V5 Berdasarkan CFA ................................. 101
Tabel 4.35 Hasil Perhitungan Nilai t Subtes P1 Berdasarkan CFA .................................. 102
Tabel 4.36 Hasil Perhitungan Nilai t Subtes P3 Berdasarkan CFA .................................. 103
Tabel 4.37 Hasil Perhitungan Nilai t Subtes P4 Berdasarkan CFA .................................. 103
Tabel 4.38 Hasil Perhitungan Nilai t Subtes P5 Berdasarkan CFA ................................. 104
xv
Tabel 4.39 Item Bias Subtes Verbal Berdasarkan Hasil Perhitungan IRT 1PL,
Logistic Regression, Dan Confirmatory Factor Analysis …………………… 105
Tabel 4.40 Item Bias Subtes Performance Berdasarkan Hasil Perhitungan IRT 1PL,
Logistic Regression, Dan Confirmatory Factor Analysis …………………… 105
xvi
DAFTAR GAMBAR
Gambar 2.1 Kurva Item Characteristic Curve (ICC)…………………………………….. 27
Gambar 2.2 Model Hipotesis Untuk Menguji Validitas Konstruk Dengan Metode CFA.. 50
Gambar 2.3 Model Penelitian Untuk Menguji DIF dengan Metode CFA………………... 51
Gambar 3.1 Diagram Alur Proses Penelitian……………………………………………… 65
xvii
DAFTAR LAMPIRAN
Lampiran 1 Analisis Item Berdasarkan Teori Tes Klasik Dengan Menggunakan Iteman.. 112
Lampiran 3 Analisis Item Berdasarkan IRT Dengan Menggunakan Program BILOG MG. 117
Lampiran 4 Uji Validitas CFA Dengan Menggunakan Program MPLUS……………….. 122
Lampiran 5 Analisis DIF Menggunakan Metode IRT 1PL Dengan Menggunakan Program
QUEST………………………………………………………………………. 186
Lampiran 6 Analisis DIF Menggunakan Metode Logistic Regression Dengan Menggunakan
Program MPLUS……………………………………………………………... 194
Lampiran 7 Analisis DIF Menggunakan Metode CFA Dengan Menggunakan Program
MPLUS………………………………………………………………………. 196
Lampiran 8 Penyesuaian No Item Berdasarkan No item Yang Sebenarnya……………… 220
1
BAB 1
PENDAHULUAN
Dalam bab pendahuluan ini akan dibahas mengenai latar belakang
masalah, pembatasan dan perumusan masalah, tujuan dan manfaat penelitian, dan
sistematika penulisan.
1.1 Latar Belakang Masalah
Seiring dengan berkembangnya ilmu pengetahuan di zaman
globalisasi saat ini, banyak psikolog terapan yang sadar akan pentingnya
keadilan dalam suatu pengukuran. Mereka menganggap bahwa keadilan
dalam suatu pengukuran merupakan salah satu prasayarat yang wajib
dilakukan untuk membandingkan suatu kelompok dengan kelompok lain
(Raju et al., 2002). Bahkan Horn&MCArdle dalam Stark et al., 2006
mengatakan bahwa keadilan dalam suatu pengukuran dianggap sebagai
karakteristik dari item atau tes tertentu dalam kondisi yang berbeda.
Perbedaan kondisi tersebut bisa dikarenakan adanya perbedaan kondisi
dalam suatu kelompok, pengadministrasian, dan media pengetesan (Paper
Based test atau Computerized Adaptive Test). Suatu skala dikatakan adil
dalam suatu pengukuran, apabila lebih dari satu kelompok testee memiliki
laten skor yang sama, tetapi raw score yang diharapkan berbeda pada
2
tingkat item, skala, ataupun keduanya (Drasgow & Kanfer dalam Stark et
al., 2006).
Ketidakadilan dalam pengukuran ini sering menimbulkan
perdebatan terkait dengan seberapa jauh ketidakberfungsian suatu item
atau skala terhadap seluruh anggota dalam kelompok tersebut (Raju et al.,
2002). Dengan demikian banyak peneliti yang tertarik untuk
mengembangkan atau menguji hipotesis tentang perbedaan budaya yang
menyebabkan perbedaan dalam skor item atau skala. Lebih dari itu,
banyak ilmuwan yang ingin menguji hipotesis tentang perbedaan skor
yang disebabkan oleh perbedaan akar seni budaya, perbedaan cara
berkomunikasi, perbedaan bahasa atau teknik menjawab (Candell &
Hulin, 1986).
Dalam suatu pengetesan psikologi, seorang testee bisa saja
memperoleh skor yang tidak sesuai dengan kemampuannya, padahal
semua item dalam tes baik. Selain itu, bisa terjadi seorang testee
memperoleh skor jauh lebih rendah dari skor seharusnya. Sebaliknya, bisa
juga terjadi seorang testee memperoleh skor yang jauh lebih tinggi dari
skor yang seharusnya. Tidak jarang, perbedaan skor tersebut terjadi karena
adanya kondisi psikologis dari testee ketika menghadapi tes tersebut.
Selama tidak menghadapi tes, ia mampu menyelesaikan sejumlah item tes,
tetapi ketika dihadapkan pada ujian, testee tidak mampu menjawab dengan
benar item-item tes yang memiliki tingkat kesulitan sama atau setara
3
dengan yang dijawab di luar ujian. Akibatnya tester akan sulit untuk
mendapatkan gambaran dari tingkat kemampuan testee ketika testee
memperoleh skor yang tidak wajar yakni terletak jauh di bawah
kemampuan testee sebenarnya.
Ketika terjadi ketidakadilan dalam suatu pengukuran, hendaknya
kita juga menguji perbedaan distribusi dalam menjawab benar antara
kelompok reference dengan kelompok lainnya sehingga menyebabkan
perbedaan hubungan dalam konteks psikometri yang berkaitan antara pola
jawaban dan variabel laten. Menanggapi pertanyaan-pertanyaan tersebut
tentunya diperlukan metodologi yang dapat membedakan adanya
ketidakadilan dalam suatu pengukuran yang menyebabkan masalah dalam
suatu instrumen tes yang berdampak pada perbedaan distribusi jawaban
benar.
Ketidakadilan dalam pengukuran dapat berdampak pada validitas
skala. Oleh karena itu diperlukan metode yang tepat dan mampu
mendeteksi Differential Item Functioning (DIF). Dalam studi ini, analisis
DIF dilakukan hanya untuk satu jenis item, yaitu item dikotomus.
Meskipun pada kenyataannya, tak jarang dalam suatu tes terdiri atas item
politomus atau pun gabungan antara item dikotomus dan politomus.
Ada beberapa pendekatan yang bisa digunakan untuk mendeteksi
Differential Item Functioning (DIF). Pendekatan yang pertama
berdasarkan pada Item Response Theory (IRT), pendekatan yang kedua
4
berdasarkan pada Confirmatory Factor Analysis (CFA) dan beberapa
pendekatan yang masih termasuk kajian IRT serta dalam tahap
pengembangan saat ini, salah satunya adalah pendekatan dengan Logistic
Regression (LR). Ketiga pendekatan ini sering dianggap sebagai
pendekatan yang dianggap paling mampu untuk membedakan dan menguji
ketidakadilan dalam suatu pengukuran. Ketiga pendekatan tersebut pada
umumnya telah berkembang dan memiliki terminologi serta prosedur
tersendiri untuk menguji hubungan antar item dan skala.
Ada beberapa metode yang sering digunakan untuk mendeteksi
adanya Differential Item Functioning (DIF) pada skor item dikotomus.
Metode yang umum digunakan untuk mendeteksi adanya DIF adalah
Mantel Haenszel (MH: Holland & Thayer, 1988), Standardisasi (Dorans
& Kulick, 1986), Logistic Regression (Swaminathan & Rogers, 1990),
prosedur simultan item bias tes (SIBTEST: Shealy & Stout, 1993) dan
prosedur berdasarkan Item Response Theory (IRT) (Stark et al., 2006).
Akhir-akhir ini, beberapa studi simulasi yang digunakan dalam
membandingkan IRT, CFA, LR mulai menarik perhatian para peneliti,
khususnya, terhadap struktur means dan struktur kovarian (Structural
Equation Modeling; SEM) yang telah banyak digunakan untuk menguji
keadilan pengukuran di tingkat item. Penelitian sebelumnya mengatakan
bahwa pendekatan CFA pada studi simulasi memang telah menunjukkan
bahwa analisis SEM cukup efektif untuk mendeteksi adanya DIF dalam
5
berbagai kondisi, baik pada item dikotomus, item politomus maupun
campuran dari pola respon tersebut (Stark et al., 2006).
Ketika item atau skala menunjukkan suatu hubungan yang linier
terhadap tingkat kemampuan individu pada kelompok reference, maka
dapat dikatakan bahwa pengukuran tersebut setara untuk setiap
kelompoknya. Dalam kajian IRT, kurangnya kesetaraan dalam pengukuran
ini disebut sebagai fungsi diferensial. Fungsi diferensial yang terjadi pada
tingkat item disebut Differential Item Functioning (DIF). Jika hal ini
terjadi pada tingkat skala, disebut dengan Differential Test Functioning
(DTF). Dalam kajian CFA, ada beberapa tahapan yang dilakukan dalam
menyetarakan suatu pengukuran. Yang pertama adalah dengan menguji
apakah struktur faktor lebih dari satu invarian pada setiap kelompok,
sehingga dapat dikatakan bahwa skala tersebut bersifat unidimensionalitas,
yang biasa disebut dengan konfigural invarian. Kedua, menguji invarian
matrik dengan melihat apakah faktor loading tersebut invarian pada setiap
kelompok. Selanjutnya, jika invarian matrik terpenuhi maka hendaknya
dilanjutkan dengan menguji invarian skalar dengan cara menguji threshold
apakah invarian ditiap kelompok (Stark et al., 2006). Sekaligus kita bisa
menguji korelasi antar faktor atau yang biasa disebut dengan kovarian. Hal
tersebut berbeda dengan analisis dalam IRT, di mana suatu analisis tes
dilakukan secara simultan.
6
Dalam IRT, cara yang biasa digunakan dalam analisis DIF adalah
dengan membandingkan daya pembeda item dan tingkat kesukaran atau
Item Response Function (IRF) testee di seluruh kelompok dalam satu
langkah. Sedangkan dalam analisis regresi logistik, pola respon disebut
dengan dependen variabel dan juga merupakan variabel kategorik.
Sehingga dapat dianalisis dengan menggunakan kurva logistik (logaritma).
Dalam analisis CFA, daya beda item dan tingkat kesukaran ini disebut
dengan loading factor dan intercept.
Dengan melihat daya beda (loading factor) dan tingkat kesukaran
(intercept) maka dalam penelitian ini pendeteksian DIF pada item
dikotomus dapat dilakukan dengan berbagai pendekatan yang ada, antara
lain dengan pendekatan Item Response Theory (IRT), Logistic Regression
(LR), dan Confirmatory Factor Analysis (CFA).
1.2 Pembatasan dan Perumusan Masalah
1.2.1 Pembatasan Masalah
Bentuk khusus dari struktur means dan struktur kovarian, telah
mendapatkan perhatian dari para peneliti (MACS; Sörbom, 1974).
Sehingga banyak peneliti yang telah menggunakan CFA untuk menguji
keadilan pengukuran ditingkat item. Selain itu, menurut Jöreskog &
Sörbom (1989) pada beberapa model CFA, skala untuk item atau konstruk
dari parameter laten perlu di identifikasi agar menghasilkan perkiraan yang
unik dari parameter item tersebut.
7
Pada model CFA, pengujian untuk keadilan dari factor loading dan
intercept dalam kelompok relatif mudah untuk dilakukan. Pertama, dengan
mentukan model dasar yang mana setiap parameter bebasnya bervariasi
kecuali pada parameter yang harus diidentifikasi. Cara yang paling umum
untuk menetapkan matrik adalah dengan memilih item reference yang
mana factor loading nya sama dengan satu pada kedua kelompok tersebut.
Untuk mendeteksi DIF dengan menggunakan metode IRT akan
lebih rumit jika dibandingkan dengan pendekataran CFA. Artinya, peneliti
tidak hanya menentukan prosedur saja, tetapi juga menentukan model
yang cocok untuk menggambarkan bagaimana keadaan testee dalam
menjawab item. Banyak model fit yang telah dikembangkan untuk data
dikotomus yang harus diuji secara empiris dalam setiap penelitian sebelum
dilakukan analisis DIF. Meskipun model telah ditetapkan untuk
mengestimasi parameter, analisis DIF juga dapat dilakukan dengan
membandingkan pola respon item atau langsung dengan membandingkan
parameter item. Ketika metode Logistic Regression (LR) digunakan maka
dapat dilakukan dengan menghitung peluang menjawab benar suatu item
berdasarkan „status keanggotaannya‟, sehingga dapat diketahui interaksi
langsung item dengan “status keanggotan” dari item tersebut. Tidak seperti
metode CFA, daya beda dan tingkat kesulitan dapat dibandingkan secara
bersamaan.
8
Ketika pendekatan CFA digunakan, maka tidak perlu menetapkan
item reference untuk mengidentifikasi matrik, karena dalam setiap
perbandingan semua item kecuali item yang hendak diteliti adalah
constrain. Muncul sebuah pertanyaan menarik tentang bagaimana cara
kerja serta prosedur metode CFA yang berlawanan dengan metode IRT
untuk mendeteksi Differential Item Functioning (DIF), serta interaksi item
dengan “status keanggotaan” dengan menggunakan logistic regression
(LR). Hal ini merupakan salah satu alasan penelitian ini dilakukan.
1.2.2 Perumusan Masalah
Dari pembatasan masalah dapat diketahui bahwa ada tiga
pendekatan yang dapat digunakan dalam mendeteksi DIF, yaitu
menggunakan pendekatan IRT, LR, dan CFA.
Dalam penelitian ini, data yang digunakan adalah data sekunder
dari hasil tes psikologi yang dibatasi pada perhitungan statistik yang
berdasarkan pada bias gender, bukan bias wilayah atau yang lainnya.
Disamping itu, tidak semua metode bias dikaji atau dibandingkan, namun
dibatasi pada metode yang mampu untuk mendeteksi bias pada tipe item
dikotomus. Berdasarkan rekomendasi para ahli, pendeteksian DIF
dilakukan dengan menggunakan pendekatan IRT, logistic regression, dan
CFA, yang mana ketiga metode tersebut telah disesuaikan dengan data
dikotomus.
9
Dengan mengacu pada pembatasan masalah tersebut, maka
rumusan masalah dalam penelitian ini adalah sebagai berikut.
1. Item dari tiap subtes mana sajakah yang secara statistik signifikan
memuat DIF bila dideteksi dengan pendekatan IRT?
2. Item dari tiap subtes mana sajakah yang secara statistik signifikan
memuat DIF bila dideteksi dengan metode logistic regression?
3. Item dari tiap subtes mana sajakah yang secara statistik signifikan
memuat DIF bila dideteksi dengan CFA?
1.3 Tujuan dan Manfaat Penelitian
1.3.1 Tujuan Penelitian
Pada dasarnya, tujuan penelitian ini adalah untuk mendeteksi DIF
pada item dikotomus, sedangkan secara rinci tujuan penelitian ini adalah
untuk mengetahui hal-hal berikut ini.
1. Item-item dari tiap-tiap subtes Multidimensional Aptitude Battery Test
yang secara statistik memuat DIF bila dideteksi dengan pendekatan
Item Respon Theory (IRT).
2. Item-item dari tiap-tiap subtes Multidimensional Aptitude Battery Test
yang secara statistik memuat DIF bila dideteksi dengan pendekatan
LR.
10
3. Item-item dari tiap-tiap subtes Multidimensional Aptitude Battey Test
yang secara statistik memuat DIF bila dideteksi dengan pendekatan
CFA.
1.3.2 Manfaat Penelitian
Ada dua manfaat yang dapat diambil dari penelitian ini, yaitu
manfaat secara teoritis dan empiris. Secara teoritis, manfaat hasil
penelitian ini adalah untuk :
1. menambah khasanah ilmu pengetahuan tentang differential item
functioning dan metode untuk mendeteksinya; dan
2. menambah pengetahuan pembaca tentang cara menganalisis item,
mendeteksi differential item functioning, dan metode yang paling
sensitif dan efektif untuk mendeteksi DIF baik menurut pendekatan
IRT, logistic regression, mau pun pendekatan CFA. Sehingga menjadi
stimulus untuk mendorong perkembangan metode pendeteksian DIF
yang lebih akurat
Secara empiris manfaat hasil penelitian ini adalah sebagai berikut.
1. Bagi para psikolog terapan sebagai pengguna dari alat psikologi yang
juga bertanggung jawab dalam hasil suatu tujuan assessment, dapat
digunakan sebagai masukan dalam penerapan atau penggunaan alat tes
psikologi tersebut di masa yang akan datang, agar dapat memperoleh
gambaran yang sebenarnya dari assessment tersebut.
11
2. Bagi para tester yang menangani masalah pengadministrasian suatu
alat tes, dapat digunakan sebagai bahan masukan tentang bagaimana
pengadministrasian tes mempengaruhi hasil dari suatu rangkaian
assessment.
3. Hasil penelitian ini dapat dijadikan sebagai bahan pertimbangan oleh
para pembuat item tes psikologi sehingga bias item dapat dihindari
sejak dini.
1.4 Sistematika Penulisan
BAB 1 : Pendahuluan
Dalam bab ini akan dibahas mengenai latar belakang
masalah, perumusan dan pembatasan masalah, tujuan dan
manfaat penelitian, dan sistematika penulisan.
BAB 2 : Landasan Teori
Dalam bab landasan teori ini akan dipaparkan teori
mengenai Differential Item Functioning (DIF), teori
mengenai metode deteksi DIF dengan pendekatan IRT,
teori mengenai metode deteksi DIF dengan Logistic
Regression, teori mengenai metode deteksi DIF dengan
pendekatan CFA, Multidimensional Aptitude Battery Test
sebagai item penelitian, penelitian yang relevan, dan
hipotesis penelitian.
12
BAB 3 : Metode Penelitian
Dalam bab metode penelitian ini akan dibahas mengenai
sampel sumber informasi, instrumen penelitian, tekhnik
pengumpulan data, prosedur penelitian, kriteria item yang
baik, dan perangkat lunak yang digunakan.
BAB 4 : Hasil Penelitian
Dalam bab empat ini, akan dibahas mengenai analisis
hasil uji validitas konstruk dengan pendekatan CFA, hasil
deteksi DIF yang menggunakan pendekatan IRT, hasil
deteksi DIF yang menggunakan Logistic Regression, hasil
deteksi DIF yang menggunakan CFA.
BAB 5 : Kesimpulan dan Saran
Dalam bab lima ini akan dipaparkan tentang kesimpulan
dan saran dari hasil penelitian.
13
BAB 2
LANDASAN TEORI
Dalam bab landasan teori ini akan dibahas mengenai teori Differential
Item Functioning (DIF), deteksi DIF menurut pendekatan Item Response Theory
(IRT), deteksi DIF menurut metode Logistic Regression (LR), deteksi DIF
menurut metode Confirmatory Factor Analysis (CFA), penelitian yang relevan,
dan Hipotesis.
2.1 Differential Item Functioning (DIF)
Sebelum membahas metode-metode deteksi Differential Item
Functioning (DIF), terlebih dahulu akan disampaikan tentang pengertian
DIF, jenis bias, dan DIF berdasarkan faktor jenis kelamin.
2.1.1 Pengertian DIF
Dalam IRT, kondisi ketidakadilan dalam suatu pengukuran disebut
sebagai fungsi diferensial. Ketika fungsi diferensial terjadi pada tingkat
item maka hal itulah yang disebut dengan Differential Item Functioning
(DIF). DIF merupakan cara yang paling umum untuk mendeteksi bias
item. Definisi yang diberikan oleh ahli psikometri tentang DIF adalah jika
individu yang memiliki tingkat kemampuan yang sama dalam kelompok
yang berbeda, mempunyai peluang yang berbeda dalam menjawab item
14
tersebut (Hambleton et al., 1991). Dengan kata lain, jika sebuah item
menunjukkan adanya DIF, maka fungsi repons item tersebut tidak sama
dalam kelompok yang berbeda. Menurut Anastasi dan Urbina (1997),
suatu item dikatakan mengandung DIF apabila item tersebut ditempuh
oleh dua kelompok atau lebih yang memiliki kemampuan sama, tetapi
menunjukkan probabilitas sukses yang berbeda dalam menjawab butir
tersebut. Hal senada juga disampaikan oleh Angoff (dalam Holland &
Wainer, 1993) :
“An item is biased if equal able (or proficient) individuals, from
difference groups, do not have equal probabilities of answering the item
correctly”.
Berdasarkan definisi di atas, DIF adalah pengkonsolidasian seluruh
prosedur untuk memastikan bahwa sifat metrik item bersifat tetap di
seluruh sampel populasi. DIF dapat diuji dengan membandingkan fungsi
karakteristik item dari dua kelompok atau lebih. Kesalahan pengukuran
secara sistematis ini menurut teori tes klasik akan berdampak negatif
terhadap hasil pengukuran, karena secara konsisten mempengaruhi skor
individu yang disebabkan oleh suatu karakteristik pribadi yang tidak
sesuai dengan konstruk yang diukur (Crocker & Algina, 1986).
Mengidentifikasi DIF biasanya dilakukan dengan uji signifikansi
untuk menentukan apakah item berfungsi berbeda untuk tiap testee dalam
setiap kelompok. Analisis terhadap DIF adalah membandingkan item pada
15
kedua kelompok yang memiliki tingkat kemampuan yang sama. Dalam
analisis DIF, kelompok yang memiliki testee paling sedikit disebut dengan
kelompok focal, sedangkan kelompok yang memiliki testee paling banyak
adalah kelompok reference. Oleh karena itu, menurut Zumbo (1999)
sangat penting dilakukan analisis DIF sebagai uji empiris lebih lanjut pada
item yang berpotensi DIF, sehingga item yang diidentifikasi sebagai DIF
dapat ditindak lanjuti dengan memodifikasi atau membuang item tersebut.
Menurut Camilli dan Shepard (1994), kesalahan statistik dan
multidimensionalitas item merupakan dua faktor utama yang
menyebabkan item-item mengandung DIF, sehingga item tersebut tidak
mengukur dengan tepat sifat-sifat yang hendak diukur. Untuk melihat
keberfungsian suatu item, diperlukan suatu metode yang tepat sehingga
memberikan banyak petunjuk tentang sifat-sifat seseorang yang
diharapkan dapat tercermin dengan baik dalam skor item. Oleh karena itu
digunakan pendekatan Item Response Teory (IRT).
Menurut Drasgow (dalam Embretson&Reise, 2000), para peneliti
harus dapat membedakan antara dua jenis bias. Bias eksternal terjadi
ketika adanya perbedaan korelasi antara test skor dengan variabel nontes
untuk di dua atau lebih kelompok dari peserta tes. Sedangkan bias internal
dapat dilakukan dengan cara membandingkan probabilitas keberhasilan
testee dari berbagai kelompok dalam populasi yang sama. Dengan
demikian, dapat disimpulkan bahwa suatu item dikatakan tidak bias
16
apabila probabilitas keberhasilan pada suatu item tes adalah sama untuk
setiap kelompok.
Jelaslah bahwa terjadinya DIF bukan hanya disebabkan oleh
adanya perbedaan skor antara dua kelompok saja namun bisa juga terjadi
karena kemampuan yang berbeda dari testee tersebut. Sebagai contoh,
mahasiswa psikologi di suatu universitas sering melakukan skoring tes
nonproyektif secara berkala. Karena seringnya mahasiswa terlibat dalam
penskoringan alat tes tersebut, maka mereka mampu menjawab benar
setiap pertanyaan-pertanyaan yang berkaitan dengan bagian-bagian subtes
tersebut. Hal ini tidak berarti bahwa pertanyaannya mengandung DIF,
tetapi lebih disebabkan adanya perbedaan dalam pengusaan bahan.
Selain itu, ciri lain dari DIF tersebut adalah tes tersebut tidak
mengandung unsur rasisme atau hal negatif lainnya yang dapat
menyinggung pihak-pihak tertentu sehingga dapat menghalangi tujuan dari
pengukuran tersebut sehingga skor yang dihasilkan dalam pengukuran
tidak menunjukkan gambaran kemampuan testee yang sebenarnya.
2.1.2 Jenis Bias
Berdasarkan pengelompokannya, jenis bias dapat di bagi
berdasarkan lingkup dan berdasarkan titik kajian. Berdasarkan lingkup,
maka bias di bagi berdasarkan item ataupun tes itu sendiri. Sedangkan
berdasarkan titik kajian, maka bias dapat di menjadi dua, yaitu eksternal
dan internal.
17
a. DIF dan DTF
Pada penjelasan di atas, telah dijelaskan tentang item bias atau
yang lebih sering disebut sebagai Differential Item Functioning (DIF),
sedangkan bias tes lebih kepada bias yang ada pada tes atau kumpulan-
kumpulan dari item-item tes tersebut, yang lebih sering disebut dengan
Differential Test Functioning (DTF).
b. Bias eksternal dan Bias internal
Bias eksternal dan bias internal ini merupakan jenis bias yang
dilihat berdasarkan atas titik perhatian kajian. Jika bias tersebut dikaji
pada seperangkat tes maka dapat dikatakan bias eksternal (Camilli &
Shepard, 1994). Jika terjadi ketidakadilan dalam suatu alat tes terhadap
testee yang memiliki kemampuan yang sama pada kelompok yang
berbeda, maka hal itulah disebut dengan bias eksternal. Sehingga fokus
bias eksternal terletak pada validitas prediktif.
Selain bias eksternal, terdapat juga bias internal. Menurut Camilli
dan Shepard (1994) bias internal ini sangat berkaitan dengan
pengembangan tes. Bias item karena faktor internal dapat terjadi
apabila kajian difokuskan pada komponen item (bentuk item, materi
item, kalimat dan kata-kata yang digunakan, gambar, petunjuk atau
clue, dan obyek atau stimulus yang digunakan dalam item
dimungkinkan untuk menyaring item tes yang bias pada saat tes
18
sedang dikembangkan sehingga menghasilkan tes yang berkualitas
baik.
2.1.3 DIF Berdasarkan Faktor Jenis Kelamin
Salah satu hal yang mempengaruhi terjadinya bias item adalah
fakor jenis kelamin. Perbedaan pola pikir dan pandangan antara laki-laki
dan perempuan yang memiliki kemampuan sama dapat menyebabkan
perbedaan probabilitas yang tidak sama untuk menjawab benar suatu item
tes. Meskipun mereka duduk di kelas yang sama, membaca buku yang
sama, mendengarkan guru yang sama, anak laki-laki dan perempuan
menerima pendidikan yang berbeda. Hal ini sesuai dengan yang
diungkapkan Jones, dkk (2000) dalam The American Association of
University Women yang membahas tentang ketidaksamaan gender di
dalam kelas. Dalam artikel tersebut dijelaskan bahwa anak perempuan
menerima perhatian dari guru yang lebih sedikit dibandingkan dengan
anak laki-laki. Selain itu juga, anak perempuan sering memperoleh
kritikan pada tugas yang diselesaikan tanpa menghargai kebersihan,
kerapihan, dan ketepatan pengumpulan pekerjaan tersebut. Anak
perempuan juga sering ragu dalam memulai serta meragukan kemampuan
mereka sendiri sehingga partisipasinya didalam kelas rendah akibatnya
percaya diri dan prestasi belajarnya juga rendah. Sebaliknya, anak laki-laki
sering mendapat pujian untuk jawaban yang cerdas dan kemampuan
bagus. Meskipun ada perbedaan perlakuan tersebut, Sadler (1994)
19
mengatakan bahwa anak perempuan memperoleh hasil pencapaian belajar
yang lebih baik dari pada anak laki-laki.
Dalam suatu penelitian di Coloumbia dengan menggunakan alat tes
yang sudah baku, O’neil (2000) mengatakan bahwa anak perempuan
mengungguli laki-laki di semua tingkat membaca dan menulis, sedangkan
laki-laki dan perempuan memiliki kemampuan yang hampir sama pada
matematika dan sains. Pebedaan kemampuan antara laki-laki dan
perempuan ini terkadang bukan hanya semata-mata dikarenakan alat tes
yang digunakan, tetapi juga disebabkan karena perbedaan perlakuan dan
pengalaman antara laki-laki dan perempuan. Hal senada juga diungkapkan
oleh Linn&Petterson (1985) yang mengatakan bahwa laki-laki memiliki
kemampuan yang lebih dalam bidang spasial dibandingkan dengan
perempuan.
Hyde (2005) meneliti tentang pengaruh perbedaan gender dalam
bidang kemampuan kognitif, komunikasi verbal atau non verbal, sosial
atau karakteristik kepribadian, psychological well-being, motorik, moral
dan konstruk lainnya. Hasilnya menunjukkan bahwa perbedaan
kemampuan kognitif antara laki-laki dan wanita, 78% berada pada rentang
yang sangat kecil atau mendekati nol. sedangkan, antara laki-laki dan
perempuan memiliki kemampuan spasial yang berbeda.
Feingold (1988) juga mengatakan bahwa perempuan memiliki
kemampuan bahasa dan ejaan yang lebih baik daripada laki-laki.
20
Sementara itu, Hyde dan Linn (1988) dan diperkuat juga oleh Hedges dan
Nowell (1955) mengatakan bahwa perempuan lebih baik dalam
kemampuan pemahaman dan kosakata.
Penjelasan di atas menyimpulkan bahwa sangat wajar jika laki-laki
dan perempuan berbeda dalam menyikapi dan memberikan jawaban
terhadap suatu tes yang diberikan kepadanya meskipun memiliki
kemampuan yang sama, akan tetapi tidak menutup kemungkinan
probabilitas menjawab benar di kedua kelompok tidak sama. Dan hal
tersebut inilah yang disebut dengan differential item function berdasarkan
faktor jenis kelamin.
2.2 Deteksi Differential Item Functioning (DIF) Menurut Pendekatan
Item Response Theory (IRT)
Pelanggaran asumsi unidimensionalitas dan ketidakadilan suatu tes
terhadap suatu kelompok yang memiliki kemampuan yang sama, bisa
menjadi suatu indikasi yang tepat bahwa item tersebut dikatakan bias.
Oleh karena itu, ketimpangan skor tersebut haruslah dihindari serta
memerlukan deteksi bias yang tepat sehingga dapat dilakukan koreksi dan
pengambilan keputusan apakah item yang terdeteksi bias tersebut dapat
dirubah atau bahkan dibuang dari tes tersebut.
Dalam dunia pengukuran saat ini, terdapat dua buah grand theory
yang sedang berkembang yaitu Classical Test Theory (CTT) dan Item
Response Theory (IRT). Dalam Classical Test Theory (CTT) memiliki
21
banyak keterbatasan-keterbatasan, maka dikembangkan metode Item
Response Theory (IRT) yang juga berguna untuk mengatasi keterbatasan-
keterbatasan dalam CTT. Banyaknya keterbatasan-keterbatasan dalam
CTT tersebut, maka metode deteksi bias yang paling tepat dalam
mendeteksi bias adalah metode yang berdasarkan pada pendekatan Item
Response Theory (IRT). Item Response Theory (IRT) adalah teori tes yang
menggambarkan model hubungan respon item dengan konstruk yang
diukur oleh tes. Oleh karena itu, IRT adalah suatu metode yang terus
berkembang dalam pengembangan tes atau instrumen pengukuran yang
juga berguna untuk mengatasi keterbatasan-keterbatasan dalam Classical
Test Theory (CTT).
2.2.1 Pengertian Item Response Theory
Menurut Embretson dan Reise (2000) selama beberapa dekade
terakhir Classical Test Theory (CTT) telah menjadi mainstream dalam
pengukuran psikologi dan pendidikan. Akan tetapi, dalam
perkembangannya CTT yang dikenal selama ini memiliki kelemahan yaitu
group dependent dan item dependent yang kemudian menjadi
permasalahan dalam pengembangan tes dan instrumen pengukuran
(Hambleton dkk., 1991). Oleh karena itu hasil pengukuran tergantung
kelompok testee yang mengerjakan tes (group dependent). Sehinga jika tes
diujikan pada kelompok testee dengan kemampuan tinggi, tingkat
kesulitan item tes akan rendah. Sebaliknya, jika tes diujikan kepada
22
kelompok testee dengan kemampuan rendah, tingkat kesulitan item akan
tinggi. Selain itu, hasil pengukuran tergantung dari tes mana yang hendak
diujikan (item dependent). Jika tes yang diujikan mempunyai tingkat
kesulitan tinggi, estimasi kemampuan testee relatif akan rendah.
Sebaliknya, jika tes yang diujikan mempunyai tingkat kesulitan rendah,
estimasi kemampuan testee relatif akan tinggi. Keterbatasan dan
kelemahan dari CTT ini tentunya memunculkan konsep baru tentang
pengembangan alat tes. Oleh karena itu dikembangkanlah suatu teori baru.
Teori ini dikenal dengan nama Item Response Theory (IRT).
Konsep dari IRT sebenarnya adalah mencoba membangun suatu
model yang dapat menghubungkan parameter item dan parameter testee.
Oleh karena itu, ciri item dan ciri testee ini dihubungkan oleh suatu model
yang berbentuk fungsi atau lengkungan grafik dengan sejumlah syarat
tertentu. Parameter item dalam IRT mencakup: parameter daya beda item
(ai), tingkat kesukaran (bi), dan indeks menebak atau peluang guessing (ci).
Sedangkan parameter kemampuan (θ) merupakan variabel yang tidak
dapat diamati (unobservable) atau latent trait dari testee.
Menurut hambleton dkk (1991), secara umum ciri-ciri dari IRT itu
adalah sebagai berikut :
1. Karakteristik item tidak tergantung pada testee
2. Skor yang digambarkan oleh testee tidak tergantung pada tes
23
3. Model lebih menekankan pada item daripada tes
4. Model tidak mensyaratkan secara ketat adanya tes parallel, karena
tidak ada penaksiran reliabilitas
5. Sebuah model yang tepat untuk mengukur tingkat kemampuan.
2.2.2 Asumsi dalam Item response theory (IRT)
Dalam IRT, diasumsikan masing-masing testee yang merespon
sebuah item tes memiliki sejumlah underlying ability, sehingga masing-
masing juga memiliki nilai angka (skor) yang menempatkannya pada suatu
titik tertentu pada skala kemampuan.
Pada dasarnya IRT dikembangkan atas dasar dua postulat yaitu :
1. Performansi testee pada suatu item dapat diprediksikan oleh satu faktor
yang disebut laten trait.
2. Hubungan performansi testee pada suatu item dan perangkat
kemampuan laten yang mendasarinya digambarkan oleh fungsi
monotonic dalam kurva Item Characteritic Curve (ICC) karena
meningkatnya θ dan probabilitasnya bervariasi pada kontinum θ
(ability/proficiency) (Hambleton., et al, 1991).
Selain itu, Menurut Hambleton dan Swaminathan (1985) asumsi
dasar dari IRT adalah (1) unidimensional yang artinya adalah bahwa
dimensi karakter testee yang diukur oleh suatu tes itu adalah sama, dan (2)
24
local independent yang artinya bahwa apabila kemampuan-kemampuan
yang mempengaruhi kinerja suatu tes dianggap konstan maka respon testee
terhadap setiap item secara statistik tidak saling terkait, sehingga dapat
dikatakan bahwa setiap parameter sifatnya invarian.
Menurut Embretson dan Reise (2000) asumsi dari IRT itu adalah:
1. Masing-masing item memiliki bentuk kurva karakteristik item (Item
Characteristic Curve/ICC) tertentu. Hal ini sering disebut dengan
unidimensionalitas. Ketika terjadi pelanggaran dalam asumsi
unidimensionalitas, maka akan mengakibatkan tidak diketahuinya
kontribusi dari setiap komponen terhadap jawaban testee.
2. Local independent.
Dalam asumsi ini dikatakan bahwa skor yang diperoleh testee tidak
dipengaruhi oleh jawaban soal lainnya.
2.2.3 Item Characteristic Curve (ICC)
Pada awalnya, teori respon item menggunakan distribusi normal,
namun dalam perkembangan selanjutnya digunakan model distribusi
logistik. Hal ini sesuai dengan pernyataan Embretson dan Reise (2000)
yang mengatakan bahwa distribusi yang biasa digunakan adalah distribusi
logistik, distribusi normal, ataupun distribusi logistik yang mendekati
distribusi normal.
25
Oleh karena itu, diasumsikan bahwa berapapun besarnya
kemampuan (θ), dapat diukur pada skala yang mempunyai titik tengah 0,
dengan unit pengukuran 1, dengan rentang negatif tak terhingga sampai
dengan positif tak terhingga (-∞ ≤ θ ≤ ∞).
Dengan adanya unit pengukuran dan sebuah titik angka tengah 0
yang dapat dijadikan acuan jarak, dapat diketahui kemampuan (θ) yang
dimiliki seseorang dan kemampuan beberapa orang yang akan
dibandingkan. Untuk mengukur suatu kemampuan (θ), dapat dilakukan
dengan cara mengembangkan sebuah tes yang terdiri dari item-item, yang
mana item-item tersebut mengukur beberapa dari kemampuan tertentu.
Oleh karena itu, item-item tersebut hendaknya bersifat free respon
sehingga testee dapat menuliskan berbagai respon yang dikehendakinya.
Tester dapat memberikan skor 1 jika benar, dan 0 jika salah.
Masing-masing testee yang memberikan respon pada sebuah item
diasumsikan memiliki sejumlah underlying ability. Sehingga masing-
masing testee mendapatkan skor dari masing-masing item secara terpisah.
Hal ini sesuai dengan konsep dasar IRT yang menekankan pada item-item
tes secara sendiri-sendiri, bukan pada skor tes yang merupakan akumulasi
dari respon item yang bersama-sama. Dengan demikian, masing-masing
juga memiliki nilai angka, skor, yang dapat ditempatkan pada suatu titik
tertentu pada skala kemampuan (θ). Yang mana pada setiap tingkat
kemampuan sepanjang skala kemampuan (θ), akan terdapat probabilitas
26
tertentu dimana seorang testee dengan kemampuan tersebut akan
memberikan sebuah jawaban benar pada item, yang biasa disimbolkan
dengan P (θ).
Pada testee yang memiliki kemampuan rendah, nilai probabilitas
ini akan bernilai kecil, sebaliknya jika testee memiliki kemampuan tinggi,
maka probabilitas akan bernilai besar. Jika P (θ) di plot sebagai fungsi
kemampuan, hasilnya akan membentuk kurva S. Probabilitas menjawab
benar akan mendekati 0 pada level kemampuan terendah, sedangkan pada
tingkat kemampuan tertinggi probabilitas menjawab benar akan mendekati
1. Kurva tersebut menggambarkan hubungan antara probabilitas menjawab
benar dengan item dan skala kemampuan, sehingga setiap item dalam tes
akan memiliki satu ICC. Pada dasarnya ICC terdiri dari tingkat kesukaran
(b) yang menggambarkan kinerja item sepanjang skala kemampuan yang
sering disebut juga sebagai indeks lokasi serta daya beda (a) yang
menggambarkan sejauh mana sebuah item mampu membedakan antara
testee yang memiliki kemampuan di bawah lokasi item dan testee yang
memiliki kemampuan di atas lokasi. Tingkat kesukaran (b) dan daya beda
(a) ini yang disebut sebagai parameter-parameter sebuah item (dalam
model 2 parameter) yang secara umum mempengaruhi bentuk ICC.
27
Kemampuan
Gambar 2.1 Kurva ICC (b= 0; a=1)
Dari gambar 2.1, dapat dilihat kecuraman atau stepness ICC pada
bagian tengah. Ketika kurva makin curam, berarti item tersebut makin
mampu membedakan. Sebaliknya, jika item kurang mampu membedakan
probabilitas menjawab benar pada tingkat kemampuan rendah dan tingkat
kemampuan tinggi, maka kurva akan makin datar.
Dari penjelasan gambar 2.1, dapat disimpulkan bahwa ICC adalah :
1. Sebuah kurva yang menggambarkan hubungan antara perubahan trait
level dan perubahan probabilitas menjawab benar;
2. Sebuah kurva yang berbentuk seperti huruf S, yang menggambarkan
probabilitas menjawab benar dalam fungsi monoton terhadap
peningkatan skala kemampuan. Perbedaan masing-masing ICC terletak
pada lokasinya (b) dan kemiringannya (a).
28
2.2.4 Local Independent
Menurut Hambleton, et al (1991) local independen adalah jika
kemampuan dianggap konstan, pola respon testee (Xis) pada berbagai
pasangan item adalah independen. Dengan kata lain, local independent ini
akan dicapai jika hubungan antar item dan kemampuan testee dapat
dijelaskan oleh model. Untuk pemahaman lebih lanjut, akan diilustrasikan
sebagai berikut : Jika pola respon seorang testee pada 4 item adalah
(1,1,1,0,), maka asumsi local independent untuk masing-masing pola
respon X1s=1, X2s=1, X3s=1, X4s=0 dapat diuraikan menjadi:
P(X1s=1,X2s=1,X3s=1,X4s=0|θ)=P(X1s=1|θ)P(X2s=1|θ)P(X3s=1|θ)P(X4s=0|θ)
=P1 P2 P3 Q4 ………………………………………… (1)
Dimana;
Pis = P(Xis = 1|θ) dan Qis = 1 – Pis
Local independent juga berhubungan dengan jumlah variabel laten
yang berbeda yang mendasari performansi item. Embretson dan Reise
(2000) juga menyatakan bahwa local independent dapat dicapai jika
probabilitas menjawab benar sembarang item i [Prob (Xis = 1)] independen
dari hasil sembarang item yang lain i, dengan mengontrol parameter
kemampuan testee (θs) dan parameter item (ξi) sehingga tidak ada
hubungan antar item yang tersisa, dapat disimpulkan sebagai berikut:
29
Prob (Xis = 1|Xis, ξi, θs) = Prob (Xis = 1| ξi, θs)
Dari penjelasan diatas, dapat disimpulkan bahwa local independent
merupakan bukti unidimensionalitas jika IRT mengandung parameter-
parameter testee hanya pada satu dimensi saja. Dengan kata lain, selain
faktor kemampuan testee, tidak ada hubungan atau keterkaitan respon butir
antara butir satu dengan butir lainnya. Dalam local independent, ada 2
(dua) ketentuan:
1. Tes tersebut hanya mengukur testee yang memiliki tingkat
kemampuan yang sama.
2. Asumsi local independent menyatakan secara tidak langsung
bahwa item bebas secara statistik untuk testee pada tingkat
kemampuan tertentu (Hambleton et al, 1991).
2.2.5 Model-Model Dalam IRT
Ada beberapa cara pengelompokan model dalam IRT. Ada model
yang dibagi berdasarkan konstrak yang dikembangkan, berdasarkan pola
respon, dan berdasarkan asumsi distribusi yang digunakan.
Menurut Embretson dan Reise (2000) ada dua model IRT jika
dilihat berdasarkan konstrak yang dikembangkan dan mendasari sebuah
tes, yaitu:
30
1. Model unidimensional
Suatu tes dikatakan unidimensi jika hanya ada satu laten trait yang
dianggap mampu untuk mengukur kemampuan testee.
2. Model multidimensional
Suatu tes dikatakan multidimensional jika terdapat lebih dari satu trait
atau terdapat lebih dari dua faktor yang saling berkorelasi antar item.
Kemudian Embretson dan Reise (2000) juga membagi dua model
tes berdasarkan pola respon yang diberikan oleh testee, yaitu:
1. Model dikotomus
Dalam model dikotomus ini, pola respon hanya mempunyai skor 1
untuk jawaban benar, dan skor 0 untuk jawaban salah. Biasanya,
model dikotomus ini digunakan pada item bentuk pilihan ganda, benar-
salah, dan menjodohkan.
2. Model politomus
Pada model politomus, pola respon mempunyai kategori skor lebih
dari satu. Biasanya model politomus ini dapat ditemukan dalam skala
likert atau item tes yang berbentuk uraian.
31
Selanjutnya Embretson dan Reise (2000) mengungkapkan bahwa
pembagian suatu model IRT dapat juga dilihat berdasarkan asumsi
distribusi yang digunakan, yaitu:
1. Model logistik
Model logistik ini merupakan suatu model yang mendasarkan pada
fungsi distribusi logistik.
2. Model ogive normal
Model ogive normal adalah model yang mendasarkan pada fungsi
distribusi normal. Distribusi logistik ini akan mendekati distribusi
normal jika standar deviasi distribusi logistik adalah 1.7.
Jika dilihat berdasarkan beberapa sudut pandang penggolongan
model-model IRT tersebut, maka item-item dalam tes pada penelitian ini
dapat disebut juga sebagai item-item yang bersifat dikotomus serta
unidimensional. Sedangkan dari sudut pandang asumsi, maka model yang
digunakan adalah model logistik. Sehingga secara umum, model logistik
dapat dirumuskan sebagai berikut :
……………………………………… (2)
Dalam hal ini : j = 1, 2, 3, …… n
Pj (θ) = peluang menjawab benar dari testee dengan kemampuan (θ)
32
bj = parameter tingkat kesukaran item j
n = jumlah item dalam tes
e = bilangan transendental yang harganya 2,718
D = adalah nilai konstanta yang dapat diatur agar model logistik sama
dengan model ogive normal.
Berikut akan dijabarkan persamaan model logistik dari masing-
masing persamaan logistik, yaitu :
1. Model logistik 1 (satu) parameter
Dalam model 1PL ini, seiring dengan bertambahnya kemampuan,
maka peluang menjawab benar juga akan mengalami peningkatan (bi),
titik perubahan paling ekstrem terjadi pada saat P(Xis=1|θs, bi)= 0.5.
oleh karena itu, pada model ini nilai daya beda (ai) adalah konstan dan
sama dengan 1 untuk seluruh item, sedangkan pada parameter peluang
menjawab benar (bi) mempunyai nilai yang berbeda untuk tiap
itemnya. Dapat dijelaskan melalui persamaan matematis model logistik
1 (satu) parameter sebagai berikut :
............................................... (3)
33
Untuk :
Pi(θ) = Peluang menjawab benar dari testee yang memiliki
kemampuan (θ) menjawab butir i secara benar.
bi = parameter kesukaran item i.
e = bilangan transendental, yang nilainya 2.718.
D = Parameter tambahan yang dapat diatur agar model logistic
sama dengan model ogive normal, dan untuk 1P dapat diambil
1.
2. Model logistik 2 (dua) parameter
Model logistik 2 (dua) parameter ini menggunakan dua parameter,
yaitu parameter kesukaran butir (bi) dan daya beda item (ai).
Hambleton et al (1991) menyatakan bahwa persamaan matematis
model logistik 2 (dua) parameter ini dapat diuraikan sebagai berikut :
………………………… (4)
Untuk:
Pi(θ) = Peluang menjawab benar dari testee yang memiliki
kemampuan (θ) menjawab butir i secara benar.
bi = parameter kesukaran item i.
34
ai = daya beda item i.
e = bilangan transendental, yang nilainya 2.718.
D = nilai konstanta agar model logistik mendekati model ogive
normal. Dengan nilai D sama dengan 1,7.
3. Model logistik 3 parameter
Pada model logistik 3 parameter, selain memiliki peluang
menjawab benar dan daya beda, model ini juga melibatkan guessing.
Testee diasumsikan dapat menjawab benar suatu item dengan
menggunakan strategi yang tidak berkaitan dengan kemampuan
(Camili&Shepard, 1994). Menurut Embretson dan Reise (2000), tes
pilihan ganda adalah salah satu bentuk tes yang cocok dengan model
logistik 3 parameter ini. Dalam penerapannya, pada tes pilihan ganda
ini akan selalu ada kemungkinan seseorang untuk menebak jawaban.
Model logistik 3 (tiga) parameter ini dapat diuraikan dalam bentuk
persamaan berikut ini :
…………. (5)
Dimana:
Pi(Xis │θs, bi, ai, ci) = Peluang menjawab benar dari testee yang
memiliki kemampuan (θ) menjawab butir i secara benar.
35
bi = parameter kesukaran item i.
ai = daya beda item i.
ci = guessing (peluang tebakan) item i.
e = bilangan transendental, yang nilainya 2.718.
D = nilai konstanta agar model logistik mendekati model ogive
normal. Dengan nilai D sama dengan 1,7.
2.2.6 Estimasi Parameter Item
Hal yang penting untuk dilakukan sebelum pengaplikasian IRT
adalah dengan mengestimasi parameter-parameter yang digunakan. Oleh
karena itu, para ahli matematika telah mengembangkan sejumlah metode
yang sifatnya umum untuk mengestimasi parameter dalam suatu model.
Dari estimasi parameter ini nantinya akan dapat ditentukan fungsi-fungsi
yang menggambarkan probabilitas menjawab benar pada item tertentu.
Parameter-parameter item dalam model IRT diestimasi dengan
menggunakan metode maximum likelihood.
Crocker dan Algina (1986) mengatakan bahwa paling tidak ada dua
prosedur estimasi parameter yang umum digunakan, yaitu : maximum
likelihood dan approximate procedures. Sedangkan Hambleton et al
(1991) mengatakan bahwa ada 6 (enam) prosedur dalam estimasi
parameter ini, yaitu:
36
1. Joint Maximum Likelihood (JML).
Prosedur estimasi ini dapat digunakan untuk model logistik satu, dua,
dan tiga parameter dengan cara mengestimasi parameter testee dan
parameter butir secara simultan.
2. Marginal Maximum Likelihood (MML).
Prosedur estimasi ini dapat digunakan untuk model logistik satu, dua,
dan tiga parameter dengan cara mengestimasi parameter testee dan
untuk parameter item diintegrasikan.
3. Conditional Maximum Likelihood (CML).
Conditional maximum likelihood (CML) ini hanya dapat digunakan
untuk mengestimasi model logistik dengan satu parameter yaitu
dengan cara mengkondisikan pada banyaknya jawaban yang benar.
4. Joint and Marginal Bayesian Estimation.
Prosedur estimasi ini dapat digunakan untuk model logistik satu, dua,
dan tiga parameter dengan menggunakan means atau median dari
distribusi yang telah ada sebelumnya.
5. Heuristic Estimation.
Pada prosedur heuristic estimation ini hanya dapat digunakan untuk
model logistik dua dan tiga parameter dengan cara mengestimasi
37
dengan menggunakan prosedur lainnya yang tidak ditentukan terlebih
dahulu.
6. Method Based on Nonlinear Factor Analysis.
Dengan menggunakan kuadrat kecil di dalam analisis faktor maka
prosedur ini mampu untuk mengestimasi parameter. Akan tetapi,
prosedur ini dapat digunakan pada model logistik dua parameter,
sedangkan untuk model logistik tiga parameter dapat dilakukan dengan
memodifikasi parameter guessing menjadi fixed.
Dalam penelitian ini prosedur estimasi yang digunakan adalah
dengan menggunakan marginal maximum likelihood (MML). Menurut
Embretson dan Reise (2000) metode ini memiliki beberapa kelebihan,
yaitu:
1. Dapat diaplikasikan untuk semua tipe model-model IRT, termasuk
yang bersifat multidimensional.
2. Efisien dan konsisten untuk tes baik panjang maupun pendek.
3. Estimasi standar error item merupakan pendekatan yang tepat dari
variasi dari varian.
4. Estimasi dapat dilakukan meskipun terdapat testee yang menjawab
benar semua untuk setiap item soal.
38
5. Selanjutnya hasil estimasi ini juga dapat digunakan untuk uji
hipotesis dan indikasi fit.
Embretson dan Reise (2000) mengatakan bahwa pada tingkat
kemampuan tertentu (θq), peluang menjawab benar dari sebuah pola
respon dapat dihitung dari model dasar IRT. Peluang menjawab benar ini
lebih dikenal dengan probabilitas pola respon marginal. Hal ini dapat
dilihat dari model persamaan berikut ini :
……………………………. (6)
Untuk :
P(Xis) = Peluang menjawab benar testee S terhadap i item.
Xis = pola respon testee S pada sejumlah i item
θs = tingkat kemampuan testee
ξ = parameter item
Q = peluang jawaban salah (Q= 1-P)
Selanjutnya dalam Bock dan Mislevy (1994) menjelaskan bahwa
pola respon observed variabel dalam sampel random dari populasi [P(Xp)]
atau yang sering dikenal dengan gaussian quadrature formula itu
berhubungan dengan:
39
1. Peluang menjawab benar suatu pola respon (θq)
2. Peluang menjawab benar berdasarkan tingkat kemampuan [P(θq)]
3. Penjumlahan diskrit tingkat kemampuan yang dimulai dari q sampai
dengan Q.
2.2.7 Pemilihan Model
Dalam pendekatan IRT pemilihan model yang tepat sangatlah
penting. Model yang dipilih harus fit dengan data yang dikumpulkan. Uji
kecocokan model ini dapat dilakukan dengan melakukan pemeriksaan
pada aspek-aspek tertentu. Menurut Hambleton dan Swaminathan (1985)
untuk menilai apakah sebuah model sudah cocok dengan data bisa dilihat
dari hasil pemeriksaan terhadap asumsi model, invariansi, dan keakuratan
prediksi model. Dalam penelitian ini akan digunakan model 1PL sehingga
kita dapat menguji parameter b pada masing-masing item tanpa
memperhitungkan parameter a dan guessing. Sehingga perhitungan
estimasi bias item dilakukan dengan memasukan parameter b kedalam
rumus χ2, berikut adalah rumus untuk menghitung bias item berdasarkan
pendekatan IRT dengan model 1 PL :
……………………………………………………………… (7)
Dimana :
40
Χ2 = Chi-square
diffb = selisih parameter b pada kelompok perempuan dan kelompok laki-
laki;
vara = varian pada parameter a;
varb = varian pada parameter b; (Hambletom, Swaminathan, dan Rogers,
1991)
Selanjutnya hasil perhitungan χ2
tersebut dibandingkan dengan χ2
tabel dengan df=2, P (0.05) yaitu 5.99. jika χ2hitung ≥
χ
2tabel maka dapat
dikatakan bahwa item tersebut mengandung DIF.
2.2.8 Fungsi Informasi
Suatu tes dikatakan baik apabila dapat memberikan informasi yang
paling banyak. Oleh karena itu penting dalam penelitian ini untuk
menghitung fungsi informasi masing-masing item. Dalam teori respon
item dikenal dua macam fungsi informasi, yakni fungsi informasi item
untuk item, dan fungsi informasi tes untuk tes, yang nilai nya merupakan
total dari tiap-tiap nilai informasi item. Nilai suatu informasi tes akan
maksimum apabila tingkat kesukaran tes sesuai dengan kemampuan yang
hendak diukur.
Hambleton & Swaminathan (1985) mengungkapkan beberapa
kegunaan dari hasil perhitungan suatu fungsi informasi, yaitu:
41
1. Sebagai langkah awal dalam konstruksi suatu alat tes
2. Membantu dalam memilih item-item yang baik
3. Membantu menilai presisi atau tidaknya suatu pengukuran
4. Dapat membandingkan sejumlah tes
5. Sebagai Penskoran dan dapat membantu dalam
membandingkan berbagai metode penskoran.
Letak grafik fungsi informasi akan bergeser mengikuti perubahan
tingkat kesukaran dari suatu item tes. Dapat disimpulkan bahwa fungsi
informasi ini sangat bergantung pada parameter item.
Bentuk informasi tes berupa kurva yang persamaannya ditulis
sebagai berikut :
…………………………………………………………………………………… (8)
Dimana :
I (θ) = fungsi informasi tes yang terdiri dari n item
Ii (θ) = nilai fungsi informasi item ke i ( Hambleton dkk, 1991)
Fungsi informasi item pada model logistik berdasarkan pada
peluang jawaban benar Pi (θ) dan peluang jawaban salah Qi (θ) = 1- Pi (θ),
sehingga dapat disimpulkan menjadi :
42
……………………………………………………………………………... (9)
Jika harga c = 0 seperti halnya dalam penelitian ini, maka
digunakan model 2 parameter logistik. Dari rumus (9), dapat diturunkan
menjadi rumus berikut ini :
……………………………………………... (10)
2.3 Deteksi Differential Item Functioning (DIF) Menurut Metode Logistik
Regression (LR)
Swaminathan dan Roger (1990) mengungkapkan bahwa prosedur
logistic regression (LR) juga dapat menunjukkan bahwa item tersebut
terdeteksi DIF. Jika kurva RL sejajar untuk dua kelompok, maka dapat
dikatakan tidak terjadi interaksi antar dua kelompok dengan tingkat
kemampuan testee. Demikian pula sebaliknya, jika terjadi interaksi antara
tingkat kemampuan testee dengan dua kelompok tersebut, maka hal itu
menunjukkan adanya DIF.
Persamaan statistik dari logistic regression ini didasarkan pada
persamaan regresi linear, dengan Y bersifat kontinu yaitu:
Y = α + βX atau 0 1 Y = β + β X…………………………………………… (11)
Dari persamaan diatas, dapat dikembangkan menjadi suatu
persamaan statistik logistic regression dimana peluang menjawab benar
43
item tes berdasarkan “status keanggotaan” nya, sehingga persamaan
logistic regression dari tingkat kemampuan testee pada kedua kelompok
tersebut, dapat ditunjukkan sebagai berikut :
………………………………………………………… (12)
Dapat juga diformulasikan dalam bentuk skala logit berikut ini:
………………………………………………………………….. (13)
Di mana :
Pj (θ) = Peluang menjawab benar dengan tingkat kemampuan (θ)
tertentu.
X = Raw scores tes untuk testee j
β0 = nilai intercept
β1 = nilai b1 untuk raw scores untuk tiap testee
Dalam analisis logistic regression, hasil jawaban tiap-tiap item
biner dianggap sebagai dependent variable, sedangkan “status
keanggotaan” merupakan variabel dummy, untuk total raw score dianggap
sebagai karakteristik dari testee, dan interaksi antara “status keanggotaan”
dan laten dianggap sebagai independen variabel. Oleh karena itu, dapat
44
disimpulkan bahwa deteksi DIF dengan metode logistic regression di
dasarkan atas hubungan antara hasil jawaban testee dengan raw score.
2.3.1 Asumsi Dasar Metode Logistic Regression
Menurut Zumbo (1999) ada beberapa asumsi dasar metode Logistic
Regression. Asumsi-asumsi dasar tersebut adalah :
1. Peluang menjawab benar suatu item mengikuti fungsi logistik,
sehingga variabel dependen dan variabel independen tidak
diasumsikan sebagai suatu hubungan linier antar keduanya.
2. Variabel dependen harus dalam bentuk dikotomi, sehingga hanya ada
dua kategori.
3. Variabel independen tidak harus dalam bentuk interval, terdistribusi
normal, atau hubungan linear, maupun varian yang sama dalam setiap
kelompok.
4. Tes tersebut unidimensional
5. Kemampuan testee dinyatakan dalam skor total (raw score) yang
diperoleh dari testee dari seluruh item soal dengan menganggap setiap
item tes mempunyai bobot yang sama
6. Setiap testee dapat dikelompokkan ke dalam satu dan hanya satu
kelompok, yaitu kelompok fokal dan reference.
45
2.3.2 Prosedur Analisis Metode Logistic Regression
Peluang menjawab benar suatu item tes dapat diuraikan dalam
bentuk logistik berikut ini (Swaminathan & Rogers, 1990):
…………………………………………... (14)
Atau dapat juga diformulasikan dengan nilai odds ratio sebagai berikut:
…………………………………………………………………………………………… (15)
Dengan P (U=1) menyatakan peluang testee menjawab benar suatu
item tes tertentu. Menurut Swaminathan & Rogers (1990) dalam metode
logistic regression ini yang dicari adalah perbedaan antar kelompok (yang
menyatakan adanya DIF uniform) dan interaksi antara keanggotaan
kelompok dan kemampuan testee (yang menyatakan DIF tidak uniform)
dengan (L) merupakan fungsi logistik item. Dalam metode logistic
regression ini untuk mengestimasi bias item dapat dilakukan dengan cara
membandingkan nilai selisih chi-square kedua tahap dengan chisquare
table, dalam hal ini chi-square tabel yang digunakan adalah 5,99 dengan
df=2 dan P-Value 0,05. Jika nilai ∆χ²hitung ≥ χ²tabel maka dapat disimpulkan
bahwa item tersebut mengandung DIF. Sedangkan untuk mengetahui
besaran (nilai) DIF tersebut dengan melihat selisih nilai R2
dikedua tahap.
Jika nilai R2
> 0,035 maka DIF dikatakan berada pada skala medium,
46
namun jika nilai R2 > 0,07 maka dikatakan DIF berada skala besar, DIF
dapat diabaikan jika nilai R2
< 0,035 (Jodoin & Gierl, 2001).
2.3.3 Keunggulan dan Kelemahan Metode Logistic Regression
Menurut Embretson & Reise (2000) metode logistic regression
merupakan metode berdasarkan teori tes klasik yang cukup populer selain
dari teori Mantel Haenszel dan metode SIBTES. Karena metode logistic
regression ini berdasarkan pada pendekatan teori tes klasik, maka dalam
analisisnya menggunakan raw score sebagai trait dari kemampuan (ability)
seseorang.
Akan tetapi metode logistic regression ini memiliki beberapa
keuntungan, seperti yang diungkapkan oleh Zumbo (1999) yang
mengatakan bahwa ada beberapa keuntungan menggunakan logistic
regression sebagai metode deteksi DIF bila dibandingkan metode-metode
Mantel Haenszel dan metode SIBTES, yaitu:
1. Tidak perlu mengkategorikan variabel kriteria.
2. Dapat mendeteksi DIF model uniform dan model non-uniform
3. Dapat menggeneralisasi hasil model regresi logistik untuk skor biner
pada skor butir ordinal.
47
2.4 Deteksi Differential Item Functioning (DIF) Menurut Metode
Confirmatory Factor Analysis (CFA)
Pada awalnya, teori analisis faktor dikemukakan oleh Spearman
(1940), yang mengatakan bahwa didalam analisis faktor tersebut terdapat
dua metode analisis, yaitu: Exploratory Factor Analysis (EFA) dan
Confirmatory Factor Analysis (CFA).
Confirmatory Factor Analysis (CFA) merupakan metode analisis
faktor yang lebih modern. Karena dalam metode CFA, dapat diketahui
beberapa informasi mengenai jumlah faktor, variabel yang mencerminkan
suatu faktor dan faktor-faktor yang saling berkorelasi (Thompson, 2004).
Terkadang CFA sering digunakan untuk mendeteksi secara akurat
kontribusi dan interaksi berbagai variabel yang diperkirakan merupakan
sumber bias. Manfaat lain dari penggunaan CFA adalah setiap dimensi
dapat diuji satu persatu, begitupun juga dengan validitas dari masing-
masing item juga dapat diuji dan digambarkan dalam matriks korelasi
CFA. Sedangkan dalam estimasi bias dengan menggunakan metode IRT
tidak dapat dilakukan secara simultan.
Menurut Muthen dan Cristofferson harga parameter pada analisis
faktor dapat ditransformasikan menjadi parameter IRT ( dalam Umar,
2001). Adapun rumus transformasi tersebut adalah sebagai berikut :
……………………………………………………………….. (16)
48
Dimana untuk :
= daya beda item ke i
= tingkat kesulitan item ke i dalam model ogive normal IRT
= muatan faktor (koefisien regresi) atau parameter kualitas
item ke i
= Tingkat kesulitan item ke i
Ψ = Varian dari error measurement pada item ke i
Estimasi bias item yang dilakukan dengan membandingkan
parameter τ ataupun parameter λ dari dua kelompok. Dengan demikian
bias item merupakan fungsi threshold seperti halnya dalam pendekatan
IRT. Dapat disimpulkan bahwa bias item dapat pula diteliti dengan
menggunakan Confirmatory Factor Analysis (CFA) seperti halnya pada
IRT.
Menurut Umar (2011) logika dasar CFA dapat dijelaskan sebagai
berikut:
1. Sebuah trait berupa kemampuan (θ) yang didefinisikan secara
operasional sehingga dapat disusun pertanyaan atau pernyataan untuk
mengukurnya. Kemampuan ini disebut faktor. Sedangkan pengukuran
49
terhadap faktor ini dilakukan melalui analisis terhadap pola respon atas
suatu item.
2. Setiap item diteorikan hanya mengukur atau memberi informasi
tentang satu faktor tertentu saja (unidimensionalitas), sehingga model
ini juga tepat ketika menguji unidimensionalitas sebagai salah satu
asumsi dasar dalam mendeteksi DIF.
3. Dengan menggunakan data yang tersedia, model ini dapat
memprediksi matrik korelasi antar item yang seharusnya akan
diperoleh jika teori tersebut bersifat unidimensional dengan
menggunakan persamaan matematis sebagai berikut:
S - ∑ = 0
Oleh karena itu melalui persamaan tersebut, dikatakan bahwa matrik S
harus sama dengan matrik ∑, sehingga asumsi unidimensionalitas
dalam IRT dapat terpenuhi.
4. Selanjutnya dilakukan uji signifikansi dengan Chi Square. Jika Chi
Square yang dihasilkan tidak signifikan (nilai P>0.05) maka dapat
dikatakan bahwa asumsi unidimensionalitas tidak ditolak.
5. Jika model fit, langkah selanjutnya adalah dengan menguji hipotesis
tentang signifikan atau tidaknya masing-masing item. Uji hipotesis ini
dilakukan dengan menggunakan t-test. Jika nilai t signifikan, berarti
50
item tersebut signifikan dalam mengukur apa yang hendak diukur
(validitas item).
2.4.1 Model Penelitian Uji Validitas Confirmatory Factor Analysis (CFA)
Untuk menguji validitas konstruk untuk setiap item tes maka
digunakan CFA. Dengan asumsi bahwa item tes merupakan observed
variabel dan variabel dimensi tes psikologi merupakan laten variabel.
Apabila setiap item merupakan muatan faktor dari masing-masing subtes
yang ada dalam tes MAB, maka item-item tersebut merupakan indikator
dari tes MAB, dengan kata lain item valid untuk mengukur dimensi tes
MAB tersebut.
Gambar 2.2 Model hipotesis untuk menguji validitas konstruk dengan
metode CFA
Gambar lingkaran (Y) pada gambar merupakan variabel laten
(dimensi dari MAB). Gambar segi empat (X) merupakan observed
variabel, yaitu item tes (X1 sampai dengan Xn). Arah panah yang menuju
ke segi empat merupakan muatan faktor item tes (λ). Model penelitian ini
51
juga digunakan untuk menguji validitas konstruk dan unidimensionalitas
masing-masing item tes.
2.4.2 Model Penelitian Deteksi DIF Dengan Metode Confirmatory Factor
Analysis (CFA)
Pada model ini pendekatan CFA digunakan untuk menguji DIF.
Model dasar dari model ini adalah model penelitian pertama. Pada model
ini, dimensi tes psikologi pada kelompok perempuan dan kelompok laki-
laki dalam kondisi sama. Selanjutnya estimasi bias dilakukan dengan cara
membandingkan muatan faktor dari setiap item yang ditempuh oleh
kelompok perempuan dan kelompok laki-laki dengan mengkondisikan λ1
= λ2 dan matrik γ
1 = γ
2 setelah menguji goodness of fit dari masing-masing
kelompok, sehingga dapat diuji signifikansi perbedaan mean parameter η1
(α1) dan mean parameter η
2 (α
2). Model tersebut dapat dilihat melalui
gambar 2.4 berikut ini:
Gambar 2.3 Model Penelitian untuk menguji DIF dengan metode CFA
52
Selanjutnya, setelah mendapatkan faktor loading dan varian
masing-masing item di kedua kelompok, maka estimasi bias butir dapat
dihitung dengan menggunakan rumus berikut ini :
…………………………………………………………………………………… (17)
Dimana :
t = merupakan indeks bias item;
λ11
= muatan faktor pada item 1 yang dikerjakan oleh kelompok
perempuan
λ12 = muatan faktor pada item 1 yang dikerjakan oleh kelompok laki-
laki
σ2λ1
1 = varian item 1 pada kelompok perempan
σ2λ1
2 = varian item 1 pada kelompok laki-laki
2.5 Multidimensional Aptitude Battery Test Sebagai Instrumen Penelitian
Tes Multidimensional Aptitude Battery (MAB) merupakan salah
satu alat ukur bakat. Tes ini pertama kali di buat oleh Jackson, Ph.D pada
tahun 1967. Akan tetapi awal publikasi dimulai pada tahun 1984.
Kemudian pada tahun 1994 prosedur administrasi tes, norma dan buku tes
di revisi untuk pertama kalinya.
53
MAB adalah tes kelompok yang dirancang untuk menilai bakat dan
inteligensi seseorang. Sesuai dengan tujuan konstruksi, MAB mencakup
lima subtes dalam Skala Verbal dan lima subtes dalam Skala Kinerja
menghasilkan V, P, dan IQ-IQ simpangan Skala Penuh. MAB ini sangat
cocok untuk orang yang berusia di atas 16 tahun, tetapi tidak
direkomendasikan untuk orang-orang yang mentalnya terganggu, yang
kondisinya dapat mempengaruhi pemahaman mereka akan instruksi tes.
Selain untuk mengukur tingkat inteligensi seseorang, MAB ini
dapat digunakan untuk :
1. Mengukur bakat seseorang, sebagai salah satu dari rangkaian
assesement dalam sesi konseling pendidikan;
2. Penilaian psikologi yang bertujuan untuk mengetahui performa
seseorang dalam bekerja ataupun dalam belajar; dan
3. Penilaian tentang neuropsychological.
Berdasarkan teknik pengadministrasiannya, MAB ini dapat
digunakan dalam assessment, baik secara perorangan maupun
berkelompok (massal).
2.6 Penelitian Yang Relevan
Penelitian tentang DIF telah banyak dilakukan baik di dalam negeri
maupun di luar negeri. Berkaitan dengan pendeteksian Differential Item
54
Functioning (DIF) dapat ditampilkan penelitian Stark et al., (2006) yang
melakukan uji coba dengan data simulasi terhadap model IRT dan CFA.
Studi ini dilakukan pada item dikotomus dan politomus dengan sebanyak
50 kali replikasi.
Selanjutnya, Benito et al., (2009) juga melakukan uji coba dengan
data simulasi berdasarkan pengaruh banyaknya nomor item dengan regresi
logistik. Simulasi yang dilakukan terdiri atas 3 jenis yaitu 10, 20, dan 40
item soal.
Kartowagiran (2005) melakukan perbandingan berbagai metode
untuk mendeteksi DIF, yaitu metode (1) kurva karakteristik butir (Item
Characteristic Curve=ICC), (2) Chi Square dari Lord, (3) metode luasan
menurut Raju, dan (4) tes kebolehjadian (Likelihood Ratio Test). Hasilnya
adalah bahwa metode Likelihood Ratio Test merupakan metode yang
paling sensitif dalam mendeteksi DIF, disusul kemudian oleh metode ICC,
metode Chi Square dari Lord dan metode luasan menurut Raju.
Siregar (2005) juga melakukan penelitian terhadap faktor eksternal
bias jenis kelamin pada butir tes IPA TIMSS tahun 2003 dengan
menggunakan metode CFA dan metode persamaan struktural (MPS).
2.7 Hipotesis
Dengan memperhatikan landasan teori yang sudah dipaparkan,
maka dapat dirumuskan hipotesis sebagai berikut.
55
“Dalam mendeteksi DIF pada item-item dikotomus pada tes
Multidimensional Aptitude Battery (MAB), pendekatan manakah yang
paling sensitif dalam mendeteksi DIF jika dilihat berdasarkan tingkat
keakuratan dan efektifitas prosedur dengan menggunakan pendekatan Item
Response Theory (IRT), Logistic Regression (LR), dan Confirmatory
Factor Analysis (CFA) ” .
56
BAB 3
METODE PENELITIAN
Hal yang hendak diteliti dalam penelitian ini adalah pendeteksian
Differential Item Functioning (DIF) dengan menggunakan pendekatan IRT, LR,
dan CFA. Dalam bab metodologi penelitian ini akan dibahas mengenai sampel
sumber informasi, instrumen penelitian, teknik pengumpulan data, prosedur
penelitian, kriteria item yang baik, dan perangkat lunak yang digunakan.
3.1 Sampel sumber informasi
Dalam penelitian ini peneliti menggunakan data mentah yang
tersedia. Data yang digunakan merupakan hasil dari rekruitmen karyawan
di Jakarta. Pelaksanaan tes dilakukan pada tahun 2012 dan ditempuh oleh
2041 orang yang terdiri dari 1192 orang laki-laki dan 849 orang wanita.
Karakteristik testee pada data tersebut adalah sebagai berikut:
a. Laki-laki dan wanita yang berusia 22-35 tahun.
b. Tingkat pendidikan minimal Strata-1.
Dengan demikian populasi sumber datanya adalah semua lembar
jawab dari tes tersebut akan digunakan menjadi sampel dalam penelitian
ini setelah melalui proses pembersihan data. Karena penelitian ini
bertujuan untuk mendeteksi bias berdasarkan dari jenis kelamin, maka data
tersebut dibagi menjadi dua kelompok, yaitu kelompok wanita dianggap
57
sebagai kelompok fokal dan kelompok laki-laki dianggap sebagai
kelompok reference.
3.2 Instrumen Penelitian
Dalam penelitian ini digunakan instrumen dari salah satu alat tes
bakat, yaitu Multidimensional Aptitude Battery Test (MAB Test). MAB
mencakup lima subtest dalam skala verbal dan lima subtest dalam skala
kinerja yang memiliki jumlah item sebanyak 336 item, dikarenakan
kesepuluh subtest tersebut mengukur kognisi atau inteligensi dari
seseorang oleh karena itu hasil penilaian test tersebut dapat menghasilkan
skor profile IQ seseorang. Namun karena dalam penelitian ini hanya
berfokus pada item dikotomus saja, maka hanya digunakan lima subtest
dalam skala verbal dan empat subtest dalam skala kinerja sehingga jumlah
item yang dijadikan instrumen dalam penelitian ini sebanyak 301 item.
Hal ini dikarenakan, dalam subtes kedua pada skala kinerja merupakan
subtest picture completion yang mana subtes tersebut bukan termasuk
dalam item dikotomus. Kesembilan subtes tersebut adalah :
1. Subtes pengetahuan umum (information test). 8 menit, skor
maksimal 43.
Tes ini berisi pertanyaan tentang pengetahuan umum yang
bertujuan untuk mengetahui pengetahuan individu, motivasi
untuk mengetahui hal-hal yang baru, serta efektifitas memori
jangka panjang.
Contoh soal:
58
Siapakah Presiden Republik Indonesia yang pertama?
A. Sutan Syahrir
B. Adam Malik
C. Soeharto
D. Soekarno
E. Bung Hatta
2. Subtes pemahaman tentang norma-norma sosial
(comprehension). 7 menit, skor maksimal 28.
Tes ini berisi pertanyaan tentang perilaku sosial yang bertujuan
untuk mengidentifikasi perilaku yang lebih baik secara sosial
dan memberikan alasan hukum dari kebiasaan sosial tertentu.
Contoh soal:
Apakah yang akan anda lakukan jika anda menemukan uang
Rp. 100.000,00 dalam lift di gedung kantor anda?
A. Bersyukur dan menyimpan uang tersebut
B. Membiarkan saja dan terus berjalan
C. Menyimpan uang tersebut dan memberikan nama serta
alamat kepada pengawas gedung yang mungkin diperlukan
jika ada laporan kehilangan uang
D. Membelanjakan uang tersebut secepat mungkin sebelum
orang mengetahuinya.
E. Membagikan keuntungan tersebut dengan para tetangga.
59
3. Subtes kemampuan berhitung (aritmatic). 9 menit, skor
maksimal 27.
Tes ini berisi pertanyaan tentang suatu latihan bilangan
aritmatic yang membutuhkan penjumlahan, pengurangan,
perkalian, atau pembagian seluruh bilangan yang bertujuan
untuk mengetahui penalaran dan kemampuan memecahkan
masalah.
Contoh soal:
Jika harga satu apel Rp. 100,00, berapakah harga tiga apel?
A. 150 C. 900 E. 500
B. 100 D. 300
4. Subtes kemampuan logika bahasa (similarities). 7 menit, skor
maksimal 32.
Tes ini berisi pasangan-pasangan kata dari suatu objek yang
saling berhubungan.
Contoh soal:
Apakah persamaan antara kentang dan ketela pohon?
A. Keduanya ditanam di dataran tinggi
B. Keduanya tergolong kelompok umbi-umbian
C. Keduanya berwarna kuning
D. Keduanya merupakan tumbuhan dari daerah pantai
E. Harga kentang lebih mahal daripada harga ketela pohon
60
5. Subtes perbendaharaan kata (vocabulary). 6 menit, skor
maksimal 46.
Tes ini berisi pertanyaan tentang perbendaharaan sejumlah kata
untuk mencari kata yang paling mirip dengan kata yang ada
pada item tes.
Contoh soal :
Persamaan kata dari Palsu :
A. Bohong C. Original E. Janji
B. Tidak asli D. Tipu muslihat
6. Subtes kecepatan dan ketelitian (digit symbol). 7 menit, skor
maksimal 35.
Tes ini berisi simbol-simbol yang mewakili suatu bilangan
angka.
Contoh soal :
Λ € ∞ ≈ ╝
1 2 3 4 5
Contoh :
€ ≈
A. 1 6
B. 2 4
C. 3 2
D. 1 5
E. 3 1
61
7. Subtes daya abstraksi (spatial). 9 menit, skor maksimal 50.
Tes ini berisi suatu objek gambar-gambar dua dimensi dalam
posisi yang berbeda-beda.
8. Subtes pemahaman sosial (picture arrangement). 9 menit, skor
maksimal 20.
Tes ini berisi kumpulan-kumpulan gambar yang mempunyai
cerita yang saling berkaitan dari gambar-gambar tersebut
dengan susunan acak, kemudian peserta diminta untuk
mengurutkan gambar-gambar tersebut.
9. Subtes kemampuan analisa sintesa (object assembly). 7 menit,
skor maksimal 20.
Tes ini berisi potongan-potongan gambar dari suatu objek yang
disusun secara acak. Kemudian peserta diminta untuk
menyusun potongan-potongan gambar tersebut sehingga
menjadi satu objek gambar yang utuh.
Testee diminta untuk mengerjakan item pertanyaan sesuai dengan
waktu yang telah disediakan. Jawaban diberikan oleh testee dengan
memilih 5 pilihan jawaban yang telah disediakan di mana di antara pilihan
jawaban tersebut hanya terdapat satu jawaban yang benar. Untuk
penskoran, apabila testee menjawab dengan benar maka akan
mendapatkan skor 1 dan mendapatkan skor 0 apabila menjawab salah.
62
3.3 Tekhnik Pengumpulan Data
Data yang digunakan dalam penelitian ini adalah data sekunder
yang dikumpulkan melalui metode dokumentasi, yaitu dengan cara
menyalin data yang ada. Data yang dikumpulkan adalah jenis kelamin dan
jawaban testee terhadap tes Multidimensional Aptitude Battery Test
(MAB)
3.4 Prosedur Penelitian
Penelitian ini dilaksanakan melalui beberapa tahapan, yaitu :
1. Langkah awal dengan melakukan pengkodean. Apabila sebuah item
tersebut dijawab benar, maka jawaban benar tersebut diberi kode 1
(satu). Jika suatu item dijawab salah, maka diberi kode 0 (nol).
2. Selanjutnya dilakukan pembersihan data sebagai langkah awal sebelum
dilakukan analisis data. Hal ini dimaksudkan untuk meningkatkan
akurasi informasi hasil penelitian. Pembersihan data dilakukan
berdasarkan pada respon tes MAB dengan cara membuang data testee
yang dianggap kurang serius dalam menjawab item tes. testee
dikatakan tidak serius apabila menjawab kurang dari 25% dari seluruh
item tes yang harus dijawab. Sehingga dapat disimpulkan bahwa,
jumlah jawaban yang kurang dari 25% merupakan indikasi dari
ketidakseriusan testee dalam menjawab. Sehingga didapat 1536 orang
peserta yang datanya akan diikutkan dalam analisis selanjutnya dengan
rincian sebagai berikut: 597 orang testee berjenis kelamin perempuan
dan 939 orang testee berjenis kelamin laki-laki.
63
3. Melakukan uji coba penggunaan perangkat lunak yang akan digunakan
yang meliputi program ITEMAN, QUEST, BILOG-MG dan M-PLUS.
4. Menganalisis item dengan pendekatan klasik dengan menggunakan
ITEMAN, dengan melihat rbis item ≥ 0,30, rbis pilihan bernilai negatif
selain kunci dan 0,20 ≤ P ≤ 0,80.
5. Dengan melihat criteria item baik berdasarkan pendekatan klasik,
maka hanya item yang dikatakan baik berdasarkan analisis item
dengan pendekatan klasik yang diikutsertakan lagi dalam analisis
dengan menggunakan pendekatan item respon teori. Hal ini dilakukan
karena BILOG-MG yang menggunakan prosedur Marginal Maximum
Likelihood tidak dapat mengkaliberasi yang jelek atau item yang
dijawab salah semua atau item yang dijawab benar semua oleh testee.
Dari analisis ini diperoleh parameter item, parameter testee, fungsi
informasi tes, dan grafik fungsi informasi tes.
6. Menghitung fungsi informasi item. Sehingga didapat nilai dari fungsi
informasi dari masing-masing item tiap subtes.
7. Menyeleksi item yang baik berdasarkan pendekatan teori butir tes
model 2 parameter logistik yang menggunakan BILOG_MG dengan
melihat nilai a ≥ 0,40, -2,00 ≤ b ≤ 2,00, dan informasi item dengan
skala kemampuan θ yang diambil antara -4,0 dan 4,0 dengan interval
0,25.
8. Menguji validitas konstruk dengan pendekatan CFA. Sehingga
diketahui apakah item-item tersebut merupakan muatan faktor dari
64
MAB. Uji validitas konstruk dilakukan pada data gabungan antara
laki-laki dan perempuan, data kelompok perempuan, dan data
kelompok laki-laki. Apabila dalam perhitungan χ² diperoleh P > 0,05,
maka model tersebut fit dengan data. Artinya, item-item tersebut valid
mengukur MAB. Sehingga didapatlah item yang baik untuk
diikutsertakan dalam analisis selanjutnya.
9. Mendeteksi DIF dengan pendekatan IRT model 1 PL
a. Menghitung harga b, varian dari item-item tiap subtes dengan
data gabungan antara kelompok reference dan kelompok fokal.
b. Mendeteksi bias menurut pendekatan IRT dengan
menggunakan QUEST.
10. Mendeteksi DIF dengan metode Regresi Logistik
a. Menghitung harga a, b, dan nilai log odd ratio dari item-item
tiap subtes dengan data gabungan antara kelompok referensi
dan kelompok fokal.
b. Mendeteksi bias menurut metode regresi logistik tiap-tiap item
berdasarkan “status keanggotaannya” dengan menggunakan
MPLUS.
11. Mendeteksi DIF dengan metode CFA.
a. Menghitung factor loading (λ) dan varian dari tiap-tiap item
tiap subtes dengan data gabungan antara kelompok referensi
dan kelompok fokal dengan menyamakan meanstructure di
kedua kelompok.
65
b. Mendeteksi bias menurut metode CFA tiap-tiap item dengan
menggunakan MPLUS. Prosedur di atas dapat ditampilkan
dalam bentuk diagram pada gambar 3.1.
Gambar 3.1 Diagram Alur Proses Penelitian
3.5 Kriteria Item Yang Baik
1. Analisis Item Empiris Dengan Pendekatan Teori Klasik
Sebelum dianalisis DIF tiap-tiap item pada subtes, item-item tersebut
dianalisis secara kuantitatif dengan menggunakan pendekatan teori
klasik dengan program ITEMAN. Dengan melihat kualitas item
MULAI
DETEKSI DIF
DENGAN IRT 1PL
DETEKSI DIF DENGAN
REGRESI LOGISTIK
DETEKSI DIF
DENGAN CFA
DATA MAB
ANALISIS KLASIK
ITEMAN
ITEM GUGUR
DITOLAK
ANALISIS ITEM
IRT 2PL BILOG-MG
ITEM GUGUR
DITOLAK
MENGHITUNG FI
ITEM SIAP DIDETEKSI DIF
UJI VALIDITAS KONSTRUK DENGAN CFA
Seleksi item
item
Seleksi item
item
66
berdasarkan statistik item yang meliputi tingkat kesukaran dan daya
pembeda. Kualitas tes ditentukan oleh statistik tes yang di antaranya
meliputi rata-rata skor tes, varians dan simpangan baku skor tes,
reliabilitas tes, dan kesalahan baku pengukuran. Statistik item dan
statistik tes diperoleh dari program ITEMAN. Suatu item dikatakan
baik apabila 0,20 ≤ P ≤ 0,80; rbis item ≥ 0,30, dan rbis pilihan bernilai
negatif selain kunci. Jumlah item kategori baik dari item tiap-tiap
subtes berdasarkan teori tes klasik dapat dilihat dalam tabel 3.1.
Tabel 3.1
Hasil Analisis Item MAB Berdasarkan Teori Tes Klasik
NO SUMBER
VARIASI
HARGA / KETERANGAN
V1 V2 V3 V4 V5 P1 P3 P4 P5
1 N of item 43 28 27 32 46 35 50 20 20
2 N of examinees 1536 1536 1536 1536 1536 1536 1536 1536 1536
3 Mean 26.3 15.4 12.3 23.1 20.9 28.9 27.2 11.4 12.9
4 Variance 30.6 8.4 8.8 10.2 17.8 15.7 47.9 5.7 9.5
5 Std. Dev 5.5 2.9 3.0 3.2 4.2 4.0 6.9 2.4 3.1
6 Skew -0.2 0.1 0.7 -0.5 0.5 -0.3 0.2 0.2 -0.3
7 Kurtosis -0.4 -0.3 0.2 0.2 0.1 -0.7 -0.8 -0.1 -0.5
8 Minimun 12.0 8.0 8.0 12.0 13.0 16.0 14.0 6.0 6.0
9 Maximum 41.0 27.0 25.0 31.0 41.0 35.0 44.0 19.0 20.0
10 Median 26.0 15.0 12.0 23.0 21.0 29.0 27.0 11.0 13.0
11 Alpha 0.8 0.5 0.7 0.5 0.6 0.8 0.9 0.5 0.7
12 SEM 2.7 2.1 1.8 2.2 2.8 1.7 2.4 1.7 1.7
13 Mean P 0.6 0.6 0.5 0.7 0.5 0.8 0.5 0.6 0.6
14 Mean Item-tot 0.3 0.2 0.3 0.2 0.2 0.3 0.3 0.3 0.4
15 Mean Biserial 0.4 0.3 0.5 0.4 0.3 0.4 0.5 0.4 0.5
16 N item kategori
baik
25 12 9 16 17 10 18 11 13
67
2. Analisis Item Empiris Dengan Pendekatan Item Response Theory
(IRT)
Selanjutnya item yang dikatakan baik secara klasik tersebut dianalisis
dengan menggunakan pendekatan Item Response Theory (IRT).
Berbeda dengan pendekatan teori klasik, suatu item dikatakan baik
menurut pendekatan IRT apabila a ≥ 0,40; -0,20 ≤ b ≤ 2,00. Dan
kemudian menghitung nilai informasi item tiap-tiap item dari masing-
masing subtes pada skala kemampuan θ antara -4,0 dan 4,0 dengan
interval 0,25. Hasil analisis item dengan menggunakan pendekatan
Item Response Theory (IRT) dapat dilihat pada tabel 3.2 sampai
dengan tabel 3.10.
Tabel 3.2
Parameter Item dan Parameter Testee Subtes Information (V1)
No
Item
SUBTES INFORMATION (V1)
a b Imax χ²
hitung DF P
χ²
kritis KET
1 0.265 1.822 0 8.1 9.0 0.525 16.92 Tidak Baik
2 0.437 -1.379 0.107 10.9 9.0 0.280 16.92 Baik
3 0.490 -0.639 0.162 19.2 9.0 0.024 16.92 Baik
4 0.319 -0.569 0 8.6 9.0 0.479 16.92 Tidak Baik
5 0.592 -1.375 0.162 8.3 9.0 0.508 16.92 Baik
6 0.430 -1.261 0.109 7.1 9.0 0.628 16.92 Baik
7 0.455 -1.022 0.128 11.8 9.0 0.224 16.92 Baik
8 0.384 -0.957 0 5.2 9.0 0.814 16.92 Tidak Baik
9 0.373 -1.793 0 19.1 9.0 0.024 16.92 Tidak Baik
10 0.247 -2.466 0 10.5 9.0 0.312 16.92 Tidak Baik
11 0.323 -1.967 0 8.2 9.0 0.513 16.92 Tidak Baik
12 0.300 -1.392 0 2.2 9.0 0.988 16.92 Tidak Baik
13 0.291 -1.466 0 12.3 9.0 0.196 16.92 Tidak Baik
14 0.524 -0.472 0.190 9.1 9.0 0.433 16.92 Baik
15 0.257 -0.426 0 20.8 9.0 0.014 16.92 Tidak Baik
68
16 0.482 0.250 0.166 15.2 9.0 0.085 16.92 Baik
17 0.484 0.348 0.166 9.2 9.0 0.420 16.92 Baik
18 0.445 0.523 0.138 14.8 9.0 0.097 16.92 Baik
19 0.572 -1.105 0.179 14.9 9.0 0.095 16.92 Baik
20 0.667 -0.740 0.271 14.8 9.0 0.095 16.92 Baik
21 0.498 0.147 0.178 13.2 9.0 0.152 16.92 Baik
22 0.309 2.449 0 10.8 9.0 0.289 16.92 Tidak Baik
23 0.806 0.876 0.334 21.6 7.0 0.003 14.07 Baik
24 0.797 0.048 0.458 22.4 9.0 0.008 16.92 Baik
25 0.699 0.344 0.339 13.8 9.0 0.129 16.92 Baik
Tabel 3.3
Parameter Item dan Parameter Testee Subtes Comprehension (V2)
No
Item
SUBTES COMPREHENSION (V2)
a b Imax χ²
hitung DF P
χ²
kritis KET
1 0.175 -4.562 0 28.9 8.0 0.000 15.51 Tidak Baik
2 0.127 1.522 0 12.0 8.0 0.152 15.51 Tidak Baik
3 0.231 -2.162 0 79.0 8.0 0.000 15.51 Tidak Baik
4 0.168 0.792 0 18.1 8.0 0.021 15.51 Tidak Baik
5 0.218 0.257 0 74.7 8.0 0.000 15.51 Tidak Baik
6 0.283 -0.186 0 124.6 8.0 0.000 15.51 Tidak Baik
7 0.419 0.987 0.112 78.0 7.0 0.000 14.07 Baik
8 0.424 0.477 0.126 111.0 7.0 0.000 14.07 Baik
9 0.705 0.859 0.279 76.1 6.0 0.000 12.59 Baik
10 0.938 1.018 0.350 58.7 6.0 0.000 12.59 Baik
11 0.834 0.908 0.341 31.6 6.0 0.000 12.59 Baik
12 1.420 0.543 0.975 72.5 4.0 0.000 9.49 Baik
Tabel 3.4
Parameter Item dan Parameter Testee Subtes Aritmatic (V3)
No
Item
SUBTES ARITMATIC (V3)
a b Imax χ²
hitung DF P
χ²
kritis KET
1 0.332 -1.392 0 26.1 8.0 0.001 15.51 Tidak Baik
2 0.429 -1.529 0.099 21.8 7.0 0.003 14.07 Baik
3 0.470 -1.816 0.098 32.3 6.0 0.000 12.59 Baik
4 0.502 -1.017 0.152 47.3 7.0 0.000 14.07 Baik
5 0.681 0.323 0.324 33.5 6.0 0.000 12.59 Baik
69
6 0.534 0.255 0.203 18.3 7.0 0.011 14.07 Baik
7 0.912 0.042 0.600 60.9 6.0 0.000 12.59 Baik
8 0.472 1.198 0.129 15.5 7.0 0.030 14.07 Baik
9 0.737 0.724 0.322 32.9 7.0 0.000 14.07 Baik
Tabel 3.5
Parameter Item dan Parameter Testee Subtes Similarities (V4)
No
Item
SUBTES SIMILARITIES (V4)
a b Imax χ²
hitung DF P
χ²
kritis KET
1 0.147 -5.311 0 15.9 9.0 0.068 16.92 Tidak Baik
2 0.234 -3.078 0 35.5 9.0 0.000 16.92 Tidak Baik
3 0.254 -1.866 0 18.5 8.0 0.018 15.51 Tidak Baik
4 0.201 -2.389 0 28.4 8.0 0.000 15.51 Tidak Baik
5 0.209 -3.277 0 41.4 9.0 0.000 16.92 Tidak Baik
6 0.200 -3.755 0 33.1 9.0 0.000 16.92 Tidak Baik
7 0.183 -2.974 0 28.8 9.0 0.001 16.92 Tidak Baik
8 0.183 -0.197 0 48.7 9.0 0.000 16.92 Tidak Baik
9 0.257 2.003 0 45.6 9.0 0.000 16.92 Tidak Baik
10 0.338 -0.145 0 45.9 9.0 0.000 16.92 Tidak Baik
11 0.444 -1.592 0.101 104.0 7.0 0.000 14.07 Baik
12 0.226 0.564 0 47.0 9.0 0.000 16.92 Tidak Baik
13 0.467 -0.556 0.150 73.9 8.0 0.000 15.51 Baik
14 0.425 0.035 0.130 38.8 8.0 0.000 15.51 Baik
15 2.589 -0.860 0.421 24.6 2.0 0.000 5.99 Baik
16 1.018 -0.369 0.677 144.4 6.0 0.000 12.59 Baik
Tabel 3.6
Parameter Item dan Parameter Testee Subtes Vocabulary (V5)
No
Item
SUBTES VOCABULARY (V5)
a b Imax χ²
hitung DF P
χ²
kritis KET
1 0.332 -0.754 0 12.3 8.0 0.139 15.51 Tidak Baik
2 0.323 -1.346 0 20.7 9.0 0.014 16.92 Tidak Baik
3 0.421 1.058 0.111 33.9 8.0 0.000 15.51 Baik
4 0.456 -0.892 0.134 30.6 8.0 0.000 15.51 Baik
5 0.431 -1.780 0.090 32.5 9.0 0.000 16.92 Baik
6 0.417 -0.705 0.118 33.7 9.0 0.000 16.92 Baik
7 0.371 -1.939 0 52.0 9.0 0.000 16.92 Tidak Baik
8 0.352 -1.017 0 15.3 9.0 0.083 16.92 Tidak Baik
70
9 0.259 -0.499 0 14.3 9.0 0.113 16.92 Tidak Baik
10 0.574 0.060 0.238 49.5 7.0 0.000 14.07 Baik
11 0.598 1.326 0.169 38.7 7.0 0.000 14.07 Baik
12 0.255 -1.399 0 13.7 9.0 0.134 16.92 Tidak Baik
13 0.195 1.911 0 4.4 9.0 0.887 16.92 Tidak Baik
14 0.269 2.809 0 16.2 8.0 0.039 15.51 Tidak Baik
15 0.219 3.023 0 8.1 8.0 0.425 15.51 Tidak Baik
16 0.234 3.384 0 8.7 8.0 0.365 15.51 Tidak Baik
17 0.195 3.263 0 6.4 8.0 0.601 15.51 Tidak Baik
Tabel 3.7
Parameter Item dan Parameter Testee Subtes Digit Symbol (P1)
No
Item
SUBTES DIGIT SYMBOL (P1)
a b Imax χ²
hitung DF P
χ²
kritis KET
1 0.726 -1.166 0.236 85.4 7.0 0.000 14.07 Baik
2 1.817 -0.810 0.668 13.4 4.0 0.009 9..49 Baik
3 1.540 -0.549 1.063 131.2 6.0 0.000 12.59 Baik
4 2.468 -0.378 2.483 8.9 4.0 0.064 9.49 Baik
5 4.623 -0.138 11.662 39.2 2.0 0.000 5.99 Tidak Baik
6 2.546 0.028 4.666 47.5 5.0 0.000 11.07 Tidak Baik
7 4.388 0.188 8.817 27.5 3.0 0.000 7.81 Tidak Baik
8 2.557 0.458 1.998 18.6 4.0 0.001 9.49 Baik
9 2.353 0.606 1.196 79.4 4.0 0.000 9.49 Baik
10 1.621 0.686 0.866 74.3 5.0 0.000 11.07 Baik
Tabel 3.8
Parameter Item dan Parameter Testee Subtes Spatial (P3)
No
Item
SUBTES SPATIAL (P3)
a b Imax χ²
hitung DF P
χ²
kritis KET
1 0.316 -2.374 0 40.2 9.0 0.000 16.92 Tidak Baik
2 0.273 -1.641 0 65.5 9.0 0.000 16.92 Tidak Baik
3 0.218 -0.654 0 58.6 9.0 0.000 16.92 Tidak Baik
4 0.300 -1.592 0 44.7 9.0 0.000 16.92 Tidak Baik
5 0.611 -1.391 0.167 168.2 8.0 0.000 15.51 Baik
6 0.570 -0.922 0.193 89.4 8.0 0.000 15.51 Baik
7 0.624 -0.345 0.272 124.9 8.0 0.000 15.51 Baik
8 0.877 -0.145 0.549 67.2 7.0 0.000 14.07 Baik
9 1.056 -0.171 0.787 82.2 7.0 0.000 14.07 Baik
71
10 1.299 -0.040 1.217 30.4 6.0 0.000 12.59 Baik
11 1.335 0.340 1.114 7.8 6.0 0.251 12.59 Baik
12 3.519 -0.245 5.454 1.5 3.0 0.689 7.81 Tidak Baik
13 2.732 -0.115 5.026 11.2 3.0 0.011 7.81 Tidak Baik
14 1.567 0.398 1.356 17.1 6.0 0.009 12.59 Baik
15 1.985 0.087 2.786 7.6 5.0 0.177 11.07 Baik
16 1.700 0.395 1.532 39.8 6.0 0.000 12.59 Baik
17 1.300 0.716 0.691 50.3 6.0 0.000 12.59 Baik
18 1.252 1.056 0.392 25.4 5.0 0.000 11.07 Baik
Tabel 3.9
Parameter Item dan Parameter Testee Subtes Picture Arrangement (P4)
No
Item
SUBTES PICTURE ARRANGEMENT (P4)
a b Imax χ²
hitung DF P
χ²
kritis KET
1 0.229 -3.416 0 63.4 8.0 0.000 15.51 Tidak Baik
2 0.205 -1.508 0 49.5 8.0 0.000 15.51 Tidak Baik
3 0.186 -1.623 0 49.5 8.0 0.000 15.51 Tidak Baik
4 0.211 -1.959 0 67.2 8.0 0.000 15.51 Tidak Baik
5 0.162 -1.695 0 36.0 8.0 0.000 15.51 Tidak Baik
6 0.216 0.825 0 66.7 7.0 0.000 14.07 Tidak Baik
7 0.446 1.191 0.118 97.9 6.0 0.000 12.59 Baik
8 0.402 1.760 0.083 52.5 7.0 0.000 14.07 Baik
9 0.725 1.423 0.191 42.9 5.0 0.000 11.07 Baik
10 1.049 1.054 0.365 70.5 4.0 0.000 9.49 Baik
11 0.785 1.282 0.231 45.2 6.0 0.000 12.59 Baik
Tabel 3.10
Parameter Item dan Parameter Testee Subtes Object Assembly (P5)
No
Item
SUBTES OBJECT ASSEMBLY (P5)
a b Imax χ²
hitung DF P
χ²
kritis KET
1 0.281 -2.953 0 10.7 9.0 0.297 16.92 Tidak Baik
2 0.252 -2.111 0 27.8 9.0 0.001 16.92 Tidak Baik
3 0.325 -2.475 0 12.1 9.0 0.207 16.92 Tidak Baik
4 0.283 -2.966 0 24.8 9.0 0.003 16.92 Tidak Baik
5 0.352 -2.393 0 26.6 9.0 0.002 16.92 Tidak Baik
6 0.306 0.273 0 63.5 8.0 0.000 15.51 Tidak Baik
7 0.525 -0.852 0.173 86.7 8.0 0.000 15.51 Baik
8 0.649 0.301 0.296 41.5 7.0 0.000 14.07 Baik
72
9 0.753 -0.072 0.409 74.9 8.0 0.000 15.51 Baik
10 0.800 0.173 0.456 39.7 8.0 0.000 15.51 Baik
11 1.351 0.727 0.703 37.9 5.0 0.000 11.07 Baik
12 1.219 0.369 0.931 31.0 5.0 0.000 11.07 Baik
13 0.627 1.000 0.216 13.4 8.0 0.098 15.51 Baik
3.6 Perangkat Lunak Yang Digunakan
Untuk menguji sejumlah hipotesis yang diajukan dalam penelitian
ini digunakan empat perangkat lunak, yaitu: (1) ITEMAN, (2) QUEST, (3)
BILOG-MG, (4) MPLUS.
1. Program ITEMAN
ITEMAN diciptakan khusus untuk analisis statistik item soal dan
tes. Program ini dibuat dengan pendekatan analisis statistik item soal
secara klasikal. Hasil dari analisis item tes ini mencakup informasi
mengenai tingkat kesukaran item, daya pembeda item dan statistik sebaran
jawaban. Selain itu, program ini juga menghasilkan statistik tes yang
meliputi reliabilitas tes, kesalahan pengukuran dan distribusi skor. Oleh
karena itu, dalam penelitian ini program ITEMAN digunakan untuk
menganalisis item secara klasik.
2. Program QUEST
Program Quest ini digunakan untuk mendeteksi bias item
berdasarkan pendekatan IRT 1 PL (Rasch model). Penggunaan Quest ini
dikarenakan dalam hasil analisis output yang dikeluarkan langsung
menunjukkan item-item yang terdeteksi DIF, sehingga lebih praktis dan
efisien ketika digunakan.
73
3. Program BILOG-MG
Dalam penelitian ini program BILOG-MG digunakan sebagai alat
bantu analisis item dengan pendekatan IRT. Program ini menggunakan
metode estimasi Marginal Maximum Likelihood (MML) dan metode
estimasi Bayes, yang juga dirancang untuk skor dalam bentuk binary.
Tak hanya itu, menurut Mislevy dan Bock (1990), hasil estimasi
parameter item dengan menggunakan program BILOG-MG cukup stabil
dan akurat, meskipun jumlah item pada tes tersebut sedikit.
4. Program MPLUS
Program ini digunakan untuk menguji validitas konstruk tiap-tiap
subtes, mendeteksi bias dengan regresi logistik dan juga mendeteksi bias
dengan CFA. MPLUS merupakan alat bantu analisis statistik yang
dikembangkan oleh Beng Muthen dan Linda Muthen. Kecanggihan dari
program ini, mampu menganalisis secara linear dan non linear, logistik
dan normal metrik dengan berbagai estimator yang lengkap didalam nya
sehingga memudahkan kita dalam menyesuaikan dengan rancangan
analisis penelitian yang akan kita lakukan. Tak hanya itu program MPLUS
juga dapat mengaplikasikan teori respon butir dengan menggunakan
pendekatan analisis faktor item.
74
BAB 4
HASIL PENELITIAN
Dalam bab hasil penelitian ini akan dibahas mengenai hasil uji validitas
konstruk dengan pendekatan CFA, hasil deteksi bias dengan pendekatan IRT,
hasil deteksi bias dengan pendekatan LR dan hasil deteksi bias dengan pendekatan
CFA.
4.1 Uji Validitas Konstruk Dengan Pendekatan CFA
Pada uji validitas konstruk dilakukan dengan tiga kali uji validitias.
Analisis awal dilakukan pada data gabungan kedua kelompok. Kemudian
dianalisis lagi secara terpisah antara kelompok laki-laki dan perempuan.
Hasil perhitungan χ2
pada kelompok gabungan, kelompok perempuan, dan
kelompok laki-laki dapat dilihat dalam tabel 4.1. Hasil perhitungan tiap
subtes di kelompok gabungan, kelompok perempuan, dan kelompok laki-
laki diperoleh χ2
yang tidak signifikan P > 0.05, sehingga dapat
disimpulkan bahwa model penelitian ini fit (sesuai) dengan data empiris
ketika diujikan dengan data pada kelompok gabungan, kelompok
perempuan dan kelompok laki-laki. Dapat dikatakan bahwa item-item
tersebut merupakan muatan faktor dari masing-masing subtes MAB.
Artinya, item tersebut valid mengukur MAB. Dalam uji model dengan
metode CFA, model penelitian dinyatakan fit (sesuai) apabila χ2
yang
75
diperoleh tidak signifikan (P > 0.05). setelah diperoleh model yang fit,
kemudian dilihat juga muatan faktor masing-masing item, yaitu dengan
melihat nilai P-Value masing-masing item. Dalam hal ini nilai P-Value
masing-masing item digunakan untuk mengetahui apakah muatan faktor
tersebut signifikan atau tidak. Muatan faktor dinyatakan signifikan jika
nilai P-Value < 0.05.
76
Tabel 4.1
Chi-Squares Model Fit Dari Sembilan Subtes Pada Kelompok Gabungan, Kelompok Perempuan, dan Kelompok Laki-laki
MAB KELOMPOK GABUNGAN KELOMPOK PEREMPUAN KELOMPOK LAKI-LAKI
χ² df P-Value CFI TLI χ² Df P-Value CFI TLI χ² df P-Value CFI TLI
V1 92.305 74 0.074 0.996 0.994 107.118 87 0.071 0.981 0.977 92.105 75 0.088 0.994 0.992
V2 11.682 8 0.166 0.997 0.995 7.716 9 0.563 1.000 1.005 10.497 8 0.232 0.997 0.995
V3 17.722 15 0.278 0.998 0.996 26.356 17 0.068 0.977 0.962 19.820 16 0.229 0.995 0.992
V4 9.250 5 0.100 0.997 0.994 10.274 5 0.068 0.987 0.975 4.002 5 0.549 1.000 1.002
V5 13.082 9 0.159 0.988 0.981 9.048 9 0.433 1.000 0.999 7.595 9 0.575 1.000 1.011
P1 2.163 7 0.950 1.000 1.000 4.673 7 0.700 1.000 1.001 1.640 7 0.977 1.000 1.001
P3 33.061 22 0.061 0.999 0.999 32.934 25 0.133 0.998 0.997 31.172 22 0.093 0.999 0.998
P4 7.910 5 0.161 0.995 0.989 6.939 5 0.225 0.991 0.982 2.817 5 0.728 1.000 1.014
P5 16.133 10 0.096 0.998 0.995 17.237 11 0.101 0.994 0.989 20.248 12 0.063 0.995 0.991
77
Meskipun seluruh item tes tersebut telah valid mengukur masing-
masing subtes dalam MAB, namun ditemukan sejumlah item yang muatan
faktornya tidak signifikan dan residual varian yang bernilai negatif. Hal
tersebut ditunjukkan oleh nilai P-Value (P > 0.05) dari masing-masing
item yang diteliti. Berdasarkan hasil analisis data pada kelompok
gabungan ditemukan sebanyak 5 item yang muatan faktornya tidak
signifikan ataupun memiliki residual varian yang bernilai negatif. Yaitu
dalam subtes V4, item no 4 yang nilai residual varian bernilai negatif (-
0.141) Dalam subtes V5, item no. 5 (P = 0.381). Dalam subtes P1 item no
4 juga memiliki nilai residual varian bernilai negatif (-0.058). Dan dalam
subtes P3 ada 2 item yang tidak signifikan, yaitu item no. 6 (P = 0.168),
dan item no. 9 (P = 0.059).
Berdasarkan hasil analisis pada kelompok perempuan ditemukan
sebanyak tiga item, yaitu dalam subtes V4 ada satu item yang residual
varian bernilai negatif, yaitu item no. 4 (-0.118). dalam subtes P3
ditemukan dua item yang memiliki muatan faktor yang tidak signifikan
yaitu item no.3 (P = 0.347) dan no.5 (P = 0.967). Sedangkan pada
kelompok laki-laki ditemukan sebanyak dua item yang memiliki nilai
residual varian bernilai negatif. Yaitu dalam subtes V4 item no.4 (-0.101)
dan subtes P1 item no.4 (-0.015). Hasil perhitungan muatan faktor (λ),
kesalahan standar (SE), P-Value, dan residual varian hasil analisis
persubtes MAB berdasarkan kelompok gabungan, kelompok perempuan,
78
dan kelompok laki-laki dapat dilihat pada tabel 4.2 sampai dengan tabel
4.10.
Dengan demikian dapat disimpulkan bahwa sekalipun keseluruhan
item yang diteliti valid mengukur masing-masing subtes dalam MAB,
namun ditemukan sebanyak 7% item tes yang muatan faktor nya tidak
signifikan dan residual varian bernilai negatif ketika diujikan pada
kelompok gabungan, 4% item tes yang muatan faktornya tidak signifikan
dan residual varian bernilai negatif ketika diujikan pada kelompok
perempuan, dan 3% item tes yang muatan faktornya tidak signifikan dan
residual varian bernilai negatif ketika diujikan pada kelompok laki-laki.
79
Tabel 4.2
Hasil Uji Validitas Dengan Metode CFA Dari Subtes V1 MAB
No
Item
KELOMPOK GABUNGAN KELOMPOK PEREMPUAN KELOMPOK LAKI-LAKI
λ SE P-Value Residual
Variance Λ SE P-Value
Residual
Variance λ SE P-Value
Residual
Variance
1 0.362 0.039 0.00 0.869 0.377 0.059 0.00 0.858 0.361 0.049 0.00 0.869
2 0.406 0.035 0.00 0.835 0.423 0.056 0.00 0.821 0.412 0.043 0.00 0.831
3 0.488 0.037 0.00 0.761 0.527 0.056 0.00 0.723 0.451 0.049 0.00 0.797
4 0.281 0.041 0.00 0.921 0.247 0.061 0.00 0.939 0.387 0.051 0.00 0.850
5 0.413 0.036 0.00 0.830 0.307 0.061 0.00 0.906 0.453 0.043 0.00 0.795
6 0.490 0.034 0.00 0.760 0.387 0.058 0.00 0.850 0.538 0.041 0.00 0.711
7 0.457 0.033 0.00 0.791 0.395 0.056 0.00 0.844 0.482 0.040 0.00 0.768
8 0.462 0.035 0.00 0.786 0.397 0.056 0.00 0.842 0.461 0.041 0.00 0.787
9 0.425 0.034 0.00 0.820 0.399 0.056 0.00 0.841 0.415 0.042 0.00 0.828
10 0.411 0.042 0.00 0.831 0.497 0.061 0.00 0.753 0.585 0.048 0.00 0.658
11 0.607 0.033 0.00 0.631 0.571 0.054 0.00 0.674 0.651 0.041 0.00 0.576
12 0.469 0.034 0.00 0.780 0.410 0.056 0.00 0.832 0.504 0.040 0.00 0.746
13 0.594 0.034 0.00 0.647 0.479 0.059 0.00 0.770 0.670 0.035 0.00 0.551
14 0.564 0.033 0.00 0.681 0.579 0.050 0.00 0.665 0.618 0.037 0.00 0.618
15 0.615 0.032 0.00 0.621 0.600 0.051 0.00 0.640 0.602 0.037 0.00 0.638
80
Tabel 4.3
Hasil Uji Validitas Dengan Metode CFA Dari Subtes V2 MAB
No
Item
KELOMPOK GABUNGAN KELOMPOK PEREMPUAN KELOMPOK LAKI-LAKI
λ SE P-Value
Residual
Variance λ SE P-Value
Residual
Variance λ SE P-Value
Residual
Variance
1 0.337 0.041 0.000 0.887 0.325 0.063 0.000 0.894 0.341 0.053 0.000 0.884
2 0.375 0.040 0.000 0.859 0.333 0.063 0.000 0.889 0.394 0.051 0.000 0.844
3 0.599 0.037 0.000 0.641 0.618 0.053 0.000 0.618 0.570 0.048 0.000 0.675
4 0.706 0.036 0.000 0.501 0.678 0.052 0.000 0.541 0.706 0.047 0.000 0.502
5 0.565 0.043 0.000 0.681 0.583 0.055 0.000 0.660 0.600 0.055 0.000 0.640
6 0.755 0.038 0.000 0.431 0.824 0.049 0.000 0.322 0.746 0.051 0.000 0.443
Tabel 4.4
Hasil Uji Validitas Dengan Metode CFA Dari Subtes V3 MAB
No
Item
KELOMPOK GABUNGAN KELOMPOK PEREMPUAN KELOMPOK LAKI-LAKI
λ SE P-Value
Residual
Variance Λ SE P-Value
Residual
Variance λ SE P-Value
Residual
Variance
1 0.282 0.040 0.000 0.920 0.337 0.061 0.000 0.887 0.257 0.053 0.000 0.934
2 0.246 0.044 0.000 0.939 0.404 0.059 0.000 0.836 0.214 0.057 0.000 0.954
3 0.383 0.038 0.000 0.853 0.385 0.059 0.000 0.852 0.416 0.049 0.000 0.827
4 0.589 0.042 0.000 0.653 0.721 0.098 0.000 0.480 0.525 0.047 0.000 0.724
5 0.480 0.037 0.000 0.770 0.335 0.062 0.000 0.888 0.545 0.047 0.000 0.703
6 0.721 0.036 0.000 0.481 0.806 0.071 0.000 0.351 0.713 0.044 0.000 0.491
7 0.445 0.040 0.000 0.802 0.363 0.069 0.000 0.869 0.469 0.050 0.000 0.780
8 0.678 0.040 0.000 0.541 0.560 0.071 0.000 0.687 0.679 0.045 0.000 0.539
81
Tabel 4.5
Hasil Uji Validitas Dengan Metode CFA Dari Subtes V4 MAB
No
Item
KELOMPOK GABUNGAN KELOMPOK PEREMPUAN KELOMPOK LAKI-LAKI
λ SE P-Value Residual
Variance λ SE P-Value
Residual
Variance λ SE P-Value
Residual
Variance
1 0.325 0.040 0.000 0.894 0.432 0.064 0.000 0.813 0.269 0.052 0.000 0.928
2 0.449 0.034 0.000 0.798 0.406 0.059 0.000 0.835 0.473 0.042 0.000 0.776
3 0.408 0.033 0.000 0.833 0.360 0.056 0.000 0.870 0.444 0.041 0.000 0.803
4 1.068 0.041 0.000 -0.141 1.057 0.076 0.000 -0.118 1.049 0.046 0.000 -0.101
5 0.708 0.029 0.000 0.498 0.677 0.052 0.000 0.542 0.738 0.034 0.000 0.455
Tabel 4.6
Hasil Uji Validitas Dengan Metode CFA Dari Subtes V5 MAB
No
Item
KELOMPOK GABUNGAN KELOMPOK PEREMPUAN KELOMPOK LAKI-LAKI
λ SE P-Value Residual
Variance λ SE P-Value
Residual
Variance λ SE P-Value
Residual
Variance
1 0.352 0.048 0.000 0.876 0.454 0.076 0.000 0.794 0.399 0.063 0.000 0.841
2 0.430 0.046 0.000 0.815 0.336 0.078 0.000 0.887 0.459 0.058 0.000 0.789
3 0.335 0.050 0.000 0.887 0.329 0.077 0.000 0.892 0.311 0.066 0.000 0.903
4 0.429 0.047 0.000 0.816 0.515 0.076 0.000 0.735 0.335 0.060 0.000 0.888
5 0.583 0.047 0.381 0.661 0.519 0.079 0.000 0.731 0.589 0.060 0.000 0.653
6 0.545 0.050 0.000 0.702 0.461 0.085 0.000 0.788 0.585 0.064 0.000 0.658
82
Tabel 4.7
Hasil Uji Validitas Dengan Metode CFA Dari Subtes P1 MAB
No
Item
KELOMPOK GABUNGAN KELOMPOK PEREMPUAN KELOMPOK LAKI-LAKI
λ SE P-Value Residual
Variance Λ SE P-Value
Residual
Variance λ SE P-Value
Residual
Variance
1 0.449 0.059 0.000 0.798 0.689 0.055 0.000 0.525 0.425 0.070 0.000 0.819
2 0.845 0.023 0.000 0.286 0.911 0.032 0.000 0.169 0.891 0.025 0.000 0.206
3 0.849 0.022 0.000 0.280 0.947 0.025 0.000 0.103 0.887 0.025 0.000 0.213
4 1.029 0.021 0.000 -0.058 0.877 0.026 0.000 0.231 1.007 0.023 0.000 -0.015
5 0.685 0.027 0.000 0.531 0.507 0.057 0.000 0.742 0.711 0.033 0.000 0.495
6 0.655 0.030 0.000 0.570 0.522 0.055 0.000 0.728 0.662 0.038 0.000 0.562
7 0.608 0.032 0.000 0.631 0.366 0.065 0.000 0.866 0.678 0.038 0.000 0.540
Tabel 4.8
Hasil Uji Validitas Dengan Metode CFA Dari Subtes P3 MAB
No
Item
KELOMPOK GABUNGAN KELOMPOK PEREMPUAN KELOMPOK LAKI-LAKI
λ SE P-Value Residual
Variance λ SE P-Value
Residual
Variance λ SE P-Value
Residual
Variance
1 0.484 0.036 0.000 0.766 0.388 0.063 0.000 0.849 0.572 0.046 0.000 0.673
2 0.477 0.035 0.000 0.773 0.533 0.049 0.000 0.716 0.451 0.048 0.000 0.797
3 0.524 0.032 0.000 0.726 0.587 0.047 0.347 0.656 0.500 0.042 0.000 0.750
4 0.662 0.027 0.000 0.562 0.660 0.042 0.000 0.565 0.681 0.034 0.000 0.536
5 0.729 0.025 0.000 0.468 0.802 0.033 0.967 0.357 0.724 0.032 0.000 0.475
6 0.902 0.017 0.168 0.186 0.865 0.031 0.000 0.252 0.915 0.020 0.000 0.163
83
7 0.888 0.016 0.000 0.211 0.826 0.035 0.000 0.317 0.897 0.019 0.000 0.195
8 0.735 0.023 0.000 0.460 0.676 0.044 0.000 0.544 0.721 0.030 0.000 0.480
9 0.702 0.024 0.059 0.507 0.616 0.043 0.000 0.621 0.727 0.029 0.000 0.472
10 0.662 0.027 0.000 0.562 0.521 0.052 0.000 0.729 0.701 0.031 0.000 0.509
Tabel 4.9
Hasil Uji Validitas Dengan Metode CFA Dari Subtes P4 MAB
No
Item
KELOMPOK GABUNGAN KELOMPOK PEREMPUAN KELOMPOK LAKI-LAKI
λ SE P-Value Residual
Variance λ SE P-Value
Residual
Variance λ SE P-Value
Residual
Variance
1 0.356 0.045 0.000 0.873 0.382 0.070 0.000 0.854 0.340 0.058 0.000 0.885
2 0.406 0.045 0.000 0.835 0.356 0.073 0.000 0.873 0.439 0.057 0.000 0.807
3 0.579 0.044 0.000 0.665 0.571 0.068 0.000 0.674 0.581 0.058 0.000 0.663
4 0.713 0.044 0.000 0.492 0.700 0.066 0.000 0.510 0.724 0.057 0.000 0.475
5 0.689 0.043 0.000 0.526 0.740 0.066 0.000 0.452 0.658 0.056 0.000 0.567
Tabel 4.10
Hasil Uji Validitas Dengan Metode CFA Dari Subtes P5 MAB
No
Item
KELOMPOK GABUNGAN KELOMPOK PEREMPUAN KELOMPOK LAKI-LAKI
λ SE P-Value Residual
Variance λ SE P-Value
Residual
Variance λ SE P-Value
Residual
Variance
1 0.393 0.039 0.000 0.846 0.469 0.058 0.000 0.780 0.517 0.051 0.000 0.733
2 0.522 0.034 0.000 0.727 0.547 0.052 0.000 0.700 0.497 0.042 0.000 0.753
3 0.600 0.033 0.000 0.640 0.718 0.049 0.000 0.458 0.592 0.040 0.000 0.649
84
4 0.676 0.030 0.000 0.543 0.676 0.050 0.000 0.543 0.673 0.036 0.000 0.547
5 0.793 0.025 0.000 0.371 0.705 0.050 0.000 0.504 0.824 0.032 0.000 0.322
6 0.773 0.026 0.000 0.402 0.709 0.049 0.000 0.498 0.734 0.033 0.000 0.461
7 0.506 0.037 0.000 0.744 0.569 0.054 0.000 0.676 0.425 0.045 0.000 0.819
85
4.2 Hasil Estimasi Bias Jenis Kelamin Dengan Pendekatan IRT 1PL
Berdasarkan analisis dengan menggunakan pendekatan IRT 1 PL
pada 64 item tes yang diteliti ternyata ditemukan 9 item yang mengandung
bias. Hasil perhitungan bias dapat dilihat pada tabel 4.11 sampai dengan
4.19.
4.2.1 Subtes Information (V1)
Dalam hasil perhitungan χ² pada subtes V1 diketahui ada dua item
yang χ²hitung > χ²tabel. Dapat disimpulkan bahwa kedua item tersebut
mengandung bias, yaitu item no 4 (χ²hitung = 7.39), item no 6 (χ²hitung = 5.30)
yang menguntungkan laki-laki daripada perempuan dan item no 8 (χ²hitung
= 12.10) yang menguntungkan perempuan daripada laki-laki. Pada tabel
4.11 dapat dilihat hasil perhitungan χ² pada subtes V1 sebagai berikut:
Tabel 4.11
Hasil Perhitungan χ² Pada Subtes V1 Berdasarkan Pendekatan IRT 1PL
No
Item
Delta Adjusted
Delta Difference χ² p
pr lk pr
(d1)
lk
(d2) d1-d2
d1-d2
(std)
1 -0.86 -0.72 -0.86 -0.72 -0.15 -1.14 1.31 0.25
2 -0.19 -0.29 -0.19 -0.29 0.10 0.82 0.67 0.41
3 -0.94 -1.14 -0.94 -1.14 0.20 1.50 2.25 0.13
4 -0.48 -0.82 -0.48 -0.82 0.34 2.72 7.39 0.01
5 -0.49 -0.56 -0.49 -0.55 0.07 0.56 0.31 0.57
6 0.04 -0.24 0.03 -0.24 0.27 2.30 5.30 0.02
7 0.46 0.55 0.46 0.55 -0.09 -0.73 0.53 0.47
8 0.35 0.76 0.35 0.76 -0.41 -3.48 12.10 0.00
9 0.67 0.75 0.67 0.75 -0.08 -0.70 0.48 0.49
10 -0.77 -0.75 -0.77 0.75 -0.01 -0.09 0.01 0.93
86
11 -0.40 -0.55 -0.40 -0.55 0.14 1.19 1.41 0.24
12 0.37 0.47 0.37 0.47 -0.10 -0.88 0.77 0.38
13 1.47 1.31 1.47 1.31 0.16 1.22 1.49 0.22
14 0.24 0.44 0.24 0.44 -0.21 -1.77 3.15 0.08
15 0.54 0.78 0.54 0.78 -0.24 -2.01 4.02 0.04
4.2.2 Subtes Comprehension (V2)
Dalam hasil perhitungan χ² pada subtes V2 diketahui bahwa
χ²hitung<χ²tabel. Dapat disimpulkan bahwa item-item pada subtes V2 tidak
mengandung bias. Pada tabel 4.12 dapat dilihat hasil perhitungan χ² pada
subtes V2 sebagai berikut:
Tabel 4.12
Hasil Perhitungan χ² Pada Subtes V2 Berdasarkan Pendekatan IRT 1PL
No
Item
Delta Adjusted
Delta Difference χ² P
pr lk pr
(d1)
lk
(d2) d1-d2
d1-d2
(std)
1 -0.08 -0.17 -0.08 -0.17 0.09 0.67 0.45 0.50
2 -0.55 -0.57 -0.55 -0.57 0.02 0.17 0.03 0.87
3 0.08 0.07 0.07 0.07 0.01 0.05 0.00 0.96
4 0.05 0.44 0.50 0.44 0.06 0.45 0.20 0.65
5 0.15 0.30 0.15 0.30 -0.15 -1.05 1.10 0.29
6 -0.09 -0.05 -0.09 -0.05 -0.04 -0.29 0.08 0.77
4.2.3 Subtes Aritmatic (V3)
Dalam hasil perhitungan χ² pada subtes V3 diketahui bahwa
χ²hitung<χ²tabel. Dapat disimpulkan bahwa item-item pada subtes V3 tidak
mengandung bias. Pada tabel 4.13 dapat dilihat hasil perhitungan χ² pada
subtes V3 sebagai berikut:
87
Tabel 4.13
Hasil Perhitungan χ² Pada Subtes V3 Berdasarkan Pendekatan IRT 1PL
No
Item
Delta Adjusted
Delta Difference χ² P
pr lk pr
(d1)
lk
(d2) d1-d2
d1-d2
(std)
1 -1.17 -0.99 -1.17 -0.99 -0.17 -1.29 1.66 0.20
2 -1.37 -1.39 -1.37 -1.39 0.02 0.15 0.02 0.88
3 -0.82 -0.74 -0.82 -0.74 -0.07 -0.56 0.32 0.57
4 0.55 0.45 0.55 0.45 0.10 0.78 0.61 0.43
5 0.39 0.35 0.39 0.35 0.04 0.30 0.09 0.76
6 0.16 0.21 0.16 0.21 -0.05 -0.42 0.17 0.68
7 1.23 1.14 1.23 1.14 0.09 0.64 0.41 0.52
8 1.02 0.97 1.02 0.97 0.05 0.38 0.14 0.70
4.2.4 Subtes Similarities (V4)
Dalam hasil perhitungan χ² pada subtes V4 diketahui bahwa
χ²hitung<χ²tabel. Dapat disimpulkan bahwa item-item pada subtes V4 tidak
mengandung bias. Pada tabel 4.14 dapat dilihat hasil perhitungan χ² pada
subtes V4 sebagai berikut:
Tabel 4.14
Hasil Perhitungan χ² Pada Subtes V4 Berdasarkan Pendekatan IRT 1PL
No
Item
Delta Adjusted
Delta Difference χ² P
pr lk pr
(d1)
lk
(d2) d1-d2
d1-d2
(std)
1 -0.61 -0.77 -0.61 -0.77 0.15 1.03 1.06 0.30
2 0.00 0.15 0.00 0.15 -0.15 -1.13 1.29 0.26
3 0.66 0.52 0.66 0.52 0.14 1.05 1.10 0.30
4 -0.05 0.10 -0.05 0.10 -0.14 -1.06 1.12 0.29
88
4.2.5 Subtes Vocabulary (V5)
Pada hasil perhitungan χ² pada subtes V5 diketahui ada dua item
yang χ²hitung > χ²tabel . Dapat diketahui bahwa kedua item tersebut
mengandung bias, yaitu item no 1 (χ²hitung = 28.74) menguntungkan
perempuan daripada laki-laki dan item no 4 (χ²hitung = 6.30)
menguntungkan laki-laki daripada perempuan. Pada tabel 4.15 dapat
dilihat hasil perhitungan χ² pada subtes V5 sebagai berikut:
Tabel 4.15
Hasil Perhitungan χ² Pada Subtes V5 Berdasarkan Pendekatan IRT 1PL
No
Item
Delta Adjusted
Delta Difference χ² p
pr lk pr
(d1)
lk
(d2) d1-d2
d1-d2
(std)
1 0.46 1.17 0.45 1.17 -0.72 -5.36 28.74 0.00
2 -0.50 -0.70 -0.50 -0.70 0.20 1.52 2.32 0.13
3 -1.25 -1.26 -1.25 -1.26 0.00 0.03 0.00 0.97
4 -0.24 -0.56 -0.24 -0.56 0.32 2.51 6.30 0.01
5 1.54 1.35 1.54 1.35 0.19 1.25 1.57 0.21
4.2.6 Subtes Digit Symbol (P1)
Pada hasil perhitungan χ² pada subtes P1 diketahui ada satu item
yang χ²hitung > χ²tabel . Dapat diketahui bahwa item tersebut mengandung
bias, yaitu item no 1 (χ²hitung = 6.04) menguntungkan perempuan daripada
laki-laki. Pada tabel 4.16 dapat dilihat hasil perhitungan χ² pada subtes P1
sebagai berikut:
89
Tabel 4.16
Hasil Perhitungan χ² Pada Subtes P1 Berdasarkan Pendekatan IRT 1PL
No
Item
Delta Adjusted
Delta Difference χ² p
pr lk pr
(d1)
lk
(d2) d1-d2
d1-d2
(std)
1 -2.39 -1.87 -2.39 -1.87 -0.52 -2.46 6.04 0.01
2 -2.13 -2.20 -2.13 -2.20 0.07 0.34 0.12 0.73
3 -1.29 -1.30 -1.29 -1.30 0.01 0.03 0.00 0.97
4 1.54 1.42 1.54 1.42 0.12 0.65 0.43 0.51
5 2.08 1.93 2.08 1.93 0.15 0.74 0.54 0.46
6 2.18 2.01 2.18 2.01 0.18 0.87 0.75 0.39
4.2.7 Subtes Spatial (P3)
Dalam hasil perhitungan χ² pada subtes P3 diketahui bahwa
χ²hitung<χ²tabel. Dapat disimpulkan bahwa item-item pada subtes P3 tidak
mengandung bias. Pada tabel 4.17 dapat dilihat hasil perhitungan χ² pada
subtes P3 sebagai berikut:
Tabel 4.17
Hasil Perhitungan χ² Pada Subtes P3 Berdasarkan Pendekatan IRT 1PL
No
Item
Delta Adjusted
Delta Difference χ² p
pr lk pr
(d1)
lk
(d2) d1-d2
d1-d2
(std)
1 -1.59 -1.88 -1.59 -1.88 0.29 1.71 2.92 0.09
2 -1.01 -1.04 -1.01 -1.04 0.02 0.17 0.03 0.87
3 -0.45 -0.24 -0.45 -0.24 -0.21 -1.52 2.32 0.13
4 0.01 0.05 0.01 0.05 -0.04 -0.29 0.08 0.77
5 0.89 0.76 0.89 0.76 0.13 0.89 0.79 0.37
6 0.89 1.03 0.89 1.03 -0.14 -0.93 0.87 0.35
7 0.20 0.36 0.20 0.36 -0.16 -1.16 1.34 0.25
8 1.06 0.95 1.06 0.95 0.11 0.74 0.54 0.46
90
4.2.8 Subtes Picture Arrangement (P4)
Dalam hasil perhitungan χ² pada subtes P4 diketahui bahwa
χ²hitung<χ²tabel. Dapat disimpulkan bahwa item-item pada subtes P4 tidak
mengandung bias. Pada tabel 4.18 dapat dilihat hasil perhitungan χ² pada
subtes P4 sebagai berikut:
Tabel 4.18
Hasil Perhitungan χ² Pada Subtes P4 Berdasarkan Pendekatan IRT 1PL
No
Item
Delta Adjusted
Delta Difference χ² p
pr lk pr
(d1)
lk
(d2) d1-d2
d1-d2
(std)
1 -0.41 -0.46 -0.41 -0.46 0.05 0.33 0.10 0.74
2 -0.09 -0.07 -0.09 -0.07 -0.02 -0.13 0.02 0.90
3 0.23 0.27 0.23 0.27 -0.04 -0.29 0.08 0.78
4 0.07 0.12 0.07 0.12 -0.05 -0.33 0.11 0.74
5 0.20 0.14 0.20 0.14 0.07 0.43 0.18 0.67
4.2.9 Subtes Object Assembly (P5)
Pada hasil perhitungan χ² pada subtes P5 diketahui ada tiga item
yang χ²hitung > χ²tabel . Dapat diketahui bahwa item tersebut mengandung
bias, yaitu item no 3 (χ²hitung = 5.99) menguntungkan perempuan daripada
laki-laki. Sedangkan item no 5 (χ²hitung = 9.42) dan item no 6 (χ²hitung =
5.83) lebih menguntungkan laki-laki daripada perempuan. Pada tabel 4.19
dapat dilihat hasil perhitungan χ² pada subtes P5 sebagai berikut:
91
Tabel 4.19
Hasil Perhitungan χ² Pada Subtes P5 Berdasarkan Pendekatan IRT 1PL
No
Item
Delta Adjusted
Delta Difference χ² p
pr lk pr
(d1)
lk
(d2) d1-d2
d1-d2
(std)
1 -1.48 -1.20 -1.48 -1.20 -0.28 -1.87 3.50 0.06
2 0.03 -0.03 0.03 -0.03 0.06 0.43 0.18 0.67
3 -0.67 -0.34 -0.67 -0.34 -0.33 -2.45 5.99 0.01
4 -0.28 -0.04 -0.28 -0.04 -0.24 -1.79 3.22 0.07
5 1.17 0.71 1.17 0.71 0.46 3.07 9.42 0.00
6 0.44 0.12 0.44 0.12 0.33 2.42 5.83 0.02
7 0.79 0.79 0.79 0.79 0.00 -0.01 0.00 0.99
4.3 Hasil Estimasi Bias Jenis Kelamin Dengan Pendekatan Logistic
Regression
Berdasarkan hasil estimasi dengan menggunakan metode logistic
regression, ditemukan sebanyak 11 item yang mengandung bias. Berikut
ini akan dibahas bias item yang ditemukan pada setiap subtes. Hasil
perhitungan analisis bias item berdasarkan metode analisis logistic
regression dapat dilihat pada tabel 4.20 sampai dengan tabel 4.28 sebagai
berikut :
4.3.1 Subtes Information (V1)
Pada hasil perhitungan χ² pada subtes V1 diketahui ada tiga item
yang χ²hitung > χ²tabel . Dapat diketahui bahwa item tersebut mengandung
bias, yaitu item no 4 (χ²hitung = 12.762), item no 6 (χ²hitung = 9.784), dan
item no 8 (χ²hitung = 6.308). item no 4 dan 6 lebih menguntungkan laki-laki
92
daripada perempuan. Sedangkan item no 8 lebih menguntungkan
perempuan daripada laki-laki. Pada tabel 4.20 dapat dilihat hasil
perhitungan χ² pada subtes V1 sebagai berikut:
Tabel 4.20
Hasil Estimasi Bias Subtes V1 Berdasarkan Pendekatan Logistic Regression
ITEM Log Likelihood Log Likelihood
χ² R² R²
ΔR² Model 1 Model 2 Model 1 Model 2
1 -874.892 -874.801 0.182 0.083 0.083 0.000
2 -959.555 -958.160 2.790 0.107 0.109 0.002
3 -779.880 -777.810 4.140 0.137 0.142 0.005
4 -893.599 -887.218 12.762 0.092 0.104 0.012
5 -922.828 -921.891 1.874 0.093 0.095 0.002
6 -951.155 -946.263 9.784 0.143 0.152 0.009
7 -983.655 -983.628 0.054 0.119 0.119 0.000
8 -988.068 -984.914 6.308 0.104 0.109 0.005
9 -980.342 -980.232 0.220 0.099 0.100 0.001
10 -846.835 -846.763 0.144 0.143 0.144 0.001
11 -874.754 -873.378 2.752 0.186 0.189 0.003
12 -990.621 -990.616 0.010 0.114 0.114 0.000
13 -794.992 -792.948 4.088 0.251 0.254 0.003
14 -919.088 -917.858 2.460 0.226 0.228 0.002
15 -910.457 -909.042 2.830 0.218 0.220 0.002
4.3.2 Subtes Comprehensin (V2)
Dalam hasil perhitungan χ² pada subtes V2 diketahui bahwa χ²hitung
< χ²tabel. Dapat disimpulkan bahwa item-item pada subtes V2 tidak
mengandung bias. Pada tabel 4.21 dapat dilihat hasil perhitungan χ² pada
subtes V2 sebagai berikut:
93
Tabel 4.21
Hasil Estimasi Bias Subtes V2 Berdasarkan Pendekatan Logistic Regression
ITEM Log Likelihood Log Likelihood
χ² R² R²
ΔR² Model 1 Model 2 Model 1 Model 2
1 -960.584 -960.517 0.134 0.053 0.053 0.000
2 -1006.366 -1006.344 0.044 0.064 0.064 0.000
3 -863.360 -863.344 0.032 0.149 0.149 0.000
4 -744.468 -744.377 0.182 0.209 0.210 0.001
5 -813.196 -812.205 1.982 0.176 0.178 0.002
6 -803.365 -803.263 0.204 0.282 0.282 0.000
4.3.3 Subtes Aritmatic (V3)
Dalam hasil perhitungan χ² pada subtes V3 diketahui bahwa χ²hitung
< χ²tabel. Dapat disimpulkan bahwa item-item pada subtes V3 tidak
mengandung bias. Pada tabel 4.22 dapat dilihat hasil perhitungan χ² pada
subtes V3 sebagai berikut:
Tabel 4.22
Hasil Estimasi Bias Subtes V3 Berdasarkan Pendekatan Logistic Regression
ITEM Log Likelihood Log Likelihood
χ² R² R²
ΔR² Model 1 Model 2 Model 1 Model 2
1 -858.533 -858.494 0.078 0.073 0.073 0.000
2 -762.144 -761.519 1.250 0.098 0.100 0.002
3 -907.915 -907.842 0.146 0.104 0.104 0.000
4 -954.404 -952.754 3.300 0.147 0.150 0.003
5 -995.606 -994.417 2.378 0.097 0.099 0.002
6 -930.129 -930.124 0.010 0.209 0.209 0.000
7 -904.203 -902.014 4.378 0.065 0.069 0.004
8 -884.435 -883.499 1.872 0.158 0.159 0.001
94
4.3.4 Subtes Similarities (V4)
Dalam hasil perhitungan χ² pada subtes V4 diketahui bahwa χ²hitung
< χ²tabel. Dapat disimpulkan bahwa item-item pada subtes V4 tidak
mengandung bias. Pada tabel 4.23 dapat dilihat hasil perhitungan χ² pada
subtes V4 sebagai berikut:
Tabel 4.23
Hasil Estimasi Bias Subtes V4 Berdasarkan Pendekatan Logistic Regression
ITEM Log Likelihood Log Likelihood
χ² R² R²
ΔR² Model 1 Model 2 Model 1 Model 2
1 -847.025 -846.753 0.544 0.048 0.049 0.001
2 -999.860 -998.008 3.704 0.058 0.061 0.003
3 -1043.025 -1042.791 0.468 0.034 0.034 0.000
4 -968.458 -966.816 3.284 0.098 0.101 0.003
4.3.5 Subtes Vocabulary (V5)
Pada hasil perhitungan χ² pada subtes V5 diketahui ada empat item
yang χ²hitung > χ²tabel . Dapat diketahui bahwa item tersebut mengandung
bias, yaitu item no 1 (χ²hitung = 20.370), item no 2 (χ²hitung = 9.814), item no
4 (χ²hitung = 18.446) dan item no 5 (χ²hitung = 7.498). Item no 1, 2, dan 5
lebih menguntungkan perempuan daripada laki-laki, sedangkan item
lainnya, yaitu item no 4 lebih menguntungkan laki-laki daripada
perempuan. Pada tabel 4.24 dapat dilihat hasil perhitungan χ² pada subtes
V5 sebagai berikut:
95
Tabel 4.24
Hasil Estimasi Bias Subtes V5 Berdasarkan Pendekatan Logistic Regression
ITEM Log Likelihood Log Likelihood
χ² R² R²
ΔR² Model 1 Model 2 Model 1 Model 2
1 -961.398 -951.213 20.370 0.034 0.052 0.018
2 -972.609 -967.702 9.814 0.042 0.050 0.008
3 -826.412 -825.283 2.258 0.030 0.032 0.002
4 -1002.074 -992.851 18.446 0.042 0.057 0.015
5 -815.546 -811.797 7.498 0.089 0.098 0.009
4.3.6 Subtes Digit Symbol (P1)
Pada hasil perhitungan χ² pada subtes P1 diketahui ada satu item
yang χ²hitung > χ²tabel . Dapat diketahui bahwa item tersebut mengandung
bias, yaitu item no 1 (χ²hitung = 18.326) lebih menguntungkan perempuan
daripada laki-laki. Pada tabel 4.25 dapat dilihat hasil perhitungan χ² pada
subtes P1 sebagai berikut:
Tabel 4.25
Hasil Estimasi Bias Subtes P1 Berdasarkan Pendekatan Logistic Regression
ITEM Log Likelihood Log Likelihood
χ² R² R²
ΔR² Model 1 Model 2 Model 1 Model 2
1 -726.879 -717.716 18.326 0.285 0.297 0.012
2 -503.715 -503.707 0.016 0.692 0.692 0.000
3 -673.079 -672.556 1.046 0.523 0.522 -0.001
4 -586.164 -586.120 0.088 0.645 0.645 0.000
5 -438.245 -438.121 0.248 0.780 0.780 0.000
6 -554.461 -554.144 0.634 0.639 0.639 0.000
96
4.3.7 Subtes Spatial (P3)
Pada hasil perhitungan χ² pada subtes P3 diketahui ada satu item
yang χ²hitung > χ²tabel . Dapat disimpulkan bahwa item tersebut mengandung
bias, yaitu item no 1 (χ²hitung = 8.254) lebih menguntungkan perempuan
daripada laki-laki. Pada tabel 4.26 dapat dilihat hasil perhitungan χ² pada
subtes P3 sebagai berikut:
Tabel 4.26
Hasil Estimasi Bias Subtes P3 Berdasarkan Pendekatan Logistic Regression
ITEM Log Likelihood Log Likelihood
χ² R² R²
ΔR² Model 1 Model 2 Model 1 Model 2
1 -719.625 -715.498 8.254 0.244 0.253 0.009
2 -841.136 -839.286 3.700 0.215 0.219 0.004
3 -905.670 -905.559 0.222 0.218 0.218 0.000
4 -748.485 -748.408 0.154 0.449 0.449 0.000
5 -710.097 -708.046 4.102 0.475 0.478 0.003
6 -706.232 -706.225 0.014 0.471 0.471 0.000
7 -753.746 -753.597 0.298 0.441 0.441 0.000
8 -746.910 -744.123 5.574 0.415 0.418 0.003
4.3.8 Subtes Picture Arrangement (P4)
Dalam hasil perhitungan χ² pada subtes P4 diketahui bahwa χ²hitung
< χ²tabel. Dapat disimpulkan bahwa item-item pada subtes P4 tidak
mengandung bias. Pada tabel 4.27 dapat dilihat hasil perhitungan χ² pada
subtes P4 sebagai berikut:
97
Tabel 4.27
Hasil Estimasi Bias Subtes P4 Berdasarkan Pendekatan Logistic Regression
ITEM Log Likelihood Log Likelihood
χ² R² R²
ΔR² Model 1 Model 2 Model 1 Model 2
1 -922.557 -922.501 0.112 0.047 0.047 0.000
2 -830.764 -830.751 0.026 0.063 0.063 0.000
3 -709.758 -709.693 0.130 0.127 0.127 0.000
4 -729.649 -729.561 0.176 0.165 0.165 0.000
5 -722.122 -721.993 0.258 0.148 0.149 0.001
4.3.9 Subtes Object Assembly (P5)
Pada hasil perhitungan χ² pada subtes P5 diketahui ada dua item
yang χ²hitung > χ²tabel . Dapat disimpulkan bahwa item tersebut mengandung
bias, yaitu item no 5 (χ²hitung = 16.376) dan item no 6 (χ²hitung = 11.274).
kedua item ini lebih menguntungkan perempuan daripada laki-laki. Pada
tabel 4.28 dapat dilihat hasil perhitungan χ² pada subtes P5 sebagai berikut:
Tabel 4.28
Hasil Estimasi Bias Subtes P5 Berdasarkan Pendekatan Logistic Regression
ITEM Log Likelihood Log Likelihood
χ² R² R²
ΔR² Model 1 Model 2 Model 1 Model 2
1 -922.048 -922.037 0.022 0.115 0.115 0.000
2 -961.437 -959.758 3.358 0.140 0.143 0.003
3 -923.389 -922.124 2.530 0.215 0.217 0.002
4 -901.827 -901.153 1.348 0.240 0.241 0.001
5 -717.934 -709.746 16.376 0.363 0.378 0.015
6 -797.099 -791.462 11.274 0.359 0.367 0.008
7 -848.890 -848.373 1.034 0.155 0.155 0.000
98
4.4 Hasil Estimasi Bias Jenis Kelamin Dengan Pendekatan CFA
Berdasarkan perhitungan χ2 pada kesembilan subtes ternyata
menunjukkan hasil yang tidak signifikan (P ≥ 0.05). Dengan demikian
dapat disimpulkan bahwa kesembilan model penelitian terbukti fit (sesuai)
dengan kesembilan data yang digunakan. Dengan kata lain model
penelitian ini didukung atau sesuai dengan data empiris. Pada tabel 4.29
dapat dilihat hasil perhitungan χ² yang menunjukkan bahwa kesembilan
model penelitian fit dengan kesembilan data yang digunakan.
Tabel 4.29
Model Fit MAB Dengan Menggunakan Pendekatan CFA
MAB χ² df P-Value CFI TLI
V1 179.416 154 0.079 0.992 0.989
V2 26.646 23 0.271 0.997 0.996
V3 37.200 32 0.242 0.995 0.992
V4 6.131 4 0.190 0.989 0.968
V5 17.107 11 0.105 0.961 0.929
P1 16.637 13 0.217 1.000 1.000
P3 9.419 13 0.741 1.000 1.002
P4 10.176 14 0.749 1.000 1.011
P5 26.030 17 0.074 0.996 0.990
Untuk mendapatkan informasi yang lebih valid tentang bias item,
pada analisis kemampuan kedua kelompok dikondisikan sama secara
statistic (αP = αL).
Dalam keadaan ini kemampuan kelompok dibuat sama kemudian
penulis menguji perbedaan λ yang diperoleh dari kelompok perempuan
99
dengan kelompok laki-laki. Artinya, penulis ingin menguji apakah
karakteristik item pada kedua kelompok tersebut berbeda secara
signifikan. Untuk mengetahui perbedaan tersebut dilakukan dengan
menghitung nilai t sesuai dengan rumus (17). Adapun hasil uji bias item
dapat dilihat pada tabel 4.30 sampai dengan tabel 4.38. berikut ini akan
dibahas bias item yang ditemukan pada setiap subtes item.
4.4.1 Subtes Information (V1)
Berdasarkan analisis dengan metode CFA pada subtes V1
ditemukan 4 item bias, yaitu item no 4 (t = -2.4735), item no 5 (t = -
2.1347), item no 6 (t = -2.4778), dan item no 11 (t = -2.9162). Keempat
item bias ini lebih menguntungkan kelompok laki-laki daripada
perempuan. Hasil perhitungan nilai t pada seluruh item subtes V1 dapat
dilihat pada tabel 4.30.
Tabel 4.30
Hasil Perhitungan Nilai t Subtes V1 Berdasarkan Pendekatan CFA
No
Item λ¹ λ² SE1 SE2 t
1 0.391 0.39 0.047 0.045 0.0154
2 0.415 0.444 0.051 0.043 -0.4347
3 0.449 0.494 0.045 0.043 -0.7230
4 0.252 0.417 0.043 0.051 -2.4735
5 0.329 0.468 0.048 0.044 -2.1347
6 0.369 0.537 0.054 0.041 -2.4778
7 0.381 0.479 0.054 0.041 -1.4454
8 0.518 0.518 0.060 0.044 0.0000
9 0.415 0.413 0.051 0.042 0.0303
10 0.394 0.412 0.049 0.045 -0.2706
11 0.500 0.686 0.048 0.042 -2.9162
100
12 0.379 0.495 0.055 0.041 -1.6910
13 0.618 0.530 0.053 0.040 1.3253
14 0.626 0.593 0.050 0.039 0.5204
15 0.657 0.591 0.054 0.039 0.9908
4.4.2 Subtes Comprehension (V2)
Hasil analisis pada subtes V2 ditemukan satu item yang
mengandung bias item, yaitu item no 5 (t = -2.0129). yang mana item no 5
tersebut lebih menguntungkan kelompok laki-laki. Hasil perhitungan nilai
t pada seluruh item subtes V2 dapat dilihat pada tabel 4.31.
Tabel 4.31
Hasil Perhitungan Nilai t Subtes V2 Berdasarkan Pendekatan CFA
No
Item λ¹ λ² SE1 SE2 t
1 0.332 0.314 0.050 0.043 0.2729
2 0.335 0.367 0.057 0.047 -0.4331
3 0.597 0.542 0.046 0.040 0.9022
4 0.681 0.642 0.044 0.036 0.6860
5 0.598 0.714 0.045 0.036 -2.0129
6 0.822 0.864 0.044 0.037 -0.7306
4.4.3 Subtes Aritmatic (V3)
Hasil analisis pada subtes V3 ditemukan 2 item yang
mengandung bias. Item tersebut adalah item no 2 (t = -2.1360) dan
item no 3 (t = -2.7502), yang mana kedua item ini menguntungkan
kelompok laki-laki daripada kelompok perempuan. Dalam tabel 4.32
dapat dilihat hasil perhitungan nilai t pada subtes V3.
101
TABEL 4.32
Hasil perhitungan nilai t subtes V3 Berdasarkan Pendekatan CFA
No
Item λ¹ λ² SE1 SE2 t
1 0.262 0.413 0.048 0.063 -1.9065
2 0.230 0.422 0.048 0.076 -2.1360
3 0.227 0.412 0.045 0.050 -2.7502
4 0.510 0.489 0.061 0.046 0.2749
5 0.404 0.517 0.062 0.045 -1.4750
6 0.868 0.763 0.065 0.048 1.2995
7 0.392 0.414 0.056 0.047 -0.3009
8 0.557 0.651 0.060 0.046 -1.2433
4.4.4 Subtes Similarities (V4)
Berdasarkan analisis dengan metode CFA pada subtes V4 tidak
ditemukan bias. Tabel 4.33 memuat perhitungan nilai t pada subtes V4.
Tabel 4.33
Hasil perhitungan nilai t subtes V4 Berdasarkan Pendekatan CFA
No
Item λ¹ λ² SE1 SE2 t
1 0.332 0.382 0.079 0.105 -0.3805
2 0.720 0.464 0.207 0.122 1.0654
3 0.172 0.354 0.064 0.099 -1.5439
4 1.078 0.859 0.260 0.246 0.6118
4.4.5 Subtes Vocabulary (V5)
Hasil analisis pada subtes V5 ditemukan satu item bias, yaitu
item no 5 (t = 2.6937). Yang mana item no 5 tersebut lebih
menguntungkan kelompok perempuan daripada kelompok laki-laki.
102
Hasil perhitungan nilai t pada subtes V5 ini dapat dilihat dalam tabel
4.34.
Tabel 4.34
Hasil perhitungan nilai t subtes V5 Berdasarkan Pendekatan CFA
No
Item λ¹ λ² SE1 SE2 t
1 0.345 0.340 0.087 0.081 0.0421
2 0.343 0.341 0.074 0.075 0.0190
3 0.397 0.262 0.080 0.063 1.3258
4 0.429 0.536 0.085 0.105 -0.7920
5 0.562 0.221 0.112 0.059 2.6937
4.4.6 Subtes Digit Symbol (P1)
Dari hasil analisis subtes P1 diketahui bahwa ada empat item
yang mengandung bias item, yaitu item no 1 (t=2.4587), item no 4 (t=-
3.2154), item no 5 (t=-2.7048), dan item no 6 (t=-4.0156). Yang mana
item no 1 lebih menguntungkan kelompok perempuan daripada laki-
laki, sedangkan ketiga item lainnya yaitu item no 4, 5, dan 6 lebih
menguntungkan laki-laki dari pada perempuan. Hasil perhitungan nilai
t subtes P1 dapat dilihat dalam tabel 4.35.
TABEL 4.35
Hasil perhitungan nilai t subtes P1 Berdasarkan Pendekatan CFA
No
Item λ¹ λ² SE1 SE2 t
1 0.679 0.484 0.059 0.053 2.4587
2 0.917 0.943 0.048 0.031 -0.4550
3 0.957 0.933 0.047 0.030 0.4304
4 0.473 0.673 0.050 0.037 -3.2154
103
5 0.475 0.644 0.048 0.040 -2.7048
6 0.389 0.643 0.049 0.040 -4.0156
4.4.7 Subtes Spatial (P3)
Hasil analisis subtes P3 diketahui bahwa ada lima item yang
mengandung bias. Kelima item tersebut adalah item no 1 (t = 2.5402),
item no 4 (t = 2.1130), item no 5 (t = 2.4383), item no 6 (t = -2.0664),
dan item no 8 (t = 2.6325). Yang mana diketahui bahwa item no 1, 4,
5, dan 8 lebih menguntungkan kelompok perempuan daripada laki-
laki, sedangkan item no 6 lebih menguntungkan kelompok laki-laki
daripada perempuan. Hasil perhitungan nilai t subtes P3 dapat dilihat
dalam tabel 4.36.
Tabel 4.36
Hasil perhitungan nilai t subtes P3 Berdasarkan Pendekatan CFA
No
Item λ¹ λ² SE1 SE2 t
1 2.237 1.241 0.333 0.207 2.5402
2 0.479 0.521 0.053 0.052 -0.5657
3 0.535 0.461 0.051 0.051 1.0260
4 0.899 0.730 0.054 0.059 2.1130
5 0.948 0.761 0.049 0.059 2.4383
6 0.704 0.872 0.043 0.069 -2.0664
7 0.580 0.715 0.048 0.066 -1.6542
8 0.529 0.251 0.064 0.084 2.6325
104
4.4.8 Subtes Picture Arrangement (P4)
Berdasarkan analisis dengan metode CFA pada subtes P4 tidak
ditemukan bias. Tabel 4.37 memuat perhitungan nilai t pada subtes V4.
Tabel 4.37
Hasil perhitungan nilai t subtes P4 Berdasarkan Pendekatan CFA
No
Item λ¹ λ² SE1 SE2 T
1 0.372 0.347 0.054 0.048 0.3460
2 0.394 0.415 0.052 0.049 -0.2939
3 0.573 0.582 0.054 0.048 -0.1246
4 0.703 0.722 0.053 0.050 -0.2608
5 0.719 0.671 0.053 0.048 0.6713
4.4.9 Subtes Object Assembly (P5)
Dari hasil perhitungan nilai t pada subtes P5 diketahui bahwa
ada tiga item yang mengandung bias, yaitu item no 1 (t = -3.0995),
item no 3 (t = 3.8481), dan item no 6 (t = 2.0292). Item no 1 lebih
menguntungkan kelompok laki-laki, sedangkan item no 3 dan no 6
lebih menguntungkan kelompok perempuan. Hasil perhitungan nilai t
subtes P5 dapat dilihat dalam tabel 4.38.
Tabel 4.38
Hasil perhitungan nilai t subtes P5 Berdasarkan Pendekatan CFA
No
Item λ¹ λ² SE1 SE2 T
1 0.375 0.716 0.050 0.098 -3.0995
2 0.473 0.543 0.054 0.057 -0.8915
3 0.892 0.541 0.072 0.056 3.8481
4 0.582 0.723 0.053 0.054 -1.8635
5 0.869 0.743 0.064 0.052 1.5280
105
6 0.883 0.689 0.076 0.058 2.0292
7 0.481 0.514 0.046 0.044 -0.5184
Dari hasil analisis bias item ternyata ditemukan sejumlah item
yang bias dengan pendekatan IRT, Logistic Regression, dan CFA. Item-
item yang bias berdasarkan metode IRT, Logistic Regression, dan CFA
dapat dilihat dalam tabel 4.39 dan tabel 4.40.
106
Tabel 4.39
Item Bias Subtes Verbal Berdasarkan Hasil Perhitungan IRT, Logistic Regression, dan CFA
METODE SUBTES V1 SUBTES V2 SUBTES V3 SUBTES V4 SUBTES V5
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 2 3 4 5 6 1 2 3 4 5 6 7 8 1 2 3 4 1 2 3 4 5
IRT ■ ● ● ■
REGLOG
●
●
■
■ ■
● ■
CFA ● ● ● ● ● ● ●
Tabel 4.40
Item Bias Subtes Performance Berdasarkan Hasil Perhitungan IRT, Logistic Regression, dan CFA
METODE SUBTES P1 SUBTES P3 SUBTES P4 SUBTES P5
1 2 3 4 5 6 1 2 3 4 5 6 7 8 1 2 3 4 5 1 2 3 4 5 6 7
IRT ● ■ REGLOG ■
■
■ ■
CFA ■ ● ● ● ■ ■ ■ ● ■ ● ■ ■ ket: ● = Bias yang menguntungkan laki-laki dari pada perempuan
■ = Bias yang menguntungkan perempuan dari pada laki-laki
107
BAB 5
KESIMPULAN DAN SARAN
Dalam bab kesimpulan dan saran ini akan dibahas mengenai kesimpulan
dan saran dari hasil penelitian yang telah diuraikan dalam bab empat hasil
penelitian.
5.1 Kesimpulan
Berdasarkan hasil analisis dan pembahasan yang dilakukan, maka
kesimpulan penelitian ini adalah sebagai berikut:
1. Ada sembilan item tes Multidimensional Aptitude Battery yang secara
statistik signifikan memuat DIF bila dideteksi dengan metode IRT
model 1PL, yakni :
a. Pada subtes information (V1), item no 4 lebih menguntungkan
perempuan daripada laki-laki dan item no 6 dan no 8 lebih
menguntungkan laki-laki dari pada perempuan.
b. Pada subtes vocabulary (V5), item no 1 lebih menguntungkan
perempuan daripada laki-laki dan item no 4 lebih menguntungkan
laki-laki daripada perempuan.
c. Pada subtes digit symbol (P1), item no 1 lebih menguntungkan
perempuan daripada laki-laki.
108
d. Pada subtes object assembly (P5), item no 3 lebih menguntungkan
perempuan daripada laki-laki dan item no 5 dan no 6 lebih
menguntungkan laki-laki daripada perempuan.
2. Ada 11 item tes Multidimensional Aptitude Battery yang secara
statistik signifikan memuat DIF bila dideteksi dengan pendekatan
Logistic Regression, yakni :
a. Pada subtes information (V1), item no 4, 6 dan 8. Item no 4 dan 6
lebih menguntungkan laki-laki daripada perempuan, sedangkan
item no 8 lebih menguntungkan perempuan daripada laki-laki.
b. Pada subtes vocabulary (V5), item no 1, 2, 4, dan 5. Item no 1, 2,
dan 5 lebih menguntungkan perempuan daripada laki-laki,
sedangkan satu item lainnya, yaitu item no 4 lebih menguntungkan
laki-laki dari pada perempuan.
c. Pada subtes digit symbol (P1), item no 1 lebih menguntungkan
perempuan daripada laki-laki.
d. Pada subtes spatial (P3), item no 1 lebih menguntungkan
perempuan daripada laki-laki.
e. Pada subtes object assembly (P5), item no 5 dan 6 lebih
menguntungkan perempuan daripada laki-laki.
109
3. Ada 20 item tes Multidimensional Aptitude Battery yang secara
statistik signifikan memuat DIF bila dideteksi dengan metode
Confirmatory Factor Analysis (CFA), yakni :
a. Pada subtes information (V1), item no 4, 5, 6, dan 11. Item ini
lebih menguntungkan laki-laki daripada perempuan.
b. Pada subtes comprehension (V2), item no 5. Item ini lebih
menguntungkan laki-laki daripada perempuan.
c. Pada subtes aritmatic (V3), item no 2 dan 3. Item ini lebih
menguntungkan laki-laki daripada perempuan.
d. Pada subtes vocabulary (V5), item no 5. Item ini lebih
menguntungkan perempuan daripada laki-laki.
e. Pada subtes digit symbol (P1), item no 1, 4, 5, dan 6. Item no 1
lebih menguntungkan perempuan daripada laki-laki, sedangkan
ketiga item lainnya, yaitu item no 4, 5, dan 6 lebih
menguntungkan laki-laki dari pada perempuan.
f. Pada subtes spatial (P3), item no 1, 4, 5, 6, dan 8. Item no 1, 4, 5,
dan 8 lebih menguntungkan perempuan daripada laki-laki. Dan
item no 6 lebih menguntungkan laki-laki dari pada perempuan.
g. Pada subtes object assembly (P5), item no 1, 3, dan 6. Item no 1
lebih menguntungkan laki-laki daripada perempuan, sedangkan
110
kedua item lainnya, yaitu item no 3 dan 6 lebih menguntungkan
perempuan dari pada laki-laki.
4. Item bias yang disebabkan oleh faktor jenis kelamin ini kemungkinan
besar terjadi karena adanya kebiasaan yang sudah terbentuk dalam
suatu masyarakat dan juga di perkuat oleh faktor agama dan budaya.
5.2 Saran
Berdasarkan hasil penelitian dan manfaat yang ingin dicapai
melalui penelitian ini, maka saran-saran yang diajukan adalah sebagai
berikut:
1. Bagi pembaca dan peneliti yang berminat
a. Mengingat Indonesia terdiri dari berbagai macam wilayah dan
kebudayaan, hendaknya melakukan penelitian yang sama namun
berdasarkan wilayah, sehingga dapat diketahui DIF berdasarkan
faktor jenis kelamin jika wilayahnya berbeda.
b. Perlu dilakukan penelitian serupa dengan menggunakan metode-
metode IRT yang lebih spesifik dan sedang berkembang, misal:
mixture model analysis dan MIMIC model.
c. Hendaknya dilakukan penelitian lebih lanjut mengenai DIF pada
item politomus dengan menggunakan pendekatan-pendekatan yang
sedang berkembang saat ini.
111
2. Bagi para psikolog terapan hendaknya memperhatikan hal-hal yang
menyebabkan biasnya suatu item, sehingga didapatkan gambaran yang
tepat dari suatu assessment dan melakukan pengembangan atau revisi
suatu alat tes psikologi secara berkala agar hasil assessment tersebut
benar-benar akurat.
3. Bagi para tester hendaknya memperhatikan proses pengadministrasian
suatu alat tes, sehingga dapat mengurangi penyebab terjadinya bias
item.
112
DAFTAR PUSTAKA
Anastasi, A., & Urbina. (1997). Psychological testing, seventh edition. New
Jersey: Prentice-Hall, Inc.
Baker, F. (2001). The basics of item response theory. Second edition. America:
ERIC Clearinghouse on Assesment and Evaluation.
Benito, G.J., Hidalgo, M.D., & Padilla, J.L. (2009). Efficacy of effect size
measures in logistic regression: An application for detecting DIF.
Methodology, 5, 18-25.doi: 10.1027/1614-2241.5.1.18.
Bond, T.G, & Fox, C.M. (2001).Applying the rasch model: Fundamental
measurement in the human sciences.
Brown, T.A (2006). Confirmatory factor analysis for applied research. New
York: The Guilford Press.
Camili, G. & Shepard, L.A. (1994). Methods for identifying biased test item,
Vol.4. London: Sage Publication,inc.
Candell, G.L., & Hulin, C.L. (1986) Cross language and cross cultural
comparisons in scale translations: Independent sources of information
about item nonequivalence. Journal of Cross-Cultural Psychology, 17,
417-440.
Chapman, A. (2012). Gender bias in education. www.edchanges.org. tanggal 11
desember 2012.
Crane, P.K., Gibbons, L.E., at all (2011). Iordif: An R package for detecting
differential item functioning using iterative hybrid ordinal logistic
regression/item response theory and monte carlo simulation. Journal of
statistical software, 39.
Crocker, L, & Algina, J. (1986). Introduction to classical and modern test theory.
Philadelphia: Harcourt Brace Jovanovich College Publisher.
Embretson, S., & Reise, S. (2000). Item Response Theory for psychology. London:
Lawrence Erlbaum Associates Publisher.
Hambleton, R.K (1982). Item Response Theory: the three parameter logistic
model. California: Centre for the study of evaluation.
113
Hambleton, R.K. & Swaminathan. (1985). Item response theory. Boston, MA:
Kluwer Nijjhoff, Publisher.
Hambleton, R.K., Swaminathan, H., & Rogers, H.J. (1991). Fundamentals of item
response theory. London: Sage Publications,inc.
Hayat, B., Surapranata, S., & Suprananto. (1999). Manual item and analysis.
Jakarta:Pusbangsijian Depdikbud.
Holland, P.W. & Wainer, H. (1993). Differential item functioning. New Jersey:
Lawrence Erlbeum Associate Publisher.
Ho Yu, Chong. (2010). A simple guide to the item response theory (IRT) and
rasch modeling. www.creative-wisdom.com
Jackson, N.D. (2003). Multidimensional aptitude battery manual. Port Huron:
Sigma Assesment Systems, Inc.
Jodoin, M.G., & Gierl, M.J. (2001). Evaluating type 1 error and power rates using
an effect size measure with logistic regression procedure for DIF
detection. Applied Measurement in Education, 14, 329-349.
Jones, K., Evans, C., Byrd, R., & Campbell, K. (2000). Gender equity training and
teaching behavior. Journal of Instructional Psychology, 27 (3), 173-178.
Kartowagiran, B. (2005). Perbandingan berbagai metode untuk mendeteksi bias
butir. Disertasi. Yogyakarta: Tidak diterbitkan
Muthen, B.O. (2006). IRT in MPLUS. Los Angeles. CA: Muthen & Muthen.
www.statmodel.com
Muthen, L.K &Muthen, B.O. (19982007). Mplus user’s guide. Fifth edition. Los
Angeles. CA: Muthen & Muthen. www.statmodel.com
Muthen, L.K &Muthen, B.O. (2009). Exploratory factor analysis, confirmatory
factor analysis, and structural equation modeling for continous outcomes.
Mplus Short Courses (topic 1). Los Angeles. CA: Muthen & Muthen.
www.statmodel.com
Muthen, L.K &Muthen, B.O. (2009). Regression analysis, exploratory factor
analysis, confirmatory factor analysis, and structural equation modeling
for categorical, censored, and count outcomes. Mplus Short Courses
(topic 2). Los Angeles. CA: Muthen & Muthen. www.statmodel.com
114
Mislevy, R.J. & Bock, R.D. (1990). BILOG 3: Item analysis & test scoring with
binary logistic models, Moorseville: Scientific Softwares Inc.
Myers, S. (2008). Intelligence testing: testing & evaluation. Research starter.
EBSCO Publishing, Inc.
O'Neill, T. (2000). Boys' problems don't matter. Report/ Newsmagazine (National
Edition), 27 (15), 54-56
Sadker, D., & Sadker, M. (1994). Failing at Fairness: How Our Schools Cheat
Girls. Toronto, ON: Simon & Schuster Inc.
Scientific Software International. Edited. Toit, M.A. (2003). IRT from SSI. North
Lincoln Avenue: Scientific Software Inc.
Raju, N.S., Laffitte, L.J., & Byrne, B.M. (2002). Measurement equivalence: A
comparison of methods based on confirmatory factor analysis and item
response theory. Journal of Applied Psychology, 87, 517-529.
Siregar, N,Y. (2005). Faktor eksternal bias jenis kelamin pada butir tes IPA
“trends in international mathematics and science study” (TIMSS).
Disertasi. Jakarta: Tidak diterbitkan.
Stark, S., Chernyshenko, O.S., & Drasgow, F. (2006). Detecting differential item
functioning with confirmatory factor analysis and item response theory:
Toward a unified strategy. Journal of Applied Psychology, 91, 1292-1306.
Thompson, B. (2004). Explanatory and confirmatory factor analysis. Washington
DC: American Psychological Assosiation.
Umar, J. (2001). A method for measuring instructional sensitivity of criterion-
referenced test items. Jakarta: Examination Center.
Umar, J. (2012). Bahan kuliah psikometri. Jakarta: Tidak diterbitkan
Umar, J. (2012). Peran pengukuran dan analisis statistika dalam penelitian
psikologi. Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, 1,
No.1.
Umar, J. (2012). Mengenal lebih dekat konsep reliabilitas skor tes. Jurnal
Pengukuran Psikologi dan Pendidikan Indonesia,1, No.2.
Zumbo, B.D. (1999). A handbook on the theory and methods of differential item
functioning (DIF): Logistic regression modelling as a unitary framework
for binary and likert type (ordinal) item scores. Ottawa, ON: Directorate
115
of Human Resources Research and Evaluation, Department of National
Defense.
Zumbo, B.D. (2007). Three generations of DIF analysis: Considering where it
has been, where it is now, and where it is going. Canada: Lawrence
Erlbaum Associates, Inc.