Pendeteksian Differential Item Functioning pada Item Dikotomus...

i

Pendeteksian Differential Item Functioning pada Item Dikotomus

dengan Menggunakan Pendekatan Item Response Theory (IRT),

Logistic Regression (LR), dan Confirmatory Factor Analysis (CFA)

Tesis

Diajukan untuk memenuhi sebagian persyaratan memperoleh

gelar Master dalam bidang Psikologi (M.Si)

Oleh:

YULISTIN TRESNAWATY

NIM: 2110070000022

FAKULTAS PSIKOLOGI

UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH

JAKARTA

1434 H/2013 M

ii

MOTTO:

”Sesungguhnya bersama setiap

kesulitan ada kemudahan”

(Q.S. Al- Insyirah: 6)

Karya ini merupakan salah satu persembahan terbaikku untuk:

Mamaku tercinta (Hj. Halidawati MS) dan Papaku tercinta (H. Zet Efran Badri, M.Si)

serta semua orang yang menyayangiku, dan mendoakan aku dengan tulus dalam

kebaikan.

iii

ABSTRAK

(A) Fakultas Psikologi

(B) Januari 2013

(C) Yulistin Tresnawaty

(D) Pendeteksian Differential Item Functioning pada Item Dikotomus dengan Menggunakan

Pendekatan Item Response Theory (IRT), Logistic Regression (LR), dan Confirmatory

Factor Analysis (CFA)

(E) xx + 111 halaman

(F) Tujuan Penelitian ini adalah untuk mendeteksi : (1) item-item dikotomus dalam tes

Multidimensional Aptitude Battery (MAB) yang secara statistik signifikan terdeteksi

Differential Item Functioning (DIF) bila dideteksi dengan menggunakan pendekatan Item

Response Theory (IRT); (2) item-item dikotomus dalam tes MAB yang secara statistik

signifikan terdeteksi DIF bila dideteksi dengan menggunakan metode Logistic Regression

(LR); (3) item-item dikotomus dalam tes MAB yang secara statistik signifikan terdeteksi

DIF bila dideteksi dengan menggunakan metode Confirmatory Factor Analysis (CFA).

Data yang digunakan dalam penelitian ini adalah respons testee terhadap item tes MAB.

Sebelum dianalisis muatan DIF-nya, terlebih dahulu item tes dipilih berdasarkan teori tes

klasik dengan menggunakan program ITEMAN, dan dikalibrasi berdasarkan teori respon

item model parameter dengan menggunakan program BILOG. Kemudian dilakukan

pengujian validitas konstruk dengan menggunakan analisis faktor dengan menggunakan

program MPLUS. Selanjutnya dilakukan pendeteksian DIF dengan pendekatan IRT

dengan bantuan program QUEST, LR dan CFA dengan bantuan program MPLUS.

Hasil penelitian ini menunjukkan bahwa: (1) ada 9 item tes MAB yang secara statistik

signifikan memuat DIF bila dideteksi dengan pendekatan IRT; (2) ada 11 item tes MAB

yang secara statistik signifikan memuat DIF bila dideteksi dengan pendekatan LR; dan (3)

ada 20 item tes MAB yang secara statistik signifikan memuat DIF bila dideteksi dengan

pendekatan CFA.

(G) Daftar Pustaka: 40; buku: 19 + Jurnal: 19 + Disertasi: 2 (1982-2012)

iv

ABSTRACT

(A) Faculty of Psychology

(B) January 2013

(C) Yulistin Tresnawaty

(D) Detection of Differential Item Functioning on Dichotomous Item with the Item Response

Theory (IRT), Logistic Regression (LR), and Confirmatory Factor Analysis (CFA)

method.

(E) xx + 111 page

(F) The objective of this research study is to conceive: (1) dichotomous items of

Multidimensional Aptitude Battery (MAB) which statistically significantly contain

Differential Item Funtioning (DIF) if detected by the item response theory (IRT); (2)

dichotomous items of MAB which statistically significantly contain DIF if detected by

logistic regression (LR); and (3) dichotomous items of MAB which statistically

significantly contain DIF if detected by confirmatory factor analysis (CFA).

The data for the study consist of testee responses to the MAB test items. Before subject to

the DIF analysis, test items were sorted according to the classical theories using the

ITEMAN program package, two-parametre item response model using BILOG program,

and then construct validity test with confirmatory factor analysis using MPLUS program.

Good test items were then subjected to the DIF analysis using the IRT method using

QUEST, LR and CFA method using MPLUS.

Result of the study show: (1) 9 test items were detected by the IRT 1PL method as

statistically significantly contain DIF; (2) 11 test items were detected as containing DIF

by the LR method; and (3) CFA detected 20 test items with DIF.

(G) References: 40; book: 19 + Journal: 19 + Disertation: 2 (1982-2012)

v

KATA PENGANTAR

Assalamu’alaikum Warrahmatullahi Wabarakatuh….

Alhamdulillah... segala puji bagi Allah atas segala rahmat dan karunia yang

diberikannya, sehingga penulis mampu untuk menyelesaikan tesisi ini. Shalawat dan salam

tak lupa juga selalu tercurahkan kepada Nabi Muhammad S.A.W beserta keluarga, sahabat

dan seluruh ummatnya.

Terselesaikannya tesis ini tidak lepas dari arahan, bimbingan, motivasi, dan bantuan

dari berbagai pihak. Dalam sebuah hadits dikemukakan bahwa “orang yang paling banyak

bersyukur kepada Allah ialah orang yang paling banyak berterima kasih kepada sesama

hamba-Nya”. Oleh karena itu, dengan hati yang tulus, penulis ucapkan terimakasih kepada

semua pihak yang telah membantu proses penyelesaian tesis ini, terutama kepada:

1. Bapak Jahja Umar, Ph.D, Dekan Fakultas Psikologi, dosen sekaligus pembimbing

pertama dan penguji tesis ini. Terimakasih banyak penulis ucapkan atas segala waktu,

tenaga, dan pikiran yang telah dikhlaskan selama bapak membimbing penulis dalam

menyelesaikan tesis ini. Motivasi-motivasi yang bapak berikan dalam kemasan bercerita

layaknya orangtua kepada anak, sungguh sangat menginsprasi penulis untuk terus maju

dan berkembang. Semoga Allah senantiasa memberkahi kesehatan dan kemuliaan kepada

bapak. Aamiin…

2. Bapak Dr. Ir. Bastari, M.A, Ketua Jurusan Psikometri, dosen sekaligus pembimbing

kedua dan penguji tesis ini. Terimakasih banyak atas segala arahan, kesabaran, dan

perhatian demi terselesaikannya tesis ini. Begitu banyak kemudahan-kemudahan yang

penulis dapatkan, baik dalam waktu untuk bimbingan dan diskusi disela-sela kesibukan

bapak yang sangat sibuk sekali, mencarikan dan meminjamkan referensi-referensi yang

penulis butuhkan dalam penulisan tesis ini, bahkan masih menyempatkan waktu untuk

vi

sekedar mendengarkan cerita dan kendala penulis dalam proses penyelesaian tesis ini

sehingga penulis merasa nyaman dan bisa menemukan langkah yang tepat untuk

melewati semua kendala-kendala tersebut. Semoga Allah memberkahi keselamatan,

kesehatan, kebahagian serta memudahkan segala urusan bapak. Aamiin..

3. Bapak Dr. Suprananto, selaku penguji tesis ini. Terimakasih penulis ucapkan atas

sharing, motivasi, saran dan masukan yang berharga demi menjadikan tesis ini

berkualitas, khususnya dalam aspek bahasa dan EYD.

4. Jajaran Dekanat, Pudek I ibu Dra. Fadhilah Suralaga, M.Si, Pudek II Bapak Bambang

Suryadi, Ph.D., dan Pudek III ibu Dra. Zahrotun Nihayah, M.Si

5. Seluruh Dosen Magister Psikologi Fakultas Psikologi UIN Syarif Hidayatullah Jakarta

serta seluruh staf bagian akademik, dan keuangan Magister Psikologi Fakultas Psikologi

UIN Syarif Hidayatullah Jakarta yang telah membantu kelancaran administrasi bagi

penulis.

6. Kedua orang tua penulis, Mama tercinta Hj. Halidawati MS dan Papa tercinta H. Zet

Efran Badri, M.Si yang sudah berkorban jiwa raganya dengan segenap cinta dan kasih

sayang yang tak terhingga untuk penulis dalam bentuk doa yang tak kering terucap dari

kedua bibir mereka serta dukungan moril bahkan materil yang tak henti-hentinya mereka

berikan kepada penulis. Kakak-kakak, ayuk-ayuk, adik, dan keponakan-keponakan

tercinta: Abang Ade dan Ayuk Sevi, Inga Anik dan Mas Anton, adik lelakiku satu-

satunya Frizki (terimakasih sudah menemani penulis begadang untuk menyelesaikan tesis

ini), serta keponakan-keponakanku tercinta Abang Haiqal, Mas Rasya, Donga Aqil dan

adik Nadhim. Keluarga besar di Bengkulu, Makdang Bah, Pakwo Ramlan, Makwo Semi,

Makwo Dewi, Makwo Asba, Wan Fian, Cik Gadis, dan Wancik sekeluarga terimakasih

atas segala dukungan moril dan materil yang diberikan sehingga penulis bisa

menyelesaikan tesis ini. Kepada keluargaku, khususnya Mama dan Papa, ikatan cinta

vii

kasih ini takkan terlerai dan putus. Ya Allah.. ampunilah dosa kami dan dosa kedua

orangtua kami, sayangilah mereka sebagaimana mereka menyayangi kami, berikanlah

kami kebahagiaan serta kemuliaan di dunia dan di akhirat, dan peliharalah keluarga kami

dari siksa api neraka. Aamiin..

7. Bapak Drs. H. Asep Haerul Gani, Psi dan Ibu Dra. Hj. Ai Khojanah, terimakasih penulis

ucapkan kepada bapak dan ibu yang sudah penulis anggap sebagai kedua orangtua

sendiri, sungguh penulis begitu terharu atas segala perhatian, motivasi, bahkan kasih

sayang yang bapak dan ibu berikan kepada penulis dengan “omelan” khasnya sehingga

memacu penulis untuk terus berkembang dan belajar akan banyak hal. Ya.. Allah berkahi

dan bahagiakanlah kehidupan mereka. Aamiin…

8. Para sahabat. Khususnya: saudari Puti Febrayosi dan keluarga, terimakasih kak… atas

segala hal yang terjadi dalam proses “perjuangan” ini, terimakasih sudah menjadi teman

sekaligus saudari yang baik, teman berdiskusi, teman “curhat”, teman mengkhayal,

teman berbagi suka duka dan teman yang saling menyemangati dikala lelah, jenuh dan

resah, sungguh “perjuangan” panjang ini memiliki kenangan indah yang memang pantas

untuk dikenang kita nanti. Saudari Anita Supita beserta suami, terimakasih mbak… sudah

menjadi teman sekaligus saudari yang baik dan teman berbagi suka maupun duka,

terimakasih juga sudah membantu “kiri-kanan” dalam mencarikan data-data penelitian

ini. Saudara Adit beserta istri, terimakasih dit.. sudah menjadi teman yang baik dari masa

Menengah Pertama hingga sekarang, meski jarak membentang, tak henti-hentinya

menyemangati penulis untuk segera menyelesaikan tesis ini meskipun dalam sambungan

langsung jarak jauh dengan pertanyaan yang sama, yang seolah-olah di replay “kapan

lulus? Kapan ini dan kapan itu?”. Kepada para sahabat, penulis ucapkan terimakasih atas

ukhuwah, cinta dan kasih sayang yang diberikan. Ya… Allah… sesungguhnya Engkau

tahu bahwa hati-hati ini telah berkumpul untuk mencurahkan kecintaan kepada-Mu,

viii

bertemu untuk taat kepada-Mu, maka kuatkanlah ikatan pertaliannya dan kekalkanlah

kasih sayangnya. Aamiin..

9. Ibu Rahmawati, S.T, M.ed (Puspendik), Tari, Mbak Rini (UIN), Weni (UGM), dan Susi

(UIN). Terimakasih atas keikhlasan waktu dan segala bentuk support yang sudah

diberikan demi kelancaran dalam penelitian ini. Sungguh kehadiran kalian merupakan

suatu bentuk “pertolongan” Allah dari arah yang tak terduga. Semoga Allah membalas

kebaikan kalian dengan yang lebih baik lagi. Aamiin…

10. Ustadzah Dra. Mardiyah dan keluarga, terimakasih Ummi… atas segala doa, pengertian,

dan perhatiannya. Maafkan ketika penulis mengantuk saat belajar tahsin dikarenakan

kurang tidur selama penyelesaian tesis ini, atau bahkan penulis lupa menghafal dan

mempelajarinya kembali. Semoga Allah memberkahi kebaikan dan kesehatan kepada

Ummi dan keluarga. Aamiin…

11. Ustadzah Maya Sofa dan teman-teman di kajian pekanan ahad pagi. Mila, bu Atin, bu Iin,

mbak Sri, dr. Dian, bu Noer, dan bu Rina. Terimakasih atas segala doa, pengertian, dan

perhatiannya. Taklupa juga penulis haturkan maaf ketika selama penyelesaian tesis ini,

penulis sering meng-cancel atau bahkan memindahkan kajian ketempat lain. Semoga

Allah memberkahi silaturahim dan ukhuwah diantara kita. Aamiin…

12. Teman-teman. Angkatan Pertama Magister Psikologi UIN Jakarta: bu Ida, bu Mita, bu

Eha, Bunda Elis, Pa’e, Kaputi, Kade, Kika, Rizka, Kanisa, dan teman-teman semuanya.

Teman-teman S-1 Psikologi: mbak Ita, Lili, Mila, Bundo, Desti, Indah, Rika, dan Sofa.

Teman-teman masa kecilku: Adit, Yulia, Tria, Evi, dan Putri. Kepada teman-teman,

terimakasih atas sharingnya, bisikan dukungan saat dirundung kecemasan, perhatian,

hiburan, saran, dan doa yang tiada hentinya.

13. Terimakasih kepada semua pihak yang telah memberikan bantuan dalam penulisan tesis

ini, meskipun penulis lupa untuk menyebutkan namanya.

ix

14. Terimakasih yang teramat sangat untuk diri penulis sendiri.

Sulit kiranya untuk membalas segala bentuk perhatian, dukungan, dan bantuan yang

diberikan kepada penulis. Semoga Allah SWT membalas dengan sebaik-baiknya pembalasan.

Aamiin..

Penulis menyadari bahwa tesis ini masih jauh dari kesempurnaan, terdapat banyak

kekurangan dan kesalahan, sehingga besar harapan penulis bagi segenap pembaca untuk

memberikan masukan yang lebih baik. Akhir kata, terimakasih atas kerjasamanya dan mohon

maaf atas semua salah dan khilaf

Wassalamu’alaikum Warahmatullahi Wabarakatuh…

Jakarta, Januari 2013

Yulistin Tresnawaty

x

DAFTAR ISI

HALAMAN JUDUL…………………………………………………………….... i

HALAMAN PERSETUJUAN…………………………………………………… ii

HALAMAN PENGESAHAN…………………………………………………….. iii

LEMBAR PERNYATAAN……………………………………………………… iv

HALAMAN MOTTO…………………………………………………………….. v

ABSTRAK………………………………………………………………………… vi

KATA PENGANTAR…………………………………………………………….. viii

DAFTAR ISI………………………………………………………………………. xiii

DAFTAR TABEL………………………………………………………………… xviii

DAFTAR GAMBAR……………………………………………………………… xix

DAFTAR LAMPIRAN…………………………………………………………… xx

BAB 1 PENDAHULUAN……………………………………………………….... 1-12

1.1 Latar Belakang Masalah………………………………………………... 1

1.2 Pembatasan dan Perumusan Masalah………………….………………. 6

1.2.1 Pembatasan Masalah……………..………………………………. 6

1.2.2 Perumusan Masalah………………………………………..……... 8

1.3 Tujuan dan Manfaat Penelitian…………………………………………. 9

1.3.1 Tujuan Penelitian…………………………………………………. 9

1.3.2 Manfaat Penelitian………………………………………………... 10

1.8 Sistematika Penulisan………………………………………………....... 11

BAB 2 LANDASAN TEORI……………………………………………………… 13-55

2.1 Differential Item Functioning…………………………………………... 13

2.1.1 Pengertian DIF……………………………………………………. 13

2.1.2 Jenis Bias………………………………………………………….. 16

2.1.3 DIF Berdasarkan Faktor Jenis Kelamin………………………....... 18

2.2 Deteksi DIF Menurut Item Response Theory (IRT)……………………. 20

2.2.1 Pengertian Item Response Theory………………………………… 21

2.2.2 Asumsi Dalam Item Response Theory……………………………. 23

xi

2.2.3 Item Characteristic Curve (ICC)…………………………………. 24

2.2.4 Local Independent……………………………………………….... 28

2.2.5 Model-Model Dalam IRT………………………………………… 29

2.2.6 Estimasi Parameter Item………………………………………….. 35

2.2.7 Pemilihan Model…………………………………………………. 39

2.2.8 Fungsi Informasi………………………………………………….. 40

2.3 Deteksi DIF Menurut Logistic Regression……………………………… 42

2.3.1 Asumsi Dasar Logistic Regression……………………………….. 44

2.3.2 Prosedur Analisis Logistic Regression…………………................. 45

2.3.3 Keunggulan Dan Kelemahan Logistic Regression………………... 46

2.4 Deteksi DIF Menurut Confirmatory Factor Analysis………………….. 47

2.4.1 Model Penelitian Uji Validitas Confirmatory Factor Analysis…... 51

2.4.2 Model Penelitian Deteksi DIF Dengan CFA…………………….. 51

2.5 Multidimensional Aptitude Battery Tes Sebagai Instrumen Penelitian… 52

2.6 Penelitian Yang Relevan………………………………………………... 53

2.7 Hipotesis………………………………………………………………... 54

BAB 3 METODE PENELITIAN………………………………………………… 56-73

3.1 Sampel Sumber Informasi………………………………………………. 56

3.2 Instrument Penelitian………………………………………………….... 57

3.3 Teknik Pengumpulan Data……………………………………………. 62

3.4 Prosedur Penelitian……………………………………………………... 62

3.5 Kriteria Item Yang Baik………………………………………………... 65

3.6 Perangkat Lunak Yang Digunakan……………………………………... 72

BAB 4 HASIL PENELITIAN……………………………………………………. 74-106

4.1 Uji Validitas Konstruk Dengan Pendekatan CFA…………………….... 74

4.2 Hasil Estimasi Bias Jenis Kelamin Dengan Pendekatan IRT 1PL……... 85

4.2.1 Subtes Information (V1)………………………………………….. 85

4.2.2 Subtes Comprehension (V2)…………………………………….... 86

4.2.3 Subtes Aritmatic (V3)…………………………………………...... 86

4.2.4 Subtes Similarities (V4)…………………………………………... 87

4.2.5 Subtes Vocabulary (V5)…………………………………………... 87

xii

4.2.6 Subtes Digit Symbol (P1)…………………………………………. 88

4.2.7 Subtes Spatial (P3)………………………………………………... 89

4.2.8 Subtes Picture Arrangement (P4)………………………………… 89

4.2.9 Subtes Object Assembly (P5)……………………………………... 90

4.3 Hasil Estimasi Bias Jenis Kelamin Dengan Pendekatan Logistic

Regression................................................................................................. 90


4.3.2 Subtes Comprehension (V2)…………………………………….... 92

4.3.3 Subtes Aritmatic (V3)…………………………………………….. 92

4.3.4 Subtes Similarities (V4)…………………………………………... 93

4.3.5 Subtes Vocabulary (V5)…………………………………………... 93

4.3.6 Subtes Digit Symbol (P1)…………………………………………. 94

4.3.7 Subtes Spatial (P3)………………………………………………... 95

4.3.8 Subtes Picture Arrangement (P4)…………………………………. 96

4.3.9 Subtes Object Assembly (P5)……………………………………… 96

4.4 Hasil Estimasi Bias Jenis Kelamin Dengan Pendekatan CFA…………. 97


4.4.2 Subtes Comprehension (V2)……………………………………… 99

4.4.3 Subtes Aritmatic (V3)……………………………………………... 100

4.4.4 Subtes Similarities (V4)…………………………………………… 101

4.4.5 Subtes Vocabulary (V5)…………………………………………… 101

4.4.6 Subtes Digit Symbol (P1)………………………………………….. 102

4.4.7 Subtes Spatial (P3)………………………………………………… 102

4.4.8 Subtes Picture Arrangement (P4)………………………………..... 103

4.4.9 Subtes Object Assembly (P5)……………………………………… 104

BAB 5 KESIMPULAN DAN SARAN…………………………………………… 107-111

5.1 Kesimpulan……………………………………………………………... 107

5.2 Saran……………………………………………………………………. 110

DAFTAR PUSTAKA…………………………………………………………….. 112-114

LAMPIRAN……………………………………………………………………….. 115-224

xiii

DAFTAR TABEL

Tabel 3.1 Hasil Analisis Item MAB Berdasarkan Teori Tes Klasik…………………… 66

Tabel 3.2 Parameter Item dan Parameter Testee Subtes Information (V1)...................... 67

Tabel 3.3 Parameter Item dan Parameter Testee Subtes Comprehension (V2)................ 68

Tabel 3.4 Parameter Item dan Parameter Testee Subtes Aritmatic (V3)…...................... 68

Tabel 3.5 Parameter Item dan Parameter Testee Subtes Similarities (V4)...................... 69

Tabel 3.6 Parameter Item dan Parameter Testee Subtes Vocabulary (V5)...................... 69

Tabel 3.7 Parameter Item dan Parameter Testee Subtes Digit Symbol (P1)…................. 70

Tabel 3.8 Parameter Item dan Parameter Testee Subtes Spatial (P3)….......................... 70

Tabel 3.9 Parameter Item dan Parameter Testee Subtes Picture Arrangement (P4)........ 71

Tabel 3.10 Parameter Item dan Parameter Testee Subtes Object Assembly (P5)…........... 71

Tabel 4.1 Chi-square Model Fit Dari Kesembilan Subtes Pada Kelompok

Gabungan, Kelompok Perempuan, dan Kelompok Laki-laki ……………….. 76

Tabel 4.2 Hasil Uji Validitas Dengan Pendekatan CFA Dari Subtes V1 MAB……....... 79





Tabel 4.7 Hasil Uji Validitas Dengan Pendekatan CFA Dari Subtes P1 MAB……........ 82



Tabel 4.10 Hasil Uji Validitas Dengan Pendekatan CFA Dari Subtes P5 MAB……....... 83

Tabel 4.11 Hasil Perhitungan χ² Pada Subtes V1 Berdasarkan IRT 1 PL ……................ 85



xiv



Tabel 4.16 Hasil Perhitungan χ² Pada Subtes P1 Berdasarkan IRT 1 PL ……................. 88




Tabel 4.20 Hasil Estimasi Bias Subtes V1 Berdasarkan Logistic Regression................... 91





Tabel 4.25 Hasil Estimasi Bias Subtes P1 Berdasarkan Logistic Regression.................... 95




Tabel 4.29 Model Fit MAB Dengan Menggunakan CFA………………………………. 98

Tabel 4.30 Hasil Perhitungan Nilai t Subtes V1 Berdasarkan CFA ................................. 99





Tabel 4.35 Hasil Perhitungan Nilai t Subtes P1 Berdasarkan CFA .................................. 102



Tabel 4.38 Hasil Perhitungan Nilai t Subtes P5 Berdasarkan CFA ................................. 104

xv

Tabel 4.39 Item Bias Subtes Verbal Berdasarkan Hasil Perhitungan IRT 1PL,

Logistic Regression, Dan Confirmatory Factor Analysis …………………… 105

Tabel 4.40 Item Bias Subtes Performance Berdasarkan Hasil Perhitungan IRT 1PL,

Logistic Regression, Dan Confirmatory Factor Analysis …………………… 105

xvi

DAFTAR GAMBAR

Gambar 2.1 Kurva Item Characteristic Curve (ICC)…………………………………….. 27

Gambar 2.2 Model Hipotesis Untuk Menguji Validitas Konstruk Dengan Metode CFA.. 50

Gambar 2.3 Model Penelitian Untuk Menguji DIF dengan Metode CFA………………... 51

Gambar 3.1 Diagram Alur Proses Penelitian……………………………………………… 65

xvii

DAFTAR LAMPIRAN

Lampiran 1 Analisis Item Berdasarkan Teori Tes Klasik Dengan Menggunakan Iteman.. 112

Lampiran 3 Analisis Item Berdasarkan IRT Dengan Menggunakan Program BILOG MG. 117

Lampiran 4 Uji Validitas CFA Dengan Menggunakan Program MPLUS……………….. 122

Lampiran 5 Analisis DIF Menggunakan Metode IRT 1PL Dengan Menggunakan Program

QUEST………………………………………………………………………. 186

Lampiran 6 Analisis DIF Menggunakan Metode Logistic Regression Dengan Menggunakan

Program MPLUS……………………………………………………………... 194

Lampiran 7 Analisis DIF Menggunakan Metode CFA Dengan Menggunakan Program

MPLUS………………………………………………………………………. 196

Lampiran 8 Penyesuaian No Item Berdasarkan No item Yang Sebenarnya……………… 220

1

BAB 1

PENDAHULUAN

Dalam bab pendahuluan ini akan dibahas mengenai latar belakang

masalah, pembatasan dan perumusan masalah, tujuan dan manfaat penelitian, dan

sistematika penulisan.

1.1 Latar Belakang Masalah

Seiring dengan berkembangnya ilmu pengetahuan di zaman

globalisasi saat ini, banyak psikolog terapan yang sadar akan pentingnya

keadilan dalam suatu pengukuran. Mereka menganggap bahwa keadilan

dalam suatu pengukuran merupakan salah satu prasayarat yang wajib

dilakukan untuk membandingkan suatu kelompok dengan kelompok lain

(Raju et al., 2002). Bahkan Horn&MCArdle dalam Stark et al., 2006

mengatakan bahwa keadilan dalam suatu pengukuran dianggap sebagai

karakteristik dari item atau tes tertentu dalam kondisi yang berbeda.

Perbedaan kondisi tersebut bisa dikarenakan adanya perbedaan kondisi

dalam suatu kelompok, pengadministrasian, dan media pengetesan (Paper

Based test atau Computerized Adaptive Test). Suatu skala dikatakan adil

dalam suatu pengukuran, apabila lebih dari satu kelompok testee memiliki

laten skor yang sama, tetapi raw score yang diharapkan berbeda pada

2

tingkat item, skala, ataupun keduanya (Drasgow & Kanfer dalam Stark et

al., 2006).

Ketidakadilan dalam pengukuran ini sering menimbulkan

perdebatan terkait dengan seberapa jauh ketidakberfungsian suatu item

atau skala terhadap seluruh anggota dalam kelompok tersebut (Raju et al.,

2002). Dengan demikian banyak peneliti yang tertarik untuk

mengembangkan atau menguji hipotesis tentang perbedaan budaya yang

menyebabkan perbedaan dalam skor item atau skala. Lebih dari itu,

banyak ilmuwan yang ingin menguji hipotesis tentang perbedaan skor

yang disebabkan oleh perbedaan akar seni budaya, perbedaan cara

berkomunikasi, perbedaan bahasa atau teknik menjawab (Candell &

Hulin, 1986).

Dalam suatu pengetesan psikologi, seorang testee bisa saja

memperoleh skor yang tidak sesuai dengan kemampuannya, padahal

semua item dalam tes baik. Selain itu, bisa terjadi seorang testee

memperoleh skor jauh lebih rendah dari skor seharusnya. Sebaliknya, bisa

juga terjadi seorang testee memperoleh skor yang jauh lebih tinggi dari

skor yang seharusnya. Tidak jarang, perbedaan skor tersebut terjadi karena

adanya kondisi psikologis dari testee ketika menghadapi tes tersebut.

Selama tidak menghadapi tes, ia mampu menyelesaikan sejumlah item tes,

tetapi ketika dihadapkan pada ujian, testee tidak mampu menjawab dengan

benar item-item tes yang memiliki tingkat kesulitan sama atau setara

3

dengan yang dijawab di luar ujian. Akibatnya tester akan sulit untuk

mendapatkan gambaran dari tingkat kemampuan testee ketika testee

memperoleh skor yang tidak wajar yakni terletak jauh di bawah

kemampuan testee sebenarnya.

Ketika terjadi ketidakadilan dalam suatu pengukuran, hendaknya

kita juga menguji perbedaan distribusi dalam menjawab benar antara

kelompok reference dengan kelompok lainnya sehingga menyebabkan

perbedaan hubungan dalam konteks psikometri yang berkaitan antara pola

jawaban dan variabel laten. Menanggapi pertanyaan-pertanyaan tersebut

tentunya diperlukan metodologi yang dapat membedakan adanya

ketidakadilan dalam suatu pengukuran yang menyebabkan masalah dalam

suatu instrumen tes yang berdampak pada perbedaan distribusi jawaban

benar.

Ketidakadilan dalam pengukuran dapat berdampak pada validitas

skala. Oleh karena itu diperlukan metode yang tepat dan mampu

mendeteksi Differential Item Functioning (DIF). Dalam studi ini, analisis

DIF dilakukan hanya untuk satu jenis item, yaitu item dikotomus.

Meskipun pada kenyataannya, tak jarang dalam suatu tes terdiri atas item

politomus atau pun gabungan antara item dikotomus dan politomus.

Ada beberapa pendekatan yang bisa digunakan untuk mendeteksi

Differential Item Functioning (DIF). Pendekatan yang pertama

berdasarkan pada Item Response Theory (IRT), pendekatan yang kedua

4

berdasarkan pada Confirmatory Factor Analysis (CFA) dan beberapa

pendekatan yang masih termasuk kajian IRT serta dalam tahap

pengembangan saat ini, salah satunya adalah pendekatan dengan Logistic

Regression (LR). Ketiga pendekatan ini sering dianggap sebagai

pendekatan yang dianggap paling mampu untuk membedakan dan menguji

ketidakadilan dalam suatu pengukuran. Ketiga pendekatan tersebut pada

umumnya telah berkembang dan memiliki terminologi serta prosedur

tersendiri untuk menguji hubungan antar item dan skala.

Ada beberapa metode yang sering digunakan untuk mendeteksi

adanya Differential Item Functioning (DIF) pada skor item dikotomus.

Metode yang umum digunakan untuk mendeteksi adanya DIF adalah

Mantel Haenszel (MH: Holland & Thayer, 1988), Standardisasi (Dorans

& Kulick, 1986), Logistic Regression (Swaminathan & Rogers, 1990),

prosedur simultan item bias tes (SIBTEST: Shealy & Stout, 1993) dan

prosedur berdasarkan Item Response Theory (IRT) (Stark et al., 2006).

Akhir-akhir ini, beberapa studi simulasi yang digunakan dalam

membandingkan IRT, CFA, LR mulai menarik perhatian para peneliti,

khususnya, terhadap struktur means dan struktur kovarian (Structural

Equation Modeling; SEM) yang telah banyak digunakan untuk menguji

keadilan pengukuran di tingkat item. Penelitian sebelumnya mengatakan

bahwa pendekatan CFA pada studi simulasi memang telah menunjukkan

bahwa analisis SEM cukup efektif untuk mendeteksi adanya DIF dalam

5

berbagai kondisi, baik pada item dikotomus, item politomus maupun

campuran dari pola respon tersebut (Stark et al., 2006).

Ketika item atau skala menunjukkan suatu hubungan yang linier

terhadap tingkat kemampuan individu pada kelompok reference, maka

dapat dikatakan bahwa pengukuran tersebut setara untuk setiap

kelompoknya. Dalam kajian IRT, kurangnya kesetaraan dalam pengukuran

ini disebut sebagai fungsi diferensial. Fungsi diferensial yang terjadi pada

tingkat item disebut Differential Item Functioning (DIF). Jika hal ini

terjadi pada tingkat skala, disebut dengan Differential Test Functioning

(DTF). Dalam kajian CFA, ada beberapa tahapan yang dilakukan dalam

menyetarakan suatu pengukuran. Yang pertama adalah dengan menguji

apakah struktur faktor lebih dari satu invarian pada setiap kelompok,

sehingga dapat dikatakan bahwa skala tersebut bersifat unidimensionalitas,

yang biasa disebut dengan konfigural invarian. Kedua, menguji invarian

matrik dengan melihat apakah faktor loading tersebut invarian pada setiap

kelompok. Selanjutnya, jika invarian matrik terpenuhi maka hendaknya

dilanjutkan dengan menguji invarian skalar dengan cara menguji threshold

apakah invarian ditiap kelompok (Stark et al., 2006). Sekaligus kita bisa

menguji korelasi antar faktor atau yang biasa disebut dengan kovarian. Hal

tersebut berbeda dengan analisis dalam IRT, di mana suatu analisis tes

dilakukan secara simultan.

6

Dalam IRT, cara yang biasa digunakan dalam analisis DIF adalah

dengan membandingkan daya pembeda item dan tingkat kesukaran atau

Item Response Function (IRF) testee di seluruh kelompok dalam satu

langkah. Sedangkan dalam analisis regresi logistik, pola respon disebut

dengan dependen variabel dan juga merupakan variabel kategorik.

Sehingga dapat dianalisis dengan menggunakan kurva logistik (logaritma).

Dalam analisis CFA, daya beda item dan tingkat kesukaran ini disebut

dengan loading factor dan intercept.

Dengan melihat daya beda (loading factor) dan tingkat kesukaran

(intercept) maka dalam penelitian ini pendeteksian DIF pada item

dikotomus dapat dilakukan dengan berbagai pendekatan yang ada, antara

lain dengan pendekatan Item Response Theory (IRT), Logistic Regression

(LR), dan Confirmatory Factor Analysis (CFA).

1.2 Pembatasan dan Perumusan Masalah

1.2.1 Pembatasan Masalah

Bentuk khusus dari struktur means dan struktur kovarian, telah

mendapatkan perhatian dari para peneliti (MACS; Sörbom, 1974).

Sehingga banyak peneliti yang telah menggunakan CFA untuk menguji

keadilan pengukuran ditingkat item. Selain itu, menurut Jöreskog &

Sörbom (1989) pada beberapa model CFA, skala untuk item atau konstruk

dari parameter laten perlu di identifikasi agar menghasilkan perkiraan yang

unik dari parameter item tersebut.

7

Pada model CFA, pengujian untuk keadilan dari factor loading dan

intercept dalam kelompok relatif mudah untuk dilakukan. Pertama, dengan

mentukan model dasar yang mana setiap parameter bebasnya bervariasi

kecuali pada parameter yang harus diidentifikasi. Cara yang paling umum

untuk menetapkan matrik adalah dengan memilih item reference yang

mana factor loading nya sama dengan satu pada kedua kelompok tersebut.

Untuk mendeteksi DIF dengan menggunakan metode IRT akan

lebih rumit jika dibandingkan dengan pendekataran CFA. Artinya, peneliti

tidak hanya menentukan prosedur saja, tetapi juga menentukan model

yang cocok untuk menggambarkan bagaimana keadaan testee dalam

menjawab item. Banyak model fit yang telah dikembangkan untuk data

dikotomus yang harus diuji secara empiris dalam setiap penelitian sebelum

dilakukan analisis DIF. Meskipun model telah ditetapkan untuk

mengestimasi parameter, analisis DIF juga dapat dilakukan dengan

membandingkan pola respon item atau langsung dengan membandingkan

parameter item. Ketika metode Logistic Regression (LR) digunakan maka

dapat dilakukan dengan menghitung peluang menjawab benar suatu item

berdasarkan „status keanggotaannya‟, sehingga dapat diketahui interaksi

langsung item dengan “status keanggotan” dari item tersebut. Tidak seperti

metode CFA, daya beda dan tingkat kesulitan dapat dibandingkan secara

bersamaan.

8

Ketika pendekatan CFA digunakan, maka tidak perlu menetapkan

item reference untuk mengidentifikasi matrik, karena dalam setiap

perbandingan semua item kecuali item yang hendak diteliti adalah

constrain. Muncul sebuah pertanyaan menarik tentang bagaimana cara

kerja serta prosedur metode CFA yang berlawanan dengan metode IRT

untuk mendeteksi Differential Item Functioning (DIF), serta interaksi item

dengan “status keanggotaan” dengan menggunakan logistic regression

(LR). Hal ini merupakan salah satu alasan penelitian ini dilakukan.

1.2.2 Perumusan Masalah

Dari pembatasan masalah dapat diketahui bahwa ada tiga

pendekatan yang dapat digunakan dalam mendeteksi DIF, yaitu

menggunakan pendekatan IRT, LR, dan CFA.

Dalam penelitian ini, data yang digunakan adalah data sekunder

dari hasil tes psikologi yang dibatasi pada perhitungan statistik yang

berdasarkan pada bias gender, bukan bias wilayah atau yang lainnya.

Disamping itu, tidak semua metode bias dikaji atau dibandingkan, namun

dibatasi pada metode yang mampu untuk mendeteksi bias pada tipe item

dikotomus. Berdasarkan rekomendasi para ahli, pendeteksian DIF

dilakukan dengan menggunakan pendekatan IRT, logistic regression, dan

CFA, yang mana ketiga metode tersebut telah disesuaikan dengan data

dikotomus.

9

Dengan mengacu pada pembatasan masalah tersebut, maka

rumusan masalah dalam penelitian ini adalah sebagai berikut.

1. Item dari tiap subtes mana sajakah yang secara statistik signifikan

memuat DIF bila dideteksi dengan pendekatan IRT?


memuat DIF bila dideteksi dengan metode logistic regression?


memuat DIF bila dideteksi dengan CFA?

1.3 Tujuan dan Manfaat Penelitian

1.3.1 Tujuan Penelitian

Pada dasarnya, tujuan penelitian ini adalah untuk mendeteksi DIF

pada item dikotomus, sedangkan secara rinci tujuan penelitian ini adalah

untuk mengetahui hal-hal berikut ini.

1. Item-item dari tiap-tiap subtes Multidimensional Aptitude Battery Test

yang secara statistik memuat DIF bila dideteksi dengan pendekatan

Item Respon Theory (IRT).

2. Item-item dari tiap-tiap subtes Multidimensional Aptitude Battery Test


LR.

10

3. Item-item dari tiap-tiap subtes Multidimensional Aptitude Battey Test


CFA.

1.3.2 Manfaat Penelitian

Ada dua manfaat yang dapat diambil dari penelitian ini, yaitu

manfaat secara teoritis dan empiris. Secara teoritis, manfaat hasil

penelitian ini adalah untuk :

1. menambah khasanah ilmu pengetahuan tentang differential item

functioning dan metode untuk mendeteksinya; dan

2. menambah pengetahuan pembaca tentang cara menganalisis item,

mendeteksi differential item functioning, dan metode yang paling

sensitif dan efektif untuk mendeteksi DIF baik menurut pendekatan

IRT, logistic regression, mau pun pendekatan CFA. Sehingga menjadi

stimulus untuk mendorong perkembangan metode pendeteksian DIF

yang lebih akurat

Secara empiris manfaat hasil penelitian ini adalah sebagai berikut.

1. Bagi para psikolog terapan sebagai pengguna dari alat psikologi yang

juga bertanggung jawab dalam hasil suatu tujuan assessment, dapat

digunakan sebagai masukan dalam penerapan atau penggunaan alat tes

psikologi tersebut di masa yang akan datang, agar dapat memperoleh

gambaran yang sebenarnya dari assessment tersebut.

11

2. Bagi para tester yang menangani masalah pengadministrasian suatu

alat tes, dapat digunakan sebagai bahan masukan tentang bagaimana

pengadministrasian tes mempengaruhi hasil dari suatu rangkaian

assessment.

3. Hasil penelitian ini dapat dijadikan sebagai bahan pertimbangan oleh

para pembuat item tes psikologi sehingga bias item dapat dihindari

sejak dini.

1.4 Sistematika Penulisan

BAB 1 : Pendahuluan

Dalam bab ini akan dibahas mengenai latar belakang

masalah, perumusan dan pembatasan masalah, tujuan dan

manfaat penelitian, dan sistematika penulisan.

BAB 2 : Landasan Teori

Dalam bab landasan teori ini akan dipaparkan teori

mengenai Differential Item Functioning (DIF), teori

mengenai metode deteksi DIF dengan pendekatan IRT,

teori mengenai metode deteksi DIF dengan Logistic

Regression, teori mengenai metode deteksi DIF dengan

pendekatan CFA, Multidimensional Aptitude Battery Test

sebagai item penelitian, penelitian yang relevan, dan

hipotesis penelitian.

12

BAB 3 : Metode Penelitian

Dalam bab metode penelitian ini akan dibahas mengenai

sampel sumber informasi, instrumen penelitian, tekhnik

pengumpulan data, prosedur penelitian, kriteria item yang

baik, dan perangkat lunak yang digunakan.

BAB 4 : Hasil Penelitian

Dalam bab empat ini, akan dibahas mengenai analisis

hasil uji validitas konstruk dengan pendekatan CFA, hasil

deteksi DIF yang menggunakan pendekatan IRT, hasil

deteksi DIF yang menggunakan Logistic Regression, hasil

deteksi DIF yang menggunakan CFA.

BAB 5 : Kesimpulan dan Saran

Dalam bab lima ini akan dipaparkan tentang kesimpulan

dan saran dari hasil penelitian.

13

BAB 2

LANDASAN TEORI

Dalam bab landasan teori ini akan dibahas mengenai teori Differential

Item Functioning (DIF), deteksi DIF menurut pendekatan Item Response Theory

(IRT), deteksi DIF menurut metode Logistic Regression (LR), deteksi DIF

menurut metode Confirmatory Factor Analysis (CFA), penelitian yang relevan,

dan Hipotesis.

2.1 Differential Item Functioning (DIF)

Sebelum membahas metode-metode deteksi Differential Item

Functioning (DIF), terlebih dahulu akan disampaikan tentang pengertian

DIF, jenis bias, dan DIF berdasarkan faktor jenis kelamin.

2.1.1 Pengertian DIF

Dalam IRT, kondisi ketidakadilan dalam suatu pengukuran disebut

sebagai fungsi diferensial. Ketika fungsi diferensial terjadi pada tingkat

item maka hal itulah yang disebut dengan Differential Item Functioning

(DIF). DIF merupakan cara yang paling umum untuk mendeteksi bias

item. Definisi yang diberikan oleh ahli psikometri tentang DIF adalah jika

individu yang memiliki tingkat kemampuan yang sama dalam kelompok

yang berbeda, mempunyai peluang yang berbeda dalam menjawab item

14

tersebut (Hambleton et al., 1991). Dengan kata lain, jika sebuah item

menunjukkan adanya DIF, maka fungsi repons item tersebut tidak sama

dalam kelompok yang berbeda. Menurut Anastasi dan Urbina (1997),

suatu item dikatakan mengandung DIF apabila item tersebut ditempuh

oleh dua kelompok atau lebih yang memiliki kemampuan sama, tetapi

menunjukkan probabilitas sukses yang berbeda dalam menjawab butir

tersebut. Hal senada juga disampaikan oleh Angoff (dalam Holland &

Wainer, 1993) :

“An item is biased if equal able (or proficient) individuals, from

difference groups, do not have equal probabilities of answering the item

correctly”.

Berdasarkan definisi di atas, DIF adalah pengkonsolidasian seluruh

prosedur untuk memastikan bahwa sifat metrik item bersifat tetap di

seluruh sampel populasi. DIF dapat diuji dengan membandingkan fungsi

karakteristik item dari dua kelompok atau lebih. Kesalahan pengukuran

secara sistematis ini menurut teori tes klasik akan berdampak negatif

terhadap hasil pengukuran, karena secara konsisten mempengaruhi skor

individu yang disebabkan oleh suatu karakteristik pribadi yang tidak

sesuai dengan konstruk yang diukur (Crocker & Algina, 1986).

Mengidentifikasi DIF biasanya dilakukan dengan uji signifikansi

untuk menentukan apakah item berfungsi berbeda untuk tiap testee dalam

setiap kelompok. Analisis terhadap DIF adalah membandingkan item pada

15

kedua kelompok yang memiliki tingkat kemampuan yang sama. Dalam

analisis DIF, kelompok yang memiliki testee paling sedikit disebut dengan

kelompok focal, sedangkan kelompok yang memiliki testee paling banyak

adalah kelompok reference. Oleh karena itu, menurut Zumbo (1999)

sangat penting dilakukan analisis DIF sebagai uji empiris lebih lanjut pada

item yang berpotensi DIF, sehingga item yang diidentifikasi sebagai DIF

dapat ditindak lanjuti dengan memodifikasi atau membuang item tersebut.

Menurut Camilli dan Shepard (1994), kesalahan statistik dan

multidimensionalitas item merupakan dua faktor utama yang

menyebabkan item-item mengandung DIF, sehingga item tersebut tidak

mengukur dengan tepat sifat-sifat yang hendak diukur. Untuk melihat

keberfungsian suatu item, diperlukan suatu metode yang tepat sehingga

memberikan banyak petunjuk tentang sifat-sifat seseorang yang

diharapkan dapat tercermin dengan baik dalam skor item. Oleh karena itu

digunakan pendekatan Item Response Teory (IRT).

Menurut Drasgow (dalam Embretson&Reise, 2000), para peneliti

harus dapat membedakan antara dua jenis bias. Bias eksternal terjadi

ketika adanya perbedaan korelasi antara test skor dengan variabel nontes

untuk di dua atau lebih kelompok dari peserta tes. Sedangkan bias internal

dapat dilakukan dengan cara membandingkan probabilitas keberhasilan

testee dari berbagai kelompok dalam populasi yang sama. Dengan

demikian, dapat disimpulkan bahwa suatu item dikatakan tidak bias

16

apabila probabilitas keberhasilan pada suatu item tes adalah sama untuk

setiap kelompok.

Jelaslah bahwa terjadinya DIF bukan hanya disebabkan oleh

adanya perbedaan skor antara dua kelompok saja namun bisa juga terjadi

karena kemampuan yang berbeda dari testee tersebut. Sebagai contoh,

mahasiswa psikologi di suatu universitas sering melakukan skoring tes

nonproyektif secara berkala. Karena seringnya mahasiswa terlibat dalam

penskoringan alat tes tersebut, maka mereka mampu menjawab benar

setiap pertanyaan-pertanyaan yang berkaitan dengan bagian-bagian subtes

tersebut. Hal ini tidak berarti bahwa pertanyaannya mengandung DIF,

tetapi lebih disebabkan adanya perbedaan dalam pengusaan bahan.

Selain itu, ciri lain dari DIF tersebut adalah tes tersebut tidak

mengandung unsur rasisme atau hal negatif lainnya yang dapat

menyinggung pihak-pihak tertentu sehingga dapat menghalangi tujuan dari

pengukuran tersebut sehingga skor yang dihasilkan dalam pengukuran

tidak menunjukkan gambaran kemampuan testee yang sebenarnya.

2.1.2 Jenis Bias

Berdasarkan pengelompokannya, jenis bias dapat di bagi

berdasarkan lingkup dan berdasarkan titik kajian. Berdasarkan lingkup,

maka bias di bagi berdasarkan item ataupun tes itu sendiri. Sedangkan

berdasarkan titik kajian, maka bias dapat di menjadi dua, yaitu eksternal

dan internal.

17

a. DIF dan DTF

Pada penjelasan di atas, telah dijelaskan tentang item bias atau

yang lebih sering disebut sebagai Differential Item Functioning (DIF),

sedangkan bias tes lebih kepada bias yang ada pada tes atau kumpulan-

kumpulan dari item-item tes tersebut, yang lebih sering disebut dengan

Differential Test Functioning (DTF).

b. Bias eksternal dan Bias internal

Bias eksternal dan bias internal ini merupakan jenis bias yang

dilihat berdasarkan atas titik perhatian kajian. Jika bias tersebut dikaji

pada seperangkat tes maka dapat dikatakan bias eksternal (Camilli &

Shepard, 1994). Jika terjadi ketidakadilan dalam suatu alat tes terhadap

testee yang memiliki kemampuan yang sama pada kelompok yang

berbeda, maka hal itulah disebut dengan bias eksternal. Sehingga fokus

bias eksternal terletak pada validitas prediktif.

Selain bias eksternal, terdapat juga bias internal. Menurut Camilli

dan Shepard (1994) bias internal ini sangat berkaitan dengan

pengembangan tes. Bias item karena faktor internal dapat terjadi

apabila kajian difokuskan pada komponen item (bentuk item, materi

item, kalimat dan kata-kata yang digunakan, gambar, petunjuk atau

clue, dan obyek atau stimulus yang digunakan dalam item

dimungkinkan untuk menyaring item tes yang bias pada saat tes

18

sedang dikembangkan sehingga menghasilkan tes yang berkualitas

baik.

2.1.3 DIF Berdasarkan Faktor Jenis Kelamin

Salah satu hal yang mempengaruhi terjadinya bias item adalah

fakor jenis kelamin. Perbedaan pola pikir dan pandangan antara laki-laki

dan perempuan yang memiliki kemampuan sama dapat menyebabkan

perbedaan probabilitas yang tidak sama untuk menjawab benar suatu item

tes. Meskipun mereka duduk di kelas yang sama, membaca buku yang

sama, mendengarkan guru yang sama, anak laki-laki dan perempuan

menerima pendidikan yang berbeda. Hal ini sesuai dengan yang

diungkapkan Jones, dkk (2000) dalam The American Association of

University Women yang membahas tentang ketidaksamaan gender di

dalam kelas. Dalam artikel tersebut dijelaskan bahwa anak perempuan

menerima perhatian dari guru yang lebih sedikit dibandingkan dengan

anak laki-laki. Selain itu juga, anak perempuan sering memperoleh

kritikan pada tugas yang diselesaikan tanpa menghargai kebersihan,

kerapihan, dan ketepatan pengumpulan pekerjaan tersebut. Anak

perempuan juga sering ragu dalam memulai serta meragukan kemampuan

mereka sendiri sehingga partisipasinya didalam kelas rendah akibatnya

percaya diri dan prestasi belajarnya juga rendah. Sebaliknya, anak laki-laki

sering mendapat pujian untuk jawaban yang cerdas dan kemampuan

bagus. Meskipun ada perbedaan perlakuan tersebut, Sadler (1994)

19

mengatakan bahwa anak perempuan memperoleh hasil pencapaian belajar

yang lebih baik dari pada anak laki-laki.

Dalam suatu penelitian di Coloumbia dengan menggunakan alat tes

yang sudah baku, O’neil (2000) mengatakan bahwa anak perempuan

mengungguli laki-laki di semua tingkat membaca dan menulis, sedangkan

laki-laki dan perempuan memiliki kemampuan yang hampir sama pada

matematika dan sains. Pebedaan kemampuan antara laki-laki dan

perempuan ini terkadang bukan hanya semata-mata dikarenakan alat tes

yang digunakan, tetapi juga disebabkan karena perbedaan perlakuan dan

pengalaman antara laki-laki dan perempuan. Hal senada juga diungkapkan

oleh Linn&Petterson (1985) yang mengatakan bahwa laki-laki memiliki

kemampuan yang lebih dalam bidang spasial dibandingkan dengan

perempuan.

Hyde (2005) meneliti tentang pengaruh perbedaan gender dalam

bidang kemampuan kognitif, komunikasi verbal atau non verbal, sosial

atau karakteristik kepribadian, psychological well-being, motorik, moral

dan konstruk lainnya. Hasilnya menunjukkan bahwa perbedaan

kemampuan kognitif antara laki-laki dan wanita, 78% berada pada rentang

yang sangat kecil atau mendekati nol. sedangkan, antara laki-laki dan

perempuan memiliki kemampuan spasial yang berbeda.

Feingold (1988) juga mengatakan bahwa perempuan memiliki

kemampuan bahasa dan ejaan yang lebih baik daripada laki-laki.

20

Sementara itu, Hyde dan Linn (1988) dan diperkuat juga oleh Hedges dan

Nowell (1955) mengatakan bahwa perempuan lebih baik dalam

kemampuan pemahaman dan kosakata.

Penjelasan di atas menyimpulkan bahwa sangat wajar jika laki-laki

dan perempuan berbeda dalam menyikapi dan memberikan jawaban

terhadap suatu tes yang diberikan kepadanya meskipun memiliki

kemampuan yang sama, akan tetapi tidak menutup kemungkinan

probabilitas menjawab benar di kedua kelompok tidak sama. Dan hal

tersebut inilah yang disebut dengan differential item function berdasarkan

faktor jenis kelamin.

2.2 Deteksi Differential Item Functioning (DIF) Menurut Pendekatan

Item Response Theory (IRT)

Pelanggaran asumsi unidimensionalitas dan ketidakadilan suatu tes

terhadap suatu kelompok yang memiliki kemampuan yang sama, bisa

menjadi suatu indikasi yang tepat bahwa item tersebut dikatakan bias.

Oleh karena itu, ketimpangan skor tersebut haruslah dihindari serta

memerlukan deteksi bias yang tepat sehingga dapat dilakukan koreksi dan

pengambilan keputusan apakah item yang terdeteksi bias tersebut dapat

dirubah atau bahkan dibuang dari tes tersebut.

Dalam dunia pengukuran saat ini, terdapat dua buah grand theory

yang sedang berkembang yaitu Classical Test Theory (CTT) dan Item

Response Theory (IRT). Dalam Classical Test Theory (CTT) memiliki

21

banyak keterbatasan-keterbatasan, maka dikembangkan metode Item

Response Theory (IRT) yang juga berguna untuk mengatasi keterbatasan-

keterbatasan dalam CTT. Banyaknya keterbatasan-keterbatasan dalam

CTT tersebut, maka metode deteksi bias yang paling tepat dalam

mendeteksi bias adalah metode yang berdasarkan pada pendekatan Item

Response Theory (IRT). Item Response Theory (IRT) adalah teori tes yang

menggambarkan model hubungan respon item dengan konstruk yang

diukur oleh tes. Oleh karena itu, IRT adalah suatu metode yang terus

berkembang dalam pengembangan tes atau instrumen pengukuran yang

juga berguna untuk mengatasi keterbatasan-keterbatasan dalam Classical

Test Theory (CTT).

2.2.1 Pengertian Item Response Theory

Menurut Embretson dan Reise (2000) selama beberapa dekade

terakhir Classical Test Theory (CTT) telah menjadi mainstream dalam

pengukuran psikologi dan pendidikan. Akan tetapi, dalam

perkembangannya CTT yang dikenal selama ini memiliki kelemahan yaitu

group dependent dan item dependent yang kemudian menjadi

permasalahan dalam pengembangan tes dan instrumen pengukuran

(Hambleton dkk., 1991). Oleh karena itu hasil pengukuran tergantung

kelompok testee yang mengerjakan tes (group dependent). Sehinga jika tes

diujikan pada kelompok testee dengan kemampuan tinggi, tingkat

kesulitan item tes akan rendah. Sebaliknya, jika tes diujikan kepada

22

kelompok testee dengan kemampuan rendah, tingkat kesulitan item akan

tinggi. Selain itu, hasil pengukuran tergantung dari tes mana yang hendak

diujikan (item dependent). Jika tes yang diujikan mempunyai tingkat

kesulitan tinggi, estimasi kemampuan testee relatif akan rendah.

Sebaliknya, jika tes yang diujikan mempunyai tingkat kesulitan rendah,

estimasi kemampuan testee relatif akan tinggi. Keterbatasan dan

kelemahan dari CTT ini tentunya memunculkan konsep baru tentang

pengembangan alat tes. Oleh karena itu dikembangkanlah suatu teori baru.

Teori ini dikenal dengan nama Item Response Theory (IRT).

Konsep dari IRT sebenarnya adalah mencoba membangun suatu

model yang dapat menghubungkan parameter item dan parameter testee.

Oleh karena itu, ciri item dan ciri testee ini dihubungkan oleh suatu model

yang berbentuk fungsi atau lengkungan grafik dengan sejumlah syarat

tertentu. Parameter item dalam IRT mencakup: parameter daya beda item

(ai), tingkat kesukaran (bi), dan indeks menebak atau peluang guessing (ci).

Sedangkan parameter kemampuan (θ) merupakan variabel yang tidak

dapat diamati (unobservable) atau latent trait dari testee.

Menurut hambleton dkk (1991), secara umum ciri-ciri dari IRT itu

adalah sebagai berikut :

1. Karakteristik item tidak tergantung pada testee

2. Skor yang digambarkan oleh testee tidak tergantung pada tes

23

3. Model lebih menekankan pada item daripada tes

4. Model tidak mensyaratkan secara ketat adanya tes parallel, karena

tidak ada penaksiran reliabilitas

5. Sebuah model yang tepat untuk mengukur tingkat kemampuan.

2.2.2 Asumsi dalam Item response theory (IRT)

Dalam IRT, diasumsikan masing-masing testee yang merespon

sebuah item tes memiliki sejumlah underlying ability, sehingga masing-

masing juga memiliki nilai angka (skor) yang menempatkannya pada suatu

titik tertentu pada skala kemampuan.

Pada dasarnya IRT dikembangkan atas dasar dua postulat yaitu :

1. Performansi testee pada suatu item dapat diprediksikan oleh satu faktor

yang disebut laten trait.

2. Hubungan performansi testee pada suatu item dan perangkat

kemampuan laten yang mendasarinya digambarkan oleh fungsi

monotonic dalam kurva Item Characteritic Curve (ICC) karena

meningkatnya θ dan probabilitasnya bervariasi pada kontinum θ

(ability/proficiency) (Hambleton., et al, 1991).

Selain itu, Menurut Hambleton dan Swaminathan (1985) asumsi

dasar dari IRT adalah (1) unidimensional yang artinya adalah bahwa

dimensi karakter testee yang diukur oleh suatu tes itu adalah sama, dan (2)

24

local independent yang artinya bahwa apabila kemampuan-kemampuan

yang mempengaruhi kinerja suatu tes dianggap konstan maka respon testee

terhadap setiap item secara statistik tidak saling terkait, sehingga dapat

dikatakan bahwa setiap parameter sifatnya invarian.

Menurut Embretson dan Reise (2000) asumsi dari IRT itu adalah:

1. Masing-masing item memiliki bentuk kurva karakteristik item (Item

Characteristic Curve/ICC) tertentu. Hal ini sering disebut dengan

unidimensionalitas. Ketika terjadi pelanggaran dalam asumsi

unidimensionalitas, maka akan mengakibatkan tidak diketahuinya

kontribusi dari setiap komponen terhadap jawaban testee.

2. Local independent.

Dalam asumsi ini dikatakan bahwa skor yang diperoleh testee tidak

dipengaruhi oleh jawaban soal lainnya.

2.2.3 Item Characteristic Curve (ICC)

Pada awalnya, teori respon item menggunakan distribusi normal,

namun dalam perkembangan selanjutnya digunakan model distribusi

logistik. Hal ini sesuai dengan pernyataan Embretson dan Reise (2000)

yang mengatakan bahwa distribusi yang biasa digunakan adalah distribusi

logistik, distribusi normal, ataupun distribusi logistik yang mendekati

distribusi normal.

25

Oleh karena itu, diasumsikan bahwa berapapun besarnya

kemampuan (θ), dapat diukur pada skala yang mempunyai titik tengah 0,

dengan unit pengukuran 1, dengan rentang negatif tak terhingga sampai

dengan positif tak terhingga (-∞ ≤ θ ≤ ∞).

Dengan adanya unit pengukuran dan sebuah titik angka tengah 0

yang dapat dijadikan acuan jarak, dapat diketahui kemampuan (θ) yang

dimiliki seseorang dan kemampuan beberapa orang yang akan

dibandingkan. Untuk mengukur suatu kemampuan (θ), dapat dilakukan

dengan cara mengembangkan sebuah tes yang terdiri dari item-item, yang

mana item-item tersebut mengukur beberapa dari kemampuan tertentu.

Oleh karena itu, item-item tersebut hendaknya bersifat free respon

sehingga testee dapat menuliskan berbagai respon yang dikehendakinya.

Tester dapat memberikan skor 1 jika benar, dan 0 jika salah.

Masing-masing testee yang memberikan respon pada sebuah item

diasumsikan memiliki sejumlah underlying ability. Sehingga masing-

masing testee mendapatkan skor dari masing-masing item secara terpisah.

Hal ini sesuai dengan konsep dasar IRT yang menekankan pada item-item

tes secara sendiri-sendiri, bukan pada skor tes yang merupakan akumulasi

dari respon item yang bersama-sama. Dengan demikian, masing-masing

juga memiliki nilai angka, skor, yang dapat ditempatkan pada suatu titik

tertentu pada skala kemampuan (θ). Yang mana pada setiap tingkat

kemampuan sepanjang skala kemampuan (θ), akan terdapat probabilitas

26

tertentu dimana seorang testee dengan kemampuan tersebut akan

memberikan sebuah jawaban benar pada item, yang biasa disimbolkan

dengan P (θ).

Pada testee yang memiliki kemampuan rendah, nilai probabilitas

ini akan bernilai kecil, sebaliknya jika testee memiliki kemampuan tinggi,

maka probabilitas akan bernilai besar. Jika P (θ) di plot sebagai fungsi

kemampuan, hasilnya akan membentuk kurva S. Probabilitas menjawab

benar akan mendekati 0 pada level kemampuan terendah, sedangkan pada

tingkat kemampuan tertinggi probabilitas menjawab benar akan mendekati

1. Kurva tersebut menggambarkan hubungan antara probabilitas menjawab

benar dengan item dan skala kemampuan, sehingga setiap item dalam tes

akan memiliki satu ICC. Pada dasarnya ICC terdiri dari tingkat kesukaran

(b) yang menggambarkan kinerja item sepanjang skala kemampuan yang

sering disebut juga sebagai indeks lokasi serta daya beda (a) yang

menggambarkan sejauh mana sebuah item mampu membedakan antara

testee yang memiliki kemampuan di bawah lokasi item dan testee yang

memiliki kemampuan di atas lokasi. Tingkat kesukaran (b) dan daya beda

(a) ini yang disebut sebagai parameter-parameter sebuah item (dalam

model 2 parameter) yang secara umum mempengaruhi bentuk ICC.

27

Kemampuan

Gambar 2.1 Kurva ICC (b= 0; a=1)

Dari gambar 2.1, dapat dilihat kecuraman atau stepness ICC pada

bagian tengah. Ketika kurva makin curam, berarti item tersebut makin

mampu membedakan. Sebaliknya, jika item kurang mampu membedakan

probabilitas menjawab benar pada tingkat kemampuan rendah dan tingkat

kemampuan tinggi, maka kurva akan makin datar.

Dari penjelasan gambar 2.1, dapat disimpulkan bahwa ICC adalah :

1. Sebuah kurva yang menggambarkan hubungan antara perubahan trait

level dan perubahan probabilitas menjawab benar;

2. Sebuah kurva yang berbentuk seperti huruf S, yang menggambarkan

probabilitas menjawab benar dalam fungsi monoton terhadap

peningkatan skala kemampuan. Perbedaan masing-masing ICC terletak

pada lokasinya (b) dan kemiringannya (a).

28

2.2.4 Local Independent

Menurut Hambleton, et al (1991) local independen adalah jika

kemampuan dianggap konstan, pola respon testee (Xis) pada berbagai

pasangan item adalah independen. Dengan kata lain, local independent ini

akan dicapai jika hubungan antar item dan kemampuan testee dapat

dijelaskan oleh model. Untuk pemahaman lebih lanjut, akan diilustrasikan

sebagai berikut : Jika pola respon seorang testee pada 4 item adalah

(1,1,1,0,), maka asumsi local independent untuk masing-masing pola

respon X1s=1, X2s=1, X3s=1, X4s=0 dapat diuraikan menjadi:

P(X1s=1,X2s=1,X3s=1,X4s=0|θ)=P(X1s=1|θ)P(X2s=1|θ)P(X3s=1|θ)P(X4s=0|θ)

=P1 P2 P3 Q4 ………………………………………… (1)

Dimana;

Pis = P(Xis = 1|θ) dan Qis = 1 – Pis

Local independent juga berhubungan dengan jumlah variabel laten

yang berbeda yang mendasari performansi item. Embretson dan Reise

(2000) juga menyatakan bahwa local independent dapat dicapai jika

probabilitas menjawab benar sembarang item i [Prob (Xis = 1)] independen

dari hasil sembarang item yang lain i, dengan mengontrol parameter

kemampuan testee (θs) dan parameter item (ξi) sehingga tidak ada

hubungan antar item yang tersisa, dapat disimpulkan sebagai berikut:

29

Prob (Xis = 1|Xis, ξi, θs) = Prob (Xis = 1| ξi, θs)

Dari penjelasan diatas, dapat disimpulkan bahwa local independent

merupakan bukti unidimensionalitas jika IRT mengandung parameter-

parameter testee hanya pada satu dimensi saja. Dengan kata lain, selain

faktor kemampuan testee, tidak ada hubungan atau keterkaitan respon butir

antara butir satu dengan butir lainnya. Dalam local independent, ada 2

(dua) ketentuan:

1. Tes tersebut hanya mengukur testee yang memiliki tingkat

kemampuan yang sama.

2. Asumsi local independent menyatakan secara tidak langsung

bahwa item bebas secara statistik untuk testee pada tingkat

kemampuan tertentu (Hambleton et al, 1991).

2.2.5 Model-Model Dalam IRT

Ada beberapa cara pengelompokan model dalam IRT. Ada model

yang dibagi berdasarkan konstrak yang dikembangkan, berdasarkan pola

respon, dan berdasarkan asumsi distribusi yang digunakan.

Menurut Embretson dan Reise (2000) ada dua model IRT jika

dilihat berdasarkan konstrak yang dikembangkan dan mendasari sebuah

tes, yaitu:

30

1. Model unidimensional

Suatu tes dikatakan unidimensi jika hanya ada satu laten trait yang

dianggap mampu untuk mengukur kemampuan testee.

2. Model multidimensional

Suatu tes dikatakan multidimensional jika terdapat lebih dari satu trait

atau terdapat lebih dari dua faktor yang saling berkorelasi antar item.

Kemudian Embretson dan Reise (2000) juga membagi dua model

tes berdasarkan pola respon yang diberikan oleh testee, yaitu:

1. Model dikotomus

Dalam model dikotomus ini, pola respon hanya mempunyai skor 1

untuk jawaban benar, dan skor 0 untuk jawaban salah. Biasanya,

model dikotomus ini digunakan pada item bentuk pilihan ganda, benar-

salah, dan menjodohkan.

2. Model politomus

Pada model politomus, pola respon mempunyai kategori skor lebih

dari satu. Biasanya model politomus ini dapat ditemukan dalam skala

likert atau item tes yang berbentuk uraian.

31

Selanjutnya Embretson dan Reise (2000) mengungkapkan bahwa

pembagian suatu model IRT dapat juga dilihat berdasarkan asumsi

distribusi yang digunakan, yaitu:

1. Model logistik

Model logistik ini merupakan suatu model yang mendasarkan pada

fungsi distribusi logistik.

2. Model ogive normal

Model ogive normal adalah model yang mendasarkan pada fungsi

distribusi normal. Distribusi logistik ini akan mendekati distribusi

normal jika standar deviasi distribusi logistik adalah 1.7.

Jika dilihat berdasarkan beberapa sudut pandang penggolongan

model-model IRT tersebut, maka item-item dalam tes pada penelitian ini

dapat disebut juga sebagai item-item yang bersifat dikotomus serta

unidimensional. Sedangkan dari sudut pandang asumsi, maka model yang

digunakan adalah model logistik. Sehingga secara umum, model logistik

dapat dirumuskan sebagai berikut :

……………………………………… (2)

Dalam hal ini : j = 1, 2, 3, …… n

Pj (θ) = peluang menjawab benar dari testee dengan kemampuan (θ)

32

bj = parameter tingkat kesukaran item j

n = jumlah item dalam tes

e = bilangan transendental yang harganya 2,718

D = adalah nilai konstanta yang dapat diatur agar model logistik sama

dengan model ogive normal.

Berikut akan dijabarkan persamaan model logistik dari masing-

masing persamaan logistik, yaitu :

1. Model logistik 1 (satu) parameter

Dalam model 1PL ini, seiring dengan bertambahnya kemampuan,

maka peluang menjawab benar juga akan mengalami peningkatan (bi),

titik perubahan paling ekstrem terjadi pada saat P(Xis=1|θs, bi)= 0.5.

oleh karena itu, pada model ini nilai daya beda (ai) adalah konstan dan

sama dengan 1 untuk seluruh item, sedangkan pada parameter peluang

menjawab benar (bi) mempunyai nilai yang berbeda untuk tiap

itemnya. Dapat dijelaskan melalui persamaan matematis model logistik

1 (satu) parameter sebagai berikut :

............................................... (3)

33

Untuk :

Pi(θ) = Peluang menjawab benar dari testee yang memiliki

kemampuan (θ) menjawab butir i secara benar.

bi = parameter kesukaran item i.

e = bilangan transendental, yang nilainya 2.718.

D = Parameter tambahan yang dapat diatur agar model logistic

sama dengan model ogive normal, dan untuk 1P dapat diambil

1.

2. Model logistik 2 (dua) parameter

Model logistik 2 (dua) parameter ini menggunakan dua parameter,

yaitu parameter kesukaran butir (bi) dan daya beda item (ai).

Hambleton et al (1991) menyatakan bahwa persamaan matematis

model logistik 2 (dua) parameter ini dapat diuraikan sebagai berikut :

………………………… (4)

Untuk:

Pi(θ) = Peluang menjawab benar dari testee yang memiliki

kemampuan (θ) menjawab butir i secara benar.


34

ai = daya beda item i.


D = nilai konstanta agar model logistik mendekati model ogive

normal. Dengan nilai D sama dengan 1,7.

3. Model logistik 3 parameter

Pada model logistik 3 parameter, selain memiliki peluang

menjawab benar dan daya beda, model ini juga melibatkan guessing.

Testee diasumsikan dapat menjawab benar suatu item dengan

menggunakan strategi yang tidak berkaitan dengan kemampuan

(Camili&Shepard, 1994). Menurut Embretson dan Reise (2000), tes

pilihan ganda adalah salah satu bentuk tes yang cocok dengan model

logistik 3 parameter ini. Dalam penerapannya, pada tes pilihan ganda

ini akan selalu ada kemungkinan seseorang untuk menebak jawaban.

Model logistik 3 (tiga) parameter ini dapat diuraikan dalam bentuk

persamaan berikut ini :

…………. (5)

Dimana:

Pi(Xis │θs, bi, ai, ci) = Peluang menjawab benar dari testee yang

memiliki kemampuan (θ) menjawab butir i secara benar.

35


ai = daya beda item i.

ci = guessing (peluang tebakan) item i.


D = nilai konstanta agar model logistik mendekati model ogive

normal. Dengan nilai D sama dengan 1,7.

2.2.6 Estimasi Parameter Item

Hal yang penting untuk dilakukan sebelum pengaplikasian IRT

adalah dengan mengestimasi parameter-parameter yang digunakan. Oleh

karena itu, para ahli matematika telah mengembangkan sejumlah metode

yang sifatnya umum untuk mengestimasi parameter dalam suatu model.

Dari estimasi parameter ini nantinya akan dapat ditentukan fungsi-fungsi

yang menggambarkan probabilitas menjawab benar pada item tertentu.

Parameter-parameter item dalam model IRT diestimasi dengan

menggunakan metode maximum likelihood.

Crocker dan Algina (1986) mengatakan bahwa paling tidak ada dua

prosedur estimasi parameter yang umum digunakan, yaitu : maximum

likelihood dan approximate procedures. Sedangkan Hambleton et al

(1991) mengatakan bahwa ada 6 (enam) prosedur dalam estimasi

parameter ini, yaitu:

36

1. Joint Maximum Likelihood (JML).

Prosedur estimasi ini dapat digunakan untuk model logistik satu, dua,

dan tiga parameter dengan cara mengestimasi parameter testee dan

parameter butir secara simultan.

2. Marginal Maximum Likelihood (MML).


dan tiga parameter dengan cara mengestimasi parameter testee dan

untuk parameter item diintegrasikan.

3. Conditional Maximum Likelihood (CML).

Conditional maximum likelihood (CML) ini hanya dapat digunakan

untuk mengestimasi model logistik dengan satu parameter yaitu

dengan cara mengkondisikan pada banyaknya jawaban yang benar.

4. Joint and Marginal Bayesian Estimation.


dan tiga parameter dengan menggunakan means atau median dari

distribusi yang telah ada sebelumnya.

5. Heuristic Estimation.

Pada prosedur heuristic estimation ini hanya dapat digunakan untuk

model logistik dua dan tiga parameter dengan cara mengestimasi

37

dengan menggunakan prosedur lainnya yang tidak ditentukan terlebih

dahulu.

6. Method Based on Nonlinear Factor Analysis.

Dengan menggunakan kuadrat kecil di dalam analisis faktor maka

prosedur ini mampu untuk mengestimasi parameter. Akan tetapi,

prosedur ini dapat digunakan pada model logistik dua parameter,

sedangkan untuk model logistik tiga parameter dapat dilakukan dengan

memodifikasi parameter guessing menjadi fixed.

Dalam penelitian ini prosedur estimasi yang digunakan adalah

dengan menggunakan marginal maximum likelihood (MML). Menurut

Embretson dan Reise (2000) metode ini memiliki beberapa kelebihan,

yaitu:

1. Dapat diaplikasikan untuk semua tipe model-model IRT, termasuk

yang bersifat multidimensional.

2. Efisien dan konsisten untuk tes baik panjang maupun pendek.

3. Estimasi standar error item merupakan pendekatan yang tepat dari

variasi dari varian.

4. Estimasi dapat dilakukan meskipun terdapat testee yang menjawab

benar semua untuk setiap item soal.

38

5. Selanjutnya hasil estimasi ini juga dapat digunakan untuk uji

hipotesis dan indikasi fit.

Embretson dan Reise (2000) mengatakan bahwa pada tingkat

kemampuan tertentu (θq), peluang menjawab benar dari sebuah pola

respon dapat dihitung dari model dasar IRT. Peluang menjawab benar ini

lebih dikenal dengan probabilitas pola respon marginal. Hal ini dapat

dilihat dari model persamaan berikut ini :

……………………………. (6)

Untuk :

P(Xis) = Peluang menjawab benar testee S terhadap i item.

Xis = pola respon testee S pada sejumlah i item

θs = tingkat kemampuan testee

ξ = parameter item

Q = peluang jawaban salah (Q= 1-P)

Selanjutnya dalam Bock dan Mislevy (1994) menjelaskan bahwa

pola respon observed variabel dalam sampel random dari populasi [P(Xp)]

atau yang sering dikenal dengan gaussian quadrature formula itu

berhubungan dengan:

39

1. Peluang menjawab benar suatu pola respon (θq)

2. Peluang menjawab benar berdasarkan tingkat kemampuan [P(θq)]

3. Penjumlahan diskrit tingkat kemampuan yang dimulai dari q sampai

dengan Q.

2.2.7 Pemilihan Model

Dalam pendekatan IRT pemilihan model yang tepat sangatlah

penting. Model yang dipilih harus fit dengan data yang dikumpulkan. Uji

kecocokan model ini dapat dilakukan dengan melakukan pemeriksaan

pada aspek-aspek tertentu. Menurut Hambleton dan Swaminathan (1985)

untuk menilai apakah sebuah model sudah cocok dengan data bisa dilihat

dari hasil pemeriksaan terhadap asumsi model, invariansi, dan keakuratan

prediksi model. Dalam penelitian ini akan digunakan model 1PL sehingga

kita dapat menguji parameter b pada masing-masing item tanpa

memperhitungkan parameter a dan guessing. Sehingga perhitungan

estimasi bias item dilakukan dengan memasukan parameter b kedalam

rumus χ2, berikut adalah rumus untuk menghitung bias item berdasarkan

pendekatan IRT dengan model 1 PL :

……………………………………………………………… (7)

Dimana :

40

Χ2 = Chi-square

diffb = selisih parameter b pada kelompok perempuan dan kelompok laki-

laki;

vara = varian pada parameter a;

varb = varian pada parameter b; (Hambletom, Swaminathan, dan Rogers,

1991)

Selanjutnya hasil perhitungan χ2

tersebut dibandingkan dengan χ2

tabel dengan df=2, P (0.05) yaitu 5.99. jika χ2hitung ≥

χ

2tabel maka dapat

dikatakan bahwa item tersebut mengandung DIF.

2.2.8 Fungsi Informasi

Suatu tes dikatakan baik apabila dapat memberikan informasi yang

paling banyak. Oleh karena itu penting dalam penelitian ini untuk

menghitung fungsi informasi masing-masing item. Dalam teori respon

item dikenal dua macam fungsi informasi, yakni fungsi informasi item

untuk item, dan fungsi informasi tes untuk tes, yang nilai nya merupakan

total dari tiap-tiap nilai informasi item. Nilai suatu informasi tes akan

maksimum apabila tingkat kesukaran tes sesuai dengan kemampuan yang

hendak diukur.

Hambleton & Swaminathan (1985) mengungkapkan beberapa

kegunaan dari hasil perhitungan suatu fungsi informasi, yaitu:

41

1. Sebagai langkah awal dalam konstruksi suatu alat tes

2. Membantu dalam memilih item-item yang baik

3. Membantu menilai presisi atau tidaknya suatu pengukuran

4. Dapat membandingkan sejumlah tes

5. Sebagai Penskoran dan dapat membantu dalam

membandingkan berbagai metode penskoran.

Letak grafik fungsi informasi akan bergeser mengikuti perubahan

tingkat kesukaran dari suatu item tes. Dapat disimpulkan bahwa fungsi

informasi ini sangat bergantung pada parameter item.

Bentuk informasi tes berupa kurva yang persamaannya ditulis

sebagai berikut :

…………………………………………………………………………………… (8)

Dimana :

I (θ) = fungsi informasi tes yang terdiri dari n item

Ii (θ) = nilai fungsi informasi item ke i ( Hambleton dkk, 1991)

Fungsi informasi item pada model logistik berdasarkan pada

peluang jawaban benar Pi (θ) dan peluang jawaban salah Qi (θ) = 1- Pi (θ),

sehingga dapat disimpulkan menjadi :

42

……………………………………………………………………………... (9)

Jika harga c = 0 seperti halnya dalam penelitian ini, maka

digunakan model 2 parameter logistik. Dari rumus (9), dapat diturunkan

menjadi rumus berikut ini :

……………………………………………... (10)

2.3 Deteksi Differential Item Functioning (DIF) Menurut Metode Logistik

Regression (LR)

Swaminathan dan Roger (1990) mengungkapkan bahwa prosedur

logistic regression (LR) juga dapat menunjukkan bahwa item tersebut

terdeteksi DIF. Jika kurva RL sejajar untuk dua kelompok, maka dapat

dikatakan tidak terjadi interaksi antar dua kelompok dengan tingkat

kemampuan testee. Demikian pula sebaliknya, jika terjadi interaksi antara

tingkat kemampuan testee dengan dua kelompok tersebut, maka hal itu

menunjukkan adanya DIF.

Persamaan statistik dari logistic regression ini didasarkan pada

persamaan regresi linear, dengan Y bersifat kontinu yaitu:

Y = α + βX atau 0 1 Y = β + β X…………………………………………… (11)

Dari persamaan diatas, dapat dikembangkan menjadi suatu

persamaan statistik logistic regression dimana peluang menjawab benar

43

item tes berdasarkan “status keanggotaan” nya, sehingga persamaan

logistic regression dari tingkat kemampuan testee pada kedua kelompok

tersebut, dapat ditunjukkan sebagai berikut :

………………………………………………………… (12)

Dapat juga diformulasikan dalam bentuk skala logit berikut ini:

………………………………………………………………….. (13)

Di mana :

Pj (θ) = Peluang menjawab benar dengan tingkat kemampuan (θ)

tertentu.

X = Raw scores tes untuk testee j

β0 = nilai intercept

β1 = nilai b1 untuk raw scores untuk tiap testee

Dalam analisis logistic regression, hasil jawaban tiap-tiap item

biner dianggap sebagai dependent variable, sedangkan “status

keanggotaan” merupakan variabel dummy, untuk total raw score dianggap

sebagai karakteristik dari testee, dan interaksi antara “status keanggotaan”

dan laten dianggap sebagai independen variabel. Oleh karena itu, dapat

44

disimpulkan bahwa deteksi DIF dengan metode logistic regression di

dasarkan atas hubungan antara hasil jawaban testee dengan raw score.

2.3.1 Asumsi Dasar Metode Logistic Regression

Menurut Zumbo (1999) ada beberapa asumsi dasar metode Logistic

Regression. Asumsi-asumsi dasar tersebut adalah :

1. Peluang menjawab benar suatu item mengikuti fungsi logistik,

sehingga variabel dependen dan variabel independen tidak

diasumsikan sebagai suatu hubungan linier antar keduanya.

2. Variabel dependen harus dalam bentuk dikotomi, sehingga hanya ada

dua kategori.

3. Variabel independen tidak harus dalam bentuk interval, terdistribusi

normal, atau hubungan linear, maupun varian yang sama dalam setiap

kelompok.

4. Tes tersebut unidimensional

5. Kemampuan testee dinyatakan dalam skor total (raw score) yang

diperoleh dari testee dari seluruh item soal dengan menganggap setiap

item tes mempunyai bobot yang sama

6. Setiap testee dapat dikelompokkan ke dalam satu dan hanya satu

kelompok, yaitu kelompok fokal dan reference.

45

2.3.2 Prosedur Analisis Metode Logistic Regression

Peluang menjawab benar suatu item tes dapat diuraikan dalam

bentuk logistik berikut ini (Swaminathan & Rogers, 1990):

…………………………………………... (14)

Atau dapat juga diformulasikan dengan nilai odds ratio sebagai berikut:

…………………………………………………………………………………………… (15)

Dengan P (U=1) menyatakan peluang testee menjawab benar suatu

item tes tertentu. Menurut Swaminathan & Rogers (1990) dalam metode

logistic regression ini yang dicari adalah perbedaan antar kelompok (yang

menyatakan adanya DIF uniform) dan interaksi antara keanggotaan

kelompok dan kemampuan testee (yang menyatakan DIF tidak uniform)

dengan (L) merupakan fungsi logistik item. Dalam metode logistic

regression ini untuk mengestimasi bias item dapat dilakukan dengan cara

membandingkan nilai selisih chi-square kedua tahap dengan chisquare

table, dalam hal ini chi-square tabel yang digunakan adalah 5,99 dengan

df=2 dan P-Value 0,05. Jika nilai ∆χ²hitung ≥ χ²tabel maka dapat disimpulkan

bahwa item tersebut mengandung DIF. Sedangkan untuk mengetahui

besaran (nilai) DIF tersebut dengan melihat selisih nilai R2

dikedua tahap.

Jika nilai R2

> 0,035 maka DIF dikatakan berada pada skala medium,

46

namun jika nilai R2 > 0,07 maka dikatakan DIF berada skala besar, DIF

dapat diabaikan jika nilai R2

< 0,035 (Jodoin & Gierl, 2001).

2.3.3 Keunggulan dan Kelemahan Metode Logistic Regression

Menurut Embretson & Reise (2000) metode logistic regression

merupakan metode berdasarkan teori tes klasik yang cukup populer selain

dari teori Mantel Haenszel dan metode SIBTES. Karena metode logistic

regression ini berdasarkan pada pendekatan teori tes klasik, maka dalam

analisisnya menggunakan raw score sebagai trait dari kemampuan (ability)

seseorang.

Akan tetapi metode logistic regression ini memiliki beberapa

keuntungan, seperti yang diungkapkan oleh Zumbo (1999) yang

mengatakan bahwa ada beberapa keuntungan menggunakan logistic

regression sebagai metode deteksi DIF bila dibandingkan metode-metode

Mantel Haenszel dan metode SIBTES, yaitu:

1. Tidak perlu mengkategorikan variabel kriteria.

2. Dapat mendeteksi DIF model uniform dan model non-uniform

3. Dapat menggeneralisasi hasil model regresi logistik untuk skor biner

pada skor butir ordinal.

47

2.4 Deteksi Differential Item Functioning (DIF) Menurut Metode

Confirmatory Factor Analysis (CFA)

Pada awalnya, teori analisis faktor dikemukakan oleh Spearman

(1940), yang mengatakan bahwa didalam analisis faktor tersebut terdapat

dua metode analisis, yaitu: Exploratory Factor Analysis (EFA) dan

Confirmatory Factor Analysis (CFA).

Confirmatory Factor Analysis (CFA) merupakan metode analisis

faktor yang lebih modern. Karena dalam metode CFA, dapat diketahui

beberapa informasi mengenai jumlah faktor, variabel yang mencerminkan

suatu faktor dan faktor-faktor yang saling berkorelasi (Thompson, 2004).

Terkadang CFA sering digunakan untuk mendeteksi secara akurat

kontribusi dan interaksi berbagai variabel yang diperkirakan merupakan

sumber bias. Manfaat lain dari penggunaan CFA adalah setiap dimensi

dapat diuji satu persatu, begitupun juga dengan validitas dari masing-

masing item juga dapat diuji dan digambarkan dalam matriks korelasi

CFA. Sedangkan dalam estimasi bias dengan menggunakan metode IRT

tidak dapat dilakukan secara simultan.

Menurut Muthen dan Cristofferson harga parameter pada analisis

faktor dapat ditransformasikan menjadi parameter IRT ( dalam Umar,

2001). Adapun rumus transformasi tersebut adalah sebagai berikut :

……………………………………………………………….. (16)

48

Dimana untuk :

= daya beda item ke i

= tingkat kesulitan item ke i dalam model ogive normal IRT

= muatan faktor (koefisien regresi) atau parameter kualitas

item ke i

= Tingkat kesulitan item ke i

Ψ = Varian dari error measurement pada item ke i

Estimasi bias item yang dilakukan dengan membandingkan

parameter τ ataupun parameter λ dari dua kelompok. Dengan demikian

bias item merupakan fungsi threshold seperti halnya dalam pendekatan

IRT. Dapat disimpulkan bahwa bias item dapat pula diteliti dengan

menggunakan Confirmatory Factor Analysis (CFA) seperti halnya pada

IRT.

Menurut Umar (2011) logika dasar CFA dapat dijelaskan sebagai

berikut:

1. Sebuah trait berupa kemampuan (θ) yang didefinisikan secara

operasional sehingga dapat disusun pertanyaan atau pernyataan untuk

mengukurnya. Kemampuan ini disebut faktor. Sedangkan pengukuran

49

terhadap faktor ini dilakukan melalui analisis terhadap pola respon atas

suatu item.

2. Setiap item diteorikan hanya mengukur atau memberi informasi

tentang satu faktor tertentu saja (unidimensionalitas), sehingga model

ini juga tepat ketika menguji unidimensionalitas sebagai salah satu

asumsi dasar dalam mendeteksi DIF.

3. Dengan menggunakan data yang tersedia, model ini dapat

memprediksi matrik korelasi antar item yang seharusnya akan

diperoleh jika teori tersebut bersifat unidimensional dengan

menggunakan persamaan matematis sebagai berikut:

S - ∑ = 0

Oleh karena itu melalui persamaan tersebut, dikatakan bahwa matrik S

harus sama dengan matrik ∑, sehingga asumsi unidimensionalitas

dalam IRT dapat terpenuhi.

4. Selanjutnya dilakukan uji signifikansi dengan Chi Square. Jika Chi

Square yang dihasilkan tidak signifikan (nilai P>0.05) maka dapat

dikatakan bahwa asumsi unidimensionalitas tidak ditolak.

5. Jika model fit, langkah selanjutnya adalah dengan menguji hipotesis

tentang signifikan atau tidaknya masing-masing item. Uji hipotesis ini

dilakukan dengan menggunakan t-test. Jika nilai t signifikan, berarti

50

item tersebut signifikan dalam mengukur apa yang hendak diukur

(validitas item).

2.4.1 Model Penelitian Uji Validitas Confirmatory Factor Analysis (CFA)

Untuk menguji validitas konstruk untuk setiap item tes maka

digunakan CFA. Dengan asumsi bahwa item tes merupakan observed

variabel dan variabel dimensi tes psikologi merupakan laten variabel.

Apabila setiap item merupakan muatan faktor dari masing-masing subtes

yang ada dalam tes MAB, maka item-item tersebut merupakan indikator

dari tes MAB, dengan kata lain item valid untuk mengukur dimensi tes

MAB tersebut.

Gambar 2.2 Model hipotesis untuk menguji validitas konstruk dengan

metode CFA

Gambar lingkaran (Y) pada gambar merupakan variabel laten

(dimensi dari MAB). Gambar segi empat (X) merupakan observed

variabel, yaitu item tes (X1 sampai dengan Xn). Arah panah yang menuju

ke segi empat merupakan muatan faktor item tes (λ). Model penelitian ini

51

juga digunakan untuk menguji validitas konstruk dan unidimensionalitas

masing-masing item tes.

2.4.2 Model Penelitian Deteksi DIF Dengan Metode Confirmatory Factor

Analysis (CFA)

Pada model ini pendekatan CFA digunakan untuk menguji DIF.

Model dasar dari model ini adalah model penelitian pertama. Pada model

ini, dimensi tes psikologi pada kelompok perempuan dan kelompok laki-

laki dalam kondisi sama. Selanjutnya estimasi bias dilakukan dengan cara

membandingkan muatan faktor dari setiap item yang ditempuh oleh

kelompok perempuan dan kelompok laki-laki dengan mengkondisikan λ1

= λ2 dan matrik γ

1 = γ

2 setelah menguji goodness of fit dari masing-masing

kelompok, sehingga dapat diuji signifikansi perbedaan mean parameter η1

(α1) dan mean parameter η

2 (α

2). Model tersebut dapat dilihat melalui

gambar 2.4 berikut ini:

Gambar 2.3 Model Penelitian untuk menguji DIF dengan metode CFA

52

Selanjutnya, setelah mendapatkan faktor loading dan varian

masing-masing item di kedua kelompok, maka estimasi bias butir dapat

dihitung dengan menggunakan rumus berikut ini :

…………………………………………………………………………………… (17)

Dimana :

t = merupakan indeks bias item;

λ11

= muatan faktor pada item 1 yang dikerjakan oleh kelompok

perempuan

λ12 = muatan faktor pada item 1 yang dikerjakan oleh kelompok laki-

laki

σ2λ1

1 = varian item 1 pada kelompok perempan

σ2λ1

2 = varian item 1 pada kelompok laki-laki

2.5 Multidimensional Aptitude Battery Test Sebagai Instrumen Penelitian

Tes Multidimensional Aptitude Battery (MAB) merupakan salah

satu alat ukur bakat. Tes ini pertama kali di buat oleh Jackson, Ph.D pada

tahun 1967. Akan tetapi awal publikasi dimulai pada tahun 1984.

Kemudian pada tahun 1994 prosedur administrasi tes, norma dan buku tes

di revisi untuk pertama kalinya.

53

MAB adalah tes kelompok yang dirancang untuk menilai bakat dan

inteligensi seseorang. Sesuai dengan tujuan konstruksi, MAB mencakup

lima subtes dalam Skala Verbal dan lima subtes dalam Skala Kinerja

menghasilkan V, P, dan IQ-IQ simpangan Skala Penuh. MAB ini sangat

cocok untuk orang yang berusia di atas 16 tahun, tetapi tidak

direkomendasikan untuk orang-orang yang mentalnya terganggu, yang

kondisinya dapat mempengaruhi pemahaman mereka akan instruksi tes.

Selain untuk mengukur tingkat inteligensi seseorang, MAB ini

dapat digunakan untuk :

1. Mengukur bakat seseorang, sebagai salah satu dari rangkaian

assesement dalam sesi konseling pendidikan;

2. Penilaian psikologi yang bertujuan untuk mengetahui performa

seseorang dalam bekerja ataupun dalam belajar; dan

3. Penilaian tentang neuropsychological.

Berdasarkan teknik pengadministrasiannya, MAB ini dapat

digunakan dalam assessment, baik secara perorangan maupun

berkelompok (massal).

2.6 Penelitian Yang Relevan

Penelitian tentang DIF telah banyak dilakukan baik di dalam negeri

maupun di luar negeri. Berkaitan dengan pendeteksian Differential Item

54

Functioning (DIF) dapat ditampilkan penelitian Stark et al., (2006) yang

melakukan uji coba dengan data simulasi terhadap model IRT dan CFA.

Studi ini dilakukan pada item dikotomus dan politomus dengan sebanyak

50 kali replikasi.

Selanjutnya, Benito et al., (2009) juga melakukan uji coba dengan

data simulasi berdasarkan pengaruh banyaknya nomor item dengan regresi

logistik. Simulasi yang dilakukan terdiri atas 3 jenis yaitu 10, 20, dan 40

item soal.

Kartowagiran (2005) melakukan perbandingan berbagai metode

untuk mendeteksi DIF, yaitu metode (1) kurva karakteristik butir (Item

Characteristic Curve=ICC), (2) Chi Square dari Lord, (3) metode luasan

menurut Raju, dan (4) tes kebolehjadian (Likelihood Ratio Test). Hasilnya

adalah bahwa metode Likelihood Ratio Test merupakan metode yang

paling sensitif dalam mendeteksi DIF, disusul kemudian oleh metode ICC,

metode Chi Square dari Lord dan metode luasan menurut Raju.

Siregar (2005) juga melakukan penelitian terhadap faktor eksternal

bias jenis kelamin pada butir tes IPA TIMSS tahun 2003 dengan

menggunakan metode CFA dan metode persamaan struktural (MPS).

2.7 Hipotesis

Dengan memperhatikan landasan teori yang sudah dipaparkan,

maka dapat dirumuskan hipotesis sebagai berikut.

55

“Dalam mendeteksi DIF pada item-item dikotomus pada tes

Multidimensional Aptitude Battery (MAB), pendekatan manakah yang

paling sensitif dalam mendeteksi DIF jika dilihat berdasarkan tingkat

keakuratan dan efektifitas prosedur dengan menggunakan pendekatan Item

Response Theory (IRT), Logistic Regression (LR), dan Confirmatory

Factor Analysis (CFA) ” .

56

BAB 3

METODE PENELITIAN

Hal yang hendak diteliti dalam penelitian ini adalah pendeteksian

Differential Item Functioning (DIF) dengan menggunakan pendekatan IRT, LR,

dan CFA. Dalam bab metodologi penelitian ini akan dibahas mengenai sampel

sumber informasi, instrumen penelitian, teknik pengumpulan data, prosedur

penelitian, kriteria item yang baik, dan perangkat lunak yang digunakan.

3.1 Sampel sumber informasi

Dalam penelitian ini peneliti menggunakan data mentah yang

tersedia. Data yang digunakan merupakan hasil dari rekruitmen karyawan

di Jakarta. Pelaksanaan tes dilakukan pada tahun 2012 dan ditempuh oleh

2041 orang yang terdiri dari 1192 orang laki-laki dan 849 orang wanita.

Karakteristik testee pada data tersebut adalah sebagai berikut:

a. Laki-laki dan wanita yang berusia 22-35 tahun.

b. Tingkat pendidikan minimal Strata-1.

Dengan demikian populasi sumber datanya adalah semua lembar

jawab dari tes tersebut akan digunakan menjadi sampel dalam penelitian

ini setelah melalui proses pembersihan data. Karena penelitian ini

bertujuan untuk mendeteksi bias berdasarkan dari jenis kelamin, maka data

tersebut dibagi menjadi dua kelompok, yaitu kelompok wanita dianggap

57

sebagai kelompok fokal dan kelompok laki-laki dianggap sebagai

kelompok reference.

3.2 Instrumen Penelitian

Dalam penelitian ini digunakan instrumen dari salah satu alat tes

bakat, yaitu Multidimensional Aptitude Battery Test (MAB Test). MAB

mencakup lima subtest dalam skala verbal dan lima subtest dalam skala

kinerja yang memiliki jumlah item sebanyak 336 item, dikarenakan

kesepuluh subtest tersebut mengukur kognisi atau inteligensi dari

seseorang oleh karena itu hasil penilaian test tersebut dapat menghasilkan

skor profile IQ seseorang. Namun karena dalam penelitian ini hanya

berfokus pada item dikotomus saja, maka hanya digunakan lima subtest

dalam skala verbal dan empat subtest dalam skala kinerja sehingga jumlah

item yang dijadikan instrumen dalam penelitian ini sebanyak 301 item.

Hal ini dikarenakan, dalam subtes kedua pada skala kinerja merupakan

subtest picture completion yang mana subtes tersebut bukan termasuk

dalam item dikotomus. Kesembilan subtes tersebut adalah :

1. Subtes pengetahuan umum (information test). 8 menit, skor

maksimal 43.

Tes ini berisi pertanyaan tentang pengetahuan umum yang

bertujuan untuk mengetahui pengetahuan individu, motivasi

untuk mengetahui hal-hal yang baru, serta efektifitas memori

jangka panjang.

Contoh soal:

58

Siapakah Presiden Republik Indonesia yang pertama?

A. Sutan Syahrir

B. Adam Malik

C. Soeharto

D. Soekarno

E. Bung Hatta

2. Subtes pemahaman tentang norma-norma sosial

(comprehension). 7 menit, skor maksimal 28.

Tes ini berisi pertanyaan tentang perilaku sosial yang bertujuan

untuk mengidentifikasi perilaku yang lebih baik secara sosial

dan memberikan alasan hukum dari kebiasaan sosial tertentu.

Contoh soal:

Apakah yang akan anda lakukan jika anda menemukan uang

Rp. 100.000,00 dalam lift di gedung kantor anda?

A. Bersyukur dan menyimpan uang tersebut

B. Membiarkan saja dan terus berjalan

C. Menyimpan uang tersebut dan memberikan nama serta

alamat kepada pengawas gedung yang mungkin diperlukan

jika ada laporan kehilangan uang

D. Membelanjakan uang tersebut secepat mungkin sebelum

orang mengetahuinya.

E. Membagikan keuntungan tersebut dengan para tetangga.

59

3. Subtes kemampuan berhitung (aritmatic). 9 menit, skor

maksimal 27.

Tes ini berisi pertanyaan tentang suatu latihan bilangan

aritmatic yang membutuhkan penjumlahan, pengurangan,

perkalian, atau pembagian seluruh bilangan yang bertujuan

untuk mengetahui penalaran dan kemampuan memecahkan

masalah.

Contoh soal:

Jika harga satu apel Rp. 100,00, berapakah harga tiga apel?

A. 150 C. 900 E. 500

B. 100 D. 300

4. Subtes kemampuan logika bahasa (similarities). 7 menit, skor

maksimal 32.

Tes ini berisi pasangan-pasangan kata dari suatu objek yang

saling berhubungan.

Contoh soal:

Apakah persamaan antara kentang dan ketela pohon?

A. Keduanya ditanam di dataran tinggi

B. Keduanya tergolong kelompok umbi-umbian

C. Keduanya berwarna kuning

D. Keduanya merupakan tumbuhan dari daerah pantai

E. Harga kentang lebih mahal daripada harga ketela pohon

60

5. Subtes perbendaharaan kata (vocabulary). 6 menit, skor

maksimal 46.

Tes ini berisi pertanyaan tentang perbendaharaan sejumlah kata

untuk mencari kata yang paling mirip dengan kata yang ada

pada item tes.

Contoh soal :

Persamaan kata dari Palsu :

A. Bohong C. Original E. Janji

B. Tidak asli D. Tipu muslihat

6. Subtes kecepatan dan ketelitian (digit symbol). 7 menit, skor

maksimal 35.

Tes ini berisi simbol-simbol yang mewakili suatu bilangan

angka.

Contoh soal :

Λ € ∞ ≈ ╝

1 2 3 4 5

Contoh :

€ ≈

A. 1 6

B. 2 4

C. 3 2

D. 1 5

E. 3 1

61

7. Subtes daya abstraksi (spatial). 9 menit, skor maksimal 50.

Tes ini berisi suatu objek gambar-gambar dua dimensi dalam

posisi yang berbeda-beda.

8. Subtes pemahaman sosial (picture arrangement). 9 menit, skor

maksimal 20.

Tes ini berisi kumpulan-kumpulan gambar yang mempunyai

cerita yang saling berkaitan dari gambar-gambar tersebut

dengan susunan acak, kemudian peserta diminta untuk

mengurutkan gambar-gambar tersebut.

9. Subtes kemampuan analisa sintesa (object assembly). 7 menit,

skor maksimal 20.

Tes ini berisi potongan-potongan gambar dari suatu objek yang

disusun secara acak. Kemudian peserta diminta untuk

menyusun potongan-potongan gambar tersebut sehingga

menjadi satu objek gambar yang utuh.

Testee diminta untuk mengerjakan item pertanyaan sesuai dengan

waktu yang telah disediakan. Jawaban diberikan oleh testee dengan

memilih 5 pilihan jawaban yang telah disediakan di mana di antara pilihan

jawaban tersebut hanya terdapat satu jawaban yang benar. Untuk

penskoran, apabila testee menjawab dengan benar maka akan

mendapatkan skor 1 dan mendapatkan skor 0 apabila menjawab salah.

62

3.3 Tekhnik Pengumpulan Data

Data yang digunakan dalam penelitian ini adalah data sekunder

yang dikumpulkan melalui metode dokumentasi, yaitu dengan cara

menyalin data yang ada. Data yang dikumpulkan adalah jenis kelamin dan

jawaban testee terhadap tes Multidimensional Aptitude Battery Test

(MAB)

3.4 Prosedur Penelitian

Penelitian ini dilaksanakan melalui beberapa tahapan, yaitu :

1. Langkah awal dengan melakukan pengkodean. Apabila sebuah item

tersebut dijawab benar, maka jawaban benar tersebut diberi kode 1

(satu). Jika suatu item dijawab salah, maka diberi kode 0 (nol).

2. Selanjutnya dilakukan pembersihan data sebagai langkah awal sebelum

dilakukan analisis data. Hal ini dimaksudkan untuk meningkatkan

akurasi informasi hasil penelitian. Pembersihan data dilakukan

berdasarkan pada respon tes MAB dengan cara membuang data testee

yang dianggap kurang serius dalam menjawab item tes. testee

dikatakan tidak serius apabila menjawab kurang dari 25% dari seluruh

item tes yang harus dijawab. Sehingga dapat disimpulkan bahwa,

jumlah jawaban yang kurang dari 25% merupakan indikasi dari

ketidakseriusan testee dalam menjawab. Sehingga didapat 1536 orang

peserta yang datanya akan diikutkan dalam analisis selanjutnya dengan

rincian sebagai berikut: 597 orang testee berjenis kelamin perempuan

dan 939 orang testee berjenis kelamin laki-laki.

63

3. Melakukan uji coba penggunaan perangkat lunak yang akan digunakan

yang meliputi program ITEMAN, QUEST, BILOG-MG dan M-PLUS.

4. Menganalisis item dengan pendekatan klasik dengan menggunakan

ITEMAN, dengan melihat rbis item ≥ 0,30, rbis pilihan bernilai negatif

selain kunci dan 0,20 ≤ P ≤ 0,80.

5. Dengan melihat criteria item baik berdasarkan pendekatan klasik,

maka hanya item yang dikatakan baik berdasarkan analisis item

dengan pendekatan klasik yang diikutsertakan lagi dalam analisis

dengan menggunakan pendekatan item respon teori. Hal ini dilakukan

karena BILOG-MG yang menggunakan prosedur Marginal Maximum

Likelihood tidak dapat mengkaliberasi yang jelek atau item yang

dijawab salah semua atau item yang dijawab benar semua oleh testee.

Dari analisis ini diperoleh parameter item, parameter testee, fungsi

informasi tes, dan grafik fungsi informasi tes.

6. Menghitung fungsi informasi item. Sehingga didapat nilai dari fungsi

informasi dari masing-masing item tiap subtes.

7. Menyeleksi item yang baik berdasarkan pendekatan teori butir tes

model 2 parameter logistik yang menggunakan BILOG_MG dengan

melihat nilai a ≥ 0,40, -2,00 ≤ b ≤ 2,00, dan informasi item dengan

skala kemampuan θ yang diambil antara -4,0 dan 4,0 dengan interval

0,25.

8. Menguji validitas konstruk dengan pendekatan CFA. Sehingga

diketahui apakah item-item tersebut merupakan muatan faktor dari

64

MAB. Uji validitas konstruk dilakukan pada data gabungan antara

laki-laki dan perempuan, data kelompok perempuan, dan data

kelompok laki-laki. Apabila dalam perhitungan χ² diperoleh P > 0,05,

maka model tersebut fit dengan data. Artinya, item-item tersebut valid

mengukur MAB. Sehingga didapatlah item yang baik untuk

diikutsertakan dalam analisis selanjutnya.

9. Mendeteksi DIF dengan pendekatan IRT model 1 PL

a. Menghitung harga b, varian dari item-item tiap subtes dengan

data gabungan antara kelompok reference dan kelompok fokal.

b. Mendeteksi bias menurut pendekatan IRT dengan

menggunakan QUEST.

10. Mendeteksi DIF dengan metode Regresi Logistik

a. Menghitung harga a, b, dan nilai log odd ratio dari item-item

tiap subtes dengan data gabungan antara kelompok referensi

dan kelompok fokal.

b. Mendeteksi bias menurut metode regresi logistik tiap-tiap item

berdasarkan “status keanggotaannya” dengan menggunakan

MPLUS.

11. Mendeteksi DIF dengan metode CFA.

a. Menghitung factor loading (λ) dan varian dari tiap-tiap item

tiap subtes dengan data gabungan antara kelompok referensi

dan kelompok fokal dengan menyamakan meanstructure di

kedua kelompok.

65

b. Mendeteksi bias menurut metode CFA tiap-tiap item dengan

menggunakan MPLUS. Prosedur di atas dapat ditampilkan

dalam bentuk diagram pada gambar 3.1.

Gambar 3.1 Diagram Alur Proses Penelitian

3.5 Kriteria Item Yang Baik

1. Analisis Item Empiris Dengan Pendekatan Teori Klasik

Sebelum dianalisis DIF tiap-tiap item pada subtes, item-item tersebut

dianalisis secara kuantitatif dengan menggunakan pendekatan teori

klasik dengan program ITEMAN. Dengan melihat kualitas item

MULAI

DETEKSI DIF

DENGAN IRT 1PL

DETEKSI DIF DENGAN

REGRESI LOGISTIK

DETEKSI DIF

DENGAN CFA

DATA MAB

ANALISIS KLASIK

ITEMAN

ITEM GUGUR

DITOLAK

ANALISIS ITEM

IRT 2PL BILOG-MG

ITEM GUGUR

DITOLAK

MENGHITUNG FI

ITEM SIAP DIDETEKSI DIF

UJI VALIDITAS KONSTRUK DENGAN CFA

Seleksi item

item

Seleksi item

item

66

berdasarkan statistik item yang meliputi tingkat kesukaran dan daya

pembeda. Kualitas tes ditentukan oleh statistik tes yang di antaranya

meliputi rata-rata skor tes, varians dan simpangan baku skor tes,

reliabilitas tes, dan kesalahan baku pengukuran. Statistik item dan

statistik tes diperoleh dari program ITEMAN. Suatu item dikatakan

baik apabila 0,20 ≤ P ≤ 0,80; rbis item ≥ 0,30, dan rbis pilihan bernilai

negatif selain kunci. Jumlah item kategori baik dari item tiap-tiap

subtes berdasarkan teori tes klasik dapat dilihat dalam tabel 3.1.

Tabel 3.1

Hasil Analisis Item MAB Berdasarkan Teori Tes Klasik

NO SUMBER

VARIASI

HARGA / KETERANGAN

V1 V2 V3 V4 V5 P1 P3 P4 P5

1 N of item 43 28 27 32 46 35 50 20 20

2 N of examinees 1536 1536 1536 1536 1536 1536 1536 1536 1536

3 Mean 26.3 15.4 12.3 23.1 20.9 28.9 27.2 11.4 12.9

4 Variance 30.6 8.4 8.8 10.2 17.8 15.7 47.9 5.7 9.5

5 Std. Dev 5.5 2.9 3.0 3.2 4.2 4.0 6.9 2.4 3.1

6 Skew -0.2 0.1 0.7 -0.5 0.5 -0.3 0.2 0.2 -0.3

7 Kurtosis -0.4 -0.3 0.2 0.2 0.1 -0.7 -0.8 -0.1 -0.5

8 Minimun 12.0 8.0 8.0 12.0 13.0 16.0 14.0 6.0 6.0

9 Maximum 41.0 27.0 25.0 31.0 41.0 35.0 44.0 19.0 20.0

10 Median 26.0 15.0 12.0 23.0 21.0 29.0 27.0 11.0 13.0

11 Alpha 0.8 0.5 0.7 0.5 0.6 0.8 0.9 0.5 0.7

12 SEM 2.7 2.1 1.8 2.2 2.8 1.7 2.4 1.7 1.7

13 Mean P 0.6 0.6 0.5 0.7 0.5 0.8 0.5 0.6 0.6

14 Mean Item-tot 0.3 0.2 0.3 0.2 0.2 0.3 0.3 0.3 0.4

15 Mean Biserial 0.4 0.3 0.5 0.4 0.3 0.4 0.5 0.4 0.5

16 N item kategori

baik

25 12 9 16 17 10 18 11 13

67

2. Analisis Item Empiris Dengan Pendekatan Item Response Theory

(IRT)

Selanjutnya item yang dikatakan baik secara klasik tersebut dianalisis

dengan menggunakan pendekatan Item Response Theory (IRT).

Berbeda dengan pendekatan teori klasik, suatu item dikatakan baik

menurut pendekatan IRT apabila a ≥ 0,40; -0,20 ≤ b ≤ 2,00. Dan

kemudian menghitung nilai informasi item tiap-tiap item dari masing-

masing subtes pada skala kemampuan θ antara -4,0 dan 4,0 dengan

interval 0,25. Hasil analisis item dengan menggunakan pendekatan

Item Response Theory (IRT) dapat dilihat pada tabel 3.2 sampai

dengan tabel 3.10.

Tabel 3.2

Parameter Item dan Parameter Testee Subtes Information (V1)

No

Item

SUBTES INFORMATION (V1)

a b Imax χ²

hitung DF P

χ²

kritis KET

1 0.265 1.822 0 8.1 9.0 0.525 16.92 Tidak Baik

2 0.437 -1.379 0.107 10.9 9.0 0.280 16.92 Baik

3 0.490 -0.639 0.162 19.2 9.0 0.024 16.92 Baik

4 0.319 -0.569 0 8.6 9.0 0.479 16.92 Tidak Baik

5 0.592 -1.375 0.162 8.3 9.0 0.508 16.92 Baik

6 0.430 -1.261 0.109 7.1 9.0 0.628 16.92 Baik

7 0.455 -1.022 0.128 11.8 9.0 0.224 16.92 Baik

8 0.384 -0.957 0 5.2 9.0 0.814 16.92 Tidak Baik

9 0.373 -1.793 0 19.1 9.0 0.024 16.92 Tidak Baik

10 0.247 -2.466 0 10.5 9.0 0.312 16.92 Tidak Baik

11 0.323 -1.967 0 8.2 9.0 0.513 16.92 Tidak Baik

12 0.300 -1.392 0 2.2 9.0 0.988 16.92 Tidak Baik

13 0.291 -1.466 0 12.3 9.0 0.196 16.92 Tidak Baik

14 0.524 -0.472 0.190 9.1 9.0 0.433 16.92 Baik

15 0.257 -0.426 0 20.8 9.0 0.014 16.92 Tidak Baik

68

16 0.482 0.250 0.166 15.2 9.0 0.085 16.92 Baik

17 0.484 0.348 0.166 9.2 9.0 0.420 16.92 Baik

18 0.445 0.523 0.138 14.8 9.0 0.097 16.92 Baik

19 0.572 -1.105 0.179 14.9 9.0 0.095 16.92 Baik

20 0.667 -0.740 0.271 14.8 9.0 0.095 16.92 Baik

21 0.498 0.147 0.178 13.2 9.0 0.152 16.92 Baik

22 0.309 2.449 0 10.8 9.0 0.289 16.92 Tidak Baik

23 0.806 0.876 0.334 21.6 7.0 0.003 14.07 Baik

24 0.797 0.048 0.458 22.4 9.0 0.008 16.92 Baik

25 0.699 0.344 0.339 13.8 9.0 0.129 16.92 Baik

Tabel 3.3

Parameter Item dan Parameter Testee Subtes Comprehension (V2)

No

Item

SUBTES COMPREHENSION (V2)

a b Imax χ²

hitung DF P

χ²

kritis KET

1 0.175 -4.562 0 28.9 8.0 0.000 15.51 Tidak Baik

2 0.127 1.522 0 12.0 8.0 0.152 15.51 Tidak Baik

3 0.231 -2.162 0 79.0 8.0 0.000 15.51 Tidak Baik

4 0.168 0.792 0 18.1 8.0 0.021 15.51 Tidak Baik

5 0.218 0.257 0 74.7 8.0 0.000 15.51 Tidak Baik

6 0.283 -0.186 0 124.6 8.0 0.000 15.51 Tidak Baik

7 0.419 0.987 0.112 78.0 7.0 0.000 14.07 Baik

8 0.424 0.477 0.126 111.0 7.0 0.000 14.07 Baik

9 0.705 0.859 0.279 76.1 6.0 0.000 12.59 Baik

10 0.938 1.018 0.350 58.7 6.0 0.000 12.59 Baik

11 0.834 0.908 0.341 31.6 6.0 0.000 12.59 Baik

12 1.420 0.543 0.975 72.5 4.0 0.000 9.49 Baik

Tabel 3.4

Parameter Item dan Parameter Testee Subtes Aritmatic (V3)

No

Item

SUBTES ARITMATIC (V3)

a b Imax χ²

hitung DF P

χ²

kritis KET

1 0.332 -1.392 0 26.1 8.0 0.001 15.51 Tidak Baik

2 0.429 -1.529 0.099 21.8 7.0 0.003 14.07 Baik

3 0.470 -1.816 0.098 32.3 6.0 0.000 12.59 Baik

4 0.502 -1.017 0.152 47.3 7.0 0.000 14.07 Baik

5 0.681 0.323 0.324 33.5 6.0 0.000 12.59 Baik

69

6 0.534 0.255 0.203 18.3 7.0 0.011 14.07 Baik

7 0.912 0.042 0.600 60.9 6.0 0.000 12.59 Baik

8 0.472 1.198 0.129 15.5 7.0 0.030 14.07 Baik

9 0.737 0.724 0.322 32.9 7.0 0.000 14.07 Baik

Tabel 3.5

Parameter Item dan Parameter Testee Subtes Similarities (V4)

No

Item

SUBTES SIMILARITIES (V4)

a b Imax χ²

hitung DF P

χ²

kritis KET

1 0.147 -5.311 0 15.9 9.0 0.068 16.92 Tidak Baik

2 0.234 -3.078 0 35.5 9.0 0.000 16.92 Tidak Baik

3 0.254 -1.866 0 18.5 8.0 0.018 15.51 Tidak Baik

4 0.201 -2.389 0 28.4 8.0 0.000 15.51 Tidak Baik

5 0.209 -3.277 0 41.4 9.0 0.000 16.92 Tidak Baik

6 0.200 -3.755 0 33.1 9.0 0.000 16.92 Tidak Baik

7 0.183 -2.974 0 28.8 9.0 0.001 16.92 Tidak Baik

8 0.183 -0.197 0 48.7 9.0 0.000 16.92 Tidak Baik

9 0.257 2.003 0 45.6 9.0 0.000 16.92 Tidak Baik

10 0.338 -0.145 0 45.9 9.0 0.000 16.92 Tidak Baik

11 0.444 -1.592 0.101 104.0 7.0 0.000 14.07 Baik

12 0.226 0.564 0 47.0 9.0 0.000 16.92 Tidak Baik

13 0.467 -0.556 0.150 73.9 8.0 0.000 15.51 Baik

14 0.425 0.035 0.130 38.8 8.0 0.000 15.51 Baik

15 2.589 -0.860 0.421 24.6 2.0 0.000 5.99 Baik

16 1.018 -0.369 0.677 144.4 6.0 0.000 12.59 Baik

Tabel 3.6

Parameter Item dan Parameter Testee Subtes Vocabulary (V5)

No

Item

SUBTES VOCABULARY (V5)

a b Imax χ²

hitung DF P

χ²

kritis KET

1 0.332 -0.754 0 12.3 8.0 0.139 15.51 Tidak Baik

2 0.323 -1.346 0 20.7 9.0 0.014 16.92 Tidak Baik

3 0.421 1.058 0.111 33.9 8.0 0.000 15.51 Baik

4 0.456 -0.892 0.134 30.6 8.0 0.000 15.51 Baik

5 0.431 -1.780 0.090 32.5 9.0 0.000 16.92 Baik

6 0.417 -0.705 0.118 33.7 9.0 0.000 16.92 Baik

7 0.371 -1.939 0 52.0 9.0 0.000 16.92 Tidak Baik

8 0.352 -1.017 0 15.3 9.0 0.083 16.92 Tidak Baik

70

9 0.259 -0.499 0 14.3 9.0 0.113 16.92 Tidak Baik

10 0.574 0.060 0.238 49.5 7.0 0.000 14.07 Baik

11 0.598 1.326 0.169 38.7 7.0 0.000 14.07 Baik

12 0.255 -1.399 0 13.7 9.0 0.134 16.92 Tidak Baik

13 0.195 1.911 0 4.4 9.0 0.887 16.92 Tidak Baik

14 0.269 2.809 0 16.2 8.0 0.039 15.51 Tidak Baik

15 0.219 3.023 0 8.1 8.0 0.425 15.51 Tidak Baik

16 0.234 3.384 0 8.7 8.0 0.365 15.51 Tidak Baik

17 0.195 3.263 0 6.4 8.0 0.601 15.51 Tidak Baik

Tabel 3.7

Parameter Item dan Parameter Testee Subtes Digit Symbol (P1)

No

Item

SUBTES DIGIT SYMBOL (P1)

a b Imax χ²

hitung DF P

χ²

kritis KET

1 0.726 -1.166 0.236 85.4 7.0 0.000 14.07 Baik

2 1.817 -0.810 0.668 13.4 4.0 0.009 9..49 Baik

3 1.540 -0.549 1.063 131.2 6.0 0.000 12.59 Baik

4 2.468 -0.378 2.483 8.9 4.0 0.064 9.49 Baik

5 4.623 -0.138 11.662 39.2 2.0 0.000 5.99 Tidak Baik

6 2.546 0.028 4.666 47.5 5.0 0.000 11.07 Tidak Baik

7 4.388 0.188 8.817 27.5 3.0 0.000 7.81 Tidak Baik

8 2.557 0.458 1.998 18.6 4.0 0.001 9.49 Baik

9 2.353 0.606 1.196 79.4 4.0 0.000 9.49 Baik

10 1.621 0.686 0.866 74.3 5.0 0.000 11.07 Baik

Tabel 3.8

Parameter Item dan Parameter Testee Subtes Spatial (P3)

No

Item

SUBTES SPATIAL (P3)

a b Imax χ²

hitung DF P

χ²

kritis KET

1 0.316 -2.374 0 40.2 9.0 0.000 16.92 Tidak Baik

2 0.273 -1.641 0 65.5 9.0 0.000 16.92 Tidak Baik

3 0.218 -0.654 0 58.6 9.0 0.000 16.92 Tidak Baik

4 0.300 -1.592 0 44.7 9.0 0.000 16.92 Tidak Baik

5 0.611 -1.391 0.167 168.2 8.0 0.000 15.51 Baik

6 0.570 -0.922 0.193 89.4 8.0 0.000 15.51 Baik

7 0.624 -0.345 0.272 124.9 8.0 0.000 15.51 Baik

8 0.877 -0.145 0.549 67.2 7.0 0.000 14.07 Baik

9 1.056 -0.171 0.787 82.2 7.0 0.000 14.07 Baik

71

10 1.299 -0.040 1.217 30.4 6.0 0.000 12.59 Baik

11 1.335 0.340 1.114 7.8 6.0 0.251 12.59 Baik

12 3.519 -0.245 5.454 1.5 3.0 0.689 7.81 Tidak Baik

13 2.732 -0.115 5.026 11.2 3.0 0.011 7.81 Tidak Baik

14 1.567 0.398 1.356 17.1 6.0 0.009 12.59 Baik

15 1.985 0.087 2.786 7.6 5.0 0.177 11.07 Baik

16 1.700 0.395 1.532 39.8 6.0 0.000 12.59 Baik

17 1.300 0.716 0.691 50.3 6.0 0.000 12.59 Baik

18 1.252 1.056 0.392 25.4 5.0 0.000 11.07 Baik

Tabel 3.9

Parameter Item dan Parameter Testee Subtes Picture Arrangement (P4)

No

Item

SUBTES PICTURE ARRANGEMENT (P4)

a b Imax χ²

hitung DF P

χ²

kritis KET

1 0.229 -3.416 0 63.4 8.0 0.000 15.51 Tidak Baik

2 0.205 -1.508 0 49.5 8.0 0.000 15.51 Tidak Baik

3 0.186 -1.623 0 49.5 8.0 0.000 15.51 Tidak Baik

4 0.211 -1.959 0 67.2 8.0 0.000 15.51 Tidak Baik

5 0.162 -1.695 0 36.0 8.0 0.000 15.51 Tidak Baik

6 0.216 0.825 0 66.7 7.0 0.000 14.07 Tidak Baik

7 0.446 1.191 0.118 97.9 6.0 0.000 12.59 Baik

8 0.402 1.760 0.083 52.5 7.0 0.000 14.07 Baik

9 0.725 1.423 0.191 42.9 5.0 0.000 11.07 Baik

10 1.049 1.054 0.365 70.5 4.0 0.000 9.49 Baik

11 0.785 1.282 0.231 45.2 6.0 0.000 12.59 Baik

Tabel 3.10

Parameter Item dan Parameter Testee Subtes Object Assembly (P5)

No

Item

SUBTES OBJECT ASSEMBLY (P5)

a b Imax χ²

hitung DF P

χ²

kritis KET

1 0.281 -2.953 0 10.7 9.0 0.297 16.92 Tidak Baik

2 0.252 -2.111 0 27.8 9.0 0.001 16.92 Tidak Baik

3 0.325 -2.475 0 12.1 9.0 0.207 16.92 Tidak Baik

4 0.283 -2.966 0 24.8 9.0 0.003 16.92 Tidak Baik

5 0.352 -2.393 0 26.6 9.0 0.002 16.92 Tidak Baik

6 0.306 0.273 0 63.5 8.0 0.000 15.51 Tidak Baik

7 0.525 -0.852 0.173 86.7 8.0 0.000 15.51 Baik

8 0.649 0.301 0.296 41.5 7.0 0.000 14.07 Baik

72

9 0.753 -0.072 0.409 74.9 8.0 0.000 15.51 Baik

10 0.800 0.173 0.456 39.7 8.0 0.000 15.51 Baik

11 1.351 0.727 0.703 37.9 5.0 0.000 11.07 Baik

12 1.219 0.369 0.931 31.0 5.0 0.000 11.07 Baik

13 0.627 1.000 0.216 13.4 8.0 0.098 15.51 Baik

3.6 Perangkat Lunak Yang Digunakan

Untuk menguji sejumlah hipotesis yang diajukan dalam penelitian

ini digunakan empat perangkat lunak, yaitu: (1) ITEMAN, (2) QUEST, (3)

BILOG-MG, (4) MPLUS.

1. Program ITEMAN

ITEMAN diciptakan khusus untuk analisis statistik item soal dan

tes. Program ini dibuat dengan pendekatan analisis statistik item soal

secara klasikal. Hasil dari analisis item tes ini mencakup informasi

mengenai tingkat kesukaran item, daya pembeda item dan statistik sebaran

jawaban. Selain itu, program ini juga menghasilkan statistik tes yang

meliputi reliabilitas tes, kesalahan pengukuran dan distribusi skor. Oleh

karena itu, dalam penelitian ini program ITEMAN digunakan untuk

menganalisis item secara klasik.

2. Program QUEST

Program Quest ini digunakan untuk mendeteksi bias item

berdasarkan pendekatan IRT 1 PL (Rasch model). Penggunaan Quest ini

dikarenakan dalam hasil analisis output yang dikeluarkan langsung

menunjukkan item-item yang terdeteksi DIF, sehingga lebih praktis dan

efisien ketika digunakan.

73

3. Program BILOG-MG

Dalam penelitian ini program BILOG-MG digunakan sebagai alat

bantu analisis item dengan pendekatan IRT. Program ini menggunakan

metode estimasi Marginal Maximum Likelihood (MML) dan metode

estimasi Bayes, yang juga dirancang untuk skor dalam bentuk binary.

Tak hanya itu, menurut Mislevy dan Bock (1990), hasil estimasi

parameter item dengan menggunakan program BILOG-MG cukup stabil

dan akurat, meskipun jumlah item pada tes tersebut sedikit.

4. Program MPLUS

Program ini digunakan untuk menguji validitas konstruk tiap-tiap

subtes, mendeteksi bias dengan regresi logistik dan juga mendeteksi bias

dengan CFA. MPLUS merupakan alat bantu analisis statistik yang

dikembangkan oleh Beng Muthen dan Linda Muthen. Kecanggihan dari

program ini, mampu menganalisis secara linear dan non linear, logistik

dan normal metrik dengan berbagai estimator yang lengkap didalam nya

sehingga memudahkan kita dalam menyesuaikan dengan rancangan

analisis penelitian yang akan kita lakukan. Tak hanya itu program MPLUS

juga dapat mengaplikasikan teori respon butir dengan menggunakan

pendekatan analisis faktor item.

74

BAB 4

HASIL PENELITIAN

Dalam bab hasil penelitian ini akan dibahas mengenai hasil uji validitas

konstruk dengan pendekatan CFA, hasil deteksi bias dengan pendekatan IRT,

hasil deteksi bias dengan pendekatan LR dan hasil deteksi bias dengan pendekatan

CFA.

4.1 Uji Validitas Konstruk Dengan Pendekatan CFA

Pada uji validitas konstruk dilakukan dengan tiga kali uji validitias.

Analisis awal dilakukan pada data gabungan kedua kelompok. Kemudian

dianalisis lagi secara terpisah antara kelompok laki-laki dan perempuan.

Hasil perhitungan χ2

pada kelompok gabungan, kelompok perempuan, dan

kelompok laki-laki dapat dilihat dalam tabel 4.1. Hasil perhitungan tiap

subtes di kelompok gabungan, kelompok perempuan, dan kelompok laki-

laki diperoleh χ2

yang tidak signifikan P > 0.05, sehingga dapat

disimpulkan bahwa model penelitian ini fit (sesuai) dengan data empiris

ketika diujikan dengan data pada kelompok gabungan, kelompok

perempuan dan kelompok laki-laki. Dapat dikatakan bahwa item-item

tersebut merupakan muatan faktor dari masing-masing subtes MAB.

Artinya, item tersebut valid mengukur MAB. Dalam uji model dengan

metode CFA, model penelitian dinyatakan fit (sesuai) apabila χ2

yang

75

diperoleh tidak signifikan (P > 0.05). setelah diperoleh model yang fit,

kemudian dilihat juga muatan faktor masing-masing item, yaitu dengan

melihat nilai P-Value masing-masing item. Dalam hal ini nilai P-Value

masing-masing item digunakan untuk mengetahui apakah muatan faktor

tersebut signifikan atau tidak. Muatan faktor dinyatakan signifikan jika

nilai P-Value < 0.05.

76

Tabel 4.1

Chi-Squares Model Fit Dari Sembilan Subtes Pada Kelompok Gabungan, Kelompok Perempuan, dan Kelompok Laki-laki

MAB KELOMPOK GABUNGAN KELOMPOK PEREMPUAN KELOMPOK LAKI-LAKI

χ² df P-Value CFI TLI χ² Df P-Value CFI TLI χ² df P-Value CFI TLI

V1 92.305 74 0.074 0.996 0.994 107.118 87 0.071 0.981 0.977 92.105 75 0.088 0.994 0.992

V2 11.682 8 0.166 0.997 0.995 7.716 9 0.563 1.000 1.005 10.497 8 0.232 0.997 0.995

V3 17.722 15 0.278 0.998 0.996 26.356 17 0.068 0.977 0.962 19.820 16 0.229 0.995 0.992

V4 9.250 5 0.100 0.997 0.994 10.274 5 0.068 0.987 0.975 4.002 5 0.549 1.000 1.002

V5 13.082 9 0.159 0.988 0.981 9.048 9 0.433 1.000 0.999 7.595 9 0.575 1.000 1.011

P1 2.163 7 0.950 1.000 1.000 4.673 7 0.700 1.000 1.001 1.640 7 0.977 1.000 1.001

P3 33.061 22 0.061 0.999 0.999 32.934 25 0.133 0.998 0.997 31.172 22 0.093 0.999 0.998

P4 7.910 5 0.161 0.995 0.989 6.939 5 0.225 0.991 0.982 2.817 5 0.728 1.000 1.014

P5 16.133 10 0.096 0.998 0.995 17.237 11 0.101 0.994 0.989 20.248 12 0.063 0.995 0.991

77

Meskipun seluruh item tes tersebut telah valid mengukur masing-

masing subtes dalam MAB, namun ditemukan sejumlah item yang muatan

faktornya tidak signifikan dan residual varian yang bernilai negatif. Hal

tersebut ditunjukkan oleh nilai P-Value (P > 0.05) dari masing-masing

item yang diteliti. Berdasarkan hasil analisis data pada kelompok

gabungan ditemukan sebanyak 5 item yang muatan faktornya tidak

signifikan ataupun memiliki residual varian yang bernilai negatif. Yaitu

dalam subtes V4, item no 4 yang nilai residual varian bernilai negatif (-

0.141) Dalam subtes V5, item no. 5 (P = 0.381). Dalam subtes P1 item no

4 juga memiliki nilai residual varian bernilai negatif (-0.058). Dan dalam

subtes P3 ada 2 item yang tidak signifikan, yaitu item no. 6 (P = 0.168),

dan item no. 9 (P = 0.059).

Berdasarkan hasil analisis pada kelompok perempuan ditemukan

sebanyak tiga item, yaitu dalam subtes V4 ada satu item yang residual

varian bernilai negatif, yaitu item no. 4 (-0.118). dalam subtes P3

ditemukan dua item yang memiliki muatan faktor yang tidak signifikan

yaitu item no.3 (P = 0.347) dan no.5 (P = 0.967). Sedangkan pada

kelompok laki-laki ditemukan sebanyak dua item yang memiliki nilai

residual varian bernilai negatif. Yaitu dalam subtes V4 item no.4 (-0.101)

dan subtes P1 item no.4 (-0.015). Hasil perhitungan muatan faktor (λ),

kesalahan standar (SE), P-Value, dan residual varian hasil analisis

persubtes MAB berdasarkan kelompok gabungan, kelompok perempuan,

78

dan kelompok laki-laki dapat dilihat pada tabel 4.2 sampai dengan tabel

4.10.

Dengan demikian dapat disimpulkan bahwa sekalipun keseluruhan

item yang diteliti valid mengukur masing-masing subtes dalam MAB,

namun ditemukan sebanyak 7% item tes yang muatan faktor nya tidak

signifikan dan residual varian bernilai negatif ketika diujikan pada

kelompok gabungan, 4% item tes yang muatan faktornya tidak signifikan

dan residual varian bernilai negatif ketika diujikan pada kelompok

perempuan, dan 3% item tes yang muatan faktornya tidak signifikan dan

residual varian bernilai negatif ketika diujikan pada kelompok laki-laki.

79

Tabel 4.2

Hasil Uji Validitas Dengan Metode CFA Dari Subtes V1 MAB

No

Item

KELOMPOK GABUNGAN KELOMPOK PEREMPUAN KELOMPOK LAKI-LAKI

λ SE P-Value Residual

Variance Λ SE P-Value

Residual

Variance λ SE P-Value

Residual

Variance

1 0.362 0.039 0.00 0.869 0.377 0.059 0.00 0.858 0.361 0.049 0.00 0.869

2 0.406 0.035 0.00 0.835 0.423 0.056 0.00 0.821 0.412 0.043 0.00 0.831

3 0.488 0.037 0.00 0.761 0.527 0.056 0.00 0.723 0.451 0.049 0.00 0.797

4 0.281 0.041 0.00 0.921 0.247 0.061 0.00 0.939 0.387 0.051 0.00 0.850

5 0.413 0.036 0.00 0.830 0.307 0.061 0.00 0.906 0.453 0.043 0.00 0.795

6 0.490 0.034 0.00 0.760 0.387 0.058 0.00 0.850 0.538 0.041 0.00 0.711

7 0.457 0.033 0.00 0.791 0.395 0.056 0.00 0.844 0.482 0.040 0.00 0.768

8 0.462 0.035 0.00 0.786 0.397 0.056 0.00 0.842 0.461 0.041 0.00 0.787

9 0.425 0.034 0.00 0.820 0.399 0.056 0.00 0.841 0.415 0.042 0.00 0.828

10 0.411 0.042 0.00 0.831 0.497 0.061 0.00 0.753 0.585 0.048 0.00 0.658

11 0.607 0.033 0.00 0.631 0.571 0.054 0.00 0.674 0.651 0.041 0.00 0.576

12 0.469 0.034 0.00 0.780 0.410 0.056 0.00 0.832 0.504 0.040 0.00 0.746

13 0.594 0.034 0.00 0.647 0.479 0.059 0.00 0.770 0.670 0.035 0.00 0.551

14 0.564 0.033 0.00 0.681 0.579 0.050 0.00 0.665 0.618 0.037 0.00 0.618

15 0.615 0.032 0.00 0.621 0.600 0.051 0.00 0.640 0.602 0.037 0.00 0.638

80

Tabel 4.3


No

Item


λ SE P-Value

Residual


Residual


Residual

Variance

1 0.337 0.041 0.000 0.887 0.325 0.063 0.000 0.894 0.341 0.053 0.000 0.884

2 0.375 0.040 0.000 0.859 0.333 0.063 0.000 0.889 0.394 0.051 0.000 0.844

3 0.599 0.037 0.000 0.641 0.618 0.053 0.000 0.618 0.570 0.048 0.000 0.675

4 0.706 0.036 0.000 0.501 0.678 0.052 0.000 0.541 0.706 0.047 0.000 0.502

5 0.565 0.043 0.000 0.681 0.583 0.055 0.000 0.660 0.600 0.055 0.000 0.640

6 0.755 0.038 0.000 0.431 0.824 0.049 0.000 0.322 0.746 0.051 0.000 0.443

Tabel 4.4


No

Item


λ SE P-Value

Residual


Residual


Residual

Variance

1 0.282 0.040 0.000 0.920 0.337 0.061 0.000 0.887 0.257 0.053 0.000 0.934

2 0.246 0.044 0.000 0.939 0.404 0.059 0.000 0.836 0.214 0.057 0.000 0.954

3 0.383 0.038 0.000 0.853 0.385 0.059 0.000 0.852 0.416 0.049 0.000 0.827

4 0.589 0.042 0.000 0.653 0.721 0.098 0.000 0.480 0.525 0.047 0.000 0.724

5 0.480 0.037 0.000 0.770 0.335 0.062 0.000 0.888 0.545 0.047 0.000 0.703

6 0.721 0.036 0.000 0.481 0.806 0.071 0.000 0.351 0.713 0.044 0.000 0.491

7 0.445 0.040 0.000 0.802 0.363 0.069 0.000 0.869 0.469 0.050 0.000 0.780

8 0.678 0.040 0.000 0.541 0.560 0.071 0.000 0.687 0.679 0.045 0.000 0.539

81

Tabel 4.5


No

Item




Residual


Residual

Variance

1 0.325 0.040 0.000 0.894 0.432 0.064 0.000 0.813 0.269 0.052 0.000 0.928

2 0.449 0.034 0.000 0.798 0.406 0.059 0.000 0.835 0.473 0.042 0.000 0.776

3 0.408 0.033 0.000 0.833 0.360 0.056 0.000 0.870 0.444 0.041 0.000 0.803

4 1.068 0.041 0.000 -0.141 1.057 0.076 0.000 -0.118 1.049 0.046 0.000 -0.101

5 0.708 0.029 0.000 0.498 0.677 0.052 0.000 0.542 0.738 0.034 0.000 0.455

Tabel 4.6


No

Item




Residual


Residual

Variance

1 0.352 0.048 0.000 0.876 0.454 0.076 0.000 0.794 0.399 0.063 0.000 0.841

2 0.430 0.046 0.000 0.815 0.336 0.078 0.000 0.887 0.459 0.058 0.000 0.789

3 0.335 0.050 0.000 0.887 0.329 0.077 0.000 0.892 0.311 0.066 0.000 0.903

4 0.429 0.047 0.000 0.816 0.515 0.076 0.000 0.735 0.335 0.060 0.000 0.888

5 0.583 0.047 0.381 0.661 0.519 0.079 0.000 0.731 0.589 0.060 0.000 0.653

6 0.545 0.050 0.000 0.702 0.461 0.085 0.000 0.788 0.585 0.064 0.000 0.658

82

Tabel 4.7

Hasil Uji Validitas Dengan Metode CFA Dari Subtes P1 MAB

No

Item




Residual


Residual

Variance

1 0.449 0.059 0.000 0.798 0.689 0.055 0.000 0.525 0.425 0.070 0.000 0.819

2 0.845 0.023 0.000 0.286 0.911 0.032 0.000 0.169 0.891 0.025 0.000 0.206

3 0.849 0.022 0.000 0.280 0.947 0.025 0.000 0.103 0.887 0.025 0.000 0.213

4 1.029 0.021 0.000 -0.058 0.877 0.026 0.000 0.231 1.007 0.023 0.000 -0.015

5 0.685 0.027 0.000 0.531 0.507 0.057 0.000 0.742 0.711 0.033 0.000 0.495

6 0.655 0.030 0.000 0.570 0.522 0.055 0.000 0.728 0.662 0.038 0.000 0.562

7 0.608 0.032 0.000 0.631 0.366 0.065 0.000 0.866 0.678 0.038 0.000 0.540

Tabel 4.8


No

Item




Residual


Residual

Variance

1 0.484 0.036 0.000 0.766 0.388 0.063 0.000 0.849 0.572 0.046 0.000 0.673

2 0.477 0.035 0.000 0.773 0.533 0.049 0.000 0.716 0.451 0.048 0.000 0.797

3 0.524 0.032 0.000 0.726 0.587 0.047 0.347 0.656 0.500 0.042 0.000 0.750

4 0.662 0.027 0.000 0.562 0.660 0.042 0.000 0.565 0.681 0.034 0.000 0.536

5 0.729 0.025 0.000 0.468 0.802 0.033 0.967 0.357 0.724 0.032 0.000 0.475

6 0.902 0.017 0.168 0.186 0.865 0.031 0.000 0.252 0.915 0.020 0.000 0.163

83

7 0.888 0.016 0.000 0.211 0.826 0.035 0.000 0.317 0.897 0.019 0.000 0.195

8 0.735 0.023 0.000 0.460 0.676 0.044 0.000 0.544 0.721 0.030 0.000 0.480

9 0.702 0.024 0.059 0.507 0.616 0.043 0.000 0.621 0.727 0.029 0.000 0.472

10 0.662 0.027 0.000 0.562 0.521 0.052 0.000 0.729 0.701 0.031 0.000 0.509

Tabel 4.9


No

Item




Residual


Residual

Variance

1 0.356 0.045 0.000 0.873 0.382 0.070 0.000 0.854 0.340 0.058 0.000 0.885

2 0.406 0.045 0.000 0.835 0.356 0.073 0.000 0.873 0.439 0.057 0.000 0.807

3 0.579 0.044 0.000 0.665 0.571 0.068 0.000 0.674 0.581 0.058 0.000 0.663

4 0.713 0.044 0.000 0.492 0.700 0.066 0.000 0.510 0.724 0.057 0.000 0.475

5 0.689 0.043 0.000 0.526 0.740 0.066 0.000 0.452 0.658 0.056 0.000 0.567

Tabel 4.10


No

Item




Residual


Residual

Variance

1 0.393 0.039 0.000 0.846 0.469 0.058 0.000 0.780 0.517 0.051 0.000 0.733

2 0.522 0.034 0.000 0.727 0.547 0.052 0.000 0.700 0.497 0.042 0.000 0.753

3 0.600 0.033 0.000 0.640 0.718 0.049 0.000 0.458 0.592 0.040 0.000 0.649

84

4 0.676 0.030 0.000 0.543 0.676 0.050 0.000 0.543 0.673 0.036 0.000 0.547

5 0.793 0.025 0.000 0.371 0.705 0.050 0.000 0.504 0.824 0.032 0.000 0.322

6 0.773 0.026 0.000 0.402 0.709 0.049 0.000 0.498 0.734 0.033 0.000 0.461

7 0.506 0.037 0.000 0.744 0.569 0.054 0.000 0.676 0.425 0.045 0.000 0.819

85

4.2 Hasil Estimasi Bias Jenis Kelamin Dengan Pendekatan IRT 1PL

Berdasarkan analisis dengan menggunakan pendekatan IRT 1 PL

pada 64 item tes yang diteliti ternyata ditemukan 9 item yang mengandung

bias. Hasil perhitungan bias dapat dilihat pada tabel 4.11 sampai dengan

4.19.

4.2.1 Subtes Information (V1)

Dalam hasil perhitungan χ² pada subtes V1 diketahui ada dua item

yang χ²hitung > χ²tabel. Dapat disimpulkan bahwa kedua item tersebut

mengandung bias, yaitu item no 4 (χ²hitung = 7.39), item no 6 (χ²hitung = 5.30)

yang menguntungkan laki-laki daripada perempuan dan item no 8 (χ²hitung

= 12.10) yang menguntungkan perempuan daripada laki-laki. Pada tabel

4.11 dapat dilihat hasil perhitungan χ² pada subtes V1 sebagai berikut:

Tabel 4.11

Hasil Perhitungan χ² Pada Subtes V1 Berdasarkan Pendekatan IRT 1PL

No

Item

Delta Adjusted

Delta Difference χ² p

pr lk pr

(d1)

lk

(d2) d1-d2

d1-d2

(std)

1 -0.86 -0.72 -0.86 -0.72 -0.15 -1.14 1.31 0.25

2 -0.19 -0.29 -0.19 -0.29 0.10 0.82 0.67 0.41

3 -0.94 -1.14 -0.94 -1.14 0.20 1.50 2.25 0.13

4 -0.48 -0.82 -0.48 -0.82 0.34 2.72 7.39 0.01

5 -0.49 -0.56 -0.49 -0.55 0.07 0.56 0.31 0.57

6 0.04 -0.24 0.03 -0.24 0.27 2.30 5.30 0.02

7 0.46 0.55 0.46 0.55 -0.09 -0.73 0.53 0.47

8 0.35 0.76 0.35 0.76 -0.41 -3.48 12.10 0.00

9 0.67 0.75 0.67 0.75 -0.08 -0.70 0.48 0.49

10 -0.77 -0.75 -0.77 0.75 -0.01 -0.09 0.01 0.93

86

11 -0.40 -0.55 -0.40 -0.55 0.14 1.19 1.41 0.24

12 0.37 0.47 0.37 0.47 -0.10 -0.88 0.77 0.38

13 1.47 1.31 1.47 1.31 0.16 1.22 1.49 0.22

14 0.24 0.44 0.24 0.44 -0.21 -1.77 3.15 0.08

15 0.54 0.78 0.54 0.78 -0.24 -2.01 4.02 0.04

4.2.2 Subtes Comprehension (V2)

Dalam hasil perhitungan χ² pada subtes V2 diketahui bahwa

χ²hitung<χ²tabel. Dapat disimpulkan bahwa item-item pada subtes V2 tidak

mengandung bias. Pada tabel 4.12 dapat dilihat hasil perhitungan χ² pada

subtes V2 sebagai berikut:

Tabel 4.12


No

Item

Delta Adjusted

Delta Difference χ² P

pr lk pr

(d1)

lk

(d2) d1-d2

d1-d2

(std)

1 -0.08 -0.17 -0.08 -0.17 0.09 0.67 0.45 0.50

2 -0.55 -0.57 -0.55 -0.57 0.02 0.17 0.03 0.87

3 0.08 0.07 0.07 0.07 0.01 0.05 0.00 0.96

4 0.05 0.44 0.50 0.44 0.06 0.45 0.20 0.65

5 0.15 0.30 0.15 0.30 -0.15 -1.05 1.10 0.29

6 -0.09 -0.05 -0.09 -0.05 -0.04 -0.29 0.08 0.77

4.2.3 Subtes Aritmatic (V3)





87

Tabel 4.13


No

Item

Delta Adjusted


pr lk pr

(d1)

lk

(d2) d1-d2

d1-d2

(std)

1 -1.17 -0.99 -1.17 -0.99 -0.17 -1.29 1.66 0.20

2 -1.37 -1.39 -1.37 -1.39 0.02 0.15 0.02 0.88

3 -0.82 -0.74 -0.82 -0.74 -0.07 -0.56 0.32 0.57

4 0.55 0.45 0.55 0.45 0.10 0.78 0.61 0.43

5 0.39 0.35 0.39 0.35 0.04 0.30 0.09 0.76

6 0.16 0.21 0.16 0.21 -0.05 -0.42 0.17 0.68

7 1.23 1.14 1.23 1.14 0.09 0.64 0.41 0.52

8 1.02 0.97 1.02 0.97 0.05 0.38 0.14 0.70

4.2.4 Subtes Similarities (V4)





Tabel 4.14


No

Item

Delta Adjusted


pr lk pr

(d1)

lk

(d2) d1-d2

d1-d2

(std)

1 -0.61 -0.77 -0.61 -0.77 0.15 1.03 1.06 0.30

2 0.00 0.15 0.00 0.15 -0.15 -1.13 1.29 0.26

3 0.66 0.52 0.66 0.52 0.14 1.05 1.10 0.30

4 -0.05 0.10 -0.05 0.10 -0.14 -1.06 1.12 0.29

88

4.2.5 Subtes Vocabulary (V5)

Pada hasil perhitungan χ² pada subtes V5 diketahui ada dua item

yang χ²hitung > χ²tabel . Dapat diketahui bahwa kedua item tersebut

mengandung bias, yaitu item no 1 (χ²hitung = 28.74) menguntungkan

perempuan daripada laki-laki dan item no 4 (χ²hitung = 6.30)

menguntungkan laki-laki daripada perempuan. Pada tabel 4.15 dapat

dilihat hasil perhitungan χ² pada subtes V5 sebagai berikut:

Tabel 4.15


No

Item

Delta Adjusted


pr lk pr

(d1)

lk

(d2) d1-d2

d1-d2

(std)

1 0.46 1.17 0.45 1.17 -0.72 -5.36 28.74 0.00

2 -0.50 -0.70 -0.50 -0.70 0.20 1.52 2.32 0.13

3 -1.25 -1.26 -1.25 -1.26 0.00 0.03 0.00 0.97

4 -0.24 -0.56 -0.24 -0.56 0.32 2.51 6.30 0.01

5 1.54 1.35 1.54 1.35 0.19 1.25 1.57 0.21

4.2.6 Subtes Digit Symbol (P1)

Pada hasil perhitungan χ² pada subtes P1 diketahui ada satu item

yang χ²hitung > χ²tabel . Dapat diketahui bahwa item tersebut mengandung

bias, yaitu item no 1 (χ²hitung = 6.04) menguntungkan perempuan daripada

laki-laki. Pada tabel 4.16 dapat dilihat hasil perhitungan χ² pada subtes P1

sebagai berikut:

89

Tabel 4.16

Hasil Perhitungan χ² Pada Subtes P1 Berdasarkan Pendekatan IRT 1PL

No

Item

Delta Adjusted


pr lk pr

(d1)

lk

(d2) d1-d2

d1-d2

(std)

1 -2.39 -1.87 -2.39 -1.87 -0.52 -2.46 6.04 0.01

2 -2.13 -2.20 -2.13 -2.20 0.07 0.34 0.12 0.73

3 -1.29 -1.30 -1.29 -1.30 0.01 0.03 0.00 0.97

4 1.54 1.42 1.54 1.42 0.12 0.65 0.43 0.51

5 2.08 1.93 2.08 1.93 0.15 0.74 0.54 0.46

6 2.18 2.01 2.18 2.01 0.18 0.87 0.75 0.39

4.2.7 Subtes Spatial (P3)

Dalam hasil perhitungan χ² pada subtes P3 diketahui bahwa

χ²hitung<χ²tabel. Dapat disimpulkan bahwa item-item pada subtes P3 tidak


subtes P3 sebagai berikut:

Tabel 4.17


No

Item

Delta Adjusted


pr lk pr

(d1)

lk

(d2) d1-d2

d1-d2

(std)

1 -1.59 -1.88 -1.59 -1.88 0.29 1.71 2.92 0.09

2 -1.01 -1.04 -1.01 -1.04 0.02 0.17 0.03 0.87

3 -0.45 -0.24 -0.45 -0.24 -0.21 -1.52 2.32 0.13

4 0.01 0.05 0.01 0.05 -0.04 -0.29 0.08 0.77

5 0.89 0.76 0.89 0.76 0.13 0.89 0.79 0.37

6 0.89 1.03 0.89 1.03 -0.14 -0.93 0.87 0.35

7 0.20 0.36 0.20 0.36 -0.16 -1.16 1.34 0.25

8 1.06 0.95 1.06 0.95 0.11 0.74 0.54 0.46

90

4.2.8 Subtes Picture Arrangement (P4)

Dalam hasil perhitungan χ² pada subtes P4 diketahui bahwa

χ²hitung<χ²tabel. Dapat disimpulkan bahwa item-item pada subtes P4 tidak



Tabel 4.18


No

Item

Delta Adjusted


pr lk pr

(d1)

lk

(d2) d1-d2

d1-d2

(std)

1 -0.41 -0.46 -0.41 -0.46 0.05 0.33 0.10 0.74

2 -0.09 -0.07 -0.09 -0.07 -0.02 -0.13 0.02 0.90

3 0.23 0.27 0.23 0.27 -0.04 -0.29 0.08 0.78

4 0.07 0.12 0.07 0.12 -0.05 -0.33 0.11 0.74

5 0.20 0.14 0.20 0.14 0.07 0.43 0.18 0.67

4.2.9 Subtes Object Assembly (P5)

Pada hasil perhitungan χ² pada subtes P5 diketahui ada tiga item


bias, yaitu item no 3 (χ²hitung = 5.99) menguntungkan perempuan daripada

laki-laki. Sedangkan item no 5 (χ²hitung = 9.42) dan item no 6 (χ²hitung =

5.83) lebih menguntungkan laki-laki daripada perempuan. Pada tabel 4.19

dapat dilihat hasil perhitungan χ² pada subtes P5 sebagai berikut:

91

Tabel 4.19


No

Item

Delta Adjusted


pr lk pr

(d1)

lk

(d2) d1-d2

d1-d2

(std)

1 -1.48 -1.20 -1.48 -1.20 -0.28 -1.87 3.50 0.06

2 0.03 -0.03 0.03 -0.03 0.06 0.43 0.18 0.67

3 -0.67 -0.34 -0.67 -0.34 -0.33 -2.45 5.99 0.01

4 -0.28 -0.04 -0.28 -0.04 -0.24 -1.79 3.22 0.07

5 1.17 0.71 1.17 0.71 0.46 3.07 9.42 0.00

6 0.44 0.12 0.44 0.12 0.33 2.42 5.83 0.02

7 0.79 0.79 0.79 0.79 0.00 -0.01 0.00 0.99

4.3 Hasil Estimasi Bias Jenis Kelamin Dengan Pendekatan Logistic

Regression

Berdasarkan hasil estimasi dengan menggunakan metode logistic

regression, ditemukan sebanyak 11 item yang mengandung bias. Berikut

ini akan dibahas bias item yang ditemukan pada setiap subtes. Hasil

perhitungan analisis bias item berdasarkan metode analisis logistic

regression dapat dilihat pada tabel 4.20 sampai dengan tabel 4.28 sebagai

berikut :


Pada hasil perhitungan χ² pada subtes V1 diketahui ada tiga item


bias, yaitu item no 4 (χ²hitung = 12.762), item no 6 (χ²hitung = 9.784), dan

item no 8 (χ²hitung = 6.308). item no 4 dan 6 lebih menguntungkan laki-laki

92

daripada perempuan. Sedangkan item no 8 lebih menguntungkan

perempuan daripada laki-laki. Pada tabel 4.20 dapat dilihat hasil

perhitungan χ² pada subtes V1 sebagai berikut:

Tabel 4.20

Hasil Estimasi Bias Subtes V1 Berdasarkan Pendekatan Logistic Regression

ITEM Log Likelihood Log Likelihood

χ² R² R²

ΔR² Model 1 Model 2 Model 1 Model 2

1 -874.892 -874.801 0.182 0.083 0.083 0.000

2 -959.555 -958.160 2.790 0.107 0.109 0.002

3 -779.880 -777.810 4.140 0.137 0.142 0.005

4 -893.599 -887.218 12.762 0.092 0.104 0.012

5 -922.828 -921.891 1.874 0.093 0.095 0.002

6 -951.155 -946.263 9.784 0.143 0.152 0.009

7 -983.655 -983.628 0.054 0.119 0.119 0.000

8 -988.068 -984.914 6.308 0.104 0.109 0.005

9 -980.342 -980.232 0.220 0.099 0.100 0.001

10 -846.835 -846.763 0.144 0.143 0.144 0.001

11 -874.754 -873.378 2.752 0.186 0.189 0.003

12 -990.621 -990.616 0.010 0.114 0.114 0.000

13 -794.992 -792.948 4.088 0.251 0.254 0.003

14 -919.088 -917.858 2.460 0.226 0.228 0.002

15 -910.457 -909.042 2.830 0.218 0.220 0.002

4.3.2 Subtes Comprehensin (V2)

Dalam hasil perhitungan χ² pada subtes V2 diketahui bahwa χ²hitung

< χ²tabel. Dapat disimpulkan bahwa item-item pada subtes V2 tidak



93

Tabel 4.21



χ² R² R²


1 -960.584 -960.517 0.134 0.053 0.053 0.000

2 -1006.366 -1006.344 0.044 0.064 0.064 0.000

3 -863.360 -863.344 0.032 0.149 0.149 0.000

4 -744.468 -744.377 0.182 0.209 0.210 0.001

5 -813.196 -812.205 1.982 0.176 0.178 0.002

6 -803.365 -803.263 0.204 0.282 0.282 0.000






Tabel 4.22



χ² R² R²


1 -858.533 -858.494 0.078 0.073 0.073 0.000

2 -762.144 -761.519 1.250 0.098 0.100 0.002

3 -907.915 -907.842 0.146 0.104 0.104 0.000

4 -954.404 -952.754 3.300 0.147 0.150 0.003

5 -995.606 -994.417 2.378 0.097 0.099 0.002

6 -930.129 -930.124 0.010 0.209 0.209 0.000

7 -904.203 -902.014 4.378 0.065 0.069 0.004

8 -884.435 -883.499 1.872 0.158 0.159 0.001

94






Tabel 4.23



χ² R² R²


1 -847.025 -846.753 0.544 0.048 0.049 0.001

2 -999.860 -998.008 3.704 0.058 0.061 0.003

3 -1043.025 -1042.791 0.468 0.034 0.034 0.000

4 -968.458 -966.816 3.284 0.098 0.101 0.003


Pada hasil perhitungan χ² pada subtes V5 diketahui ada empat item


bias, yaitu item no 1 (χ²hitung = 20.370), item no 2 (χ²hitung = 9.814), item no

4 (χ²hitung = 18.446) dan item no 5 (χ²hitung = 7.498). Item no 1, 2, dan 5

lebih menguntungkan perempuan daripada laki-laki, sedangkan item

lainnya, yaitu item no 4 lebih menguntungkan laki-laki daripada

perempuan. Pada tabel 4.24 dapat dilihat hasil perhitungan χ² pada subtes

V5 sebagai berikut:

95

Tabel 4.24



χ² R² R²


1 -961.398 -951.213 20.370 0.034 0.052 0.018

2 -972.609 -967.702 9.814 0.042 0.050 0.008

3 -826.412 -825.283 2.258 0.030 0.032 0.002

4 -1002.074 -992.851 18.446 0.042 0.057 0.015

5 -815.546 -811.797 7.498 0.089 0.098 0.009




bias, yaitu item no 1 (χ²hitung = 18.326) lebih menguntungkan perempuan

daripada laki-laki. Pada tabel 4.25 dapat dilihat hasil perhitungan χ² pada


Tabel 4.25

Hasil Estimasi Bias Subtes P1 Berdasarkan Pendekatan Logistic Regression


χ² R² R²


1 -726.879 -717.716 18.326 0.285 0.297 0.012

2 -503.715 -503.707 0.016 0.692 0.692 0.000

3 -673.079 -672.556 1.046 0.523 0.522 -0.001

4 -586.164 -586.120 0.088 0.645 0.645 0.000

5 -438.245 -438.121 0.248 0.780 0.780 0.000

6 -554.461 -554.144 0.634 0.639 0.639 0.000

96



yang χ²hitung > χ²tabel . Dapat disimpulkan bahwa item tersebut mengandung

bias, yaitu item no 1 (χ²hitung = 8.254) lebih menguntungkan perempuan

daripada laki-laki. Pada tabel 4.26 dapat dilihat hasil perhitungan χ² pada


Tabel 4.26



χ² R² R²


1 -719.625 -715.498 8.254 0.244 0.253 0.009

2 -841.136 -839.286 3.700 0.215 0.219 0.004

3 -905.670 -905.559 0.222 0.218 0.218 0.000

4 -748.485 -748.408 0.154 0.449 0.449 0.000

5 -710.097 -708.046 4.102 0.475 0.478 0.003

6 -706.232 -706.225 0.014 0.471 0.471 0.000

7 -753.746 -753.597 0.298 0.441 0.441 0.000

8 -746.910 -744.123 5.574 0.415 0.418 0.003


Dalam hasil perhitungan χ² pada subtes P4 diketahui bahwa χ²hitung

< χ²tabel. Dapat disimpulkan bahwa item-item pada subtes P4 tidak



97

Tabel 4.27



χ² R² R²


1 -922.557 -922.501 0.112 0.047 0.047 0.000

2 -830.764 -830.751 0.026 0.063 0.063 0.000

3 -709.758 -709.693 0.130 0.127 0.127 0.000

4 -729.649 -729.561 0.176 0.165 0.165 0.000

5 -722.122 -721.993 0.258 0.148 0.149 0.001


Pada hasil perhitungan χ² pada subtes P5 diketahui ada dua item

yang χ²hitung > χ²tabel . Dapat disimpulkan bahwa item tersebut mengandung

bias, yaitu item no 5 (χ²hitung = 16.376) dan item no 6 (χ²hitung = 11.274).

kedua item ini lebih menguntungkan perempuan daripada laki-laki. Pada

tabel 4.28 dapat dilihat hasil perhitungan χ² pada subtes P5 sebagai berikut:

Tabel 4.28



χ² R² R²


1 -922.048 -922.037 0.022 0.115 0.115 0.000

2 -961.437 -959.758 3.358 0.140 0.143 0.003

3 -923.389 -922.124 2.530 0.215 0.217 0.002

4 -901.827 -901.153 1.348 0.240 0.241 0.001

5 -717.934 -709.746 16.376 0.363 0.378 0.015

6 -797.099 -791.462 11.274 0.359 0.367 0.008

7 -848.890 -848.373 1.034 0.155 0.155 0.000

98

4.4 Hasil Estimasi Bias Jenis Kelamin Dengan Pendekatan CFA

Berdasarkan perhitungan χ2 pada kesembilan subtes ternyata

menunjukkan hasil yang tidak signifikan (P ≥ 0.05). Dengan demikian

dapat disimpulkan bahwa kesembilan model penelitian terbukti fit (sesuai)

dengan kesembilan data yang digunakan. Dengan kata lain model

penelitian ini didukung atau sesuai dengan data empiris. Pada tabel 4.29

dapat dilihat hasil perhitungan χ² yang menunjukkan bahwa kesembilan

model penelitian fit dengan kesembilan data yang digunakan.

Tabel 4.29

Model Fit MAB Dengan Menggunakan Pendekatan CFA

MAB χ² df P-Value CFI TLI

V1 179.416 154 0.079 0.992 0.989

V2 26.646 23 0.271 0.997 0.996

V3 37.200 32 0.242 0.995 0.992

V4 6.131 4 0.190 0.989 0.968

V5 17.107 11 0.105 0.961 0.929

P1 16.637 13 0.217 1.000 1.000

P3 9.419 13 0.741 1.000 1.002

P4 10.176 14 0.749 1.000 1.011

P5 26.030 17 0.074 0.996 0.990

Untuk mendapatkan informasi yang lebih valid tentang bias item,

pada analisis kemampuan kedua kelompok dikondisikan sama secara

statistic (αP = αL).

Dalam keadaan ini kemampuan kelompok dibuat sama kemudian

penulis menguji perbedaan λ yang diperoleh dari kelompok perempuan

99

dengan kelompok laki-laki. Artinya, penulis ingin menguji apakah

karakteristik item pada kedua kelompok tersebut berbeda secara

signifikan. Untuk mengetahui perbedaan tersebut dilakukan dengan

menghitung nilai t sesuai dengan rumus (17). Adapun hasil uji bias item

dapat dilihat pada tabel 4.30 sampai dengan tabel 4.38. berikut ini akan

dibahas bias item yang ditemukan pada setiap subtes item.


Berdasarkan analisis dengan metode CFA pada subtes V1

ditemukan 4 item bias, yaitu item no 4 (t = -2.4735), item no 5 (t = -

2.1347), item no 6 (t = -2.4778), dan item no 11 (t = -2.9162). Keempat

item bias ini lebih menguntungkan kelompok laki-laki daripada

perempuan. Hasil perhitungan nilai t pada seluruh item subtes V1 dapat

dilihat pada tabel 4.30.

Tabel 4.30

Hasil Perhitungan Nilai t Subtes V1 Berdasarkan Pendekatan CFA

No

Item λ¹ λ² SE1 SE2 t

1 0.391 0.39 0.047 0.045 0.0154

2 0.415 0.444 0.051 0.043 -0.4347

3 0.449 0.494 0.045 0.043 -0.7230

4 0.252 0.417 0.043 0.051 -2.4735

5 0.329 0.468 0.048 0.044 -2.1347

6 0.369 0.537 0.054 0.041 -2.4778

7 0.381 0.479 0.054 0.041 -1.4454

8 0.518 0.518 0.060 0.044 0.0000

9 0.415 0.413 0.051 0.042 0.0303

10 0.394 0.412 0.049 0.045 -0.2706

11 0.500 0.686 0.048 0.042 -2.9162

100

12 0.379 0.495 0.055 0.041 -1.6910

13 0.618 0.530 0.053 0.040 1.3253

14 0.626 0.593 0.050 0.039 0.5204

15 0.657 0.591 0.054 0.039 0.9908

4.4.2 Subtes Comprehension (V2)

Hasil analisis pada subtes V2 ditemukan satu item yang

mengandung bias item, yaitu item no 5 (t = -2.0129). yang mana item no 5

tersebut lebih menguntungkan kelompok laki-laki. Hasil perhitungan nilai

t pada seluruh item subtes V2 dapat dilihat pada tabel 4.31.

Tabel 4.31

Hasil Perhitungan Nilai t Subtes V2 Berdasarkan Pendekatan CFA

No


1 0.332 0.314 0.050 0.043 0.2729

2 0.335 0.367 0.057 0.047 -0.4331

3 0.597 0.542 0.046 0.040 0.9022

4 0.681 0.642 0.044 0.036 0.6860

5 0.598 0.714 0.045 0.036 -2.0129

6 0.822 0.864 0.044 0.037 -0.7306


Hasil analisis pada subtes V3 ditemukan 2 item yang

mengandung bias. Item tersebut adalah item no 2 (t = -2.1360) dan

item no 3 (t = -2.7502), yang mana kedua item ini menguntungkan

kelompok laki-laki daripada kelompok perempuan. Dalam tabel 4.32

dapat dilihat hasil perhitungan nilai t pada subtes V3.

101

TABEL 4.32

Hasil perhitungan nilai t subtes V3 Berdasarkan Pendekatan CFA

No


1 0.262 0.413 0.048 0.063 -1.9065

2 0.230 0.422 0.048 0.076 -2.1360

3 0.227 0.412 0.045 0.050 -2.7502

4 0.510 0.489 0.061 0.046 0.2749

5 0.404 0.517 0.062 0.045 -1.4750

6 0.868 0.763 0.065 0.048 1.2995

7 0.392 0.414 0.056 0.047 -0.3009

8 0.557 0.651 0.060 0.046 -1.2433


Berdasarkan analisis dengan metode CFA pada subtes V4 tidak

ditemukan bias. Tabel 4.33 memuat perhitungan nilai t pada subtes V4.

Tabel 4.33


No


1 0.332 0.382 0.079 0.105 -0.3805

2 0.720 0.464 0.207 0.122 1.0654

3 0.172 0.354 0.064 0.099 -1.5439

4 1.078 0.859 0.260 0.246 0.6118


Hasil analisis pada subtes V5 ditemukan satu item bias, yaitu

item no 5 (t = 2.6937). Yang mana item no 5 tersebut lebih

menguntungkan kelompok perempuan daripada kelompok laki-laki.

102

Hasil perhitungan nilai t pada subtes V5 ini dapat dilihat dalam tabel

4.34.

Tabel 4.34


No


1 0.345 0.340 0.087 0.081 0.0421

2 0.343 0.341 0.074 0.075 0.0190

3 0.397 0.262 0.080 0.063 1.3258

4 0.429 0.536 0.085 0.105 -0.7920

5 0.562 0.221 0.112 0.059 2.6937


Dari hasil analisis subtes P1 diketahui bahwa ada empat item

yang mengandung bias item, yaitu item no 1 (t=2.4587), item no 4 (t=-

3.2154), item no 5 (t=-2.7048), dan item no 6 (t=-4.0156). Yang mana

item no 1 lebih menguntungkan kelompok perempuan daripada laki-

laki, sedangkan ketiga item lainnya yaitu item no 4, 5, dan 6 lebih

menguntungkan laki-laki dari pada perempuan. Hasil perhitungan nilai

t subtes P1 dapat dilihat dalam tabel 4.35.

TABEL 4.35

Hasil perhitungan nilai t subtes P1 Berdasarkan Pendekatan CFA

No


1 0.679 0.484 0.059 0.053 2.4587

2 0.917 0.943 0.048 0.031 -0.4550

3 0.957 0.933 0.047 0.030 0.4304

4 0.473 0.673 0.050 0.037 -3.2154

103

5 0.475 0.644 0.048 0.040 -2.7048

6 0.389 0.643 0.049 0.040 -4.0156


Hasil analisis subtes P3 diketahui bahwa ada lima item yang

mengandung bias. Kelima item tersebut adalah item no 1 (t = 2.5402),

item no 4 (t = 2.1130), item no 5 (t = 2.4383), item no 6 (t = -2.0664),

dan item no 8 (t = 2.6325). Yang mana diketahui bahwa item no 1, 4,

5, dan 8 lebih menguntungkan kelompok perempuan daripada laki-

laki, sedangkan item no 6 lebih menguntungkan kelompok laki-laki

daripada perempuan. Hasil perhitungan nilai t subtes P3 dapat dilihat

dalam tabel 4.36.

Tabel 4.36


No


1 2.237 1.241 0.333 0.207 2.5402

2 0.479 0.521 0.053 0.052 -0.5657

3 0.535 0.461 0.051 0.051 1.0260

4 0.899 0.730 0.054 0.059 2.1130

5 0.948 0.761 0.049 0.059 2.4383

6 0.704 0.872 0.043 0.069 -2.0664

7 0.580 0.715 0.048 0.066 -1.6542

8 0.529 0.251 0.064 0.084 2.6325

104


Berdasarkan analisis dengan metode CFA pada subtes P4 tidak

ditemukan bias. Tabel 4.37 memuat perhitungan nilai t pada subtes V4.

Tabel 4.37


No

Item λ¹ λ² SE1 SE2 T

1 0.372 0.347 0.054 0.048 0.3460

2 0.394 0.415 0.052 0.049 -0.2939

3 0.573 0.582 0.054 0.048 -0.1246

4 0.703 0.722 0.053 0.050 -0.2608

5 0.719 0.671 0.053 0.048 0.6713


Dari hasil perhitungan nilai t pada subtes P5 diketahui bahwa

ada tiga item yang mengandung bias, yaitu item no 1 (t = -3.0995),

item no 3 (t = 3.8481), dan item no 6 (t = 2.0292). Item no 1 lebih

menguntungkan kelompok laki-laki, sedangkan item no 3 dan no 6

lebih menguntungkan kelompok perempuan. Hasil perhitungan nilai t

subtes P5 dapat dilihat dalam tabel 4.38.

Tabel 4.38


No

Item λ¹ λ² SE1 SE2 T

1 0.375 0.716 0.050 0.098 -3.0995

2 0.473 0.543 0.054 0.057 -0.8915

3 0.892 0.541 0.072 0.056 3.8481

4 0.582 0.723 0.053 0.054 -1.8635

5 0.869 0.743 0.064 0.052 1.5280

105

6 0.883 0.689 0.076 0.058 2.0292

7 0.481 0.514 0.046 0.044 -0.5184

Dari hasil analisis bias item ternyata ditemukan sejumlah item

yang bias dengan pendekatan IRT, Logistic Regression, dan CFA. Item-

item yang bias berdasarkan metode IRT, Logistic Regression, dan CFA

dapat dilihat dalam tabel 4.39 dan tabel 4.40.

106

Tabel 4.39

Item Bias Subtes Verbal Berdasarkan Hasil Perhitungan IRT, Logistic Regression, dan CFA

METODE SUBTES V1 SUBTES V2 SUBTES V3 SUBTES V4 SUBTES V5

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 2 3 4 5 6 1 2 3 4 5 6 7 8 1 2 3 4 1 2 3 4 5

IRT ■ ● ● ■

REGLOG

●

●

■

■ ■

● ■

CFA ● ● ● ● ● ● ●

Tabel 4.40

Item Bias Subtes Performance Berdasarkan Hasil Perhitungan IRT, Logistic Regression, dan CFA

METODE SUBTES P1 SUBTES P3 SUBTES P4 SUBTES P5

1 2 3 4 5 6 1 2 3 4 5 6 7 8 1 2 3 4 5 1 2 3 4 5 6 7

IRT ● ■ REGLOG ■

■

■ ■

CFA ■ ● ● ● ■ ■ ■ ● ■ ● ■ ■ ket: ● = Bias yang menguntungkan laki-laki dari pada perempuan

■ = Bias yang menguntungkan perempuan dari pada laki-laki

107

BAB 5

KESIMPULAN DAN SARAN

Dalam bab kesimpulan dan saran ini akan dibahas mengenai kesimpulan

dan saran dari hasil penelitian yang telah diuraikan dalam bab empat hasil

penelitian.

5.1 Kesimpulan

Berdasarkan hasil analisis dan pembahasan yang dilakukan, maka

kesimpulan penelitian ini adalah sebagai berikut:

1. Ada sembilan item tes Multidimensional Aptitude Battery yang secara

statistik signifikan memuat DIF bila dideteksi dengan metode IRT

model 1PL, yakni :

a. Pada subtes information (V1), item no 4 lebih menguntungkan

perempuan daripada laki-laki dan item no 6 dan no 8 lebih

menguntungkan laki-laki dari pada perempuan.

b. Pada subtes vocabulary (V5), item no 1 lebih menguntungkan

perempuan daripada laki-laki dan item no 4 lebih menguntungkan

laki-laki daripada perempuan.

c. Pada subtes digit symbol (P1), item no 1 lebih menguntungkan

perempuan daripada laki-laki.

108

d. Pada subtes object assembly (P5), item no 3 lebih menguntungkan

perempuan daripada laki-laki dan item no 5 dan no 6 lebih

menguntungkan laki-laki daripada perempuan.

2. Ada 11 item tes Multidimensional Aptitude Battery yang secara

statistik signifikan memuat DIF bila dideteksi dengan pendekatan

Logistic Regression, yakni :

a. Pada subtes information (V1), item no 4, 6 dan 8. Item no 4 dan 6

lebih menguntungkan laki-laki daripada perempuan, sedangkan

item no 8 lebih menguntungkan perempuan daripada laki-laki.

b. Pada subtes vocabulary (V5), item no 1, 2, 4, dan 5. Item no 1, 2,

dan 5 lebih menguntungkan perempuan daripada laki-laki,

sedangkan satu item lainnya, yaitu item no 4 lebih menguntungkan

laki-laki dari pada perempuan.

c. Pada subtes digit symbol (P1), item no 1 lebih menguntungkan


d. Pada subtes spatial (P3), item no 1 lebih menguntungkan


e. Pada subtes object assembly (P5), item no 5 dan 6 lebih

menguntungkan perempuan daripada laki-laki.

109

3. Ada 20 item tes Multidimensional Aptitude Battery yang secara

statistik signifikan memuat DIF bila dideteksi dengan metode

Confirmatory Factor Analysis (CFA), yakni :

a. Pada subtes information (V1), item no 4, 5, 6, dan 11. Item ini

lebih menguntungkan laki-laki daripada perempuan.

b. Pada subtes comprehension (V2), item no 5. Item ini lebih


c. Pada subtes aritmatic (V3), item no 2 dan 3. Item ini lebih


d. Pada subtes vocabulary (V5), item no 5. Item ini lebih

menguntungkan perempuan daripada laki-laki.

e. Pada subtes digit symbol (P1), item no 1, 4, 5, dan 6. Item no 1

lebih menguntungkan perempuan daripada laki-laki, sedangkan

ketiga item lainnya, yaitu item no 4, 5, dan 6 lebih

menguntungkan laki-laki dari pada perempuan.

f. Pada subtes spatial (P3), item no 1, 4, 5, 6, dan 8. Item no 1, 4, 5,

dan 8 lebih menguntungkan perempuan daripada laki-laki. Dan

item no 6 lebih menguntungkan laki-laki dari pada perempuan.

g. Pada subtes object assembly (P5), item no 1, 3, dan 6. Item no 1

lebih menguntungkan laki-laki daripada perempuan, sedangkan

110

kedua item lainnya, yaitu item no 3 dan 6 lebih menguntungkan

perempuan dari pada laki-laki.

4. Item bias yang disebabkan oleh faktor jenis kelamin ini kemungkinan

besar terjadi karena adanya kebiasaan yang sudah terbentuk dalam

suatu masyarakat dan juga di perkuat oleh faktor agama dan budaya.

5.2 Saran

Berdasarkan hasil penelitian dan manfaat yang ingin dicapai

melalui penelitian ini, maka saran-saran yang diajukan adalah sebagai

berikut:

1. Bagi pembaca dan peneliti yang berminat

a. Mengingat Indonesia terdiri dari berbagai macam wilayah dan

kebudayaan, hendaknya melakukan penelitian yang sama namun

berdasarkan wilayah, sehingga dapat diketahui DIF berdasarkan

faktor jenis kelamin jika wilayahnya berbeda.

b. Perlu dilakukan penelitian serupa dengan menggunakan metode-

metode IRT yang lebih spesifik dan sedang berkembang, misal:

mixture model analysis dan MIMIC model.

c. Hendaknya dilakukan penelitian lebih lanjut mengenai DIF pada

item politomus dengan menggunakan pendekatan-pendekatan yang

sedang berkembang saat ini.

111

2. Bagi para psikolog terapan hendaknya memperhatikan hal-hal yang

menyebabkan biasnya suatu item, sehingga didapatkan gambaran yang

tepat dari suatu assessment dan melakukan pengembangan atau revisi

suatu alat tes psikologi secara berkala agar hasil assessment tersebut

benar-benar akurat.

3. Bagi para tester hendaknya memperhatikan proses pengadministrasian

suatu alat tes, sehingga dapat mengurangi penyebab terjadinya bias

item.

112

DAFTAR PUSTAKA

Anastasi, A., & Urbina. (1997). Psychological testing, seventh edition. New

Jersey: Prentice-Hall, Inc.

Baker, F. (2001). The basics of item response theory. Second edition. America:

ERIC Clearinghouse on Assesment and Evaluation.

Benito, G.J., Hidalgo, M.D., & Padilla, J.L. (2009). Efficacy of effect size

measures in logistic regression: An application for detecting DIF.

Methodology, 5, 18-25.doi: 10.1027/1614-2241.5.1.18.

Bond, T.G, & Fox, C.M. (2001).Applying the rasch model: Fundamental

measurement in the human sciences.

Brown, T.A (2006). Confirmatory factor analysis for applied research. New

York: The Guilford Press.

Camili, G. & Shepard, L.A. (1994). Methods for identifying biased test item,

Vol.4. London: Sage Publication,inc.

Candell, G.L., & Hulin, C.L. (1986) Cross language and cross cultural

comparisons in scale translations: Independent sources of information

about item nonequivalence. Journal of Cross-Cultural Psychology, 17,

417-440.

Chapman, A. (2012). Gender bias in education. www.edchanges.org. tanggal 11

desember 2012.

Crane, P.K., Gibbons, L.E., at all (2011). Iordif: An R package for detecting

differential item functioning using iterative hybrid ordinal logistic

regression/item response theory and monte carlo simulation. Journal of

statistical software, 39.

Crocker, L, & Algina, J. (1986). Introduction to classical and modern test theory.

Philadelphia: Harcourt Brace Jovanovich College Publisher.

Embretson, S., & Reise, S. (2000). Item Response Theory for psychology. London:

Lawrence Erlbaum Associates Publisher.

Hambleton, R.K (1982). Item Response Theory: the three parameter logistic

model. California: Centre for the study of evaluation.

113

Hambleton, R.K. & Swaminathan. (1985). Item response theory. Boston, MA:

Kluwer Nijjhoff, Publisher.

Hambleton, R.K., Swaminathan, H., & Rogers, H.J. (1991). Fundamentals of item

response theory. London: Sage Publications,inc.

Hayat, B., Surapranata, S., & Suprananto. (1999). Manual item and analysis.

Jakarta:Pusbangsijian Depdikbud.

Holland, P.W. & Wainer, H. (1993). Differential item functioning. New Jersey:

Lawrence Erlbeum Associate Publisher.

Ho Yu, Chong. (2010). A simple guide to the item response theory (IRT) and

rasch modeling. www.creative-wisdom.com

Jackson, N.D. (2003). Multidimensional aptitude battery manual. Port Huron:

Sigma Assesment Systems, Inc.

Jodoin, M.G., & Gierl, M.J. (2001). Evaluating type 1 error and power rates using

an effect size measure with logistic regression procedure for DIF

detection. Applied Measurement in Education, 14, 329-349.

Jones, K., Evans, C., Byrd, R., & Campbell, K. (2000). Gender equity training and

teaching behavior. Journal of Instructional Psychology, 27 (3), 173-178.

Kartowagiran, B. (2005). Perbandingan berbagai metode untuk mendeteksi bias

butir. Disertasi. Yogyakarta: Tidak diterbitkan

Muthen, B.O. (2006). IRT in MPLUS. Los Angeles. CA: Muthen & Muthen.

www.statmodel.com

Muthen, L.K &Muthen, B.O. (19982007). Mplus user’s guide. Fifth edition. Los

Angeles. CA: Muthen & Muthen. www.statmodel.com

Muthen, L.K &Muthen, B.O. (2009). Exploratory factor analysis, confirmatory

factor analysis, and structural equation modeling for continous outcomes.

Mplus Short Courses (topic 1). Los Angeles. CA: Muthen & Muthen.

www.statmodel.com

Muthen, L.K &Muthen, B.O. (2009). Regression analysis, exploratory factor

analysis, confirmatory factor analysis, and structural equation modeling

for categorical, censored, and count outcomes. Mplus Short Courses

(topic 2). Los Angeles. CA: Muthen & Muthen. www.statmodel.com

114

Mislevy, R.J. & Bock, R.D. (1990). BILOG 3: Item analysis & test scoring with

binary logistic models, Moorseville: Scientific Softwares Inc.

Myers, S. (2008). Intelligence testing: testing & evaluation. Research starter.

EBSCO Publishing, Inc.

O'Neill, T. (2000). Boys' problems don't matter. Report/ Newsmagazine (National

Edition), 27 (15), 54-56

Sadker, D., & Sadker, M. (1994). Failing at Fairness: How Our Schools Cheat

Girls. Toronto, ON: Simon & Schuster Inc.

Scientific Software International. Edited. Toit, M.A. (2003). IRT from SSI. North

Lincoln Avenue: Scientific Software Inc.

Raju, N.S., Laffitte, L.J., & Byrne, B.M. (2002). Measurement equivalence: A

comparison of methods based on confirmatory factor analysis and item

response theory. Journal of Applied Psychology, 87, 517-529.

Siregar, N,Y. (2005). Faktor eksternal bias jenis kelamin pada butir tes IPA

“trends in international mathematics and science study” (TIMSS).

Disertasi. Jakarta: Tidak diterbitkan.

Stark, S., Chernyshenko, O.S., & Drasgow, F. (2006). Detecting differential item

functioning with confirmatory factor analysis and item response theory:

Toward a unified strategy. Journal of Applied Psychology, 91, 1292-1306.

Thompson, B. (2004). Explanatory and confirmatory factor analysis. Washington

DC: American Psychological Assosiation.

Umar, J. (2001). A method for measuring instructional sensitivity of criterion-

referenced test items. Jakarta: Examination Center.

Umar, J. (2012). Bahan kuliah psikometri. Jakarta: Tidak diterbitkan

Umar, J. (2012). Peran pengukuran dan analisis statistika dalam penelitian

psikologi. Jurnal Pengukuran Psikologi dan Pendidikan Indonesia, 1,

No.1.

Umar, J. (2012). Mengenal lebih dekat konsep reliabilitas skor tes. Jurnal

Pengukuran Psikologi dan Pendidikan Indonesia,1, No.2.

Zumbo, B.D. (1999). A handbook on the theory and methods of differential item

functioning (DIF): Logistic regression modelling as a unitary framework

for binary and likert type (ordinal) item scores. Ottawa, ON: Directorate

115

of Human Resources Research and Evaluation, Department of National

Defense.

Zumbo, B.D. (2007). Three generations of DIF analysis: Considering where it

has been, where it is now, and where it is going. Canada: Lawrence

Erlbaum Associates, Inc.

Pendeteksian Differential Item Functioning pada Item Dikotomus...

Documents

Transcript of Pendeteksian Differential Item Functioning pada Item Dikotomus...