SKOR UJIAN AKHIR SEKOLAH UNTUK STANDARISASI PENILAIAN ...

12
130 ANALISIS BUTIR DAN IDENTIFIKASI KETIDAKWAJARAN SKOR UJIAN AKHIR SEKOLAH UNTUK STANDARISASI PENILAIAN Dadan Rosana dan Sukardiyono Fakultas Matematika dan Ilmu Pengetahuan Alam UNY email: [email protected].id Abstrak Penelitian ini bertujuan untuk mendapatkan hasil kajian empirik tentang kualitas butir soal pada UAS Mata Pelajaran Fisika di Kabupaten Lombok Timur tahun 2015 dengan menggunakan teori respon butir dan sekaligus untuk mengidentifikasi ketidakwajaran (inappropriateness) skor tes tersebut. Penelitian menggunakan metode deskriftif kuantitatif, ketidakwajaran skor dideteksi dengan korelasi person biserial (person-fit statistic) dan indeks kehati-hatian (caution index) dari Sato. Paket program yang digunakan untuk melakukan analisis butir adalah Quest, dengan elemen sentral Rasch Model (RM). Subjek penelitian adalah 15 sekolah menengah atas sampel dari populasi 137 sekolah di Kabupaten Lombok Timur, yang diambil secara purposive sampling. Soal UAS digunakan bersama oleh 15 sekolah pada tahun ajaran 2014/2015. Hasil penelitian menunjukkan bahwa kualitas butir baik karena memiliki tingkat kecocokan dengan model Rasch dengan nilai infit meansquare-nya 0,77 -1,30. Caution index dari Sato terdeteksi 3,01 persen sampel mempunyai ketidakwajaran, dan 9,68 persen sampel yang diambil mempunyai tingkat ketidakwajaran yang tinggi. Kata kunci: analisis butir, identifikasi ketidakwajaran, kualitas butir tes THE ITEMS ANALYSIS AND THE IDENTIFICATION OF FINAL TEST SCORE INAPPROPIATENESS TO STANDARDIZE THE ASSESMENT Abstract This study was aimed at getting the result of an empirical study about the quality of items on Physics final exam held in Lombok Timur Regency 2015, using the theory of item response and identifying inappropriateness among those test scores. This study used descriptive quantitative method. The techniques used to identify the inappropriateness were the person-fit statistic and caution index as proposed by Sato. The program package used to hold the items analysis was Quest, by Rasch Model (RM) as the central element. The subjects were 15 high schools as the sample from the total of 137 high schools/MA in Lombok Timur Regency taken through purposive sampling. The items were used by the whole 15 sample schools for the final exam in the academic year of 2014/2015. The items analysis obtains good quality test items as it has a level of compatibility with Rasch models of its value infit mean square 0.77-1.30. The caution index proposed by Sato detected 3.01 % inappropriateness and the 9.68% high inappropriateness. Keywords: items analysis, item test quality, the identification of inappropriateness PENDAHULUAN Peraturan Menteri Pendidikan dan Kebudayaan Republik Indonesia Nomor 3 Tahun 2013 Tentang Kriteria Kelulusan Peserta Didik dari Satuan Pendidikan dan Penyelenggaraan Ujian Sekolah/Madrasah/ Pendidikan Kesetaraan dan Ujian Nasional, salah satu pasalnya mengungkapkan bahwa, nilai akhir (NA) untuk penentuan kelulusan diperoleh dari gabungan nilai

Transcript of SKOR UJIAN AKHIR SEKOLAH UNTUK STANDARISASI PENILAIAN ...

Page 1: SKOR UJIAN AKHIR SEKOLAH UNTUK STANDARISASI PENILAIAN ...

130

ANALISIS BUTIR DAN IDENTIFIKASI KETIDAKWAJARANSKOR UJIAN AKHIR SEKOLAH UNTUK STANDARISASI PENILAIAN

Dadan Rosana dan SukardiyonoFakultas Matematika dan Ilmu Pengetahuan Alam UNY

email: [email protected]

AbstrakPenelitian ini bertujuan untuk mendapatkan hasil kajian empirik tentang kualitas butir soal

pada UAS Mata Pelajaran Fisika di Kabupaten Lombok Timur tahun 2015 dengan menggunakanteori respon butir dan sekaligus untuk mengidentifi kasi ketidakwajaran (inappropriateness) skor testersebut. Penelitian menggunakan metode deskriftif kuantitatif, ketidakwajaran skor dideteksi dengankorelasi person biserial (person-fi t statistic) dan indeks kehati-hatian (caution index) dari Sato. Paketprogram yang digunakan untuk melakukan analisis butir adalah Quest, dengan elemen sentral RaschModel (RM). Subjek penelitian adalah 15 sekolah menengah atas sampel dari populasi 137 sekolah diKabupaten Lombok Timur, yang diambil secara purposive sampling. Soal UAS digunakan bersamaoleh 15 sekolah pada tahun ajaran 2014/2015. Hasil penelitian menunjukkan bahwa kualitas butirbaik karena memiliki tingkat kecocokan dengan model Rasch dengan nilai infi t meansquare-nya 0,77-1,30. Caution index dari Sato terdeteksi 3,01 persen sampel mempunyai ketidakwajaran, dan 9,68persen sampel yang diambil mempunyai tingkat ketidakwajaran yang tinggi.

Kata kunci: analisis butir, identifi kasi ketidakwajaran, kualitas butir tes

THE ITEMS ANALYSIS AND THE IDENTIFICATION OF FINAL TEST SCOREINAPPROPIATENESS TO STANDARDIZE THE ASSESMENT

AbstractThis study was aimed at getting the result of an empirical study about the quality of items on

Physics fi nal exam held in Lombok Timur Regency 2015, using the theory of item response andidentifying inappropriateness among those test scores. This study used descriptive quantitative method.The techniques used to identify the inappropriateness were the person-fi t statistic and caution index asproposed by Sato. The program package used to hold the items analysis was Quest, by Rasch Model(RM) as the central element. The subjects were 15 high schools as the sample from the total of 137high schools/MA in Lombok Timur Regency taken through purposive sampling. The items were used bythe whole 15 sample schools for the fi nal exam in the academic year of 2014/2015. The items analysisobtains good quality test items as it has a level of compatibility with Rasch models of its value infi tmean square 0.77-1.30. The caution index proposed by Sato detected 3.01 % inappropriateness andthe 9.68% high inappropriateness.

Keywords: items analysis, item test quality, the identifi cation of inappropriateness

PENDAHULUANPeraturan Menteri Pendidikan dan

Kebudayaan Republik Indonesia Nomor3 Tahun 2013 Tentang Kriteria KelulusanPeserta Didik dari Satuan Pendidikan dan

Penyelenggaraan Ujian Sekolah/Madrasah/Pendidikan Kesetaraan dan Ujian Nasional,salah satu pasalnya mengungkapkanbahwa, nilai akhir (NA) untuk penentuankelulusan diperoleh dari gabungan nilai

Page 2: SKOR UJIAN AKHIR SEKOLAH UNTUK STANDARISASI PENILAIAN ...

131

sekolah dari mata pelajaran yang diujikansecara nasional dan Nilai UN, yaitu denganpembobotan 40% Nilai sekolah dari matapelajaran yang diujikan secara nasional dan60% dari Nilai UN.

Permasalahan yang kemudian munculberkaitan dengan hal ini adalah belumadanya kesetaraan kualitas asesmen yangdigunakan untuk penilaian di sekolah,padahal hasil ujian ini dijadikan bahanuntuk penentuan kelulusan dan dijadikandata untuk pertimbangan penerimaanmahasiswa baru di Perguruan Tinggi.Hal ini tentu saja mengakibatkan tidakterpenuhinya rasa keadilan dari peserta didikdan calon mahasiswa baru, karena perbedaankualitas tes yang diberikan mengakibatkanperbedaan nilai raport yang dijadikandasar pengambilan keputusan kelulusandari satuan pendidikan dan penerimaanmahasiswa baru di Perguruan Tinggi.

UAS dimaksudkan untuk mengukurkompetensi peserta didik yang ditetapkandalam Standar Kompetensi Lulusan. Hasilyang diperoleh diharapkan benar-benarmampu menggambarkan kemampuanpeserta didik. Seharusnya hasil yangdiperoleh dapat membedakan pesertadidik yang telah memenuhi dan yang tidakmemenuhi standar yang ada pada standarkompetensi lulusan tersebut.

Namun ada kalanya skor peserta didiktidak sesuai dengan kemampuannya yangsebenarnya. Penyebabnya bisa diakibatkanoleh permasalahan yang muncul daripeserta didik dan bisa juga diakibatkanoleh kualitas butir tes yang diberikanpada mereka. Ada peserta didik yang ke-sehariannya mempunyai prestasi belajartergolong memadai ternyata memperolehhasil pada UAS yang rendah dan akhirnyatidak lulus. Sebaliknya peserta didik yangkesehariannya berprestasi rendah ternyatamemperoleh hasil yang memuaskan padaujian akhir sekolah.

Ketidakwajaran skor dapat terlihatdengan pola jawaban peserta ujian. Skorpeserta ujian akan menjadi wajar apabilapeserta tersebut dapat menjawab benar butirsoal yang mudah dan menjawab salah butirsoal yang sukar. Sebaliknya, skor pesertaakan menjadi tidak wajar apabila pesertaujian menjawab salah soal yang mudahdan menjawab benar soal yang sulit (Naga,2001: 43).

Kesalahan pengukuran yang diaki-batkan peserta didik berikutnya terjadiketika peserta didik mendapatkan skorlebih tinggi daripada kemampuan yangsebenarnya (spuriously high). Hal ini dapatterjadi ketika peserta didik mencontekatau memperoleh jawaban dari orang lain(Hulin, Drasgow, & Parsons, 1983: 17).Mereka akan memperoleh skor yang lebihtinggi dari kemampuan yang sebenarnya.

Hulin, Drasgow, & Parsons (1983: 11-112) mengemukakan bahwa pembahasantentang ketidakwajaran pengukuran terbataspada keanehan pola jawaban peserta tes(peserta didik) dalam tes. Bila pola jawabanyang dihasilkan peserta tes tidak normal.Misalnya, ada sejumlah jawaban benarterhadap butir-butir sulit pada seperduates yang pertama dan dan ada sejumlahjawaban salah terhadap butir-butir tesyang mudah pada seperdua tes berikutnya.Atau peserta tes yang kreatif mungkinmemberikan penafsiran yang berbedaterhadap butir tes yang mudah. Akibatnya,respon butir seperti ini tidak cocok denganteori respon butir yang mengasumsikanpeluang jawaban benar sebagai fungsi darikecerdasan (kemampuan) peserta tes.

Ketidakwajaran pengukuran dapatpula bersumber dari kondisi penilaian.Nitko (1996: 91-94) dan Wiersma & Jurs(1990: 340) menyatakan tekanan mentalpeserta tes, seperti cemas, khawatir, takutgagal, kekurangmampuan dalam menulis,dapat menyebabkan peserta tes tidak

Dadan R. dan Sukardiyono: Analisis Butir dan Identifi kasi...

Page 3: SKOR UJIAN AKHIR SEKOLAH UNTUK STANDARISASI PENILAIAN ...

132

berhasil menjawab secara benar butir-butirtes. Sebagai akibatnya peserta didik sepertiini akan memperoleh skor yang tidak tepat,yakni tidak sesuai dengan kemampuanmereka sebenarnya.

Penyebab lain dari ketidakwajaranpengukuran adalah kecurangan saatpelaksanaan tes, misalnya ada peserta didikyang menyontek. Pola jawaban dari pesertadidik yang curang dalam tes mungkin akantampak ganjil. Kelompok jawaban benarakan bercampur dengan kelompok jawabanyang hampir semuanya tidak benar. Jenispola jawaban seperti ini berbeda padasetiap peserta ujian. Keadaan ini dapatdideteksi melalui analisis ketidakwajaranpengukuran.

Untuk mengatasi kesalahan hasilpengukuran yang diakibatkan pesertadidik ini, terdapat beberapa indeks yangberdasarkan pola respon aktual (actualobserved response pattern) seperti cautionindex yang dikembangkan oleh Sato, IndeksU yang dikembangkan oleh Van der Flier’s,personal biserial yang dikembangkan olehDonlon dan Fisher, dan norm conormityindex (NCI) yang dikembangkan olehTatsuoka. Dalam penelitian ini digunakanteknik personal biserial dan caution index.Dalam pedoman baru untuk pengujianpendidikan yang adil disarankan untukmemeriksa validitas dari nilai tes individumelalui penggunaan person-fi t statistics(Tendeiro & Meijer, 2014: 239).

Kesalahan pengukuran jenis keduayang diakibatkan oleh kualitas butir tes,akan dianalisis menggunakan indeksyang didasarkan pada item responsetheory. Model pengukuran yang digunakandalam penelitian ini adalah model modellikelihood maksimum menggunakan modellogistic satu parameter (L-1P) yang jugadikenal dengan sebutan Rasch model.

Rumus teoritis untuk perhitungan dayadan ukuran berdasarkan distribusi asimtotik

estimator maksimum likelihood untukmodel regresi logistik (Li, 2014: 441).Untuk itu digunakan program Quest terdiridari suatu bahasa kontrol yang mudahdigunakan dengan output yang informatifdan fl eksibel.

Program Quest ini dapat digunakanuntuk mengkonstruksi dan memvalidasivariabel data dikotomi (Raymond & Seik-Toon, 1996: 1) dan politomus besertakombinasinya. Selain itu juga ProgramQuest ini dapat digunakan untuk melakukananalisis berdasarkan teori tes klasik(Clasical Test Theory).

Tujuan dilakukannya analisis butirsoal adalah untuk meningkatkan kualitassoal, yaitu apakah suatu soal dapat diterimakarena telah didukung data statistik yangmemadai, diperbaiki karena terbuktiterdapat beberapa kelemahan atau bahkantidak digunakan sama sekali karena terbuktisecara empiris tidak berfungsi sama sekali.Peningkatan kualitas tes dimaksudkanuntuk menyesuaikan tingkat kesulitanbutir tes dengan kemampuan peserta tesuntuk tes dengan tujuan untuk mengetahuikemampuan siswa pada mata pelajarantertentu (Mardapi, Haryanto, & Hadi, 2012:131).

METODEPopulasi pada penelitian ini adalah

seluruh soal dan lembar jawaban pesertapada UAS tingkat SMA/MA Mata PelajaranFisika seluruh Kabupaten Lombok Timurtahun pelajaran 2014/2015. Jumlah SMA diLombok Timur yang terdaftar adalah 158sekolah, terdiri dari SMA dan MadrasahAliyah 137 sekolah dan SMK sebanyak21 sekolah. Jumlah peserta didik di SMA/MA berjumlah 10142 orang dan SMKberjumlah 1269 orang.

Untuk penelitian ini, jumlah SMAyang dijadikan sampel adalah sebanyak15 sekolah, dengan jumlah peserta didik

JURNAL KEPENDIDIKAN, Volume 45, Nomor 2, November 2015, Halaman 130-141

Page 4: SKOR UJIAN AKHIR SEKOLAH UNTUK STANDARISASI PENILAIAN ...

133

sebanyak 1363 orang. Sampel penelitianadalah soal dan lembar jawaban pesertadidik yang diambil dari 15 sekolah yaituSMA Negeri Labuhan Haji (N=113), SMANegeri Selong (N=167), SMA Negeri 1Suralaga (N=119), SMA 2 Selong (N=148),SMA 2 Sukamulia (N=48), SMA Negeri1 Sakra (N=63), SMA Negeri 1 Jerowaru(N=26), SMA Negeri 1 Keruak (N=65),SMA Negeri 1 Terara (N=133), SMANegeri 1 Pringsela (N=74), SMA Negeri1 Montonggading (N=42), SMA Negeri1 Sikur (N=110), SMA Negeri 1 Aikmel(N=103), SMA Negeri 2 Aikmel (N=71),dan SMA Negeri 1 Wanasaba (N=81).

Pemilihan sampel menggunakan teknikpurposive sampling. Penentuan jumlahsampel dilakukan dengan menggunakantabel penentuan jumlah sampel Isaac danMichael yang termuat dalam Sugiyono(2012). Berdasarkan tabel, dengan tingkatkesalahan sebesar 5%, jumlah sampelyang digunakan pada penelitian ini adalahsebanyak 1363 lembar jawaban. Jumlahbutir jangkar (anchor) yang digunakandalam penelitian ini adalah 25%, yaitu 10butir soal dari 40 butir soal UAS FisikaSMA di Lombok Timur tahun 2015. Halini mengacu pada pendapat Skaggs &Lissitz (Hayati & Mardapi, 2014: 31), yangmenyatakan bahwa jumlah butir jangkar(anchor) yang digunakan minimal 20% darijumlah butir soal.

Paket program yang digunakan untukmelakukan analisis butir dalam penelitianini adalah Quest. Elemen sentral programQuest adalah Rasch Model (RM) satuparameter (1-PL). Program ini dapatmenggunakan data respons yang diskorsecara politomus. Program Quest dalammelakukan estimasi parameter, baik untukitem maupun untuk testi (case/person)menggunakan unconditional (UCON) ataujoint maximum likelihood (Raymond &Siek-Toon, 1996: 89).

Model penskoran menggunakan modeluji coba terpakai sehingga butir yangtidak fi t dengan model dikeluarkan (tidakdiperhitungkan) saat menentukan skorsiswa. Item Characteritic Curve (ICC) akanmendatar (fl at) bila besarnya INFIT MNSQuntuk butir atau e lebih besar dari satuanlogit>1,30 akan berakibat membentukplatokurtic curve, jika satuan logit <0,77akan terlalu runcing membentuk leptokurticcurve (Keeves & Alagumalai 1999: 36).Oleh karena itu, dalam program Questditetapkan bahwa suatu butir atau persondinyatakan fi t dengan model dengan bataskisaran INFIT MNSQ dari 0,77 sampai1,30 (Raymond & Siek-Toon, 1996: 30 &90). Ada pula peneliti yang menggunakanbatas yang lebih ketat, yakni dengankisaran 0,83 sampai dengan 1,20 dan adayang menggunakan pengujian berdasarkanbesarnya nilai INFIT t, yakni menggunakankisaran nilai t adalah ± 2 (pembulatan ±1,96) jika taraf kesalahan/alpha sebesar 5%(Keeves & Alagumalai 1999: 34-36; Bond& Fox, 2007: 43).

Indeks ketidakwajaran skor ber-dasarkan teori respon butir yang digunakanberdasarkan hasil analisis program Quest diantaranya adalah ketidakwajaran melaluikebolehjadian dan indeks ketidakwajaranresidu bakuan terkuadrat (Naga, 1992:164-168).

Indeks kewajaran skor ditentukanmelalui teori responsi butir. Karena estimasiparameter dilakukan melalui kebolehjadi-an maksimum, maka indeks kewajarandihitung melalui kebolehjadian. Tinggi-nya nilai kebolehjadian dijadikan indekskewajaran; makin tinggi kebolehjadianmakin wajar skor responden. Di dalamproses perhitungan digunakan logaritma,mencakup; indeks kewajaran l

0, indeks

kewajaran lg, dan indeks kewajaran l

z.

Indeks kewajaran kebolehjadian l0

menggunakan logaritma dari kebolehjadian.

Dadan R. dan Sukardiyono: Analisis Butir dan Identifi kasi...

Page 5: SKOR UJIAN AKHIR SEKOLAH UNTUK STANDARISASI PENILAIAN ...

134

Kebolehjadian pada θ yang diestimasimelalui kebolehjadian maksimum.

N

i

Xi

Xi

ii QPXL1

1)()()|( (1)

dengan jawaban betul Xi = 1 dan jawaban

salah Xi = 0.

Indeks kewajaran l0

N

iiii QXPX

XLl0

)(ln)1()(ln

)|(ln

(2)

dengan nilai l0≤ 0. Karena telah digunakan

θ yang diperoleh melalui kebolehjadianmaksimum, maka pada skor wajarseharusnya makin tinggi l

0makin baik.

Nilai l0

yang rendah sekali menunjukkanketidakwajaran skor. Jika butir mudahdijawab betul dan butir sukar dijawab salah,maka indeks kewajaran akan tinggi. Jikabutir mudah dijawab salah dan butir sukardijawab betul, maka indeks kewajaran akanrendah.

Indeks kewajaran kebolehjadian lg

mereratakan indeks kewajaran berdasarkanbutir yang dijawab, sehingga menjadi:

N

l

g

0

(3)

dengan N = banyaknya butir yang dijawab.Karena perhitungan didasarkan pada indeksper butir yang dijawab, maka terdapatperlakuan sama di antara responden yangmenjawab banyak butir dan yang sedikitbutir. Makin tinggi nilai indeks kewajaranmakin wajar skor responden.

Indeks kewajaran kebolenjadian nilaibaku l

z. Apabila kemampuan responden θ

berbeda, maka indeks kewajaran lgmenjadi

kurang memadai. Untuk mengatasi hal ini,digunakan indeks kewajaran nilai baku.

0

00

l

lz

ll (4)

Perhitungan indeks kewajaran me-merlukan nilai rerata dan simpangan bakupada l

0 .

N

lN

il

i 1

0

0

N

iiiii QQPP

1

)(ln)()(ln)( (5)

Melalui substitusi

)(ln)()(ln)()( iiiii QQPPm

maka rerata menjadi

)(1

0

N

iil m (6)

Simpangan bakunya adalah:

N

i i

iii

N

i

N

il

Q

PQP

N

llNii

1

2

2

2

10

1

20

)(

)(ln)()(

0

(7)

Indeks Kewajaran Residu BakuanTerkuadrat. Responden menghasilkanjawaban berupa jawaban betul X

i=1 dan

jawaban salah Xi=0. Misalnya untuk model

logistik menghasilkan probabilitas betulP

i(θ) dan probabilitas salah Q

i(θ). Selisih

di antara mereka adalah residu Ri, yaitu:

Ri = X

i-P

i(θ) (8)

Residu menjadi dasar untuk menun-jukkan kewajaran skor responden rerata dansimpangan baku sebagai berikut.

Rerata iX i (9)

Simpangan baku )()( iiX QPi (10)

JURNAL KEPENDIDIKAN, Volume 45, Nomor 2, November 2015, Halaman 130-141

Page 6: SKOR UJIAN AKHIR SEKOLAH UNTUK STANDARISASI PENILAIAN ...

135

Nilai baku selisih atau residunyaadalah:

)()(

)(

ii

ii

X

XiR

QP

PXXS

i

i

i

(11)

Pada saat Xi=0

)(

)()0(

i

iiR Q

PXS

i (12)

Pada saat Xi=1

)(

)()1(

i

iiR P

QXS

i (13)

Indeks kewajaran skor terkuadratuntuk N butir

(14)

Pada model logistik L-1P

(15)

Sehingga

(16)

W diturunkan dari residu sehingga makinbesar W makin besar residu dan makin tidakwajar skor responden.

Peluang peserta didik berhasil menger-jakan butir soal tergantung pada kemampu-an (ability) dan tingkat kesulitan (diffi culty)butir soal yang dikerjakannya (Isgiyanto,2013:14). Untuk menggambarkan polajawaban responden dihubungkan dengankemampuan (ability) dan karakteristik butirsoal seperti tingkat kesukaran digunakanperson-fi t statistic. Person-fi t statistic dapatdijadikan sebagai indikasi kewajaran skorpeserta ujian. Wright & Linacre (1992)mengungkapkan indeks ketidakwajarandengan menggunakan person-fit danmenamakannya weighted total fit meansquare dan unweighted total fi t mean square(Rudner, 1983).

Person-fit statistic dapat diperolehdengan melihat outfi t statistic pada outputQuest. Outfi t statistic person menunjukkanbagaimana perilaku yang tidak diharapkandari soal yang mempunyai tingkat kesukaranjauh dengan kemampuan peserta ujiantersebut (Setiadi, 1999). Dengan kata lain,peserta ujian dengan kemampuan tinggitidak dapat menjawab soal dengan tingkatkesukaran rendah. Atau sebaliknya, pesertadengan kemampuan yang rendah tetapimenjawab benar butir soal dengan tingkatkesukaran tinggi. Hal ini sejalan denganpengertian ketidakwajaran.

Untuk mempertajam analisis terkaitindeks ketidakwajaran digunakan metodeSHL diambil dari nama Sato, Harnischdan Linn, yang selanjutnya disebut indekskehati-hatian (caution index). Metode inimenggunakan banyaknya jawaban salahpada butir mudah dan banyaknya jawabanbenar pada butir sulit.

Selanjutnya dicari indeks kehati-hatian dalam bentuk proporsi terhadapjawaban benar dari seluruh peserta. Dalammenentukan indeks tersebut, dibuat matriksjawaban peserta ujian. Karena fokus padapeserta ujian, maka pada bagian kolompertama adalah peserta ujian dan padabagian baris adalah butir soal. Selanjutnya,peserta diurutkan dari tinggi sampai rendahdimana peserta dengan tertinggi ditempatkandi atas. Butir soal juga diurutkan dari butirtermudah sampai pada butir tertinggi.

Langkah selanjutnya adalah me-nentukan batas dari jawaban benar danjawaban salah. Selanjutnya, yang perludiperhatikan adalah pola jawaban pesertaujian. Berapa butir soal yang benar padatempat yang seharusnya salah karenabutir tersebut sukar. Juga berapa butir soalyang salah pada tempat yang seharusnyapeserta tersebut benar karena butir tersebutmudah.

Dadan R. dan Sukardiyono: Analisis Butir dan Identifi kasi...

Page 7: SKOR UJIAN AKHIR SEKOLAH UNTUK STANDARISASI PENILAIAN ...

136

Beberapa notasi untuk rumus indekskehati-hatian, adalah:t = batas di antara jawaban salah dan

jawaban betul jika respondenberhati-hati

fgi

= skor butir pada indeks kehati-hatian untuk responden ke-g

ft

= banyaknya butir di bawah batas tN = banyaknya butirX

gi= skor butir oleh responden ke-g= 1 untuk jawaban betul= 0 untuk jawaban salah

Indeks kehati-hatian SHL untuk respondenke-g, dinyatakan dengan persamaan:

DC

BAc gg

g

(17)

Dimana:

tf

igigi

g

fX

salahjawabansekorA

1

)1( (18)

N

figigi

g

t

fX

betuljawabansekorB

1 (19)

dan

N

fNigi

f

igi

t

t

fDfC11

(20)

HASIL PENELITIAN DAN PEMBAHASANData yang diperoleh dianalisis se-

cara matematis dengan bantuan komputermenggunakan program Quest. Analisisprogram Quest yang dibahas dalampenelitian ini adalah bagian outputmenurut teori respon butir, yang terdiridari; kecocokan dengan model, tingkatkesukaran butir tes, reliabilitas soal, danestimasi kemampuan responden. Estimasibutir dan responden dilakukan denganprosedur PROX (normal approximationestimation). Kecocokan antara kemampu-

an responden (θ) dan indeks kesukaranbutir (b) akan menghasilkan akurasi dalampengukuran. Akurasi maksimal terjadi saatP (θ) = 0,5. Estimasi parameter dilakukandengan membuang responden yang benardan salah semua. Estimasi parameterresponden dan butir dilakukan serentakkarena keduanya belum diketahui. Esti-masi terus dilakukan sampai nilai para-meter responden dan butir konstan.

Parameter pertama adalah kecocokanbutir dengan model Rasch, yaitu denganmelihat nilai infi t meansquare. Penetapanfi t testi (case/person) secara keseluruhandengan program Quest (Raymond & Siek-Toon, 1996) didasarkan pada besarnya nilairata-rata INFIT Mean of Square (INFITMNSQ) beserta simpangan bakunya.Penetapan o didasarkan pada besarnya nilairata-rata INFIT Mean of INFIT t. Penetap-an fi t tiap testi (case/person) dengan modeldalam program Quest didasarkan padabesarnya nilai INFIT MNSQ atau nilaiINFIT t item yang bersangkutan. Langkahperhitungannya mengikuti langkah yangditulis Wright & Masters (1982: 108-109).

Tahap kedua dalah melihat nilai outfi tt. Tahap ketiga adalah menganalisis indekskesukaran butir dengan melihat thresholds.Butir soal yang cocok dengan model Raschmemiliki infi t meansquare 0,77-1,30 nilaioutfi t t ≤ 2. Hampir semua soal dinyatakancocok dengan model Rasch karena nilai infi tmeansquare-nya 0,77-1,30. Soal nomor 14dinyatakan gugur dengan nilai outfi t t-nya2,15.

Parameter kedua yang dianalisis adalahtingkat kesukaran butir tes. Pada distribusitingkat kesukaran soal dan kemampuanresponden dapat dilihat pada file map.Bentangan tingkat kesukaran dan tingkatkemampuan siswa tersebut berada pada satugaris sehingga akan dapat diketahui posisisetiap subjek terhadap tingkat kesulitanbutir yang dikerjakan. Tingkat kemampuan

JURNAL KEPENDIDIKAN, Volume 45, Nomor 2, November 2015, Halaman 130-141

Page 8: SKOR UJIAN AKHIR SEKOLAH UNTUK STANDARISASI PENILAIAN ...

137

tes maupun tingkat kesukaran butir dalamRM diekspresikan pada satu garis berupaabsis pada grafi k dengan satuan berupa logit(logg-odd unit) (Keeves & Alagumalai,1999: 27).

Proporsi varians total dari estimasi skalauntuk person sebesar βn yang berasosiasidengan varians parameter, ditentukan olehbesarnya indeks separasi person sebesarS. Indeks separasi person itulah yangdianggap sama dengan koefi sien reliabilitastes (Wright & Masters, 1982: 106). Namun,tetap harus diperhatikan bahwa perhitunganbesarnya error pengukuran pada indekssparasi person berbeda dengan perhitunganerror varians pada CTT (Keeves & Masters,1999: 275-276).

File ini menyajikan pesebaran res-ponden menurut tingkat kemampuannyadan persebaran butir menurut tingkatkesukarannya dalam logit -2,0 sampai +2,0.Dari 40 butir soal yang dibuat, terdapat duasoal berkategori sangat mudah, delapan soalberkategori mudah, 25 soal berkategorisedang, empat soal berkategori sukar dansatu soal berkategori sangat sukar. Butir tesnomor sembilan dianggap soal yang palingmudah dan nomor 16 sebagai soal yangpaling sukar.

Reliabilitas soal sebagai parameteryang ketiga mempunyai nilai 0,97 sehinggates dianggap mempunyai reliabilitassangat tinggi. Realibilitas ini terlihat darioutput program Quest yang menyajikanhasil realiabilitas tes menurut CTT, yakniberupa indeks konsistensi internal, yanguntuk penskor an politomus merupakanindeks alpha Cronbach dan untuk penskoran dikotomus merupakan indeks KR-20(Raymond & Siek-Toon, 1996: 93). Iniberarti bahwa dengan program Quest dapatdiperoleh item atau butir dan testi yang fi t,disertai dengan reliabilitas instrumen testersebut.

Langkah selanjutnya adalah me-lakukan estimasi kemampuan responden.Kemampuan responden dapat dilihatdari banyaknya butir yang dapat dijawabdengan benar. Semakin banyak butiryang dapat dijawab dengan benar, makakemampuan responden semakin tinggi.Estimasi kemampuan responden dapatdilihat pada fi le teta pada nilai estimate.Sampel pada penelitian ini sebanyak 1363responden peserta UAS Mata PelajaranFisika SMA di Lombok Timur tahun 2015.Hasil analisis menunjukkan bahwa 254responden (18,63%) memiliki kemampuantinggi, 753 responden (55,25 %) memilikikemampuan sedang, dan 356 responden(26,12%) memiliki kemampuan rendah.

Peta butir dan responden meng-gambarkan distribusi tingkat kesukaranbutir dan kemampuan responden secarabersamaan dalam skala logit. Butir soalyang paling sukar yaitu butir item 23yang berada di bagian teratas peta dengantingkat kesukaran bernilai 2,27 sedangkanbutir soal yang paling mudah adalah butirsoal nomor 39 dengan tingkat kesukaranbernilai -2,63. Kemampuan resondentertinggi terlihat pada tanda silang teratasyaitu bernilai 2,23 dan terendah -2,18.Dari analisis kualitas butir 40 soal pilihanganda UAS Mata Pelajaran Fisika SMA dikabupaten Lombok Timur tahun pelajaran2014/2015 secara kuantitatif baik menurutpendekatan teori respon butir.

Setelah dilakukan analisis butirberdasarkan data empirik hasil UASMata Pelajaran Fisika SMA di KabupatenLombok Timur tahun 2015, langkahselanjutnya adalah menganalisis ketidak-wajaran (inappropriateness) skor testersebut. Ada dua teknik yang digunakandalam menganalisis ketidakwajaran skorpada penelitian ini, yaitu teknik itu adalahpersonal biserial dan caution index.

Dadan R. dan Sukardiyono: Analisis Butir dan Identifi kasi...

Page 9: SKOR UJIAN AKHIR SEKOLAH UNTUK STANDARISASI PENILAIAN ...

138

Teknik personal biserial digunakanuntuk melihat kesesuaian pola jawabanskor individu pada semua butir soaldan dibandingkan dengan pola jawabanskor kelompok. Pada teknik ini diguna-kan tingkat kesukaran yang dinyatakandalam skala delta. Apabila pola jawabanindividu sesuai dengan pola jawabanpada kelompok maka skor individu akandinyatakan wajar. Sebaliknya, apabila polaskor yang diperoleh individu tidak sesuaidengan pola skor kelompok maka skorindividu dinyatakan tidak wajar.

Nilai negatif pada indeks menunjukkanbahwa pada peserta ujian tersebut tidakterlihat adanya perbedaan kemampuanuntuk menyelesaikan butir soal yangmudah dan sukar. Sebaliknya jika indeksperson biserial semakin besar, maka padapeserta tersebut terlihat jelas perbedaankemampuan untuk menyelesaikan butirsoal yang mudah dan sukar. Apabila padapeserta ujian tidak terlihat jelas perbedaankemampuannya antara butir mudah dansukar, maka dapat dinyatakan bahwaterdapat ketidakwajaran skor pada pesertatersebut.

Hasil perhitungan, individu yang ter-deteksi mempunyai skor tidak wajar padaSMA hanya 2,49% dari 1363 responden.Dari 15 sekolah yang menjadi sampel hanyaempat sekolah yang terdeteksi mempunyaiketidakwajaran skor. Dari 34 respondenyang terdeteksi mempunyai ketidakwajar-an skor, 16 responden tersebut berasal darisatu sekolah sampel.

Berdasarkan perhitungan denganteknik caution index, hanya 254 peserta(18,64%) yang dinyatakan mempunyai skoryang wajar. Untuk indeks rendah dan dapatditolerir terdeteksi 662 peserta (48,57%)ujian. Selanjutnya 267 peserta (19,59%)terkategori mempunyai indeks ketidakwajaran sedang. Pada indeks kategori ting-gi diperoleh angka 132 peserta (9,68%).

Hanya 41 peserta (3,01%) yang dinyatakanmempunyai indeks yang sangat tidak wajardan tujuh peserta (0,51%) mempunyaiindeks negatif.

Analisis selanjutnya dengan meng-gunakan teknik person-fi t statistic yangdidasarkan pada output Quest. Analisishasil UAS Mata Pelajaran Fisika SMA diKabupaten Lombok Timur, diperoleh angka2,78% responden (38 orang) mempunyaiskor tidak wajar. Berdasarkan hasil ter-sebut, maka dapat dikatakan bahwa jumlahpeserta yang mempunyai skor tidak wajartergolong rendah.

Berdasarkan hasil analisis butir soalsecara empiris menggunakan programQuest dari jawaban UAS Mata PelajaranFisika tahun 2015 di Lombok Timur, terlihatbahwa pada dasarnya telah diperolehbutir-butir tes yang cocok dengan modelRasch. Berdasarkan hal itu, akuntabilitaspengukuran telah dapat dipenuhi sebagai-mana yang diharapkan. Hasil penelitianini juga sangat memudahkan guruketika ditugasi untuk membantu satuanpendidikan melakukan analisis butirsoal untuk memenuhi bukti empiris dilapangan, sehingga dapat meningkatkankualitas butir soal sampai menjadi soalyang terstandar.

Analisis butir soal dalam rangka me-ngembangkan soal UAS terstandar sangatdibutuhkan mengingat sudah banyaksatuan pendidikan SMA yang membuatsendiri soal ujian sekolah. Teknik analisisinipun penting untuk digunakan dalamstandarisasi soal tes yang dikembangkanoleh Dinas Pendidikan maupun MGMPsehingga dapat diketahui kualitas soaltersebut setelah dikerjakan oleh siswanya.Informasi dari kualitas butir soal tersebutmenjadi masukkan dalam pengembanganperangkat butir soal UAS selanjutnya.

Berdasarkan temuan hasil analisisbutir menggunakan Quest , maka di

JURNAL KEPENDIDIKAN, Volume 45, Nomor 2, November 2015, Halaman 130-141

Page 10: SKOR UJIAN AKHIR SEKOLAH UNTUK STANDARISASI PENILAIAN ...

139

lapangan yang berkait dengan penyusun-an soal UAS yang terstandar, perlu direali-sasikan upaya standarisasi tes berbasissekolah atau MGMP. Satuan pendidikanharus mensikapi hal ini sebagai suatubentuk otonomisasi dalam penilaianpeserta didik sebagaimana dituntut didalam Peraturan Menteri Pendidikan danKebudayaan Republik Indonesia Nomor3 Tahun 2013 tentang Kriteria KelulusanPeserta Didik dari Satuan Pendidikandan Penyelenggaraan Ujian Sekolah/Madrasah/Pendidikan Kesetaraan danUjian Nasional. Terlebih dengan adanyakebijakan penyelenggaraan penerimaanmahasiswa baru oleh perguruan tingginegeri yang menggunakan Pangkalan dataSekolah yang berisi nilai perolehan siswaberdasarkan data hasil ujian oleh sekolahyang bersangkutan.

D a l am p e n g g u n a an p r o g r a manalisis butir seperti Quest, kesulitanmemahami menu beserta pemanfaatannyaketika melakukan konversi merupakanpermasalahan yang biasa terjadi dikalangan pendidik. Kondisi dapat diatasidengan cara mengintensifkan pemanfaat-an program analisis data hasil ujianuntuk memperoleh bukti secara empiris,kalau perlu dicanangkan sebagai suatutuntutan yang harus dipenuhi oleh setiapsatuan pendidikan. Kebijakan yangmulai dilaksanakan pada tahun 2015,bahwa setiap satuan pendidikan wajibmelaksanakan ujian sekolah untuk matapelajaran yang diujikan secara nasionalakan menjadi momen penting untukdijadikan modal bagi satuan pendidikanuntuk memberikan bukti empiris ataskualitas tes yang diujikan melalui ujiansekolah.

Diskusi selanjutnya adalah berkaitandengan indeks ketidakwajaran soal, yangjuga penting untuk bahan pembuatankebijakan tentang pelaksanaan ujian

sekolah. Hasil penelitian menunjukkanbahwa 3,01% sampel mempunyaiketidakwajaran, dan 9,68% sampel yangdiambil mempunyai tingkat ketidak-wajaran yang tinggi. Hal ini secarasederhana menunjukkan bahwa denganteknik korelasi person biserial, skorpeserta dinyatakan tidak wajar apabilamemperoleh indeks negatif. Namunjika dibandingkan dengan korelasi pointbiserial atau korelasi point biserial untukbutir soal, maka selayaknya peserta yangmendapat indeks mendekati nol jugaharus dinyatakan merupakan skor tidakwajar. Sebagai pembanding dapat kitalihat indeks daya beda butir soal yangdinyatakan oleh Ebel (dalam Crocker &Algina, 1986).

Untuk klasifikasi yang digunakanpeneliti tentang cuation index, diperlukananalisis yang lebih mendalam dengancara melakukan replikasi, sehingga dapatdilihat sejauh mana klasifi kasi tersebutefektif. Naga (1992) menyatakan tentangpendapat para ahli yang menyatakanbahwa apabila indeks semakin besar makaskor tersebut semakin tidak wajar dansebaliknya apabila semakin kecil makaskor tersebut semakin wajar.

Berdasarkan hasil analisis meng-gunakan personal biserial dan cautionindex , tentang ketidakwajaran skorterlihat bahwa antara grup satuanpendidikan tidak terjadi perbedaan yangsignifikan. Namun pada ada beberapasekolah, yang indeks ketidakwajaransangat berbeda dengan sekolah yanglain. Ada sekolah yang respondennyamempunyai indeks ketidakwajaran yangcukup tinggi. Sebaliknya ada sekolah yangmempunyai peserta ujian relatif sedikitterindikasi ketidakwajaran skornya. Halini memperlihatkan bahwa kebijakan danfairness setiap sekolah berbeda tentangpelaksanaan ujian sekolah.

Dadan R. dan Sukardiyono: Analisis Butir dan Identifi kasi...

Page 11: SKOR UJIAN AKHIR SEKOLAH UNTUK STANDARISASI PENILAIAN ...

140

SIMPULANBerdasarkan hasil penelitian dan

pembahasan, dapat dikemukakan beberapasimpulan sebagai berikut ini. Pertama,telah didapatkan hasil kajian empiriktentang kualitas butir soal pada UAS MataPelajaran Fisika di Kabupaten LombokTimur tahun 2015 dengan menggunakanteori respon butir, dan telah teridentifi kasiketidakwajaran (inappropriateness) skortes tersebut. Hasil analisis program Questyang telah diteliti adalah bagian outputmenurut teori respon butir, yang terdiri dari:kecocokan dengan model, tingkat kesukaranbutir tes, reliabilitas soal, dan estimasikemampuan responden. Kedua, sebagianbesar soal dinyatakan cocok dengan modelRasch karena nilai infi t meansquare-nya0,77-1,30, kecuali soal nomor 14 dinyatakangugur dengan nilai outfi t t-nya 2,15. Dari40 butir soal yang dibuat, terdapat 2 soalberkategori sangat mudah, 8 soal berkategorimudah, 25 soal berkategori sedang, 4 soalberkategori sukar dan 1 soal berkategorisangat sukar. Reliabilitas soal sebagaiparameter yang ketiga mempunyai nilai0,97 sehingga tes dianggap mempunyaireliabilitas sangat tinggi. Ketiga, hasilperhitungan dengan teknik caution index,18,64 % mempunyai skor yang wajar,indeks rendah dan dapat ditolerir terdeteksi48,57%, 19,59% terkategori mempunyaiindeks ketidak wajaran sedang, indekskategori tinggi 9,68%, dan 3,01% dinyatakanmempunyai indeks yang sangat tidak wajar.Keempat, hasil perhitungan dengan teknikperson-fi t statistic dari output Quest, terdapat2,78% responden mempunyai skor tidakwajar. Hasil tersebut menunjukkan bahwajumlah peserta yang mempunyai skor tidakwajar tergolong rendah.

DAFTAR PUSTAKABond, T.G., & Fox, C.M. 2007. Applying

the Rasch Model: Fundamental Mea-

surement in The Human Sciences.Mahwah, NJ: Lawrence ErlbaumAssociates.

Crocker, L., & Algina, J. 1986. Introduc-tion to Classical and Modern TestTheory. New York: CBS CollegePublishing.

Hayati, N., & Mardapi, D. 2014. “Pengem-bangan Butir Soal Matematika SD diKabupaten Lombok Timur sebagaiUpaya dalam Pengadaan Bank Soal”.Jurnal Kependidikan, 44(1), 26-38.

Hulin, C.L., Drasgow, F., & Parsons,C.K. 1983. Item Response Theory:Application to Psychological Mea-surement. Homewood, IL: Dow Jones-Irwin.

Isgiyanto, A. 2013. “PerbandinganPenyekoran Model Rasch dan ModelPartial Credit pada Matematika”.Jurnal Kependidikan, 43(1), 9-18.

Keeves, J., & Alagumalai, S. 1999.Advances in Measurement in ScienceEducation. In Fraser, B. & Tobin,K. (Eds.), International Handbookof Science Education. Great Britain:Kluwer Academic Publishers.

Keeves, J.P., & Masters, G.N. 1999.Introduction. In Masters, G.N. &Keeves, J.P. (Eds), Advences in Mea-surement in Educational Research andAssessment. Amsterdam: PergamonAn Imprint of Elsevier Science.

Li, Z. 2014. "Power and Sample SizeCalculations for Logistic RegressionTests for Differential Item Functioning".Journal of Educational Measurement.51(4), 441-462.

Mardapi, D., Haryanto, & Hadi, S. 2012.“Pengujian Hasil Belajar dan PenilaianPendidikan Berbantuan Komputer”.Jurnal Kependidikan, 42(2), 130-143.

Naga, D.S. 1992. Pengantar Teori Skorpada Pengukuran Pendidikan. Jakarta:Penerbit Gunadarma.

JURNAL KEPENDIDIKAN, Volume 45, Nomor 2, November 2015, Halaman 130-141

Page 12: SKOR UJIAN AKHIR SEKOLAH UNTUK STANDARISASI PENILAIAN ...

141

Naga, D.S. 2001. "Indeks Kehati-hatianSkor Responden pada Model SHL:Suatu Bentuk Indeks Ketidakwajaranpada Skor Ujian". Jurnal IlmiahPsikologi ”Arkhe”, 6(1), April 2001.

Nitko, A.J. 1996. Educational Assessmentof Students. (2nd eds). Columbus Ohio:Prentice Hall.

Peraturan Menteri Pendidikan danKebudayaan Republik IndonesiaNomor 3 Tahun 2013 tentang KriteriaKelulusan Peserta Didik dari SatuanPendidikan dan PenyelenggaraanUjian Sekolah/Madrasah/PendidikanKesetaraan dan Ujian Nasional.

Raymond, A.J. & Siek-Toon, K. 1996.Quest. The Interactive Test Analysussystem. The Australian Council forEducational Research.

Rudner, L.M. 1983. "Individual AssessmentAccuracy". Journal of EducationalMeasurement, 20, 207-219.

Setiadi, H. 1999. "Penggunaan ProgramBigstep untuk Pengembangan BankSoal". Makalah, tidak diterbitkan.

Sugiyono . 2012. Metode PenelitianKombinsasi. Bandung: Alfabeta.

Tendeiro, J.N., & Meijer, R.R. 2014."Detection of Invalid Test Scores: TheUsefulness of Simple NonparametricStatistics". Journal of EducationalMeasurement, 51(3), 239-259.

Wiersma, W., & Jurs , S .G. 1990.Educational Measurement andTesting. (2nd ed.). Boston: Allyn andBacon.

Wright, B., & Linacre, J. 1992. "Combiningand Splitting Categories". RaschMeasurement Transactions, 6, 233-235.

Wright, B.D., & Masters, G.N. 1982.Rating Scale Analysis. Chicago: MesaPress.

Dadan R. dan Sukardiyono: Analisis Butir dan Identifi kasi...