Post on 26-Mar-2021
7
BAB II STUDI PUSTAKA
2.1 Penelitian Terdahulu
Terdapat beberapa penelitian yang sudah dilakukan mengenai penilaian esai
otomatis diantaranya oleh Bin, et al. (2008), Larkey (1998), Islam & Hoque
(2012), Adhitia & Purwarianti (2009), dan Yustiana (2015).
Dalam penelitian Bin, et al. (2008), penilaian esai otomatis terhadap esai
berbahasa Inggris dilakukan dengan metode klasifikasi dokumen dengan
algoritma machine learning k-nearest neighbor (KNN). Dalam penelitiannya, Bin,
et al. (2008) melakukan proses preprocessing berupa tokenizing dan stopword
removal. Lalu mengubah data tersebut menjadi bentuk vektor yang berisi bobot
masing-masing term dengan metode pembobotan term frequency – inverse
document frequency (TF-IDF). Setelah diperoleh bobot untuk setiap data latih dan
data uji selanjutnya dilakukan perhitungan cosine similarity pada data uji dan
seluruh data latih.
Dalam penelitian Larkey (1998), penilaian esai otomatis terhadap esai berbahasa
inggris juga dilakukan dengan metode klasifikasi dokumen dengan algoritma
machine learning bayesian dan KNN. Namun berbeda dengan penelitian Bin, et
al. (2008), Larkey (1998) tidak menggunakan term sebagai fitur yang
dibandingkan antar esai, namun menggunakan fitur berupa informasi jumlah
karakter, jumlah kata, jumlah kalimat, rata-rata panjang kata, dan jumlah kata yang
unik.
Dalam penelitian Islam & Hoque (2012), Adhitia & Purwarianti (2009), dan
Yustiana (2015), penilaian esai otomatis dilakukan dengan menggunakan metode
latent semantic analysis (LSA). LSA merupakan metode yang memanfaatkan
model statistik matematis untuk menganalisis struktur semantik dari suatu teks
sehingga dapat dilihat kemiripan makna antara satu dokumen dengan dokumen
lainnya.
Bab II Studi Pustaka 8
Dalam penilaian esai, LSA membentuk matriks term yang berasal dari
kemungkinan jawaban esai yang muncul. Matriks ini kemudian mengalami
dekomposisi dan reduksi dimensi yang merepresentasikan ruang semantik.
Penilaian dilakukan dengan mengukur kemiripan antara esai yang akan dinilai
dengan esai pembanding berdasarkan ruang semantik yang dibuat. Esai
pembanding yang digunakan dalam penelitian Adhitia & Purwarianti (2009) dan
Yustiana (2015) yaitu esai pembanding yang digunakan yaitu kunci jawaban yang
telah disiapkan oleh human rater.
Berdasarkan penelitian terdahulu, penilaian esai otomatis dapat disimpulkan
terbagi menjadi dua pendekatan yaitu:
1. Pendekatan semantik
Pendekatan ini menggunakan metode LSA. Penilaian dilakukan dengan
mengukur kemiripan antara esai yang akan dinilai dengan esai pembanding.
2. Pendekatan klasifikasi
Pendekatan ini dilakukan dengan menganggap apabila penilaian esai otomatis
termasuk ke dalam permasalahan klasifikasi dokumen yang dapat
diselesaikan dengan machine learning.
Pendekatan yang digunakan dalam penelitian ini yaitu pendekatan klasifikasi.
Pendekatan semantik memerlukan adanya golden essay atau kunci jawaban yang
telah disiapkan oleh human rater. Di sisi lain, Sudjana (1995) menyatakan bahwa
esai merupakan bentuk pertanyaan tertulis yang menuntut jawaban: menguraikan,
menjelaskan, membandingkan, memberi alasan dengan menggunakan kata-kata
dan bahasa sendiri, sehingga adanya kemungkinan jawaban dari siswa berbeda
dengan kunci jawaban namun tetap bernilai benar. Dalam pendekatan klasifikasi
dengan machine learning tidak diperlukan adanya golden essay karena esai dinilai
berdasarkan hasil pembelajaran terhadap pola-pola yang ada pada data latih.
Terdapat beberapa algoritma untuk melakukan klasifikasi dengan machine
learning yaitu naive bayes, decision tree, support vector machine (SVM) dan k-
nearest neighbor (KNN) (Segaran, 2007). KNN digunakan sebagai metode
machine learning dalam penelitian ini karena menurut Segaran (2007) KNN
memiliki kelebihan sebagai berikut:
Bab II Studi Pustaka 9
1. Proses reasoning-nya yang dapat mudah dipahami dan dengan sedikit
modifikasi pada algoritma KNN maka dapat terlihat neighbor manakah yang
dipilih.
2. Termasuk ke dalam online technique yang berarti data baru dapat
ditambahkan kapan pun. Berbeda dengan metode SVM, jika terdapat data
baru maka harus mengulangi proses training, sedangkan pada KNN data baru
tersebut cukup dimasukkan ke dalam set tanpa perlu proses komputasi
kembali.
KNN digunakan sebagai algoritma klasifikasi dalam beberapa penelitian
diantaranya yaitu Batal & Hauskrecht (2009), Nikhath, et al. (2016) dan Bin, et al.
(2008). Dalam penelitian Nikhath, et al. (2016), KNN diimplementasikan dengan
cara yang sama dengan yang dilakukan oleh Bin, et al. (2008) yaitu pembentukan
vektor data latih dan data uji yang berisi bobot setiap term menggunakan TF-IDF.
Selanjutnya dilakukan perhitungan kemiripan antara data latih dengan data uji
menggunakan cosine similarity. Dalam penelitian Batal & Hauskrecht (2009),
terdapat perbedaan pada proses pembobotan termnya yaitu tidak hanya
menggunakan TF-IDF, namun juga menggunakan metode supervised term
weighting TF-Chi2.
Pembobotan term terbagi ke dalam dua jenis yaitu unsupervised term weighting
dan supervised term weighting (Lan, et al., 2009). Dalam metode unsupervised
term weighting, proses pembobotan term tidak memperhitungkan informasi
keanggotaan pada kategori atau label yang ada pada data latih. Dalam metode
supervised term weighting informasi label dilibatkan dalam proses pembobotan
term.
Dalam kasus klasifikasi dokumen, penggunaan metode unsupervised term
weighting berupa TF-IDF lebih umum digunakan seperti pada penelitian Nikhath,
et al. (2016) dan Bin, et al. (2008). Padahal dalam beberapa penelitian, metode
supervised term weighting telah dibuktikan dapat menghasilkan performa yang
lebih baik dibandingkan metode unsupervised term weighting. Beberapa
diantaranya yaitu Lan, et al. (2009), Deng, et al. (2004), dan Batal & Hauskrecht
(2009).
Bab II Studi Pustaka 10
Lan, et al. (2009) membuat metode pembobotan supervised term weighting TF-
RF dan membuktikan bahwa TF-RF dapat menghasilkan akurasi lebih baik
dibandingkan metode lainnya. Deng, et al. (2004) dan Batal & Hauskrecht (2009)
melakukan perbandingan penggunaan metode supervised term weighting TF-Chi2
dan unsupervised term weighting TF-IDF. Hasil dari dua penelitian tersebut
menyimpulkan bahwa penggunaan metode supervised term weighting TF-Chi2
lebih baik dibanding TF-IDF.
Penilaian esai otomatis dalam penelitian ini menggunakan metode machine
learning KNN sebagaimana yang telah dilakukan oleh Bin, et al. (2008). Namun
berbeda dengan Bin, et al. (2008) yang hanya menggunakan metode unsupervised
term weighting, penelitian ini membandingkan hasil performa berupa akurasi dari
penilaian otomatis jika menggunakan metode supervised term weighting dan
unsupervised term weighting mengacu pada penelitian yang dilakukan oleh Lan,
et al. (2009), Deng, et al. (2004), dan Batal & Hauskrecht (2009). Selain itu juga
ada pengembangan terhadap metode preprocessing yang digunakan. Dalam
penelitian Bin, et al. (2008) metode preprocessing yang digunakan hanya
tokenizing dan stopword removal, padahal tahap preprocessing dapat
meningkatkan akurasi dari sistem penilaian esai otomatis (Islam & Hoque, 2012).
2.2 Esai
Terdapat beberapa definisi mengenai esai yaitu:
1. Esai adalah karangan atau prosa yang membahas suatu masalah secara
sepintas dari sudut pandang pribadi penulisnya (Kamus Besar Bahasa
Indonesia).
2. Esai merupakan alat penilaian hasil belajar dalam bentuk pertanyaan tertulis
yang menuntut jawaban: menguraikan, menjelaskan, membandingkan,
memberi alasan dengan menggunakan kata-kata dan bahasa sendiri (Sudjana,
1995).
Esai yang digunakan dalam penelitian ini merupakan esai dengan definisi kedua.
Berdasarkan jenis jawaban yang diberikan, Grondlund & Linn (1990)
mengelompokkan tes esai ke dalam dua kelompok yaitu tes esai terbuka (Extended
Response Question) dan tes esai terbatas (Restricted Response Item).
Bab II Studi Pustaka 11
Dinamakan tes esai terbatas karena pertanyaan dalam tes tersebut memiliki
batasan yang ketat terhadap jawaban yang harus diberikan oleh siswa. Batasan
yang dimaksud yaitu dalam bentuk permasalahan yang sudah terdefinisi dengan
jelas, atau jawaban yang sudah ditentukan spesifikasinya yang ditunjukkan dengan
penggunaan kata sebutkan, jelaskan atau berikan alasan. Berikut contoh soal esai
yang termasuk dalam tes esai terbatas menurut Grondlund & Linn (1990).
1. Jelaskan pengaruh penggunaan tes pilihan ganda dan tes esai dalam
pengukuran hasil belajar pada tingkat pemahaman. Batasi jawaban anda
dalam satu halaman.
2. Mr. Rogers, seorang guru sains untuk kelas sembilan ingin mengukur
kemampuan siswanya dalam menginterpretasikan data ilmiah dengan tes
tertulis.
a. Sebutkan langkah-langkah yang harus dilakukan oleh Mr.Rogers untuk
melakukan tes tertulis tersebut.
b. Berikan alasan mengapa langkah tersebut harus dilakukan.
Berbeda dengan tes esai terbatas, pada tes esai terbuka siswa diberikan kebebasan
sepenuhnya terhadap format maupun ruang lingkup dari jawaban yang akan
diberikan. Walaupun diberikan kebebasan, pada umumnya tetap diberikan batasan
berupa waktu atau jumlah halaman. Dengan diberikan kebebasan, maka suatu
jawaban dapat dinilai benar dari berbagai sudut pandang. Berikut contoh soal esai
yang termasuk dalam tes esai terbuka menurut Grondlund & Linn (1990).
1. (Siswa diberikan data mengenai hasil pencapaian dari suatu tes) Tulis evaluasi
terhadap data yang diberikan dengan menggunakan kriteria dan aturan
evaluasi yang dijelaskan pada buku acuan anda. Tuliskan juga analisis yang
detail terhadap kelebihan dan kekurangan tes tersebut dan evaluasi secara
keseluruhan terhadap kualitas dan efektivitasnya.
Dalam penelitian ini, esai yang digunakan yaitu esai dari tes esai terbatas. Tes esai
terbatas digunakan karena jawaban sudah ditentukan spesifikasinya. Berbeda
dengan tes esai terbuka yang tidak memiliki spesifikasi sehingga bentuk jawaban
apapun dapat bernilai benar. Penggunaan esai terbatas juga disarankan oleh
Direktorat Jenderal Pendidikan Tinggi (2010) karena memperkecil kemungkinan
Bab II Studi Pustaka 12
salah penafsiran siswa terhadap maksud dari pertanyaan dan penilai dapat
memberikan nilai yang lebih objektif dan konsisten untuk setiap jawabannya.
Dalam proses penilaian esai, Rbigausk.disted.camosun.bc.ca (2004) menyatakan
ada empat elemen penting yaitu :
1. Content
Konten adalah informasi yang terdapat dalam esai.
2. Organization
Organization adalah struktur hubungan antar konten yang terdapat dalam esai.
Setiap fakta yang disebutkan harus konsisten dan ada korelasinya.
3. Style
Style adalah gaya penulisan dari esai. Style melibatkan pemilihan diksi dan
susunan kata dalam esai.
4. Writing mechanics
Writing mechanics mengacu pada tata cara penulisan sesuai dengan bahasa
yang digunakan.
Dalam penelitian ini, penilaian esai dilakukan berdasarkan konten dengan
menggangap esai sebagai kumpulan kata (bag of word) dengan struktur, gaya
penulisan dan kebenaran penulisan diabaikan.
2.3 Data Preprocessing
Dalam bidang text mining, untuk mengambil informasi dari suatu teks dikenal
suatu tahap yang dinamakan data preprocessing. Tahap preprocessing dilakukan
untuk menghilangkan noise yang terdapat dalam data mentah sehingga dapat
menjadi data yang baik untuk proses selanjutnya. Dalam tahap preprocessing ini
data esai diubah menjadi kumpulan kata (bag of word) dengan struktur, gaya
penulisan, dan kebenaran penulisan diabaikan.
Tahap data preprocessing yang dilakukan pada penelitian ini yaitu stopword
removal, stemming dan n-gram seperti yang dilakukan oleh Islam dan Hoque
(2012), dengan tambahan tahap preprocessing case folding dan tokenizing seperti
yang dilakukan oleh Lestari, et al. (2013). Berikut langkah data preprocessing
yang dilakukan dalam penelitian ini.
Bab II Studi Pustaka 13
1. Case Folding
Proses untuk mengubah huruf besar ke huruf kecil dalam dokumen,
dilanjutkan dengan menghapus karakter selain ‘a’ sampai ‘z’ (Lestari, et al.,
2013).
2. Tokenizing
Proses untuk memisahkan kalimat menjadi per kata atau term. Tanda spasi
digunakan untuk memisahkan antar term (Lestari, et al., 2013).
3. Stopword Removal
Stopword adalah kata-kata umum dalam dokumen yang tidak memberikan
informasi penting terkait dokumen tersebut (Vijayarani, et al., 2014). Proses
ini dilakukan untuk mengurangi jumlah term yang harus diproses. Vijayarani,
et al. (2014) menyatakan terdapat 4 metode untuk menghilangkan stopword
yaitu:
a. The Classic Method
Metode ini menghilangkan stopword yang diperoleh dari daftar atau
kamus stopword yang sudah ada.
b. Methods based on Zipf’s Law (Z-Methods)
Metode ini menggunakan tiga cara untuk menemukan stopword
berdasarkan Zipf’s Law yaitu : menghilangkan kata yang paling sering
muncul (nilai term frequency tinggi), menghilangkan kata yang hanya
muncul satu kali dan menghilangkan kata dengan nilai inverse document
frequency yang rendah.
c. The Mutual Information Method (MI)
Metode ini merupakan supervised method yang bekerja dengan
menghitung mutual information antara suatu term dengan kategori
dokumen, menghasilkan informasi seberapa penting suatu term terhadap
suatu kategori. Apabila suatu term memiliki nilai mutual information
yang rendah maka term tersebut dihapus karena dianggap tidak
mencirikan suatu kategori tertentu.
d. Term Based Random Sampling
Metode ini mendeteksi sendiri stopword yang ada dalam dokumen. Cara
kerja metode ini yaitu melakukan iterasi terhadap potongan data yang
Bab II Studi Pustaka 14
diambil secara acak, lalu mengurutkan setiap term yang ada berdasarkan
nilai Kullback-Leibler. Stopword dibuat berdasarkan term yang nilai
Kullback-Leibler-nya rendah.
Metode yang digunakan dalam penelitian ini yaitu the classic method karena
merupakan metode yang paling mudah dan umum digunakan. Kamus
stopword yang digunakan pada penelitian ini yaitu kamus stopword bahasa
indonesia yang dibuat oleh Tala (2003).
4. Stemming
Stemming adalah proses untuk mengembalikan suatu term ke dalam bentuk
dasarnya menggunakan aturan tertentu. Contohnya pada kata bersatu,
menyatu, menyatukan, dan kesatuan. Kata-kata tersebut dikembalikan ke
bentuk dasarnya yaitu “satu”. Tujuan dari stemming yaitu untuk
menghilangkan imbuhan, mengurangi jumlah kata, mengurangi waktu proses
dan besar memori untuk penyimpanan (Vijayarani, et al., 2014).
Proses untuk stemming pada masing-masing bahasa berbeda karena terdapat
perbedaan morfologi antar bahasa. Proses stemming dalam bahasa indonesia
lebih rumit dibandingkan pada bahasa inggris karena terdapat banyak variasi
imbuhan yaitu prefiks, sufiks dan konfiks (Agusta, 2009). Algoritma
stemming yang digunakan pada penelitian ini yaitu algoritma Nazief &
Adriani. Algoritma Nazief & Adriani digunakan karena pada penelitian yang
dilakukan oleh Agusta (2009) menyimpulkan bahwa algoritma Nazief &
Adriani mendapatkan hasil yang lebih akurat dibandingkan algoritma Porter
dalam proses stemming bahasa Indonesia.
5. N-gram
N-gram adalah urutan sekuensial dari n buah kata (Jurafsky & Martin, 2014).
Misalnya terdapat kalimat sebagai berikut: “Please turn your homework”,
maka 2-gram atau bigram adalah kumpulan kata secara berurutan yang
dibentuk dengan 2 kata seperti “Please turn”, “turn your”, “your homework”.
Terminologi n-gram dapat merujuk pada dua makna yaitu n-gram yang
merupakan kumpulan kata yang berurutan (word sequence) dan n-gram yang
merupakan predictive model dengan memanfaatkan probabilitas (Jurafsky &
Martin, 2014).
Bab II Studi Pustaka 15
N-gram sebagai predictive model digunakan dalam kasus spelling correction,
speech recognition dan handwritting recognition. Probabilitas digunakan
untuk memprediksi kemungkinan urutan kata yang benar (Jurafsky & Martin,
2014). Dalam penelitian ini, karena esai dianggap sebagai kumpulan kata (bag
of word) dengan struktur penulisan diabaikan, maka n-gram yang dimaksud
adalah n-gram yang merupakan kumpulan kata yang berurutan (word
sequence). N-gram digunakan karena adanya kemungkinan kata kunci dalam
suatu esai itu berupa frasa.
Penerapan n-gram dalam penelitian ini dilakukan mengikuti penelitian Cui, et
al. (2006) dan Khreisat (2006) yaitu hasil dari n-gram yang berupa kata atau
frasa dijadikan fitur untuk proses klasifikasi. Kata atau frasa tersebut pada
tahap berikutnya diberikan bobot dengan menggunakan metode term
weighting.
Nilai n dari n-gram yang digunakan dalam penelitian ini yaitu kombinasi 1-
gram (unigram) dan 2-gram (bigram). Kombinasi ini dipilih karena mengikuti
saran dari Pang et al. (2002) dalam Cui, et al. (2006) yang menyatakan bahwa
penggunaan kombinasi unigram dan bigram dapat memberikan performa
yang lebih baik dibandingkan dengan hanya menggunakan bigram saja.
2.4 Machine Learning
Machine learning adalah salah satu disiplin ilmu dalam bidang computer science
yang bertujuan untuk membuat komputer yang memiliki kecerdasan seperti
manusia. Proses untuk mencapai tujuan tersebut dilakukan dengan cara membuat
komputer dapat belajar dari setiap proses yang telah dilakukannya.
Terdapat dua macam pendekatan dalam machine learning yaitu supervised
learning dan unsupervised learning (Polamuri, 2014). Supervised learning
menganalisis data latih yang sudah diberikan label untuk mendapatkan suatu
fungsi yang dapat menentukan label bagi data uji, sedangkan unsupervised
learning menganalisis data latih yang tidak memiliki label untuk menemukan
struktur tertentu (Polamuri, 2014).
Dalam kasus penilaian esai otomatis, pendekatan machine learning yang
digunakan yaitu supervised learning, karena dalam data latih telah tersedia label
Bab II Studi Pustaka 16
berupa nilai dari esai yang diberikan oleh penilai manusia. Terdapat beberapa
algoritma yang dapat digunakan dalam supervised learning menurut Segaran
(2007) yaitu:
1. Naive Bayes
Metode ini melihat probabilitas suatu kata dalam dokumen termasuk ke dalam
kategori yang spesifik. Metode ini didasarkan pada teorema Bayes.
2. Decision Tree
Dalam metode ini dapat dilihat proses klasifikasinya secara transparan.
Metode ini setelah proses training menghasilkan kumpulan statement if-then
yang dibentuk ke dalam tree.
3. Support Vector Machine (SVM)
Metode ini akan membuat model prediksi dengan cara membuat garis batas
antara dua kategori dalam data. SVM memprediksi suatu data masuk ke dalam
kategori tertentu dengan menggunakan numerical input dari dataset tersebut.
4. K-Nearest Neighbor (KNN)
Metode ini bekerja dengan membuat prediksi numerik dari data yang diuji dan
dibandingkan dengan data latih. Selanjutnya dicari data dengan kemiripan
yang paling tinggi dari data latih tersebut. Data yang baru tersebut
diklasifikasikan sesuai dengan n buah data latih yang kemiripannya paling
tinggi.
Dalam penelitian ini, KNN digunakan karena menurut Segaran (2007) KNN
memiliki kelebihan sebagai berikut:
1. Proses reasoning-nya yang dapat mudah dipahami dan dengan sedikit
modifikasi pada source code KNN maka dapat terlihat neighbor manakah
yang dipilih.
2. Termasuk ke dalam online technique yang berarti data baru dapat
ditambahkan kapan pun. Berbeda dengan metode SVM, jika terdapat data
baru maka harus mengulangi proses training, pada KNN data baru tersebut
cukup dimasukkan ke dalam set tanpa perlu proses komputasi kembali.
Bab II Studi Pustaka 17
2.5 K-Nearest Neighbor (KNN)
KNN merupakan salah satu metode dalam machine learning. KNN adalah metode
untuk mengklasifikasikan suatu objek berdasarkan data latih yang jaraknya paling
dekat dengan objek tersebut. Cara kerja KNN yaitu data latih diproyeksikan ke
dalam ruang berdimensi banyak. Dimensi ini merepresentasikan fitur data latih
dari tersebut. Objek diklasifikasikan berdasarkan suara terbanyak dari k-buah
tetangga terdekat dari objek tersebut. Gambar 1 merupakan ilustrasi klasifikasi
objek menggunakan KNN.
Gambar 1 Ilustrasi k-nearest neighbor (Wikipedia, 2017)
Dalam gambar 1, dilakukan klasifikasi terhadap data uji yang berupa lingkaran
berwarna hijau apakah masuk ke kelas kotak biru atau segitiga merah. Dengan
menggunakan nilai k = 3, dipilih tiga tetangga terdekat yang diilustrasikan oleh
lingkaran dengan garis solid, data uji akan diklasifikan ke dalam segitiga merah
karena dalam tiga tetangga terdekat terdapat dua segitiga merah dan satu segitiga
biru. Di sisi lain, jika menggunakan nilai k = 5, dipilih lima tetangga terdekat yang
diilustrasikan oleh lingkaran dengan garis putus-putus, data uji akan
diklasifikasikan ke dalam kotak biru karena pada lima tetangga terdekat terdapat
tiga kotak biru dan dua segitiga merah.
Nilai k dari KNN merupakan variabel yang menentukan berapa jumlah data latih
terdekat yang digunakan dalam proses klasifikasi terhadap data uji. Nilai k
sebaiknya menggunakan angka ganjil untuk menghindari hasil voting yang sama
pada dua kelas berbeda (Adeniyi, et al., 2016). Penggunaan nilai k dapat
memengaruhi hasil akurasi dari klasifikasi. Dengan menggunakan nilai k yang
terlalu besar, akurasi yang diperoleh bisa semakin kecil karena KNN ikut
Bab II Studi Pustaka 18
memperhitungkan data latih yang tidak mirip atau jaraknya jauh dari data uji
(Segaran, 2007). Oleh karena itu, nilai k dari KNN yang digunakan dalam
penelitian ini yaitu 1, 3, 5, 7 dan 9.
Untuk menerapkan algoritma KNN dalam penelitian ini, setiap esai data latih dan
esai data uji dimodelkan dalam bentuk vektor sesuai persamaan 1.
𝑑𝑗 = (𝑤1𝑗, 𝑤2𝑗, 𝑤3𝑗 , … , 𝑤𝑖𝑗) (1)
𝑑𝑗 merepresentasikan esai ke-j sedangkan 𝑤𝑖𝑗 merepresentasikan bobot dari term
ke-i dalam esai j. Disebabkan esai data latih lebih dari satu, maka kumpulan vektor
dari masing-masing data esai disebut vector space. Gambar 2 merupakan ilustrasi
vektor space pada diagram kartesius dari masing-masing esai setelah esai
dimodelkan sesuai persamaan 1.
Gambar 2 Ilustrasi vektor data esai pada diagram kartesius (Perone, 2013)
Dalam gambar 2, term berperan sebagai axes, sehingga apabila term semakin besar
maka dimensi dari vector space juga semakin besar. Sentence atau esai adalah
vektor. Posisi dari vektor esai ditentukan berdasarkan bobot dari masing-masing
term pada esai tersebut.
Dengan memodelkan kumpulan esai seperti pada gambar 2, setiap esai dapat
dibandingkan esai lain untuk melihat kemiripannya. Untuk melihat kemiripan
dapat menggunakan persamaan cosine similarity. Cosine similarity menghasilkan
suatu angka yang menyatakan seberapa mirip suatu vektor dengan vektor lainnya
berdasarkan cosine dari angle diantara dua vektor tersebut (Perone, 2013).
Bab II Studi Pustaka 19
Gambar 3 merupakan ilustrasi penggunaan cosine similarity dalam melihat
kemiripan antara dua dokumen.
Gambar 3. Ilustrasi cosine similarity (Perone, 2013)
Dalam gambar 3, dengan menggunakan cosine similarity, dua dokumen dianggap
memiliki kemiripan apabila vektor dari dua dokumen tersebut memiliki arah yang
sama atau besar sudutnya mendekati 0 derajat, sehingga nilai cosine similarity-nya
mendekati 1. Nilai cosine similarity dihitung dengan menggunakan persamaan 2.
𝐶𝑜𝑠𝑖𝑛𝑒 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦(𝑎,⃗⃗⃗ 𝑏𝑖⃗⃗⃗ ) =
𝑎 . 𝑏𝑖⃗⃗⃗
|𝑎 | × |𝑏𝑖⃗⃗⃗ |
(2)
𝑎 merepresentasikan vektor data uji, sedangkan 𝑏𝑖⃗⃗⃗ merepresentasikan vektor data
latih ke-i. Dalam penerapan metode KNN, setelah diperoleh nilai cosine similarity
untuk setiap data latih, selanjutnya data latih diurutkan berdasarkan nilai cosine
similarity mulai dari yang tertinggi. Esai data uji diberikan nilai yang sama dengan
suara terbanyak dari k buah data latih yang memiliki nilai cosine similarity
tertinggi.
Misalnya dengan menggunakan nilai k = 3 dan tiga data latih dengan nilai cosine
similarity tertinggi memiliki nilai A, B, dan A. Data uji diberikan nilai A. Apabila
terdapat lebih dari satu kategori nilai yang memiliki suara terbanyak yang sama,
maka data uji akan diberikan nilai sesuai dengan data latih yang memiliki kategori
nilai dengan suara terbanyak dan nilai cosine similarity-nya tertinggi. Misalnya
dengan menggunakan nilai k = 5 dan lima data latih dengan nilai cosine similarity
tertinggi memiliki nilai A, B, C, B, C. Data uji diberikan nilai B, karena B memiliki
suara lebih banyak dibanding A dan memiliki nilai cosine similarity lebih tinggi
dibanding C.
Bab II Studi Pustaka 20
2.6 Imbalance Dataset
Imbalance dataset merupakan persoalan jumlah data yang tidak seimbang pada
pembelajaran mesin yang mengakibatkan pengklasifikasian cenderung condong
pada kelas mayoritas (Arif, 2015). Dataset disebut imbalance jika representasi dari
suatu kelas berbeda jauh dibandingkan dengan kelas lainnya. Terdapat tiga
kelompok solusi untuk imbalance dataset yaitu kelompok data atau disebut juga
metode sampling, kelompok algoritma dan kelompok hibrid atau gabungan
kelompok data dan algoritma (Arif, 2015).
Dalam penelitian ini, solusi yang digunakan yaitu metode sampling. Terdapat 2
metode dalam sampling yaitu undersampling dan oversampling (Krishnaveni &
Rani, 2011). Metode undersampling akan mengurangi jumlah data dari kelas
mayoritas, sedangkan oversampling akan menambah jumlah data dari kelas
minoritas.
Metode undersampling memiliki kekurangan yaitu adanya kemungkinan data
yang memiliki informasi penting dibuang, sedangkan kekurangan metode
oversampling yaitu adanya kemungkinan overfitting. Overfitting dapat terjadi
karena data pada kelas minoritas diduplikasi sehingga ada kemungkinan data latih
dan data uji merupakan data yang sama (Krishnaveni & Rani, 2011). Penggunaan
oversampling juga dapat menyebabkan waktu proses menjadi lebih lama karena
jumlah data semakin banyak. Berdasarkan pertimbangan kekurangan dari masing-
masing metode sampling, maka dalam penelitian ini metode yang digunakan yaitu
undersampling.
Terdapat dua cara dalam melakukan undersampling yaitu random undersampling
dan informative undersampling (Krishnaveni & Rani, 2011). Dalam random
undersampling, data dari kelas mayoritas yang akan dibuang dipilih secara acak
sampai dataset disebut balance, sedangkan dalam informative undersampling data
yang akan dibuang dipilih berdasarkan aturan tertentu.
Salah satu metode untuk informative undersampling adalah One Sided Selection
(OSS) (Kubat & Matwin, 1997). Metode OSS memiliki kekurangan yaitu hanya
dapat digunakan pada dataset dengan 2 kelas atau binary classification, sedangkan
Bab II Studi Pustaka 21
dataset yang digunakan dalam penelitian ini terdiri dari 2, 3 dan 4 kelas. Oleh
karena itu metode undersampling yang digunakan yaitu random undersampling.
Disebabkan tidak ditemukan referensi mengenai rasio data antar kelas minoritas
dan mayoritas yang disebut balance, maka undersampling dilakukan dengan dua
variasi. Variasi pertama yaitu undersampling sampai rasio data pada kelas
minoritas dan mayoritasnya mencapai 1:1. Variasi kedua yaitu undersampling
sampai rasio data pada kelas minoritas dan mayoritasnya mencapai 1:1.5. Dua
variasi ini dilakukan untuk melihat bagaimana akurasi penilaian terhadap dua rasio
dataset berbeda.
2.7 Metode Untuk Evaluasi Machine Learning Model
Dalam bidang machine learning, output apapun yang dihasilkan setelah proses
training disebut model. Dalam bidang klasifikasi, model digunakan untuk
memberikan label kepada data uji. Dalam penelitian ini, yang dimaksud dengan
model adalah aplikasi dari penilaian esai otomatis yang terdiri dari algoritma
klasifikasi KNN dengan nilai k tertentu, salah satu metode pembobotan term, dan
kumpulan data latih.
Setelah model dihasilkan, perlu dilakukan evaluasi terhadap model tersebut agar
diperoleh suatu nilai yang dapat menentukan apakah model tersebut baik atau
tidak. Dalam penelitian ini, evaluasi terhadap model klasifikasi dilakukan dengan
perhitungan akurasi. Akurasi diperoleh dengan menghitung jumlah esai yang nilai
dari penilaian otomatis sesuai dengan nilai dari human rater dibandingkan jumlah
esai yang dinilai. Menurut Brownlee (2014), terdapat beberapa metode untuk
mengevaluasi model dari machine learning yaitu:
1. Split Test
Split test merupakan metode yang paling sederhana dalam mengevaluasi
model klasifikasi. Dalam metode ini dataset dibagi menjadi dua jenis yaitu
data latih dan data uji berdasarkan komposisi yang telah ditentukan. Misalnya
66% sebagai data latih dan 34% sebagai data uji. Split test cocok digunakan
ketika jumlah dataset yang dimiliki sangat banyak atau terbatasnya resource
(waktu atau hardware) untuk melakukan pengujian. Permasalahan timbul
ketika dilakukan split test ulang, hasil yang didapat bisa berbeda.
Bab II Studi Pustaka 22
Permasalahan ini disebut model variance. Permasalahan lain yaitu dapat
terjadi bias ketika hasil yang didapat bagus karena data uji yang terlalu mudah
untuk diprediksi, atau ketika hasil yang didapat tidak bagus karena data uji
yang terlalu sulit untuk diprediksi.
2. Multiple Split Test
Metode ini merupakan solusi bagi permasalahan model variance yang ada
pada split test. Cara kerja metode ini yaitu melakukan 10 kali pembagian
dataset dan menghitung rata-rata dari hasil 10 pengujian terhadap dataset
tersebut. Di sisi lain, metode ini tidak menyelesaikan permasalahan kedua
yang ada pada split test. Disebabkan masih adanya kemungkinan suatu data
tidak pernah menjadi data uji, dan adanya kemungkinan suatu data selalu
menjadi data uji.
3. Cross Validation
Metode ini merupakan solusi untuk memastikan bahwa setiap data
mendapatkan kesempatan yang sama untuk menjadi data uji dan data latih.
Salah satu contoh dari metode ini yaitu k-fold cross validation. Dengan
menggunakan nilai k = 10, data dibagi ke dalam beberapa partisi yang disebut
dengan fold. Masing-masing fold memiliki jumlah data dengan ukuran yang
sama (atau mendekati sama). Selama k iterasi, dipilih salah satu fold sebagai
data uji, sedangkan fold sisanya digunakan sebagai data latih.
Di sisi lain, metode ini memiliki kekurangan yaitu terlalu bergantung pada
random untuk menentukan komposisi data setiap fold-nya, sehingga jika
dilakukan cross validation ulang terhadap dataset yang sama, hasil yang
diperoleh bisa berbeda karena model variance.
4. Multiple Cross Validation
Metode ini merupakan solusi bagi permasalahan model variance yang ada
pada cross validation. Cara kerjanya sama seperti pada multiple split test yaitu
melakukan perulangan terhadap cross validation, lalu dihitung rata-rata
akurasinya.
Metode yang digunakan dalam penelitian ini yaitu multiple cross validation karena
metode ini dapat mengatasi masalah model variance, dan setiap data pada dataset
memiliki kesempatan yang sama untuk menjadi data latih dan data uji.
Bab II Studi Pustaka 23
2.8 Multiple K-Fold Cross Validation
Cross validation adalah metode statistik yang digunakan untuk mengevaluasi dan
membandingkan algoritma pembelajaran dengan cara membagi data menjadi dua
bagian: satu digunakan untuk belajar atau melatih model, satu untuk menguji
model tersebut (Refaeilzadeh, et al., 2009). Dalam penelitian ini, metode cross
validation digunakan untuk mencari akurasi dari setiap model klasifikasi.
Salah satu bentuk dari cross validation adalah k-fold cross validation. Dalam
metode k-fold cross validation, data dibagi ke dalam beberapa partisi yang disebut
dengan fold. Masing-masing fold memiliki jumlah data dengan ukuran yang sama
atau mendekati sama. Selama k iterasi, dipilih salah satu fold sebagai data uji,
sedangkan sisa k-1 fold dijadikan data latih (Refaeilzadeh, et al., 2009). Gambar 4
merupakan ilustrasi pembagian data dalam 4-fold cross validation.
Gambar 4 Ilustrasi 4-fold cross validation (Wikipedia, 2017)
Dalam gambar 4, seluruh data dibagi menjadi 4 fold dengan setiap fold berisi 5
data. Dalam setiap iterasi, dipilih salah satu fold sebagai data uji dan sisanya
menjadi data latih. Setiap data hanya boleh sekali menjadi data uji. Perhitungan
akurasi penilaian terhadap data uji dilakukan di setiap iterasi.
Dalam penelitian ini, proses penentuan data uji dan data latih setiap fold dilakukan
secara stratified. Stratified merupakan teknik dalam cross validation untuk
memastikan bahwa dalam data latih dan data uji harus ada perwakilan dari seluruh
kelas yang ada dengan persentase yang sama. Stratified dilakukan untuk
memastikan bahwa dalam setiap fold merupakan representasi data yang baik
(Refaeilzadeh, et al., 2009).
Bab II Studi Pustaka 24
Contoh penerapan stratified yaitu pada penilaian esai dengan 2 kategori yaitu A
dan B, dengan persentase jumlah data yaitu 40% nilai A dan 60% nilai B. Oleh
karena itu, pada data latih dan data uji masing-masing harus memiliki komposisi
data 40% nilai A dan 60% nilai B.
Nilai k atau jumlah fold yang digunakan dalam penelitian ini yaitu 2 sampai 10.
Angka 2 sampai 10 digunakan untuk melakukan eksperimen dengan komposisi
data latih dan data uji yang berbeda. Angka 10 digunakan sebagai batas akhir
karena metode 10-fold cross validation merupakan metode yang paling umum
digunakan dan memiliki estimasi performa yang akurat (Refaeilzadeh, et al.,
2009).
Pengujian dengan k-fold cross validation diulang sebanyak 10 kali untuk setiap
nilai k yang digunakan. Pengulangan dilakukan karena multiple k-fold cross
validation dapat mengurangi permasalahan model variance yang ada dalam
machine learning (Bouckaert, 2003). Berikut langkah penerapan metode multiple
k-fold cross validation dalam penelitian ini:
1. Tentukan nilai k, misal k = 2.
2. Pisahkan data menjadi sejumlah k fold. Misalkan data latih yang tersedia
sebanyak 29 data esai bernilai ‘A’. Dua puluh sembilan data tersebut dibagi
menjadi 2 fold. Satu fold berisi 15 data dan satu fold berisi 14 data.
3. Pilih salah satu fold menjadi data uji, sedangkan sisanya menjadi data latih.
Misalkan dipilih fold yang berisi 14 data menjadi data uji, maka terdapat 15
data latih dan 14 data uji.
4. Lakukan penilaian untuk setiap data uji, lalu hitung akurasi dari penilaian
tersebut. Ulangi langkah 2 dan 3 sebanyak k kali dengan mengikuti cara pada
gambar 4.
5. Ulangi langkah 2 sampai 4 sebanyak 10 kali.
6. Hitung hasil rata-rata akurasi dari 10 kali k iterasi.
7. Ulangi langkah 1 sampai 6 dengan nilai k mulai dari 2 sampai 10.
Setelah langkah-langkah tersebut dilakukan, diperoleh hasil rata-rata akurasi dari
setiap penggunaan nilai k yang berbeda.
Bab II Studi Pustaka 25
2.9 Term Weighting
Term adalah kata, frasa atau unit indeks lain yang digunakan untuk
mengidentifikasi konten dari suatu teks (Lan, et al., 2009). Setiap term dalam
vektor dokumen harus diberikan value yang merepresentasikan apakah term
tersebut penting. Proses pemberian value terhadap term disebut pembobotan term
(term weighting). Pembobotan term merupakan tahap yang penting dalam
menentukan efektivitas dari suatu text classification karena untuk memberikan
nilai yang tepat bagi setiap term (Lan, et al., 2009).
Dengan memberikan nilai yang tepat untuk setiap term, maka penilaian esai
otomatis dapat bekerja lebih baik dalam menentukan apakah suatu term termasuk
kata kunci yang mencirikan suatu kategori nilai atau tidak. Akurasi yang
dihasilkan juga dapat menjadi lebih baik. Menurut penelitian Lan, et al. (2009),
metode dalam pembobotan term terbagi menjadi dua yaitu:
1. Supervised term weighting
Metode ini menggunakan informasi label keanggotaan terhadap suatu
kategori yang ada pada data latih dalam proses kalkulasi bobot setiap term.
2. Unsupervised term weighting
Metode ini tidak menggunakan informasi label keanggotaan terhadap suatu
kategori yang ada pada data latih. Contohnya metode term weighting yang
berasal dari bidang information retrieval seperti binary, term frequency dan
TF-IDF.
Dalam bidang information retrieval, metode unsupervised term weighting
digunakan karena pada data latih tidak terdapat informasi keanggotaan atau
unlabeled data, sedangkan dalam bidang klasifikasi teks pada data latih sudah
tersedia informasi keanggotaan terhadap kategori tertentu atau labeled data.
Metode supervised term weighting memiliki akurasi yang lebih baik pada kasus
klasifikasi dibandingkan dengan unsupervised term weighting karena melibatkan
informasi keanggotaan dalam proses pembobotan term (Lan, et al., 2009).
Penelitian ini membandingkan metode supervised term weighting dan
unsupervised term weighting dalam menentukan akurasi dari penilaian esai
otomatis. Metode unsupervised term weighting yang digunakan yaitu TF-IDF.
Bab II Studi Pustaka 26
TF-IDF dipilih karena merupakan metode yang paling umum digunakan dalam
pembobotan term. Metode supervised term weighting yang digunakan yaitu TF-
Chi2 dan TF-RF. Kedua metode tersebut dipilih karena telah dibuktikan dalam
penelitian mengenai klasifikasi dokumen memiliki akurasi yang lebih baik
dibandingkan TF-IDF (Deng, et al., 2004; Lan, et al., 2009; Bhamare & Patil,
2015)
2.9.1 Term Frequency – Inverse Document Frequency (TF-IDF)
TF–IDF adalah nilai numerik yang merepresentasikan seberapa penting suatu term
pada dokumen. TF–IDF terbagi ke dalam dua komponen yaitu term frequency
(TF) dan inverse document frequency (IDF).
TF digunakan untuk mencatat jumlah kemunculan suatu term dalam dalam satu
dokumen. Semakin banyak term yang sama muncul dalam suatu dokumen, maka
term tersebut dianggap sebagai kata penting dalam dokumen tersebut. Disebabkan
jumlah term dalam setiap dokumen berbeda, untuk mengurangi nilai TF yang
terlalu tinggi digunakan perhitungan normalized term frequency (Bhamare &
Patil, 2015). Persamaan 3 digunakan untuk menghitung normalized term
frequency dari suatu term-i dalam dokumen-j.
𝑇𝐹(𝑡𝑖 , 𝑑𝑗) = 𝐽𝑢𝑚𝑙𝑎ℎ 𝑘𝑒𝑚𝑢𝑛𝑐𝑢𝑙𝑎𝑛 𝑡𝑖 𝑑𝑎𝑙𝑎𝑚 𝑑𝑗
𝐽𝑢𝑚𝑙𝑎ℎ 𝑚𝑎𝑘𝑠𝑖𝑚𝑎𝑙 𝑘𝑒𝑚𝑢𝑛𝑐𝑢𝑙𝑎𝑛 𝑠𝑢𝑎𝑡𝑢 𝑡𝑒𝑟𝑚 𝑑𝑎𝑙𝑎𝑚 𝑑𝑗
(3)
IDF digunakan untuk menghitung kemunculan term dalam kumpulan dokumen.
IDF mengurangi bobot dari suatu term yang sering muncul dan menaikkan bobot
dari term yang jarang muncul. Hal ini dilakukan karena IDF menganggap jika
suatu term sering muncul dalam kumpulan dokumen maka term tersebut bukan
termasuk term penting. IDF dihitung dengan menggunakan persamaan 4.
𝐼𝐷𝐹(𝑡𝑖) = 𝑙𝑜𝑔𝑁
𝑛𝑖 (4)
𝑡𝑖 merupakan term yang akan dihitung bobotnya, N merupakan jumlah dokumen
yang ada, sedangkan 𝑛𝑖 adalah jumlah dokumen yang mengandung term 𝑡𝑖.
Berdasarkan persamaan 3 dan 4, diperoleh
persamaan 5 untuk menghitung bobot term 𝑡𝑖 menggunakan TF-IDF.
Bab II Studi Pustaka 27
𝑇𝐹. 𝐼𝐷𝐹(𝑡𝑖) = 𝑇𝐹 × 𝑙𝑜𝑔𝑁
𝑛𝑖 (5)
2.9.2 Supervised Term Weighting
Metode pembobotan ini mempertimbangkan informasi dari keanggotaan data latih
ke kategori tertentu dalam proses kalkulasi bobot setiap term. Metode ini membagi
dokumen ke dalam dua kategori yaitu positif dan negatif. Dokumen yang masuk
kategori positif adalah dokumen yang memiliki kategori terpilih, sedangkan sisa
dokumen yang tidak masuk kategori terpilih akan masuk ke dokumen negatif.
Contoh pada kasus penilaian esai yaitu akan dilakukan pembobotan untuk term ti
dalam esai dj yang telah dinilai “A” oleh penilai manusia. Esai yang masuk ke
kategori positif adalah seluruh esai yang bernilai “A”, sedangkan esai yang
bernilai selain “A” akan masuk ke kategori negatif. Gambar 5 merupakan ilustrasi
distribusi term dalam dokumen positif dan negatif.
Dalam gambar 5, terdapat 6 term yang digambarkan distribusinya dalam kategori
dokumen positif dan negatif. Tinggi dari bagian berwarna hitam dalam setiap
batang term mengambarkan jumlah dokumen yang mengandung term tersebut,
sedangkan tinggi dari bagian berwarna putih menggambarkan jumlah dokumen
yang tidak mengandung term tersebut. Dalam ilustrasi tersebut, terdapat 4 macam
kemungkinan yang terjadi dari kemunculan term, dinotasikan sebagai berikut:
a : jumlah dokumen yang mengandung term tersebut dan masuk kategori positif
b : jumlah dokumen yang tidak mengandung term tersebut dan masuk kategori
positif
c : jumlah dokumen yang mengandung term tersebut dan masuk kategori negatif
Gambar 5 Ilustrasi distribusi term (Lan, et al., 2009)
Bab II Studi Pustaka 28
d : jumlah dokumen yang tidak mengandung term tersebut dan masuk kategori
negatif
Dengan mengasumsikan TF untuk setiap term sama, maka bobot untuk t1, t2 dan
t3 menggunakan TF-IDF tidak jauh berbeda karena distribusi termnya tidak jauh
berbeda. Dalam kasus klasifikasi dokumen, seharusnya t1 diberikan bobot yg lebih
tinggi dibandingkan t2 dan t3 karena t1 berkontribusi lebih membedakan dokumen
kategori positif dan negatif.
Kasus lain yaitu dengan metode TF-IDF, t1 berbobot lebih tinggi dibandingkan t4
karena kemunculan t1 yang lebih sedikit dibanding t4. Jika melihat pada sudut
pandang klasifikasi, seharusnya t4 lebih tinggi bobotnya dibanding t1 karena lebih
berkontribusi untuk membedakan dokumen positif dan negatif.
Berdasarkan kasus tersebut dibutuhkan proses pembobotan term dengan
memperhitungkan informasi label yang ada dalam data latih yaitu supervised term
weighting. Dalam penelitian ini metode supervised term weighting yang
digunakan yaitu TF-Chi2 dan TF-RF.
2.9.2.1 Term Frequency – Chi2 (TF-Chi2)
TF-Chi2 menggunakan pendekatan feature selection metrics dalam melakukan
pembobotan terhadap suatu term. Term dengan nilai feature selection yang tinggi
dianggap lebih memberikan kontribusi dalam proses klasifikasi dibanding dengan
term dengan nilai yang rendah (Lan, et al., 2009).
TF-Chi2 digunakan sebagai metode term weighting pada penelitian ini karena
dalam penelitian Deng, et al. (2004), TF-Chi2 menghasilkan akurasi yang lebih
baik daripada TF-IDF dalam bidang klasifikasi dokumen. Untuk N adalah jumlah
dokumen, persamaan 6 digunakan untuk menghitung bobot term dengan TF-Chi2.
𝑇𝐹. 𝐶ℎ𝑖2 = 𝑇𝐹 × (𝑁 × (𝑎 × 𝑑 − 𝑏 × 𝑐)2
(𝑎 + 𝑐)(𝑏 + 𝑑)(𝑎 + 𝑏)(𝑐 + 𝑑)) (6)
2.9.2.2 Term Frequency – Relevance Frequency (TF-RF)
TF-RF merupakan metode pembobotan term yang diusulkan oleh penelitian Lan,
et al. (2009). Ide dasar dari metode ini yaitu semakin terkonsentrasinya term
Bab II Studi Pustaka 29
dengan frekuensi tinggi dalam kategori positif dibandingkan negatif, maka
semakin besar juga pengaruh term dalam membedakan kategori positif dan
negatif. Walaupun supervised term weighting menggunakan informasi label dalam
proses pembobotannya, hasil yang diperoleh tidak selalu konsisten dengan ide
dasar yang telah disebutkan sebelumnya (Lan, et al., 2009).
Dalam gambar 5, apabila distribusi t1 pada kategori positif dan negatif sama
dengan distribusi t3 pada kategori negatif dan positif, maka dengan metode TF-
Chi2 menghasilkan bobot yang sama bagi t1 dan t3. Padahal berdasarkan ide dasar
tersebut seharusnya t1 berbobot lebih besar dibandingkan t3, karena apabila suatu
term yang frekuensi kemunculannya tinggi dan terkonsentrasi pada kategori
positif merupakan term yang baik untuk membedakan antara dokumen positif dan
negatif.
Metode ini dinamakan relevance frequency karena hanya frekuensi dari dokumen
yang relevan (dokumen yang mengandung term tersebut) yang akan dihitung. Jika
dinotasikan sesuai dengan gambar 5, hanya a dan c yang digunakan dalam proses
pembobotan, sedangkan b dan d diabaikan karena dianggap tidak memiliki
kekuatan untuk membedakan dokumen positif dan negatif. Persamaan 7
digunakan untuk menghitung bobot term dengan TF-RF :
𝑇𝐹. 𝑅𝐹 = 𝑇𝐹 × log (2 + 𝑎
max(1, 𝑐)) (7)
2.9.2.3 Category Independent Term Weighting
Metode supervised term weighting digunakan untuk menghitung bobot term
berdasarkan informasi label yang ada dalam data latih. Di sisi lain, informasi label
terseut tidak ada dalam data yang akan diklasifikasi atau data uji. Oleh karena itu,
Batal & Hauskrecht (2009) mendefinisikan bobot untuk suatu term tk dalam data
uji adalah nilai maksimal dari bobot tk dalam data latih. Hal tersebut dilakukan
karena apabila pada data uji terdapat tk yang sangat mencirikan suatu kategori ci
maka data uji tersebut akan masuk ke kategori ci. Persamaan 8 dan 9 digunakan
untuk menghitung bobot data uji pada penelitian ini.
Bab II Studi Pustaka 30
𝑤(𝑡𝑘) = 𝑇𝐹 × 𝑀𝑎𝑥(𝐶ℎ𝑖2(𝑡𝑘)) (8)
𝑤(𝑡𝑘) = 𝑇𝐹 × 𝑀𝑎𝑥(𝑅𝐹(𝑡𝑘)) (9)
Persamaan 8 digunakan apabila metode pembobotan TF-Chi2 digunakan pada
tahap training, sedangkan persamaan 9 digunakan apabila metode pembobotan
TF-RF yang digunakan pada tahap training.