i
INFORMATION RETRIEVAL SYSTEM
UNTUK MENENTUKAN TREN JUDUL JURNAL
BERBAHASA INDONESIA MENGGUNAKAN METODE
TF-IDF DAN NAЇVE BAYES CLASSIFIER
skripsi
disajikan sebagai salah satu syarat
untuk memperoleh gelar Sarjana Komputer
Program Studi Teknik Informatika
oleh
Wandha Budhi Trihanto
4611412032
JURUSAN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS NEGERI SEMARANG
2017
ii
iii
iv
.
v
MOTTO DAN PERSEMBAHAN
MOTTO
Sesungguhnya Allah tidak akan mengubah nasib suatu kaum kecuali kaum
itu sendiri yang mengubah apa yang ada pada mereka (QS. Ar-Ra’d : 11)
PERSEMBAHAN
Skripsi ini saya persembahkan kepada:
1. Bapak Heri Prihadi Prasetya Budhi, B.Sc
dan Ibu Minarti tercinta atas dorongan
motivasi dan doa yang tiada henti
2. Kakak-kakak saya (Nandha Narra
Prihadi, S.E, Marlinda Irwanti, S.Pd dan
Khusnul Khotimah, S.T)
3. Almamater Universitas Negeri Semarang
vi
KATA PENGANTAR
Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa karena atas
segala ridho dan limpahan rahmat-Nya penulis dapat menyelesaikan skripsi yang
berjudul “Information retrieval system untuk Menentukan Tren Judul Jurnal
Berbahasa Indonesia Menggunakan Metode TF-IDF dan Naïve Bayes
Classifier”.
Penulis menyadari bahwa skripsi ini tidak akan selesai tanpa adanya bantuan
dari berbagai pihak. Oleh karena itu penulis ingin menyampaikan ucapan terima
kasih kepada:
1. Prof. Dr. Fathur Rokhman, M.Hum., Rektor Universitas Negeri Semarang.
2. Prof. Dr. Zaenuri, S.E., M.Si., Akt., Dekan Fakultas Matematika dan Ilmu
Pengetahuan Alam Universitas Negeri Semarang.
3. Endang Sugiharti, S.Si., M.Kom., Ketua Jurusan Ilmu Komputer Fakultas
Matematika dan Ilmu Pengetahuan Alam Universitas Negeri Semarang.
4. Bapak Riza Arifudin, S.Pd., M.Cs., dan Bapak Much Aziz Muslim, S.Kom.,
M.Kom selaku dosen pembimbing yang selalu memberikan arahan kepada
penulis.
5. Endang Sugiharti, S.Si., M.Kom., selaku penguji yang memberikan banyak
masukan, kritik dan saran dalam penyelesaian skripsi ini.
6. Bapak dan ibu dosen serta staf yang ada dijurusan ilmu komputer yang telah
memberikan motivasi dalam pengerjaan skripsi ini.
7. Bapak dan ibu yang selalu menyemangati setiap harinya.
vii
,
viii
ABSTRAK
Trihanto, Wandha Budhi. 2017. Information Retrieval System untuk Menentukan
Tren Judul Jurnal Berbahasa Indonesia menggunakan Metode TF-IDF dan Naïve Bayes Classifier. Skripsi, Jurusan Ilmu Komputer Fakultas Matematika dan Ilmu
Pengetahuan Alam Universitas Negeri Semarang. Pembimbing I: Riza Arifudin,
S.Pd., M.Cs., dan Pembimbing II: Much Aziz Muslim, S.Kom., M.Kom.
Kata kunci: E-journal, teks mining, TF-IDF, Naïve Bayes Classifier.
Perkembangan ilmu pengetahuan dan teknologi saat ini tidak terlepas dari
berbagai penelitian yang dilakukan oleh seseorang baik dari kalangan pendidikan,
swasta dan pemerintahan. Kemudian hasil dari penelitian tersebut berupa artikel
dan jurnal akan dipublikasikan melalui media cetak atau media elektronik.
Melalui media elektronik hasil penelitian tersebut salah satunya dapat
dipublikasikan di internet yaitu melalui website jurnal online. Banyaknya jurnal
yang dipublikasikan tidak disertai dengan pertumbuhan jumlah informasi dan
pengetahuan yang dapat diambil dari dokumen-dokumen elektronik tersebut.
Metode TF-IDF adalah salah satu metode teks mining yang cepat dan efisien
untuk mengekstrak kata-kata yang berguna sebagai nilai informasi dari sebuah
dokumen. Metode ini mengkombinasikan dua konsep perhitungan bobot yaitu
frekuensi kemunculan kata pada sebuah dokumen tertetu dan invers frekuensi
dokumen yang mengandung kata tesebut. Selanjutnya analisa data judul jurnal
dilakukan dengan metode Naïve Bayes Classifier. Metode tersebut bertujuan
untuk melakukan klasifikasi data judul jurnal pada kelas tertentu, kemudian dari
kelas-kelas tesebut dapat ditentukan data judul jurnal yang sedang menjadi tren.
Tujuan dari penelitian adalah membangun sebuah sistem temu kembali informasi
berbasis website yang dapat membantu mengklasifikasikan dan menentukan tren
dari judul jurnal berbahasa Indonesia. Hal ini dapat membantu para peneliti
selanjutnya dalam membuat rancangan penelitian-penelitian yang akan dilakukan.
Selain itu penelitian ini juga bertujuan untuk menerapkan metode TF-IDF dan
Naïve Bayes Classifier dalam menentukan tren judul jurnal berbahasa Indonesia.
Penelitian ini menghasilkan sebuah sistem yang dapat digunakan untuk
mengklasifikasikan judul jurnal berbahasa Indonesia dan tren. Dengan tingkat
akurasi sistem dalam menentukan klasifikasi adalah sebesar 90,6% dan error rate
sebesar 9,4%. Hasil persentase tertinggi yang menjadi tren dari klasifikasi judul
adalah kategori sistem pendukung keputusan yaitu sebesar 24,7%,
ix
DAFTAR ISI
Halaman
HALAMAN JUDUL ...................................................................................... i
PERNYATAAN ............................................................................................. ii
PERSETUJUAN PEMBIMBING .................................................................. iii
PENGESAHAN ............................................................................................. iv
MOTTO DAN PERSEMBAHAN ................................................................. v
KATA PENGANTAR ................................................................................... vi
ABSTRAK ..................................................................................................... viii
DAFTAR ISI .................................................................................................. viii
DAFTAR TABEL .......................................................................................... xii
DAFTAR GAMBAR ..................................................................................... xiiii
DAFTAR LAMPIRAN .................................................................................. xiv
BAB
1. PENDAHULUAN ..................................................................................... 1
1.1 Latar Belakang .................................................................................... 1
1.2 Rumusan Masalah ............................................................................... 3
1.3 Batasan Masalah .................................................................................. 4
1.4 Tujuan Penelitian ................................................................................. 4
1.5 Manfaat Penelitian ............................................................................... 5
1.6 Sistematika Penulisan .......................................................................... 6
x
2. TINJAUAN PUSTAKA............................................................................. 7
2.1 Information Retrieval System (Sistem Temu Kembali) ...................... 7
2.2 Data Mining ........................................................................................ 8
2.3 Text Mining .......................................................................................... 10
2.3.1 Praproses (preprocessing task) ................................................. 12
2.3.2 Penyusunan Vektor (Representation) ....................................... 13
2.3.3 Ekstraksi Informasi pada Text Mining ..................................... 14
2.4 Metode Klasifikasi .............................................................................. 16
2.4.1 Teorema Bayes .......................................................................... 16
2.4.2 Naïve Bayes Classifier untuk klasifikasi .................................. 17
2.5 Penelitian Terkait ................................................................................ 23
3. METODE PENELITIAN ........................................................................... 26
3.1 Studi Pendahuluan ............................................................................... 26
3.1.1 Tempat dan Objek Penelitian .................................................... 27
3.1.2 Variabel Penelitian .................................................................... 27
3.2 Pengumpulan Data .............................................................................. 27
3.3 Tahap Pengembangan Sistem .............................................................. 27
3.3.1 Analisis Kebutuhan ................................................................... 28
3.3.2 Metode TF-IDF untuk Menentukan Tren Judul Jurnal ............. 28
3.3.3 Metode Naïve Bayes Classifier untuk Menentukan
Tren Judul Jurnal ...................................................................... 29
3.4 Perancangan Sistem ............................................................................. 29
3.4.1 Flowchart Sistem ...................................................................... 29
xi
3.4.2 Struktur Tabel Basis Data ......................................................... 31
3.4.3 Pengkodean (Code) ................................................................... 34
3.4.4 Pengujian (Test) ......................................................................... 34
4. HASIL DAN PEMBAHASAN .................................................................. 35
4.1 Hasil Penelitian .................................................................................... 35
4.1.1 Preprocessing ............................................................................ 35
4.1.2 Tahap Pembobotan TF-IDF ...................................................... 37
4.1.3 Tahap Penghitungan Probabilitas .............................................. 41
4.1.4 Tahap Implementasi Sistem ...................................................... 48
4.2 Pembahasan ......................................................................................... 53
5. PENUTUP .................................................................................................. 56
5.1 Simpulan .............................................................................................. 56
5.2 Saran .................................................................................................... 56
DAFTAR PUSTAKA .................................................................................... 57
LAMPIRAN ................................................................................................... 59
xii
DAFTAR TABEL
Tabel Halaman
2.1 Nilai fitur berdasarkan frequency ......................................................... 20
2.2 Term document matrix dengan frequency............................................. 20
2.3 Nilai Probabilitas .................................................................................. 20
3.1 tb_admin ............................................................................................... 29
3.2 Artikel ................................................................................................... 29
3.3 tb_term .................................................................................................. 30
3.4 Tabel tb_stopword ................................................................................ 30
3.5 Tabel tb_klasifikasi ............................................................................... 31
3.6 Tabel tb_training .................................................................................. 31
3.7 Tabel tb_testing .................................................................................... 31
3.8 Tabel tb_relasi ...................................................................................... 32
4.1 Data Stopword ...................................................................................... 34
4.2 Hasil stemming judul ............................................................................ 35
4.3 Kemunculan Kata (TF) ......................................................................... 36
4.4 Hasil TF-IDF ........................................................................................ 38
4.5 Data training judul yang sudah memiliki kategori ............................... 39
4.6 Data testing judul yang belum diketahui kategorinya .......................... 40
4.7 Kemunculan term dalam data testing ................................................... 41
4.8 Tabel Probabilitas Kata untuk Setiap Kategori .................................... 44
xiii
DAFTAR GAMBAR
Gambar Halaman
2.1 Data mining sebagai tahapan dari knowledge discovery ...................... 7
2.2 Diagram venn 6 bidang terkait dan 7 area praktek text mining ............ 10
2.3 Kerangka proses analisis teks pada text mining .................................... 11
3.1 Model Sekuensial Linier ....................................................................... 24
3.2 Flowchart Metode TF-IDF dan Naïve Bayes Classifier untuk
menentukan tren judul jurnal ................................................................ 28
4.1 Form Login ........................................................................................... 46
4.2 Tampilan Awal ..................................................................................... 46
4.3 Tampilan Menu stopword ..................................................................... 47
4.4 Tampilan Menu Term ........................................................................... 48
4.5 Tampilan data training ......................................................................... 48
4.6 Tampilan data testing ............................................................................ 49
4.7 Menu Perhitungan ................................................................................. 49
4.8 Menu Grafik.......................................................................................... 50
4.9 Menu Password .................................................................................... 50
4.10 Persentase Tren Hasil Klasifikasi Judul Jurnal ..................................... 52
xiv
DAFTAR LAMPIRAN
Lampiran Halaman
1 Data Judul Jurnal .................................................................................. 59
2 Data Stopword ...................................................................................... 84
3 Evaluasi data hasil klasifikasi ............................................................... 82
4 Source code penentuan tren judul jurnal dengan TF-IDF
& Naïve Bayes Classifier ............................................................................ 85
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Saat ini perkembangan ilmu pegetahuan dan teknologi tidak terlepas dari
banyaknya penelitian-penelitian yang dilakukan, oleh individu-individu atau
institusi-institusi baik dari kalangan pendidikan, swasta, dan pemerintahan.
Kemudian hasil dari penelitian tersebut berupa tugas akhir, makalah, artikel, dan
jurnal yang dipublikasikan baik melalui media cetak ataupun media elektronik. Di
media elekronik selain melaui radio dan televisi, hasil dari penelitian tersebut bisa
juga dipublikasikan di internet yaitu melalui website jurnal online. Gupta (2011:
1) menjelaskan bahwa banyaknya jumlah jurnal yang dipublikasikan tidak disertai
dengan pertumbuhan jumlah informasi atau pengetahuan yang dapat diambil dari
dokumen-dokumen elektronik tersebut. Biasanya metode text mining sering
digunakan untuk mengatasi masalah tersebut.
Metode text mining merupakan pengembangan dari metode data mining.
Algoritma-algoritma dalam text mining dibuat untuk dapat mengenali data yang
sifatnya semi terstruktur misalnya sinopsis, abstrak maupun isi dari dokumen-
dokumen (Gupta, 2011: 1). Beberapa aplikasi text mining telah diterapkan di
perpustakaan terutamanya untuk pencarian bahan pustaka berbasis teks. Meskipun
demikian belum banyak aplikasi dikembangkan untuk tujuan analisis, sehingga
sangatlah sulit untuk dapat dengan segera mengetahui topik peneltian yang
2
menjadi tren pada tahun tertentu ataupun kecenderungan minat penelitian pada
bidang studi terentu. (Prilianti & Wijaya, 2014: 1).
Untuk melakukan proses pencarian jurnal tersebut diperlukan proses data
mining. Data mining merupakan sebuah proses dari knowledge discovery
(penemuan pengetahuan) dari data yang sangat besar. Sementara itu di dalam data
mining, terdapat text mining, yang merupakan bidang yang bertujuan untuk
mengumpulkan informasi yang berguna dari dalam teks dan kemudian
mengekstrak informasi yang berguna untuk tujuan tertentu. Sistem otomatis yang
dapat digunakan untuk mengekstrak informasi yang berguna adalah sistem temu
kembali informasi (information retrieval system).
Mandala & Setiawan (2002: 1) menjelaskan bahwa sistem temu kembali
informasi (information retrieval system) merupakan sistem yang digunakan untuk
menemukan informasi yang relevan dengan kebutuhan dari penggunanya secara
otomatis berdasarkan kesesuaian dengan query (masukan berupa ekspresi
kebutuhan informasi oleh pengguna) dari suatu koleksi informasi.
Pada penelitian ini akan digunakan metode TF-IDF dan Naïve Bayes
Classifier untuk menentukan tren judul jurnal berbahasa Indonesia. Metode TF-
IDF (Term Frequency Inverse Document Frequency) adalah salah satu metode
text mining yang cepat dan efisien untuk mengekstrak kata-kata yang berguna
sebagai nilai informasi dari sebuah dokumen (Oh et al, 2013: 185). Menurut
Defeng dalam Robertson (2004: 503) Metode TF-IDF (Term Frequency Inverse
Document Frequency) merupakan suatu cara untuk memberikan bobot hubungan
suatu kata (term) terhadap dokumen. Metode ini menggabungkan dua konsep
3
untuk perhitungan bobot, yaitu frekuensi kemunculan sebuah kata didalam sebuah
dokumen tertentu dan inverse frekuensi dokumen yang mengandung kata tersebut.
Frekuensi kemunculan kata didalam dokumen yang diberikan menunjukkan
seberapa penting kata itu didalam dokumen tersebut.
Selanjutnya tahap akhir penelitian ini analisa data mining dilakukan dengan
menggunakan metode Naïve Bayes Classifier. Naïve Bayes merupakan salah satu
meode pada probabilistic reasoning. Algoritma Naïve Bayes bertujuan untuk
melakukan klasifikasi data pada kelas tertentu, kemudian pola tersebut kelas judul
jurnal yang sedang menjadi sebuah tren. Kelebihan metode Naïve Bayes Classifier
adalah sederhana tetapi memiliki akurasi yang tinggi. Berdasarkan hasil
eksperimen (Wulandini & Nugroho, 2009: 191), Naïve Bayes Classifier pada
penelitian terdahulu terbukti dapat digunakan secara efektif untuk kategorisasi
teks bahasa Indonesia dengan akurasi mencapai 90%. Algoritma Naïve Bayes
Classifier yang sederhana dan kecepatannya yang tinggi dalam proses pelatihan
dan klasifikasi membuat algoritma ini menarik untuk digunakan sebagai salah satu
metode klasifikasi.
Berdasarkan uraian diatas, maka penulis membuat penelitian yang berjudul
“Information retrieval system untuk menentukan tren judul jurnal berbahasa
Indonesia menggunakan metode TF-IDF dan Naïve Bayes Classifier”.
1.2 Rumusan Masalah
Berdasarkan latar belakang masalah maka dapat dirumuskan perumusan
masalah yaitu bagaimana penerapan metode TF-IDF dan Naïve Bayes Classifier
dalam menentukan tren judul jurnal berbahasa Indonesia?
4
1.3 Batasan Masalah
Pada penelitian ini diperlukan batasan-batasan agar tujuan penelitian dapat
tercapai. Adapun batasan masalah yang dibahas pada penelitian ini adalah
1. Sistem hanya menentukan tren dari judul jurnal berbahasa Indonesia
tentang ilmu komputer pada website DOAJ.
2. Sistem hanya mengambil data judul dari jurnal berbahasa Indonesia
dengan kata kunci ilmu komputer pada website DOAJ.
3. Data diunduh pada tanggal 21 Maret 2017 dengan jumlah data sebanyak
366 data judul.
4. Klasifikasi dibagi menjadi 13 kelas kategori yaitu sistem pendukung
keputusan, sistem pakar, sistem informasi, e-commerce, e-learning,
jaringan komputer, jaringan syaraf tiruan, pengolahan citra, kriptografi,
kecerdasan buatan, sistem informasi geografis, aplikasi mobile, dan game.
1.4 Tujuan Penelitian
Tujuan perancangan dan pembangunan aplikasi berbasis website ini adalah
sebagai berikut:
1. Membangun sebuah sistem temu kembali informasi berbasis website yang
dapat membantu mengklasifikasikan dan menentukan tren dari judul jurnal
berbahasa Indonesia.
2. Menerapkan metode TF-IDF dan Naïve Bayes Classifier dalam
menentukan tren judul jurnal berbahasa Indonesia.
5
1.5 Manfaat Penelitian
Manfaat penelitian ini adalah sebagai berikut:
1. Membantu dalam proses klasifikasi judul jurnal yang ada sehingga
diperoleh informasi yang bermakna dalam menentukan tren judul jurnal
berbahasa Indonesia di website DOAJ.
2. Membantu dalam mengetahui tren judul jurnal berbahasa Indonesia pada
website DOAJ.
1.6 Sistematika Penulisan Skripsi
Sistematika penulisan untuk memudahkan dalam memahami alur pemikiran
secara keseluruhan skripsi. Penulisan skripsi ini secara garis besar dibagi menjadi
tiga bagian yaitu sebagai berikut.
1. Bagian Awal Skripsi
Bagian awal skripsi terdiri dari halaman judul, halaman pengesahan,
halaman pernyataan, halaman motto dan persembahan, abstrak, kata pengantar,
daftar isi, daftar gambar, daftar tabel dan daftar lampiran.
2. Bagian Isi Skripsi
Bagian isi skripsi terdiri dari lima bab yaitu sebagai berikut:
BAB I : PENDAHULUAN
Terdiri dari latar belakang, perumusan masalah, tujuan penelitian, manfaat
penelitian dan sistematika penulisan.
6
BAB II : TINJAUAN PUSTAKA
Bab ini membahas berbagai konsep dasar dan teori-teori yang berkaitan
dengan topik penelitian yang dilakukan dan hal-hal yang berguna dalam
proses analisis permasalahan serta tinjauan terhadap penelitian.
BAB III : METODOLOGI PENELITIAN
Bab ini terdiri atas objek, waktu dan lokasi penelitian, sumber data, dan
penerapan serta analisa metode terhadap data.
BAB IV : HASIL DAN PEMBAHASAN
Bab ini menjelaskan tentang hasil perancangan keseluruhan beserta
penjelasan dan penggunaan program yang telah dibuat.
BAB V : PENUTUP
Bab ini merupakan bab penutup yang berisi tentang kesimpulan dari
rangkuman hasil penelitian dan saran- saran yang perlu diperhatikan bagi
pengembangan sistem kedepannya.
3. Bagian Akhir Skripsi
Bagian akhir skripsi berisi daftar pustaka yang merupakan informasi
mengenai buku-buku, sumber-sumber dan referensi yang digunakan penulis
serta lampiran-lampiran yang mendukung dalam penulisan skripsi ini.
7
BAB II
TINJAUAN PUSTAKA
2.1 Information Retrieval System (Sistem Temu Kembali)
Menurut Brata & Hetami (2015: 54) information retrieval merupakan sistem
yang menerima query dari pengguna, kemudian dilakukan ranking terhadap
dokumen berdasar kesesuian terhadap query. Hasil ranking yang diberikan pada
pengguna merupakan dokumen yang menurut sistem memiliki relevansi terhadap
query, tetapi tingkat relevansi itu sendiri merupakan hal yang subjektif tergantung
dari pengguna yang dipengaruhi oleh berbagai macam faktor seperti topik,
pewaktuan, sumber informasi maupun tujuan pengguna. Model sistem temu
kembali menentukan detail sistem temu yaitu meliputi representasi dokumen
maupun query, fungsi pencarian (retrieval function), dan notasi kesesuaian
(relevance notation) dokumen terhadap query.
Brata & Hetami (2015: 54) menjelaskan bahwa information retrieval terbagi
dari beberapa bagian yang dijabarkan sebagai berikut:
1. Text Operations, meliputi pemilihan katakata dalam query maupun dokumen
(term selection) dalam proses transformasi dokumen atau query menjadi term
index (indeks kata-kata).
2. Query formulation, memberi bobot pada indeks kata-kata query.
3. Ranking, mencari dokumen-dokumen yang relevan terhadap query dan
mengurungkan dokumen tersebut berdasarkan kesesuaiannya dengan query.
8
4. Indexing, membangung basis data indeks dari koleksi dokumen Dilakukan
terlebih dahulu sebelum pencarian dokumen dilakukan.
2.2 Data Mining
Data mining didefinisikan sebagai proses komputasi untuk menganalisis data
dalam jumlah besar dengan mengekstrak pola dan informasi yang berguna (Gullo,
2015: 18). Dalam beberapa dekade terakhir, data mining telah banyak mendapat
sebutan lain seperti knowledge discovery, business intelligence, predictive
modeling, predictive analytics, dan beberapa lainnya (Linoff & Berry, 2011: 2).
Tetapi, tidak sedikit orang yang mendefinisikan data mining sebagai sinonim dari
istilah populer lainnya yaitu knowledge discovery from data (KDD) dan yang lain
melihat data mining hanya sebagai salah satu tahapan dari knowledge discovery
(Han et al, 2012: 6).
Gambar 2.1 Data mining sebagai tahapan dari knowledge discovery
(Han et al, 2012: 6)
9
Pada proses knowledge discovery seperti ditunjukkan pada Gambar 2.1,
terdapat beberapa tahapan proses yang dilakukan yaitu:
1. Cleaning data, yaitu proses untuk mengeliminasi noise (pengganggu) dan
data yang tidak konsisten.
2. Integrasi data, yaitu proses penggabungan data jika data diperoleh dari
berbagai sumber.
3. Seleksi data, yaitu proses pemilihan data yang benar-benar berguna untuk
dianalisis.
4. Transformasi data, yaitu proses transformasi data menjadi bentuk yang
sesuai untuk dilakukan proses data mining.
5. Data mining, yaitu proses dimana metote-metode khusus diaplikasikan
untuk mengekstrak inforrmasi dan pola data.
6. Pattern evaluation, yaitu proses untuk mengidentifikasi pola-pola dan
informasi menarik yang didapatkan dari data.
Menurut Gullo (2015: 19) Penggunaan data mining dibedakan menjadi dua
jenis fungsi yaitu prediktif dan deskriptif. Penggalian prediktif mengacu pada
pembangunan model yang berguna untuk memprediksi perilaku atau nilai-nilai
dimasa depan. Tugas deskriptif meliputi klasifikasi dan prediksi, tugas yang
dilakukan seperti membangun beberapa model atau fungsi yang menggambarkan
kelas atau konsep data oleh satu set objek data yang label kelasnya diketahui
(training set), sehingga dapat memprediksi kelas yang labelnya tidak diketahui;
deteksi penyimpangan, yaitu berurusan dengan penyimpangan data, yang
didefinisikan sebagai perbedaan antara nilai yang terukur dan nilai referensi;
10
analisis evolusi, yaitu, mendeteksi dan menggambarkan pola yang teratur dalam
data yang perilakunya berubah dari waktu ke waktu. Sedangkan tujuan penggalian
deskriptif yaitu membangun model untuk mendeskripsikan data menjadi bentuk
yang mudah dimengerti, efektif, dan efisien. Contoh dari tugas deskriptif
diantaranya karakterisasi data, yang tujuan utamanya adalah untuk meringkas
karakteristik umum atau fitur dari kelas target data; association rule, yaitu,
menemukan aturan yang menunjukkan kondisi atribut-nilai yang sering muncul
bersama-sama dalam himpunan data dan clustering, yang bertujuan untuk
membentuk kelompok yang memiliki kohesif tinggi dan terpisahkan dengan baik
dari satu set objek data.
2.3 Text Mining
Text mining atau text analytics adalah istilah yang mendeskripsikan sebuah
teknologi yang mampu menganalisis data teks semi-terstruktur maupun tidak
terstruktur, hal inilah yang membedakannya dengan data mining dimana data
mining mengolah data yang sifatnya terstruktur. Pada dasarnya, text mining
merupakan bidang interdisiplin yang mengacu pada perolehan informasi
(information retrieval), data mining, pembelajaran mesin (machine learning),
statistik, dan komputasi linguistik (Han et al, 2012: 596). Text mining secara
umum adalah teori tentang pengolahan koleksi dokumen dalam jumlah besar yang
ada dari waktu ke waktu dengan menggunakan beberapa analisis, tujuan
pengolahan teks tersebut adalah mengetahui dan mengekstrak informasi yang
berguna dari sumber data dengan identifikasi dan eksplorasi pola menarik dalam
kasus text mining, sumber data yang dipergunakan adalah kumpulan atau koleksi
11
dokumen tidak terstuktur dan memerlukan adanya pengelompokan untuk
diketahui informasi sejenis (Soemantri & Wiyono, 2016: 1). Text mining
mengekstrak informasi dari teks dan mengkonversikannya menjadi indeks
numerik yang bermakna (Miner et al, 2012: 65).
Menurut Miner et al (2012: 31), pekerjaan text mining dikelompokkan
menjadi 7 daerah praktek yang diilustrasikan seperti Gambar 2.2.
Gambar 2.2 Diagram venn 6 bidang terkait dan 7 area praktek text mining
(Miner et al, 2012: 31)
1. Pencarian dan perolehan informasi (search and information retrieval),
yaitu penyimpanan dan penggalian dokumen teks misalnya dalam mesin
pencarian (search engine) dan pencarian kata kunci (keywords)
12
2. Pengelompokan dokumen, yaitu pengelompokan dan pengkategorian kata,
istilah, paragraf, atau dokumen dengan menggunakan metode klaster
(clustering) data mining.
3. Klasifikasi dokumen, yaitu pengelompokan dan pengkategorian kata,
istilah, paragraf, atau dokumen dengan menggunkan metode klasifikasi
(classification) data mining berdasarkan model terlatih yang sudah
memiliki label.
4. Web mining, yaitu penggalian informasi dari internet dengan skala fokus
yang spesifik.
5. Ekstraksi informasi (information extraction), yaitu mengidentifikasi dan
mengekstraksi informasi dari data yang sifatnya semi-terstruktur atau tidak
terstruktur dan mengubahnya menjadi data yang terstruktur.
6. Natural language processing (NLP), yaitu pembuatan program yang
memiliki kemampuan untuk memahami bahasa manusia.
7. Ekstraksi konsep, yaitu pengelompokan kata atau frase ke dalam
kelompok yang mirip secara semantik.
Untuk memperoleh tujuan akhir dari text mining, diperlukan beberapa
tahapan proses yang harus dilakukan seperti ditunjukkan pada Gambar 2.3. Data
terpilih yang akan dianalisis pertama akan melewati tahap Pra-proses dan
representasi teks, hingga akhirnya dapat dilakukan knowledge discovery.
13
Gambar 2.3 Kerangka proses analisis teks pada text mining
(Zhai & Aggarwal, 2012: 388)
2.3.1 Praproses (preprocessing task)
Data yang diinput perlu melewati fase pra-proses terlebih dahulu agar dapat
dimengerti oleh sistem pengolahan text mining dengan baik. Fase pra-proses
merupakan fase yang penting untuk menentukan kualitas proses selanjutnya
(proses klasifikasi dan pengelompokan). Tujuan utama fase pra-proses adalah
untuk mendapatkan bentuk data siap olah untuk diproses oleh data mining dari
data awal yang berupa data tekstual. Miner et al (2012: 46) menjelaskan bahwa
fitur-fitur fase pra-proses terdiri dari beberapa tahap sebagai berikut:
1. Pemilihan dokumen yang digunakan (dokumen yang mengandung
ancaman, caci maki, SARA, dan pornografi dihilangkan).
2. Tokenization, merupakan proses pemisahan teks menjadi potongan kalimat
dan kata yang disebut token.
3. Filtering, merupakan proses membuang kata-kata serta tanda-tanda yang
tidak bermakna secara signifikan, seperti hashtag (#), url, tanda baca
tertentu (emoticon), dan lainnya.
14
4. Stemming, merupakan proses pengambilan akar kata. Misalnya kata
memakai, dipakai, pemakai, dan pemakaian akan memiliki akar kata yang
sama yaitu “pakai”.
5. Spelling normalization, merupakan perbaikan kata-kata yang salah eja atau
disingkat dengan bentuk tertentu. Misalnya kata “tidak” memiliki banyak
bentuk penulisan seperti tdk, gak, nggak, enggak, dan banyak lainnya.
6. Case Folding, merupakan proses pengubahan huruf dalam dokumen
menjadi satu bentuk, misalnya huruf kapital menjadi huruf kecil dan
sebaliknya.
2.3.2 Penyusunan Vektor (Representation)
Feldman & Sanger (2007: 68) menjelaskan bahwa proses operasi algoritma
belajar (learning algorithms) tidak bisa langsung memproses dokumen teks dalam
bentuk aslinya. Oleh karena itu, setelah tahap pre-processing, dokumen diubah
menjadi representasi yang lebih mudah dikelola. Biasanya, dokumen akan
diwakili oleh vektor. Model vektor dibangun dari dokumen dengan mengubah
token-token dalam dokumen menjadi vektor numerik yang akan dioperasikan
berdasarkan operasi aljabar linear. Dalam rangka membangun model vektor, perlu
dilakukan proses pembobotan. Skema pembobotan yang paling banyak digunakan
adalah skema term frequency-inverse document frequency (TF-IDF). Term
frequency (TF) didefinisikan sebagai jumlah kemunculan suatu kata atau istilah
dalam suatu dokumen. Misalnya TF pada dokumen pertama untuk kata atau istilah
“jalan” adalah 2, karena kata atau istilah tersebut muncul 2 kali dalam dokumen
pertama. Pada asusmsi pembobotan dibalik TF-IDF, kata-kata dengan nilai TF
15
yang tinggi akan mendapat bobot yang tinggi kecuali jika jumlah dokumen yang
mengandung kata tersebut juga tinggi (inverse document frequency (IDF)).
Misalnya kata “yang” memiliki jumlah kemunculan yang tinggi tetapi jumlah
dokumen yang mengandung kata “yang” juga tinggi, sehingga kata tersebut akan
memiliki bobot yang rendah. Skema persamaan TF-IDF ditunjukkan oleh
persamaan berikut (Feldman & Sanger, 2007: 68).
Keterangan:
wm,i = bobot setiap term (m) terhadap setiap dokumen(i),
freq m,i = jumlah frekuensi kemunculan term m pada setiap i,
n = jumlah seluruh dokumen i,
nm = jumlah i yang terdapat kemunculan m.
Setelah melewati skema TF-IDF, akan didapatkan hasil yang berupa matriks.
Matriks yang didapatkan adalah matriks yang merepresentasikan dokumen dalam
baris dan token-token atau kata yang sudah dipisah-pisahkan dalam kolom.
2.3.3 Ekstraksi Informasi pada Text Mining
Tahap akhir penggalian informasi pada text mining yaitu ektraksi ilmu
pengetahuan (knowledge discovery), dimana terdapat beberapa jenis kategori
utama yang bisa dilakukan sebagai berikut (Miner et al, 2012: 84) :
16
1. Klasifikasi/prediksi
Klasifikasi adalah bentuk analisis data yang mengekstrak model untuk
menggambarkan kelas data (Han et al, 2012). Model yang dibangun meliputi
pengklasifikasian dan prediksi kategori label kelas. Klasifikasi data mempunyai
dua tahapan proses, yaitu tahap pembelajaran (learning step) dimana model
klasifikasi dibangun berdasarkan label yang sudah diketahui sebelumnya dan
tahapan klasifikasi (classification step) dimana model digunakan untuk
memprediksi label kelas dari data yang diberikan (Miner et al, 2012). Klasifikasi
memiliki berbagai aplikasi, termasuk deteksi penipuan, penargetan marketing,
prediksi kinerja, manufaktur, diagnosis medis, dan banyak lainnya. Sebagai
contoh, kita dapat membangun sebuah model klasifikasi untuk mengkategorikan
apakah suatu aplikan pinjaman bank termasuk aman atau berisiko. Karena pada
awal pembangunan model label kelas dari data telah diketahui, klasifikasi juga
disebut sebagai metode supervised learning.
2. Analisis Tren
Tujuan dari analisis tren yaitu untuk mencari perubahan suatu objek atau
kejadian oleh waktu. Salah satu aplikasi analisis tren yaitu kegiatan identifikasi
evolusi topik penelitian pada artikel akademis (Miner, et al, 2012: 86).
2.4 Metode Klasifikasi
Pada studi klasifikasi, proses pembelajaran dilakukan berdasarkan prinsip
machine learning. Machine learning merupakan suatu metode yang menyelidiki
bagaimana komputer belajar mengenai data (Han et al, 2012). Dalam machine
17
learning, training model (model latihan) akan dipelajari dengan menggunakan
berbagai algoritma yang ditentukan untuk mendapatkan model pengklasifikasi
yang dapat digunakan untuk mengklasifikasikan dokumen lainnya yang belum
mempunyai kategori sebelumnya. Algoritma yang biasanya digunakan untuk
melakukan pengklasifikasian antara lain adalah Support Vector Machine (SVM)
dan Naïve Bayes Classifier.
2.4.1 Teorema Bayes
Teorema Bayes merupakan teknik prediksi berbasis probabilistik sederhana
yang berdasar pada penerapan teorema bayes atau aturan bayes dengan asumsi
independensi (ketidak tergantungan) yang kuat (naïve). Dengan kata lain, naïve
bayes, model yang digunakan adalah model fitur independen (Prasetyo, 2012:59).
Maksud independensi yang kuat pada fitur adalah bahsa sebuah fitur pada sebuah
data tidak berkaitan dengan ada atau tidaknya fitur lain pada data yang sama.
Prediksi bayes didasarkan pada teorema bayes dengan formula umum berikut ini
(Wijaya et al, 2016:143):
Penjelasan formula diatas sebagai berikut:
Parameter Keterangan
P(H|X) Probabilitas bersyarat (conditional probability) suatu hipotesis H
jika diberikan bukti (Evidence) X terjadi
P(X|H) Probabilitas sebuah bukti X terjadi akan mempengaruhi hipotesis H
18
P(H) Probabilitas awal (priori) hipotesis A tanpa memangang bukti
apapun
P(X) Probabilitas awal (priori) bukti X terjadi tanpa memandang
hipotesis/bukti yang lain
Ide dasar dari aturan Bayes adalah bahwa hasil dari hipotesis atas peristiwa
(H) dapat diperkirakan berdasarkan pada beberapa bukti (E) yang diamati. Ada
beberapa hal penting dalam aturan bayes tersebut, yaitu:
� Sebuah probabilitas awal/prior A atau P(A) adalah probabilitas suatu
hipotesis sebelum bukti diamati.
� Sebuah probabilitas akhir B atau P(A|B) adalah probabilitas suatu
hipotesis setelah bukti diamati.
2.4.2 Naïve Bayes Classifier untuk klasifikasi
Prasetyo (2012: 61) menjelaskan kaitan antara naïve bayes dengan klasifikasi,
korelasi hipotesis dan bukti klasifikasi adalah bahwa hipotesis dalam teorema
bayes merupakan label kelas yang menjadi target pemetaan dalam klasifikasi.
Sedangkan bukti merupakan fitur-fitur yang menjadi masukan dalam model
klasifikasi. Jika X adalah vektor masukkan yang berisi fitur dan Y sebuah label
kelas, naïve bayes dituliskan dengan P(X|Y). Notasi tersebut berarti probabilitas Y
didapatkan setelah fitur-fitur X diamati. Notasi ini disebut juga probabilitas akhir
(posterior probability) untuk Y, sedangkan P(Y) disebut probabilitas awal (prior
probability) Y.
Selama proses pelatihan harus dilakukan pembelajaran probabilitas akhir
P(Y|X) pada model untuk setiap kombinasi X dan Y berdasarkan informasi yang
19
didapat dari data latih. Dengan membangun model tersebut, suatu data uji X’
dapat diklasifikasikan dengan mencari nilai Y’ dengan memaksimalkan P(X|Y)
yang didapat. Formulasi naïve bayes untuk klasifikasi yaitu:
P(X|Y) adalah probabilitas data dengan vektor X pada kelas Y. P(Y) adalah
probabilitas awal kelas adalah probabilitas independen kelas Y
dari semua fitur dalam vektor X. Nilai P(X) selalu tepat sehingga dalam
perhitungan prediksi nantinya kita tinggal menghitung bagian
dengan memilih yang terbesar sebagai kelas yang dipilih sebagai hasil prediksi.
Sementara probabilitas tersebut merupakan pengaruh sementara fitur
dari data terhadap setiap kelas Y, yang dinotasikan dengan persamaan berikut ini:
Setiap set fitur X = {X1, X2, X,…, Xq} terdiri atas q atribut (q dimensi).
Umumnya, Bayes mudah dihitung untuk fitur bertipe kategoris seperti pada kasus
klasifikasi hewan dengan fitur “penutup kulit” dengan nilai {bulu,rambut,
cangkang} atau kasus fitur “jenis kelamin” dengan nilai {pria,wanita}. Namun
untuk fitur dengan tipe numerik (kontinu) ada perlakuan khusus sebelum
dimasukkan dalam Naïve Bayes. Caranya adalah :
a) Melakukan diskretisasi pada setiap fitur kontinu dan mengganti nilai fitur
kontinu tersebut dengan nilai interval diskret. Pendekatan ini dilakukan
dengan mentransformasikan fitur kontinu ke dalam fitur ordinal.
20
b) Mengasumsikan bentuk tertentu dari distribusi probabilitas untuk fitur
kontinu dan memperkirakan parameter distribusi dengan data pelatihan.
Distribusi Gaussian biasanya dipilih untuk merepresentasikan probabilitas
bersyarat dari fitur kontinu pada sebuah kelas P(Xi|Y), sedangkan
distribusi Gaussian dikarakteristikkan dengan dua parameter : mean, µ dan
varian, σ2. Untuk setiap kelas yj, probabilitas bersyarat kelas yj untuk fitur
Xi adalah :
Parameter bisa didapat dari mean sampel Xi dari semua data latih yang
menjadi milik kelas yj, sedangkan dapat diperkirakan dari varian sampel (s2) dari
data latih. Terdapat 2 tahap pada proses klasifikasi teks. Tahap pertama adalah
pelatihan terhadap himpunan artikel contoh (training example). Sedangkan tahap
kedua adalah proses klasifikasi dokumen yang belum diketahui topiknya. Naïve
Bayes Classifier menyederhanakan hal ini dengan mengasumsikan bahwa dalam
setiap kategori, setiap kata independen satu sama lain. Pensubtitusian persamaan
diatas :
P(vj) dan probabilitas kata wk untuk setiap kategori P (wk | vj) dihitung pada saat
pelatihan,
21
Di mana f(ci) adalah nilai kemunculan fitur wkj, |W| adalah jumlah kata/fitur yang
digunakan. Sedangkan f(wkj, ci) adalah jumlah kemunculan kata wkj pada kategori
vi. Jumlah kata dalam setiap kelas dinyatakan sebagai n. Berikut contoh penerapan
metode naïve bayes classifier. Pada contoh ini, kita akan menentukan bagaimana
proses penentuan kategori untuk dokumen 3 dapat dilihat pada Tabel 2.1.
Tabel 2.1 Nilai fitur berdasarkan frequency
Dokumen Klasifikasi Fitur (kemunculan)
Dok 1 Sistem Informasi Geografis (2), informasi
(3), manajemen (2)
Dok 2 Sistem Pakar pakar (3), diagnosa (2),
penyakit (4)
Dok 3 ? pakar (2), geografis (1),
malaria (2)
dari dokumen diatas akan terbentuk term document matrix, dapat dilihat pada
Tabel 2.2.
Tabel 2.2 Term document matrix dengan frequency
Diagnosa Geografis Informasi Malaria Manajemen Pakar Penyakit
Dok
1 0 2 3 0 2 0 0
Dok
2 2 0 0 0 0 3 4
Dok
3 0 1 0 2 0 2 0
Tabel 2.3 Nilai Probabilitas
Klasifikasi P(ci) P(wkj | Ci)
Diagnosa Geografis Informasi Malaria Manajemen Pakar Penyakit
Sistem
Informasi
½ 1/14 3/14 3/14 1/14 3/14 1/14 1/14
Sistem
Pakar
½ 3/16 1/16 1/16 1/16 1/16 4/16 5/16
22
Setelah pembuatan model probabilistik selesai dilakukan pada Tabel 2.3,
langkah terakhir yang dilakukan adalah penentuan klasifikasi untuk dokumen 3.
Karena p(“sistem pakar”|”dok 3”) > p(“sistem informasi”|”dok 3”), maka kategori
dari dokumen 3 adalah sistem pakar.
23
2.5 Penelitian Terkait
Penelitian yang terkait digunakan untuk referensi agar dikembangkan oleh
peneliti selanjutnya. referensi terkait mempunyai keterkaitan metode dan objek
penelitian terhadap penelitian yang akan dilakukan. Berikut beberapa penelitian
yang terkait dengan penelitian yang akan dibuat:
1. Oh et al (2014: 194) dalam jurnalnya yang berjudul Research Trend Analysis
using Word Similarities and Clusters. menjelaskan tentang bagaimana
menemukan tren penelitian dengan menggunakan text mining. Peneliti
menunjukan perubahan tren penelitian menggunakan hasil Term frequency
Inverse Document Frequency (TF-IDF) dan perbandingan kesamaan kata,
selain itu untuk lebih mudah dalam memahami distribusi tren penelitian
dalam distribusi jaringan kata, maka ditunjukkan dalam bentuk grafik. Hasil
dari penelitian tersebut menunjukkan bahwa dalam analisis tren penelitian,
Important Word cluster (IWC) dan kata-kata interkoneksi sangat bergantung
pada masalah domain yang spesifik. Oleh karena itu, analisis tren penelitian
berdasarkan kesamaan kata masih memiliki banyak kendala, keterbatasan,
dan tantangan. Penggalian kata-kata umum dan khusus dari istilah-istilah
akan menjadi hal menarik untuk dilakukan penelitian dimasa yang akan
datang sehingga diharapkan mampu membuat kemajuan yang lebih tepat dan
akurat. Mengekstraksi kata-kata penting menggunakan keunikan dan
interkoneksi juga penting untuk meningkatkan hasil yang lebih signifikan.
2. Prilianti & Wijaya (2014: 1) dalam jurnalnya yang berjudul Aplikasi Text
Mining untuk Automasi Penentuan Tren Topik Skripsi dengan Metode K-
24
Means Clustering dilakukan pengembangan aplikasi untuk menggali topik-
topik skripsi mahasiswa yang biasanya terkumpul melalui repository. Proses
tersebut dilakukan semi-otomatis dengan memanfaatkan metode text mining
dan algoritma k-means clustreing terhadap kumpulan dokumen digital abstrak
dari buku skripsi. Proses awal meliputi tahap tokenizing, filtering, stemming,
dan tagging. Algoritma yang dipilih untuk tahap filtering adalah stop list.
Dalam tahap filtering, atas pertimbangan efisiensi memori dipilihlah
algoritma porter yang berbasiskan pada konsep affix removal. Seluruh kata
yang lolos proses filtering, stemming, dan tagging selanjutnya disebut dengan
term. Untuk setiap term, dihitung kemunculanya pada setiap dokumen input
dan hasilnya disimpan dalam pangkalan data dokumen untuk kemudian
digunakan dalam proses penentuan pola. Kemudian digunakan algoritma k-
means clustering untuk melakukan analisis kelompo-kelompok topik skripsi.
Tahap selanjutnya adalah penentuan dari pusat setiap kelompok yang akan
dibentuk. Hasil pengelompokan k-means clustering selanjutnya dilaporkan
dengan menggunakan teknik pareto. Konsep dari diagram ini adalah
melaporkan urutan kemunculan term secara menurun, artinya term yang
paling banyak muncul pada suatu kelompok tertentu akan diletakkan paling
awal. Hasil percobaan terhadap aplikasi yang dikembangkan menunjukkan
hasil yang positif baik dalam aspek kinerja algoritma k-means clustering,
kemudahan dan kecepatan penggunaan aplikasi maupun akurasi konklusi.
Melalui penelitian ini ditunjukkan bahwa algoritma k-means clustering yang
digunakan dalam proses penemuan pola tebukti dapat membantu proses
25
pengelompokan berbagai topik skripsi yang ada sehingga diperoleh informasi
yang bermakna dalam menentukan tren penelitian Universitas dari tahun ke
tahun.
56
BAB V
PENUTUP
5.1 Simpulan
Berdasarkan uraian hasil dan pembahasan dari penelitian ini, dapat ditarik
kesimpulan bahwa penerapan metode TF-IDF dan Naïve Bayes Classifier dalam
sistem untuk menentukan tren judul jurnal berbahasa Indonesia yaitu mengunakan
beberapa tahap. Pertama, pengambilan data dengan menggunakan API DOAJ.
Kedua, tahap preprocessing terdiri dari proses tokenization, stemming dan
filtering. Ketiga, tahap pembobotan kata dengan TF-IDF dan tahap terakhir ialah
proses pengklasifikasi data uji menggunakan Naïve Bayes Classifier dengan
menghitung nilai probabilitas masing-masing teks. Kemudian dari hasil klasifikasi
data training dan data testing tersebut akan didapatkan tren dari judul jurnal
berdasarkan kelas atau kategori yang memiliki anggota terbesar hingga terkecil.
Hasil persentase 5 kelas atau kategori dengan jumlah tertinggi yang menjadi tren
adalah sistem pedukung keputusan 24,7%, sistem informasi 21,7%, sistem pakar
14,6%, e-learning 9,8%, kriptografi 6,7%.
5.2 Saran
Saran yang dapat ditulis untuk penelitian ini adalah data training yang
digunakan masih mengunakan pelabelan manual, sehingga sulit dilakukan
pelabelan pada data training dalam jumlah yang besar. Penelitian selanjutnya
diharapkan dapat menemukan solusi untuk mengenai masalah ini.
57
DAFTAR PUSTAKA
Brata, D. W., & Hetami, A. 2013. Perancangan Information Retrieval (IR) Untuk
Pencarian Ide Pokok Teks Artikel Berbahasa Inggris Dengan Pembobotan
Vector Space Model. Jurnal Ilmiah Tekhnologi dan Informasi ASIA, 9: 53-59
Feldman, R., & Sanger, J. 2007. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. New York: Cambridge
University Press.
Gullo, F. 2015. From Patterns in Data to Knowledge Discovery: What Data
Mining Can Do. Physics Procedia, 62: 18-22.
Gupta, N. 2011. Text Mining for Information Retreival. Tesis. India: Jaypee
Institute of Information Technology University.
Han, J., Kamber, M., & Pei, J. 2012. Data Mining: Concepts and Techniques Third Edition. Waltham, MA: Morgan Kaufmann, 1-703.
Linoff, G. S., & Berry, M. J. 2011. Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management Third Edition. Indianapolis,
IN: Wiley Publising, Inc.
Mandala, R & Setiawan, H. 2002. Peningkatan Performansi Sistem Temu-Kembali Informasi dengan Perluasan query Secara Otomatis. Bandung:
Institut Teknologi Bandung, 1-18.
Miner, G., Delen, D., Elder, J., Fast, A., Hill, T., & Nisbet, R. 2012. Practical Text Mining and Statistical Analysis for Non-Structured Text Data applications. Oxford: Elsevier, 1-1025.
Oh, K., Lim, C., Kim, S., & Choi, H. 2013. Research Tren Analysis using Word
Similarities and Clusters. International Journal of Multimedia and Ubiquitous Engineering, 9(1), 185-196.
Prasetyo, E. 2012. Data Mining Konsep dan Aplikasi Menggunakan MATLAB.
Yogyakarta: Andi
Prilianti, K. R., & Wijaya, H. 2014. Aplikasi Text Mining untuk Automasi
Penentuan Tren Topik Skripsi dengan Metode K-Means Clustering. Jurnal Cybermatika, 2(1): 1-6.
Robertson, S. 2004. Understanding Inverse Document Frequency: On theoretical
arguments for IDF. Journal of Documentation, 60(5): 503-520.
58
Somantri, O., & Wiyono, S. 2016. Metode K-Means untuk Optimasi Klasifikasi
Tema Tugas Akhir Mahasiswa Menggunakan Support Vector Machine
(SVM). Scientific Journal of Informatics, 3(1), 34-45.
Wijaya, M. R., Saptono, R., & Doewes, A. 2016. The Effect of Best First and
Spreadsubsample on Selection of a Feature Wrapper With Naïve Bayes
Classifier for The Classification of the Ratio of Inpatients. Scientific Journal of Informatics, 3(2), 41-50.
Wulandini, F., & Nugroho, A. S. 2009. Text Classification Using Support Vector
Machine for Web mining Based Spation Temporal Analysis of the Spread of
Tropical Diseases. In International Conference on Rural Information and Communication Technology,189-192.
Zhai, C., & Aggarwal, C. C. 2012. Mining Text Data. New York: Springer.
Top Related