Download - INFORMATION RETRIEVAL SYSTEM - lib.unnes.ac.idlib.unnes.ac.id/32381/1/4611412032.pdf · Klasifikasi dibagi menjadi 13 kelas kategori yaitu sistem pendukung keputusan, sistem pakar,

i

INFORMATION RETRIEVAL SYSTEM

UNTUK MENENTUKAN TREN JUDUL JURNAL

BERBAHASA INDONESIA MENGGUNAKAN METODE

TF-IDF DAN NAЇVE BAYES CLASSIFIER

skripsi

disajikan sebagai salah satu syarat

untuk memperoleh gelar Sarjana Komputer

Program Studi Teknik Informatika

oleh

Wandha Budhi Trihanto

4611412032

JURUSAN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS NEGERI SEMARANG

2017

v

MOTTO DAN PERSEMBAHAN

MOTTO

Sesungguhnya Allah tidak akan mengubah nasib suatu kaum kecuali kaum

itu sendiri yang mengubah apa yang ada pada mereka (QS. Ar-Ra’d : 11)

PERSEMBAHAN

Skripsi ini saya persembahkan kepada:

1. Bapak Heri Prihadi Prasetya Budhi, B.Sc

dan Ibu Minarti tercinta atas dorongan

motivasi dan doa yang tiada henti

2. Kakak-kakak saya (Nandha Narra

Prihadi, S.E, Marlinda Irwanti, S.Pd dan

Khusnul Khotimah, S.T)

3. Almamater Universitas Negeri Semarang

vi

KATA PENGANTAR

Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa karena atas

segala ridho dan limpahan rahmat-Nya penulis dapat menyelesaikan skripsi yang

berjudul “Information retrieval system untuk Menentukan Tren Judul Jurnal

Berbahasa Indonesia Menggunakan Metode TF-IDF dan Naïve Bayes

Classifier”.

Penulis menyadari bahwa skripsi ini tidak akan selesai tanpa adanya bantuan

dari berbagai pihak. Oleh karena itu penulis ingin menyampaikan ucapan terima

kasih kepada:

1. Prof. Dr. Fathur Rokhman, M.Hum., Rektor Universitas Negeri Semarang.

2. Prof. Dr. Zaenuri, S.E., M.Si., Akt., Dekan Fakultas Matematika dan Ilmu

Pengetahuan Alam Universitas Negeri Semarang.

3. Endang Sugiharti, S.Si., M.Kom., Ketua Jurusan Ilmu Komputer Fakultas

Matematika dan Ilmu Pengetahuan Alam Universitas Negeri Semarang.

4. Bapak Riza Arifudin, S.Pd., M.Cs., dan Bapak Much Aziz Muslim, S.Kom.,

M.Kom selaku dosen pembimbing yang selalu memberikan arahan kepada

penulis.

5. Endang Sugiharti, S.Si., M.Kom., selaku penguji yang memberikan banyak

masukan, kritik dan saran dalam penyelesaian skripsi ini.

6. Bapak dan ibu dosen serta staf yang ada dijurusan ilmu komputer yang telah

memberikan motivasi dalam pengerjaan skripsi ini.

7. Bapak dan ibu yang selalu menyemangati setiap harinya.

vii

,

viii

ABSTRAK

Trihanto, Wandha Budhi. 2017. Information Retrieval System untuk Menentukan

Tren Judul Jurnal Berbahasa Indonesia menggunakan Metode TF-IDF dan Naïve Bayes Classifier. Skripsi, Jurusan Ilmu Komputer Fakultas Matematika dan Ilmu

Pengetahuan Alam Universitas Negeri Semarang. Pembimbing I: Riza Arifudin,

S.Pd., M.Cs., dan Pembimbing II: Much Aziz Muslim, S.Kom., M.Kom.

Kata kunci: E-journal, teks mining, TF-IDF, Naïve Bayes Classifier.

Perkembangan ilmu pengetahuan dan teknologi saat ini tidak terlepas dari

berbagai penelitian yang dilakukan oleh seseorang baik dari kalangan pendidikan,

swasta dan pemerintahan. Kemudian hasil dari penelitian tersebut berupa artikel

dan jurnal akan dipublikasikan melalui media cetak atau media elektronik.

Melalui media elektronik hasil penelitian tersebut salah satunya dapat

dipublikasikan di internet yaitu melalui website jurnal online. Banyaknya jurnal

yang dipublikasikan tidak disertai dengan pertumbuhan jumlah informasi dan

pengetahuan yang dapat diambil dari dokumen-dokumen elektronik tersebut.

Metode TF-IDF adalah salah satu metode teks mining yang cepat dan efisien

untuk mengekstrak kata-kata yang berguna sebagai nilai informasi dari sebuah

dokumen. Metode ini mengkombinasikan dua konsep perhitungan bobot yaitu

frekuensi kemunculan kata pada sebuah dokumen tertetu dan invers frekuensi

dokumen yang mengandung kata tesebut. Selanjutnya analisa data judul jurnal

dilakukan dengan metode Naïve Bayes Classifier. Metode tersebut bertujuan

untuk melakukan klasifikasi data judul jurnal pada kelas tertentu, kemudian dari

kelas-kelas tesebut dapat ditentukan data judul jurnal yang sedang menjadi tren.

Tujuan dari penelitian adalah membangun sebuah sistem temu kembali informasi

berbasis website yang dapat membantu mengklasifikasikan dan menentukan tren

dari judul jurnal berbahasa Indonesia. Hal ini dapat membantu para peneliti

selanjutnya dalam membuat rancangan penelitian-penelitian yang akan dilakukan.

Selain itu penelitian ini juga bertujuan untuk menerapkan metode TF-IDF dan

Naïve Bayes Classifier dalam menentukan tren judul jurnal berbahasa Indonesia.

Penelitian ini menghasilkan sebuah sistem yang dapat digunakan untuk

mengklasifikasikan judul jurnal berbahasa Indonesia dan tren. Dengan tingkat

akurasi sistem dalam menentukan klasifikasi adalah sebesar 90,6% dan error rate

sebesar 9,4%. Hasil persentase tertinggi yang menjadi tren dari klasifikasi judul

adalah kategori sistem pendukung keputusan yaitu sebesar 24,7%,

ix

DAFTAR ISI

Halaman

HALAMAN JUDUL ...................................................................................... i

PERNYATAAN ............................................................................................. ii

PERSETUJUAN PEMBIMBING .................................................................. iii

PENGESAHAN ............................................................................................. iv

MOTTO DAN PERSEMBAHAN ................................................................. v

KATA PENGANTAR ................................................................................... vi

ABSTRAK ..................................................................................................... viii

DAFTAR ISI .................................................................................................. viii

DAFTAR TABEL .......................................................................................... xii

DAFTAR GAMBAR ..................................................................................... xiiii

DAFTAR LAMPIRAN .................................................................................. xiv

BAB

1. PENDAHULUAN ..................................................................................... 1

1.1 Latar Belakang .................................................................................... 1

1.2 Rumusan Masalah ............................................................................... 3

1.3 Batasan Masalah .................................................................................. 4

1.4 Tujuan Penelitian ................................................................................. 4

1.5 Manfaat Penelitian ............................................................................... 5

1.6 Sistematika Penulisan .......................................................................... 6

x

2. TINJAUAN PUSTAKA............................................................................. 7

2.1 Information Retrieval System (Sistem Temu Kembali) ...................... 7

2.2 Data Mining ........................................................................................ 8

2.3 Text Mining .......................................................................................... 10

2.3.1 Praproses (preprocessing task) ................................................. 12

2.3.2 Penyusunan Vektor (Representation) ....................................... 13

2.3.3 Ekstraksi Informasi pada Text Mining ..................................... 14

2.4 Metode Klasifikasi .............................................................................. 16

2.4.1 Teorema Bayes .......................................................................... 16

2.4.2 Naïve Bayes Classifier untuk klasifikasi .................................. 17

2.5 Penelitian Terkait ................................................................................ 23

3. METODE PENELITIAN ........................................................................... 26

3.1 Studi Pendahuluan ............................................................................... 26

3.1.1 Tempat dan Objek Penelitian .................................................... 27

3.1.2 Variabel Penelitian .................................................................... 27

3.2 Pengumpulan Data .............................................................................. 27

3.3 Tahap Pengembangan Sistem .............................................................. 27

3.3.1 Analisis Kebutuhan ................................................................... 28

3.3.2 Metode TF-IDF untuk Menentukan Tren Judul Jurnal ............. 28

3.3.3 Metode Naïve Bayes Classifier untuk Menentukan

Tren Judul Jurnal ...................................................................... 29

3.4 Perancangan Sistem ............................................................................. 29

3.4.1 Flowchart Sistem ...................................................................... 29

xi

3.4.2 Struktur Tabel Basis Data ......................................................... 31

3.4.3 Pengkodean (Code) ................................................................... 34

3.4.4 Pengujian (Test) ......................................................................... 34

4. HASIL DAN PEMBAHASAN .................................................................. 35

4.1 Hasil Penelitian .................................................................................... 35

4.1.1 Preprocessing ............................................................................ 35

4.1.2 Tahap Pembobotan TF-IDF ...................................................... 37

4.1.3 Tahap Penghitungan Probabilitas .............................................. 41

4.1.4 Tahap Implementasi Sistem ...................................................... 48

4.2 Pembahasan ......................................................................................... 53

5. PENUTUP .................................................................................................. 56

5.1 Simpulan .............................................................................................. 56

5.2 Saran .................................................................................................... 56

DAFTAR PUSTAKA .................................................................................... 57

LAMPIRAN ................................................................................................... 59

xii

DAFTAR TABEL

Tabel Halaman

2.1 Nilai fitur berdasarkan frequency ......................................................... 20

2.2 Term document matrix dengan frequency............................................. 20

2.3 Nilai Probabilitas .................................................................................. 20

3.1 tb_admin ............................................................................................... 29

3.2 Artikel ................................................................................................... 29

3.3 tb_term .................................................................................................. 30

3.4 Tabel tb_stopword ................................................................................ 30

3.5 Tabel tb_klasifikasi ............................................................................... 31

3.6 Tabel tb_training .................................................................................. 31

3.7 Tabel tb_testing .................................................................................... 31

3.8 Tabel tb_relasi ...................................................................................... 32

4.1 Data Stopword ...................................................................................... 34

4.2 Hasil stemming judul ............................................................................ 35

4.3 Kemunculan Kata (TF) ......................................................................... 36

4.4 Hasil TF-IDF ........................................................................................ 38

4.5 Data training judul yang sudah memiliki kategori ............................... 39

4.6 Data testing judul yang belum diketahui kategorinya .......................... 40

4.7 Kemunculan term dalam data testing ................................................... 41

4.8 Tabel Probabilitas Kata untuk Setiap Kategori .................................... 44

xiii

DAFTAR GAMBAR

Gambar Halaman

2.1 Data mining sebagai tahapan dari knowledge discovery ...................... 7

2.2 Diagram venn 6 bidang terkait dan 7 area praktek text mining ............ 10

2.3 Kerangka proses analisis teks pada text mining .................................... 11

3.1 Model Sekuensial Linier ....................................................................... 24

3.2 Flowchart Metode TF-IDF dan Naïve Bayes Classifier untuk

menentukan tren judul jurnal ................................................................ 28

4.1 Form Login ........................................................................................... 46

4.2 Tampilan Awal ..................................................................................... 46

4.3 Tampilan Menu stopword ..................................................................... 47

4.4 Tampilan Menu Term ........................................................................... 48

4.5 Tampilan data training ......................................................................... 48

4.6 Tampilan data testing ............................................................................ 49

4.7 Menu Perhitungan ................................................................................. 49

4.8 Menu Grafik.......................................................................................... 50

4.9 Menu Password .................................................................................... 50

4.10 Persentase Tren Hasil Klasifikasi Judul Jurnal ..................................... 52

xiv

DAFTAR LAMPIRAN

Lampiran Halaman

1 Data Judul Jurnal .................................................................................. 59

2 Data Stopword ...................................................................................... 84

3 Evaluasi data hasil klasifikasi ............................................................... 82

4 Source code penentuan tren judul jurnal dengan TF-IDF

& Naïve Bayes Classifier ............................................................................ 85

1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Saat ini perkembangan ilmu pegetahuan dan teknologi tidak terlepas dari

banyaknya penelitian-penelitian yang dilakukan, oleh individu-individu atau

institusi-institusi baik dari kalangan pendidikan, swasta, dan pemerintahan.

Kemudian hasil dari penelitian tersebut berupa tugas akhir, makalah, artikel, dan

jurnal yang dipublikasikan baik melalui media cetak ataupun media elektronik. Di

media elekronik selain melaui radio dan televisi, hasil dari penelitian tersebut bisa

juga dipublikasikan di internet yaitu melalui website jurnal online. Gupta (2011:

1) menjelaskan bahwa banyaknya jumlah jurnal yang dipublikasikan tidak disertai

dengan pertumbuhan jumlah informasi atau pengetahuan yang dapat diambil dari

dokumen-dokumen elektronik tersebut. Biasanya metode text mining sering

digunakan untuk mengatasi masalah tersebut.

Metode text mining merupakan pengembangan dari metode data mining.

Algoritma-algoritma dalam text mining dibuat untuk dapat mengenali data yang

sifatnya semi terstruktur misalnya sinopsis, abstrak maupun isi dari dokumen-

dokumen (Gupta, 2011: 1). Beberapa aplikasi text mining telah diterapkan di

perpustakaan terutamanya untuk pencarian bahan pustaka berbasis teks. Meskipun

demikian belum banyak aplikasi dikembangkan untuk tujuan analisis, sehingga

sangatlah sulit untuk dapat dengan segera mengetahui topik peneltian yang

2

menjadi tren pada tahun tertentu ataupun kecenderungan minat penelitian pada

bidang studi terentu. (Prilianti & Wijaya, 2014: 1).

Untuk melakukan proses pencarian jurnal tersebut diperlukan proses data

mining. Data mining merupakan sebuah proses dari knowledge discovery

(penemuan pengetahuan) dari data yang sangat besar. Sementara itu di dalam data

mining, terdapat text mining, yang merupakan bidang yang bertujuan untuk

mengumpulkan informasi yang berguna dari dalam teks dan kemudian

mengekstrak informasi yang berguna untuk tujuan tertentu. Sistem otomatis yang

dapat digunakan untuk mengekstrak informasi yang berguna adalah sistem temu

kembali informasi (information retrieval system).

Mandala & Setiawan (2002: 1) menjelaskan bahwa sistem temu kembali

informasi (information retrieval system) merupakan sistem yang digunakan untuk

menemukan informasi yang relevan dengan kebutuhan dari penggunanya secara

otomatis berdasarkan kesesuaian dengan query (masukan berupa ekspresi

kebutuhan informasi oleh pengguna) dari suatu koleksi informasi.

Pada penelitian ini akan digunakan metode TF-IDF dan Naïve Bayes

Classifier untuk menentukan tren judul jurnal berbahasa Indonesia. Metode TF-

IDF (Term Frequency Inverse Document Frequency) adalah salah satu metode

text mining yang cepat dan efisien untuk mengekstrak kata-kata yang berguna

sebagai nilai informasi dari sebuah dokumen (Oh et al, 2013: 185). Menurut

Defeng dalam Robertson (2004: 503) Metode TF-IDF (Term Frequency Inverse

Document Frequency) merupakan suatu cara untuk memberikan bobot hubungan

suatu kata (term) terhadap dokumen. Metode ini menggabungkan dua konsep

3

untuk perhitungan bobot, yaitu frekuensi kemunculan sebuah kata didalam sebuah

dokumen tertentu dan inverse frekuensi dokumen yang mengandung kata tersebut.

Frekuensi kemunculan kata didalam dokumen yang diberikan menunjukkan

seberapa penting kata itu didalam dokumen tersebut.

Selanjutnya tahap akhir penelitian ini analisa data mining dilakukan dengan

menggunakan metode Naïve Bayes Classifier. Naïve Bayes merupakan salah satu

meode pada probabilistic reasoning. Algoritma Naïve Bayes bertujuan untuk

melakukan klasifikasi data pada kelas tertentu, kemudian pola tersebut kelas judul

jurnal yang sedang menjadi sebuah tren. Kelebihan metode Naïve Bayes Classifier

adalah sederhana tetapi memiliki akurasi yang tinggi. Berdasarkan hasil

eksperimen (Wulandini & Nugroho, 2009: 191), Naïve Bayes Classifier pada

penelitian terdahulu terbukti dapat digunakan secara efektif untuk kategorisasi

teks bahasa Indonesia dengan akurasi mencapai 90%. Algoritma Naïve Bayes

Classifier yang sederhana dan kecepatannya yang tinggi dalam proses pelatihan

dan klasifikasi membuat algoritma ini menarik untuk digunakan sebagai salah satu

metode klasifikasi.

Berdasarkan uraian diatas, maka penulis membuat penelitian yang berjudul

“Information retrieval system untuk menentukan tren judul jurnal berbahasa

Indonesia menggunakan metode TF-IDF dan Naïve Bayes Classifier”.

1.2 Rumusan Masalah

Berdasarkan latar belakang masalah maka dapat dirumuskan perumusan

masalah yaitu bagaimana penerapan metode TF-IDF dan Naïve Bayes Classifier

dalam menentukan tren judul jurnal berbahasa Indonesia?

4

1.3 Batasan Masalah

Pada penelitian ini diperlukan batasan-batasan agar tujuan penelitian dapat

tercapai. Adapun batasan masalah yang dibahas pada penelitian ini adalah

1. Sistem hanya menentukan tren dari judul jurnal berbahasa Indonesia

tentang ilmu komputer pada website DOAJ.

2. Sistem hanya mengambil data judul dari jurnal berbahasa Indonesia

dengan kata kunci ilmu komputer pada website DOAJ.

3. Data diunduh pada tanggal 21 Maret 2017 dengan jumlah data sebanyak

366 data judul.

4. Klasifikasi dibagi menjadi 13 kelas kategori yaitu sistem pendukung

keputusan, sistem pakar, sistem informasi, e-commerce, e-learning,

jaringan komputer, jaringan syaraf tiruan, pengolahan citra, kriptografi,

kecerdasan buatan, sistem informasi geografis, aplikasi mobile, dan game.

1.4 Tujuan Penelitian

Tujuan perancangan dan pembangunan aplikasi berbasis website ini adalah

sebagai berikut:

1. Membangun sebuah sistem temu kembali informasi berbasis website yang

dapat membantu mengklasifikasikan dan menentukan tren dari judul jurnal

berbahasa Indonesia.

2. Menerapkan metode TF-IDF dan Naïve Bayes Classifier dalam

menentukan tren judul jurnal berbahasa Indonesia.

5

1.5 Manfaat Penelitian

Manfaat penelitian ini adalah sebagai berikut:

1. Membantu dalam proses klasifikasi judul jurnal yang ada sehingga

diperoleh informasi yang bermakna dalam menentukan tren judul jurnal

berbahasa Indonesia di website DOAJ.

2. Membantu dalam mengetahui tren judul jurnal berbahasa Indonesia pada

website DOAJ.

1.6 Sistematika Penulisan Skripsi

Sistematika penulisan untuk memudahkan dalam memahami alur pemikiran

secara keseluruhan skripsi. Penulisan skripsi ini secara garis besar dibagi menjadi

tiga bagian yaitu sebagai berikut.

1. Bagian Awal Skripsi

Bagian awal skripsi terdiri dari halaman judul, halaman pengesahan,

halaman pernyataan, halaman motto dan persembahan, abstrak, kata pengantar,

daftar isi, daftar gambar, daftar tabel dan daftar lampiran.

2. Bagian Isi Skripsi

Bagian isi skripsi terdiri dari lima bab yaitu sebagai berikut:

BAB I : PENDAHULUAN

Terdiri dari latar belakang, perumusan masalah, tujuan penelitian, manfaat

penelitian dan sistematika penulisan.

6

BAB II : TINJAUAN PUSTAKA

Bab ini membahas berbagai konsep dasar dan teori-teori yang berkaitan

dengan topik penelitian yang dilakukan dan hal-hal yang berguna dalam

proses analisis permasalahan serta tinjauan terhadap penelitian.

BAB III : METODOLOGI PENELITIAN

Bab ini terdiri atas objek, waktu dan lokasi penelitian, sumber data, dan

penerapan serta analisa metode terhadap data.

BAB IV : HASIL DAN PEMBAHASAN

Bab ini menjelaskan tentang hasil perancangan keseluruhan beserta

penjelasan dan penggunaan program yang telah dibuat.

BAB V : PENUTUP

Bab ini merupakan bab penutup yang berisi tentang kesimpulan dari

rangkuman hasil penelitian dan saran- saran yang perlu diperhatikan bagi

pengembangan sistem kedepannya.

3. Bagian Akhir Skripsi

Bagian akhir skripsi berisi daftar pustaka yang merupakan informasi

mengenai buku-buku, sumber-sumber dan referensi yang digunakan penulis

serta lampiran-lampiran yang mendukung dalam penulisan skripsi ini.

7

BAB II

TINJAUAN PUSTAKA

2.1 Information Retrieval System (Sistem Temu Kembali)

Menurut Brata & Hetami (2015: 54) information retrieval merupakan sistem

yang menerima query dari pengguna, kemudian dilakukan ranking terhadap

dokumen berdasar kesesuian terhadap query. Hasil ranking yang diberikan pada

pengguna merupakan dokumen yang menurut sistem memiliki relevansi terhadap

query, tetapi tingkat relevansi itu sendiri merupakan hal yang subjektif tergantung

dari pengguna yang dipengaruhi oleh berbagai macam faktor seperti topik,

pewaktuan, sumber informasi maupun tujuan pengguna. Model sistem temu

kembali menentukan detail sistem temu yaitu meliputi representasi dokumen

maupun query, fungsi pencarian (retrieval function), dan notasi kesesuaian

(relevance notation) dokumen terhadap query.

Brata & Hetami (2015: 54) menjelaskan bahwa information retrieval terbagi

dari beberapa bagian yang dijabarkan sebagai berikut:

1. Text Operations, meliputi pemilihan katakata dalam query maupun dokumen

(term selection) dalam proses transformasi dokumen atau query menjadi term

index (indeks kata-kata).

2. Query formulation, memberi bobot pada indeks kata-kata query.

3. Ranking, mencari dokumen-dokumen yang relevan terhadap query dan

mengurungkan dokumen tersebut berdasarkan kesesuaiannya dengan query.

8

4. Indexing, membangung basis data indeks dari koleksi dokumen Dilakukan

terlebih dahulu sebelum pencarian dokumen dilakukan.

2.2 Data Mining

Data mining didefinisikan sebagai proses komputasi untuk menganalisis data

dalam jumlah besar dengan mengekstrak pola dan informasi yang berguna (Gullo,

2015: 18). Dalam beberapa dekade terakhir, data mining telah banyak mendapat

sebutan lain seperti knowledge discovery, business intelligence, predictive

modeling, predictive analytics, dan beberapa lainnya (Linoff & Berry, 2011: 2).

Tetapi, tidak sedikit orang yang mendefinisikan data mining sebagai sinonim dari

istilah populer lainnya yaitu knowledge discovery from data (KDD) dan yang lain

melihat data mining hanya sebagai salah satu tahapan dari knowledge discovery

(Han et al, 2012: 6).

Gambar 2.1 Data mining sebagai tahapan dari knowledge discovery

(Han et al, 2012: 6)

9

Pada proses knowledge discovery seperti ditunjukkan pada Gambar 2.1,

terdapat beberapa tahapan proses yang dilakukan yaitu:

1. Cleaning data, yaitu proses untuk mengeliminasi noise (pengganggu) dan

data yang tidak konsisten.

2. Integrasi data, yaitu proses penggabungan data jika data diperoleh dari

berbagai sumber.

3. Seleksi data, yaitu proses pemilihan data yang benar-benar berguna untuk

dianalisis.

4. Transformasi data, yaitu proses transformasi data menjadi bentuk yang

sesuai untuk dilakukan proses data mining.

5. Data mining, yaitu proses dimana metote-metode khusus diaplikasikan

untuk mengekstrak inforrmasi dan pola data.

6. Pattern evaluation, yaitu proses untuk mengidentifikasi pola-pola dan

informasi menarik yang didapatkan dari data.

Menurut Gullo (2015: 19) Penggunaan data mining dibedakan menjadi dua

jenis fungsi yaitu prediktif dan deskriptif. Penggalian prediktif mengacu pada

pembangunan model yang berguna untuk memprediksi perilaku atau nilai-nilai

dimasa depan. Tugas deskriptif meliputi klasifikasi dan prediksi, tugas yang

dilakukan seperti membangun beberapa model atau fungsi yang menggambarkan

kelas atau konsep data oleh satu set objek data yang label kelasnya diketahui

(training set), sehingga dapat memprediksi kelas yang labelnya tidak diketahui;

deteksi penyimpangan, yaitu berurusan dengan penyimpangan data, yang

didefinisikan sebagai perbedaan antara nilai yang terukur dan nilai referensi;

10

analisis evolusi, yaitu, mendeteksi dan menggambarkan pola yang teratur dalam

data yang perilakunya berubah dari waktu ke waktu. Sedangkan tujuan penggalian

deskriptif yaitu membangun model untuk mendeskripsikan data menjadi bentuk

yang mudah dimengerti, efektif, dan efisien. Contoh dari tugas deskriptif

diantaranya karakterisasi data, yang tujuan utamanya adalah untuk meringkas

karakteristik umum atau fitur dari kelas target data; association rule, yaitu,

menemukan aturan yang menunjukkan kondisi atribut-nilai yang sering muncul

bersama-sama dalam himpunan data dan clustering, yang bertujuan untuk

membentuk kelompok yang memiliki kohesif tinggi dan terpisahkan dengan baik

dari satu set objek data.

2.3 Text Mining

Text mining atau text analytics adalah istilah yang mendeskripsikan sebuah

teknologi yang mampu menganalisis data teks semi-terstruktur maupun tidak

terstruktur, hal inilah yang membedakannya dengan data mining dimana data

mining mengolah data yang sifatnya terstruktur. Pada dasarnya, text mining

merupakan bidang interdisiplin yang mengacu pada perolehan informasi

(information retrieval), data mining, pembelajaran mesin (machine learning),

statistik, dan komputasi linguistik (Han et al, 2012: 596). Text mining secara

umum adalah teori tentang pengolahan koleksi dokumen dalam jumlah besar yang

ada dari waktu ke waktu dengan menggunakan beberapa analisis, tujuan

pengolahan teks tersebut adalah mengetahui dan mengekstrak informasi yang

berguna dari sumber data dengan identifikasi dan eksplorasi pola menarik dalam

kasus text mining, sumber data yang dipergunakan adalah kumpulan atau koleksi

11

dokumen tidak terstuktur dan memerlukan adanya pengelompokan untuk

diketahui informasi sejenis (Soemantri & Wiyono, 2016: 1). Text mining

mengekstrak informasi dari teks dan mengkonversikannya menjadi indeks

numerik yang bermakna (Miner et al, 2012: 65).

Menurut Miner et al (2012: 31), pekerjaan text mining dikelompokkan

menjadi 7 daerah praktek yang diilustrasikan seperti Gambar 2.2.

Gambar 2.2 Diagram venn 6 bidang terkait dan 7 area praktek text mining

(Miner et al, 2012: 31)

1. Pencarian dan perolehan informasi (search and information retrieval),

yaitu penyimpanan dan penggalian dokumen teks misalnya dalam mesin

pencarian (search engine) dan pencarian kata kunci (keywords)

12

2. Pengelompokan dokumen, yaitu pengelompokan dan pengkategorian kata,

istilah, paragraf, atau dokumen dengan menggunakan metode klaster

(clustering) data mining.

3. Klasifikasi dokumen, yaitu pengelompokan dan pengkategorian kata,

istilah, paragraf, atau dokumen dengan menggunkan metode klasifikasi

(classification) data mining berdasarkan model terlatih yang sudah

memiliki label.

4. Web mining, yaitu penggalian informasi dari internet dengan skala fokus

yang spesifik.

5. Ekstraksi informasi (information extraction), yaitu mengidentifikasi dan

mengekstraksi informasi dari data yang sifatnya semi-terstruktur atau tidak

terstruktur dan mengubahnya menjadi data yang terstruktur.

6. Natural language processing (NLP), yaitu pembuatan program yang

memiliki kemampuan untuk memahami bahasa manusia.

7. Ekstraksi konsep, yaitu pengelompokan kata atau frase ke dalam

kelompok yang mirip secara semantik.

Untuk memperoleh tujuan akhir dari text mining, diperlukan beberapa

tahapan proses yang harus dilakukan seperti ditunjukkan pada Gambar 2.3. Data

terpilih yang akan dianalisis pertama akan melewati tahap Pra-proses dan

representasi teks, hingga akhirnya dapat dilakukan knowledge discovery.

13

Gambar 2.3 Kerangka proses analisis teks pada text mining

(Zhai & Aggarwal, 2012: 388)

2.3.1 Praproses (preprocessing task)

Data yang diinput perlu melewati fase pra-proses terlebih dahulu agar dapat

dimengerti oleh sistem pengolahan text mining dengan baik. Fase pra-proses

merupakan fase yang penting untuk menentukan kualitas proses selanjutnya

(proses klasifikasi dan pengelompokan). Tujuan utama fase pra-proses adalah

untuk mendapatkan bentuk data siap olah untuk diproses oleh data mining dari

data awal yang berupa data tekstual. Miner et al (2012: 46) menjelaskan bahwa

fitur-fitur fase pra-proses terdiri dari beberapa tahap sebagai berikut:

1. Pemilihan dokumen yang digunakan (dokumen yang mengandung

ancaman, caci maki, SARA, dan pornografi dihilangkan).

2. Tokenization, merupakan proses pemisahan teks menjadi potongan kalimat

dan kata yang disebut token.

3. Filtering, merupakan proses membuang kata-kata serta tanda-tanda yang

tidak bermakna secara signifikan, seperti hashtag (#), url, tanda baca

tertentu (emoticon), dan lainnya.

14

4. Stemming, merupakan proses pengambilan akar kata. Misalnya kata

memakai, dipakai, pemakai, dan pemakaian akan memiliki akar kata yang

sama yaitu “pakai”.

5. Spelling normalization, merupakan perbaikan kata-kata yang salah eja atau

disingkat dengan bentuk tertentu. Misalnya kata “tidak” memiliki banyak

bentuk penulisan seperti tdk, gak, nggak, enggak, dan banyak lainnya.

6. Case Folding, merupakan proses pengubahan huruf dalam dokumen

menjadi satu bentuk, misalnya huruf kapital menjadi huruf kecil dan

sebaliknya.

2.3.2 Penyusunan Vektor (Representation)

Feldman & Sanger (2007: 68) menjelaskan bahwa proses operasi algoritma

belajar (learning algorithms) tidak bisa langsung memproses dokumen teks dalam

bentuk aslinya. Oleh karena itu, setelah tahap pre-processing, dokumen diubah

menjadi representasi yang lebih mudah dikelola. Biasanya, dokumen akan

diwakili oleh vektor. Model vektor dibangun dari dokumen dengan mengubah

token-token dalam dokumen menjadi vektor numerik yang akan dioperasikan

berdasarkan operasi aljabar linear. Dalam rangka membangun model vektor, perlu

dilakukan proses pembobotan. Skema pembobotan yang paling banyak digunakan

adalah skema term frequency-inverse document frequency (TF-IDF). Term

frequency (TF) didefinisikan sebagai jumlah kemunculan suatu kata atau istilah

dalam suatu dokumen. Misalnya TF pada dokumen pertama untuk kata atau istilah

“jalan” adalah 2, karena kata atau istilah tersebut muncul 2 kali dalam dokumen

pertama. Pada asusmsi pembobotan dibalik TF-IDF, kata-kata dengan nilai TF

15

yang tinggi akan mendapat bobot yang tinggi kecuali jika jumlah dokumen yang

mengandung kata tersebut juga tinggi (inverse document frequency (IDF)).

Misalnya kata “yang” memiliki jumlah kemunculan yang tinggi tetapi jumlah

dokumen yang mengandung kata “yang” juga tinggi, sehingga kata tersebut akan

memiliki bobot yang rendah. Skema persamaan TF-IDF ditunjukkan oleh

persamaan berikut (Feldman & Sanger, 2007: 68).

Keterangan:

wm,i = bobot setiap term (m) terhadap setiap dokumen(i),

freq m,i = jumlah frekuensi kemunculan term m pada setiap i,

n = jumlah seluruh dokumen i,

nm = jumlah i yang terdapat kemunculan m.

Setelah melewati skema TF-IDF, akan didapatkan hasil yang berupa matriks.

Matriks yang didapatkan adalah matriks yang merepresentasikan dokumen dalam

baris dan token-token atau kata yang sudah dipisah-pisahkan dalam kolom.

2.3.3 Ekstraksi Informasi pada Text Mining

Tahap akhir penggalian informasi pada text mining yaitu ektraksi ilmu

pengetahuan (knowledge discovery), dimana terdapat beberapa jenis kategori

utama yang bisa dilakukan sebagai berikut (Miner et al, 2012: 84) :

16

1. Klasifikasi/prediksi

Klasifikasi adalah bentuk analisis data yang mengekstrak model untuk

menggambarkan kelas data (Han et al, 2012). Model yang dibangun meliputi

pengklasifikasian dan prediksi kategori label kelas. Klasifikasi data mempunyai

dua tahapan proses, yaitu tahap pembelajaran (learning step) dimana model

klasifikasi dibangun berdasarkan label yang sudah diketahui sebelumnya dan

tahapan klasifikasi (classification step) dimana model digunakan untuk

memprediksi label kelas dari data yang diberikan (Miner et al, 2012). Klasifikasi

memiliki berbagai aplikasi, termasuk deteksi penipuan, penargetan marketing,

prediksi kinerja, manufaktur, diagnosis medis, dan banyak lainnya. Sebagai

contoh, kita dapat membangun sebuah model klasifikasi untuk mengkategorikan

apakah suatu aplikan pinjaman bank termasuk aman atau berisiko. Karena pada

awal pembangunan model label kelas dari data telah diketahui, klasifikasi juga

disebut sebagai metode supervised learning.

2. Analisis Tren

Tujuan dari analisis tren yaitu untuk mencari perubahan suatu objek atau

kejadian oleh waktu. Salah satu aplikasi analisis tren yaitu kegiatan identifikasi

evolusi topik penelitian pada artikel akademis (Miner, et al, 2012: 86).

2.4 Metode Klasifikasi

Pada studi klasifikasi, proses pembelajaran dilakukan berdasarkan prinsip

machine learning. Machine learning merupakan suatu metode yang menyelidiki

bagaimana komputer belajar mengenai data (Han et al, 2012). Dalam machine

17

learning, training model (model latihan) akan dipelajari dengan menggunakan

berbagai algoritma yang ditentukan untuk mendapatkan model pengklasifikasi

yang dapat digunakan untuk mengklasifikasikan dokumen lainnya yang belum

mempunyai kategori sebelumnya. Algoritma yang biasanya digunakan untuk

melakukan pengklasifikasian antara lain adalah Support Vector Machine (SVM)

dan Naïve Bayes Classifier.

2.4.1 Teorema Bayes

Teorema Bayes merupakan teknik prediksi berbasis probabilistik sederhana

yang berdasar pada penerapan teorema bayes atau aturan bayes dengan asumsi

independensi (ketidak tergantungan) yang kuat (naïve). Dengan kata lain, naïve

bayes, model yang digunakan adalah model fitur independen (Prasetyo, 2012:59).

Maksud independensi yang kuat pada fitur adalah bahsa sebuah fitur pada sebuah

data tidak berkaitan dengan ada atau tidaknya fitur lain pada data yang sama.

Prediksi bayes didasarkan pada teorema bayes dengan formula umum berikut ini

(Wijaya et al, 2016:143):

Penjelasan formula diatas sebagai berikut:

Parameter Keterangan

P(H|X) Probabilitas bersyarat (conditional probability) suatu hipotesis H

jika diberikan bukti (Evidence) X terjadi

P(X|H) Probabilitas sebuah bukti X terjadi akan mempengaruhi hipotesis H

18

P(H) Probabilitas awal (priori) hipotesis A tanpa memangang bukti

apapun

P(X) Probabilitas awal (priori) bukti X terjadi tanpa memandang

hipotesis/bukti yang lain

Ide dasar dari aturan Bayes adalah bahwa hasil dari hipotesis atas peristiwa

(H) dapat diperkirakan berdasarkan pada beberapa bukti (E) yang diamati. Ada

beberapa hal penting dalam aturan bayes tersebut, yaitu:

� Sebuah probabilitas awal/prior A atau P(A) adalah probabilitas suatu

hipotesis sebelum bukti diamati.

� Sebuah probabilitas akhir B atau P(A|B) adalah probabilitas suatu

hipotesis setelah bukti diamati.

2.4.2 Naïve Bayes Classifier untuk klasifikasi

Prasetyo (2012: 61) menjelaskan kaitan antara naïve bayes dengan klasifikasi,

korelasi hipotesis dan bukti klasifikasi adalah bahwa hipotesis dalam teorema

bayes merupakan label kelas yang menjadi target pemetaan dalam klasifikasi.

Sedangkan bukti merupakan fitur-fitur yang menjadi masukan dalam model

klasifikasi. Jika X adalah vektor masukkan yang berisi fitur dan Y sebuah label

kelas, naïve bayes dituliskan dengan P(X|Y). Notasi tersebut berarti probabilitas Y

didapatkan setelah fitur-fitur X diamati. Notasi ini disebut juga probabilitas akhir

(posterior probability) untuk Y, sedangkan P(Y) disebut probabilitas awal (prior

probability) Y.

Selama proses pelatihan harus dilakukan pembelajaran probabilitas akhir

P(Y|X) pada model untuk setiap kombinasi X dan Y berdasarkan informasi yang

19

didapat dari data latih. Dengan membangun model tersebut, suatu data uji X’

dapat diklasifikasikan dengan mencari nilai Y’ dengan memaksimalkan P(X|Y)

yang didapat. Formulasi naïve bayes untuk klasifikasi yaitu:

P(X|Y) adalah probabilitas data dengan vektor X pada kelas Y. P(Y) adalah

probabilitas awal kelas adalah probabilitas independen kelas Y

dari semua fitur dalam vektor X. Nilai P(X) selalu tepat sehingga dalam

perhitungan prediksi nantinya kita tinggal menghitung bagian

dengan memilih yang terbesar sebagai kelas yang dipilih sebagai hasil prediksi.

Sementara probabilitas tersebut merupakan pengaruh sementara fitur

dari data terhadap setiap kelas Y, yang dinotasikan dengan persamaan berikut ini:

Setiap set fitur X = {X1, X2, X,…, Xq} terdiri atas q atribut (q dimensi).

Umumnya, Bayes mudah dihitung untuk fitur bertipe kategoris seperti pada kasus

klasifikasi hewan dengan fitur “penutup kulit” dengan nilai {bulu,rambut,

cangkang} atau kasus fitur “jenis kelamin” dengan nilai {pria,wanita}. Namun

untuk fitur dengan tipe numerik (kontinu) ada perlakuan khusus sebelum

dimasukkan dalam Naïve Bayes. Caranya adalah :

a) Melakukan diskretisasi pada setiap fitur kontinu dan mengganti nilai fitur

kontinu tersebut dengan nilai interval diskret. Pendekatan ini dilakukan

dengan mentransformasikan fitur kontinu ke dalam fitur ordinal.

20

b) Mengasumsikan bentuk tertentu dari distribusi probabilitas untuk fitur

kontinu dan memperkirakan parameter distribusi dengan data pelatihan.

Distribusi Gaussian biasanya dipilih untuk merepresentasikan probabilitas

bersyarat dari fitur kontinu pada sebuah kelas P(Xi|Y), sedangkan

distribusi Gaussian dikarakteristikkan dengan dua parameter : mean, µ dan

varian, σ2. Untuk setiap kelas yj, probabilitas bersyarat kelas yj untuk fitur

Xi adalah :

Parameter bisa didapat dari mean sampel Xi dari semua data latih yang

menjadi milik kelas yj, sedangkan dapat diperkirakan dari varian sampel (s2) dari

data latih. Terdapat 2 tahap pada proses klasifikasi teks. Tahap pertama adalah

pelatihan terhadap himpunan artikel contoh (training example). Sedangkan tahap

kedua adalah proses klasifikasi dokumen yang belum diketahui topiknya. Naïve

Bayes Classifier menyederhanakan hal ini dengan mengasumsikan bahwa dalam

setiap kategori, setiap kata independen satu sama lain. Pensubtitusian persamaan

diatas :

P(vj) dan probabilitas kata wk untuk setiap kategori P (wk | vj) dihitung pada saat

pelatihan,

21

Di mana f(ci) adalah nilai kemunculan fitur wkj, |W| adalah jumlah kata/fitur yang

digunakan. Sedangkan f(wkj, ci) adalah jumlah kemunculan kata wkj pada kategori

vi. Jumlah kata dalam setiap kelas dinyatakan sebagai n. Berikut contoh penerapan

metode naïve bayes classifier. Pada contoh ini, kita akan menentukan bagaimana

proses penentuan kategori untuk dokumen 3 dapat dilihat pada Tabel 2.1.

Tabel 2.1 Nilai fitur berdasarkan frequency

Dokumen Klasifikasi Fitur (kemunculan)

Dok 1 Sistem Informasi Geografis (2), informasi

(3), manajemen (2)

Dok 2 Sistem Pakar pakar (3), diagnosa (2),

penyakit (4)

Dok 3 ? pakar (2), geografis (1),

malaria (2)

dari dokumen diatas akan terbentuk term document matrix, dapat dilihat pada

Tabel 2.2.

Tabel 2.2 Term document matrix dengan frequency

Diagnosa Geografis Informasi Malaria Manajemen Pakar Penyakit

Dok

1 0 2 3 0 2 0 0

Dok

2 2 0 0 0 0 3 4

Dok

3 0 1 0 2 0 2 0

Tabel 2.3 Nilai Probabilitas

Klasifikasi P(ci) P(wkj | Ci)

Diagnosa Geografis Informasi Malaria Manajemen Pakar Penyakit

Sistem

Informasi

½ 1/14 3/14 3/14 1/14 3/14 1/14 1/14

Sistem

Pakar

½ 3/16 1/16 1/16 1/16 1/16 4/16 5/16

22

Setelah pembuatan model probabilistik selesai dilakukan pada Tabel 2.3,

langkah terakhir yang dilakukan adalah penentuan klasifikasi untuk dokumen 3.

Karena p(“sistem pakar”|”dok 3”) > p(“sistem informasi”|”dok 3”), maka kategori

dari dokumen 3 adalah sistem pakar.

23

2.5 Penelitian Terkait

Penelitian yang terkait digunakan untuk referensi agar dikembangkan oleh

peneliti selanjutnya. referensi terkait mempunyai keterkaitan metode dan objek

penelitian terhadap penelitian yang akan dilakukan. Berikut beberapa penelitian

yang terkait dengan penelitian yang akan dibuat:

1. Oh et al (2014: 194) dalam jurnalnya yang berjudul Research Trend Analysis

using Word Similarities and Clusters. menjelaskan tentang bagaimana

menemukan tren penelitian dengan menggunakan text mining. Peneliti

menunjukan perubahan tren penelitian menggunakan hasil Term frequency

Inverse Document Frequency (TF-IDF) dan perbandingan kesamaan kata,

selain itu untuk lebih mudah dalam memahami distribusi tren penelitian

dalam distribusi jaringan kata, maka ditunjukkan dalam bentuk grafik. Hasil

dari penelitian tersebut menunjukkan bahwa dalam analisis tren penelitian,

Important Word cluster (IWC) dan kata-kata interkoneksi sangat bergantung

pada masalah domain yang spesifik. Oleh karena itu, analisis tren penelitian

berdasarkan kesamaan kata masih memiliki banyak kendala, keterbatasan,

dan tantangan. Penggalian kata-kata umum dan khusus dari istilah-istilah

akan menjadi hal menarik untuk dilakukan penelitian dimasa yang akan

datang sehingga diharapkan mampu membuat kemajuan yang lebih tepat dan

akurat. Mengekstraksi kata-kata penting menggunakan keunikan dan

interkoneksi juga penting untuk meningkatkan hasil yang lebih signifikan.

2. Prilianti & Wijaya (2014: 1) dalam jurnalnya yang berjudul Aplikasi Text

Mining untuk Automasi Penentuan Tren Topik Skripsi dengan Metode K-

24

Means Clustering dilakukan pengembangan aplikasi untuk menggali topik-

topik skripsi mahasiswa yang biasanya terkumpul melalui repository. Proses

tersebut dilakukan semi-otomatis dengan memanfaatkan metode text mining

dan algoritma k-means clustreing terhadap kumpulan dokumen digital abstrak

dari buku skripsi. Proses awal meliputi tahap tokenizing, filtering, stemming,

dan tagging. Algoritma yang dipilih untuk tahap filtering adalah stop list.

Dalam tahap filtering, atas pertimbangan efisiensi memori dipilihlah

algoritma porter yang berbasiskan pada konsep affix removal. Seluruh kata

yang lolos proses filtering, stemming, dan tagging selanjutnya disebut dengan

term. Untuk setiap term, dihitung kemunculanya pada setiap dokumen input

dan hasilnya disimpan dalam pangkalan data dokumen untuk kemudian

digunakan dalam proses penentuan pola. Kemudian digunakan algoritma k-

means clustering untuk melakukan analisis kelompo-kelompok topik skripsi.

Tahap selanjutnya adalah penentuan dari pusat setiap kelompok yang akan

dibentuk. Hasil pengelompokan k-means clustering selanjutnya dilaporkan

dengan menggunakan teknik pareto. Konsep dari diagram ini adalah

melaporkan urutan kemunculan term secara menurun, artinya term yang

paling banyak muncul pada suatu kelompok tertentu akan diletakkan paling

awal. Hasil percobaan terhadap aplikasi yang dikembangkan menunjukkan

hasil yang positif baik dalam aspek kinerja algoritma k-means clustering,

kemudahan dan kecepatan penggunaan aplikasi maupun akurasi konklusi.

Melalui penelitian ini ditunjukkan bahwa algoritma k-means clustering yang

digunakan dalam proses penemuan pola tebukti dapat membantu proses

25

pengelompokan berbagai topik skripsi yang ada sehingga diperoleh informasi

yang bermakna dalam menentukan tren penelitian Universitas dari tahun ke

tahun.

56

BAB V

PENUTUP

5.1 Simpulan

Berdasarkan uraian hasil dan pembahasan dari penelitian ini, dapat ditarik

kesimpulan bahwa penerapan metode TF-IDF dan Naïve Bayes Classifier dalam

sistem untuk menentukan tren judul jurnal berbahasa Indonesia yaitu mengunakan

beberapa tahap. Pertama, pengambilan data dengan menggunakan API DOAJ.

Kedua, tahap preprocessing terdiri dari proses tokenization, stemming dan

filtering. Ketiga, tahap pembobotan kata dengan TF-IDF dan tahap terakhir ialah

proses pengklasifikasi data uji menggunakan Naïve Bayes Classifier dengan

menghitung nilai probabilitas masing-masing teks. Kemudian dari hasil klasifikasi

data training dan data testing tersebut akan didapatkan tren dari judul jurnal

berdasarkan kelas atau kategori yang memiliki anggota terbesar hingga terkecil.

Hasil persentase 5 kelas atau kategori dengan jumlah tertinggi yang menjadi tren

adalah sistem pedukung keputusan 24,7%, sistem informasi 21,7%, sistem pakar

14,6%, e-learning 9,8%, kriptografi 6,7%.

5.2 Saran

Saran yang dapat ditulis untuk penelitian ini adalah data training yang

digunakan masih mengunakan pelabelan manual, sehingga sulit dilakukan

pelabelan pada data training dalam jumlah yang besar. Penelitian selanjutnya

diharapkan dapat menemukan solusi untuk mengenai masalah ini.

57

DAFTAR PUSTAKA

Brata, D. W., & Hetami, A. 2013. Perancangan Information Retrieval (IR) Untuk

Pencarian Ide Pokok Teks Artikel Berbahasa Inggris Dengan Pembobotan

Vector Space Model. Jurnal Ilmiah Tekhnologi dan Informasi ASIA, 9: 53-59

Feldman, R., & Sanger, J. 2007. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. New York: Cambridge

University Press.

Gullo, F. 2015. From Patterns in Data to Knowledge Discovery: What Data

Mining Can Do. Physics Procedia, 62: 18-22.

Gupta, N. 2011. Text Mining for Information Retreival. Tesis. India: Jaypee

Institute of Information Technology University.

Han, J., Kamber, M., & Pei, J. 2012. Data Mining: Concepts and Techniques Third Edition. Waltham, MA: Morgan Kaufmann, 1-703.

Linoff, G. S., & Berry, M. J. 2011. Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management Third Edition. Indianapolis,

IN: Wiley Publising, Inc.

Mandala, R & Setiawan, H. 2002. Peningkatan Performansi Sistem Temu-Kembali Informasi dengan Perluasan query Secara Otomatis. Bandung:

Institut Teknologi Bandung, 1-18.

Miner, G., Delen, D., Elder, J., Fast, A., Hill, T., & Nisbet, R. 2012. Practical Text Mining and Statistical Analysis for Non-Structured Text Data applications. Oxford: Elsevier, 1-1025.

Oh, K., Lim, C., Kim, S., & Choi, H. 2013. Research Tren Analysis using Word

Similarities and Clusters. International Journal of Multimedia and Ubiquitous Engineering, 9(1), 185-196.

Prasetyo, E. 2012. Data Mining Konsep dan Aplikasi Menggunakan MATLAB.

Yogyakarta: Andi

Prilianti, K. R., & Wijaya, H. 2014. Aplikasi Text Mining untuk Automasi

Penentuan Tren Topik Skripsi dengan Metode K-Means Clustering. Jurnal Cybermatika, 2(1): 1-6.

Robertson, S. 2004. Understanding Inverse Document Frequency: On theoretical

arguments for IDF. Journal of Documentation, 60(5): 503-520.

58

Somantri, O., & Wiyono, S. 2016. Metode K-Means untuk Optimasi Klasifikasi

Tema Tugas Akhir Mahasiswa Menggunakan Support Vector Machine

(SVM). Scientific Journal of Informatics, 3(1), 34-45.

Wijaya, M. R., Saptono, R., & Doewes, A. 2016. The Effect of Best First and

Spreadsubsample on Selection of a Feature Wrapper With Naïve Bayes

Classifier for The Classification of the Ratio of Inpatients. Scientific Journal of Informatics, 3(2), 41-50.

Wulandini, F., & Nugroho, A. S. 2009. Text Classification Using Support Vector

Machine for Web mining Based Spation Temporal Analysis of the Spread of

Tropical Diseases. In International Conference on Rural Information and Communication Technology,189-192.

Zhai, C., & Aggarwal, C. C. 2012. Mining Text Data. New York: Springer.