ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN...

14
perpustakaan.uns.ac.id digilib.uns.ac.id commit to user i ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN METODE BAYESIAN CHI-SQUARE DAN NAIVE BAYES CLASSIFIER SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Jurusan Informatika Disusun oleh : Andriyanto Dwi N NIM. M0508085 JURUSAN INFORMATIKA FAKULTAS MATEMATIKA & ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA 2013

Transcript of ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN...

Page 1: ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN …eprints.uns.ac.id/13903/1/321622310201309541.pdf · perpustakaan.uns.ac.id digilib.uns.ac.id commit to user i ANALISIS SPAM FILTERING

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

i

ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN

METODE BAYESIAN CHI-SQUARE DAN

NAIVE BAYES CLASSIFIER

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu

Jurusan Informatika

Disusun oleh :

Andriyanto Dwi N

NIM. M0508085

JURUSAN INFORMATIKA

FAKULTAS MATEMATIKA & ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

SURAKARTA

2013

Page 2: ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN …eprints.uns.ac.id/13903/1/321622310201309541.pdf · perpustakaan.uns.ac.id digilib.uns.ac.id commit to user i ANALISIS SPAM FILTERING

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

ii

HALAMAN JUDUL

Page 3: ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN …eprints.uns.ac.id/13903/1/321622310201309541.pdf · perpustakaan.uns.ac.id digilib.uns.ac.id commit to user i ANALISIS SPAM FILTERING

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

iii

Page 4: ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN …eprints.uns.ac.id/13903/1/321622310201309541.pdf · perpustakaan.uns.ac.id digilib.uns.ac.id commit to user i ANALISIS SPAM FILTERING

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

iv

ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN METODE

BAYESIAN CHI-SQUARE DAN NAIVE BAYES CLASSIFIER

ANDRIYANTO DWI NURAHMAT

Jurusan Informatika.Fakultas Matematika dan Ilmu Pengetahuan Alam.

Universitas Sebelas Maret.

ABSTRAK

Spam pada email merupakan hal yang sangat menggangu maka

diperlukan filtering untuk mengklasifikasikan email, terdapat beberapa

metode yang dapat mengklasifikasikan email. Metode tersebut antara lain

Bayesian Chi-Square dan Naïve Bayes Classifier, kedua metode tersebut

mengklasifikan email secara matematis, untuk mengklasifikasikan email

berdasarkan kata, frasa dan domain yang terdapat didalam email.

Penelitian analisis spam filtering pada mail server ini menggunakan

metode Bayesian-Chi Square dan Naïve Bayes Classifier. Kedua metode

dibandingkan untuk mengetahui metode yang lebih efektif digunakan pada

spam filtering. Keduanya diintegrasikan dengan mail server, selanjutnya

dilakukan training dengan menggunakan dataset TREC2007 yang telah

diklasifikasikan menjadi ham dan spam. Sampel data diperoleh dengan

mengambil sebagian data secara random dari TREC2007. Pada tahap

pengujian masing-masing bagian, dilakukan pengujian dengan sample data

random yang berjumlah 300 email. Untuk menginputkan data training

dilakukan secara bertahap tahap I data training berjumlah 750 email, tahap II

berjumlah 1050 email, dan terakhir 1350. selanjutnya sampai pada tahap

pengujian, pengujian dilakukan untuk setiap tahap training data di kedua

metode tersebut. Pada metode Bayesian Chi-Square dilakukan pengujian

dengan mengubah threshold antara spam dan ham, sehingga akan diketahui

threshold yang terbaik untuk digunakan.

Hasil penelitian dari serangkaian pengujian menunjukkan metode

Bayesian Chi-Square mempunyai akurasi terbaik pada saat threshold 40 dan

60, dengan nilai akurasi 87%. Sementara metode Naïve Bayes Classifier

memiliki hasil yang lebih baik dengan required default 5 mampu

menghasilkan akurasi terbaik mencapai 92,6%, akurasi tinggi juga

mengakibatkan beberapa tiper error menjadi tinggi seperti error spam menjadi

ham yang berakibat mengganggu kinerja server, error kedua adalah ham

menjadi spam akibatnya email yang seharusnya berada diinbox akan kespam

atau terhapus. Untuk metode bayesian chi-square terdapat error unsure

akibatnya user harus mengklasifikasikan email secara mandiri tetapi nilainya

berbanding terbalik dengan akurasi.

Kata Kunci : Bayesian-Chi Square, Email, Ham, Naïve Bayes Classifier,

Spam

Page 5: ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN …eprints.uns.ac.id/13903/1/321622310201309541.pdf · perpustakaan.uns.ac.id digilib.uns.ac.id commit to user i ANALISIS SPAM FILTERING

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

v

SPAM FILTERING ANALYSIS ON THE MAIL SERVER WITH THE

BAYESIAN CHI-SQUARE METHODS AND

THE NAIVE BAYES CLASSIFIER METHODS

ANDRIYANTO DWI NURAHMAT

Department of Informatic. Mathematic and Science Faculty.

Sebelas Maret University

ABSTRACT

Spam is a very disturbing case, so it is necessary to filtering the classify email

and there are several methods that can classify the email. the methods are Bayesian

Chi-Square and Naïve Bayes Classifier, both are classify the email mathematically

based on words, phrases and domains contained within the email.

this Research of analysing spam filtering on the mail server is using the

Bayesian-Chi Square and Naïve Bayes Classifier methods. Both were compared to

determine which method is more effective on spam filtering. the methods could be

integrated with the mail server, then training using the data set TREC2007 which

have been classified into ham and spam. the Samples obtained take some random

data from TREC2007 . In the testing phase of each pieces, performed testing with

300 sample data of random email. gradually, Input training data first phase up to 750

emails, second phase up to 1050 email, and the last was 1350. next, the testing phase,

the testing is done for each phase of training data in both methods. the Bayesian Chi-

Square test method is done by changing the threshold between spam and ham, so

there will know which is the best threshold to use.

based on test result, the conclusion are the Bayesian Chi-Square method has the

best accuracy threshold at 40 and 60, with the accuracy was 87%. While Naïve

Bayes Classifier method had better results with the required default 5 is able to

produce the best accuracy reaches 92,6%, this high accuracy also resulted in some

type of the error such as errors result in spam being the ham that interfere the

performance of the server, the second error is ham being spam which is the email

that should be in inbox will become spam or deleted. there are error unsure in Chi-

square bayesian that consequently the user must classify email independently but its

value is inversely proportional to accuracy.

Keywords: Bayesian-Chi Square, Email, Ham, Naïve Bayes Classifier, Spam

Page 6: ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN …eprints.uns.ac.id/13903/1/321622310201309541.pdf · perpustakaan.uns.ac.id digilib.uns.ac.id commit to user i ANALISIS SPAM FILTERING

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

vi

MOTTO

“Karena sesungguhnya sesudah kesulitan itu ada kemudahan, sesungguhnya

sesudah kesulitan itu ada kemudahan, Maka apabila kamu telah selesai (dari sesuatu

urusan), kerjakanlah dengan sungguh-sungguh (urusan) yang lain”

(Q.S Alam Nasyrah : 5-7)

“Ingatlah, sesungguhnya pertolongan Allah itu amat dekat”

(Q.S Al-Baqarah : 214)

“Sesungguhnya sesudah kesulitan itu pasti ada kemudahan. Maka apabila kamu

telah selesai (dari suatu urusan), kerjakanlah dengan sungguh-sungguh urusan yang

lain. Dan hanya kepada Tuhanmulah hendaknya kamu berharap.”

(Q.S. 94 : 6-8)

“Sesuatu yang belum dikerjakan, seringkali tampak mustahil, kita baru yakin kalau

kita telah berhasil melakukannya dengan baik”

(Evelyn Underhill)

Page 7: ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN …eprints.uns.ac.id/13903/1/321622310201309541.pdf · perpustakaan.uns.ac.id digilib.uns.ac.id commit to user i ANALISIS SPAM FILTERING

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

vii

PERSEMBAHAN

Kupersembahkan karya ini kepada :

“Untuk Ayah ibu dan kakak”

yang selalu memberikan perhatian penuh

“untuk sahabatku Monica Tanuhita Putri”

yang selalu sabar untuk mengingatkan

“Teman-teman Informatika UNS khususnya angkatan 2008 untuk kebersamaan

dan dukungannya”

Page 8: ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN …eprints.uns.ac.id/13903/1/321622310201309541.pdf · perpustakaan.uns.ac.id digilib.uns.ac.id commit to user i ANALISIS SPAM FILTERING

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

viii

KATA PENGANTAR

Bismillahirrahmaanirrahiim

Puji syukur penulis panjatkan kehadirat Allah Subhanahu Wa Ta’ala yang

senantiasa memberikan nikmat dan karunia-Nya sehingga penulis dapat

menyelesaikan skripsi dengan judul Analisis Spam Filtering pada Mail Server

dengan Metode Bayesian-Chi Square dan Naïve Bayes classifier, yang menjadi salah

satu syarat wajib untuk memperoleh gelar Sarjana Informatika di Universitas Sebelas

Maret (UNS) Surakarta.

Penulis menyadari akan keterbatasan yang dimiliki, begitu banyak

bimbingan, bantuan, serta motivasi yang diberikan dalam proses penyusunan skripsi

ini. Oleh karena itu, ucapan terima kasih penulis sampaikan kepada :

1. Ibu Umi Salamah,S.Si.,M.Kom. selaku Ketua Jurusan S1 Informatika,

2. Bapak Abdul aziz, S.kom, M.Cs. selaku Dosen Pembimbing I yang penuh

kesabaran membimbing, mengarahkan, dan memberi motivasi kepada penulis

selama proses penyusunan skripsi ini,

3. Bapak Ristu Saptono, S.Si. MT. selaku Dosen Pembimbing II yang penuh

kesabaran membimbing, mengarahkan, dan memberi motivasi kepada penulis

selama proses penyusunan skripsi ini,

4. Bapak Wiharto, S.T., M.Kom. selaku Pembimbing Akademik yang telah

banyak memberi bimbingan dan pengarahan selama penulis menempuh studi di

Jurusan Informatika FMIPA UNS,

5. Bapak dan Ibu dosen di Jurusan Informatika FMIPA UNS yang telah mengajar

penulis selama masa studi dan membantu dalam proses penyusunan skripsi ini,

6. Ibu, Bapak, dan kakak-kakakku, serta teman-teman yang telah memberikan

bantuan sehingga penyusunan skripsi ini dapat terselesaikan.

Penulis berharap semoga skripsi ini dapat bermanfaat bagi semua pihak

yang berkepentingan.

Surakarta, Mei 2013

Penulis

Page 9: ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN …eprints.uns.ac.id/13903/1/321622310201309541.pdf · perpustakaan.uns.ac.id digilib.uns.ac.id commit to user i ANALISIS SPAM FILTERING

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

ix

DAFTAR ISI

HALAMAN JUDUL .................................................................................................... ii

ABSTRAK .................................................................................................................. iv

ABSTRACT ................................................................................................................. v

MOTTO ...................................................................................................................... vi

PERSEMBAHAN ...................................................................................................... vii

KATA PENGANTAR .............................................................................................. viii

DAFTAR ISI ............................................................................................................... ix

DAFTAR TABEL ....................................................................................................... xi

DAFTAR GAMBAR ................................................................................................. xii

DAFTAR LAMPIRAN ............................................................................................. xiii

DAFTAR SIMBOL ................................................................................................... xiv

BAB I PENDAHULUAN ............................................................................................ 2

1.1 Latar Belakang ................................................................................................. 2

1.2 Rumusan Masalah ............................................................................................ 3

1.3 Batasan Masalah ............................................................................................... 4

1.4 Tujuan Penelitian .............................................................................................. 4

1.5 Manfaat Penelitian ............................................................................................ 4

1.6 Sistematika Penulisan ....................................................................................... 4

BAB II TINJAUAN PUSTAKA .................................................................................. 6

2.1 Landasan Teori ................................................................................................. 6

2.1.1 Mail ........................................................................................................ 6

2.1.2 SPAM MAIL .......................................................................................... 7

2.1.3 Spam Filtering ........................................................................................ 9

2.1.4 Mail Server ............................................................................................. 9

2.1.5 Statistical Filtering ............................................................................... 10

Page 10: ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN …eprints.uns.ac.id/13903/1/321622310201309541.pdf · perpustakaan.uns.ac.id digilib.uns.ac.id commit to user i ANALISIS SPAM FILTERING

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

x

2.1.6 Metode bayesian................................................................................... 10

2.1.7 Rumus Bayes ........................................................................................ 13

2.1.8 Metode Chi-Square .............................................................................. 13

2.1.9 Metode Naive Bayes Classifier ............................................................ 16

2.2 Penelitian Terkait ........................................................................................... 18

2.3 Rencana Penelitian ......................................................................................... 19

BAB III METODE PENELITIAN.............................................................................20

3.1 Studi Literatur ................................................................................................ 20

3.2 Pengumpulan Data ......................................................................................... 20

3.3 Perancangan ................................................................................................... 21

3.3.1 Instalasi ................................................................................................ 21

3.3.2 Penginputan Data ................................................................................. 21

3.4 Pengujian ........................................................................................................ 22

BAB IV HASIL DAN PEMBAHASAN ................................................................... 24

4.1 Perbandingan Hasil Pengujian Metode .......................................................... 24

4.2 Pembahasan .................................................................................................... 29

BAB V KESIMPULAN DAN SARAN ..................................................................... 31

4.1 Kesimpulan ..................................................................................................... 31

4.2 Saran ............................................................................................................... 32

LAMPIRAN ............................................................................................................... 33

Page 11: ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN …eprints.uns.ac.id/13903/1/321622310201309541.pdf · perpustakaan.uns.ac.id digilib.uns.ac.id commit to user i ANALISIS SPAM FILTERING

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

xi

DAFTAR TABEL

Tabel 3. 1 Data Training 50% .................................................................................... 21

Tabel 3. 2 Data Training 70% .................................................................................... 22

Tabel 3. 3 Data Training 90% .................................................................................... 22

Tabel 3. 4 Identifikasi Email ...................................................................................... 23

Tabel 4. 1 Hasil pengujian data training 50% .........................................................24

Tabel 4. 2 Tabel hasil pengujian 70% ........................................................................ 26

Tabel 4. 3 Hasil pengujian 90% ................................................................................. 27

Page 12: ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN …eprints.uns.ac.id/13903/1/321622310201309541.pdf · perpustakaan.uns.ac.id digilib.uns.ac.id commit to user i ANALISIS SPAM FILTERING

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

xii

DAFTAR GAMBAR

Gambar 2. 1 Mail Server .............................................................................................. 6

Gambar 2. 2 Proses Pengiriman Mail .......................................................................... 9

Gambar 3. 1 Alur Rancangan Penelitian....................................................................20

Gambar 4. 1 Pengujian data training 50%......................................................25

Gambar 4. 2 Pengujian data training 70% ................................................................. 26

Gambar 4. 3 hasil Pengujian data training 90% ......................................................... 28

Page 13: ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN …eprints.uns.ac.id/13903/1/321622310201309541.pdf · perpustakaan.uns.ac.id digilib.uns.ac.id commit to user i ANALISIS SPAM FILTERING

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

xiii

DAFTAR LAMPIRAN

1. Contoh Perhitungan Metode Bayesian Chi – square ...................................... 33

2. Contoh Perhitungan Metode Naive Bayes classifier ...................................... 35

3. Data training 50% ........................................................................................... 36

4. Data training 70% ........................................................................................... 36

5. Data training 90% ........................................................................................... 36

6. Perbandingan antar Treshold data input 50%................................................. 37

Page 14: ANALISIS SPAM FILTERING PADA MAIL SERVER DENGAN …eprints.uns.ac.id/13903/1/321622310201309541.pdf · perpustakaan.uns.ac.id digilib.uns.ac.id commit to user i ANALISIS SPAM FILTERING

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

xiv

DAFTAR SIMBOL

p(S|W) : Probabilitas suatu e-mail adalah spam dengan diketahui kata

Word

p(W|S) : Probabilitas suatu kata "word" terdapat pada spam

P(W|H) : Probabilitas suatu kata "word" terdapat pada ham

P(S) : Probabilitas suatu email pada spam

P(H) : Probabilitas suatu email pada ham

n : jumlah e-mail yang didalamnya terdapat kata "word"

q : jumlah e-mail yang mengandung kata "word" merupakan

spam

q : Probabilitas kata "word" terdapat pada spam

x : Probabilitas kata yang tidak terdaftar dalam database

s : Bobot yang diberikan kepada probabilitas tersebut

f(w) : Probabilitas lokal kata "word" dengan metode Robinson

H : indikator tingkat ham sebuah email

S : indikator tingkat spam sebuah email

I : Probabilitas email secara keseluruhan