Post on 25-Mar-2022
JUNI 2012 VOLUME 17- NOMOR 1 Kajian Nilai Peak to Average Power Ratio (PAPR) pada Bagian Legacy Signal Field Sistem Wireless LAN IEEE 802.11n Hendra Setiawan 1- 7
Analis is Performansi Self-Optimisation Cakupan dan Kapasitas Menggunakan Algoritma Heuristik di Lingkungan Radio Propagasi yang Berbeda (Studi Kasus 3G UMTS) Yasi r A. Saputro, Rina P. Astuti , Nachwan M. Adriansyah 8- 14
Desain dan lmplementasi Viterbi Decoder Soft Decision pada FPGA dengan Skema QPSK Raditiana Patmasari, Heroe Wijanto, lswahyudi Hidayat 15- 21
Desain Transmitter OFDM-STBC pada VHDL Sug(){l(jo Hadiyoso, Rina Pudji Astuti , lswahyudi Hidayat 22- 28
Pengembangan Metode Pemampatan Citra Diam Menggunakan Pustaka Basis Latih dan Representasi Sparse Antonius Darma Setiawan, Andriyan Bayu Suksmono, Hendra Gunawan, Tati Mengko 29- 36
Perancangan dan lmplementasi Suatu Problem Based Learning di Dalam Lingkungan Virtual Kolaboratif Menggunakan Teknologi MMOG Ferd inand Aruan , Ary Setijadi Prihatmanto, Hi lwadi Hindersah, Kuspriyanto 37- 45
Desain dan lmplementasi Sistem Penerjemah Bahasa lsyarat Berbasis Webcam dengan Metode Linear Discriminant Analysis Nelli Melinda Nasution , lwan lwut, Linda Meylani 46- 52
Anomaly Detection pada Intrusion Detection System (IDS) Menggunakan Metode Bayesian Network Oktavia Ari Marlita , Adiwijaya , Angelina Prima Kurniat i 53- 61
Analisis Degree Centrality dalam Social Network Analysis Menggunakan Probabilistic Affinity Index (PAl) pada Graf Berarah-Berbobot Andi Sulasikin , Warih Maharani, Adiwijaya 62- 68
Analisis Strategis Layanan Berbasis Data Flexi untuk Mempertahankan Bisnis Legacy Fixed Wireless Access Gunawan Wibisono, Khaidar Subhan Rahman 69- 75
Pengembangan Multisignal Remote Patient Monitoring System untuk Perawatan Pasien Jantung Menggunakan Tablet Berbasis Android dan Wireless LAN (IEEE.802.11 b/g) Achmad Riza l, Harrison Palti August, Sugondo Hadiyoso, Jondri 76- 84
lndeks Judul
INSTlTUT TEKNOLOGI
TELKOM
Anomaly Detection pada Intrusion Detection System (IDS) Menggunakan Metode Bayesian
Network
Oktavia Ari Marlita
1, Adiwijaya
2, Angelina Prima Kurniati
1
1Fakultas Informatika dan 2Fakultas sains
Institut Teknologi Telkom, Bandung 40257
1oktavia.ari.marlita@gmail.com, adiwijaya@ittelkom.ac.id, apk@ittelkom.ac.id
Abstrak
Intrusion Detection System (IDS) merupakan sistem yang dapat mendeteksi adanya intrusi atau gangguan pada suatu jaringan atau sistem informasi. Salah satu jenis IDS adalah anomaly detection dimana suatu data trafik jaringan akan dikatakan intrusi apabila mempunyai karakteristik yang berbeda dari kebanyakan data lainnya. Anomaly detection dapat mendeteksi serangan dalam host atau network yang menyimpang dari aktivitas normal berdasarkan probabilitas statistika. Statistical anomaly detection tidak memiliki model intelligent learning yang mungkin menyebabkan false alarm memiliki tingkat deteksi tinggi.Metode yang digunakan sistem adalah Bayesian
Network TAN Classifier.CI Test merupakan salah satu algoritma yang handal untuk membangun Model TAN Classifier untuk klasifikasi. Dengan representasi grafis gabungan dari probabilitas fungsi distribusi lebih dari satu set variabel. Struktur jaringan direpresentasikan sebagai Directed Acyclic Graph (DAG) di mana setiap node berkorespondensi dengan variabel acak dan setiap edge menunjukkan hubungan ketergantungan antar variabel-variabel yang terhubung. Data trafik jaringan melalui proses training untuk membentuk model TAN Classifier, kemudian dilakukan proses testing. Pengujian dilakukan dengan beberapa skenario untuk mengetahui akurasi sistem dilihat dari nilai detection rate (DR) dan false positive rate (FPR), pengaruh proporsi data training dan data testing, serta pengaruh proporsi data normal dan data intrusi pada masing-masing dataset. Bayesian Network dapat mendeteksi intrusi, dengan DR sebesar 100% dan FPR 0%. Kata kunci: intrusi, Intrusion Detection System,anomaly detection, Bayesian Network, TAN Classifier
1. Abstract
Intrusion Detection System (IDS) is a system that can detect any intrusion or interference on a network or
information systems. One type of IDS is anomaly detection in which a data network traffic if the intrusion would be
said to have characteristics different from most other data. Anomaly detection can detect the attack on host or
network who deviate from normal activities based on statistical probability. Statistical anomaly detection does not
have a model of intelligent learning that may lead to false alarms have a high detection rate. The method used is a
system of TAN Bayesian Network Classifier. CI Test is one of a reliable algorithm to build classification models for
the TAN Classifier. With a graphical representation of the joint probability distribution function over a set of
variables. The network structure is represented as a Directed acyclic Graph (DAG) where each node corresponds to
a random variable and each edge shows the dependency relationships among the variables are connected. Data
network traffic through the training process to form a model of TAN Classifier, then do the testing. Tests carried out
with several scenarios to determine the accuracy of the detection system is seen rate (DR) and false positive rate
(FPR), the influence of the proportion of training data and testing the data, as well as the influence of the
proportion of normal data and data intrusion on each dataset. Bayesian Network can detect the intrusion, the DR of
100% and 0% FPR.
Kata kunci: intrusi, Intrusion Detection System, anomaly detection, Bayesian Network, TAN Classifier 1. Pendahuluan
Data dan informasi sensitif dalam skala besar diproses dalam jaringan komputer. Sehingga diperlukan suatu sistem keamanan dalam jaringan komputer yang tahan dan toleran terhadap intrusi jaringan. Intrusi jaringan merupakan upaya untuk mendapatkan akses ilegal keresource jaringan atau mem-by-pass sistem keamanan yang ada.
Upaya itu dapat dilakukan dengan mengakses sistem melalui Internet, maupun melalui celah keamanan jaringan lainnya. Oleh karena itu, Intrusion Detection
System (IDS) diperlukan untuk mengatasi permasalahan tersebut. Intrusion detection adalah suatu proses monitoring kejadian yang terjadi pada sistem komputer atau jaringan serta menganalisisnya
untuk mengetahui aktivitas tersebut termasuk normal atau intrusi.
Anomaly detection dapat mendeteksi serangan dalam host atau network yang menyimpang dari aktivitas normal berdasarkan probabilitas statistika. Statistical anomaly detection tidak memiliki model intelligent learning yang mungkin menyebabkan false alarm memiliki tingkat deteksi tinggi. Anomaly detection menggunakan pendekatan unsupervised learning (tidak ada intelligent
learning), yang mampu mendeteksi intrusi tanpa harus mempelajari data sebelumnya[9]. Misuse
detection/signature analysis membutuhkan akses ke database besar dari signatureintrusion yang diketahui. Detektor melakukan analisis terhadap aktivitas sistem, mencari event atau set event yang cocok dengan pola perilaku yang dikenali sebagai serangan.
Bayesian Network (BN) adalah representasi grafis dari gabungan dari probabilitas fungsi distribusi lebih dari satu set variabel. Struktur jaringan direpresentasikan sebagai Directed Acyclic
Graph (DAG) di mana setiap node berkorespondensi dengan variabel acak dan setiap edge menunjukkan hubungan ketergantunga antar variabel-variabel yang terhubung [5]. Setiap variabel memiliki satu finite set mutually exclusive states.
Dalam jurnal ini metode Bayesian Network yang digunakan yaitu Tree Augmented Naive Bayes
(TAN)classifier. Adaptive network IDS dengan medote BN mengambil data offline dari dataset KDD Cup tahun 1999 untuk mengukur kelayakan dan efektivitas sistem. Tipe datanya ada kontinu dan nominal dengan mengambil 9 dari 41 features termasuk unbalanced data[12]. Karena setiap variabel (node) dalam BN dikaitkan dengan Conditional Probability Tabel (CPT), yang menyebutkan probabilitas bersyarat untuk variabel yang memberikan semua kombinasi induknya. Akurasideteksi intrusi dapat dilihat dari seberapa dekat kah data klasifikasi dengan data asli. Dengan BN sebagai model yang ideal untuk menggabungkan priorknowledge sebelumnya dengan data baru dan menyimpulkan menjadi posterior knowledge. Oleh karena itu, Bayesian Network dengan TAN classifier
diharapkan dapat meningkatkan tingkat akurasi IDS.
2. Landasan Teori
2.1 Intrusion Detection System (IDS)
Intrusion detection adalah suatu proses monitoring kejadian yang terjadi pada sistem komputer atau jaringan serta menganalisisnya untuk mengetahui aktivitas tersebut termasuk normal atau intrusi.Model proses dari IDS ada 3 fungsi dasar, yaitu: pertama, pengambilan data dari berbagai level
dari sistem seperti network, host,dan application.
Kedua, analisis data yang diperoleh untuk mengenali intrusi. Terakhir, respon terhadap serangan.Secara umum prinsip proses kerja dari sistem deteksi intrusi dapat digambarkan sebagai berikut[2]:
Gambar 2-1 : Proses kerja sistem deteksi intrusi
Keterangan: 1. Input (Even Information) Sumber data yang akan digunakan untuk mendeteksi intrusi didapat dari bermacam-macam sumber, antara lain: host, network maupun application. 2. Activity (Analysis)
Untuk melakukan analisis mendeteksi intrusi, pendekatan yangsecara umum dilakukan adalah dengan pendekatan misuse dan anomalydetection. Misuse detection adalah pendekatan untuk mengenali intrusiberdasarkan pengetahuan atau data mengenai ciri-ciri intrusi yang telahdidefinisikan sebelumnya [2]. Sedangkan anomaly detection mendeteksiintrusi dari deviasi kelakuan umum data normal lainnya. 3. Output (Response)
Output (response) adalah mengklasifikasikan apakah sebuah data tersebut normal atau termasuk intrusi. Respon intrusi dapat berupa respon aktif yaitu mengeluarkan alarm dan mengamankan sistem ataupun respon pasif berupa laporan ditemukan adanya intrusi.
2.2 Bayesian Network
Bayesian Network (BN) adalah representasi grafis dari gabungan dari probabilitas fungsi distribusi lebih dari satu set variabel. Struktur jaringan direpresentasikan sebagai Directed Acyclic Graph (DAG) di mana setiap node berkorespondensi dengan variabel acak dan setiap edge menunjukkan hubungan ketergantunga antar variabel-variabel yang terhubung [6]. Setiap variabel memiliki satu finite set mutually exclusive states.Algoritma yang digunakan untuk membangun model Bayesian Network yaitu Conditional independence (CI) Test. Beberapa karakteristik umum metoda BN sebagai berikut : a. BN menyediakan pendekatan untuk menangkap
pengetahuan sebelumnya (prior knowledge) dari domain tertentu menggunakan pemodelan grafis. Network juga dapat digunakan untuk mengenkode dependensi kausal antar variabel.
b. Membangun network dapat menghabiskan waktu dan memerlukan usaha yang banyak. Bagaimanapun, ketika struktur network telah
Input Activity Output
Event
information
from source
(host, network,
application)
Response
(action
taken or
detection)
Analysis
(misuse or
anomaly
detection)
ditentukan, menambahkan variabel baru dapat dilakukan secara langsung.
c. BN sesuai untuk menangani data yang tidak lengkap. Instansiasi dengan atribut yang hilang dapat ditangani dengan menjumlahkan atau mengintegrasikan seluruh nilai atribut yang mungkin. 2.3 Struktur Bayesian Network
Pada umumnya struktur Bayesian Network terdiri dari 2 bagian, yaitu[3]: a. DAG (Directed Acyclic Graph) DAG ini terdiri dari nodes dan busur-busur (arcs) yang menghubungkan antara node yang satu dengan node yang lainnya. Node pada Bayesian Network merepresentasikan variabel atau atribut.Sedangkan busur merepresentasikan relasi ketergantungan atau hubungan kausal antara dua node.
Gambar 2-3: Hubungan kausal antara dua buah
node
Pada BN, node terdiri dari dua jenis, yaitu nodeclass dan node atribut. Nodeclass mewakili variabel class yang merupakan target klasifikasi pada dataset, sedangkan node atribut mewakili variabel-variabel selain variabel class. Apabila dua buah node dihubungkan oleh sebuah busur, maka kausal node akan menjadi parent node dari node yang lain. b. CPT (Conditional Probability Table) CPT merepresentasikan probabilitas berdasarkan informasi prior. Secara matematis, sebuah conditional probability dapat ditulis dengan P(X=x|P1=p1, P2=p2, …, Pn=pn) misalnya probabilitas simpul X pada status x berdasarkan simpul orang tua P1 pada status p1, simpul orang tua P2 pada status p2, …, dan simpul orang tua Pn pada status pn.Pada CPT terdapat status dari tiap variabel yang merupakan suatu nilai yang bisa diambil oleh node.
Gambar 2-4: Status pada parent node dan child
node.
Pada gambar 2-5 merupakan contoh penerapan dari CPT. Misalkan nilai P(Road
Conditions=Impassable|Precipitation=Heavy). Sel conditional probabilities tersebut memiliki makna: “Jika Precipitation berada pada status Heavy, maka probabilitas Road Conditions berada pada status Impassable yaitu 0.700.”
status simpul orang tua
status simpul anak
Child ParentPrecipitation
LightRoad Conditions None
PassableImpassable
0.9000.100 0.700
Heavy0.0500.950 0.300 conditional probabilities
Gambar 2-5: CPT antara node Precipitation dan
node Road Condition
2.3.1 Bayesian Network Tree Augmented
Naïve Bayes Classifier (TAN)
TAN classifier merupakan pengembangan dari Naïve
Bayes classifier dimana antar node atribut dapat saling memiliki ketergantungan. Sama seperti pada NB, setiap variabel merupakan directly dependent pada variabel class tetapi diantara variabel tersebut juga bisa dimungkinkan ber- conditionaldependent satu sama lain [3].
Gambar 2-6: TAN Classifier
Misalkan E= (a1, a2, ..., an) merupakan record data yang akan diklasifikasi, di mana ai adalah status simpul atribut Ai. Pada pengklasifikasian data, TAN classifier akan memilih status simpul class yang memiliki probabilitas paling besar berdasarkan E [13]:
(2.1) di mana aiadalah status simpul atribut Ai, aipadalah status simpulatribut Aip dan cjadalahstatussimpul classC. Aip dan C merupakan orang tua simpul atribut Ai, dan
(2.2)
Precipitation
Road
Conditions
simpul orang tua
simpul anak
Precipitation
Road
Conditions
status simpul orang tua
status simpul anak
Status
None
Light
Heavy
Status
Impassable
Passable
c
a3a1 a4a2
n
i
jipijcc caaPcPECj
1tan ),|()(maxarg)(
}{),|(
}{),,|()),|(
ipji
pijpi
jpiiAcaP
AcaiaPcaaP
Nilai P(cj), P(ai|cj) diestimasi menggunakan Laplace
estimation
(2.3)
(2.4) Keterangan: t = jumlah instan pada data training k = jumlah status pada simpul class
vi= jumlah status pada simpul atribut Ai nj = jumlah data training dengan C = cj nij = jumlah data training dengan C = cj dan Ai = ai Nilai P(cj), P(ai|cj), dan P(ai|aip,cj) diestimasi menggunakan Laplace estimation.
(2.5) Keterangan: vi = jumlah status pada simpul atribut Ai nipj = jumlah record pada data training dengan Aip=aipdan C=cj niipj = jumlah record pada datatraining dengan Ai=ai,
Aip=aip, dan C=cj TAN classifier membangun model klasifikasi BN berdasarkan pada dataset. Berbeda dengan Naive Bayes pada TAN bisa terjadi hubungan conditional diantara atribut. Algoritma yang digunakan untuk membangun model yaitu algoritma conditional
independence test based. Pembangunan yang dilakukan didasarkan pada perhitungan mutual
information dan conditional mutual information, yaitu seperti langkah di bawah ini [9]: 1. Hitung conditional mutual information
I(Ai,Aj|C),i j, di antara masing-masing pasangan variabel atribut, kemudian hitung thresholdConditional mutual information dihitung dengan persamaan (2.5), sedangkan thresholddihitung dengan persamaan (2.6).
2. Bangun graf lengkap tak berarah di mana simpul-simpulnya merupakan variabel atribut Ai, i=1,2,...,n. Sisi penghubung Ai ke Aj diberi bobot dengan I(Ai,Aj|C).
3. Cari pohon merentang dengan bobot maksimum dengan algoritma Kruskal. Yaitu dengan memotong busur yang mempunyai nilai IC minimum, dengan jumlah yang dipotong tidak melebihi sisa busur yang tersedia.
4. Hitung mutual information I(Ai,C), i=1,2,…,n antara masing-masing variabel atribut dengan
variabel class, kemudian pilih variabel atribut yang mempunyai nilai mutual information tertinggi untuk menjadi simpul Aroot. Mutual
information dihitung dengan persamaan (2.4). 5. Ubah pohon tak berarah menjadi pohon berarah
dengan membuat simpul Aroot sebagai orang tua dan membuat arah panah dari semua busur keluar dari simpul Aroot.
6. Hapus busur berarah yang memiliki bobot conditional mutual information di bawah nilai threshold .
7. Bangun model TAN dengan menambahkan variabel class sebagai simpul class dan tambahkan busur berarah dari simpul class ke masing-masing simpul atribut Ai, i=1,2,…,n.
2.3.2 Algoritma Kruskal
Algoritma Kruskal merupakan salah satu metode untuk mencari minimum spanning tree. Konsep dasar yang digunakan adalah pada setiap langkah, memilih sisi dari graf G yang berbobot minimum, tetapi sisi tersebut tidak membentuk sirkuit T. Langkah-langkah algoritma Kruskal adalah sebagai berikut [18]: 1. Lakukan pengurutan terhadap setiap sisi di graf
G mulai dari sisi dengan bobot terkecil. 2. Pilih sisi(u,v) yang mempunyai bobot minimum
yang tidak membentuk sirkuit di T. tambahkan (u,v) ke dalam T.
3. Ulangi langkah 2 sampai pohon merentang minimum terbentuk, yaitu ketika di dalam pohon merentang T berjumlah n-1 (n adalah jumlah simpul graf G) 2.4 CI Test
CI Test merupakan sebuah algoritma yang digunakan dalam pembangunan model Bayesian Network pada saat dilakukan proses learning. Pembangunan yang dilakukan didasarkan pada perhitungan mutual
information dan conditional mutual information [7]. 2.4.1 Mutual information
Mutual information merupakan fungsi untuk mengukur berapa banyak informasi untuk suatu variabel yang disediakan oleh suatu variabel yang lain. Mutual information antara variabel A dan C diformulasikan sebagai berikut [7][8][16]:
(2.6) Fungsi tersebut untuk mengukur berapa banyak informasi untuk A yang disediakan oleh C.
2.4.2 Conditional mutual information
Conditional mutual information merupakan fungsi untuk mengukur berapa banyak informasi untuk suatu variabel yang disediakan oleh suatu variabel yang lain jika nilai suatu variabel yang lain diketahui.Conditional mutual information antara
kt
ncP
j
j
1)(
ij
ij
jivn
ncaP
1)|(
ipji
iipj
jpiivn
ncaaP
1),|(
ca cPaP
caPcaPCAI
, )()(),(log),();(
variabel Aidan Aj berdasarkan C diformulasikan sebagai berikut[7][8][16]:
cajai ji
ji
jijicaPcaP
cPcaaPcaaPCAAI
,, ),(),()(),,(
log),,()|;(
(2.7) Fungsi tersebut untuk mengukur berapa banyak informasi untuk Ai yang disediakan oleh Aj jika nilai C diketahui. Ketika I(Ai;Aj|C) lebih kecil daripada nilai threshold, Ai dan Aj disebut conditional
independentoleh C. Nilai thresholddiformulasikan sebagai berikut [9]:
(2.8) Keterangan : C : variabel class, Ai, Aj : variabel atribut n : jumlah pasangan atribut
2.5 Evaluasi Sistem
Untuk mengetahui kinerja prediksi yang baik, sebuah IDS harus dapat dengan benar membedakan antara intrusi dan normal dalam lingkungan sistem [Network Intrusion Detection based on Bayesian
Network]. Berikut merupakan Tabel standar matrik evaluasi untuk hasil deteksi sistem[4]:
Tabel 2-1: Tabel Standar Matrik Evaluasi Hasil Deteksi Sistem
Hasil Deteksi
Intrusi Normal
Label
Asli
Intrusi True Positive (TP)
False Negative (FN)
Normal False Positive (FP)
True Negative (TN)
Evaluasi kinerja deteksi intrusi menggunakan parameter utama, yaitu: Detection Rate (DR)
Merupakan jumlah intrusi yang berhasil dideteksi oleh sistem dibagi dengan total jumlah intrusi yang ada pada dataset.
𝐷𝑅 =𝑇𝑃
𝑇𝑃 + 𝐹𝑁 (2.9)
False Positive Rate (FPR) Merupakan jumlah data normal yang dianggap sebagai intrusi oleh sistem dibagi dengan jumlah data normal pada dataset.
𝐹𝑃𝑅 =𝐹𝑃
𝐹𝑃 + 𝑇𝑁 (2.10)
3. Perancangan Sistem
Pada bagian ini akan dijelaskan gambaran tahapan proses dalam sistem deteksi anomali untuk mengenali intrusi. Berikut ini diagram yang menggambarkan sistem deteksi intrusi:
Gambar 3-1 : Alur algoritma TAN classifier dalam
sistem deteksi anomali
3.1 Dataset
Data yang digunakan sebagai masukan dalam sistem ini adalah sampling dari data KDD Cup 99 sebanyak 10% yang merupakan subset dari DARPA Intrusion Detection Evaluation Data Set yang dirilis pada tahun 1998 oleh MIT Lincoln Library. Data terdiri dari data normal dan data intrusi. Format ekstensi data adalah .xls dengan jumlah atribut sebanyak 41 atribut. Kemudian dilakukan proses pemilihan atribut-atribut yang paling berpengaruh sesuai dengan paper ada 9 atribut yaitu protocol_type, service, num_of_wrong_fragments,
num_of_failed_logins, land ,login_success,
is_guess_login, root_shell_obtained, and type
(intrusion atau normal connection) [14]. Jumlah record data input adalah 1000 record, namun komposisi data baik intrusi maupun normal berbeda-beda. Tabel 3-1 Tabel dataset pengujian untuk skenario A
ijnn
CAAI
Ii j
ji
avg
,
)1(
)|;(
* Preprocessing data dilakukan diluar sistem dengan
bantuan Ms. excel
Data Trafik
Jaringan
(10% KDD
Cup 99)
Feature
selection by
information gain
Pemodelan TAN
Classifier dengan
CI Test
Data Hasil
Preprocessi
ng
Pengisian CPT
dengan Laplace
Estimation
Struktur
TAN
Classifier
Penghitungan
false alarm rate
& detection rate
Nilai false
alarm rate
&
detection
rate
Discretization
Hasil
klasifikasi
Model
TAN
Data
Training
Data
Testing
Pengujian
(klasifikasi)
Nama Dataset
Data Training
Jml Dataset
% train
training
Normal
Intrusi Keterangan
Dataset_A1 TRAIN_A900 1000 0.9 900 540 360 Proporsi data normal dan data intrusi untuk semua dataset adalah 6:4 sesuai komposisi asli data KDD 10% setelah preprocessing
Dataset_A2 TRAIN_A800 1000 0.8 800 480 320
Dataset_A3 TRAIN_A700 1000 0.7 700 420 280
Dataset_A4 TRAIN_A600 1000 0.6 600 360 240
Dataset_A5 TRAIN_A500 1000 0.5 500 300 200
Data testing Jml Dataset
% test
testing
Normal
Intrusi
Dataset_A1 TEST100 1000 0.1 100 60 40
Dataset_A2 TEST200 1000 0.2 200 120 80
Dataset_A3 TEST300 1000 0.3 300 180 120
Dataset_A4 TEST400 1000 0.4 400 240 160
Dataset_A5 TEST500 1000 0.5 500 300 200
Pada Tabel 3.1 dataset untuk skenario A, jumlah data untuk tiap dataset yaitu 1000. Proporsi data normal dan data intrusi untuk training dan testing tetap yaitu 6:4 (sesuai komposisi sesuai komposisi asli data KDD 10% setelah preprocessing). Namun proporsi data training dan data testing yang diubah-ubah. Tabel 3-2 Tabel dataset pengujian untuk skenario B
Pada Tabel 3.2 dataset untuk skenario B, jumlah
data untuk tiap dataset yaitu 1000. Proporsi data
training dan data testing tetap yaitu 90% dan 10%.Namun proporsi data normal dan data intrusi untuk training dan testing yang diubah-ubah. 4. Hasil Pengujian
4.1 Pengujian terhadap karakteristik data
training terhadap model TAN BN dan
performansi sistem.
Berdasarkan keseluruhan pengujian yang dilakukan terhadap dataset pada Tabel 3.1, terlihat bahwa model TAN Classifier Bayesian Network yang terbentuk ada 9 node (termasuk kelas). Setiap node memiliki nilai mutual information dari feature yang berbeda-beda. Namun karena proporsi data normal dan data intrusi yang tetap atau sama yaitu 60% dan 40% (sesuai dengan proporsi 10% dataset asli KDD Cup 99) pada setiap dataset akan menghasilkan probabilitas kelas yang sama.
Tabel 4-1 Hasil performansi sistem dari tiap
dataset Skenario B
Nama dataset
Data training
Data training
DR (%) FPR (%)
DATA_A1 TEST100 TRAIN_A900 A900
100.00 100.00
1.67 5.00
DATA_A2 TEST200 TRAIN_A800 A800
98.75 100.00
10.83 9.17
DATA_A3 TEST300 TRAIN_A700 A700
99.17 100.00
5.00 6.11
DATA_A4 TEST400 TRAIN_A600 A600
100.00 98.75
6.67 7.50
DATA_A5 TEST500 TRAIN_A500 A500
100.00 99.00
4.00 3.33
Berdasarkan Tabel 4.1, setiap dataset yang terdiri dari 2 data training diujikan dengan data testing yang sama menghasilkan performansi yang berbeda. Hal
ini menunjukan bahwa pada TAN classifier memungkinkan terjadinya ketergantungan diantara atribut yang dibangun menggunakan Algoritma CI Test dapat menaikkan nilai performansi sistem.
Grafik 4-1 Hasil performansi sistem dari tiap
dataset Skenario B
Karena statistical based jumlah instance dari
feature akan mempengaruhi nilai threshold. Karena perhitungannya melibatkan conditional mutual information tiap pasangan atribut. Jadi semakin banyak data training tentu saja jumlah instance dari feature juga semakin banyak, akibatnya variable-variabel penentu model TAN classifier semakin bervariasi. Model tersebut nantinya untuk dasar pengisian CPT dan sangat berpengaruh untuk klasifikasi data testing serta perhitungan performansi sistem. Berikut salah satu hasil jaringan Bayesian Network.
Gambar 4.1: Model TAN BN Data TRAIN_A500
Class
Service0.240679
Protocol_type
0.045487
Is_guess_login
0.012231
Logged_In
0.026253
Wrong_fragment
0.061332
Land0.000000
Root_shell0.000797
Num_failed_logins0.003205
Berdasarkan Tabel 4.1, terlihat hasil performansi dari dataset DATA_A1 yang terdiri dari 90% data training dan 10% data testing memiliki nilai DR 100% dan FPR 1,67%. Detection rate 100% artinya sistem mampu mendeteksi seluruh intrusi pada data testing sebanyak 0 data dengan benar. Dan False Positive Rate 1,67% yang artinya ada 9 data yang salah terdeteksi dari seluruh data normal yang berjumlah 540 data. Semakin besar nilai DR berarti
020406080
100120
A1-
a
A1-
b
A2-
a
A2-
b
A3-
a
A3-
b
A4-
a
A4-
b
A5-
a
A5-
b
DR
FPR
Nama
dataset B1 B2 B3 B4 B5 B6
Keterangan
Data Training
% normal 0.95 0.9 0.8 0.7 0.6 0.5 Proporsi data train dan data test untuk semua data set adalah 75% data train dan 25% data test
900
Jml normal 855 810 720 630 540 450
% intrusi 0.05 0.1 0.2 0.3 0.4 0.5
Jml intrusi 45 90 180 270 360 450
Data Testing
% normal 0.95 0.9 0.8 0.7 0.6 0.5
100
Jml normal 95 90 80 70 60 50
% intrusi 0.05 0.1 0.2 0.3 0.4 0.5
Jml intrusi 5 10 20 30 40 50
semakin bagus performansi sistem, karena jumlah semua data intrusi berarti berhasil dikenali oleh sistem. Sebaliknya jika nilai FPR tinggi, malah tidak bagus karena data normal yang dikenali sistem sebagai intrusi banyak.
4.2 Pengujian Analisis Pengaruh Proporsi Data
Intrusi dan Normal terhadap Performansi
Sistem (DR dan FPR)
Berikut ini merupakan hasil performansi sistem Anomaly Detection dari pengujian keseluruhan data testing dari dataset terhadap model Bayesian
Network TAN Classifier yang terbentuk dari masing-masing data training. Tabel 4-2 Hasil performansi sistem dari tiap dataset
Skenario B Nama dataset
% normal
% intrusi
DR (%)
FPR (%)
DATA_B1 95 5 40.00 0.00
DATA_B2 90 10 72.73 0.00
DATA_B3 80 20 100 0.00
DATA_B4 70 30 100 8.57
DATA_B5 60 40 100 5.00
DATA_B6 50 50 80 0.80
Berdasarkan keseluruhan pengujian yang dilakukan terhadap dataset pada Tabel 4.4, terlihat bahwa model TAN ClassifierBayesian Network yang terbentuk berbeda-beda. Secara umum dapat diambil kesimpulan ketika data training dengan jumlah yang sama namun proporsi data normal dan data intrusi diubah-ubah, ternyata mempengaruhi model TAN Classifier BN. Grafik 4-1 Hasil performansi sistem dari tiap dataset
Skenario B
Semakin kecil proporsi data intrusi pada
data training, ternyata model TAN BN yang terbentuk juga hanya beberapa feature saja. Untuk DATA_B1 dan DATA_B2 menghasilkan model TAN BN dengan node kurang dari 8. Sebaliknya semakin besar data intrusi pada data training, model TAN BN yang dihasilkan memiliki node lengkap dari 8 feature. Namun bentuk model TAN Classifier BN
yang lengkap belum tentu menghasilkan performansi sistem yang optimal.
Gambar 4-2 Model TAN BN Data TRAN_B7-3
Berdasarkan Tabel 4.2, DATA_B4 memiliki hasil performansi paling optimal yaitu DR 100% dan FPR 0%. Nilai Detection Rate 100%. Artinya sistem mampu mendeteksi seluruh intrusi dengan benar.Sedangkan nilai False Positive Rate 0%, artinya tidak ada data normal pada data testing yang terdeteksi sebagai intrusi.Semakin kecil nilai FPR maka semakin bagus performansi sistem. Hasil performansi tersebut mencapai optimal karena menggunakan proporsi data training dan testing pada pengujian skenario A yaitu 90% data train dan 10% data test. Semakin banyak data yang di-training maka model TAN BN yang dihasilkan semakin bagus untuk proses klasifikasi. Berikut ini tabel perbandingan hasil performansi dengan karakteristik data yang sama, namun proporsi data normal dan data intrusi berbeda.
Tabel 4-3 Tabel Perbandingan Hasil Performansi dengan penelitian sebelumnya
Nama
dataset
Data
train
Data
test
Data
normal
Data
intrusi
DR FPR
Skenario A
DATA_A1
90% 10% 60% 40% 100%
1,67%
Skenario B
DATA_B3
90% 10% 80% 20% 100%
0%
Berdasarkan Tabel 4.3, dengan proporsi data
normal 80% dan data intrusi 20% menghasilkan performansi sitem yang lebih tinggi dari hasil skenario A. Jadi secara umum dapat diambil kesimpulan bahwa perfomansi sistem yang lebih bagus yaitu skenario B pada daset DATA_B3. DATA_B3 menghasilkan model TAN Classifier tanpa feature land, ternyata menghasilkan performansi yang lebih bagus. Proporsi data normal
0
20
40
60
80
100
120
B1 B2 B3 B4 B5 B6
DR
FPR
Class
Service0.205914
Protocol_type
0.0569997
Is_guess_login
0.0195168
Logged_In
0.0483736
Wrong_fragment
0.0716679
Land0.0028032
Root_shell0.0028032
Num_failed_logins
0.0056359
80% dan data intrusi 20% pada data training dan data testing, ternyata memberikan pengaruh yang lebih bagus daripada proporsi data asli 10% KDD Cup 99 yaitu nilai DR 100% dan nilai FPR 0%.
Secara keseluruhan dari hasil performansi sistem, model Bayesian Network membutuhkan data training yang lebih besar dari data testing. Idealnya untuk sistem ini yaitu 90% data training dan 10% data testing. Sedangkan dari segi proporsi data normal dan data intrusi untuk Anomaly detection, ternyata untuk data normal haruslah lebih besar dari data intrusi. 5. Kesimpulan
Berdasarkan hasil pengujian dan analisis yang telah dilakukan pada Tugas Akhir ini, diperoleh beberapa kesimpulan sebagai berikut: 1. Faktor yang mempengaruhi pembentukan model
TAN Classifier yaitu jumlah record,jumlah atribut, dan jumlahvalue tiap atribut pada data training. Karena pada TAN Classifier melibatkan ketergantungan antar atribut yang dibangun menggunakan Algoritma CI Test.
2. Proporsi data training dan data testing yang optimal untuk membangun model TAN Classifier dengan hasil performansi yang optimal yaitu dengan proporsi 90% data training dan 10% data testing. lebih besar dari 50%. Semakin banyak data training semakin optimal Bayesian Network yang terbentuk.
3. Pengambilan sample untuk proporsi data normal dan data intrusi pada data training sangat berpengaruh terhadap pembentukan model TAN Classifier. Secara umum dapat diambil kesimpulan bahwa proporsi data normal pada Anomaly detection ini haruslah lebih besar dari data intrusi. Dari hasil pengujian proporsi data yang menghasilkan performansi optimal yaitu 80% data normal dan 20% data intrusi.
4. Algoritma Bayesian Network TAN Classifier bisa diimplementasikan untuk anomaly detection
pada IDS dengan performansi yang baik, yaitu dari detection rate 100% dan false alarm rate 0%. Hal ini dikarenakan model klasifikasi pada TAN dibangun menggunakan CI Test Based
Algorithms menghasilkan nilai akurasi yang rata-rata lebih tinggi di bandingkan dengan Bayesian
Network biasa (misalnya Naïve Bayes). Hal ini menunjukan pengaruh ketergantungan diantara atribut pada TAN dapat menaikkan nilai akurasi jika di bandingkan dengan Bayesian Network
lain yang hanya mempunyai ketergantungan setiap atribut dengan kelasnya saja.
Daftar Pustaka:
[1] Afianti Mira, 2011, “Implementasi Algoritma Y-Means sebagai Anomaly Detection (Studi
Kasus:Intrusion Detection System)”, IT Telkom Bandung.
[2] Amanda Delamer,2002,"Intrusion Detection with Data Mining" Donau-Universität Krems, Dublin.
[3] Baesens, B., M. Egmont Petersen., R. Castelo., J. Vanthienen. “Learning Bayesian Network Classifiers for Credit Scoring using Markov Chain Monte Carlo Search”. K.U.Leuven Dept. of Applied Economic Sciences Naamsestraat, Leuven, Belgium. www.cs.uu.nl/research/techreps/repo/CS-2001/2001-58.pdf.
[4] Bringas, Pablo G. dan Igor Santos. Bayesian Networks for Network Intrusion Detection,
[5] Cemerlic Alma, Li Yang, Joseph M. Kizza. Network Intrusion Detection Based on Bayesian Networks. Diakses pada 21 Maret 2011 di http://www.utc.edu/Faculty/Li-Yang/MyPaper/SEKE08-Cemerlic-Yang.pdf
[6] Charles River Analytics, Inc, 2004, “About Bayesian Belief Networks”, Cambridge. www.cra.com. Page 2. https://www.cra.com/pdf/BNetBuilderBackground.pdf.
[7] Cheng, Jie, dkk, ”An Algorithms for Bayesian Belief Network Construction from Data”. School of Information and Software Engineering University Ulster. Northern Ireland.
[8] Chia-Ping Chen, “Entropy and Mutual Information Notes on Information Theory”, Department of Computer Science and Engineering, National Sun Yat-Sen University, Kaohsiung, Taiwan ROC.
[9] Firmansyah, Ivan Suci. IP Network-Packet Shared Media pada Mesin Cluster Intrusion Detection System. diakses pada 24 Maret 2011 http://budi.insan.co.id/courses/el695/projects2002-2003/ivan-report.pdf
[10] Fradhany Yustiar, 2008, “Learning Klasifikasi Bayesian Network Menggunakan Algoritma Conditional Independence Test”, IT Telkom Bandung.
[11] Ghorbani A., Guan Yu, dkk. 2003. “Y-Means: A Clustering Method for Intrusion Detection”, Proceedings of the IEEE Canadian Conference on Electrical and Computer Engineering. Montreal, Canada. pp 87-99.
[12] H. Güneş Kayacık, A. Nur Zincir-Heywood, Malcolm I. Heywood “Selecting Features for Intrusion Detection:A Feature Relevance Analysis on KDD 99 Intrusion Detection Datasets”, Dalhousie University.
[13] Heckerman, David, 1995, “A Tutorial on Learning With Bayesian Networks”, Advanced Technology Division. Microsoft Corporation.
[14] Heckerman, David. Bayesian Networks for Data Mining. 1997 diakses pada 21 Maret 2011 di http://www.springerlink.com
[15] Hernández- Pereira E.,Suárez-RomeroJ. A., dkk. 2009. “Conversion methods for symbolic features: A comparison applied to an intrusion detection problem”, Expert System With Applications, Vol. 36(2009) 10612-10617.
[16] Jiang, Liangxiao, Harry Zhang, Jiang Su, “Learning Tree Augmented Naïve Bayes for Ranking”, Department of Computer Science, China University of Geosciences. Wuhan, China. www.ai.mit.edu/projects/jmlr/papers/volume3/ling02a/top.pdf
[17] Jiawei Han, Micheline Kamber, 2001, “Data Mining : Concepts and Techniques”, Simon Fraser University.
[18] Kannan, Sivanadiyan Sabari. 2005.Y-Means Clustering Vs N-CP Clustering With Canopies for Intrusion Detection. Thesis. Oklahoma State University.
[19] Leung, Kingsly & Christopher Leckie. Unsupervised Anomaly Detection in Network Intrusion Detection Using Cluster.
[20] M. Tavallaee, E. Bagheri, W. Lu, dan A. Ghorbani. 2009. “A Detailed Analysis of the KDD CUP 99 Data Set”. Second IEEE Symposium on Computational Intelligence for Security and Defense Applications (CISDA).
[21] Pang-Ning Tan, Vipin Kumar, Michael Steinbach, 2004, “Introduction to Data Mining”, Michigan State University, University of Minnesota.
[22] Munir, Rinaldi. 2008. Diktat Kuliah IF2091 Struktur Diskrit. Program Studi Teknik Informatika, Sekolah Tinggi Teknik Elektro dan Informatika, Institut Teknologi Bandung.
[23] Tran, D., Wanli Ma, Sharma, D. 2008. "Automated network feature weighting-based anomaly detection," Intelligence and Security Informatics, IEEE International Conference on , pp.162-166.