PERBANDINGAN 3 METODE DALAM DATA MININGeprints.ums.ac.id/39922/20/02. NASKAH...

PERBANDINGAN 3 METODE DALAM DATA MINING

UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI

DI SMA NEGERI 6 SURAKARTA

Naskah Publikasi

Program Studi Informatika

Fakultas Komunikasi dan Informatika

Oleh :

Veronica Andriyana

Yusuf Sulistyo Nugroho, S.T., M.Eng

PROGRAM STUDI INFORMATIKA

FEKULTAS KOMUNIKASI DAN INFORMATIKA

UNIVERSITAS MUHAMMADIYAH SURAKARTA

MARET, 2015

PERBANDINGAN 3 METODE DALAM DATA MINING

UNTUK PREDIKSI PENERIMA BEASISWA BERDASARKAN PRESTASI

DI SMA NEGERI 6 SURAKARTA

Veronica Andriyana, Yusuf Sulistyo Nugroho

Program Studi Informatika, Fakultas Komunikasi dan Informatika

Universitas Muhammadiyah Surakarta

Email : [email protected]

Abstraksi

Dalam rangka meningkatkan akses dan minat belajar siswa serta mengangkat

mutu sekolah, SMA N 6 Surakarta mengalokasikan dana beasiswa dalam bentuk apresiasi

untuk siswa berprestasi. Namun masih ada hal yang menjadi permasalahan yang sering

muncul, yaitu kurang tepatnya penyaluran beasiswa terhadap siswa. Beasiswa untuk

siswa berprestasi bertujuan memotivasi siswa untuk selalu meningkatkan prestasi

akademik maupun non akademik dan membantu siswa yang kurang mampu tetapi

berprestasi. Untuk mengatasi permasalahan tersebut adalah dengan cara menerapkan

proses data mining.

Dalam memprediksi siswa yang menerima beasiswa berdasarkan prestasi

menggunakan metode Naive Bayes, Decision Tree Algoritma ID3, dan Regresi Linear.

Atribut yang digunakan terdiri dari Nilai rata-rata, Gender, Ekstrakurikuler, Jurusan,

Semester, Jumlah Tanggungan Orang Tua, Gaji Orang Tua, dan Beasiswa. Untuk

melakukan proses data mining tersebut di perlukan tools pembantu yaitu RapidMiner 5.

Pengimplementasian data mining menggunakan perbandingan 3 metode dapat

diketahui bahwa berdasarkan dari jumlah sampel 305 siswa hasil nilai precision metode

Decision Tree Algoritma ID3 lebih baik digunakan untuk penelitian ini dibandingkan

dengan metode yang lain. Sedangkan berdasarkan nilai recall dan accuracy, Regresi

Linear lebih baik digunakan dibandingkan metode lain. Tetapi apabila dilihat dari hasil

secara keseluruhan prediksi penerima beasiswa variabel yang paling berpengaruh adalah

Nilai rata-rata.

Kata kunci : Algoritma ID3, Data mining, Decision Tree, Naive Bayes, Regresi Linear

PENDAHULUAN

Dalam dunia pendidikan, data

yang berlimpah dan berkesinam-

bungan mengenai siswa yang dibina

dan alumni terus dihasilkan. Menurut

Jing (2004) dan Merceron (2005)

dalam Nugroho (2014), data yang

berlimpah membuka peluang

diterapkannya data mining untuk

pengelolaan pendidikan yang lebih

baik dan data mining dalam

pelaksanaan pembelajaran ber-

bantuan komputer yang lebih efektif.

Dalam rangka meningkatkan

akses dan minat belajar siswa serta

mengangkat mutu sekolah, SMA

mailto:[email protected]

Negeri 6 Surakarta mengalokasikan

dana beasiswa dalam bentuk

apresiasi untuk siswa berprestasi.

Namun masih ada permasalahan

yang sering muncul, yaitu kurang

tepatnya penyaluran beasiswa

terhadap siswa, misalnya siswa yang

sebenarnya tidak layak mendapatkan

beasiswa tetapi mendapatkan

beasiswa, sebaliknya siswa yang

berhak mendapatkan beasiswa baik

itu beasiswa beprestasi maupun

beasiswa kurang mampu tetapi tidak

mendapatkan beasiswa. Tujuan dari

adanya beasiswa untuk siswa

berprestasi tersebut yaitu memotivasi

siswa untuk selalu meningkatkan

prestasi akademik maupun non

akademik, membantu siswa yang

kurang mampu tetapi berprestasi, dan

menumbuhkan rasa percaya diri

siswa untuk berkompetitif dalam

mengembangkan potensinya.

Berdasarkan permasalahan

tersebut dapat diambil solusi

dengan cara memanfaatkan teknik

data mining dengan

membandingkan 3 metode untuk

prediksi siswa penerima beasiswa

berdasarkan prestasi yaitu Naïve

Bayes, Decision Tree Algoritma

ID3, Regresi Linear. Dengan

analisis perbandingan tersebut,

diharapkan dapat membantu

menemukan informasi tentang

siswa yang menerima beasiswa

berdasarkan prestasi sehingga

membantu pihak sekolah dalam

mencari solusi dapat mengetahui

tingkat prestasi siswa dan lebih

meningkatkan lagi mutu pendidikan

sekolah dengan adanya siswa-siswa

yang berprestasi.

LANDASAN TEORI

1. Prediksi / Peramalan

Menurut susanto dalam Mauriza

(2014) Prediksi adalah

memperkirakan sesuatu yang

akan terjadi pada masa yang

mendatang. Prediksi juga dapat

digunakan dalam pengklasifi-

kasian, tidak hanya untuk

memprediksi time series, karena

sifatnya yang bisa menghasilkan

class berdasarkan atribut yang

ada.

2. Data Mining

Data Mining sering disebut

KDD (Knowledge discovery in

database). KDD adalah kegiatan

yang meliputi pengumpulan,

pemakaian data, historis, untuk

menemukan keteraturan, pola

atau hubungan dalam set data

berukuran besar. (Santoso, 2007)

3. Naive Bayes

Naive Bayes adalah teknik

prediksi berbasis probabilitic

sederhana yang berdasar pada

penerapan Teorema Bayes

(aturan Bayes) dengan asumsi

independensi

(ketidakketergantungan) yang

kuat. (Prasetyo, 2012)

4. Decision Tree Algoritma ID3

Decision Tree adalah metode

untuk menemukan fungsi

pendekatan yang bernilai diskrit

dan tahan terhadap data-data

yang memiliki kesalahan (noisy

data) serta mampu mempelajari

ekspresi-ekspresi disjunctive

seperti OR. Iterative

Dychotomizer version 3 (ID3)

adalah salah satu jenis decision

tree yang umumnya digunakan

untuk menemukan aturan yang

diharapkan bisa berlaku untuk

data-data tidak lengkap atau

belum pernah kita ketahui.

(Lesmana, 2012)

5. Regresi Linear

Analisis regresi adalah teknik

statistik untuk permodelan dan

investigasi hubungan dua atau

lebih variabel. (Santosa, 2007)

METODE PENELITIAN

a. Penentuan Atribut

Tahap yang pertama adalah

menganalisis dan menyeleksi

data keseluruhan untuk

mendapatkan atribut dengan

record yang relevan terhadap

keluaran yang diinginkan.

Atribut yang digunakan dalam

prediksi penerima beasiswa

terdapat dalam tabel 1

Tabel 1 Daftar Atribut

Atribut Variabel

Beasiswa Y

Nilai rata – rata X1

Gender X2

Ekstrakurikuler X3

Jurusan X4

Semester X5

Jumlah tanggungan orang tua X6

Gaji orang tua X7

b. Implementasi Data Mining

1. Naive Bayes

Klaifikasi Bayesian adalah

klasifikasi statistik yang bisa

memprediksi probabilitas

sebuah class. Klasifikasi ini

dihitung berdasarkan Teoema

Bayes. (Widiastuti, 2010)

Persamaan dari teorema Bayes

dirumuskan seperti Persamaan

1 berikut ini :

.......... (1)

2. Decision Tree Algoritma ID3

Hal yang harus dilakukan

dalam metode decision tree

adalah menghitung entrophy

dan information gain. (Ranny

dkk, 2012)

Persamaan 2 Rumus entrophy :

.........(2)

Persamaan 3 Rumus Information Gain

..................(3)

3. Regresi Linear

Analisis regresi adalah teknik

statistik untuk permodelan dan

investigasi hubungan dua atau

lebih variabel. (Santosa, 2007)

Persamaan 4 Rumus Regresi

Linear :

...............................................(4)

HASIL DAN PEMBAHASAN

1. Penentuan Sampel

Untuk mendapatkan sampel yang

dapat menggambarkan dan

mewakili jumlah populasi, maka

dalam penentuan sampel

penelitian ini digunakan rumus

Slovin (Umar, 2004)

Rumus Slovin dirumuskan seperti

Persamaan 5 berikut ini :

.......................... (5)

n = 1290 / 1 + 1290 (0,05)2

n = 305,325 siswa

Jadi dibulatkan menjadi 305

siswa yang digunakan sebagai

data sampel.

Gambar 1 Scatter Plot NaiveBayes menggunakan data testing

2. Hasil Implementasi Naive

Bayes menggunakan

RapidMiner 5

Berdasarkan scatter plot pada

gambar 1 menunjukkan bahwa

penerima beasiswa dengan nilai rata-

rata nilai≥8 dan jurusan BAHASA

sebagian ada yang menerima

beasiswa. Sedangkan nilai≥8 dan

jurusan IPA hasilnya tidak ada yang

menerima beasiswa.

3. Hasil Implementasi Decision

Tree Algortima ID3

menggunakan RapidMiner 5

Berdasarkan scatter plot dalam


6<nilai≤8 dan Jurusan IPA hasilnya

mayoritas TIDAK MENERIMA.

Sedangkan nilai≥8 dan Jurusan IPS

hasilnya mayoritas TIDAK

MENERIMA tetapi ada beberapa

siswa yang MENERIMA beasiswa

tersebut.

4. Hasil Implementasi Regresi

Linear menggunakan

RapidMiner 5

Berdasarkan scatter plot dalam


6<nilai≤8 (3) dan Jurusan IPA (0)

hasilnya mayoritas TIDAK

MENERIMA. Sedangkan nilai≥8 (4)

dan Jurusan IPS (1) hasilnya

mayoritas TIDAK MENERIMA

tetapi ada beberapa siswa yang

MENERIMA beasiswa tersebut.

Gambar 2 Tampilan hasil decision tree pada Scatter Plot

Gambar 3 Scatter view Regresi Linear

5. Perhitungan Naive Bayes

Sebagai contoh penulis

mengambil salah satu data uji

yang memiliki ciri sebagai

berikut :

nilai ≥ 8, PEREMPUAN,

OLAHRAGA, IPA, semester 5,

tanggungan ≤ 4, gaji ≤ 1500000.

Apakah siswa tersebut Menerima

atau Tidak Menerima beasiswa ?

Fakta menunjukkan :

P( Y =MENERIMA)= 31 / 305

= 0,10164

P( Y =TIDAK MENERIMA)=

274 / 305 = 0,89836

Fakta :

P (X1= nilai≥ 8 |Y=

MENERIMA)= 25 / 31 =

0,80645

P (X1= nilai≥ 8 |Y= TIDAK

MENERIMA)= 125 / 274 =

0,45620

P (X2= PEREMPUAN |Y=


0,61290

P (X2= PEREMPUAN |Y=

TIDAK MENERIMA)= 90 / 274

= 0,32847

P (X3= OLAHRAGA |Y=

MENERIMA)= 3 / 31 = 0,09677

P (X3= OLAHRAGA |Y=

TIDAK MENERIMA)= 22 / 274

= 0,08029

P (X4= IPA |Y= MENERIMA)=

2 / 31 = 0,06452

P (X4= IPA |Y= TIDAK


0,02555

P (X5= 5 |Y= MENERIMA)= 1 /

31 = 0,03226

P (X5= 5 |Y=TIDAK


0,01460

P (X6= tanggungan≤ 4 |Y=

MENERIMA)= 1 / 31 = 0,03226

P (X6= tanggungan≤ 4 |Y=

TIDAK MENERIMA)= 2 / 274 =

0,00730

P (X7= gaji ≤ 1500000 |Y=

MENERIMA)= 1 / 31 = 0,03226

P (X7= gaji ≤ 1500000|Y=

TIDAK MENERIMA)= 1 / 274 =

0,00365

HMAP dari keadaan ini dapat

dihitung dengan :

P(X1= nilai ≥ 8, X2=

PEREMPUAN, X3=

OLAHRAGA, X4= IPA, X5= 5,

X6= tanggungan≤ 4, X7 = gaji ≤

1500000 | Y = MENERIMA)

= 0,00105287

P(X1= nilai ≥ 8, X2= PEREMPUAN,

X3= OLAHRAGA, X4= IPA, X5= 5,

X6= tanggungan≤ 4, X7 = gaji ≤

1500000 | Y = TIDAK

MENERIMA)

= 0,0000107389

KEPUTUSAN PREDIKSI

BEASISWA = MENERIMA.

6. Perhitungan Decision Tree

Algoritma ID3

a) Menentukan Root Node

Root Node adalah atribut yang

memiliki nilai information gain

paling tinggi.

Tabel 2 Information gain

tertinggi

Atribut Nilai gain

Gender 0,001

Nilai rata - rata 0,035

Ekstrakurikuler 0,028

Jurusan 0,000

Semester 0,015

Tanggungan

orang tua

0,002

Gaji orang tua 0,009

b) Menentukan Internal Node

pertama

Menentukan internal node pada

Nilai rata-rata 6 < nilai ≤ 8

didapatkan nilai information gain

seperti pada tabel 3.

Tabel 3 Nilai Information gain

Atribut Nilai Gain rata-

rata

6 < nilai ≤ 8

Gender 0,005


Jurusan 0,039

Semester 0,033

Tanggungan

orang tua

0,001


c) Menentukan Internal Node kedua

Menentukan internal node pada

Nilai rata-rata 6 < nilai ≤ 8 dan

jurusan BAHASA didapatkan

nilai information gain seperti pada

tabel 4.


Atribut Nilai Gain

6 < nilai ≤ 8

BAHASA

Gender 0,061


Semester 0,026

Tanggungan

orang tua

0,075


d) Menentukan Leaf Node

Menentukan leaf node pada Nilai

rata-rata 6 < nilai ≤ 8, jurusan

BAHASA dengan ekstrakurikuler

Olahraga didapatkan nilai

information gain seperti pada

tabel 5.


Atribut Nilai Gain

6 < nilai ≤ 8,

BAHASA,

Olahraga

Gender 0,000

Semester 0,000

Tanggungan

orang tua

0,000


Dari hasil tabel 5 dapat disimpulkan

bahwa ekstrakurikuler Olahraga

menghasilkan leaf node, karena hasil

dari information gain bernilai 0.

7. Perhitungan Regresi Linear

Dari perhitungan implementasi

Regresi Linear menggunakan

RapidMiner menghasilkan sebuah

persamaan sebagai berikut :

Y = (0,136 × NILAI RATA –

RATA) – ( 0,078 × SEMESTER)

+ (0,021 × JUMLAH

TANGGUNGAN ORANG TUA)

+ 0,858

Dari persamaan tersebut

dibuktikan dengan perhitungan

manual dengan mengambil

beberapa sampel data seperti di

bawah ini :

Pengujian penghitungan siswa

yang MENERIMA BEASISWA :

Y = (0,136 × 4) – (0,078 × 2) +

(0,021 × 0) + (0,015 × 0) + 0,858

= 1,246

Karena hasilnya mendekati 1

maka hasilnya MENERIMA.

KESIMPULAN

Berdasarkan penjelasan dan analisis

yang telah diuraikan, maka dapat

ditarik kesimpulan bahwa :

1. Variabel yang paling

mempengaruhi dari hasil

perhitungan 3 metode (Naive

Bayes, Decision Tree Algoritma

ID3, dan Regresi Linear) adalah

nilai rata – rata.

2. Berdasarkan dari nilai precision,

metode Decision Tree Algoritma

ID3 lebih baik digunakan dalam

penelitian ini karena memiliki

nilai lebih baik dari pada

algoritma yang lainnya.

3. Berdasarkan nilai recall dan

accuracy, Regresi Linear lebih

baik digunakan dalam penelitian

ini karena memiliki nilai lebih

baik dari metode yang lain.

4. Hasil dari nilai precision, recall,

dan accuracy nya adalah sebagai

berikut:

a. Naive Bayes hasil precision

89,90% , recall 99,64%, dan

accuracy 89,51%.

b. Decision Tree Algoritma ID3

hasil precision 90,04% , recall

82,48%, dan accuracy 76,07%.

c. Regresi Linear hasil precision

89,84% , recall 100,00%, dan

accuracy 89,84%.

DAFTAR PUSTAKA

Lesmana, Dody Putu. 2012. ‘Perbandingan Kinerja Decision Tree J48 dan ID3

Dalam Pengklasifikasian Diagnosis Penyakit Diabetes Mellitus’. Jurnal

Teknologi dan Informatika, Vol. 2, no. 2.

Mauriza, Ahmad Fikri. 2014. ‘Implementasi Data Mining Untuk Memprediksi

Kelulusan Mahasiswa Fakultas Komunikasi dan Informatika UMS

Menggunakan Metode Naïve Bayes’, Skripsi.Fakultas Komunikasi Dan

Informatika, Universitas Muhammadiyah Surakarta.

Nugroho, Yusuf Sulistyo. 2014. ‘Klasifikasidan Prediksi Masa Studi dan Prestasi

Mahasiswa Fakultas Komunikasi dan Informatika Universitas

Muhammadiyah Surakarta’, Jurnal KomuniTI, Vol VI, No 1, Maret 2014.

Prasetyo, Eko. 2012. Data Mining konsep dan aplikasi menggunakan matlab.

Yogyakarta: Andi.

Ranny dkk. 2012. ‘Pemilihan Diet Nutrien bagi Penderita Hipertensi

Menggunakan Metode Klasifikasi Decision Tree’, Jurnal Teknik ITS, Vol.

1, No.1.

Santosa, Budi. 2007. Data Mining Terapan dengan Matlab. Yogyakarta: Graha

Ilmu.

Santoso, Budi. 2007. Data Mining Teknik Pemanfaatan Data untuk Keperluan

Bisnis. Yogyakarta: GrahaIlmu.

Umar, Husein (2014). Metode Penelitian Untuk Skripsi Dan Tesis Bisnis.

Cetakanke – 6.Jakarta : PT Raja GrafindoPersada.

Widiastuti, Dwi. 2010. ‘Analisa Perbandingan Algoritma SVM, Naive Bayes, dan

Decision Tree dalam Mengklasifikasikan Serangan (Attacks) pada Sistem

Pendeteksi Instrusi’, Jurnal Jurusan Sistem Informasi , Universitas

Gunadarma.

BIODATA PENULIS

Nama : Veronica Andriyana

NIM : L200110086

Tempat Lahir : Surakarta

Tanggal Lahir : 8 Februari 1993

Jenis Kelamin : Perempuan

Agama : Islam

Pendidikan : S1

Fakultas : Jurusan Informatika/Fakultas Komunikasi dan Informatika

Universitas : Universitas Muhammadiyah Surakarta

Alamat : Jl. Tarumanegara Utara II, Tempel RT 5 RW 7,

Banyuanyar, Banjarsari, Surakarta

Nomor Telepon : 085799480482

Email : [email protected]

mailto:[email protected]

PERBANDINGAN 3 METODE DALAM DATA MININGeprints.ums.ac.id/39922/20/02. NASKAH...

Documents

Transcript of PERBANDINGAN 3 METODE DALAM DATA MININGeprints.ums.ac.id/39922/20/02. NASKAH...