Tanagra Dan c45

download Tanagra Dan c45

of 16

Transcript of Tanagra Dan c45

  • 8/16/2019 Tanagra Dan c45

    1/16

    Tanagra

    Pengenalan Tanagra

    Tanagra merupakan salah satu software data mining yang didalamnya disediakan beberapa

    metoda data mining mulai dari mengekplorasi analisis data, pembelajaran statistik,

     pembelajaran mesin, dan database

    Tidak seperti software data mining kebanyakan, tanagra merupakan suatu software berbasis

    open source di mana semua orang dapat mengakses source codenya, dan menambahkan

    algoritma mereka sendiri, sejauh dia setuju dan menyesuaikan dengan lisensi pendistribusian

    softwarenya.

    Tujuan Pembuatan Software Tanagra

    • Memberi peneliti dan mahasiswa suatu software data mining yang mudah digunakan,

    sesuai dengan aturan yang ada dari pengembangan software dan memperbolehkan

    menganalisa data real maupun sintetis.

    • Mengusulkan pada peneliti suatu arsitektur yang memperbolehkan mereka untuk

    secara mudah menambah metode data mining mereka sendiri, untuk membandingkan

     performannya. Tanagra bertindak lebih sebagai platform percobaan dalam hal

    memperbolehkan mereka menuju ke pekerjaan pokok mereka, menyalurkan mereka

     berhadapan dengan bagian yang tak menyenangkan dalam pemograman tool seperti

    ini: manajeman data.

    • Bertujuan untuk menyebarkan metodologi yang mungkin untuk membangun software

    seperti ini. Mereka harus mengambil keuntungan dalam hal akses bebas ke source

    code, melihat bagaimana software seperti ini dibangun, masalah untuk dihindari,

    langkah utama dari proyek, dan tools atau libraries yang mana yang harus digunakan

    dan untuk apa digunakan. Dalam hal ini, Tanagra dapat dianggap sebagai alat untuk

    mendidik untuk belajar teknik pemrograman.

    Tanagra merupakan sebuah software yang biasanya digunakan untuk keperluan akademik dan

    riset. Sebagian besar pengguna Tanagra adalah peneliti dan mahasiswa.

    Metode atau Teknik engolahan Data di Tanagra

    !. A. Metode Prediksi

    Teknik "lassification dan #egression

    !$ Dalam Teknik "lassification tanagra meggunakan Decision Tree dengan componets

    %D& dan "'.(

    )$ Dalam Teknik #egression tanagra menggunakan Tabs #egression yang sudah ada pada bagian #egression components.

  • 8/16/2019 Tanagra Dan c45

    2/16

     

    !. B. Metode Deskripsi

    Teknik "lustering dan *ssociation #ule Disco+ery

    !$ Dalam Teknik "lustering tanagra menggunakan Tabs "lustering yang sudah ada pada

     bagian "lustering components.

    )$ Dalam Teknik *ssociation #ule tanagra menggunakan Tabs *ssociation #ule yang

    sudah ada pada bagian *ssociation #ule components.

    Kelebihan dan Kelamahan Tanagra

    Dalam segi fitur Tanagra cukup baik karena selain memiliki beberapa pembelajaran

    terkontrol juga paradigma lain seperti clustering, analisis faktorial, statistik parametrik dan

    non parametrik, aturan asosiasi, feature selection, dan construction algorithms. *kan tetapitanagra tidak memasukkan apa yang membuat semua kekuatan yang dimiliki software

    komersil dalam area ini, seperti set sumber data yang luas, akses langsung ke datawarehouses

    dan databases, data cleansing, dan interacti+e utiliation.

    Format Data pada Software Tanagra

    Data %nput dalam Software Tanagra

    !$ Microssoft -cel

    /ebanyakan data yang diolah oleh Tanagra bersumber dari data yang di tulis dari Microssoft

    -cel.

    )$ T0T

    Data yang di import menggunakan format T0T berupa data yang di buat dengan

    menggunakan -cel kemudian di espor nya ke tt.

    &$ *#11

    Data yang formatnya *rff 2*ttribute3#elation 1ile 1ormat$ ini merupakan format yangdigunakan oleh 4eka dan Tanagra juga bisa menggunakan langsung.

    Data 5utput dalam Software Tanagra

    !$ Binary description of the stream diagram26.bdm$.

    1ile yang berformat 26.bdm$ ini hanya dapat di manfaatkan oleh Tanagra.

    /euntungan utama dari format ini adalah bahwa data yang di impornya sekali dan hanya

    sekali. Di sisi lain, ketidaknyamanan utama format ini adalah bahwa penyusunan analisis

    diagram yang definitif yang di definisikan atas data yang diimpor. 7adi jika data berubah,dengan menambahkan beberapa catatan misalnya, data harus diimpor lagi, maka diagram

  • 8/16/2019 Tanagra Dan c45

    3/16

    harus didefinisikan ulang. 7adi kesimpulan format ini adalah data yang di hasilkan tidak

    seharusnya ada perubahan lagi.

    )$ Tetual description of the stream diagram 26.TDM$.

    1ormat ini, berdasarkan format file %8% 4indows, menjelaskan dalam sebuah file teks analisis penyusunan diagram. 7adi file ini dapat dibuka dan diperiksa dengan editor teks apapun.

    /euntungan format ini yaitu hanya ada referensi ke data dalam file yang disimpan, jika data

    nya terjadi perubahanh, maka eksekusi berikutnya akan bekerja pada +ersi baru dari data, dan

    menghasilkan hasil yang diperbarui, file yang dihasilakan menghormati spesifikasi %8%,

    sehingga memungkinkan untuk mendefinisikan diagram baru, tanpa membuka Tanagra.

    /ekurangan utama dari format penyimpanannya adalah jika kebutuhan untuk mengimpor

    data setiap kali maka *nda menjalankan diagram aliran.

    Tampilan Tanagra

    9ambar ! : 9% Tanagra

    9ambar ) : %nput Data

    9ambar & : Tab Menu

  • 8/16/2019 Tanagra Dan c45

    4/16

    9ambar ' : #esult

    "ontoh /asus : "lustering Data Menggunakan Metode /3Means di Tanagra

    Dalam kasus ini kita akan mencoba men3cluster data menggunakan metode k3means dimanakita akan mempartisikan data yang ada kedalam satu atau dua kelompok 

    ertama yang harus kita lakukan adalah menyiapkan sampel datanya

    9ambar ( : Sampel Data

    Selanjutnya kita akan memasukkan data tadi kedalam software Tanagra

    9ambar ; : %nput Data

    Setelah kita selesai memasukkan data, kita akan mendefine status data tersebut.

  • 8/16/2019 Tanagra Dan c45

    5/16

    9ambar ; : Define Status

    9ambar = : ni+ariated Discreate Stat

    ada gambar = kita harus memasukkan ni+ariated Discreate Stat 2Statistic Tabs$ agar kita

     bisa melihat perbandingan dan persentanse data kita tadi.

    9ambar > : Discrete Select -ample

    ada gambar > kita memasukkan Discrete Select -ample 2%nstance Selection Tab$ pada

    dataset kita.

  • 8/16/2019 Tanagra Dan c45

    6/16

    9ambar > : Define Status

    9ambar >.! : Multiple *nalysis

    Ditahap selanjutnya kita akan membatasi analisa kita dengan Multiple "orrespondence

    *nalysis 21actorial *nalysis$ dengan memberikan limit !@ pada besar parameternya nanti

    9ambar A : Define Status

    Ditahap ini kita kembali mendefine status dan menginputkan parameter. *kan tetapi kali ini

    kita hanya akan menginputkan parameter tertentu saja. 2lihat gambar A untuk melihat

     parameter apa saja yang di inputkan$

  • 8/16/2019 Tanagra Dan c45

    7/16

    9ambar !@ : /3Means

    Setelah proses tersebut selesai barulah kita menerapkan metode k3means dalam

    menclustering dataset kita

    9ambar !! : Define Status

    Digambar !! kita akan memasukkan data mana yang akan kita cluster dengan menggunakan

    metode k3means

    9ambar !) : 9roup "haracteriation

    Setelah data tersebut selesai dicluster kita bagi data tersebut kedalam group3group 2gambar

    !)$

  • 8/16/2019 Tanagra Dan c45

    8/16

    9ambar !& : 9roup "haracteriation

    Dan jangan lupa untuk lebih mengelompokkan mereka dengan mensortir agar lebih terperinci

    Selanjutnya kita tinggal men3+isualisasikan data hasil clustering tadi dengan Scatterplot 2Dataisualitation Tab. Tanagra menggunakan teknik scatterplot dalam men+isualisasikan datanya

    9ambar !' : Scatterplot

    Data telah selesai di clustering dengan metode k3means dan telah kita +isualisasikan dengan

    teknik scatterplot

    ntuk mendapatkan data hasil clustering tadi kita perlu melakuakan reco+ery data dan meng3

    eksportnya nanti

    erhatikan gambar3gambar berikut untuk melihat proses pengambilan data hasil clustering

    tadi

  • 8/16/2019 Tanagra Dan c45

    9/16

  • 8/16/2019 Tanagra Dan c45

    10/16

    https://sartika1603.wordpress.com/2011/11/02/tanagra

    https://sartika1603.wordpress.com/2011/11/02/tanagrahttps://sartika1603.wordpress.com/2011/11/02/tanagra

  • 8/16/2019 Tanagra Dan c45

    11/16

    Data Mining - Studi Kasus1! "eknik K#asi$kasi Dari pem%ahasan se%e#umn&a' da#am tahap data mining terdapat %e%erapa

    teknik &ang %isa di#akukan untuk se%uah kasus. Sa#ah satu n&a ada#ah teknik

    k#asi$kasi. "ahap pemi#ihan teknik da#am data mining harus sesuai dengan

    tu(uan dan a#goritma untuk pencarian po#a

    )erikut pem%ahasan ka#i ini :

    •  "ahap Data Mining : K#asi$kasi

    • Metode k#asi$kasi &ang digunakan : Decision "ree

    • *#goritma Decision "ree &ang dico%a : +,. 

    K#asi$kasi sendiri merupakan suatu proses menemukan kumpu#an po#a atau

    ungsi &ang mendeskripsikan serta memisahkan ke#as data &ang satu dengan&ang #ainn&a untuk men&atakan o%(ek terse%ut masuk pada kategori tertentu

    &ang sudah ditentukan.

    secara umum' proses k#asi$kasi terdapat 2 tahap :

    - roses %e#a(ar training data set! : %erasa# dari data pe#atihan &g sudah ada!

    - Kasus %aru new case! :

    +ontoh kasus &ang akan di%ahas da#am data mining teknik k#asi$kasi metode

    decision tree dengan a#goritma +.,

    http://materionline7tw.blogspot.co.id/2012/06/data-mining-teknik-klasifikasi.htmlhttp://materionline7tw.blogspot.co.id/2012/06/data-mining-teknik-klasifikasi.html

  • 8/16/2019 Tanagra Dan c45

    12/16

    Dari data diatas akan di%ahas:

    1. erhitungan secara manua#2. Mencocokkan hasi# perhitungan manua# dengan penggunaan too#s ap#ikasi dari

      a. K*

      %. apidminer

    4ke..' untuk pem%ahasann&a kita #an(utkan disini

    5sum%er

    -#arose

    -%er%agai sum%er

    http://materion#inetw.%#ogspot.co.id/2012/06/data-mining-teknik-k#asi$kasi.htm#

    http://www.materionline7tw.blogspot.com/http://materionline7tw.blogspot.co.id/2012/06/data-mining-teknik-klasifikasi.htmlhttp://www.materionline7tw.blogspot.com/http://materionline7tw.blogspot.co.id/2012/06/data-mining-teknik-klasifikasi.html

  • 8/16/2019 Tanagra Dan c45

    13/16

    ohon /eputusan 2 Decision Tree$ merupakan metode klasifikasi dan prediksi yang sangat

    kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. *turan dapat dengan mudah dipahami

    dengan bahasa alami. *turan ini juga dapat diekspresikan dalam bentuk bahasa basis data

    seperti SC< untuk mencari record  pada kategori tertentu. ohon keputusan juga berguna

    untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon

    +ariabel input dengan sebuah +ariabel target. /arena pohon keputusan memadukan antara

    eksplorasi data dan pemodelan, pohon keputusan ini sangat bagus sebagai langkah awal

    dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik

    lain27 # Cuinlan, !AA&$.

    Dalam situasi lain kemampuan untuk menjelaskan alasan pengambilan keputusan adalah

    sesuatu yang sangat penting. Misalnya pada perusahaan asuransi ada larangan resmi untukmendeskriminasi berdasarkan +ariabel3+ariabel tertentu. erusahaan asuransi dapat mencari

    sendiri keadaan yang mencerminkan bahwa mereka tidak menggunakan deskriminasi yang

    ilegal dalam memutuskan seseorang diterima atau ditolak. Sebuah pohon keputusan adalah

    sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi

    himpunan3himpunan record  yang lebih kecil dengan menerapkan serangkaian aturan

    keputusan. *nggota himpunan hasil menjadi mirip satu dengan yang lain dengan masing3

    masing rangkaian pembagian. Sebuah model pohon keputusan terdiri dari sekumpulan aturan

    untuk membagi sejumlah populasi yang heterogen menjadi lebih kecil, lebih homogen

    dengan memperhatikan pada +ariabel tujuannya. Sebuah pohon keputusan mungkin dibangun

    dengan seksama secara manual, atau dapat tumbuh secara otomatis dengan menerapkan salah

    satu atau beberapa algoritma pohon keputusan untuk memodelkan himpunan data yang belumterklasifikasi 2Tan dkk, )@@'$.

    ariabel tujuan biasanya dikelompokkan dengan pasti dan model pohon keputusan lebih

    mengarah pada perhitungan probabilitas dari masing3masing record  terhadap kategori3

    kategori tersebut, atau untuk mengklasifikasi record  dengan mengelompokkannya dalam satu

    kelas. ohon keputusan juga dapat digunakan untuk mengestimasi nilai dari +ariabel

    kontinyu, meskipun ada beberapa teknik yang lebih sesuai untuk kasus ini.

    /elebihan dari metode pohon keputusan adalah:

    !. Daerah pengambilan keputusan yang sebelumnya kompleks dan sangat global, dapat

    diubah menjadi lebih simpel dan spesifik 

    ). -liminasi perhitungan3perhitungan yang tidak diperlukan, karena ketika

    menggunakan metode pohon keputusan maka sampel diuji hanya berdasarkan kriteria

    atau kelas tertentu

    &. 1leksibel untuk memilih fitur dari node internal yang berbeda, fitur yang terpilih akan

    membedakan suatu kriteria dibandingkan kriteria yang lain dalam node yang sama.

    /efleksibelan metode pohon keputusan ini meningkatkan kualitas keputusan yang

    dihasilkan jika dibandingkan ketika menggunakan metode penghitungan satu tahapyang lebih kon+ensional

  • 8/16/2019 Tanagra Dan c45

    14/16

    '. Dalam analisis multi+arian, dengan kriteria dan kelas yang jumlahnya sangat banyak,

    seorang penguji biasanya perlu mengestimasikan baik itu distribusi dimensi tinggi

    ataupun parameter tertentu dari distribusi kelas tersebut. Metode pohon keputusan

    dapat menghindari munculnya permasalahan ini dengan menggunakan kriteria yang

     jumlahnya lebih sedikit pada setiap node internal tanpa banyak mengurangi kualitas

    keputusan yang dihasilkan.

    /ekurangan pada pohon keputusan adalah:

    !. Terjadi overlapping  terutama ketika kelas3kelas dan kriteria yang digunakan

     jumlahnya sangat banyak. al tersebut juga dapat menyebabkan meningkatnya waktu

     pengambilan keputusan dan jumlah memori yang diperlukan

    ). engakumulasian jumlah kesalahan dari setiap tingkat dalam sebuah pohon keputusan

    yang besar 

    &. /esulitan dalam mendesain pohon keputusan yang optimal

    '. asil kualitas keputusan yang didapatkan dari metode pohon keputusan sangat

    tergantung pada bagaimana pohon tersebut didesain.

    ohon keputusan adalah model prediksi menggunakan struktur pohon atau struktur

     berhirarki. "ontoh dari pohon keputusan dapat dilihat pada 9ambar berikut :

    9ambar Model ohon /eputusan 2ramudiono,)@@>$

    Setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohonmenyatakan kelas data. "ontoh pada 9ambar diatas adalah identifikasi pembeli komputer.

    Dari pohon keputusan tersebut diketahui bahwa salah satu kelompok yang potensial membeli

    komputer adalah orang yang berusia di bawah &@ tahun dan juga pelajar. Setelah sebuah

     pohon keputusan dibangun maka dapat digunakan untuk mengklasifikasikan record yang

     belum ada kelasnya. Dimulai dari node root , menggunakan tes terhadap atribut

    dari record yang belum ada kelasnya ini lalu mengikuti cabang yang sesuai dengan hasil dari

    tes tersebut, yang akan membawa kepada internal node 2node yang memiliki satu cabang

    masuk dan dua atau lebih cabang yang keluar$, dengan cara harus melakukan tes lagi

    terhadap atribut atau node leaf . Record yang kelasnya tidak diketahui kemudian diberikan

    kelas yang sesuai dengan kelas yang ada pada node leaf . ada pohon keputusan setiap simpul

    leaf  menandai label kelas. roses dalam pohon keputusan yaitu mengubah bentuk data 2tabel$menjadi model pohon 2tree$ kemudian mengubah model pohon tersebut menjadi aturan 2rule$

    27 # Cuinlan, !AA&$.

    Salah satu algoritma induksi pohon keputusan yaitu %D& 2 Iterative Dichotomiser  &$. %D&

    dikembangkan oleh 7. #oss Cuinlan. Dalam prosedur algoritma %D&, input berupa sampel

    training, label training dan atribut. *lgoritma Decision Tree "'.( merupakan pengembangan

    dari %D&. Sedangkan pada perangkat lunak open source 4-/* mempunyai +ersi sendiri dari

    "'.( yang dikenal sebagai 7'>.

    Berikut ini adalah dasar algoritma "'.( untuk proses pembentukan decision tree 2an dan

    /hamber, )@@!$ :

  • 8/16/2019 Tanagra Dan c45

    15/16

    %nput : Training  samples, Atribute

    5utput : Decision tree

    enerate!de"ision!tree  2Training samples, *tribute$ EE decision tree function

    Method :

    2!$ "reate node 8F

    2)$ #f samples are all of the same class " then

    2&$ $eturn 8 as a leaf node labeled with the class "F

    2'$ if  atribute3list is empty then

    2($ $eturn 8 as a leaf node labeled with the most common class in samplesF EE

    majority +oting

    2;$ else

    2=$ select test3atribute, atribute among atribute3list with the highest information gainF

    2>$ label node 8 with test3atributeF

    2A$ for each known +alue ai of test3atribute EE partition the samples

    2!@$ grow a branch from node 8 for the condition test3atribute ? aiF

    2!!$ let si be the set of samples in samples for which test3atribute ? aiF EE a partition

    2!)$ if  si is empty then

    2!&$ attach a leaf labeled with the most common class in samplesF

      else attach the node returned by enerate!de"ision!tree2si, atribute3list3test3atribute$F

    9ambar *lgoritma Decision Tree "'.( 2an dan /hamber, )@@!$

    Secara umum algoritma Decision Tree "'.( untuk membangun pohon keputusan adalah

    sebagai berikut 2/usrini, )@@A$ :

    !. ilih atribut sebagai root 

    ). Buat cabang untuk masing3masing nilai

    &. Bagi atribut terpilih dalam cabang

  • 8/16/2019 Tanagra Dan c45

    16/16

    '. langi proses untuk masing3masing cabang sampai semua atribut terpilih pada cabang

    memiliki kelas yang sama.

    ntuk menghitung gain diberikan rumus sebagai berikut:

    Dimana

    S ? himpunan kasus

    * ? *tribut

    n ? jumlah partisi

    GSiG ? jumlah kasus pada partisi ke3i

    GSG ? jumlah kasus dalam S

    Sedangkan untuk perhitungan nilai entropi adalah sebagai berikut:

    Dimana,

    S ? himpunan kasus

    n ? jumlah pastisi S

     pi ? proposi dari Si terhadap S

    sumber : Sisca Huliharyani,S.komF *lgoritma D ecision Tree "'.( ntuk /lasifikasi /eluarga

    eserta 7amkesmas Berdasarkan /emiskinanF )@!!

    3 See more at: http:EEblogs.itb.ac.idEaicewareE)@!)E@AE)&Ealgoritma3decision3tree3c'3

    (EIsthash.mk