Tugas KMS (Data Mining)

Tien Kumalasari G651100211

Resume Tugas Manajemen Pengetahuan

MANAJEMEN PENGETAHUAN, DATA MINING, DAN TEXT MINING DALAM INFORMATIKA MEDIS

Hsinchun Chen, Sherrilynne S. Fuller, Carol Friedman, dan William Hersh

1. Pendahuluan

Paper ini secara umum membahas teknik-teknik knowledge management (manajemen

pengetahuan), data mining (penambangan data), dan text mining (penambangan teks) pilihan

dan penggunaannya dalam berbagai aplikasi biomedis yang ada. terdapat lima paradigma

utama dalam pembelajaran mesin dan analisis data yaitu : 1. model-model probabilistik dan

statistik 2. pembelajaran simbol dan induksi rule 3. jaringan saraf tiruan 4. Algoritma berbasis

evolusi 5. pembelajaran analitis serta logika fuzzy. Relevansi dan potensinya untuk penelitian

biomedis. Contoh penelitian manajemen pengetahuan, data mining, dan text mining yang

relevan, mencakup: ontologi; manajemen pengetahuan untuk perawatan kesehatan, literatur

biomedis, basis data heterogen, visualisasi informasi, basis data multimedia, data text mining

untuk perawatan, literatur kesehatan, dan data biologis.

Para peneliti dan praktisi biomedis sekarang menghadapi masalah (informasi yang

berlimpah dan belum terorganisir). Teknik komputasi dan teknologi informasi baru dibutuhkan

untuk memanaj repositori besar data biomedis ini dan untuk melakukan discover pola dan

pengetahuan yang bermanfaat darinya Data ini harus diorganisir dan dianalisis secara efektif

agar bermanfaat.

berbagai aplikasi biomedis yang sukses di tahun baru-baru ini. Teknik dan metodologi

knowledge management telah digunakan untuk mendukung storing (penyimpanan), retrieving

(penemuan kembali), sharing (berbagi), dan manajemen multimedia serta pengetahuan

biomedis eksplisit dan tacit yang bermisi penting. Teknik data mining telah digunakan untuk

melakukan discover (penemuan) pengetahuan biologis, drug discovery, dan perawatan pasien

serta pola yang menggunakan metode analisis statistik, pembelajaran mesin (macine

learning), dan jaringan saraf tiruan pilihan. Teknik text mining telah digunakan untuk

menganalisis publikasi penelitian seperti data pasien elektronik. Entitas-entitas biomedis

seperti nama-nama obat, protein, gen, dan penyakit dapat diekstrak

Halaman 1


secara otomatis dari dokumen-dokumen yang sudah dipublikasikan dan digunakan

untuk mengkonstruksi gen pathway atau menyediakan pemetaan ke dalam ontologi medis

yang ada.

Pada paper knowledge management, data mining, dan text mining ini akan dibahas

dengan menggunakan teknik-teknik dalam aplikasi-aplikasi biomedis .

2. Knowledge Management, Data mining, dan Text mining

Berikut sedikit gambaran umum tentang teknik-teknik knowledge management, data

mining, dan text mining telah banyak digunakan di berbagai aplikasi penting dalam domain

bisnis dan ilmiah.

Manajemen pengetahuan adalah pendekatan sistem dan manajerial untuk

pengumpulan, manajemen, penggunaan, analisis, berbagi, dan knowledge discovery dalam

organisasi atau komunitas untuk memaksimalkan performa (Chen, 2001). Walaupun definisi

universal apa pengetahuan itu, pada umumnya sepakat adanya kesatuan data, informasi, dan

pengetahuan.

Data mining sering digunakan selama proses knowledge discovery dan merupakan

salah satu dari sub bidang yang sangat penting dalam manajemen pengetahuan. Data mining

bertujuan untuk menganalisis sekelompok data atau informasi yang ada untuk

mengidentifikasi pola-pola baru dan sangat bermanfaat. (Fayyad, dkk., 1996). Teknik-teknik

ini, seperti Bayesian model, pohon keputusan, jaringan saraf tiruan, associate rule mining, dan

algoritma genetika. Data mining telah digunakan dalam banyak aplikasi seperti pemasaran,

manajemen relasi pelanggan, engineering, obat, analisis kesalahan, prediksi pakar, web

mining, dan mobile computing, dan sebagainya.

Text mining bertujuan untuk mengekstrak pengetahuan yang berguna dari data atau

dokumen tekstual (Hearst, 1999; Chen, 2001). Walaupun text mining sering dianggap sebagai

sub bidang dari data mining, banyak teknik text mining berasal dari disiplin-disiplin lain, seperti

information retrieval, visualisasi informasi, komputasional, dan ilmu informasi. Contoh aplikasi

text mining mencakup klasifikasi dokumen, clustering dokumen, ekstraksi entitas, ekstraksi

informasi, dan sumarisasi.

2.1 Paradigma Pembelajaran Mesin dan Analisis Data

Banyak pengetahuan berbasis manajemen pengetahuan telah dibangun untuk

berbagai aplikasi seperti diagnosis medis, engineering troubleshooting, dan sebagian besar Halaman 2


sistem ini telah didesain untuk memperoleh pengetahuan secara manual dari para pakar

(manusia), yang bisa membutuhkan sangat banyak waktu dan proses yang panjang. Untuk

mengatasi masalah ini, algoritma-algoritma pembelajaran mesin telah dikembangkan untuk

memperoleh pengetahuan secara otomatis dari contoh-contoh atau sumber data. Simon

(1983) mendefinisikan pembelajaran mesin sebagai semua proses yang sistemnya

memperbaiki performa sendiri. Mitchell (1997) memberikan definisi serupa, yang menganggap

pembelajaran mesin menjadi “studi algoritma komputer yang meningkat kualitasnya secara

otomatis melalui pengalaman.” Walaupun istilah “pembelajaran mesin” telah banyak diadopsi

dalam komunitas ilmu komputer, dalam konteks informatika medis, “analisis data” lebih umum

digunakan untuk merepresentasikan “studi algoritma komputer yang meningkat kualitasnya

secara otomatis melalui analisis data.” Analisis data statistik telah lama diadopsi dalam

penelitian biomedis.

Berikut review penelitian di masing-masing bidang ini dan membahas aplikabilitasnya

dalam biomedicine.

2.1.1 Model-Model Probabilistik dan Statistik

Salah satu model probabilistik yang lebih maju dan populer dalam biomedis adalah

Bayesian model, metode ini sering digunakan untuk mengklasifikasikan objek yang berbeda

ke dalam kelas-kelas yang sudah dikenal (predefined classes) berdasarkan sekelompok fitur.

Bayesian model menyimpan probabilitas tiap kelas, probabilitas tiap fitur, dan probabilitas tiap

fitur yang ada di masing-masing kelas, berdasarkan training data. Ketika hal baru ditemukan,

ia dapat diklasifikasikan menurut probabilitas-probabilitas ini (Langley, dkk., 1992).

Teknik pembelajaran mesin yang mengalami peningkatan pengenalan dan

popularitas pada tahun-tahun ini adalah support vector machines (SVMs). SVM berbasis teori

pembelajaran statistik yang mencoba untuk menemukan hyperplane untuk memisahkan dua

atau multiple kelas yang terbaik (Vapnik, 1998). Model pembelajaran statistik ini telah

diaplikasikan dalam aplikasi yang berbeda dan hasil sudah memberikan harapan. Contohnya,

tampak bahwa SVM telah mencapai performa terbaik di antara beberapa metode

pembelajaran dalam klasifikasi dokumen (Joachims, 1998; Yang dan Liu, 1999). SVM juga

sesuai untuk berbagai masalah klasifikasi biomedis, seperti disease state classification

berbasis variabel-variabel genetik atau diagnosis medis berbasis indikator-indikator pasien.

2.1.2 Pembelajaran Simbolis dan Induksi Rule

Halaman 3


Pembelajaran simbolis (symbolic learning) dapat diklasifikasikan menurut strategi

pembelajaran dasar seperti rote learning (belajar dengan menghapal), learning by being told

(belajar dengan mendengar), learning by analogy (belajar dengan analogi), learning from

examples (belajar dengan contoh), dan learning from discovery(belajar dengan menemukan)

(Cohen dan Feigenbaum, 1982; Carbonell, dkk., 1983). Di antaranya, learning from examples

muncul menjadi pendekatan pembelajaran simbolis yang sangat menjanjikan untuk

knowledge discovery dan data mining. Ia diimplementasikan dengan mengaplikasikan

algoritma yang berusaha mendukung deskripsi konsep umum yang terbaik untuk

mendeskripsikan kelas-kelas contoh training yang berbeda.

Walaupun tidak sehebat SVM atau jaringan saraf (istilahnya akurasi klasifikasi),

teknik-teknik pembelajaran simbolis itu efisien secara komputasional dan hasilnya mudah

diinterpretasikan. Untuk banyak aplikasi biomedis, kemampuan untuk menginterpretasikan

hasil-hasil data mining dalam cara yang dapat dipahami pasien, dokter, dan ahli biologi itu

tidak terhingga nilainya.

2.1.3 Jaringan Saraf

Jaringan saraf tiruan berusaha untuk mencapai performa seperti manusia dengan

memodelkan sistem emosi manusia. Jaringan saraf merupakan graf banyak node aktif

(neuron) yang saling terkoneksi dengan link berbobot besar (synapses). Ketika pengetahuan

direpresentasikan dengan deskripsi simbolis misalnya pohon keputusan dan rule produksi

dalam pembelajaran simbolis, pengetahuah dipelajari dan diingat dengan jaringan saraf yang

saling terkoneksi, wighted synapses, dan unit-unit logika threshold (Rumelhart, dkk., 1986a;

Lippmann, 1987).

Banyak jenis jaringan saraf yang berbeda telah dikembangkan, di antaranya

feedforward/backpropagation model sangat sering digunakan. Jaringan backpropagation

secara penuh terkoneksi, layer, feed-forward networks di mana aktivasi mengalir dari input

layer melalui hidden layer kemudian ke output layer (Rumelhart, dkk., 1986b).

2.1.4 Algoritma Berbasis Evolusi

Algoritma berbasis evolusi mengandalkan analogi-analogi untuk proses-proses alami

dan Darwinian survival of the fittest. Fogel (1994) mengidentifikasi tiga kategori algoritma

berbasis evolusi: algoritma genetik, strategi evolusi, dan pemrograman evolusioner. Di

antaranya, algoritma genetik itu sangat populer dan telah sukses diaplikasikan untuk berbagai

masalah optimisasi. Algoritma genetik telah dikembangkan berdasarkan prinsip genetika Halaman 4


(Holland, 1975; Goldberg, 1989; Michalewicz, 1992). Dalam penelitian informatika medis,

algoritma genetik di antara teknik-teknik yang sangat bagus untuk masalah seleksi fitur

(contoh, mengidentifikasi subset gen.

2.1.5 Pembelajaran Analitis dan Logika Fuzzy

Pembelajaran analitis merepresentasikan pengetahuan sebagai rule logis dan

melakukan reasoning pada rule-rule seperti itu untuk mencari pembuktian. Bukti dapat

mengalami compile ke dalam rule-rule yang lebih kompleks untuk mengatasi masalah-

masalah serupa dengan sejumlah pencarian lebih kecil yang dibutuhkan, sedangkan sistem

pembelajaran analitis tradisional tergantung pada hard computing rules, biasanya tidak ada

perbedaan yang jelas di antara nilai dan kelas dalam dunia nyata. Untuk mengatasi masalah

ini, fuzzy system membolehkan nilai False atau True untuk beroperasi di atas range bilangan

riil dari 0 sampai 1 (Zedah, 1965).

2.1.6 Pendekatan Hybrid

Sebagaimana Langley dan Simon (1995) telah tunjukkan, alasan-alasan untuk

membedakan paradigma-paradigma itu “lebih historis daripada ilmiah.” Batasan di antara

paradigma yang berbeda itu biasanya tidak jelas dan banyak sistem telah dibangun untuk

mengkombinasikan pendekatan yang berbeda tersebut. Contohnya, logika fuzzy telah

diaplikasikan ke induksi rule dan algoritma genetic.

2.2 Metodologi Evaluasi

Akurasi sistem pembelajaran harus dievaluasi sebelum dapat dimanfaatkan.

Ketersedian data yang terbatas sering membuat akurasi estimasi tugas yang sulit (Kohavi,

1995). Memilih metodologi evaluasi bagus itu sangat penting untuk perkembangan sistem

pembelajaran mesin.

Ada beberapa metode populer yang digunakan untuk evaluasi seperti ini, termasuk

holdout sampling, cross validation, leave-one-out, dan bootstrap sampling (Stone, 1974; Efron

dan Tibshirani, 1993). Dalam metode holdout, data dibagi ke dalam training set dan testing

set. Biasanya 2/3 data ditetapkan untuk training set dan 1/3 untuk testing set.

Dalam cross-validation, data set secara acak dibagi ke dalam sejumlah subset ukuran

yang secara kasar sama. Ten-fold cross validation, di mana data set dibagi ke dalam 10

subset, sangat umum digunakan. Sistem ini mengalami training dan testing untuk 10 iterasi.

Di tiap iterasi, 9 subset data digunakan sebagai training data dan remaining set digunakan Halaman 5


sebagai testing data. Dalam rotasi, tiap subset data berperan sebagai testing set hanya dalam

satu iterasi. Akurasi sistem merupakan akurasi rata-rata di atas 10 iterasi. Leave-one-out

merupakan kasus ekstrim dari cross-validation, di mana data aslinya dibagi (split) ke dalam n

subset, di mana n merupakan ukuran data asli.

Dalam metode bootstrap, n sampel acak independen diambil dari data set asli

berukuran n. Karena sampel-sampel ini dilakukan dengan penggantian, maka sejumlah

contoh unik akan lebih kecil dari n.

Masing-masing metode ini memiliki keunggulan dan kelemahan. Beberapa kajian

telah membandingkan dalam masa akurasinya. Hold-out sampling adalah yang paling awal

diimplementasikan, tapi masalah utamanya adalah bahwa training set dan testing set itu tidak

independen. Metode ini juga tidak membuat efisien penggunaan data sejak 1/3 data tidak

digunakan untuk melakukan training sistem (Kohavi, 1995). Leave-one-out menyediakan

estimasi yang sangat tidak memihak, dan secara komputasional mahal serta estimasinya

sangat berbeda, terutama untuk data set kecil (Efron, 1983; Jain, dkk., 1987).

Konsekuensi pasien dan medis penting diasosiasikan dengan banyak aplikasi data

mining biomedis dan validasi detil, kualitatif dari hasil data mining atau text mining harus

dibangun dengan bantuan domain experts (contoh, dokter dan ahli biologi), sehingga ini pada

umumnya membutuhkan banyak waktu dan proses yang membutuhkan anggaran mahal.

3. Apliksi Knowledge Management, Data Mining, Dan Text Mining Dalam Biomedis

Teknik-teknik knowledge management, data mining, dan text mining telah

diaplikasikan untuk bidang biomedicine yang berbeda, berkisar dari manajemen data pasien

ke diagnosis klinis, dari pembuatan hipotesis ke gen clustering, dan dari deteksi sinyal ke

prediksi struktur protein. Pembahasan yang lebih singkat dan tentang teknik dan aplikasi

knowledge management, data mining, dan text mining pilihan dalam biomedicine di bahas

berikutnya .

3.1 Ontologi

Ontologi adalah spesifikasi konseptualisasi. Ia mendeskripsikan konsep-konsep dan

relasi-relasi yang bisa eksis dan memformulasi terminologi dalam sebuah domain (Gruninger

dan Lee, 2002). Ontologi sering digunakan untuk memfasilitasi berbagi pengetahuan antar

manusia, pengolahan informasi, data mining, komunikasi antar software, atau aplikasi

pengolahan pengetahuan lain. Banyak ontologi telah dikembangkan dalam bidang biomedis.

Halaman 6


Unified Medical Language System (UMLS) menawarkan tiga sumber pengetahuan:1.

Metathesaurus 2. Semantic Network 3. Specialist Lexicon. Metathesaurus merupakan multi

bahasa yang dikontrol basis data kosakata untuk biomedicine yang membolehkan user untuk

mempetakan nama-nama dan istilah-istilah tekstual biomedis menjadi berbagai konsep, atau

mengidentifikasi sekumpulan istilah berbeda yang diasosiasikan dengan konsep tunggal.

Semantic Network menetapkan kategorisasi konsep dalam Metathesaurus dan relasi antar

konsep. Specialist Lexicon, didesain untuk memfasilitasi pengolahan bahasa alami untuk teks

biomedis, merupakan kamus yang memuat definisi-definisi sintaksis untuk istilah-istilah

biomedis dan istilah-istilah bahasa Inggris umum.

3.2 Manajemen Pengetahuan

Teknik-teknik kecerdasan buatan telah digunakan dalam manajemen pengetahuan

dalam biomedicine di awal 1970, ketika program MYCIN telah dikembangkan untuk

mendukung konsultasi dan pembuataan keputusan (Shortliffe, 1976). Di MYCIN, pengetahuan

diperoleh dari para pakar telah direpresentasikan sebagai sekumpulan rule produksi IF-THEN.

Sistem jenis ini kemudian akan dikenal sebagai sistem pakar dan menjadi sangat populer di

tahun 1980. Sistem pakar tergantung pada pengetahuan pakar yang dibangun ke dalamnya,

yang telah menghabiskan waktu dan proses yang panjang.

Performa MYCIN telah memberi harapan dan membantu para pakar (manusia) dalam

berbagai kasus (Yu, dkk., 1979). MYCIN pada komputer yang dapat menghasilkan respon-

respon cepat (Shortliffe, 1987). Karena itu, dengan performa yang baik dan cost lebih rendah

dari komputer modern dan sistem berbasis pengetahuan medis, kami percaya terdapat

kesempatan besar untuk mengadopsi sistem manajemen pengetahuan dan teknologi pilihan

dalam konteks biomedis, terutama sekali, tidak seperti penggantian manusia (yakni, sistem

pakar) tapi sebagai pembantu pembuatan keputusan biomedis.

3.2.1 Manajemen Pengetahuan dalam Perawatan Kesehatan

Pada umumnya telah dikenal bahwa sistem manajemen data pasien sangat

diinginkan dalam setting klinis (Heathfield dan Louw, 1999; Jackson, 2000; Abidi, 2001).

Teknik-teknik text mining lain juga telah diaplikasikan pada manajemen pengetahuan untuk

perawatan kesehatan .

3.2.2 Manajemen Pengetahuan untuk Literatur Biomedis

Halaman 7


Di samping informasi klinis, manajemen pengetahuan telah diaplikasikan untuk

artikel-artikel literature biomedis dan laporan-laporan penelitian.seperti Sistem HelpfulMed

memungkinkan user mencari dokumen-dokumen biomedis dari beberapa basis data yang

mencakup MEDLINE, CancerLit, PDQ, dan basis data obat berbasis fakta (Chen, dkk., 2003).

Basis data HelpFulMed mencakup halaman web yang terkait dengan perawatan kesehatan

berkualitas tinggi, Sistem ini juga menyediakan term-suggestion tool yang disebut Concept

Mapper.

MARVIN merupakan contoh sistem information retrieval medis yang telah

mengaplikasikan teknik-teknik pembelajaran mesin pilihan (Baujard, dkk., 1998). Dibangun

pada arsitektur multi agen, sistem itu memfilter dokumen-dokumen relevan dari sekumpulan

halaman web dan mengikuti link-link untuk menemukan kembali dokumen-dokumen baru.

Teknik-teknik text mining lain juga telah digunakan untuk memfasilitasi manajemen

dan memahami literatur biomedis. Contohnya, teknik-teknik pengolahan bahasa alami dan

pemfrasean kata benda telah diaplikasikan untuk mengekstrak frase kata benda dari

dokumen-dokumen medis (Tolledan Chen, 2000). kebanyakan yang diuji pada entitas-entitas

umum seperti nama orang, lokasi, organisasi, tanggal, waktu, ekspresi jumlah, dan alamat

email (Chinchor, 1998), ekstraksi entitas bernama telah digunakan untuk mengekstraksi

entitas-entitas biomedis spesifik seperti nama gen, nama protein, penyakit, dan gejala dengan

hasil yang menjanjikan (Fukuda, dkk., 1998; Leroy, dkk., 2003).

3.2.3 Mengakes Basis Data Heterogen

Data biomedis sekarang dihasilkan pada kecepatan yang jauh lebih cepat daripada

para peneliti yang menggunakan metode-metode tradisional (National Research Council,

2000). Banyaknya data genomic dan biomedis telah menghasilkan potensi besar untuk

penelitian dan aplikasi dalam biomedicine, para peneliti dihadapkan dengan tantangan

integrasi informasi dari sumber data heterogen (Barrera, dkk., 2004). Program BLAST banyak

digunakan untuk mencari basis data protein dan DNA untuk kesamaan sequensial (Altschul,

dkk., 1997). Sistem MedBlast, memanfaatkan BLAST untuk menggunakan algoritma-

algoritma otomatis untuk mengidentifikasi konsep-konsep ekuivalen yang ada dalam basis

data berbeda untuk mendukung information retrieval.

3.2.4 Visualiasi Informasi dan Akses Informasi Multimedia

Halaman 8


Visualisasi informasi (dan pengetahuan) untuk informasi biomedis itu penting untuk

memahami dan berbagi pengetahuan. Teknik-teknik visualisasi peningkatan yang cepat

dalam kecepatan komputer dan reduksi cost, visualisasi grafis mendukung tampilan informasi

yang lebih bermanfaat dan mendukung pemahaman user. Maps, trees, dan network

merupakan bagian dari representasi visualisasi informasi yang sangat populer. Bodenreider

dan McCray (2003) mengaplikasikan teknik-teknik analisis radial diagram dan persesuaian

untuk memvisualisasikan kelompok-kelompok semantik dalam jaringan semantik UMLS. Han

dan Byun (2004) menggunakan tampilan tiga dimensi untuk memvisualisasikan jaringan

interaksi protein. Realitas virtual juga telah diaplikasikan dalam jaringan metabolik

(Rojdestvenski, 2003).

Contoh yang sangat terkenal adalah NLM’s Visible Human Project (Ackerman, 1991),

yang memproduksi representasi tiga dimensi dari tubuh manusia laki-laki dan perempuan .

Data itu menyediakan testbed yang baik untuk algoritma gambar medis dan pengolahan

multimedia serta telah diaplikasikan untuk berbagai penggunaan diagnosis, edukasi, dan

penelitian.

Karena algoritma-algoritma pengolahan teks dapat diaplikasikan untuk data

multimedia secara langsung, teknik pengolahan gambar dan pengindeksan sering dibutuhkan

untuk aplikasi-aplikasi biomedis pilihan. Teknik-teknik ini memungkinkan para user untuk

memvisualisasikan, retrieve, dan memanaj data multimedia seperti gambar sinar-X dan CAT-

scan secara lebih efektif dan efisien.

3.3 Data Mining dan Text Mining

Teknik-teknik data mining telah sering digunakan untuk menemukan pola-pola dan

pengetahuan baru dari data biomedis. Sedangkan Bayesian model telah banyak digunakan di

hari-hari pertama, metode pembelajaran mesin yang lebih modern, seperti jaringan saraf

tiruan dan support vector machine, telah diaplikasikan di tahun-tahun ini. Teknik-teknik ini

digunakan dalam berbagai bidang biomedicine yang berbeda, di antaranya mencakup

genomics, proteomics, dan diagnosis medis. Selanjutnya, kami mereview sebagian aplikasi

teknik data mining dan knowledge discovery utama dalam bidang ini.

3.3.1 Data Mining untuk Perawatan Kesehatan

Halaman 9


Teknik-teknik data mining telah banyak digunakan dalam aplikasi diagnostic dan

perawatan kesehatan. Teknik-teknik klasifikasi juga diaplikasikan untuk menganalisis berbagai

sinyal dan relasinya dengan penyakit-penyakit atau gejala tertentu.

Data mining juga digunakan untuk mengekstraksi rule-rule dari data perawatan

kesehatan. Contohnya, ia telah digunakan untuk mengekstraksi rule-rule diagnostik dari data

kanker payudara (Kovalerchuck, dkk., 2001). Aturan yang telah dihasilkan itu mirip dengan

yang dihasilkan secara manual dalam sistem pakar sehingga dapat dengan mudah divalidasi

oleh domain experts.

3.3.2 Data Mining untuk Molecular Biology

Rentetan teknologi baru dan cost komputasi yang rendah telah berhasil dalam

sejumlah besar data biologis yang dapat diakses dengan mudah oleh para peneliti. Data

mining sudah mulai memainkan peran penting dalam masalah ini. Clustering mungkin sangat

sering digunakan oleh teknik data mining untuk data biologis.

Algoritma-algoritma data mining juga telah digunakan untuk prediksi dalam berbagai

aplikasi biomedis yang mencakup prediksi protein backbone angle (Kuang, dkk., 2004),

protein domain (Nagarajan dan Yona, 2004), efek-efek biologis (Krishnan dan Westhead,

2004), dan DNA binding (Ahmad, dkk., 2004). Metode prediktif ini sering berdasarkan pada

algoritma-algoritma klasifikasi (supervised learning) seperti jaringan saraf tiruan atau mesin

vektor pendukung.

3.3.3 Text Mining untuk Literatur dan Catatan Klinik

Text mining telah sering digunakan untuk menganalisis literatur biomedis, dan sering

mencakup dua langkah utama. Pertama, harus mengidentifikasi entitas-entitas biomedis dan

konsep-konsep menarik dari teks bebas yang menggunakan teknik-teknik pengolahan bahasa

alami. Contohnya, jika kita ingin mempelajari relasi antar gen dan penyakit tumor otak, nama-

nama entitas secara tepat diidentifikasi dari dokumen tekstual yang relevan.

Text mining juga telah diaplikasikan untuk data pasien dan dokumen klinik lain untuk

memfasilitasi manajemen pengetahuan. Ia mengadopsi proses yang mirip dengan text mining

dari literatur. Chapman, dkk. (2004) menggunakan pendekatan text mining serupa untuk

Halaman 10


deteksi demam otomatis dari data klinik ke deteksi perjangkitan penyakit yang mungkin

menular.

3.4 Etika dan Isu-Isu Legal untuk Data Mining

Catatan medis dan data biologis yang dihasilkan dari subjek (manusia) memuat

informasi pribadi dan rahasia. Data pasien dan subjek (manusia) harus ditangani dengan

perhatian besar untuk memproteksi privacy dan kerahasiaannya. Para peneliti tidak secara

otomatis mendapatkan haknya untuk menggunakan data pasien atau subjek (orang yang

memiliki data) untuk tujuan data mining jika mereka tidak memperoleh izin pasien atau subjek

(Berman, 2002). Hasil data mining adalah relevansi terhadap kebutuhan pasien atau subjek

untuk diinterpretasikan dalam konteks medis yang benar dan dengan bantuan profesional

biomedis.

Dalam data mining biomedis, dengan data pasien yang sangat kondisional tidak

harus menjadi individually identifiable (dapat diidentifikasi secara individu), yakni, tidak ada

catatan harus menyediakan data yang cukup untuk mengidentifikasi individu yang

berhubungan dengan data itu.

4. Ringkasan

Secara umum dibahas tentang teknik-teknik knowledge management, data mining,

dan text mining serta penggunaannya dalam berbagai aplikasi biomedis yang ada. Telah

banyak digunakan dalam aplikasi-aplikasi biomedis. Data medis sering sensitif dan mencakup

informasi pribadi dan rahasia. Kerahasiaan dan privacy pasien tidak disetujui untuk dikenalkan

terhadap penggunaan teknologi-teknologi knowledge management, data mining, dan text

mining modern. Keberatan lainnya adalah bahwa penemuan yang dihasilkan dari teknik-teknik

pembelajaran mesin pilihan harus diinterpretasikan dengan cermat. Pengetahuan dan pola

yang ditemukan oleh komputer harus divalidasi secara eksperimen dan klinis agar masuk

kategori teliti, seperti semua pengetahuan yang dihasilkan oleh manusia.

Teknik-teknik knowledge management, data mining, dan text mining baru ini sedang

mengubah cara bagaimana pengetahuan baru ditemukan, diorganisir, diaplikasikan, dan

disebarkan. Dengan menambah kecepatan komputer, konektivitas Internet, dan kemajuan

dalam penelitian bidang informatika medis, kami yakin akan terus menghasilkan pengetahuan

biomedis secara efektif dan efisien, memungkinkan kita memahami proses-proses kehidupan

biologis yang kompleks dan lebih mudah untuk mendapatkan data dan informasi tentang

biomedis.Halaman 11


REFERENSI

Abidi, S. S. R. (2001). “Knowledge Management in Healthcare: Towards ‘Knowledgedriven’ Decision-support Services,” International Journal of Medical Informatics, 63, 5-18.

Acir, N. and Guzelis, C. (2004). “Automatic Spike Detection in EEG by a Two-stage Procedure Based on Support Vector Machines,” Computers in Biology and Medicine, 34(7), 561-575.

Ackerman, M. J. (1991). “The Visible Human Project,” Journal of Biocommunication, 18(2), 14.

Ahmad, S., Gromiha, M. M., and Sarai, A. (2004). “Analysis and Prediction of DNA-binding Proteins and Their Binding Residues Based on Composition, Sequence, and Structural Information,” Bioinformatics, 20(4), 477-486.

Altschul, S. F., Madden, T. L., Schaffer, A. A., Zhang, J., Zhang, Z., Miller, W., and Lipman, D. J. (1997). “Gapped BLAST and PSI-BLAST: A New Generation of Protein Database Search Programs,” Nucleic Acids Research, 25(17), 3389-3402.

Antani, S., Lee, D. J., Long, L. R., and Thoma, G. R. (2004). “Evaluation of Shape Similarity Measurement Methods for Spine X-ray Images,” Journal of Visual Communication and Image Representation, 15, 285-302.

Baclawski, K., Cigna, J., Kokar, M. W., Mager, P., and Indurkhya, B. (2000). “Knowledge Representation and Indexing Using the Unified Medical Language System,” in Proceedings of the Pacific Symposium on Biocomputing, 493-504.

Barrera, J., Cesar-Jr, R. M., Ferreira, J. E., and Gubitoso, M. D. (2004). “An Environment for Knowledge Discovery in Biology,” Computers in Biology and Medicine, 34, 427-447.

Baujard, O., Baujard, V., Aurel, S., Boyer, C., and Appel, R. D. (1998). “Trends in Medical Information Retrieval on the Internet,” Computers in Biology and Medicine, 28, 589-601.

Belacel, B., Cuperlovic-Culf, M., Laflamme, M., and Ouellette, R. (2004). “Fuzzy J-Means and VNS Methods for Clustering Genes from Microarray Data,” Bioinformatics, 20(11), 1690-1701.

Belew, R. K. (1989). “Adaptive Information Retrieval: Using a Connectionist representation to Retrieve and Learn about Documents,” in Proceedings of the 12th ACM-SIGIR Conference, Cambridge, MA, June 1989.

Berman, J. J. (2002). “Confidentiality Issues for Medical Data Miners,” Artificial Intelligencein Medicine, 26(1-2), 25-36.

Halaman 12


Blaschke, C., Andrade, M. A., Ouzounis, C. and Valencia, A. (1999). “Automatic Extraction of Biological Information from Scientific Text: Protein-Protein Interactions,” in Proceedings of the International Conference on Intelligent Systems for Molecular Biology, 60-67.

Bodenreider, O. and McCray, A. T. (2003). “Exploring Semantic Groups through Visual Approaches,” Journal of Biomedical Informatics, 36, 414-432.

Breiman, L. and Spector, P. (1992). “Submodel Selection and Evaluation in Regression: The X-random Case,” International Statistical Review, 60(3), 291-319.

Brown, M. P. S., Grundy, W. N., Lin, D., Cristianini, N., Sugnet, C. W., Furey, T. S., Ares,M., and Haussler, D. (2000). “Knowledge-based Analysis of Microarray Gene Expression Data by Using Support Vector Machines,” in Proceedings of the National Academy of Sciences, 97, 262-267.

Campbell, K. E., Oliver, D. E., and Shortliffe, E. H. (1998). “The Unified Medical Language System: Toward a Collaborative Approach for Solving Terminologic Problems,” Journal of the American Medical Informatics Association, 5(1), 12-16.

Carbonell, J. G. Michalski, R. S., Mitchell, T. M. (1983). “An Overview of Machine Learning,” in R. S. Michalski, J. G.

Halaman 13

Tugas KMS (Data Mining)

Documents

Transcript of Tugas KMS (Data Mining)