Tugas KMS (Data Mining)
-
Upload
agussalim-matti -
Category
Documents
-
view
365 -
download
12
Transcript of Tugas KMS (Data Mining)
Tien Kumalasari G651100211
Resume Tugas Manajemen Pengetahuan
MANAJEMEN PENGETAHUAN, DATA MINING, DAN TEXT MINING DALAM INFORMATIKA MEDIS
Hsinchun Chen, Sherrilynne S. Fuller, Carol Friedman, dan William Hersh
1. Pendahuluan
Paper ini secara umum membahas teknik-teknik knowledge management (manajemen
pengetahuan), data mining (penambangan data), dan text mining (penambangan teks) pilihan
dan penggunaannya dalam berbagai aplikasi biomedis yang ada. terdapat lima paradigma
utama dalam pembelajaran mesin dan analisis data yaitu : 1. model-model probabilistik dan
statistik 2. pembelajaran simbol dan induksi rule 3. jaringan saraf tiruan 4. Algoritma berbasis
evolusi 5. pembelajaran analitis serta logika fuzzy. Relevansi dan potensinya untuk penelitian
biomedis. Contoh penelitian manajemen pengetahuan, data mining, dan text mining yang
relevan, mencakup: ontologi; manajemen pengetahuan untuk perawatan kesehatan, literatur
biomedis, basis data heterogen, visualisasi informasi, basis data multimedia, data text mining
untuk perawatan, literatur kesehatan, dan data biologis.
Para peneliti dan praktisi biomedis sekarang menghadapi masalah (informasi yang
berlimpah dan belum terorganisir). Teknik komputasi dan teknologi informasi baru dibutuhkan
untuk memanaj repositori besar data biomedis ini dan untuk melakukan discover pola dan
pengetahuan yang bermanfaat darinya Data ini harus diorganisir dan dianalisis secara efektif
agar bermanfaat.
berbagai aplikasi biomedis yang sukses di tahun baru-baru ini. Teknik dan metodologi
knowledge management telah digunakan untuk mendukung storing (penyimpanan), retrieving
(penemuan kembali), sharing (berbagi), dan manajemen multimedia serta pengetahuan
biomedis eksplisit dan tacit yang bermisi penting. Teknik data mining telah digunakan untuk
melakukan discover (penemuan) pengetahuan biologis, drug discovery, dan perawatan pasien
serta pola yang menggunakan metode analisis statistik, pembelajaran mesin (macine
learning), dan jaringan saraf tiruan pilihan. Teknik text mining telah digunakan untuk
menganalisis publikasi penelitian seperti data pasien elektronik. Entitas-entitas biomedis
seperti nama-nama obat, protein, gen, dan penyakit dapat diekstrak
Halaman 1
Tien Kumalasari G651100211
secara otomatis dari dokumen-dokumen yang sudah dipublikasikan dan digunakan
untuk mengkonstruksi gen pathway atau menyediakan pemetaan ke dalam ontologi medis
yang ada.
Pada paper knowledge management, data mining, dan text mining ini akan dibahas
dengan menggunakan teknik-teknik dalam aplikasi-aplikasi biomedis .
2. Knowledge Management, Data mining, dan Text mining
Berikut sedikit gambaran umum tentang teknik-teknik knowledge management, data
mining, dan text mining telah banyak digunakan di berbagai aplikasi penting dalam domain
bisnis dan ilmiah.
Manajemen pengetahuan adalah pendekatan sistem dan manajerial untuk
pengumpulan, manajemen, penggunaan, analisis, berbagi, dan knowledge discovery dalam
organisasi atau komunitas untuk memaksimalkan performa (Chen, 2001). Walaupun definisi
universal apa pengetahuan itu, pada umumnya sepakat adanya kesatuan data, informasi, dan
pengetahuan.
Data mining sering digunakan selama proses knowledge discovery dan merupakan
salah satu dari sub bidang yang sangat penting dalam manajemen pengetahuan. Data mining
bertujuan untuk menganalisis sekelompok data atau informasi yang ada untuk
mengidentifikasi pola-pola baru dan sangat bermanfaat. (Fayyad, dkk., 1996). Teknik-teknik
ini, seperti Bayesian model, pohon keputusan, jaringan saraf tiruan, associate rule mining, dan
algoritma genetika. Data mining telah digunakan dalam banyak aplikasi seperti pemasaran,
manajemen relasi pelanggan, engineering, obat, analisis kesalahan, prediksi pakar, web
mining, dan mobile computing, dan sebagainya.
Text mining bertujuan untuk mengekstrak pengetahuan yang berguna dari data atau
dokumen tekstual (Hearst, 1999; Chen, 2001). Walaupun text mining sering dianggap sebagai
sub bidang dari data mining, banyak teknik text mining berasal dari disiplin-disiplin lain, seperti
information retrieval, visualisasi informasi, komputasional, dan ilmu informasi. Contoh aplikasi
text mining mencakup klasifikasi dokumen, clustering dokumen, ekstraksi entitas, ekstraksi
informasi, dan sumarisasi.
2.1 Paradigma Pembelajaran Mesin dan Analisis Data
Banyak pengetahuan berbasis manajemen pengetahuan telah dibangun untuk
berbagai aplikasi seperti diagnosis medis, engineering troubleshooting, dan sebagian besar Halaman 2
Tien Kumalasari G651100211
sistem ini telah didesain untuk memperoleh pengetahuan secara manual dari para pakar
(manusia), yang bisa membutuhkan sangat banyak waktu dan proses yang panjang. Untuk
mengatasi masalah ini, algoritma-algoritma pembelajaran mesin telah dikembangkan untuk
memperoleh pengetahuan secara otomatis dari contoh-contoh atau sumber data. Simon
(1983) mendefinisikan pembelajaran mesin sebagai semua proses yang sistemnya
memperbaiki performa sendiri. Mitchell (1997) memberikan definisi serupa, yang menganggap
pembelajaran mesin menjadi “studi algoritma komputer yang meningkat kualitasnya secara
otomatis melalui pengalaman.” Walaupun istilah “pembelajaran mesin” telah banyak diadopsi
dalam komunitas ilmu komputer, dalam konteks informatika medis, “analisis data” lebih umum
digunakan untuk merepresentasikan “studi algoritma komputer yang meningkat kualitasnya
secara otomatis melalui analisis data.” Analisis data statistik telah lama diadopsi dalam
penelitian biomedis.
Berikut review penelitian di masing-masing bidang ini dan membahas aplikabilitasnya
dalam biomedicine.
2.1.1 Model-Model Probabilistik dan Statistik
Salah satu model probabilistik yang lebih maju dan populer dalam biomedis adalah
Bayesian model, metode ini sering digunakan untuk mengklasifikasikan objek yang berbeda
ke dalam kelas-kelas yang sudah dikenal (predefined classes) berdasarkan sekelompok fitur.
Bayesian model menyimpan probabilitas tiap kelas, probabilitas tiap fitur, dan probabilitas tiap
fitur yang ada di masing-masing kelas, berdasarkan training data. Ketika hal baru ditemukan,
ia dapat diklasifikasikan menurut probabilitas-probabilitas ini (Langley, dkk., 1992).
Teknik pembelajaran mesin yang mengalami peningkatan pengenalan dan
popularitas pada tahun-tahun ini adalah support vector machines (SVMs). SVM berbasis teori
pembelajaran statistik yang mencoba untuk menemukan hyperplane untuk memisahkan dua
atau multiple kelas yang terbaik (Vapnik, 1998). Model pembelajaran statistik ini telah
diaplikasikan dalam aplikasi yang berbeda dan hasil sudah memberikan harapan. Contohnya,
tampak bahwa SVM telah mencapai performa terbaik di antara beberapa metode
pembelajaran dalam klasifikasi dokumen (Joachims, 1998; Yang dan Liu, 1999). SVM juga
sesuai untuk berbagai masalah klasifikasi biomedis, seperti disease state classification
berbasis variabel-variabel genetik atau diagnosis medis berbasis indikator-indikator pasien.
2.1.2 Pembelajaran Simbolis dan Induksi Rule
Halaman 3
Tien Kumalasari G651100211
Pembelajaran simbolis (symbolic learning) dapat diklasifikasikan menurut strategi
pembelajaran dasar seperti rote learning (belajar dengan menghapal), learning by being told
(belajar dengan mendengar), learning by analogy (belajar dengan analogi), learning from
examples (belajar dengan contoh), dan learning from discovery(belajar dengan menemukan)
(Cohen dan Feigenbaum, 1982; Carbonell, dkk., 1983). Di antaranya, learning from examples
muncul menjadi pendekatan pembelajaran simbolis yang sangat menjanjikan untuk
knowledge discovery dan data mining. Ia diimplementasikan dengan mengaplikasikan
algoritma yang berusaha mendukung deskripsi konsep umum yang terbaik untuk
mendeskripsikan kelas-kelas contoh training yang berbeda.
Walaupun tidak sehebat SVM atau jaringan saraf (istilahnya akurasi klasifikasi),
teknik-teknik pembelajaran simbolis itu efisien secara komputasional dan hasilnya mudah
diinterpretasikan. Untuk banyak aplikasi biomedis, kemampuan untuk menginterpretasikan
hasil-hasil data mining dalam cara yang dapat dipahami pasien, dokter, dan ahli biologi itu
tidak terhingga nilainya.
2.1.3 Jaringan Saraf
Jaringan saraf tiruan berusaha untuk mencapai performa seperti manusia dengan
memodelkan sistem emosi manusia. Jaringan saraf merupakan graf banyak node aktif
(neuron) yang saling terkoneksi dengan link berbobot besar (synapses). Ketika pengetahuan
direpresentasikan dengan deskripsi simbolis misalnya pohon keputusan dan rule produksi
dalam pembelajaran simbolis, pengetahuah dipelajari dan diingat dengan jaringan saraf yang
saling terkoneksi, wighted synapses, dan unit-unit logika threshold (Rumelhart, dkk., 1986a;
Lippmann, 1987).
Banyak jenis jaringan saraf yang berbeda telah dikembangkan, di antaranya
feedforward/backpropagation model sangat sering digunakan. Jaringan backpropagation
secara penuh terkoneksi, layer, feed-forward networks di mana aktivasi mengalir dari input
layer melalui hidden layer kemudian ke output layer (Rumelhart, dkk., 1986b).
2.1.4 Algoritma Berbasis Evolusi
Algoritma berbasis evolusi mengandalkan analogi-analogi untuk proses-proses alami
dan Darwinian survival of the fittest. Fogel (1994) mengidentifikasi tiga kategori algoritma
berbasis evolusi: algoritma genetik, strategi evolusi, dan pemrograman evolusioner. Di
antaranya, algoritma genetik itu sangat populer dan telah sukses diaplikasikan untuk berbagai
masalah optimisasi. Algoritma genetik telah dikembangkan berdasarkan prinsip genetika Halaman 4
Tien Kumalasari G651100211
(Holland, 1975; Goldberg, 1989; Michalewicz, 1992). Dalam penelitian informatika medis,
algoritma genetik di antara teknik-teknik yang sangat bagus untuk masalah seleksi fitur
(contoh, mengidentifikasi subset gen.
2.1.5 Pembelajaran Analitis dan Logika Fuzzy
Pembelajaran analitis merepresentasikan pengetahuan sebagai rule logis dan
melakukan reasoning pada rule-rule seperti itu untuk mencari pembuktian. Bukti dapat
mengalami compile ke dalam rule-rule yang lebih kompleks untuk mengatasi masalah-
masalah serupa dengan sejumlah pencarian lebih kecil yang dibutuhkan, sedangkan sistem
pembelajaran analitis tradisional tergantung pada hard computing rules, biasanya tidak ada
perbedaan yang jelas di antara nilai dan kelas dalam dunia nyata. Untuk mengatasi masalah
ini, fuzzy system membolehkan nilai False atau True untuk beroperasi di atas range bilangan
riil dari 0 sampai 1 (Zedah, 1965).
2.1.6 Pendekatan Hybrid
Sebagaimana Langley dan Simon (1995) telah tunjukkan, alasan-alasan untuk
membedakan paradigma-paradigma itu “lebih historis daripada ilmiah.” Batasan di antara
paradigma yang berbeda itu biasanya tidak jelas dan banyak sistem telah dibangun untuk
mengkombinasikan pendekatan yang berbeda tersebut. Contohnya, logika fuzzy telah
diaplikasikan ke induksi rule dan algoritma genetic.
2.2 Metodologi Evaluasi
Akurasi sistem pembelajaran harus dievaluasi sebelum dapat dimanfaatkan.
Ketersedian data yang terbatas sering membuat akurasi estimasi tugas yang sulit (Kohavi,
1995). Memilih metodologi evaluasi bagus itu sangat penting untuk perkembangan sistem
pembelajaran mesin.
Ada beberapa metode populer yang digunakan untuk evaluasi seperti ini, termasuk
holdout sampling, cross validation, leave-one-out, dan bootstrap sampling (Stone, 1974; Efron
dan Tibshirani, 1993). Dalam metode holdout, data dibagi ke dalam training set dan testing
set. Biasanya 2/3 data ditetapkan untuk training set dan 1/3 untuk testing set.
Dalam cross-validation, data set secara acak dibagi ke dalam sejumlah subset ukuran
yang secara kasar sama. Ten-fold cross validation, di mana data set dibagi ke dalam 10
subset, sangat umum digunakan. Sistem ini mengalami training dan testing untuk 10 iterasi.
Di tiap iterasi, 9 subset data digunakan sebagai training data dan remaining set digunakan Halaman 5
Tien Kumalasari G651100211
sebagai testing data. Dalam rotasi, tiap subset data berperan sebagai testing set hanya dalam
satu iterasi. Akurasi sistem merupakan akurasi rata-rata di atas 10 iterasi. Leave-one-out
merupakan kasus ekstrim dari cross-validation, di mana data aslinya dibagi (split) ke dalam n
subset, di mana n merupakan ukuran data asli.
Dalam metode bootstrap, n sampel acak independen diambil dari data set asli
berukuran n. Karena sampel-sampel ini dilakukan dengan penggantian, maka sejumlah
contoh unik akan lebih kecil dari n.
Masing-masing metode ini memiliki keunggulan dan kelemahan. Beberapa kajian
telah membandingkan dalam masa akurasinya. Hold-out sampling adalah yang paling awal
diimplementasikan, tapi masalah utamanya adalah bahwa training set dan testing set itu tidak
independen. Metode ini juga tidak membuat efisien penggunaan data sejak 1/3 data tidak
digunakan untuk melakukan training sistem (Kohavi, 1995). Leave-one-out menyediakan
estimasi yang sangat tidak memihak, dan secara komputasional mahal serta estimasinya
sangat berbeda, terutama untuk data set kecil (Efron, 1983; Jain, dkk., 1987).
Konsekuensi pasien dan medis penting diasosiasikan dengan banyak aplikasi data
mining biomedis dan validasi detil, kualitatif dari hasil data mining atau text mining harus
dibangun dengan bantuan domain experts (contoh, dokter dan ahli biologi), sehingga ini pada
umumnya membutuhkan banyak waktu dan proses yang membutuhkan anggaran mahal.
3. Apliksi Knowledge Management, Data Mining, Dan Text Mining Dalam Biomedis
Teknik-teknik knowledge management, data mining, dan text mining telah
diaplikasikan untuk bidang biomedicine yang berbeda, berkisar dari manajemen data pasien
ke diagnosis klinis, dari pembuatan hipotesis ke gen clustering, dan dari deteksi sinyal ke
prediksi struktur protein. Pembahasan yang lebih singkat dan tentang teknik dan aplikasi
knowledge management, data mining, dan text mining pilihan dalam biomedicine di bahas
berikutnya .
3.1 Ontologi
Ontologi adalah spesifikasi konseptualisasi. Ia mendeskripsikan konsep-konsep dan
relasi-relasi yang bisa eksis dan memformulasi terminologi dalam sebuah domain (Gruninger
dan Lee, 2002). Ontologi sering digunakan untuk memfasilitasi berbagi pengetahuan antar
manusia, pengolahan informasi, data mining, komunikasi antar software, atau aplikasi
pengolahan pengetahuan lain. Banyak ontologi telah dikembangkan dalam bidang biomedis.
Halaman 6
Tien Kumalasari G651100211
Unified Medical Language System (UMLS) menawarkan tiga sumber pengetahuan:1.
Metathesaurus 2. Semantic Network 3. Specialist Lexicon. Metathesaurus merupakan multi
bahasa yang dikontrol basis data kosakata untuk biomedicine yang membolehkan user untuk
mempetakan nama-nama dan istilah-istilah tekstual biomedis menjadi berbagai konsep, atau
mengidentifikasi sekumpulan istilah berbeda yang diasosiasikan dengan konsep tunggal.
Semantic Network menetapkan kategorisasi konsep dalam Metathesaurus dan relasi antar
konsep. Specialist Lexicon, didesain untuk memfasilitasi pengolahan bahasa alami untuk teks
biomedis, merupakan kamus yang memuat definisi-definisi sintaksis untuk istilah-istilah
biomedis dan istilah-istilah bahasa Inggris umum.
3.2 Manajemen Pengetahuan
Teknik-teknik kecerdasan buatan telah digunakan dalam manajemen pengetahuan
dalam biomedicine di awal 1970, ketika program MYCIN telah dikembangkan untuk
mendukung konsultasi dan pembuataan keputusan (Shortliffe, 1976). Di MYCIN, pengetahuan
diperoleh dari para pakar telah direpresentasikan sebagai sekumpulan rule produksi IF-THEN.
Sistem jenis ini kemudian akan dikenal sebagai sistem pakar dan menjadi sangat populer di
tahun 1980. Sistem pakar tergantung pada pengetahuan pakar yang dibangun ke dalamnya,
yang telah menghabiskan waktu dan proses yang panjang.
Performa MYCIN telah memberi harapan dan membantu para pakar (manusia) dalam
berbagai kasus (Yu, dkk., 1979). MYCIN pada komputer yang dapat menghasilkan respon-
respon cepat (Shortliffe, 1987). Karena itu, dengan performa yang baik dan cost lebih rendah
dari komputer modern dan sistem berbasis pengetahuan medis, kami percaya terdapat
kesempatan besar untuk mengadopsi sistem manajemen pengetahuan dan teknologi pilihan
dalam konteks biomedis, terutama sekali, tidak seperti penggantian manusia (yakni, sistem
pakar) tapi sebagai pembantu pembuatan keputusan biomedis.
3.2.1 Manajemen Pengetahuan dalam Perawatan Kesehatan
Pada umumnya telah dikenal bahwa sistem manajemen data pasien sangat
diinginkan dalam setting klinis (Heathfield dan Louw, 1999; Jackson, 2000; Abidi, 2001).
Teknik-teknik text mining lain juga telah diaplikasikan pada manajemen pengetahuan untuk
perawatan kesehatan .
3.2.2 Manajemen Pengetahuan untuk Literatur Biomedis
Halaman 7
Tien Kumalasari G651100211
Di samping informasi klinis, manajemen pengetahuan telah diaplikasikan untuk
artikel-artikel literature biomedis dan laporan-laporan penelitian.seperti Sistem HelpfulMed
memungkinkan user mencari dokumen-dokumen biomedis dari beberapa basis data yang
mencakup MEDLINE, CancerLit, PDQ, dan basis data obat berbasis fakta (Chen, dkk., 2003).
Basis data HelpFulMed mencakup halaman web yang terkait dengan perawatan kesehatan
berkualitas tinggi, Sistem ini juga menyediakan term-suggestion tool yang disebut Concept
Mapper.
MARVIN merupakan contoh sistem information retrieval medis yang telah
mengaplikasikan teknik-teknik pembelajaran mesin pilihan (Baujard, dkk., 1998). Dibangun
pada arsitektur multi agen, sistem itu memfilter dokumen-dokumen relevan dari sekumpulan
halaman web dan mengikuti link-link untuk menemukan kembali dokumen-dokumen baru.
Teknik-teknik text mining lain juga telah digunakan untuk memfasilitasi manajemen
dan memahami literatur biomedis. Contohnya, teknik-teknik pengolahan bahasa alami dan
pemfrasean kata benda telah diaplikasikan untuk mengekstrak frase kata benda dari
dokumen-dokumen medis (Tolledan Chen, 2000). kebanyakan yang diuji pada entitas-entitas
umum seperti nama orang, lokasi, organisasi, tanggal, waktu, ekspresi jumlah, dan alamat
email (Chinchor, 1998), ekstraksi entitas bernama telah digunakan untuk mengekstraksi
entitas-entitas biomedis spesifik seperti nama gen, nama protein, penyakit, dan gejala dengan
hasil yang menjanjikan (Fukuda, dkk., 1998; Leroy, dkk., 2003).
3.2.3 Mengakes Basis Data Heterogen
Data biomedis sekarang dihasilkan pada kecepatan yang jauh lebih cepat daripada
para peneliti yang menggunakan metode-metode tradisional (National Research Council,
2000). Banyaknya data genomic dan biomedis telah menghasilkan potensi besar untuk
penelitian dan aplikasi dalam biomedicine, para peneliti dihadapkan dengan tantangan
integrasi informasi dari sumber data heterogen (Barrera, dkk., 2004). Program BLAST banyak
digunakan untuk mencari basis data protein dan DNA untuk kesamaan sequensial (Altschul,
dkk., 1997). Sistem MedBlast, memanfaatkan BLAST untuk menggunakan algoritma-
algoritma otomatis untuk mengidentifikasi konsep-konsep ekuivalen yang ada dalam basis
data berbeda untuk mendukung information retrieval.
3.2.4 Visualiasi Informasi dan Akses Informasi Multimedia
Halaman 8
Tien Kumalasari G651100211
Visualisasi informasi (dan pengetahuan) untuk informasi biomedis itu penting untuk
memahami dan berbagi pengetahuan. Teknik-teknik visualisasi peningkatan yang cepat
dalam kecepatan komputer dan reduksi cost, visualisasi grafis mendukung tampilan informasi
yang lebih bermanfaat dan mendukung pemahaman user. Maps, trees, dan network
merupakan bagian dari representasi visualisasi informasi yang sangat populer. Bodenreider
dan McCray (2003) mengaplikasikan teknik-teknik analisis radial diagram dan persesuaian
untuk memvisualisasikan kelompok-kelompok semantik dalam jaringan semantik UMLS. Han
dan Byun (2004) menggunakan tampilan tiga dimensi untuk memvisualisasikan jaringan
interaksi protein. Realitas virtual juga telah diaplikasikan dalam jaringan metabolik
(Rojdestvenski, 2003).
Contoh yang sangat terkenal adalah NLM’s Visible Human Project (Ackerman, 1991),
yang memproduksi representasi tiga dimensi dari tubuh manusia laki-laki dan perempuan .
Data itu menyediakan testbed yang baik untuk algoritma gambar medis dan pengolahan
multimedia serta telah diaplikasikan untuk berbagai penggunaan diagnosis, edukasi, dan
penelitian.
Karena algoritma-algoritma pengolahan teks dapat diaplikasikan untuk data
multimedia secara langsung, teknik pengolahan gambar dan pengindeksan sering dibutuhkan
untuk aplikasi-aplikasi biomedis pilihan. Teknik-teknik ini memungkinkan para user untuk
memvisualisasikan, retrieve, dan memanaj data multimedia seperti gambar sinar-X dan CAT-
scan secara lebih efektif dan efisien.
3.3 Data Mining dan Text Mining
Teknik-teknik data mining telah sering digunakan untuk menemukan pola-pola dan
pengetahuan baru dari data biomedis. Sedangkan Bayesian model telah banyak digunakan di
hari-hari pertama, metode pembelajaran mesin yang lebih modern, seperti jaringan saraf
tiruan dan support vector machine, telah diaplikasikan di tahun-tahun ini. Teknik-teknik ini
digunakan dalam berbagai bidang biomedicine yang berbeda, di antaranya mencakup
genomics, proteomics, dan diagnosis medis. Selanjutnya, kami mereview sebagian aplikasi
teknik data mining dan knowledge discovery utama dalam bidang ini.
3.3.1 Data Mining untuk Perawatan Kesehatan
Halaman 9
Tien Kumalasari G651100211
Teknik-teknik data mining telah banyak digunakan dalam aplikasi diagnostic dan
perawatan kesehatan. Teknik-teknik klasifikasi juga diaplikasikan untuk menganalisis berbagai
sinyal dan relasinya dengan penyakit-penyakit atau gejala tertentu.
Data mining juga digunakan untuk mengekstraksi rule-rule dari data perawatan
kesehatan. Contohnya, ia telah digunakan untuk mengekstraksi rule-rule diagnostik dari data
kanker payudara (Kovalerchuck, dkk., 2001). Aturan yang telah dihasilkan itu mirip dengan
yang dihasilkan secara manual dalam sistem pakar sehingga dapat dengan mudah divalidasi
oleh domain experts.
3.3.2 Data Mining untuk Molecular Biology
Rentetan teknologi baru dan cost komputasi yang rendah telah berhasil dalam
sejumlah besar data biologis yang dapat diakses dengan mudah oleh para peneliti. Data
mining sudah mulai memainkan peran penting dalam masalah ini. Clustering mungkin sangat
sering digunakan oleh teknik data mining untuk data biologis.
Algoritma-algoritma data mining juga telah digunakan untuk prediksi dalam berbagai
aplikasi biomedis yang mencakup prediksi protein backbone angle (Kuang, dkk., 2004),
protein domain (Nagarajan dan Yona, 2004), efek-efek biologis (Krishnan dan Westhead,
2004), dan DNA binding (Ahmad, dkk., 2004). Metode prediktif ini sering berdasarkan pada
algoritma-algoritma klasifikasi (supervised learning) seperti jaringan saraf tiruan atau mesin
vektor pendukung.
3.3.3 Text Mining untuk Literatur dan Catatan Klinik
Text mining telah sering digunakan untuk menganalisis literatur biomedis, dan sering
mencakup dua langkah utama. Pertama, harus mengidentifikasi entitas-entitas biomedis dan
konsep-konsep menarik dari teks bebas yang menggunakan teknik-teknik pengolahan bahasa
alami. Contohnya, jika kita ingin mempelajari relasi antar gen dan penyakit tumor otak, nama-
nama entitas secara tepat diidentifikasi dari dokumen tekstual yang relevan.
Text mining juga telah diaplikasikan untuk data pasien dan dokumen klinik lain untuk
memfasilitasi manajemen pengetahuan. Ia mengadopsi proses yang mirip dengan text mining
dari literatur. Chapman, dkk. (2004) menggunakan pendekatan text mining serupa untuk
Halaman 10
Tien Kumalasari G651100211
deteksi demam otomatis dari data klinik ke deteksi perjangkitan penyakit yang mungkin
menular.
3.4 Etika dan Isu-Isu Legal untuk Data Mining
Catatan medis dan data biologis yang dihasilkan dari subjek (manusia) memuat
informasi pribadi dan rahasia. Data pasien dan subjek (manusia) harus ditangani dengan
perhatian besar untuk memproteksi privacy dan kerahasiaannya. Para peneliti tidak secara
otomatis mendapatkan haknya untuk menggunakan data pasien atau subjek (orang yang
memiliki data) untuk tujuan data mining jika mereka tidak memperoleh izin pasien atau subjek
(Berman, 2002). Hasil data mining adalah relevansi terhadap kebutuhan pasien atau subjek
untuk diinterpretasikan dalam konteks medis yang benar dan dengan bantuan profesional
biomedis.
Dalam data mining biomedis, dengan data pasien yang sangat kondisional tidak
harus menjadi individually identifiable (dapat diidentifikasi secara individu), yakni, tidak ada
catatan harus menyediakan data yang cukup untuk mengidentifikasi individu yang
berhubungan dengan data itu.
4. Ringkasan
Secara umum dibahas tentang teknik-teknik knowledge management, data mining,
dan text mining serta penggunaannya dalam berbagai aplikasi biomedis yang ada. Telah
banyak digunakan dalam aplikasi-aplikasi biomedis. Data medis sering sensitif dan mencakup
informasi pribadi dan rahasia. Kerahasiaan dan privacy pasien tidak disetujui untuk dikenalkan
terhadap penggunaan teknologi-teknologi knowledge management, data mining, dan text
mining modern. Keberatan lainnya adalah bahwa penemuan yang dihasilkan dari teknik-teknik
pembelajaran mesin pilihan harus diinterpretasikan dengan cermat. Pengetahuan dan pola
yang ditemukan oleh komputer harus divalidasi secara eksperimen dan klinis agar masuk
kategori teliti, seperti semua pengetahuan yang dihasilkan oleh manusia.
Teknik-teknik knowledge management, data mining, dan text mining baru ini sedang
mengubah cara bagaimana pengetahuan baru ditemukan, diorganisir, diaplikasikan, dan
disebarkan. Dengan menambah kecepatan komputer, konektivitas Internet, dan kemajuan
dalam penelitian bidang informatika medis, kami yakin akan terus menghasilkan pengetahuan
biomedis secara efektif dan efisien, memungkinkan kita memahami proses-proses kehidupan
biologis yang kompleks dan lebih mudah untuk mendapatkan data dan informasi tentang
biomedis.Halaman 11
Tien Kumalasari G651100211
REFERENSI
Abidi, S. S. R. (2001). “Knowledge Management in Healthcare: Towards ‘Knowledgedriven’ Decision-support Services,” International Journal of Medical Informatics, 63, 5-18.
Acir, N. and Guzelis, C. (2004). “Automatic Spike Detection in EEG by a Two-stage Procedure Based on Support Vector Machines,” Computers in Biology and Medicine, 34(7), 561-575.
Ackerman, M. J. (1991). “The Visible Human Project,” Journal of Biocommunication, 18(2), 14.
Ahmad, S., Gromiha, M. M., and Sarai, A. (2004). “Analysis and Prediction of DNA-binding Proteins and Their Binding Residues Based on Composition, Sequence, and Structural Information,” Bioinformatics, 20(4), 477-486.
Altschul, S. F., Madden, T. L., Schaffer, A. A., Zhang, J., Zhang, Z., Miller, W., and Lipman, D. J. (1997). “Gapped BLAST and PSI-BLAST: A New Generation of Protein Database Search Programs,” Nucleic Acids Research, 25(17), 3389-3402.
Antani, S., Lee, D. J., Long, L. R., and Thoma, G. R. (2004). “Evaluation of Shape Similarity Measurement Methods for Spine X-ray Images,” Journal of Visual Communication and Image Representation, 15, 285-302.
Baclawski, K., Cigna, J., Kokar, M. W., Mager, P., and Indurkhya, B. (2000). “Knowledge Representation and Indexing Using the Unified Medical Language System,” in Proceedings of the Pacific Symposium on Biocomputing, 493-504.
Barrera, J., Cesar-Jr, R. M., Ferreira, J. E., and Gubitoso, M. D. (2004). “An Environment for Knowledge Discovery in Biology,” Computers in Biology and Medicine, 34, 427-447.
Baujard, O., Baujard, V., Aurel, S., Boyer, C., and Appel, R. D. (1998). “Trends in Medical Information Retrieval on the Internet,” Computers in Biology and Medicine, 28, 589-601.
Belacel, B., Cuperlovic-Culf, M., Laflamme, M., and Ouellette, R. (2004). “Fuzzy J-Means and VNS Methods for Clustering Genes from Microarray Data,” Bioinformatics, 20(11), 1690-1701.
Belew, R. K. (1989). “Adaptive Information Retrieval: Using a Connectionist representation to Retrieve and Learn about Documents,” in Proceedings of the 12th ACM-SIGIR Conference, Cambridge, MA, June 1989.
Berman, J. J. (2002). “Confidentiality Issues for Medical Data Miners,” Artificial Intelligencein Medicine, 26(1-2), 25-36.
Halaman 12
Tien Kumalasari G651100211
Blaschke, C., Andrade, M. A., Ouzounis, C. and Valencia, A. (1999). “Automatic Extraction of Biological Information from Scientific Text: Protein-Protein Interactions,” in Proceedings of the International Conference on Intelligent Systems for Molecular Biology, 60-67.
Bodenreider, O. and McCray, A. T. (2003). “Exploring Semantic Groups through Visual Approaches,” Journal of Biomedical Informatics, 36, 414-432.
Breiman, L. and Spector, P. (1992). “Submodel Selection and Evaluation in Regression: The X-random Case,” International Statistical Review, 60(3), 291-319.
Brown, M. P. S., Grundy, W. N., Lin, D., Cristianini, N., Sugnet, C. W., Furey, T. S., Ares,M., and Haussler, D. (2000). “Knowledge-based Analysis of Microarray Gene Expression Data by Using Support Vector Machines,” in Proceedings of the National Academy of Sciences, 97, 262-267.
Campbell, K. E., Oliver, D. E., and Shortliffe, E. H. (1998). “The Unified Medical Language System: Toward a Collaborative Approach for Solving Terminologic Problems,” Journal of the American Medical Informatics Association, 5(1), 12-16.
Carbonell, J. G. Michalski, R. S., Mitchell, T. M. (1983). “An Overview of Machine Learning,” in R. S. Michalski, J. G.
Halaman 13