InFOREST: Model Sistem Capaian Maklumat...

4
InFOREST: Model Sistem Capaian Maklumat Pintar Fadhilah Mat Yamin, Fadzilah Siraj, Wan Rozaini Sheikh Osman* ABSTRAK Isu kerelevanan dokumen merupakan isu yang sering ditimbulkan pada masa kini. Ini kerana maklumat yang terlalu banyak menyukarkan pengguna, untuk membuat pemilihan yang tepat. Oleh itu, kertas kerja ini membincangkan InForest, model sistem capaian maklumat pintar yang menggunakan teknik kepintaran buatan, iaitu rangkaian neural dalam menyusun dokumen di web mengikut keperluan pengguna. Model ini mempamerkan kepintarannya dengan wujudnya agen maklumbalas (FedGent) bagi menyusun dokumen di web. Kata kunci: Sistem Capaian Maklumat, Kerelevanan Dokumen, Kepintaran Buatan, Rangkaian Neural, Rangkaian Rambatan Balik. PENGENALAN Perluasan penggunaan internet dan WWW menggalakkan penciptaan pelayan dan alatan pencarian maklumat yang membolehkan pengguna mencari dan mencapai maklumat dengan mudah. Enjin carian merupakan alat yang digunakan bagi mencari (atau mengesan) maklumat (atau dokumen) di WWW. Pertambahan dan peningkatan saiz pangkalan dokumen bagi enjin carian memberi kesan kepada pencarian maklumat. Walau bagaimanapun, jumlah halaman web yang telah diindekskan oleh enjin carian sedia ada seperti Altavista dan Excite masih jauh dari mencukupi. Terdapat berjuta-juta halaman web yang belum diindeks dan beribu-ribu halaman baru telah dibangunkan. Situasi ini menunjukkan enjin carian sedia ada masih tidak dapat memenuhi keperluan pengguna maklumat yang pelbagai. Oleh itu, kertas kerja ini akan membincangkan isu utama dalam capaian maklumat iaitu kerelevanan dokumen. Model sistem capaian maklumat pintar juga dibincangkan. ISU KERELEVANAN DOKUMEN DALAM CARIAN MAKLUMAT Kerelevanan adalah proses menyusun semula dokumen mengikut senarai keutamaan (Fadhilah et al., 2001). Kerelevanan merupakan konsep yang penting dalam sains maklumat (Pao, 1989). Walau bagaimanapun, kerelevanan sesuatu dokumen adalah sukar diukur kerana ia bergantung kepada keperluan individu. Secara teori, sesebuah sistem capaian maklumat yang lengkap hanya akan mencapai dokumen yang padan dengan queri. Oleh itu, dokumen yang sama mungkin mempunyai tahap kerelevanan yang berbeza bagi dua individu. Keadaan ini menimbulkan masalah dalam pembangunan sistem capaian maklumat. Tedapat Segolongan penyelidik seperti Bar Hillel (dlm. Pao, 1989) berpendapat bahawa kerelevanan tidak boleh diukur dan isu mengenainya adalah tidak timbul. Menurut Budzik et al. (2001), kerelevanan boleh di tentukan dengan membandingkan perkataan dalam queri dengan perkataan di dalam dokumen. Sekiranya queri yang dimasukkan oleh pengguna terdapat dalam dokumen maka dokumen tersebut dikatakan relevan dengan queri berkenaan. Sistem capaian maklumat seharusnya boleh mencapai semua dokumen yang relevan dan membuang semua * Sekolah Teknologi maklumat. Universiti Utara Malaysia. 06010 Sintok, Kedah. Email : [email protected],. [email protected],[email protected] Hak Cipta Terpelihara © 2002 – Perpustakaan Negara Malaysia Hak Cipta Terpelihara © 2002 – Perpustakaan Negara Malaysia

Transcript of InFOREST: Model Sistem Capaian Maklumat...

InFOREST:Model Sistem Capaian Maklumat Pintar

Fadhilah Mat Yamin, Fadzilah Siraj,Wan Rozaini Sheikh Osman*

ABSTRAKIsu kerelevanan dokumen merupakan isu yang sering ditimbulkan pada masa kini. Ini kerana

maklumat yang terlalu banyak menyukarkan pengguna, untuk membuat pemilihan yang tepat. Olehitu, kertas kerja ini membincangkan InForest, model sistem capaian maklumat pintar yang

menggunakan teknik kepintaran buatan, iaitu rangkaian neural dalam menyusun dokumen di webmengikut keperluan pengguna. Model ini mempamerkan kepintarannya dengan wujudnya agen

maklumbalas (FedGent) bagi menyusun dokumen di web.

Kata kunci: Sistem Capaian Maklumat, KerelevananDokumen, Kepintaran Buatan, Rangkaian Neural,Rangkaian Rambatan Balik.

PENGENALAN

Perluasan penggunaan internet dan WWWmenggalakkan penciptaan pelayan dan alatanpencarian maklumat yang membolehkan penggunamencari dan mencapai maklumat dengan mudah.Enjin carian merupakan alat yang digunakan bagimencari (atau mengesan) maklumat (atau dokumen)di WWW. Pertambahan dan peningkatan saizpangkalan dokumen bagi enjin carian memberi kesankepada pencarian maklumat. Walau bagaimanapun,jumlah halaman web yang telah diindekskan olehenjin carian sedia ada seperti Altavista dan Excitemasih jauh dari mencukupi. Terdapat berjuta-jutahalaman web yang belum diindeks dan beribu-ribuhalaman baru telah dibangunkan. Situasi inimenunjukkan enjin carian sedia ada masih tidak dapatmemenuhi keperluan pengguna maklumat yangpelbagai. Oleh itu, kertas kerja ini akanmembincangkan isu utama dalam capaian maklumatiaitu kerelevanan dokumen. Model sistem capaianmaklumat pintar juga dibincangkan.

ISU KERELEVANAN DOKUMENDALAM CARIAN MAKLUMAT

Kerelevanan adalah proses menyusun semuladokumen mengikut senarai keutamaan (Fadhilah etal., 2001). Kerelevanan merupakan konsep yangpenting dalam sains maklumat (Pao, 1989). Walaubagaimanapun, kerelevanan sesuatu dokumen adalahsukar diukur kerana ia bergantung kepada keperluanindividu. Secara teori, sesebuah sistem capaianmaklumat yang lengkap hanya akan mencapaidokumen yang padan dengan queri. Oleh itu,dokumen yang sama mungkin mempunyai tahapkerelevanan yang berbeza bagi dua individu.Keadaan ini menimbulkan masalah dalampembangunan sistem capaian maklumat. TedapatSegolongan penyelidik seperti Bar Hillel (dlm. Pao,1989) berpendapat bahawa kerelevanan tidak bolehdiukur dan isu mengenainya adalah tidak timbul.Menurut Budzik et al. (2001), kerelevanan boleh ditentukan dengan membandingkan perkataan dalamqueri dengan perkataan di dalam dokumen.Sekiranya queri yang dimasukkan oleh penggunaterdapat dalam dokumen maka dokumen tersebutdikatakan relevan dengan queri berkenaan. Sistemcapaian maklumat seharusnya boleh mencapai semuadokumen yang relevan dan membuang semua

* Sekolah Teknologi maklumat. Universiti Utara Malaysia. 06010 Sintok, Kedah.Email : [email protected],. [email protected],[email protected]

Hak Cipta Terpelihara © 2002 – Perpustakaan Negara Malaysia

Hak Cipta Terpelihara © 2002 – Perpustakaan Negara Malaysia

dokumen yang tidak berkaitan atau yang kurang relevandengan queri pengguna (Harter, 1986). Kebanyakanenjin carian seperti Altavista (www.altavista.com)misalnya, berjaya memaparkan dokumen yang relevanpada bahagian atas paparan disusuli dengan dokumenyang kurang relevan pada bahagian bawah. MenurutJansen (1996), Altavista menyusun dokumenberdasarkan kepada beberapa kriteria iaitu:

• Semua queri yang dimasukkan oleh penggunaterdapat dalam halaman yang dipaparkan.

• Kekerapan queri yang dimasukkan penggunawujud dalam halaman.

• Queri yang dimasukkan oleh pengguna mempunyaiunsur yang hampir sama dengan kata kunci padahalaman.

• Queri yang dimasukkan oleh pengguna hampirsama dengan kata kunci pada bahagian awalhalaman.

Selain itu, Altavista menggunakan algoritma yangmemberikan nilai yang tinggi dan unik kepada queriyang selalu dan jarang digunakan. Disamping itu, nilaiyang tinggi juga diberikan kepada queri yang wujuddalam tajuk sesuatu dokumen. Beberapa pendekatanheuristik juga telah digunakan bagi mengukurkerelevanan dokumen iaitu (Feinstein et al., 1997):

• Kekerapan queriBilangan queri yang wujud akan diambil kira untukmengukur kerelevanan dokumen dengan queriberkenaan. Apabila bilangan kekerapan queri yangwujud tinggi dalam sesuatu dokumen, makadokumen itu dianggap mempunyai kerelevananyang tinggi.

• Bilangan hubungan {hyperlink)Bilangan hubungan yang merujuk kepada sesuatudokumen mempengaruhi kerelevanan dokumen.Semakin banyak hubungan dari dokumen lain yangmerujuk kepadanya (dokumen) maka dokumentersebut dianggap sebagai relevan.

• Pemberat queriQueri yang masukkan oleh pengguna akan

diberikan satu pemberat. Seandainya pemberattersebut mempunyai nilai yang tinggi, makadokumen itu dikira sebagai relevan. Meadow etal., (2000) membincangkan mengenai pemberat

yang diberikan kepada kekunci bagi menentukankerelevanan dokumen.Terbalikan kekerapan queriKerelevanan dokumen juga boleh diukur denganmengambilkira queri yang tidak kerap wujud dalamsesuatu dokumen. Teknik ini adalah terbalik kepadateknik kekerapan queri.

MODEL SISTEM CAPAIANMAKLUMAT PINTAR

Dalam kajian ini, tumpuan diberikan kepada carianmaklumat dalam bentuk teks. Oleh itu, beberapa atributtelah dikenalpasti (Rajah 1). Attribut-attribut tersebutialah URL. tajuk, abstrak, kata kunci, pengenalan,kandungan, kesimpulan dan bibliografi. Kesemuaattribut tersebut merupakan perwakilan unik bagikeseluruhan dokumen. Selain itu, attribut lain sepertinama pengarang, tahun penerbitan, dimana dokumentersebut diterbitkan dan jenis dokumen juga bolehdigunakan untuk menentukan kerelevanan sesuatudokumen. Ini kerana maklumat tersebut mempunyai

http://www.url.com/index.html

2.0 SISTEM MAKLUMAT DAN WWW

3.0 PENCAPAIAN MAKLUMAT

4.0 KESIMPULAN

Rajah 1: Pemilihan dan Perwakilan Attribut

RUJUKANAhmad Jaafar (1990). Sistem Capaian Maklumat dan Anda. Majalah Siswa,

Dewan Bahasa dan Pustaka, Kuala Lumpur.Kasim Selamat (2000). Teknologi Maklumat. Dewan Kosmik. Dewan

Bahasa dan Pustaka., Kuala Lumpur.

7

8

6

5

Sistem Capaian Maklumat Pintar dan World Wide Web

AbstrakSistem capaian maklumat merupakan alatan penting dalam perkembangandunia maklumat, ini kerana maklumat yang disimpan di WWW adalahpelbagai dan terlalu banyak. Keadaan ini menyebabkan pengurusanmaklumat di WWW menjadi semakin rumit.,.

Kata K u n c i : Sistem capaian maklumat. WWW.pengurusan maklumat

1.0 PENGENALANMaklumat merupakan unsur utama dalam kemajuan dan perkembangansesebuah negara dalam era elektronik. Ini kerana sesiapa sahaja yangberjaya menguasai maklumat akan berjaya menguasai...

2 3

Hak Cipta Terpelihara © 2002 – Perpustakaan Negara Malaysia

Hak Cipta Terpelihara © 2002 – Perpustakaan Negara Malaysia

hubungan samada secara langsung atau tidak langsungdengan dokumen tersebut.

Pembangunan Prototaip dibahagikan kepada duaperingkat utama iaitu pembangunan enjin carian ringkasdan Implementasi rangkaian rambatan balik sebagaiagen maklumbalas (Rajah 2). Enjin carian ringkasyang dibangunkan adalah berdasarkan kepada modelsenibina asas Van Rijsbergen (1979). Model ini terdiridaripada tiga subsistem utama iaitu input, pemprosesdan pangkalan dokumen. Input merupakan bahagianantaramuka bagi tujuan bawa naik data {upload) kedalam pangkalan data. Selain itu, antaramuka jugamembolehkan pengguna membuat carian dalampangkalan dokumen dengan menggunakan kata kunci.Bahagian pemproses pula merupakan bahagian yangakan memadankan pertanyaan pengguna dengandokumen yang disimpan di dalam pangkalan dokumen.Manakala pangkalan dokumen adalah storan yangdigunakan bagi menyimpan dokumen.

Simulator (BPSim) dan bahagian aplikasi rangkaian.BPSim dibangunkan secara berasingan dan digunakanuntuk belajar corak data bagi menentukan nilaikerelevanan. Hasil daripada latihan tersebut iaitupemberat (berfungsi sebagai pengetahuan kepada enjincarian) akan disimpan dan digunakan dalam aplikasirangkaian. Bahagian aplikasi rangkaian dibangunkandan "dipasang" dalam prototaip enjin carian. Fungsiutama bahagian ini ialah untuk mengira nilaikerelevanan setiap dokumen yang dipulangkan olehsistem berdasarkan pengetahuan yang telah disimpan(pemberat).

Rajah 3: Perwakilan Attribut ke dalamRangkaian Rambatan Balik

Rajah 2: Senibina Sistem

Implementasi rangkaian rambatan balik merupakanaplikasi tambahan utama kepada prototaip enjin carianmaklumat ringkas yang dibangunkan pada peringkatawal (Rajah 3). Aplikasi ini bertujuan untukmeningkatkan keupayaan enjin carian tersebut menilaidokumen yang dipulangkan kepada pengguna. Aplikasiini terbahagi kepada dua bahagian iaitu simulatorrangkaian rambatan balik atau Backpropagation

KESIMPULAN

Model sistem capaian maklumat pintar atau InForestyang dibincangkan di atas merupakan satu contohaplikasi teknik kepintaran buatan, iaitu rangkaian neuraldalam sistem capaian maklumat. Prototaip bagi modeltersebut masih dalam pembangunan dan dijangka akandapat membantu meningkatkan capaian maklumat yangrelevan.

AplikasiRangkaian

Neural

Pemberat(pengetahuan)

Latihan

Perwakilan

Perwakilan

DokumenKekunci

UploadUpload

PenggunaKekunci

Hasil

Dokumen yangtersusun

WWW

Hak Cipta Terpelihara © 2002 – Perpustakaan Negara Malaysia

Hak Cipta Terpelihara © 2002 – Perpustakaan Negara Malaysia

RUJUKAN

Budzik, J., Hammond, K. J., dan Birnbaum, L.(2001). Information Access in Context.Knowledge Based System, 37-53.

Fadhilah Mat Yamin, Fadzilah Siraj dan Wan RozainiSheikh Osman (2001). PengukuranKerelevanan Dokumen MenggunakanRangkaian Neural. Artificial IntelligenceSeminar (AIS) 2001, Universiti UtaraMalaysia, Sintok pada 1-3 Nov.

Feinstein et al., (1997). Relevancy Ranking of WebPages Using Shallow Parsing. Proceedingsof the Practical Application of KnowledgeDiscovery and Data Mining (PADD97), ms:125-136.

Harter, S., P. (1986). Online Information Retrieval:Concepts, Principles and Techniques. Libraryand Information Science Series, ms: 3.

Jansen, J. (1996). Using an Intelligent Agent toEnhance Search Engine Performance, http://www.firstmonday.dk/issues2_3/jansen/05Sept. 2001.

Marzuki Khalid (1994). Rangkaian Neural DanPenggunaannya. Seminar Sains MatematikDalam Industri MDI'94; Simbiosis AntaraMatematik Dengan Industri, ms : 18-32,Universiti Teknologi Malaysia, Johor.

McCallum, A. K., Nigam, K., Rennie, J., danSeymore, K. (1999a). Automating theConstruction of Internet Portals with MachineLearning. Kluwer Academic Pub.

McCallum, A. K., Nigam, K., Rennie, J., danSeymore, K. (1999b). A Machine LearningApproach to Building Domain-SpecificSearch Engines. The Sixteenth InternationalJoint Conference 0 Artificial Intelligence.

McCallum, A. K., Nigam, K., Rennie, J., danSeymore, K. (1999c). Building Domain-Specific Search Engines with MachineLearning Techniques. AAAI-99 SpringSymposium.

Meadow, C. T., Boyce, B. R., dan Kraft, D. H. (2000).Text Information Retrieval System (2nd

Edition). Academy Press.

Mizzaro, S. (1996). How Many Relevances inInformation Retrieval? In C. W. Johnson andM. Dunlop (eds), Proceedings of theWorkshop Information Retrieval and HumanComputer Interaction', GIST TechnicalReport GR96-2, Glasgow University, TheBritish Computer Society, Glasgow, UK, ms:57-60.

Mizzaro, S. (1996). On The Foundations ofInformation Retrieval. Proceedings of theConference AICA'96 (24-27 September).

Moukas, A. (1996). Amalthaea: InformationDiscovery and Filtering using a MultiagentEvolving Ecosystem. Proceedings of theConference on Practical Applications ofAgents and Multiagent Technology, London.

Muniyandi, R., C. (2000). Neural Networks: AnExploration in Document Retrieval System.TENCON Proceedings: Intelligent Systemsand Technologies for the New Millennium 24-27 Sept. Vol. I, ms. 156-161.

Noriha Muhammad. (2000). Perubahan TeknikPencarian Maklumat: Perbandingan SistemManual dan Digital di Perpustakaan UKM.Tesis Ijazah Sarjana Teknologi Maklumat,UKM, Bangi.

Nur Izura Hj. Udzir, Md. Nasir Sulaiman, Ali Mamat,Ramlan Mahmod dan Fatimah Ahmad. (1997).Rangkaian Neural Dalam Dapatan PangkalanData. National Conference on Research andDevelopment in Computer Science and itsApplications, ms : 93-97.

Pannu, A. S., dan Sycara, K. (1996). Learning TextFiltering Preferences. Symposium onMachineLearning And lnformation Access.AAAI 96Symposium Series, March, 1996, Stanford. CA.

Pao, M., L. (1989). Concepts of InformationRetrieval. Library of Congress Cataloging-in-Publication Data.

Hak Cipta Terpelihara © 2002 – Perpustakaan Negara Malaysia

Hak Cipta Terpelihara © 2002 – Perpustakaan Negara Malaysia