Pembangunan Sistem Dinamik Maklumat Bisnes Malaysia

17

Transcript of Pembangunan Sistem Dinamik Maklumat Bisnes Malaysia

Page 1: Pembangunan Sistem Dinamik Maklumat Bisnes Malaysia
Page 2: Pembangunan Sistem Dinamik Maklumat Bisnes Malaysia

Pembangunan Sistem Dinamik Maklumat Bisnes Malaysia Menggunakan Kaedah Pengekstrakan Maklumat Web

Sharhida Sawani Saada, Juhana Salima, Mohd Shahizan Othmanb, Yazrina

Yahyaa, Abdul Razak Hamdana, Aziz Deramana, Hazilah Mohd. Amina dan Lizawati Mi Yusufb

aFakulti Teknologi dan Sains Maklumat, Universiti Kebangsaan Malaysia, 43600 Bangi, Selangor

{js, yaz,arh,ad,hma}@ftsm.ukm.my

bFakulti Sains Komputer dan Sistem Maklumat, Universiti Teknologi Malaysia, 81310 Skudai, Johor

{shahizan, lizawati}@fsksm.utm.my

ABSTRAK Alat-alat carian Internet yang sedia ada merupakan pendekatan atau kaedah yang sangat berkesan untuk penyelidikan bisnes. Contohnya enjin gelintar dan direktori bisnes bukan saja berguna untuk penyelidikan tahap tinggi tetapi juga untuk ahli-ahli bisnes yang berdepan dengan persoalan berkenaan pelbagai isu daripada para pelanggan serta pekerja. Penyelidikan telah menunjukkan bahawa syarikat telah memasukkan maklumat yang diperlukan berkenaan syarikat dan perniagaan dalam sistem maklumat organisasi dengan mengimplementasi E-bisnes yang mana pihak lain boleh mencapainya melalui Internet. Untuk membantu pengguna menemui maklumat atau kandungan topik tertentu mengikut minat mereka dengan cepat dan mudah, organisasi dan penstrukturan kandungan maklumat tersebut adalah satu kemestian. Antara pendekatan yang boleh digunakan bagi membantu carian atau gelintaran maklumat adalah pendekatan carian melalui kueri atau kata kunci, serta pencarian tepat atau spesifik. Dalam kajian ini penyelidik mengkaji kelemahan enjin gelintar atau direktori bisnes Malaysia sedia ada dalam talian serta kepentingan dalam mengorganisasi atau menstrukturkan maklumat ini dengan berkesan bagi membolehkan capaian yang lebih tepat dan mudah. Bagi membolehkan capaian maklumat bisnes dan syarikat yang terdapat dalam talian, penstrukturan dan penyimpanan maklumat yang relevan dalam pangkalan data telah diaplikasikan. Objektif kajian ini adalah untuk membangunkan Sistem Pengekstrakan Maklumat Web bagi menyokong pembangunan Sistem Dinamik Maklumat Bisnes Malaysia yang memenuhi keperluan ketepatan yang kompleks. Kaedah pengekstrakan maklumat digunakan untuk mendapatkan keseluruhan maklumat yang relevan yang terkandung dalam dokumen web bisnes Malaysia secara separa automatik. Kandungan suatu laman web bisnes diekstrak atau dijana secara automatik menggunakan Sistem Pengekstrakan Maklumat Web yang mengaplikasikan teknologi XML. Input maklumat kata kunci meta tag turut ditambah dengan kata kunci berasaskan teks relevan daripada ‘body’ atau kandungan keseluruhan suatu dokumen web. Matlamat perisian pengekstrakan maklumat web ini adalah untuk memindahkan kandungan atau teks kepada bentuk berstruktur atau pangkalan data. Kaedah pengekstrakan maklumat dipilih bagi tujuan memudahkan input maklumat laman web syarikat pada pangkalan data secara lebih cepat, ringkas dan efisien. Proses pengekstrakan maklumat web disokong oleh pembangunan ‘Web browser’ yang turut mengekstrak maklumat-maklumat penting tajuk dan URL laman web secara automatik untuk diinput ke dalam pangkalan data. Pembangunan ‘Web browser’ membolehkan input maklumat metadata tambahan yang penting seperti subjek, negeri serta kawasan secara ringkas. Ini diperlukan untuk pembangunan sistem dinamik maklumat bisnes yang membenarkan pencarian secara lebih tepat dan spesifik. Prototaip Sistem

348

Page 3: Pembangunan Sistem Dinamik Maklumat Bisnes Malaysia

Pengekstrakan Maklumat Web yang dibangunkan telah diuji dengan 300 data bisnes automotif Malaysia daripada pelbagai sumber data bisnes dan syarikat yang terdapat dalam talian, termasuk Malaysia Manufacturers Malaysia Automotive Motor Parts and Components Manufacturers , selain FMM Directory 2003. Kata kunci Pengekstrakan maklumat web, pembangunan web perniagaan, sistem maklumat perniagaan, sistem capaian maklumat perniagaan 1 Pendahuluan Peningkatan literasi komputer dan celik IT di Malaysia yang wujud hasil dari pengenalan projek Koridor Raya Multimedia (MSC) menggalakkan penggunaan teknologi maklumat yang lebih meluas di kalangan masyarakat. Setiap hari, proses transaksi dan capaian maklumat serta pendapat berlaku dan diaplikasikan di kalangan pengguna Internet berikutan sifat Internet yang global dan berguna terutamanya dalam bidang perniagaan serta pendidikan. Alat-alat carian Internet yang sedia, seperti enjin gelintar dan direktori, merupakan pendekatan atau kaedah yang sangat berkesan untuk penyelidikan bisnes. Enjin gelintar dan direktori bisnes bukan saja berguna untuk penyelidikan tahap tinggi tetapi juga untuk ahli-ahli bisnes yang berdepan dengan persoalan berkenaan pelbagai isu daripada para pelanggan serta pekerja. Penyelidikan telah menunjukkan bahawa syarikat-syarikat telah memasukkan maklumat-maklumat yang diperlukan berkenaan syarikat dan perniagaan dalam sistem maklumat organisasi dengan mengimplementasi E-bisnes yang mana pihak lain boleh mencapainya melalui Internet (Grant, 2003). Selaras dengan perkembangan pengeluaran dan penerbitan maklumat melalui Internet yang semakin meningkat, maka wujud keperluan untuk menyediakan pengaksesan atau capaian yang lebih baik pada maklumat atau sumber-sumber bisnes secara atas talian. 1.1 Latar Belakang Kajian Antara kaedah yang biasa digunakan oleh enjin gelintar atau direktori yang

menyediakan capaian maklumat bisnes adalah pendekatan direktori atau hierarki subjek dalam bidang bisnes, serta kaedah capaian maklumat berasaskan kueri. Adalah dikatakan sangat penting untuk memastikan sistem yang direkabentuk bukan untuk memenuhi sistem yang piawai, sebaliknya adalah untuk memastikan sistem yang dibina menepati kehendak pengguna. Kajian-kajian serta keputusan yang diperoleh sebelum ini mendapati pengkategorian atau klasifikasi subjek merupakan alat memori yang hebat, dan bertindak sebagai tanda capaian yang membolehkan sistem penyimpanan dan capaian maklumat secara berkesan (Tulving dan Psotka, 1970). Direktori subjek membenarkan pengguna mencari atau menjelajah maklumat berdasarkan pendekatan subjek, contohnya seperti ‘Accounting’ dan ‘Finance’, dan ‘Health’. Walaupun terdapat beberapa klasifikasi subjek yang diaplikasikan pada sebahagian WWW (Ellis & Vasconcelos, 1999), setakat ini, tiada klasifikasi dan rangka deskripsi untuk penyimpanan dan capaian dokumen web yang boleh diterima secara kukuh. Bagi sistem capaian dalam talian, terdapat satu jenis skema klassifikasi yang berfaset yang mempunyai kelebihan di mana skema berfaset ini lebih memberi perhatian pada keperluan atau kehendak pengguna. Analisis berfaset mensimbolkan cara berfikir yang natural, kerana ia memisahkan pelbagai elemen subjek yang majmuk, dan mengaitkannya kepada kategori-kategori umum tertentu yang boleh difahami oleh semua pengguna.

349

Page 4: Pembangunan Sistem Dinamik Maklumat Bisnes Malaysia

1.2 Pernyataan Masalah Maklumat merupakan salah satu aset yang bernilai bagi sesebuah syarikat atau perniagaan. Jenis-jenis maklumat yang diperlukan dalam bisnes amatlah banyak. Sebagai contoh, antara maklumat yang diperlukan dan agak penting dalam sesebuah syarikat termasuk maklumat tentang pembekal dan pelanggan lain yang berpotensi. Antara masalah capaian maklumat bisnes adalah penstrukturan maklumat yang kurang baik, serta klasifikasi atau pengkategorian maklumat bisnes yang mengikut topik atau hirarki tertentu yang kadangkala mengelirukan serta lambat dicapai. Selain itu, maklumat khusus mengenai syarikat, produk serta perkhidmatannya yang kurang distruktur dalam sesuatu enjin gelintar atau direktori bisnes, menjadikannya sukar dicapai dan mengambil masa yang lama. Mengikut White dan Wilson (1988), apa sahaja perkhidmatan maklumat yang cuba memberi maklumat secara berkesan pada sektor bisnes umumnya perlu memberi perhatian terhadap keperluan dan penggunaan maklumat bisnes. Organisasi yang memberi perkhidmatan maklumat harus mengenalpasti jenis-jenis maklumat yang dianggap relevan dan sesuai mengikut kehendak dan keperluan pengguna. Kajian literatur yang dibuat penyelidik mendapati antara masalah atau kekurangan yang wujud pada enjin gelintar dan direktori bisnes adalah ketiadaan capaian khusus maklumat syarikat dan bisnes berdasarkan nama syarikat. Direktori bisnes automotif Malaysia (Malaysia Automotive Component Parts and Accessories 2002 Directory) membolehkan capaian maklumat bisnes mengikut senarai syarikat automotif dan juga pendekatan subjek secara spesifik. Walau bagaimanapun, masih terdapat kelemahan dari segi capaian maklumat bagi aktiviti bisnes dan syarikat. Direktori ini tidak memberi akses kepada laman web bisnes atau syarikat. Selain itu, direktori ini tidak menyediakan kemudahan kueri atau pilihan bentuk carian lain kepada pengguna dalam

melakukan carian maklumat bisnes. Satu lagi jenis direktori iaitu eGuide didapati bukan merupakan direktori yang khusus untuk bisnes. Jika dilihat pada klasifikasinya secara umum, ia tidak menitikberatkan kesemua aspek atau bidang bisnes, tetapi menggunakan bidang-bidang bisnes secara umum. Hasil pengenalpastian masalah-masalah dan isu-isu berkenaan masalah penggunaan dan capaian maklumat bisnes, inisiatif perlu diambil bagi membangunkan enjin gelintar untuk capaian dalam bidang bisnes ke arah memenuhi keperluan capaian maklumat kompleks bisnes yang lebih tepat, dan dapat memenuhi keperluan semasa pengguna. Teknik atau kaedah input maklumat bisnes atau syarikat dalam pangkalan data untuk membangunkan enjin gelintar yang membolehkan pencarian tepat merupakan perkara yang paling penting dalam pembangunan sesebuah enjin gelintar. Dalam kajian ini, penyelidik perlu membangunkan enjin gelintar yang membolehkan pencarian maklumat kompleks bisnes yang lebih tepat secara separa automatik, yang mengaplikasikan kaedah pengekstrakan maklumat bisnes daripada laman-laman web yang berkaitan, dan memasukkan maklumat-maklumat penting yang relevan ke dalam pangkalan data secara automatik. 1.3 Tujuan Kajian Tujuan kajian ini secara umum ialah untuk membangunkan sebuah system maklumat bisnes dinamik untuk memudahkan capaian maklumat bisnes di Malaysia ke arah memenuhi keperluan capaian kompleks bisnes yang lebih tepat. Objektif khusus yang telah dikenalpasti bagi pembangunan sistem dalam kajian ini adalah: i. Membangunkan enjin gelintar capaian

maklumat bisnes untuk meningkatkan pengstrukturan dan capaian maklumat bisnes melalui kemudahan Internet atau gudang maklumat ke arah memenuhi keperluan capaian kompleks bisnes dan

350

Page 5: Pembangunan Sistem Dinamik Maklumat Bisnes Malaysia

lebih tepat dan spesifik dengan mengaplikasikan kaedah pengekstrakan maklumat web secara separa automatik.

ii. Membentuk pengkategorian dokumen berhirarki melalui gabungan dan pembangunan pengklasifikasian yang dinamik, relevan serta komprehensif bagi membolehkan capaian maklumat kompleks bisnes.

iii. Memperluaskan kaedah carian maklumat yang lebih khusus dan tepat berbanding kaedah sedia ada. Penggunaan meta data yang relevan dalam bidang bisnes diaplikasikan termasuk maklumat produk, komponen, perkhidmatan, serta maklumat syarikat automotif Malaysia, dan diaplikasikan melalui kaedah carian berasaskan kueri, ‘scoped search’ atau gabungan kueri pengguna secara spesifik serta pendekatan hierarki topik atau subjek.

iv. Membolehkan maklumat-maklumat bisnes serta syarikat disimpan dalam suatu pangkalan data dan boleh dicapai dengan mudah dan berkesan dalam jangkamasa yang cepat.

1.4 Kajian Terhadap Enjin Gelintar /

Direktori Bisnes Yahoo!, Business.Com Dan Eguide

Enjin-enjin gelintar atau direktori bisnes yang dikaji oleh penyelidik adalah direktori-direktori bisnes antarabangsa, iaitu Yahoo! dan Business.com serta direktori bisnes Malaysia, eGuide. Untuk membantu pengguna mengesan maklumat atau kandungan topik tertentu mengikut minat mereka dengan cepat dan mudah, organisasi dan penstrukturan kandungan maklumat tersebut adalah satu kemestian. Yahoo! menyediakan direktori yang mengorganisasikan kesemua maklumat dalam Internet mengikut pengkategorian secara spesifik termasuk data bukan bisnes. Jika dibandingkan dengan direktori web bisnes yang lain, direktori atau hirarki yang disediakan oleh Yahoo! adalah meluas dan diperincikan secara spesifik, atau

menggunakan banyak pecahan pengkelasan awal setelah pengguna memilih topik pada awal hirarki. Maklumat atau keputusan yang diberi juga adalah meluas dan kadangkala tetap mengakibatkan kesukaran dalam mendapatkan atau meneliti maklumat syarikat khasnya, atau produk secara khusus. Ini disebabkan keputusan yang diberi bukan sahaja berkenaan maklumat syarikat, tetapi merangkumi berita-berita semasa, perkembangan, teknologi selain perkhidmatan atau produk yang disediakan. Dalam kajian ini, penyelidik bertujuan menyediakan akses maklumat syarikat serta produk secara khusus dan spesifik mengikut pilihan pengguna melalui pelbagai kaedah carian seperti pendekatan kueri, pencarian skop atau spesifik serta pendekatan hierarki subjek bisnes. Business.com juga tidak mengkhususkan atau memfokuskan pencarian maklumat bisnes berdasarkan syarikat-syarikat yang terlibat. Direktori Business.com, turut menyediakan pencarian melalui kueri daripada pengguna. Kajian dan pembangunan oleh penyelidik akan turut melibatkan kaedah pencarian melalui kueri pengguna selain turut memberi penekanan pada maklumat-maklumat syarikat serta produk yang terlibat dalam sektor bisnes di Malaysia. Penyelidik turut meneliti serta mengkaji direktori bisnes Malaysia, iaitu eGuide. Direktori bisnes ini menyediakan maklumat bisnes dalam kategori-kategori berita, kewangan, korporat, kerajaan, pekerjaan, pelancongan, teknologi, peristiwa, dan maklumat-maklumat yang dianggap berguna. Kajian oleh penyelidik bertujuan untuk membangunkan satu sistem capaian maklumat dinamik bisnes di Malaysia ke arah memenuhi keperluan capaian maklumat kompleks bisnes yang lebih tepat dan mudah, termasuk memberi penekanan bagi memudahkan capaian maklumat syarikat-syarikat dan produk bisnes tersebut. Enjin gelintar yang dibangunkan mengaplikasikan kaedah pengekstrakan maklumat web secara separa automatik, yang melibatkan pengekstrakan maklumat penting judul,

351

Page 6: Pembangunan Sistem Dinamik Maklumat Bisnes Malaysia

deskripsi, URL, serta kandungan keseluruhan web bagi mendapatkan senarai kata kunci yang relevan yang mewakili dokumen web tersebut. 1.5 Kajian Keperluan Maklumat Bisnes Rosenberg (1983) menghuraikan istilah bisnes dari tiga sudut. Dari sudut ekonomi, bisnes didefinisikan sebagai penjualan dan pembelian barangan dan perkhidmatan. Dari sudut kewangan bisnes dirujuk sebagai aktiviti seseorang individu, rakan kongsi, atau organisasi melibatkan pengeluaran perdagangan dan / atau perkhidmatan, manakala bisnes ditakrif sebagai pekerjaan seseorang dari sudut personel. Bisnes dalam konteks kajian ini dedifinisikan sebagai segala aktiviti syarikat komersial atau perniagaan yang melibatkan pembelian dan penjualan barangan, pembuatan, pengeluaran dan penjualan barangan perkilangan atau berbentuk pemberian perkhidmatan untuk mendapatkan keuntungan, dalam sektor bisnes di Malaysia. Kajian-kajian tentang keperluan dan kepentingan maklumat turut menunjukkan maklumat bisnes juga diperlukan bagi syarikat untuk membuat keputusan dan perancangan. Kajian-kajian kes tentang keperluan dan penggunaan maklumat di sektor bisnes dan industri menunjukkan bahawa maklumat bisnes merupakan antara perkara terpenting dalam aktiviti bisnes. Ini termasuklah maklumat pelanggan, pembekal, pesaing dan pasaran. Objektif sesuatu organisasi menggunakan Web adalah untuk mengautomasikan proses-proses dan prosedur sedia ada seperti Amazon.com, untuk memaklumkan pelanggan, pembekal, pekerja, masyarakat atau kerajaan iaitu sebagai langkah komunikasi, dan Internet boleh digunakan untuk menjelaskan tawaran atau servis dan perkhidmatan penuh sesebuah syarikat, yang mudah dikemaskini serta lebih murah. Selain itu, organisasi menggunakan web untuk mengubah suatu industri, organisasi atau proses (Zinkhan, 2002). Dalam kajian ini penyelidik ingin mengkaji

kelemahan enjin gelintar atau direktori bisnes sedia ada serta mengenalpasti kepentingan dan cara mengorganisasi atau menstrukturkan maklumat ini dengan berkesan bagi membolehkan capaian yang lebih tepat dan mudah. 1.6 Latar Belakang Kajian Enjin Gelintar Enjin gelintar telah menjadi alat carian paling penting dalam penjelajahan Web. Sejajar dengan perkembangan pantas perkhidmatan carian dan juga produk, timbul keperluan untuk mencari jalan mudah bagi pertukaran maklumat secara automatik. Teknik pengekstrakan maklumat web merupakan satu kaedah yang membolehkan capaian serta pengumpulan data atau maklumat penting tertentu daripada suatu laman web secara automatik, untuk disimpan ke dalam pangkalan data. Terdapat kesukaran untuk mengekstrak maklumat berguna daripada dokumen disebabkan masalah atau kekurangan maklumat berformat pada dokumen. Apa yang diperlukan sebenarnya adalah meta data, iaitu maklumat tentang dokumen dalam format yang betul, contohnya pengarang, tarikh, format, atau bahasa, yang mencirikan dokumen berkenaan. Maklumat meta ini bukanlah sesuatu yang baru. Enjin-enjin gelintar dan direktori membantu kita mendapatkan maklumat spesifik daripada berjuta-juta bahan dan maklumat yang terdapat di web. Kini semakin kurang perbezaan di antara direktori web (seperti Yahoo) dengan enjin gelintar web (seperti Google), kerana kebanyakan enjin gelintar juga telah membangunkan katalog subjek yang besar untuk membantu pencarian. Walau bagaimanapun, Yahoo mengorganisasikan web dengan membahagikannya mengikut topik dan subtopik. Sekiranya perlu mencari maklumat di web yang menepati sesuatu subjek atau kategori secara jelas, adalah sesuai menggunakan Yahoo atau direktori-direktori web yang lain. Enjin gelintar pula mengindekskan web dan membolehkan

352

Page 7: Pembangunan Sistem Dinamik Maklumat Bisnes Malaysia

pengguna mendapatkan sesuatu maklumat atau dokumen yang mengandungi frasa atau perkataan spesifik seperti yang pengguna inginkan. Penggunaan meta tag dalam kepala sesuatu dokumen adalah penting kerana ia membolehkan pemberian kata kunci sendiri untuk diindeks oleh enjin gelintar. Selain itu, deskripsi laman web juga dapat diberikan untuk oleh enjin gelintar sebagai maklumat capaian kepada pengguna atau penyelidik apabila laman yang terbabit dicapai atau dijejaki oleh enjin gelintar. Walau bagaimanapun, tidak semua enjin gelintar mengindeks maklumat kata kunci meta, seperti Google. Langkah yang paling baik untuk diindeks oleh enjin carian adalah dengan menyediakan maklumat atau laman yang direkabentuk, ditulis dan diorganisasi dengan baik, serta berguna dan berfaedah kepada pengguna. Dalam kajian penyelidik, maklumat meta tag yang terdapat pada aturcara laman-laman web tidak mencirikan atau memberi kesemua maklumat yang diperlukan bagi capaian maklumat bisnes dan syarikat. Jika diteliti, tidak semua laman web memberikan kata kunci atau deskripsi meta. Sekiranya diberi, maklumat kata kunci serta deskripsi meta ini juga tidak memberikan atau menggambarkan keseluruhan kandungan dokumen. Berikutan ini, adalah penting bagi penyelidik untuk mengkaji dan memahami masalah, isu serta cara sesuatu enjin carian berfungsi, untuk mendapatkan maklumat dan kefahaman berkenaan fungsi dan peranan sesuatu enjin carian yang mampu mengindeks secara berkesan. 1.7 Masalah Dan Cara Enjin Carian Berfungsi Selain kata kunci yang telah disediakan oleh penulis dokumen Web, (seperti aplikasi meta tag pada HTML), adalah terpulang pada enjin gelintar untuk mengesan atau menentukannya. Ini bermakna enjin gelintar menarik dan mengindeks perkataan-

perkataan yang dipercayai relevan bagi menentukan kandungan dokumen. Menurut Barlow (2004), perkataan-perkataan yang disebut pada bahagian atas dokumen dan diulang beberapa kali dalam dokumen adalah dianggap lebih penting. Terdapat juga sesetengah laman web yang mengindeks setiap perkataan pada setiap laman, atau ada yang mengindeks hanya sebahagian dokumen. Sistem pengindeksan teks penuh biasanya memilih setiap perkataan pada teks kecuali kata-kata henti yang biasa seperti ‘a’, ‘an’, ‘the’, ‘is’, ‘and’, ‘or’, dan ‘www’. Pengguna yang menjalankan pencarian berasaskan kata kunci biasanya sukar mendapatkan maklumat berkenaan perkataan-perkataan yang mempunyai ejaan yang sama, tetapi makna yang berbeza. Ini cenderung menghasilkan keputusan yang tidak relevan dengan kueri. Sesetengah enjin gelintar juga mempunyai masalah dalam melaksanakan fungsi pangkasan. Contohnya, perkataan ‘makanan’ dalam dokumen dan kueri ‘makan’. Enjin gelintar ‘Excite.com’ menjalankan carian berasaskan konsep. Walau bagaimanapun kaedah ini semakin lenyap dan tidak digunakan (Barlow, 2004). Sistem carian atau capaian berasaskan konsep cuba mengesan dan menentukan apa yang dimaksudkan oleh pengguna, bukan sekadar apa yang dimasukkan atau diinput. Sistem berasaskan konsep memulangkan ‘hits’ bagi dokumen-dokumen yang mempunyai subjek atau tema yang hampir sama dengan apa yang dicari oleh pengguna, walaupun perkataan-perkataan tersebut tidak menepati perkataan yang menjadi kueri pengguna. Perisian ‘Excite’ mengesan makna dengan mengira frekuensi bagi perkataan tertentu yang muncul. Kaedah ini menggunakan pendekatan numerik dan juga analisis statistik. Walau bagaimanapun enjin gelintar berasaskan kaedah ini boleh memulangkan ‘hits’ atau keputusan yang berbeza konsep atau tidak relevan dengan apa yang dimaksudkan oleh pengguna.

353

Page 8: Pembangunan Sistem Dinamik Maklumat Bisnes Malaysia

Kebanyakan laman web menawarkan dua jenis carian berbeza iaitu asas dan ‘refined’. Dalam carian asas, pengguna hanya perlu memasukkan kata kunci tanpa perlu memilih atau menapisnya berdasarkan menu pilihan atau pilihan tambahan yang lain. Walau bagaimanapun, bergantung pada enjin gelintar, kaedah carian ini boleh menjadi agak kompleks (Barlow, 2004). Pilihan penapisan atau saringan carian termasuklah kemampuan menjalankan carian berasaskan lebih dari satu perkataan, memberi lebih pemberat kepada satu perkataan carian berbanding yang lain, dan juga mengeluarkan perkataan-perkataan yang dianggap tidak penting. Pengguna juga boleh menjalankan carian berdasarkan nama atau frasa tertentu yang tepat, atau menggunakan perkataan-perkataan yang berdekatan atau mempunyai maksud yang hampir sama dengan perkataan carian lain. Enjin gelintar yang membenarkan carian frasa biasanya menggunakan metod yang mana satu perkataan mesti diikuti oleh perkataan seterusnya seperti yang diinput. Menurut Barlow (2004) dalam artikel The Spider’s Apprentice, kebolehan untuk membenarkan kueri dan capaian berasaskan frasa adalah sangat penting untuk sesebuah enjin gelintar. Barlow (2004) menyatakan bahawa secara umum, teknologi enjin gelintar masih belum mencapai tahap di mana manusia dan komputer memahami atau berkomunikasi dengan cukup baik di antara satu sama lain. Kebanyakan enjin gelintar menggunakan frekuensi perkataan carian sebagai cara utama dalam menentukan kerelevenan sesuatu dokumen. Sesuatu dokumen yang mengandungi perkataan seperti mana kueri pengguna secara berulang-ulang dalam dokumen tersebut mempunyai rasional yang baik untuk meletakkan dokumen tersebut dengan ‘hits’ paling tinggi dan antara dokumen dalam senarai teratas. Sesetengah enjin gelintar mengambil kira kedua-dua frekuensi dan juga kedudukan katakunci dalam menentukan kerelevenan, di mana katakunci yang terdapat pada awal atau kepala dokumen dianggap penting.

Seperti yang telah disebutkan sebelum ini, antara bahagian yang diambil kira oleh sesetengah enjin carian dan termasuk dalam liputan kajian penyelidik adalah berkenaan aspek maklumat meta tag yang terkandung dalam sesuatu laman web. Kajian oleh penyelidik merangkumi peranan maklumat meta tag pada laman web, penggunaan serta format atau cara penyampaiannya dalam sesuatu laman web. Ini adalah penting bagi mengenalpasti kedudukan dan kepentingan meta tag dalam suatu laman web, serta perkaitannya dengan fungsi sesebuah enjin gelintar. 1.8 Meta Tag Sesetengah enjin carian sekarang mengindeks dokumen web menggunakan meta tag dalam kod HTML sesuatu dokumen. Ini bermaksud pembangun laman web turut terlibat dalam pemilihan kata kunci yang akan digunakan untuk mengindeks dokumen, dan juga deskripsi dokumen yang diberikan dan akan dipaparkan apabila dicapai oleh enjin gelintar. Perkara ini adalah penting dalam membolehkan laman web tersebut dicapai dan disenaraikan dalam senarai laman relevan yang dijejak oleh enjin gelintar. Enjin-enjin gelintar yang berlainan memberi keutamaan dan mengindeks meta tag dalam dokumen web dengan cara yang berbeza-beza (Barlow, 2004). Maklumat tajuk dan penerangan pada meta tag adalah penting untuk diberikan secara betul dan efektif, kerana sebahagian besar enjin gelintar menggunakannya sebagai sumber maklumat (Barlow, 2004). Penggunaan kata kunci dan tajuk yang relevan dan berbeza bagi setiap laman web berbeza sangat penting bagi mendapat kata kunci yang lebih banyak. Bagi maklumat deskripsi pada meta tag, sesetengah enjin gelintar menggunakannya sebagai rumusan pendek kandungan sesuatu URL, maka maklumat keterangan meta tag yang relevan adalah sangat penting bagi sesuatu laman web. Menurut Barlow (2004), kebanyakan algoritma enjin gelintar menitik beratkan

354

Page 9: Pembangunan Sistem Dinamik Maklumat Bisnes Malaysia

perkataan yang terdapat pada bahagian atas sesuatu dokumen berbanding dengan perkataan pada bahagian bawah atau akhir. Elemen meta diletakkan di antara elemen kepala pada aturcara laman web untuk memberikan maklumat meta dokumen yang tidak ditakrifkan oleh elemen HTML yang lain. Setiap elemen meta mengandungi maklumat ‘property’ dan nilainya. Atribut ‘name’ memberikan maklumat ‘property’ dan atribut ‘content’ menyatakan nilai ‘property’ tersebut. Contohnya seperti yang berikut: <META name = "Pengarang" content= "Juhana Salim">

Maklumat meta tag ini boleh digunakan bagi mengawal dan memberikan maklumat berkenaan sesuatu laman web untuk diindeks oleh enjin gelintar. Selain itu, abstrak pendek serta maklumat deskripsi laman web juga boleh diberikan. Contoh aturcara meta tag yang mengandungi atribut-atribut tajuk, kata kunci dan juga penerangan adalah seperti berikut: <HTML> <HEAD> <TITLE>The Web Developer's Virtual Library </TITLE> <META NAME = "Keywords" CONTENT =" HTML, CGI, Java, VRML, browsers, plugins,graphics, HTTP servers, JavaScript, Perl, ActiveX, Shockwave"> <META NAME ="Description" CONTENT= "Locate web authoring & software Internet resources at The WDVL, a well-organised goldmine with over 500 pages and thousands of links about HTML, CGI, Java, VRML, browsers, plugins, graphics, HTTP servers, JavaScript, Perl, ActiveX, Shockwave,.."> </HEAD>

Seperti yang dapat dilihat, maklumat ini terkandung dalam bahagian Head HTML. Http-equiv merupakan atribut yang digunakan untuk meletakkan atribut nama (Richmond, 2004). Contoh atribut untuk http-equiv adalah Charset, Content-Language, Content-Type, Default-Style, Expires dan Language. Jika diperhatikan maklumat meta tag bagi http-equiv ini adalah

tidak penting atau kurang relevan bagi fungsi capaian sesebuah enjin gelintar dan boleh diabaikan. Menurut Richmond (2004), enjin gelintar Alta Vista serta beberapa enjin gelintar yang lain mengindeks kesemua perkataan dalam sesuatu dokumen kecuali komen, dan menggunakan beberapa perkataan yang pertama sebagai abstrak kepada pengguna. Keadaan ini membolehkan pemilik laman web mengawal bagaimana lamannya diindeks dengan menggunakan meta tag untuk menyenaraikan kata kunci-kata kunci tambahan untuk diindeks, serta dengan memberikan abstrak ringkas. Kandungan meta dalam sesuatu laman web biasanya tidak dipaparkan oleh pelayar web. Walau bagaimanapun, maklumat meta ini boleh diekstrak oleh pelayan dan klien untuk tujuan mengenalpasti, mengindeks, serta mengkatalog sesuatu dokumen web (Richmond, 2004). Kata kunci pada meta tag boleh digunakan untuk menyenaraikan kata kunci-kata kunci tambahan atau sinonim yang menerangkan kandungan sesuatu laman web. Katakunci pada meta tag juga boleh digunakan dalam proses pengindeksan. Panjangnya boleh mencecah hingga 1000 abjad. Meta deskripsi dalam meta tag sesuatu laman web adalah sangat penting (Richmond, 2004). Menurut Richmond, sekiranya deskripsi diberikan pada meta tag, maka pengguna akan melihat abstrak atau maklumat yang merupakan deskripsi tersebut, seperti mana yang dinyatakan oleh enjin gelintar Alta Vista dan Infoseek. Tag tajuk adalah sangat penting bagi kesemua enjin gelintar (Sullivan, 2002). Teks yang digunakan pada tag tajuk merupakan faktor paling penting yang menentukan bagaimana sesuatu enjin gelintar menentukan pemangkatan sesuatu laman web. Selain itu, kebanyakan ‘crawlers’ akan menggunakan teks pada tajuk tag sebagai teks yang mewakili tajuk atau topik sesuatu dokumen web dalam paparan senarai cariannya. Contoh paparan keputusan senarai tajuk laman web oleh Teoma adalah seperti berikut:

355

Page 10: Pembangunan Sistem Dinamik Maklumat Bisnes Malaysia

Tidak semua enjin gelintar menggunakan penerangan meta tag. Contohnya, Google mengabaikan meta deskripsi ini sebaliknya menjana deskripsi sendiri bagi mewakili sesuatu dokumen web. Enjin-enjin gelintar biasanya menyokong penggunaan meta tag penerangan secara separa, di mana deskripsi ini tetap dipaparkan walaupun bukan secara keseluruhan (Sullivan dan Sherman, 2002). Jika dilihat pada contoh paparan senarai keputusan laman web oleh Teoma yang dibincangkan sebelum ini, bahagian pertama deskripsi laman web yang dipaparkan adalah diambil daripada meta tag penerangan, manakala bahagian yang berikutnya adalah daripada ‘body’ laman web tersebut. Secara keseluruhannya, penggunaan meta tag penerangan ini tetap penting bagi sesuatu laman web yang dibangunkan kerana ia biasanya membenarkan kawalan terhadap deskripsi dokumen web bagi kebanyakan ‘crawlers’ atau enjin gelintar yang pelbagai (Sullivan, 2002) . Menurut Sullivan (2002), maklumat meta tag kata kunci membenarkan pembangun laman web memberikan senarai kata kunci tambahan yang dirasakan relevan dengan kandungan dokumen, untuk diindeks oleh enjin gelintar selain kandungan dalam ‘body’ pada dokumen. Walau bagaimanapun, pada masa kini tidak semua ‘crawlers’ atau enjin gelintar menyokong penggunaan meta tag kata kunci. Maklumat kata kunci pada meta tag biasanya turut dibandingkan dengan teks daripada bahagian ‘body’ dokumen. Penggunaannya pada meta tag kata kunci mengurangkan kemungkinan kegagalan capaian sekiranya pengguna menggunakan perkataan agak berbeza sebagai kueri (Sullivan, 2002). Pada masa kini terdapat segelintir ‘crawlers’ yang masih mengindeks perkataan pada meta tag kata kunci sesuatu dokumen web. Senarai kata kunci bagi meta tag kata kunci diberikan antara tanda “ ” selepas bahagian atau perkataan name=“keywords” dan content= pada meta tag, seperti contoh yang berikut:

<META NAME = "Keywords" CONTENT = " HTML, CGI, Java, VRML, browsers, plugins, graphics, HTTP servers, JavaScript, Perl, ActiveX, Shockwave">

Seperti yang telah dijelaskan, beberapa maklumat meta tag adalah masih penting untuk diindeks bagi mendapatkan maklumat umum yang penting contohnya ‘title’ dan juga ‘description’, sekiranya ada. Maklumat-maklumat ini diindeks dan disimpan melalui teknologi atau kaedah yang dicadangkan penyelidik, iaitu pengekstrakan maklumat web. Perbincangan yang berikut akan menerangkan berkenaan teknologi atau teknik pengekstrakan serta penggunaannya dalam pengindeksan dan persekitaran web. 1.9 Teknologi Pengekstrakan Maklumat Web Maklumat meta dihasilkan dengan banyak secara automatik. Kekurangan penglibatan manusia menjejaskan setiap aspek proses penghasilan maklumat meta. Dalam beberapa kes, penghasilan maklumat meta tertentu adalah tidak berguna, atau remeh. Mewujudkan atau menghasilkan maklumat meta yang berguna untuk semua tujuan praktikal adalah mustahil contohnya dalam pemilihan kata kunci dalam sesuatu dokumen. (Shimizu, 2004). Memberi pemberat, mengisih dan mempiawaikan bentuk perkataan merupakan language-specific task. Pemberian pemberat pada perkataan adalah menggunakan frekuensi perkataan atau metod kekerapan dokumen songsang. Salah satu contoh implementasi adalah pengiraan pemberat perkataan berasaskan perkataan-perkataan yang dicantas, dan penapisan untuk mendapatkan senarai kata henti. Salton (1988) telah mencadangkan bahawa pengindeksan terbaik adalah istilah yang kerap muncul pada dokumen individu tetapi jarang muncul pada koleksi keseluruhannya. Formula yang dicadangkan adalah untuk pengiraan pemberat istilah pengindeksan ialah

Wij = tfij X log N/dfi

356

Page 11: Pembangunan Sistem Dinamik Maklumat Bisnes Malaysia

dimana : Wij adalah pemberat istilah Tj dalam dokumen Di tfij adalah kekerapan istilah untuk istilah Tj dalam dokumen Di dfi adalah bilangan dokumen dalam koleksi N dimana istilah Tj berada

Langkah untuk menyediakan pengindeksan automatik adalah : i. Kenalpasti semua perkataan pada semua

dokumen di dalam koleksi. ii. Hapuskan semua perkataan kata henti. iii. Dapatkan kata akar untuk perkataan.

Pendekatan ini membantu mengurangkan jumlah perkataan dan contoh penggunaan kata akar adalah seperti makan untuk memakan, dimakan, makanan dan termakan.

iv. Menjumlahkan nilai Wij untuk setiap istilah tj dalam setiap dokumen Di

v. Selepas memberi pemberat kepada istilah, istilah yang mempunyai pemberat yang rendah boleh dihapuskan.

Salah satu aplikasi yang perlu menitikberatkan proses pembuangan kata henti serta pemberian pemberat ini adalah pengekstrakan maklumat, atau perisian IE. Ini bagi membolehkan proses pengindeksan dan capaian maklumat web secara berkesan. Perisian pengekstrakan maklumat (IE) mengesan dan mengeluarkan maklumat yang relevan daripada teks, menarik maklumat daripada pelbagai sumber, dan mengumpulkannya (Adams, 2001). IE menterjemahkan kandungan kepada bentuk yang homogen atau sama jenis menggunakan teknologi seperti XML. Matlamat perisian IE adalah untuk memindahkan kandungan atau teks kepada bentuk berstruktur atau pangkalan data. Dengan cara ini, dokumen yang terdiri daripada pelbagai jenis/format adalah dirumus dan dipersembahkan dalam bentuk yang piawai. Sebagai contoh, aplikasi perisian pengekstrakan maklumat yang direkabentuk untuk mengawal artikel-artikel teknikal berkenaan Sains Maklumat, akan dapat mengeluarkan nama-nama Profesor, kajian penyelidikan, topik yang diminati,

maklumat konferens, penerbitan, berita atau emel dan menyimpan atau mengkodkan maklumat ini dalam struktur pangkalan data. Maklumat-maklumat berstruktur dalam suatu pangkalan data dapat disusun atau diarahkan sebagai suatu taksonomi. Menurut Adams (2001), dua metod utama dalam teknologi pengekstrakan maklumat iaitu ‘natural language processing’ dan induksi ‘wrapper’ memberi beberapa faedah atau sumbangan penting: i. Membantu pengguna akhir untuk

menjelajah maklumat digital yang terlalu banyak dan membanjiri web.

ii. Membantu pengaksesan ‘hidden web’, iaitu laman yang terhasil daripada pangkalan data yang mempunyai hubungan yang dipapar hasil daripada kueri pengguna.

iii. Sebahagian daripada tradisi besar kini ke arah memecahkan web kepada bentuk atau bahagian yang lebih kecil dan mudah diuruskan.

Mengikut Adams (2001), teknologi pengekstrakan maklumat adalah sebahagian daripada teknik terkini yang memecahkan kandungan serta mempersembahkannya semula dalam potongan-potongan yang lebih kecil. Oleh kerana teknologi ini mengumpul dan mensintesiskan kandungan daripada pelbagai sumber web, maka ia menyumbang dan memperkenalkan kaedah pencarian maklumat digital secara lebih efisien. Pengekstrakan data daripada laman web secara separa automatik adalah diperlukan dalam kajian ini bagi membolehkan pengumpulan data bisnes dan syarikat, selain membenarkan input maklumat tambahan yang penting, yang seterusnya menyokong pencarian secara spesifik dan tepat. Penyelidik mencadangkan kaedah pengekstrakan data daripada laman web untuk mendapatkan dan mengumpul maklumat-maklumat relevan daripada laman web bisnes, disebabkan oleh peranan serta kelebihan teknik pengekstrakan yang akan dihuraikan dalam perbincangan seterusnya.

357

Page 12: Pembangunan Sistem Dinamik Maklumat Bisnes Malaysia

1.10 Pengekstrakan Data Secara Automatik Daripada Laman Web

Amaun maklumat yang semakin banyak dan meluas dalam format HTML yang boleh didapati secara atas talian pada masa kini menjadikan Web sebagai asas atau sumber pengetahuan yang terbesar yang dibangunkan dan dapat diakses oleh masyarakat umum. Walau bagaimanapun laman-laman HTML ini dibangunkan dalam format yang mana kandungan datanya adalah sukar untuk diakses dan dimanipulasikan. Ini menjadikan pengekstrakan data daripada laman-laman web dan menggunakannya melalui aplikasi komputer memerlukan tugas yang relevan serta kompleks. Pengekstrakan data daripada HTML biasanya dilakukan oleh modul-modul perisian yang dikenali sebagai ‘wrappers’. Antara contoh pengekstrakan maklumat daripada laman web secara automatik adalah menggunakan proses penghasilan ‘wrapper’, yang tidak bergantung pada pengetahuan awal tentang laman-laman yang perlu disasar serta kandungannya. Contoh yang menggunakan aplikasi penghasilan ‘wrapper’ untuk pengekstrakan maklumat web dalam perspektif yang baru memberikan ciri-ciri berikut: i. Sistem tidak bergantung kepada contoh-

contoh spesifikasi pengguna dan tidak memerlukan interaksi dengan pengguna dalam proses penjanaan ‘wrapper’.

ii. Penjanaan ‘wrapper’ tidak melibatkan pengetahuan awal tentang kandungan laman web, skema ini adalah dirumus sejajar atau serentak dengan ‘wrapper’.

iii. Pendekatan ‘novel’ digunakan untuk merumus atau menghasilkan ‘wrapper’ untuk laman-laman web, bertujuan untuk membezakan jenis atau format yang berguna dan tidak berguna, di mana sistem ini bekerja dengan dua laman HTML pada satu masa. Penemuan atau rumusan ‘pattern’ adalah berasaskan pembelajaran persamaan dan juga perbezaan antara laman tersebut. Perbandingan atau pemadanan digunakan

untuk menentukan struktur-struktur yang relevan.

Menurut Crescenzi (2001), teknik pemadanan yang digunakan dalam pengekstrakan data secara automatik dikenali sebagai ACME, yang membawa maksud ‘Align, Collapse under Mismatch, and Extract’. Mengikut kajian dalam artikel ini, kod HTML atau aturcara yang terlibat dianggap telah menjalani pre-proses oleh analisa leksikal, bagi menukarkannya kepada senarai token, di mana setiap token adalah sama ada dalam bentuk tag HTML atau nilai rentetan. Algoritma pemadanan bekerja pada dua objek dalam satu masa, iaitu senarai token atau dipanggil sampel, dan juga ‘wrapper’. Berdasarkan dua laman HTML, salah satu laman tersebut diambil sebagai versi permulaan ‘wrapper’, dan seterusnya ia bertindak mencari ‘regular expression’ yang biasa atau piawai bagi kedua-dua laman web. Ini dilakukan dengan menyelesaikan ketidaksepadanan (‘mismatches’) di antara ‘wrapper’ dan juga sampel tersebut. Algoritma pemadanan ini melibatkan penceraian atau penghuraian sampel menggunakan ‘wrapper’. Ketidaksepadanan berlaku apabila sesetengah token pada sampel tidak sepadan atau bersesuaian dengan nahu yang ditakrifkan oleh ‘wrapper’. Satu ketidaksepadanan yang ditemui diselesaikan dengan membuat generalisasi pada ‘wrapper’. Algoritma ini dikatakan berjaya sekiranya ‘wrapper’ yang piawai dapat dijana dengan menyelesaikan kesemua ketidaksepadanan yang didapati dalam proses penghuraian sampel. Untuk mengelakkan pengumpulan banyak data, domain ‘wrapper’ perlu dikurangkan (Adams, 2001). Penyelidik perlu mengkaji berkenaan kelebihan dan kekurangan kaedah pengekstrakan menggunakan ‘wrapper’ ini kerana ia merupakan salah satu teknik yang boleh diaplikasikan dalam pengekstrakan maklumat web bagi pembangunan enjin gelintar. Beberapa kepentingan kaedah pengekstrakan maklumat web dalam

358

Page 13: Pembangunan Sistem Dinamik Maklumat Bisnes Malaysia

pembangunan kajian telah dikenalpasti dan dihuraikan dalam perbincangan yang berikutnya. 1.11 Kepentingan Kaedah

Pengekstrakan Maklumat Web Pada Enjin Gelintar

Akses kepada maklumat akan meningkat sekiranya maklumat dari pelbagai format yang berbeza boleh diekstrak dan diintegrasikan kepada satu bentuk berstruktur. Oleh kerana IE menukar maklumat daripada dokumen teks kepada entri pangkalan data, ia memainkan peranan dalam membantu dan menjadikan penemuan pengetahuan secara dalam talian lebih baik. Perisian pengekstrakan maklumat mempunyai potensi untuk menukar Web kepada bentuk pangkalan data berstruktur (Adams, 2001). Penyelidik menggunakan kaedah pengekstrakan maklumat web untuk mendapatkan maklumat dokumen web bisnes Malaysia secara separa automatik. Ini dapat dicapai melalui pengekstrakan kandungan meta tag, hyperlinks dan kandungan dokumen web, serta disokong oleh perisian ‘Web browser’ yang dibangunkan untuk tujuan pengekstrakan serta input maklumat tambahan dokumen web. Kaedah pengekstrakan maklumat dipilih bagi tujuan memudahkan input maklumat laman web pada pangkalan data secara lebih cepat, ringkas dan efisien. Kaedah pengekstrakan juga dipilih kerana kaedah ini berkeupayaan membantu pengguna akhir untuk menjelajah maklumat digital yang banyak dan membanjiri web, serta dapat membantu pengaksesan ‘hidden web’, iaitu laman yang terhasil daripada pangkalan data yang mempunyai hubungan yang dipapar hasil daripada kueri pengguna (Adams, 2001). ‘Hidden Web’ adalah salah satu contoh bagaimana struktur dokumen boleh dieksploitasi menggunakan teknologi pengekstrakan maklumat. Penyelidik menggunakan kaedah ini bagi tujuan memudahkan proses input maklumat bisnes

atau laman web syarikat Malaysia secara lebih efektif, dan seterusnya membantu capaian atau pengaksesan maklumat web bisnes dan syarikat secara dalam talian. Pengekstrakan data atau maklumat web bagi kajian penyelidik diaplikasikan melalui pembangunan perisian pengekstrakan maklumat web secara automatik dan juga pembangunan ‘Web browser’ yang bertujuan membantu proses input maklumat tambahan bisnes yang penting secara mudah, bagi membolehkan pencarian berskop atau spesifik secara tepat oleh enjin carian. 2 Aliran Kerja Pengekstrakan Maklumat

Oleh Enjin Carian Dan Pembangunan Pelayar Web

Dalam kajian penyelidik, pengekstrakan kandungan laman web adalah penting dan perlu bagi mendapatkan senarai kata kunci yang relevan dan mencerminkan kandungan suatu laman web. Aliran kerja bagi pengekstrakan kandungan laman web bisnes yang dijalankan oleh sistem pengekstrakan kandungan web secara automatik dalam kajian pembangunan enjin gelintar penyelidik adalah seperti berikut: i. Laman-laman web atau dokumen web

disimpan pada fail sistem. ii. Pencarian laman web dilakukan oleh

sistem yang membaca dan menulis atau merekod setiap perkataan dalam XML.

iii. Penyemakan teks atau kandungan laman-laman web tersebut dilakukan dan dikenalpasti oleh enjin gelintar.

iv. Kod HTML dikenalpasti dan dibersihkan, dan semua perkataan atau teks diekstrak daripada kesemua laman web yang ada dalam fail sistem.

v. Proses pembuangan kata henti dijalankan pada kandungan web yang diekstrak

vi. Hasil data-data yang diperoleh disimpan menggunakan dataset yang dijana dengan menggunakan XML

359

Page 14: Pembangunan Sistem Dinamik Maklumat Bisnes Malaysia

Rajah 1: Aliran Kerja Pengekstrakan Kandungan Web oleh Enjin Carian

Selain pengekstrakan meta tag, pautan serta kandungan suatu laman web, penyelidik juga bercadang untuk membantu proses pengekstrakan maklumat oleh enjin carian denganmembangunkan perisian ‘web browser’ yang turut mengekstrak maklumat-maklumat penting tajuk dan URL laman web secara automatik. Kandungan suatu laman web diekstrak menggunakan teknologi XML untuk dijadikan kata kunci dan seterusnya diinput kepada ‘web browser’. Selain itu, perisian ini dapat membantu proses input pada enjin carian dengan membenarkan input maklumat-maklumat tambahan laman web yang penting secara manual namun mudah dan efektif, pada antaramuka yang sama pada ‘web browser’. Contoh maklumat-maklumat penting yang boleh ditambah adalah maklumat subjek, negeri dan syarikat. Aliran kerja bagi input maklumat web bisnes secara separa automatik menggunakan ‘web

browser’ bagi membantu capaian maklumat secara spesifik adalah seperti berikut: i. Alamat web atau URL dokumen web

dimasukkan pada antaramuka sistem ii. Berdasarkan pada alamat web, laman

web yang berkaitan serta kod aturcaranya akan dipaparkan oleh ‘web browser’.

iii. Enjin gelintar akan mengenalpasti maklumat meta tag penting dan penyemakan atribut web dilakukan iaitu judul, URL, dan keterangan laman web serta tarikh ekstrak dikenalpasti.

Dokumen web

iv. Proses pengekstrakan URL, judul dan meta tag penting dilaksanakan setelah data-data daripada laman web dihantar kepada sistem/enjin gelintar dan dipaparkan secara automatik.

v. Kandungan laman web diekstrak untuk dijadikan kata kunci menggunakan perisian yang mengaplikasikan teknologi XML dan seterusnya diinput kepada ‘web browser’.

vi. Maklumat-maklumat penting subjek, syarikat dan negeri seperti yang dapat dilihat pada laman web dan aturcara yang dipaparkan diinput pada ruang yang disediakan pada antaramuka pengekstrakan ‘web browser’.

vii. Hasil pengekstrakan data meta tag, kandungan atau kata kunci laman web serta maklumat web tambahan yang diinputkan disimpan ke dalam pangkalan data.

3 Hasil Kajian Semasa Hasil kajian semasa dalam penyelidikan pembangunan sistem dinamik maklumat bisnes yang mengaplikasikan teknik pengekstrakan maklumat web dapat dilihat Rajah 2. Maklumat atau kandungan laman web akan dicapai dan ditulis dalam format XML setelah kesemua dokumen web yang ingin diekstrak disimpan dalam fail sistem. Fungsi ini dilakukan melalui antaramuka pada Rajah 3. Setelah kandungan web diekstrak dan ditulis dalam XML, kandungan kesemua laman web yang telah disimpan dapat dilihat pada laman XML seperti pada Rajah 4.

Dataset XML

Penyemakan HTML

Pembersihan HTML daripada laman web

Pengekstrakan teks atau kandungan web

Pembuangan kata henti

360

Page 15: Pembangunan Sistem Dinamik Maklumat Bisnes Malaysia

Rajah 2: Aliran Kerja Pengekstrakan Meta

tag dan Input Maklumat Tambahan oleh ‘Web browser’

Rajah 3: Kandungan web ditulis dalam

bentuk fail XML setelah dokumen-dokumen web disimpan pada fail sistem

Alamat web/URL

Rajah 4: Kandungan web yang diekstrak secara automatik disimpan dalam bentuk fail

XML

Paparan laman web dan kod aturcara oleh ‘Web browser’

Rajah 5: Antaramuka ‘Web Browser’

bahagian paparan web Rajah 5 dan 6 menunjukkan antaramuka bagi Web Browser yang dibangunkan untuk tujuan input kesemua maklumat web yang berguna secara separa automatik. Rajah 5 menunjukkan paparan web bagi laman web yang ingin diekstrak. Web browser yang dibangunkan berfungsi seperti pelayar web dan ini memudahkan pangaksesan, semakan serta pengambilan maklumat web tambahan apabila perlu, untuk tujuan input tambahan pada pangkalan data. Rajah 6 menunjukkan maklumat-maklumat relevan laman web bisnes yang perlu diinput ke dalam pangkalan data. Maklumat tajuk, URL, dan tarikh dihasilkan secara automatik. Tajuk dan URL diekstrak secara automatik berdasarkan pada paparan web setelah alamat URL dimasukkan, atau dilarikan. Deskripsi web atau kata kunci tambahan diinput berdasarkan maklumat meta tag suatu laman web, sekiranya diberikan. Maklumat-maklumat ini diekstrak bersama tajuk dan kesemua maklumat meta tag yang dapat

Pangkalan data

Pengguna

Capaian maklumat bisnes pada pelayan /

Internet

Penyemakan atribut meta tag

Pengekstrakan maklumat URL, judul, keterangan dan

tarikh

Input hasil pengekstrakan kandungan web yang menggunakan XML

Input maklumat web tambahan pada antaramuka yang sama

361

Page 16: Pembangunan Sistem Dinamik Maklumat Bisnes Malaysia

dilihat pada bahagian ‘Deskripsi Lain’ pada Rajah 6. Maklumat-maklumat ini dibuang secara manual sekiranya tidak mengandungi meta tag deskripsi atau kata kunci yang berguna, atau diedit jika mengandungi maklumat meta tag yang relevan. Kandungan laman-laman web yang diekstrak menggunakan XML ditambah pada bahagian ‘Kandungan Laman’ pada Web Browser seperti pada Rajah 6. Selain itu, maklumat-maklumat penting lain yang boleh ditambah termasuklah maklumat negeri, produk (sekiranya perlu), kawasan dan subjek bisnes laman web tersebut. Ini adalah penting bagi menyediakan pencarian spesifik atau mengikut beberapa spesifikasi pengguna pada enjin gelintar yang dibangunkan. Kesemua maklumat pada Rajah 6 disimpan ke dalam pangkalan data dengan mengklik ikon ‘DB’ pada bahagian atas antaramuka Web Browser.

Rajah 6: Antaramuka ‘Web Browser’ yang menunjukkan bagaimana maklumat web yang relevan dapat ditambah dan disimpan dalam pangkalan data 4 Kesimpulan Kajian dan tinjauan yang dilakukan oleh penyelidik mendapati enjin-enjin gelintar atau direktori-direktori bisnes yang dibangunkan masih mempunyai kelemahan dan kekurangan kerana masih tidak membantu capaian maklumat bisnes secara tepat dan optimum, iaitu tidak memenuhi keperluan bisnes secara berkesan. Direktori atau enjin gelintar pencarian maklumat bisnes Malaysia terutamanya, sangat kecil bilangannya dan tidak menyokong capaian

maklumat bisnes secara lebih tepat dan berkesan, jika dibandingkan dengan direktori-direktori bisnes luar negara, seperti Business.com dan Yahoo!. Dengan ini, penyelidik telah menilai semula enjin gelintar dan direktori bisnes yang sedia ada dan memperbaiki capaian maklumat bisnes di Malaysia melalui pembangunan enjin gelintar capaian maklumat bisnes bagi memenuhi keperluan capaian maklumat kompleks bisnes yang lebih tepat dengan mengaplikasikan metod atau kaedah pengekstrakan maklumat web 5 Rujukan Adams, K. 2001. The Web as Database: New

Extraction Technologies and Content Management. (dalam talian) http:// searchenginewatch.com/webmasters/article.php/2167931 (9 Jun 2004)

Barlow, L. 2004. How Search Engines Work. (dalam talian) http://www.monash. com/spidap4.html (11 Mei 2004)

Barlow, L. 2002. Spidap’s Basic Search Engine FAQ. (dalam talian) http://www.monash.com/spidap2. html (15 Mei 2004)

Chowdury, S. (2003). Databases, data mining and beyond. Journal of American Academy of Business. 2(1): 576-580.

Gogog. 2003. Malaysia Directory: Automotive. (dalam talian) http:// Malaysia.us/directory/Top/Regional/Asia/Malaysia/Business%20and%20Economy/Automotive/5853255 (5 November 2004)

Koch, T. 1999. The role of classification schemes in Internet resource description and discovery. (dalam talian) http://www. lub.lu.se/desire/radar/reports /D3.2.3/ (23 Oktober 2004)

Hileytech Sdn.Bhd. 2000. Company Listing Home: Automobiles. (dalam talian) http://www.malaysia-index.com/ automobiles.htm (25 Ogos 2004)

Malaysia.Designerz.com. 2003. Malaysia Business Economy Automotive. (dalam talian) http://malaysia.designerz.com/

362

Page 17: Pembangunan Sistem Dinamik Maklumat Bisnes Malaysia

malaysia-business-economy-automotive.php (5 November 2004)

Richmond, A. 2004. HTML’s META-tag. (dalam talian) http://wdvl.com/ Authoring/HTML/Head (30 Jun 2004).

Sullivan, D. 2002. How To Use HTML Meta Tags. (dalam talian) http://searchenginewatch.com/ webmasters/article.php/2167931 (2 Ogos 2004)

Shimizu, S. & Kambayashi, T. 2004. A Framework for Multilingual Searching and Meta- information Extraction. (dalam talian) http://www.isoc.org/ inet97/proceedings/A8/A8_3.HTM (9 Jun 2004)

363