行政院國家科學委員會專題研究計畫...

13
行政院國家科學委員會專題研究計畫 成果報告 台語羅馬字網站架設工具之研發 計畫類別: 個別型計畫 計畫編號: NSC94-2218-E-168-001- 執行期間: 94 年 08 月 01 日至 95 年 07 月 31 日 執行單位: 崑山科技大學資訊管理系 計畫主持人: 蔡哲民 計畫參與人員: 周家弘,賴峻廷 報告類型: 精簡報告 處理方式: 本計畫可公開查詢 中 華 民 國 95 年 10 月 13 日

Transcript of 行政院國家科學委員會專題研究計畫...

  • 行政院國家科學委員會專題研究計畫 成果報告

    台語羅馬字網站架設工具之研發

    計畫類別:個別型計畫

    計畫編號: NSC94-2218-E-168-001-

    執行期間: 94 年 08 月 01 日至 95 年 07 月 31 日

    執行單位:崑山科技大學資訊管理系

    計畫主持人:蔡哲民

    計畫參與人員:周家弘,賴峻廷

    報告類型:精簡報告

    處理方式:本計畫可公開查詢

    中 華 民 國 95 年 10 月 13 日

  • 行政院國家科學委員會補助專題研究計畫 ■ 成 果 報 告 □期中進度報告

    台語羅馬字網站架設工具之研發

    Development of Tools for Taiwanese Romanizition Websites

    計畫類別:■ 個別型計畫 □ 整合型計畫

    計畫編號:NSC 94-2218-E-168-001- 執行期間: 九十四年八月一日 至 九十五年七月三十一日

    計畫主持人:蔡哲民 崑山科技大學資訊管理系 助理教授

    計畫參與人員:周家弘 崑山科技大學資訊管理系 碩士班研究生

    賴峻廷 崑山科技大學資訊管理系 碩士班研究生

    成果報告類型(依經費核定清單規定繳交):■精簡報告 □完整報告

    本成果報告包括以下應繳交之附件:

    □赴國外出差或研習心得報告一份

    □赴大陸地區出差或研習心得報告一份

    □出席國際學術會議心得報告及發表之論文各一份

    □國際合作研究計畫國外研究報告書一份

    處理方式:除產學合作研究計畫、提升產業技術及人才培育研究計畫、列

    管計畫及下列情形者外,得立即公開查詢

    □涉及專利或其他智慧財產權,□一年□二年後可公開查詢

    執行單位:崑山科技大學資訊管理系

    中 華 民 國 九十五 年 十 月 十五 日

  • 1

    行政院國家科學委員會專題研究計畫成果報告 台語羅馬字網站架設工具之研發

    Development of Tools for Taiwanese Romanizition Websites 計畫編號:NSC 94-2218-E-168-001- 執行期限:94 年 8 月 1 日至 95 年 7 月 31 日

    主持人:蔡哲民 崑山科技大學資訊管理系 [email protected]

    中文摘要

    本計畫完成一套台語羅馬字架設工

    具,其包括一套內容管理系統,將網站分

    成數個專欄,每個專欄可由多人分別管

    理。內容管理系統內的文章是以數字調號

    的編碼方式存在於資料庫中,並透過發佈

    成靜態網頁的過程來轉變成網站資料。

    羅馬字展示子系統就是用來將此數字

    調號編碼台語文件轉換成 Unicode 或內嵌台語文字圖形網頁。此子系統利用台語羅

    馬字的編碼原則,降低台語與英文混合時

    的轉換錯誤率。

    漢羅翻寫子系統利用三個片語表來協

    助使用者將全羅馬拼音文件轉換成漢羅形

    式的文件,以利台語文件的傳播。並為了

    運用方便,提供 PHP、Java Applet、Java Application 三種版本程式供使用者選擇使用。

    除了整合性的網站管理工具外,也有

    台語留言板、台語佈告欄等較為獨立之工

    具可供網站管理者安裝使用。

    整 個 計 畫 產 生 的 原 始 碼 可 由

    http://ttrw.vexp.idv.tw中取得。 關鍵詞:台語羅馬字、台語網頁、台語編

    碼轉換、漢羅翻寫 Abstract

    This project aims at developing several tools for Taiwanese romanization web-sites, which include a content management system, a romanization fonts presenting system, a code translation system, a Taiwanese Han-lo transcription system, and the guest book system.

    The content management system is based on a database and used to manage the whole web-site. The guest book system is used to provide interactive functions on Taiwanese romanization web-sites.

    Taiwanese-Romanization documents can’t be read through general web browser directly because of their special fonts and browser supporting shortage. The romanization fonts presenting system is used to solve this problem by translating the romanization fonts into graphs.

    In addition to website management systems and related guest book systems, this project also develops a tool for Taiwanese Han-Lo transcription. A Java program is developed for online and offline environment. Romanization documents can be transcripted into Han-Lo form through three phrase tables with this program.

    In order to expedite Taiwanese documents into websites, this project also builds a code-translation system to translate several other Taiwanese-Romanization codes into UNICODE format.

    The source code of this project can be retrieved from http://ttrw.vexp.idv.tw .

    Keywords: Taiwanese-Romanization,

    Taiwanese-Romanation website

  • 2

    一、前言

    台語是一種弱勢語言,雖然日常生活中

    使用台語的人數不少,但是真正以台語書

    寫的文件不多見,更遑論以台語為主要語

    言的網站了。

    其主要的原因,除了因早期推行國語運

    動造成知識份子對台語的不熟悉外,也因

    為其他總總歷史與技術上的困難導致台語

    網站難以架設或經營。

    站在保存台灣語言、文化的立場,如何

    解決這些歷史或技術上的困難,使得有意

    願架設台語網站的人可以順利取得網站架

    設工具,是今日的重要課題。

    二、研究目的 為了解決上述的問題,因此我們擬開發

    一套支援台語羅馬拼音系統的網頁內容管

    理系統。該系統提供台語羅馬拼音系統網

    頁產生、管理與查詢能力,並提供使用者

    利用台語進行留言互動之能力。該系統將

    讓使用者不需要安裝任何特殊字形即可閱

    讀網頁、參與互動並進行網站內容查詢,

    輸入時也無須加入特殊的 tag 就能處理大

    部分全羅馬拼音或漢羅混合的文件。該系

    統擬支援 PostgreSQL、MySQL 等常用的open source 資料庫。使得台語文的使用者也能夠有簡單易用的 Open Source 架站工具。

    三、文獻探討 台語一直沒有一套統一的「文字標

    準」,造成台語文件的書寫不易。現存的

    台語文件使用的「文字標準」,除了最早

    期傳教士流傳下來的「台語羅馬字」(或

    稱「白話字」)之外,還有 TLPA[1]等系統。不過目前存留的台語文件中,還是以

    「台語羅馬字」為最大宗[5],因此本研究是以台語羅馬字網站為標的。

    除了文字標準差異之外,台語電腦化也

    面臨中文電腦化初期遭遇的「萬碼奔騰」

    問題。目前,即使是最多人用的「台語羅

    馬字」,其「調號」與「鼻音」使用的特

    殊 字 元 , 也 因 為 歷 史 的 因 素 而 有

    HOTSYS[9]、Taiwanese Package(TP)[7]等不同的編碼系統與相對應的特殊字形[8]。不過這樣的「萬碼奔騰」問題,在 2004 年ISO 組織通過將台語羅馬字特殊調字元加入 Unicode 之後會慢慢有所改善。

    但也由於台語羅馬字特殊字元遲至2004 年才被接受進入 Unicode,所以目前大多數的電腦軟硬體環境並無法完整的顯

    示台語字元,其中「o͘」這類具有葫蘆點的

    字型,更是目前廣泛使用的商業字形尚未

    支援的[2]。即使安裝了支援台語字元的Unicode 字形,如果使用 Internet Explorer 瀏覽器,網頁不經過特別的處理也無法正

    確顯示台語字元。因此,台灣網際網路普

    及率雖然已經將近 50%[6],但網際網路上還是很難找到以台語為主要語言的網站。

    即使找到台語網站,使用者也需要安裝特

    殊字形、使用 FireFox 等瀏覽器才能正確閱讀台語文章。

    在網站內容方面,由於目前能夠使用

    台語羅馬字拼音系統的使用者不多,為了

    強化台語文獻的傳播能力,便有了「台語

    漢羅系統」出現,該系統以漢字來表達讀

    音確定的台語,對於少數無法準確表達的

    台語,還是以羅馬拼音來表達。這種方法

    的確是讓台語文件比較容易被熟悉中文的

    讀者接受,但除了一開始就是漢羅寫法的

    文件之外,其他羅馬拼音文件都是要透過

    改寫的方式翻寫成漢羅文件。而現階段這

    種羅馬拼音轉成漢羅的翻寫動作,多半是

    在文書處理軟體中利用 search and replace的方式完成,耗費大量時間與人力。如能

    累積足夠的漢羅轉換的片語與專有名詞對

    照數量,建立一套自動轉換機制,將可大

    量加速台語漢羅文件的產生速度,間接提

    昇台語文件流傳的廣度。

  • 3

    站在保存台灣語言、文化的立場,能夠讓使用者利用一般電腦與瀏覽器,無須

    下載特殊字型與做特別的設定就能瀏覽台

    語羅馬字網頁,又可使用熟悉的中文為輔

    助閱讀漢羅文件,實在是一個非常重要的

    課題。另外,如果要長期經營一個網站,

    不太可能依靠手寫 HTML 來更新內容,必須依靠自動化的內容管理系統,才容易做

    到分層負責、輕鬆管理的境界。

    四、研究方法

    為了解決前述台語網站的需求,我們利

    用 Java、PHP 等程式語言配合 Open Source的 FreeType[12]、GD 函式庫[11]等,開發了一套台語羅馬字網站架設工具。其包括

    一套內容管理系統、台語羅馬字展示系

    統,以及週邊的台語編碼轉換工具、全羅

    轉漢羅工具及支援台語羅馬字的留言板、

    公佈欄。並將此架設工具應用在一個每週

    更新一次的台語網站[13]中運作,以驗證其可行性。

    以下我們將介紹本系統的架構與主要

    子系統支結構,並對各主要子系統之運作

    做一比較與討論。本系之程式碼可於

    http://ttrw.vexp.idv.tw 下載。

    4.1 系統架構 本系統的架構圖如圖 1,是以一個內容

    管理系統為核心。資料庫中的文件資料是

    以數字調號格式存放,並且可以在網頁管

    理者的控制下,透過羅馬字展示系統定期

    發佈成靜態的圖形或 Unicode 網頁供使用者閱讀。

    為了讓一般使用者無須下載特殊字型就可以閱讀台語網頁,羅馬字展示系統可

    將資料庫中的數字調號羅馬字轉換為圖形

    或 Unicode 格式。讓使用者可以自由選擇閱讀的格式。

    文件作者可以透過漢羅翻寫子系統的

    協助,將全羅馬拼音文件轉換成漢羅形式

    再輸入內容管理系統,也可使用編碼轉換

    子系統將 HOTSYS 或 TP 等編碼的台語文件轉換成內容管理系統用的數字調號編

    碼。

    對於需要互動對話的網站使用者,本系

    統也提供了支援數字調號輸入,圖形羅馬

    字或 Unicode 輸出的留言板與公佈欄等動態網頁子系統。

    Database

    內容管理系統

    編碼轉換子系統

    漢羅翻寫子系統

    台語留言板與佈告欄

    羅馬字展示系統

    台語字形

    文件作者

    網頁使用者

    網頁 管理者

    Unicode靜態網頁

    Server

    內嵌圖形靜態網頁

    圖 1 系統架構圖

    4.2 羅馬字展示子系統 為了降低資料庫內碼選擇的複雜度,我

    們採用一個以往廣泛被用來解決台語缺乏

    輸入法與顯示字型困境的編碼:「數字調

    號」來作為系統的內部編碼。此編碼利用

    阿拉伯數字來表示調號,用「N」或「nn」來表示鼻音,用「ou」來表示「o͘」。例如:Hou7 ti3-hui7 e5 lang5 thiaN-kiN3 就用來表示 Hō͘ tì-hūi ê lâng thiaⁿ-kìⁿ。

    當網頁要發佈時,則需要將數字調號編

    碼轉換成一般使用者可以閱讀之形式。對

    於願意且有能力下載、安裝台語字型,使

    用 FireFox 瀏覽器的使用者,本系統提供Unicode 編碼網頁。對於一般使用者,我們則是將台語羅馬字轉換成圖形,並將文件

    置換成內嵌此圖形之 HTML 文件輸出。

    目前,已有一些離線的工具如:TP[7]等可以進行數字調號與 Unicode 之間的轉換;也有一些網頁工具如:暗光鳥 ê 厝的

    羅馬字轉換器[4]可以進行類似的轉換。不

    過現有的這些台語調號轉換系統多半是直

  • 4

    接將用來代表台語特殊字符的數字或英文

    代號轉換成對應的字符,因此如果遇到台

    語文字中混雜英文時候,就會轉換錯誤,

    例如:「you」就會被轉換成「yo·」。而且這些工具並未與整個內容管理系統整合,

    所發揮的效果就比較有限。

    我們的羅馬字展示子系統的運作流程圖

    如圖 2 所示。台語文件輸入後,先被切割成一個一個的 token,系統會檢查每一個token,先利用編碼範圍過濾掉中文,這樣就剩下台語和混雜在台語中的英文字。然

    後利用台語羅馬字的拼音規則來進行進一

    步的分析,如果是台語,則針對調號與鼻

    音進行轉換,否則將不做任何轉換。經過

    轉換成 Unicode 的台語羅馬字,再依系統設定直接輸出或轉換成內嵌此圖形之

    HTML 輸出。

    圖 2 羅馬字展示子系統流程圖

    在本子系統中我們使用了台語羅馬字

    拼音的基本規則來降低錯誤率:

    台語羅馬字=[子音]母音[入聲尾][調號]

    亦即一個台語羅馬字可以由子音、母

    音、入聲尾和調號組成,其中母音是一定

    要具備的,其他都是可有可無。

    真正在進行編碼轉換的時候,由於大

    部分的字符都是使用標準的英文字母,只

    有當台語字具有調號(2,3,4,7,8)、鼻音(N或 nn)或者母音 ou 時才需要進行調符轉換,亦即也只有在這個狀況下才會造成夾

    雜英文字的誤判。透過比對台語羅馬字的

    拼音規則,可以更進一步的避免「you」這一類的英文被誤判為台語,提升編碼轉換

    的準確率。本子系統運作畫面如圖 3a、3b。

    圖 3a 台語編碼轉換系統輸入畫面

    圖 3b 編碼轉換系統輸出畫面

    將文件切割成token

    取下一個 token

    是否還有token?

    轉換調號與鼻音

    是否是中文

    yes

    加入 token到新文件

    yes

    no

    no

    將新文件輸出

    台語文件輸入

    拼音規則分析

    是否是台語no

    yes

    是否轉圖形

    轉換圖形,加入 HTML tag

    yes

    no

  • 5

    4.3 漢羅翻寫子系統 為了讓熟悉中文的使用者可以快速閱

    讀台語文件,便有了以漢字來取代讀音確

    定的台語字之「台語漢羅系統」出現,例

    如:「Hō͘ gōng-ti̍t ê lâng ū lêng-khiàu, Hō͘

    siàu-liân lâng ū tì-sek kap kè-e̍k」就寫成「Hō͘戇

    直 ê 人有靈竅,Hō͘少年人有知識 kap 計

    畫」。將全羅馬拼音的文件轉換成漢羅文

    件的過程就稱為「漢羅翻寫」。漢羅翻寫

    的過程基本上是一對一的片語替換,因此

    相當適合製作自動翻寫系統。

    由於大量的片語替換工作相當消耗運

    算資源,因此我們除了製作 PHP 版本的漢羅翻寫系統之外,也用 Java 製作了 Applet與 Application 兩用的系統,使得 Client 端的運算資源也可以被妥善的使用。

    漢羅翻寫子系統總共包含三個片語

    檔:一般片語檔、專有名詞片語檔與不應

    轉換片語檔。前兩者分別記錄比對時不必

    區分大小寫的一般的片語,如:清清楚楚

    chheng-chheng chho2-chho2 、理所當然li2-sou2-tong-jian5 等;與人名地名等比對時需要注意大小寫的片語,如:台北市 Tai5-pak-chhi7、基督 Ki-tok 等。不應轉換片語檔則記錄少數片語的部分片段包含在

    前兩個片語檔中,但是與其他詞合成此片

    語時,就不應進行漢羅翻寫;如: khng3 勸,當後面接 ti7 時成為「khng3 ti7」,就不應該進行漢羅翻寫為「勸 ti7」。

    為了準確替換字串,必須由羅馬拼音長

    的片語先行替換,因此片語檔整理成按照

    羅馬拼音長度排列,把長的放在前面,短

    的放在後面。為了方便維護且不影響系統

    效能,片語檔案都採取純文字格式儲存。

    漢羅翻寫流程如圖 4 所示,羅馬字文件輸入後,系統會將之切成小段落,然後針

    對每個小段落依序進行專有名詞片語、不

    應轉換片語與一般片語之替換或處理。適

    當的切割段落可以加速片語替換的速度,

    但怎樣切割才能獲得最佳的速度,又不會

    因為過度切割導致片語無法正確的被轉

    換,則是一個難以決定的問題。本系統為

    了追求最高的片語替換比率,因此以文章

    內的「分段或斷行符號(ASC 編碼 13)」作為文件的切割點,將文件切割成較小的

    片段,卻又不至於切斷片語中字與字間的

    連結導致片語替換失敗。子系統完成所有

    片語替換後,接著進行空白與標點符號等

    後處理;全部段落都完成處理後,就將結

    果輸出。Java Application 系統運作畫面如圖 5 所示。

    為了增加片語的準確性、避免取得過時

    的片語對照,我們是透過實際翻寫的工作

    中漸次取得片語檔。因此 Java Application版本的漢羅轉換子系統還包括了片語的管

    理功能。

    圖 4 漢羅翻寫流程圖

  • 6

    圖 5 Java Application 漢羅轉換系統

    4.4 內容管理系統與留言板、公佈欄

    台語網站用的內容管理系統、留言板與

    公佈欄和一般中、英文使用的系統並沒有

    很大的不同。由於動態編碼轉換與內嵌圖

    形轉換需要消耗比較多運算量,因此內容

    管理系統採用發佈靜態網頁的方式來運

    作,讓整個延遲是在網頁發佈的時期,而

    非使用者閱讀的時候。

    留言板與公佈欄則由於網站使用者也

    會參與網頁發佈,所以我們使用動態網頁

    的方式來達成。

    台語羅馬字網站由於字型編碼的問

    題,一份內容需要 Unicode 與內嵌圖形兩種呈現方式,留言板與公佈欄就用兩支不

    同的 PHP 程式來解決,內容管理系統則使用兩套不同的設定,發佈兩次靜態網頁的

    方式來解決。

    本內容管理系統將整個網站分為數個

    專欄,每個專欄可以設定自己的文章顯示

    範本、索引頁範本與管理者。除了網站管

    理者帳號需要資料庫系統管理員設定之

    外,其餘使用者的帳號、密碼與相關權限

    是由內容管理系統維護的。每個專欄可以

    有多個管理者負責增、刪、修改文章,另

    可設定某些管理者有權可以發佈網站。

    資料庫內的文章發佈與否,是以每篇文

    章設定的發佈時間為基準,設定發佈時間

    早於發佈者指定的發佈時間之前的文章都

    會被套入範本發佈成靜態網頁。使用本內

    容管理系統的網站畫面如圖 6a、6b 所示。

    為了方便留言板與公佈欄可以獨立出

    來成為單獨的套件,我們不使用資料庫來

    儲存此子系統的文章資料,而是採用一般

    telnet BBS 的固定長度表頭檔與文字檔案的方式來處理文章,當然,還必須整合羅

    馬字展示系統才能順利處理顯示羅馬字。

    為了解決台語輸入法較為缺乏的問題,此

    子系統仍然是以數字調號為系統內碼與輸

    入方式,讓使用者不需要安裝任何特殊輸

    入法就可以輸入台語羅馬字,並提供範本

    檔案供管理者自行修改美工畫面。

    圖 6a 內嵌羅馬字圖形的網頁

  • 7

    圖 6b Unicode 版本的網頁

    五、結果與討論 5.1 羅馬字展示子系統 為了驗證本系統編碼轉換的正確率,

    我們採用由 pyDict 計畫[10]取得之 134183字英文字典,將每個字當成台語羅馬字輸

    入系統中,比較 TP 與我們的系統錯把英文字當成是台語羅馬字,且造成轉換錯誤的

    字數。檢驗的結果如表 1。 表 1 編碼轉換錯誤字數

    方法 錯誤字數 大寫錯誤字數

    Taiwanese Package 2581 69937

    本系統使用

    N代表鼻音 15 289

    由上表中可以看出無論在大小寫的情

    況下,本系統引用羅馬拼音規則來過濾英

    文字,的確可以大量降低轉碼的誤判率。

    至於系統效能方面,我們在 3.0G CPU、2G RAM 的 Fedora Core 5 Linux x86伺服器上,透過 100M 區域網路,用 1.73G CPU、1G RAM 的 Windows XP 電腦透過瀏覽器進行測試。用 32,222 個台語羅馬字的巴克禮版本舊約聖經創世記(約 180,000個字元)與 9,967 個字的但以理書(約

    55,700 個字元)來測試此編碼轉換與圖形網頁展示系統之效率。每個數據都是測試

    三次以後平均而得,每個數據都是測試三

    次以後平均而得,測試結果如表 2所示。

    表 2 羅馬字展示子系統效能評估 測試樣本 編碼轉換 圖形產生

    創世記 73 sec 264 sec 但以理書 6 sec 29 sec

    由表 2 中可以看出系統運作所花費的時間隨著轉換內容的長度而大幅增加。

    5.2 漢羅翻寫子系統 本系統經過台語信望愛站[13]、荒漠甘

    泉漢羅版、巴克禮聖經漢羅版[14]舊約部分的使用測試,在基督教文件的漢羅轉換率

    方面,大約可以到達 95%以上(總共約14000 個片語)。

    漢羅翻寫基本上是一對一的轉換,只

    要片語數量夠多,應該可以有非常高的準

    確性。目前由於僅僅使用在基督教相關的

    文件上,因此片語也多偏向這個領域,未

    來如果能夠多引進其他領域的片語將可有

    效的提升漢羅翻寫的正確性。 在效能方面,我們使用了巴克禮全羅

    版本的聖經與和合本中文聖經作為測試之

    基準,並選用 32,222 個台語羅馬字的巴克禮版本舊約聖經創世記(約 180,000 個字元)與 2,222 個字的但以理書(約 14,318個字元)。Java 程式是執行在一台執行Windows XP 作業系統,配備 Pentium-M 1.73G CPU、1 G 記憶體的筆記型電腦上,使用 Java SDK 1.5 版本,PHP 則是執行在一台 Linux Fedora Core 4 的 AMD 2G CPU、2G 記憶體的伺服器上,使用 PHP 5.1.2。測試結果如表 3 所示。

    表 3 漢羅翻寫子系統效能評估

    項目 PHP JAVA Applet Java Application

    創世記 584 sec 100 sec 119 sec

    路得記 4 sec 2.3sec 2.5 sec

    由表 3 中可以看出 Java 執行的效率遠

  • 8

    高過 PHP 程式的執行效率,尤其在長文章的翻寫時差異更為顯著。未來隨著片語數

    量的增加,系統執行速度還會更緩慢,這

    還可以透過 PHP 加速器、Java 編譯成Native 執行檔等方式來進一步提昇程式執行效率。

    5.3 內容管理系統與留言板、公佈欄 本研究提出之內容管理系統,把網站

    視為「專欄的組合」,並可將每個專欄分

    配給不同的管理者管理。每個專欄的管理

    者之間不一定要有什麼深入的聯繫,而且

    可以各自在各地透過網路輸入文章。這樣

    的結構相當適合傳統的綜合網站。

    本內容管理系統雖然使用 PostgreSQL資料庫,但由於系統並沒有使用特別的資

    料庫功能,且系統開發時也預留了更換資

    料庫種類的設計,因此也可以配合使用者

    的需要更換不同的資料庫。

    由於網頁發佈時,需要做大量的字串

    替換動作,因此需要消耗比較多時間。目

    前我們是把文章資料查詢出來利用 PHP 做字串替換的動作,未來也可以考慮直接利

    用資料庫的字串替換功能,以加速網頁發

    佈的運作效率。

    在留言板與公佈欄部份,目前我們採

    用數字調號當內碼,主要是考量台語缺乏

    通用的輸入法。但這樣的作法使得使用者

    每一次閱讀都需要等待系統轉碼處理。雖

    然目前這還不造成困擾,但未來應該使用

    Unicode 為留言板與佈告欄的內碼,以減少使用者閱讀時造成的運算負擔。

    六、結論

    本研究製作出一套台語羅馬字網站架

    設工具。其羅馬字展示子系統透過運用台

    語羅馬字的拼音規則,大量減少台語與英

    文混合的狀況下,進行「數字調號」格式

    與 Unicode 格式轉換時所造成的誤判。並可將羅馬拼音轉成圖形,並修改網頁成為

    內嵌此圖形之 HTML,可以使網頁讀者不

    需要安裝特殊的字型、使用特殊的瀏覽器

    就能閱讀台語羅馬字網站。

    漢羅翻寫子系統透過三個片語對照

    表,將全羅馬拼音文件轉換成漢羅文件,

    以協助使用者快速讀懂台語文件,為了增

    加此子系統使用的方便性,我們提供

    PHP、Java Applet 與 Java Application 三種形式的程式。Java Application 形式的程式還可提供片語對照表管理功能,以進一步

    增補片語對照表。

    內容管理系統結合漢羅翻寫與羅馬字

    展示子系統,作為台語文件輸入、管理與

    網站發佈用。我們也建立一圖形羅馬字與

    Unicode 雙入口的實驗網站,本工具的原始碼可以在 htt://ttrw.vexp.idv.tw 中取得,使得有志於建立台語羅馬字網站的使用者也

    可以直接使用整個或部份子系統,不必重

    新打造一套相同的工具。

    七、參考文獻

    [1] 洪維仁等,台灣語言音標,http://zh.wikipedia.org/wiki/TLPA。

    [2] 陳鄭弘堯,“ 認 bat 白話字編碼 kap 字型 ê 關係(hō·初用者)", http://www.lomaji.com/siau-sit/2005/08/890.php ,2005.08。

    [3] 陳鄭弘堯,“白話字輸入法(IME)比較表”, http://www.lomaji.com/poj/tools/converters/POJ_IME_chart.html,2006.01。

    [4] 陳 鄭 弘 堯 , “ 羅 馬 字 轉 換 器 ” , http://www.lomaji.com/poj/tools/converters/convert.php。

    [5] 楊允言,“台語符號 ê競爭─以TLPA kah白話字做例”,2002 年 7 月。

    [6] 資策會,Focus on Internet News & Data,“2006 年 3 月底止台灣上網人口”, http://www.find.org.tw/0105/howmany/howmany_disp.asp?id=140。

    [7] 劉 杰 岳 , http://www.phahng.idv.tw ,2001。

  • 9

    [8] 劉杰岳、楊允言,“白話字電腦文書處理ê 研究”,2005.11。

    [9] 蘇芝萌,“HOTSYS-HAHSYS 台客語文書處理軟體",1994。

    [10] Daniel Gau, http://sourceforge.net/projects/pydict。

    [11] “GD Graph Library”, http://www.boutell.com/gd/。

    [12] “The FreeType Project”, http://www.freetype.org/。

    [13] 信望愛資訊文化藝術基金會,“台語信望愛站",http://taigi.fhl.net , http://taigu.fhl.net 。

    [14] 信望愛資訊文化藝術基金會,"中文線上聖經計畫,巴克禮漢羅版",

    http://bible.fhl.net/new/read.php?id=1&VERSION=bklhl

  • 10

    可供推廣之研發成果資料表

    □ 可申請專利 ■ 可技術移轉 日期:95 年 9 月 5 日

    國科會補助計畫

    計畫名稱:台語羅馬字網站架設工具之研發

    計畫主持人:蔡哲民

    計畫編號:NSC 94-2218-E-168-001- 學門領域:Linux 推動計畫

    技術/創作名稱 台語羅馬字網站架設工具

    發明人/創作人 蔡哲民

    技術說明

    中文:本工具包括一套內容管理系統,將網站分成數個專欄,

    每個專欄可由多人分別管理。內容管理系統內的文章是以數字調號

    的編碼方式存在於資料庫中,並透過發佈成靜態網頁的過程來轉變

    成網站資料。

    羅馬字展示子系統就是用來將此數字調號編碼台語文件轉換

    成 Unicode 或內嵌台語文字圖形網頁。此子系統利用台語羅馬字的編碼原則,降低台語與英文混合時的轉換錯誤率。

    漢羅翻寫子系統利用三個片語表來協助使用者將全羅馬拼音

    文件轉換成漢羅形式的文件,以利台語文件的傳播。並為了運用方

    便,提供 PHP、Java Applet、Java Application 三種版本程式供使用者選擇使用。

    除了整合性的網站管理工具外,也有台語留言板、台語佈告欄

    等較為獨立之工具可供網站管理者安裝使用

    附件二

  • 11

    英文:This system including a content management system, a romanization fonts presenting system, a code translation system, a Taiwanese Han-lo transcription system and the guest book system.

    The content management system is based on a database and used to manage the whole web-site. The guest book system is used to provide interactive functions on Taiwanese romanization web-sites.

    The romanization fonts presenting system is used to displayromanized web pages by translating the romanized fonts to graphs.

    The Taiwanese Han-Lo transcription program is developed for online and offline environments. This program is used to transcript romanization documents into Han-Lo form through three phrase tables.

    The code-translation system is used to translate several otherTaiwanese-Romanized codes to UNICODE format.

    可利用之產業

    可開發之產品

    網際網路產業,可用來架設台語羅馬字網站或者進一步開發台語羅

    馬字網站架設工具

    技術特點

    使用廉價之 Open Source 工具,自備羅馬拼音字型,無須仰賴其他商業軟體就可以建立台語網站。

    推廣及運用的價

    在今日社會中,母語的價值越來越被看重。但台語、客語缺乏架設

    網站的相關工具,本系統正可以填補此一技術空缺。

    ※ 1.每項研發成果請填寫一式二份,一份隨成果報告送繳本會,一份送 貴單位研發成果推廣單位(如技術移轉中心)。

    ※ 2.本項研發成果若尚未申請專利,請勿揭露可申請專利之主要內容。 ※ 3.本表若不敷使用,請自行影印使用。