利用台語文語料庫統計資料幫贊台語試題研發
-
Upload
ungian-iunn -
Category
Education
-
view
1.098 -
download
2
description
Transcript of 利用台語文語料庫統計資料幫贊台語試題研發
利用台語文語料庫統計資料幫贊台語試題研發
台語認證學術研討會 2009/3/7 國家台灣文學館
楊允言 Iûⁿ Ún-giân大漢技術學院資訊工程系
2
報告大綱1. 專家 kah 使用者2. 台語文語料庫3. 詞頻 kah 共現詞4. 相關問題5. 結論 kah 未來方向
3
專家 kah 使用者•M 是講專家無路用,
是 beh 幫贊專家•專家 ê 意見,無一定真一致
4
專家 kah 使用者 -2•英文辭典 ê 例
•專家 : 特殊用法優先•語料庫 : 使用 cho e ê 優先
•集體智慧 ma 真重要
5
台語文語料庫•2003 年開始建立•原始語料 (raw corpus)
•後設資料(metadata)文章名、作者、作者性別、文類、出版年代、 ...
6
台語文語料庫 -2•語料來源
•台文刊物、專書、論文、研究計畫成果、…
•數量 900 thóng 萬音節(2005)•漢羅 556 萬音節 /405 萬詞
•全羅 346 萬音節 /243 萬詞
7
詞頻 kah 共現詞•詞頻
•詞頻應該愛反應 ti 詞彙分級
•特別 ê 高頻詞 ma 應該愛反應 (kah 其它語言比較 )
8
詞頻 kah 共現詞 -2•共現詞
•語詞搭配、詞組、片語•表現詞彙特別 ê 用法台語會使講 [ 買 / 拆 /phah] 車票華語 bo e 使講 [ 拆 / 打 ] 車票
9
詞頻 kah 共現詞 -3•互訊息 (Mutual
Information)
0 無關係 ( 獨立事件 ) > 0 愈有關係 < 0 愈無關係
MI(AB) = - log
P(A) P(B)
P(AB)
10
詞頻 kah 共現詞 -4•相關度 (Correlation)
數字愈大,愈有關係
CR(AB) = n(n11×n22 -n12×n21 )2
n1*× n2*× n*1× n*2
11
詞頻 kah 共現詞 -5•若是有詞類訊息,會
得著 khah 好 ê 品質•動詞詞組 ( 動詞 + 名詞 )•形容詞詞組 ( 形容詞 + 名詞 )
•介詞詞組 ( 介詞 + 地方詞 )
•名詞詞組 ( 名詞 + 名詞 )
12
詞頻 kah 共現詞 -6V-N 詞組 MI 頻率
choaⁿ 農藥
14.3043
10
告 小腸 14.2911
11
判 死刑 14.2441
16
hiâⁿ 燒水 14.1178
11
儉 腸 13.6411
32
13
相關問題•數量影響統計結果•Phah 字錯誤, MI kah CR 分數會變足kôan•設 threshold
14
相關問題 -2
•有關係 ê 詞,未必相óa
•基本詞 ti 語料庫無一定會表現出來
•同義詞、同類詞
15
結論 kah 未來方向
•語料庫 ê 統計資料,對試題研發的確有幫贊
•台語文語料庫, iah有真大 ê 發展空間
16
結論 kah 未來方向 -2•加工語料庫
•語音標記•語法標記•語意標記•語法樹
17
Kèng-chhiáⁿ Chí-kàu
敬 請 指 教