TFIDF 方法之介紹
description
Transcript of TFIDF 方法之介紹
前言 詞頻 (Term Frequency, TF) 的觀念起源於 (Lu
hn,1958) 從進行自動索引的實驗中,為統計詞彙的出現頻率,發現除卻高頻與低頻者,所留下的中頻( middle-frequency )字詞,多半是比較有意義的,因而提出「關鍵字詞適度詞頻論」 (resolving power of significant words) 。
統計學派可以說是三種方式中的主流,多數的自動摘要與自動分類也遵循 Sparck Jones與 Salton 所建構,以文件詞彙頻率為主的統計學派。 其中 TFIDF 方法就是計算文件詞彙頻率 , 常用的方法。
Term frequency and Document Frequency
Term frequency tfij: the number of occurrences of Tj in Di
Document Frequency dfj :(document frequency of term Tj) is number of documents in which Tj occurs
擷取網路的超文件 以聯合新聞網、中央日報網和台灣新生報網三個網站的文件為擷取對象。其中聯合新聞網的文章篇數計擷取 18758 筆、中央日報的新聞 11864 篇,台灣新聞報則是摘取近三年來的社論資料 544 筆。總計類別包括了社論、經貿、政治、科技、藝文專欄、國際新聞、休閒等七類。
關鍵詞萃取作業 英文:對於英文的處理,我們透過多重判斷處理 ( 包括半形字元、全形字元、全形符號字元及注音符號處理 ) 之後,利用停用字詞 表去除停用字 (Stopword) ,再將英文關鍵字載入表格。
關鍵詞萃取作業 以 2 字詞到 9 字詞為主,並以長詞為優先選取對象。基於字數越長的詞出現的機率越少,實質代表的意義卻越重要,因此對於字詞長度均以加乘本身字數的方式,進行加權 如:〔知識〕出現 10 次,轉換後〔 10次 *2 字詞 =20 次〕,〔知識管理〕原出現 5次,轉換後〔 5 次 *4 字詞 =20 次〕,藉由加權方式,以提高長詞的詞頻權重。
重要句子擷取作業 字詞選取原則須符合詞頻要夠、類別集中 (conformity) 、本類分佈廣 (Uniformity) 的原則。因此關鍵詞彙的權重多以詞頻與逆向文件頻率的內積 (TF * IDF) 計算出,句子的權重則包括所有出現在該句子的重要詞彙權重總合。
例若有一個關鍵詞 ”大學“ 在一篇文章出現 1
0 次 , 而此篇文章共有 100 個關鍵詞 , 所有文件集合共有 10000 篇文章 , 而 ”大學”一詞在 10000 篇文章內 ,曾出現在 5 篇文章 TF=10/100=0.1 IDF=log(10000/5) 11≒ 加權值 =0.1*11=1.1
摘要的評估一般認為是一件困難且主觀的工作,所以以人工評選句子的交集率作為比對依據。文件樣本乃隨機抽取自實驗資料庫中,字數在 1000 字以上的文件 60 篇 ,每篇文件由三位受測者進行評選,每位受測者最多評選 5 篇。
(3).樂觀率 (optimistic ratio) :將 3 位評量者所 評選的同一篇文章重要句子評分與 TF*IDF 的結果比較,取其中重疊率最多者,計算兩者的重疊比率稱之為樂觀率。 (4).悲觀率 (Pessimistic ratio) :作法類似樂觀評估,但是選取其中一組重疊率最低者,則此最低重疊率者就稱之為悲觀率。
基本資料統計表 Min Max Mean 字數 1066 10801 3162 句數 15 225 70 一致性 15.38 96.3 51.75 人工時間 79 4765 803系統時間 23 175 85
實驗結果樂觀率的平均高達 93.17% ,表示自動機制所擷取的重要句子,與評量者的重疊率最高平均可超過九成﹔悲觀率的平均為 65.09% ,也說明了系統所擷取的句子與評量者的重疊率最低平均可達到六成五的水準。
就評量時間而言,評量者真正花在評量一篇的時間最短 79 秒,最長 4765 秒﹔系統運作的時間受到分句數的影響大於字數,時間最短 23 秒,最長 175 秒。可見人工作業即使未包括閱讀時間,仍需要 27 倍於自動機制的時間。