資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 [email protected]...
-
date post
22-Dec-2015 -
Category
Documents
-
view
253 -
download
0
Transcript of 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 [email protected]...
![Page 2: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/2.jpg)
大綱• 資訊檢索之基本概念• 檢索策略• 檢索技巧• 網路資源之檢索
![Page 3: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/3.jpg)
學習目標• 瞭解資訊檢索之基本概念• 瞭解資訊檢索之策略• 瞭解資訊檢索之技巧• 熟悉網路資源之檢索
![Page 4: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/4.jpg)
I. 資訊檢索之基本概念• IS&R
• 自然語言 vs. 控制字彙• precision vs. recall
• 布林邏輯運算元• 切截• 相近運算元• Known item search vs. subject search
![Page 5: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/5.jpg)
資訊儲存與檢索 (IS&R Model)
![Page 6: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/6.jpg)
資料 需求
分析內容
選擇關鍵詞
轉譯
系統關鍵詞
分析需求
選擇關鍵詞
轉譯
系統關鍵詞
索引典
資料庫
關鍵詞比對檢索結果
索引作業 檢索作業
![Page 7: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/7.jpg)
自然語言
• 自然語言是相對於人工語言的一種人類語言,也是最合乎人類教談行為的溝通方式,它依循著人類自然進化而發展,成為人和人之間溝通的最基本工具,如中文、英文、日文等都是自然語言。
![Page 8: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/8.jpg)
控制字彙• 標題表 (Medical Subject Heading)
• 索引典– Scope note
– BT
– NT
– RT
– Use / Use for
![Page 9: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/9.jpg)
標題表 (Subject Headings)
• LCSH=Library of Congress Subject Headings
• MeSH=Medical Subject Headings
• 是“控制字彙”的工具 (vs. 自然語言 )
• 以“詞彙”來表達文獻內容的“主題”
![Page 10: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/10.jpg)
標題表 (Subject Headings)
• 按字母順排序,以 BT,NT, RT(SA=See also)來表現詞彙間的關係– BT= 廣義詞– NT= 狹義詞– RT= 相關詞
• Use ( See ) = 指引使用者由系統不用的詞到系統選用的詞–例 : Cancer USE Neoplasms
![Page 11: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/11.jpg)
MeSH 之例子– 範圍註
定義
![Page 12: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/12.jpg)
MeSH 之例子—範圍註
相關詞
不用的詞
![Page 13: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/13.jpg)
MeSH 之例子 – 樹狀結構
![Page 14: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/14.jpg)
MeSH 之例子 – 複分
![Page 15: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/15.jpg)
以 OVID-Medline 實例說明
![Page 16: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/16.jpg)
自然語言檢索 :cancer 於所有與主題相關之欄位
共 193,949 篇
![Page 17: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/17.jpg)
自然語言檢索 :cancer 出現於文獻的篇名
共 104,998 篇
![Page 18: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/18.jpg)
控制字彙檢索
勾選此項
![Page 19: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/19.jpg)
自動 mapping to MeSH
聚焦擴展
![Page 20: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/20.jpg)
顯現主概念與子概念之文獻數
![Page 21: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/21.jpg)
可選擇需要的主題複分
![Page 22: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/22.jpg)
得到比自然語言檢索更精確的結果
共 42,583 篇
![Page 23: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/23.jpg)
Explode 之功能 : 找更多相關文獻
共 463,333 篇
![Page 24: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/24.jpg)
Focus 之功能 : 找更少相關文獻
共 32,318 篇
![Page 25: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/25.jpg)
Focus 之意義
* 表示為此文獻之主要主題
![Page 26: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/26.jpg)
回收率&精確率• Recall(回收率 /查全率 ) & Precision(精確率 /查準
率 )
b+d a+c總數
dc未檢索到
ba檢索到
不相關相關
回收率 =a
a+c = 檢索所得之相關文章筆數資料庫中所有相關文章筆數
精確率 = aa+b = 檢索所得之相關文章筆數
檢索所得之所有書目筆數
![Page 27: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/27.jpg)
查全率 =a/(a+c) 查準率 =a/(a+b)
無關相關
c
a b
d
![Page 28: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/28.jpg)
布林邏輯 (AND、 OR、 NOT) A AND B A AND B AND C
A OR B A OR B NOT C
![Page 29: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/29.jpg)
切截 (truncation)
Library, libraries, librarian, librarians, librarianship --> lib* ( 單複數 , 詞性不同 , 使用 右切截 )
Woman, Women --> Wom#n ( 單複數 , 使用中間切截 )
Color, Colour --> Colo#r ( 美式 / 英式拚音 , 使用中間切截 )
![Page 30: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/30.jpg)
相近運算元 (adjacent/near)
ANALOG* ADJ1 DIGITAL* 482(1999)
ANALOG* NEAR1 DIGITAL* 506(1999)
![Page 31: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/31.jpg)
Known item search
• 已知書目之檢索 , 即精確檢索–用已知的書目資料來檢索 , 包括 : 作者 , 題名 , 期刊名 , 出版商 , 出版年… etc.
![Page 32: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/32.jpg)
Subject search
• 主題檢索• 想檢索一下到底有那些關於某主題的文獻存在
![Page 33: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/33.jpg)
II. 檢索策略• 針對一檢索問題之通盤考量或全面性規劃–分區組合檢索法 (Block Building)
–引用文獻滾雪球法 (Citation Pearl Growing)
–簡易檢索 (Brief search)
–主題層面連續檢索 (successive facet strategies)
–主題層面配對檢索 (pairwise facets strategies)
![Page 34: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/34.jpg)
分區組合檢索法• 1. 選擇資料庫• 2. 確定問題之主要概念及其布林邏輯關係• 3. 依序找出代表每個概念之所有詞彙• 4. 將各概念下所有詞彙以“ OR” 連結• 5. 將步驟 4 所得結果以步驟 2 所決定之布林邏輯關係進行結合
• 6. 依步驟 1 至步驟 5 規劃檢索敘述• 7. 輸入檢索敘述• 8. 評估檢索成果
![Page 35: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/35.jpg)
分區組合檢索法示意圖
![Page 36: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/36.jpg)
引用文獻滾雪球法• 事先掌握一篇或數篇相關文章 , 利用這些相關文章找尋更多相關的文章 , 如此相關文章就像雪球一樣越滾越大 .
• 在資訊檢索上的應用 : 以相關文章的關鍵字或敘述語繼續檢索 .
• 是由 precision反向追求 recall 的方法• 通常必須進行多次檢索 , 才能找到足夠的相關文章 .
![Page 37: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/37.jpg)
簡易檢索• 最常見的檢索• 通常用簡單的幾個關鍵字 , 加上布林邏輯的組合
• 快速 , 同時檢索到的文章不多 , recall低• 適用情形 :–檢索者只想閱讀“幾篇”相關文章–執行已知書目檢索時–檢索概念相當專指 (specific) 時
![Page 38: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/38.jpg)
主題層面連續檢索• 在決定檢索問題的主題層面之後 , 必須確認各主題層面的優先順序 .
• 在最專指概念或是可能產生最少資料的概念輸入系統後 , 如果產生太多資料 , 再輸入其他次要概念與之結合 .
• 直到檢索者認為檢索筆數可以接受為止 .
![Page 39: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/39.jpg)
主題層面連續檢索• 適用情形 :–當所有主題層面以布林運算元結合 , 可能產生零筆資料時
–當檢索問題中有一至二個主題層面涵義相當模糊時
–當檢索問題具備其他非主題之檢索條件時 ( 如 : 資料類型 , 語文 , 出版年代 ), 可將此非主題檢索條件視為第一個檢索概念
![Page 40: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/40.jpg)
主題層面連續檢索• 適用情形 : ( 續 )–當檢索者寧願忍受誤引 , 而不願失去相關文章時
–當加入其他主題層面所花費的時間和金錢 , 可能會超過直接列出檢索結果 , 每筆一一審視時
–當相關文獻過少 , 檢索者願意檢視一些相關度較低的文章時
![Page 41: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/41.jpg)
主題層面連續檢索示意圖
![Page 42: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/42.jpg)
主題層面配對檢索
• 是先將主題層面兩兩配對 , 並取其交集• 也就是取任意二主題層面的交集而後聯集之• 適用情形 :–當所有主題層面都同樣重要時–當主題層面之專指性或模糊性相差不大時–當將所有主題層面結合可能導致零筆資料時
![Page 43: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/43.jpg)
主題層面配對檢索示意圖
![Page 44: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/44.jpg)
比較圖
![Page 45: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/45.jpg)
III. 檢索技巧• 為完成特性目的所採取的行動–當檢索所得資料筆數過多時 ( 通常指誤引太多 )
–當檢索所得資料筆數過少時 ( 包括零筆資料 )
–當檢索者想提高 recall 時–當檢索者想提高 precision 時
![Page 46: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/46.jpg)
當檢索所得資料筆數過多時• 是否過份簡化問題 ?
• 是否需要重新釐清檢索概念 ?
• 是否使用了正確的布林邏輯運算元 ?
• 是否使用過份含混或一般性之名詞 ?
• 是否應考慮使用控制字彙 ?
• 是否相近運算元限制過鬆 ?
• 是否切截應用過鬆 ?
![Page 47: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/47.jpg)
當檢索所得資料筆數過少時• 是否將問題過份複雜化 ?
• 是否真有文獻探討該主題 ?
• 是否每個概念都使用足夠的檢索詞彙來表達 ?
• 是否相近運算元限制過緊 ?
• 是否使用了正確的布林邏輯運算元 ?
• 是否有語法或拼字上的錯誤 ?
• 是否該改用自然語言進行檢索 ?
• 是否考慮使用切截 ?
![Page 48: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/48.jpg)
當檢索者想提高 recall 時• 增加同義詞和類同義詞的數目• 使用較廣義的檢索詞彙• 以自然語言檢索代替控制字彙檢索• 檢索其他主題欄位• 刪除布林邏輯運算元“ AND” 及“ NOT”• 增加切截的範圍• 使用較鬆的相近運算元• 刪除一些非主題之檢索限制 ( 如 : 年代 , 資料類型 )• 刪除一主題層面
![Page 49: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/49.jpg)
當檢索者想提高 precision 時• 刪除部份類同義詞或是詞意含糊的檢索詞彙• 使用專指性較高的詞彙進行檢索• 當有適當的控制字彙工具時 , 盡量使用其來代替自然語言
• 增加一主題層面• 使用“ NOT” 除去不相關文章• 減弱切截的範圍• 加上非主題之檢索限制 ( 如年代 , 資料類型 )
![Page 50: 資訊檢索之策略與技巧 The Strategy & Techniques of IR 邱子恆 tzchiu@tmu.edu.tw 2011.03.29.](https://reader033.fdocuments.net/reader033/viewer/2022061523/56649d7e5503460f94a6083b/html5/thumbnails/50.jpg)
Q & A?