2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索...
Transcript of 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索...
![Page 1: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/1.jpg)
2回目 情報検索の適用と評価
4月22日
![Page 2: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/2.jpg)
情報検索の適用例と関連技術
サーチエンジン
情報フィルタリング
文書の自動分類
言語横断情報検索
マルチメディア情報検索
情報抽出
マーケティングツール
![Page 3: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/3.jpg)
サーチエンジン
GoogleGooYahoo!LYCOSなど
メタ・サーチャー
![Page 4: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/4.jpg)
サーチエンジンの構成
World WideWebユーザ
検索システムインデックス・データベース
ロボット(スパイダー,クローラー)
照合
インデキシング
Webページ収集
検索質問 検索結果
![Page 5: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/5.jpg)
情報フィルタリング
検索質問が長期的(静的)
情報ストリームよりユーザの興味や関心のある記事を抜き出す.不要な情報を削除する.
具体例
電子メールからユーザに興味のある記事を推定する
インターネット上の未成年者にとって不適切なサイトへのアクセス制御
![Page 6: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/6.jpg)
文書の自動分類
WWWのインデックスサイト(Yahoo!など)Webページを内容やトピックに応じて階層的に分類
一般的なトピック検索ではきわめて有用
ページの分類や索引付けを人手で行うためサーチエンジンに比べると小規模
文書の自動分類の必要性
![Page 7: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/7.jpg)
文書の自動分類の分類
与えられた文書の内容があらかじめ設定されているカテゴリ(たとえば,政治,経済,科学など)のいずれに属するかを決定するもの
類似した文書をグループ化(クラスタリング)することにより文書集合全体をいくつかのグループに分割するもの
![Page 8: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/8.jpg)
言語横断情報検索
検索対象となる文書とは異なる言語で検索質問を与えることができる
![Page 9: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/9.jpg)
マルチメディア情報検索
内容型検索:マルチメディア情報そのものから得られる特徴量に基づき類似検索を行う.
画像の検索
映像の検索
音声の検索
![Page 10: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/10.jpg)
情報抽出
TipsterのMUCIREX
![Page 11: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/11.jpg)
マーケティングツール
顧客ニーズの解析
Amazon.comなどで利用されている.
![Page 12: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/12.jpg)
情報検索システムの評価尺度
情報検索システムの有効性
再現率と適合率
再現率・適合率曲線
平均適合率
その他の評価尺度
![Page 13: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/13.jpg)
情報検索システムの有効性
評価指標
適合性(relevance):検索質問に対して,客観的に見て適合する文書を検索したか?
適切性(pertinence):検索質問に対して,ユーザが目的とする文書を検索したか?
有用性(usefullness):ユーザにとって役立つ文書を検索したか
![Page 14: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/14.jpg)
再現率と適合率
適合性に基づく評価
完全性:検索質問に適合する文書をもれなく検索しているか?...再現率正確性:検索質問に適合する文書だけを検索しているか?...適合率
![Page 15: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/15.jpg)
再現率と適合率2
再現率(recall):完全性を評価するための尺度であり,検索対象となる文書集合の中の検索質問に適合する文書のうち,実際に検索された文書の割合を示す.検索漏れの少なさを示す尺度である.
適合率(precision):正確性を評価するための尺度であり,検索された文書集合の中で,検索質問に適合する文書の割合を示す.検索ノイズの少なさを示す尺度である.
![Page 16: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/16.jpg)
再現率と適合率3
全文書集合
適合文書 検索された文書
A BC
BC
AC
==
==
検索された文書の数
合文書の数検索された文書中の適適合率
数全文書中の適合文書の
合文書の数検索された文書中の適再現率
![Page 17: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/17.jpg)
再現率・適合率曲線
適合率
での適合率再現率レベル iR
iR 再現率
![Page 18: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/18.jpg)
再現率・適合率曲線2
iR
適合率
ABC
再現率
![Page 19: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/19.jpg)
平均適合率
平均適合率:各再現率レベルでの適合率の平均値(適合文書が検索された時点での適合率の平均)
n点平均適合率:あらかじめ決められたn個の再現率レベルでの適合率の平均値
![Page 20: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/20.jpg)
その他の評価尺度
R適合率:上位からR番目までの検索結果を出力した時点での適合率
F尺度
E尺度
PR
F 112
+=
PRb
bE1
11 2
2
+
+−=
![Page 21: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/21.jpg)
問題
検索システムが右のような検索結果を出したとします.
右の表を見て平均適合率,R適合率(R=2),F尺度,E尺度(b=0.5)を計算しなさい.ただし文書数100,適合文書10
○5×4○3×2○1適合性順位
![Page 22: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/22.jpg)
情報検索用テスト・コレクション
テストコレクション
情報検索コンテスト
![Page 23: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/23.jpg)
テスト・コレクション
文書集合
検索質問集合
適合情報
![Page 24: 2回目情報検索の適用と評価 - 山梨大学ysuzuki/public/ir/ir0422.pdf言語横断検索 タスク 特許検索タスク 質問応答タスク テキスト要約タスク](https://reader033.fdocuments.net/reader033/viewer/2022041613/5e3952c935b27a0c36268989/html5/thumbnails/24.jpg)
情報検索コンテスト
TRECIREXNTCIR
NTCIR4言語横断検索タスク
特許検索タスク
質問応答タスク
テキスト要約タスク
Webタスク情報指向検索,ナビゲーション指向検索,地理情報,トピック分類