情報検索演習 第 2 回
-
Upload
fatima-dean -
Category
Documents
-
view
76 -
download
0
description
Transcript of 情報検索演習 第 2 回
![Page 2: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/2.jpg)
2
今日のおしながき• 講義内容
– レコードと検索フィールド– 情報検索の理論
• 論理演算子( AND,OR,NOT )• 位置演算子(隣接演算子、近接演算子)• トランケーション(前方一致、後方一致、中間任意、中間一
致)– データベースのファイル構成
• インバーテッド・ファイル• ストップワード• シーケンシャル・ファイル
– 情報検索結果の評価• 検索漏れ、ノイズ• 再現率• 精度
![Page 3: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/3.jpg)
3
レコードと検索フィールド(1) – 18p.
• レコード– データベースに収録されている個々の論文や
新聞記事などの情報単位– レコードの内容はデータベースの種類や内容
によって異なる• 検索フィールド
– レコードは複数の検索フィールドからなる– 例)レコード番号、論題、著者名
p.? はテキストのページ数
を表す
![Page 4: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/4.jpg)
4
レコードと検索フィールド (2)
レコードレコードレコードレコード
論題 Reading― 速読・多読について考える著者名 清水由理子請求記号 P343-5C2-14掲載誌名 獨協大学外国語教育研究 14発行年月 1995.12掲載ページ数 p.273 ~ 282登録日 19970930
請求記号フィールド
発行年月フィールド
著者名フィールド論題フィールド
掲載ページ数フィールド登録日フィールド
掲載誌フィールド
![Page 5: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/5.jpg)
5
情報検索の理論 (1) —p.20
• コンピュータ検索では論理演算の概念が基本
1. データベース全体から合致するものを検索し
2. 論理積、論理和、論理差の集合の概念をもちいて、広げたり、狭めたりして検索
• 情報検索の理論の説明のために、JOISで使われているコマンドを利用するが、コマンドはシステムによって様々である。
![Page 6: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/6.jpg)
6
情報検索の理論 (2) —p.20(1) 論理演算子 – p.20
• 論理積( AND )– Aという検索語を持つ情報の集合と B という
検索語をもつ集合の両方を含む部分を検索すること
– 情報を絞り込んでいくときに有用– 例:「高校におけるコンピュータ教育」– 検索式:”高校 AND コンピュータ教育”
p.? はテキストのページ数
を表すA:高校 B:コンピュータ教育
![Page 7: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/7.jpg)
7
情報検索の理論 (3) —p.20(1) 論理演算子 – p.20
• 論理和(OR)– Aという検索語を持つ情報の集合と B という
検索語のいずれか一方の検索語をもつ集合部分と、両方をもつ集合部分全てを検索すること
– 同義語などの検索に有用– 例:「高校におけるコンピュータ教育」– 検索式:”高校 OR 高等学校” p.? は
テキストのページ数を表すA:高校 B:高等学校
![Page 8: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/8.jpg)
8
情報検索の理論 (4) —p.20(1) 論理演算子 – p.20
• 論理積(NOT)– Aという検索語を持つ情報の集合から B という
検索語をもつ集合部分を除いた部分を検索すること
– 複数の言語で書かれていることはすくないので、ロシア語文献を抜くといった検索に有効
– 例:「トラック事故以外の自動車事故」– 検索式:”自動車事故 NOT トラック事故”p.? は
テキストのページ数を表すA:自動車事故 B:トラック事故
![Page 9: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/9.jpg)
9
• 位置演算子– 検索語と検索語の位置関係や出現順位を限定
するために使用– 英語のように単語に分かれている言語の場合
有効、日本語の検索には通常使えない
情報検索の理論 (5) —p.20(2) 位置演算子 – p.22
p.? はテキストのページ数
を表す
![Page 10: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/10.jpg)
10
情報検索の理論 (6) —p.20(2) 位置演算子 – p.22
1) 隣接演算子 – p.22– 2 つの語が隣り合わせに存在し、入力した語順を指定
するもの、しないものがある– 語順指定あり --- (W)
• 例) Information systemだけを検索→ Information (W) system
• 例) information と system が 2 語以内で隣接しているレコードの検索→ information (2W) system
information management support system, information management system などが検索される
– 語順指定なし ---(N)• Information system, system Information 両方を検索→ Information (N) system
p.? はテキストのページ数
を表す
![Page 11: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/11.jpg)
11
情報検索の理論 (7) —p.20(2) 位置演算子 – p.22
2) 近接演算子 – p.23– 2 つの語が同一文章中もしくはフィールド中にあるレ
コードを検索するもの – 文章中 --- (S)
• 例)文章中に information, system があるもの• → information (S) system • Information literacy education and network systems といった
ものがヒットする– フィールド中 ---(F)
• 例)フィールド中に information, system があるもの• → information (F) system• ・・・・・・ network system. ・・・ information
science ・・・・・ . というような同一文ではないが同じ抄録フィールド内に2つの語が存在する場合に検索される
p.? はテキストのページ数
を表す
![Page 12: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/12.jpg)
12
• トランケーション– 検索語を入力する場合に、語の一部を任意文字
に指定して検索すること– 1-1 表 – p.24
• ?: 0 文字以上、何文字でもよい• #:0文字または一文字• !:ちょうど一文字
情報検索の理論 (8) —p.20(3) トランケーション – p.23
p.? はテキストのページ数
を表す
![Page 13: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/13.jpg)
13
1) 前方一致検索 – p.25– 前方の末尾を任意文字に指定する検索– 大抵どのシステムにもある
• 例) – 情報? ⇒ 情報、情報検索、情報検索システム– CAT# ⇒ CAT,CATS,CATV
• 猫を検索したいときによいが、 CATV まで検索されてしまう
– DIS! ⇒ DISK,DISC• 英米綴りの違いを同時に検索できる
情報検索の理論 (9) —p.20(3) トランケーション – p.23
p.? はテキストのページ数
を表す
![Page 14: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/14.jpg)
14
2) 後方一致検索 – p.25– 検索語の始まりを任意文字に指定する方検索
• 例) –?情報 ⇒ 情報、安全情報、特許情報
情報検索の理論 (10) —p.20(3) トランケーション – p.23
p.? はテキストのページ数
を表す
![Page 15: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/15.jpg)
15
3) 中間任意検索 – p.26– 検索語の途中を任意文字に指定する検索
• 例) – 情報?システム⇒ 情報システム、情報管理シス
テム、情報検索システム– ログ ! ン ⇒ ログイン、ログオン
• 同義語が同時に検索できる– WOM!N WOMAN,WOMEN⇒
• 単数形、複数形が同時に検索できる– GR!Y ⇒ GREY,GRAY
• 英米綴りの違いを同時に検索できる
情報検索の理論 (11) —p.20(3) トランケーション – p.23
p.? はテキストのページ数
を表す
![Page 16: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/16.jpg)
16
4) 中間一致検索 – p.26– 検索語の両側を任意文字に指定する検索– インターネットの検索エンジンでは中間一致している
ことが多い– 一般に 3 文字以下の略字ではノイズを招くので、トラ
ンケーションを使わず、完全一致させたほうがよい• 例)
– ?情報? ⇒情報、交通情報、情報システム、交通情報システム
情報検索の理論 (12) —p.20(3) トランケーション – p.23
p.? はテキストのページ数
を表す
![Page 17: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/17.jpg)
17
データベースのファイル構成 (1) – p.29
• インバーテッドファイル( inverted file ) – p.29– 転置ファイル、倒置ファイルとも呼ばれる– レコード毎に蓄積されたデータを、検索語を基準に
して並べなおしたファイル– レコード番号、検索フィールドおよび検索フィール
ドの何番目かを示す番号、および検索語の件数が明記される
– 図 1-9 データベースファイルの構成 – p.30
• ストップワード– レコード中での出現頻度は高いが、検索上あまり重要でないため、検索対象から除外した語
![Page 18: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/18.jpg)
18
データベースのファイル構成 (2) – p.29
• シーケンシャル・ファイル (sequential file) –p.31– シリアル・ファイル、順次編成ファイル、線形ファイル、リニアファイルなどとも呼ばれる
– レコード毎に蓄積されたデータ– 検索結果の出力や一度検索した結果を対象
に絞込み検索するときに用いられる
![Page 19: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/19.jpg)
19
情報検索結果の評価 (1) –p.32
• 検索結果の評価– 検索終了後、求める情報が適切に検索できているか、
検索漏れはやノイズがないかどうかをチェックする• 検索漏れ
– 本来必要な情報でデータベースに存在するにもかかわらず検索されなかった情報
• ノイズ– そのテーマに不要な情報が入り込んで検索された情
報p.? は
テキストのページ数を表す
![Page 20: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/20.jpg)
20
情報検索結果の評価 (2) –p.32
• 再現率( recall ratio )– データベースに合致する適合情報のうち、どれだけ適合情報が検索されたかという割合を表す
– 検索漏れの程度を表す指標となる– データベース全体の適合情報を実際に調べるのは不可能なため、普通、正確にはわからない
• 精度 (precision ratio) (適合率 (relevance ratio) )– 実際に得られた検索結果の情報全体のうち、どれだ
け適合情報が検索されたかという割合を表す。– ノイズの程度を表す指標となる– 検索結果から容易に計算可能
• 両方とも高いのが理想だが、どちらかを上げるとどちらかが下がるという関係にある
![Page 21: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/21.jpg)
21
情報検索結果の評価 (3) –p.32
A検索漏れ
Cノイズ
B検索された適合情報
データベース全体に存在する適合文書
検索された情報の全体
再現率 R = B ÷ ( A + B) ×100%精度 P = B ÷ (C + B) ×100%
図 1-10 –p.33
p.? はテキストのページ数
を表す
![Page 22: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/22.jpg)
22
情報検索結果の評価 (4) –p.32
• 例) 10件の文献を出力、10件全部が適合文献、データベース全体には 100件の適合文書が存在– 精度: 10/10×100=100%– 再現率: 10/100×100=10%残りの90%が検索漏れ
• 例) 50件の文献を出力、 30件が適合文献、データベース全体には 70件適合文書が存在– 精度: 30÷50×100 = 60%
• ノイズは 40%
– 再現率: 30÷70×100 = 43%• 検索漏れは 57%
![Page 23: 情報検索演習 第 2 回](https://reader033.fdocuments.net/reader033/viewer/2022061422/56812be7550346895d9064bc/html5/thumbnails/23.jpg)
23
今日のまとめ• 講義内容
– レコードと検索フィールド– 情報検索の理論
• 論理演算子( AND,OR,NOT )• △ 位置演算子(隣接演算子、近接演算子)• トランケーション(前方一致、後方一致、中間任意、中間一
致)– データベースのファイル構成
• インバーテッド・ファイル• ストップワード• シーケンシャル・ファイル
– 情報検索結果の評価• 検索漏れ、ノイズ• 再現率• 精度