情報検索演習 第 3 回

23
1 情情情情情情 情3情 2005 情 10 情 12 情 情情 情情 5 情 情情情情 情情情情情情情情情 [email protected] 情情情 4 情情情情情情情情情情情

description

情報検索演習 第 3 回. 2005 年 10 月 12 日 後期 水曜 5 限 江草由佳 国立教育政策研究所 [email protected]. 前から 4 列目までに着席すること. 前回のまとめ. 講義内容 レコードと検索フィールド 情報検索の理論 論理演算子( AND,OR,NOT ) 位置演算子(隣接演算子、近接演算子) トランケーション(前方一致、後方一致、中間任意、中間一致) データベースのファイル構成 インバーテッド・ファイル ストップワード シーケンシャル・ファイル 情報検索結果の評価 検索漏れ、ノイズ 再現率 精度. - PowerPoint PPT Presentation

Transcript of 情報検索演習 第 3 回

Page 1: 情報検索演習 第 3 回

1

情報検索演習第 3 回

2005 年 10 月 12 日後期 水曜 5 限

江草由佳国立教育政策研究所

[email protected]

前から 4 列目までに着席すること

Page 2: 情報検索演習 第 3 回

2

前回のまとめ• 講義内容

– レコードと検索フィールド– 情報検索の理論

• 論理演算子( AND,OR,NOT )• 位置演算子(隣接演算子、近接演算子)• トランケーション(前方一致、後方一致、中間任意、中間一

致)– データベースのファイル構成

• インバーテッド・ファイル• ストップワード• シーケンシャル・ファイル

– 情報検索結果の評価• 検索漏れ、ノイズ• 再現率• 精度

Page 3: 情報検索演習 第 3 回

3

本日のお品書き• 前回の資料の訂正・補足• 講義

– データベースの定義– データベースの歴史– データベースの種類(分類)– データベースの構築– データベースの流通

Page 4: 情報検索演習 第 3 回

4

前回の資料の訂正• スライド 8

誤: Aという検索語を持つ情報の集合と正: Aという検索語を持つ情報の集合から

• スライド 12誤: 表 1-1正:  1-1 表誤: 丁度正: ちょうど

• スライド 20誤: 再現率: 10/100×10 =10%正: 再現率: 10/100×100 =10%

Page 5: 情報検索演習 第 3 回

5

前回の資料補足:データベースのファイル構成 (1)  

– p.29

• インバーテッドファイル( inverted file ) – p.29– 転置ファイル、倒置ファイルとも呼ばれる– レコード毎に蓄積されたデータを、検索語を基準に

して並べなおしたファイル– レコード番号、検索フィールドおよび検索フィール

ドの何番目かを示す番号、および検索語の件数が明記される

– 図 1-9 データベースファイルの構成 – p.30

• ストップワード– レコード中での出現頻度は高いが、検索上あまり重

要でないため、検索対象から除外した語

Page 6: 情報検索演習 第 3 回

6

前回の資料補足: データベースのファイル構成

(2)  – p.29

• シーケンシャル・ファイル (sequential file) –p.31– シリアル・ファイル、順次編成ファイル、

線形ファイル、リニアファイルなどとも呼ばれる

– レコード毎に蓄積されたデータ– 検索結果の出力や一度検索した結果を対象

に絞込み検索するときに用いられる

Page 7: 情報検索演習 第 3 回

7

データベースの定義• 著作権法 2条十の三 – p.35

– データベース 論文、数値、図形その他の情報の集合物であって、それらの情報を電子計算機を用いて検索することができるように体系的に構成したもの

• 日本工業規格 (JIS) –p.35– 適用業務分野で使用するデータの集まりであって、

データの特性とそれに対応する実態の間の関係とを記述した概念的な構造によって編成されたもの(X0017)

– 特定の規則に従って電子的な形式で、一か所に蓄積されたデータの集合であって、コンピュータでアクセス可能なもの (X0807)

• データベース白書 2003 –p.35– 相互に関連のあるデータの集まり。複数のユーザが

種々の目的で利用できるよう、検索や更新の効率化が図られたもの。一般的には情報を統合し、コンピュータ処理が可能なファイルの形で蓄積する。

Page 8: 情報検索演習 第 3 回

8

データベースの歴史• 表 7.1 データベース発展の歴史

– 配布資料( B4 の紙)

Page 9: 情報検索演習 第 3 回

9

データベースの種類(分類) (1)

• 図 7.1 データベースの分類– 配布資料( B4 の紙)

1) 形態別分類– p.39– データの形態に注目して分類– 図 7.1: データの形態別分類を参照

2) 分野別分類 – p.39– データベースを扱っている主題分野によって分

類– 一般、自然科学・技術、社会・人文科学、ビジネス、その他

配布資料( B4 )図 7.1 参照

Page 10: 情報検索演習 第 3 回

10

データベースの種類(分類) (2)

3) 提供形態別分類 – 39p.– オンライン

• 遠隔地にあるWWW上のデータベースを手元のコンピュータからネットワークを介して利用するもの

– オフライン(スタンドアロン)• 手元のコンピュータのみで利用できるもの。 CD-

ROM や DVD などで提供されるパッケージ型のデータベースなど。

配布資料( B4 )図 7.1 参照

Page 11: 情報検索演習 第 3 回

11

4) 用途別分類 — p.39– データベースの用途に応じて分類– 商用データベース

• 誰でも利用できるが、課金される– インハウス・データベース

• 機関内で構築され、利用に制限があるもの• 社内、業界、学術にさらに分類される

– パーソナルデータベース• 個人が構築し、個人が利用するもの

– オープン• インターネット上に提供され、一部を除いて無料で広く一般

に開放されている

データベースの種類(分類) (3)

配布資料( B4 )図 7.1 参照

Page 12: 情報検索演習 第 3 回

12

データベースの種類(分類)(4)

5) 更新頻度別分類– データベースの更新頻度で分類– イミディエート

• 時々刻々と変化更新されるもの• 株価情報や気象情報などを扱ったデータベース

–ヒストリカル• 一か月、3ヶ月などある程度まとまって更新され

るもの• 書誌データベースなど

配布資料( B4 )図 7.1 参照

Page 13: 情報検索演習 第 3 回

13

データベースの種類(分類)(5)

6) 利用料金別分類– 利用料金の有無により分類–有料

• 商用のデータベース–無料

• 商用のデータベースであっても、図書館が一括して契約し、利用者自身には料金がかからないものはこちらにあてはまる

• インハウスデータベースもこれに該当する場合がある

– 機関内であれば無料だが、他者が利用する場合は課金されるなど

• 無料のデータベース

配布資料( B4 )図 7.1 参照

Page 14: 情報検索演習 第 3 回

14

データベースの種類(分類) (6)まとめ

• データベースの種類(分類)– 形態別分類–提供形態別分類– 分野別分類– 用途別分類– 更新頻度別分類– 利用料金別分類

配布資料( B4 )図 7.1 参照

Page 15: 情報検索演習 第 3 回

15

データベースの構築 – p.41

• 構築方法 → 文献データベース or それ以外

• 文献データベース1. 書誌事項確定(文献情報源を識別可に)2. 主題分析

• 抄録作成、索引作成• 件名標目、分類付与に必要な中心主題を抽出

– データベース利用者の質問後形成と検索に大きな影響をあたえる

– システムごとに詳細なマニュアルが用意される

Page 16: 情報検索演習 第 3 回

16

商用データベースの流通 (1)

• 商用データベースを概観できる資料 — 39p.– データベース白書– データベース台帳総覧

• 1982年(昭和 57 ) 9月に創設された制度に基づいて、データベースサービス企業の申告により作成されるもの

• データベースの分野別の概要、利用方法などを記載• データベースのライフサイクル — 40p.

–収集・選択・加工(組織化)・蓄積・検索・利用

配布資料( B4 )図 7.5 参照

Page 17: 情報検索演習 第 3 回

17

商用データベースの流通 (2)

• データベース作成機関 — 40p– プロデューサー、プロバイダーと呼ばれる– データベース作成者(機関)のこと– 文献データベースの場合は情報源収集から検

索語を付与し蓄積するまでを行う– インテグレーデッド・プロデューサー

• 作成からオンライン情報サービスによる提供まで行うもの

• 例:科学技術振興機構– JSTPlus を作成し– JOIS で提供している

配布資料( B4 )図 7.5 参照

Page 18: 情報検索演習 第 3 回

18

商用データベースの流通 (3)

• データベース提供機関 – 40p.– ディストリビュータ、ベンダーと呼ばれる– データベース作成機関から委託されたデータ

を、自社のコンピュータによってサービスを提供する機関

配布資料( B4 )図 7.5 参照

Page 19: 情報検索演習 第 3 回

19

商用データベースの流通 (4)

• 代理店( agent ) – 40p.– プロデューサの著作権事務の代行– ディストリビュータの営業事務の代理を行う–具体的には

• 情報検索の講習会• 新規データベースの案内• 検索マニュアルの日本語化

配布資料( B4 )図 7.5 参照

Page 20: 情報検索演習 第 3 回

20

商用データベースの流通 (5)

• 検索代行業 (information broker) –40p– インフォメーション・ブローカーと呼ばれる– 利用者に代わってデータベースを検索し、結

果を利用者に提供する機関– 形態はさまざま

• データベース販売代理店が行うなど–企業や情報センターなどではサーチャー(検

索技術者)が検索を行い、検索結果の評価、分析、報告書作成などを代行する

配布資料( B4 )図 7.5 参照

Page 21: 情報検索演習 第 3 回

21

商用データベースの流通 (6)まとめ

• データベース作成機関– プロデューサー、プロバイダー

• データベース提供機関– ディストリビューター、ベンダー

• 代理店• 検索代行業

– インフォメーション・ブローカー

配布資料( B4 )図 7.5 参照

Page 22: 情報検索演習 第 3 回

22

本日のまとめ• データベースの定義

– 著作権法、JIS、データベース白書• データベースの歴史• データベースの種類(分類)

– 形態別、提供形態別、分野別、用途別、更新頻度別、利用料金別

• データベースの構築• データベースの流通

– データベース作成機関(プロデューサー、プロバイダー)、データベース提供機関(ディストリビューター、ベンダー)、代理店、検索代行業(インフォメーション・ブローカー)

配布資料( B4 )図 7.5 参照

配布資料( B4 )図 7.1 参照

配布資料( B4 )表 7.1 参照

Page 23: 情報検索演習 第 3 回

23

第 1 回レポート課題• 今日までの 3 回の講義を 1枚( A4 )にまとめ

17:45 までに提出– 時間内にできるかぎりでかまわない– 手書きでもかまわない

• 以下の項目をレポートの冒頭に付けること– レポートのタイトル : 第 1 回レポート課題– 授業名 : 情報検索演習– 提出した日付– 学籍番号– 氏名

• 今までの資料http://amazon.slis.tsukuba.ac.jp/~yuka/lecture/2005/ir/