確率を用いた協調フィルタリング

37
Probabilistic Memory-Based Collaborative Filtering Kai Yu, Anton Schwaighofer, Volker Tresp, Xiaowei Xu, and Hans-Peter Kriegel IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL.16, NO.1, JANUARY 2004 慶慶慶慶慶慶 慶慶慶慶 慶慶慶慶慶 慶慶慶慶慶 慶慶慶慶 60204734 慶慶 慶 慶慶慶慶慶慶慶慶慶慶慶慶慶慶慶

Transcript of 確率を用いた協調フィルタリング

Page 1: 確率を用いた協調フィルタリング

Probabilistic Memory-Based Collaborative Filtering

Kai Yu, Anton Schwaighofer, Volker Tresp, Xiaowei Xu, and Hans-Peter Kriegel

IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING,

VOL.16, NO.1, JANUARY 2004

慶應義塾大学 理工学部 情報工学科

萩原研究室 学籍番号  60204734

奥野 陽

確率を用いた協調フィルタリング

Page 2: 確率を用いた協調フィルタリング

11.背景・目的(1/2)

協調フィルタリング

推薦システム

•映画

•書籍•Webページ

Webサービスでの実用化例: Amazon

1

14

4241

?

2515

アイテム

ユーザ

・・・

情報過多

個人の好みに合わせて推薦

似たユーザの評価からアイテムの評価を予測

•タイタニック•マトリックス•ダヴィンチコード

・・・

Page 3: 確率を用いた協調フィルタリング

補足 協調フィルタリング

A

B

C

D

タイタニッ

ク マトリッ

スダヴィンチコー

ユー

ここに入る評価は?

4

2

4

1

?

2

5

1

1

1

4

5

Page 4: 確率を用いた協調フィルタリング

補足 協調フィルタリング

好みが類似

タイタニッ

ク マトリッ

スダヴィンチコー

ユー

A

B

C

D

4

2

4

1

?

2

5

1

1

1

4

5

Page 5: 確率を用いた協調フィルタリング

補足 協調フィルタリング

この評価を強く反映

タイタニッ

ク マトリッ

スダヴィンチコー

ユー

A

B

C

D

1

1

4

4

2

4

1

5

2

5

15

Page 6: 確率を用いた協調フィルタリング

11.背景・目的(1/2)

協調フィルタリング

推薦システム

Webサービスでの実用化例: Amazon

個人の好みに合わせて推薦

似たユーザの評価からアイテムの評価を予測

アイテム

ユーザ

情報過多•映画

•書籍•Webページ

・・・

•タイタニック•マトリックス•ダヴィンチコード

・・・

1

14

4241

?

2515

Page 7: 確率を用いた協調フィルタリング

21.背景・目的(2/2)

確率を用いた協調フィルタリングPMCF

(Probabilistic Memory-Based Collaborative Filtering)

確率に基づく拡張性の高い枠組みを提案

提案

従来法の問題点 提案法の改善法

•精度の向上

•学習効率の良い能動学習

•代表的なデータのみ使用

•的外れな推薦

•ユーザが評価する負担

•計算時間がかかる

Page 8: 確率を用いた協調フィルタリング

32.提案法(1/5) 2.1 イメージ図

全体 DB

代表 DB

定期的にデータ追加

評価・学習

システムUI

予測・推薦おすすめアイテム

気に入ったか?

Page 9: 確率を用いた協調フィルタリング

42.提案法(2/5) 2.2 予測方法

予測方法未評価のアイテムの評価

評価の期待値

評価確率分布

期待値確率分布 × 評価)(=

類似度  ×

類推モデル

自ユーザの確率分布

評価確率分布

自ユーザ

似ていないユーザ似ているユーザ

類似度

ユーザ

ユーザ

他ユーザの確率分布

Page 10: 確率を用いた協調フィルタリング

52.提案法(3/5) 2.3 確率分布

評価済みの値を中心とする正規分布

確率分布

評価確率分布

他ユーザの確率分布

評価済みの値

類似度個別類似度

評価個別類似度

自分 相手

× × ・・・

×

自分の評価を中心とするガウス関数

類似度 個別類似度アイテム

Page 11: 確率を用いた協調フィルタリング

62.提案法(4/5) 2.4 能動学習法

ユーザ ユーザ

類似度類似度

類似度のばらつき増加量を最大にするアイテムを選択・提示

能動学習法

能動学習:学習効率の良いアイテムを提示しその評価からユーザの好みを確定

学習が進行すると類似度のばらつきが増大

ばらつき小 ばらつき大

Page 12: 確率を用いた協調フィルタリング

72.提案法(5/5) 2.5 追加学習法

追加学習法

全体

代表

定期的にデータを追加  (例:毎日、毎週)予測精度が高くなるデータを選択

の高いユーザを代表 DB に追加

現在の DB ではうまく予測できないユーザを追加

追加学習:

追加基準=全体 DB での予測尤度

代表 DB での予測尤度

Page 13: 確率を用いた協調フィルタリング

83.評価実験(1/3)予測・推薦実験

予測誤差= 予測値ー実測値

データセット

推薦精度=推薦したアイテムが実際に好きかどうか

Pearson CC :相関係数法Naïve Bayes :確率的手法

目的:   従来法と精度を比較

従来法:

精度:

映画の6段階評価ユーザ数  : 72,916映画の種類 : 1,628平均評価数 : 30

能動学習実験

追加学習実験

目的: 学習効率を確認

目的: 計算効率を確認

Page 14: 確率を用いた協調フィルタリング

0.9 1.0 1.1 1.2MAE

0.9 1.0 1.1 1.2MAE

0.37 0.38 0.39 0.40 0.41 0.42F値

93.評価実験(2/3)

PMCF( 提案法 )Pearson CCNaïve Bayes

PMCF( 提案法 )Pearson CCNaïve Bayes

全データから学習

0.32 0.33 0.34 0.35 0.36F値

データが少ない状況で有効

上位5個を推薦 上位10個を推薦

5データから学習予測実験

推薦実験

提案法が最も精度が高い

Page 15: 確率を用いた協調フィルタリング

103.評価実験(3/3)

学習回数

提案法最良評価選択ランダム選択

0

1.00

1.04

0.96

0.922 4 6 8

少ない回数で学習可能 効率的に予測可能

提案法ランダム追加

データベースのサイズ0 100

02000

3000

4000

1.00

0.95

1.05

1.10

MAEMAE

学習回数と誤差を比較能動学習実験

DBサイズと誤差を比較追加学習実験

Page 16: 確率を用いた協調フィルタリング

114.結論

総合的な精度の向上ユーザの負担の 低減

計算量の削減

長所

確率を用いた協調フィルタリング

提案

Page 17: 確率を用いた協調フィルタリング
Page 18: 確率を用いた協調フィルタリング

付録 類似度

ユーザ a とユーザ i の類似度を定義

)2

)(exp(

2

12

2,,

2, jija

jia

xxS

:ユーザ a が評価した全てのアイテムjix ,

j

:ユーザ i がアイテム j につけた評価

類似度

:分 散

中立評価

jix , が未評価の場合

in を使用

分 散大

中立評価 影響力低下

Page 19: 確率を用いた協調フィルタリング

付録 エントロピー

確率変数Xの観測によって得られる平均情報量

Xx

xpxpXH )(log)()(

:Xの確率分布

エントロピー

類似度のエントロピー

)(xp

確率変数X:ユーザ 番号 i確率分布 p :ユーザ i に対する類似度

能動学習)(minarg XHj j

j

:次に質問するアイテムj

:アイテム j を質問後のエントロピー)(XH j

Page 20: 確率を用いた協調フィルタリング

付録  Kullback-Leibler 情報量

確率分布のモデル化誤差

dxxp

xqxqpqI

)(

)(log)()|(

:モデル化された確率分布

KL情報量

)(xp

:真の確率分布)(xq

)()(0)|(

)()(0)|(

xqxppqI

xqxppqI

     

     

KL 情報量の減少量を最大化するようなユーザを代表ユーザとして選択

代表ユーザ選択基準

Page 21: 確率を用いた協調フィルタリング

付録 尤度

もっともらしさの度合い

)|( Dxp i :全データから求めた評価の尤度

尤度

:代表データから求めた評価の尤度)|( Pxp i

)|( PDp

)|( ixPDp

:全データベースの尤度

: を追加後のデータベースの尤度

)|(

)|()|()|(

Pxp

DxpPDpxPDp

i

ii

ix

ベイズの定理

Page 22: 確率を用いた協調フィルタリング

付録 追加基準尤度比

モデル化誤差最小化

まとめ

)|( Dxp i :全体 DB を使えばうまく予測できるかの基準

:現在の代表 DB でうまく予測できているか の基準

アルゴリズム

尤度比最大化

)|( Pxp i

)|(

)|(

Pxp

Dxp

i

i

)|(

)|(maxarg

Pxp

DxpPP

i

i

Cxi

尤度比を最大にするユーザを DBに追加

尤度比=典型さの度合=

Page 23: 確率を用いた協調フィルタリング

付録 今後の展望(論文)・コンテンツベースフィルタリングとの統合ユーザ だけでなくアイテム 同士の類似度も考慮する(アイテムの概要記述を利用)

・暗黙的な評価の利用操作履歴の解析による評価の自動抽出など

Page 24: 確率を用いた協調フィルタリング

付録 今後の展望(独自)・ UI の実装・能動学習提示するアイテムの複数の組み合わせを最適化する評価が高くても似た ようなアイテムを推薦するのを避ける(ユーザが 飽きないように配慮)・追加学習代表 DB を構成するユーザの組み合わせを最 適化する

Page 25: 確率を用いた協調フィルタリング
Page 26: 確率を用いた協調フィルタリング

付録 データセット

EACHMOVIE J ESTERアイテム 映画 ジョークユーザ数 72,916 17,998種類 1,628 100評価 6段階 20段階データ数 30平均 50平均

表1 データセット

Page 27: 確率を用いた協調フィルタリング

付録 精度実験条件1

•全データから学習 評価用の1つを除く全てのデータから学習 1ユーザ あたりの平均データ数 ( EACHMOVIE:30、 JESTER:50) データが十分に 存在する条件を想定

•5データから学習 1ユーザにつき5データから学習 データが少ししかない条件を想定

予測精度条件

Page 28: 確率を用いた協調フィルタリング

付録 精度実験条件2

ユーザの評価 30個をシステムから隠蔽し予測30個のうち評価の高い 5 個または 10個を推薦

•EACHMOVIE 評価が4か5のアイテムを「好き」と仮定

•JESTER 評価が5より大きいアイテムを「好き」と仮定

推薦精度条件

Page 29: 確率を用いた協調フィルタリング

付録 推薦精度基準

イテム数システムが推薦したア好きであるアイテム数推薦された中で実際に

適合率

推薦精度

好きであるアイテム数全てのアイテムの中で好きであるアイテム数推薦された中で実際に

再現率

再現率適合率再現率適合率F値

2

好ましい情報の割合

好ましい情報の網羅性

情報検索分 野でも使われる3つの基準

両方を考慮適合率と再現率はトレードオフ

Page 30: 確率を用いた協調フィルタリング

付録 精度実験結果

提案法が最も精度が高い

表1 予測誤差(MAE)

表2 推薦精度

全データ 5データ 全データ 5データPMCF D 0.966 1.008 3.544 3.967PMCF P 0.984 1.008 3.724 3.972

Pearson CC 0.996 1.150 3.927 4.258Baysian networks 1.066 1.154

Naïve Bayes 0.987 1.162 4.132 4.263

EACHMOVIE J ESTER

適合率 再現率 適合率 再現率PMCF D 0.715 0.291 0.425 0.264PMCF P 0.713 0.288 0.416 0.256

Pearson CC 0.703 0.284 0.406 0.251Naïve Bayes 0.663 0.264 0.383 0.235

EACHMOVIE J ESTER

Page 31: 確率を用いた協調フィルタリング

スライドショーの最後です。クリックすると続行します。

Page 32: 確率を用いた協調フィルタリング

ポリシー1

細かいことは気にしない

Page 33: 確率を用いた協調フィルタリング

ポリシー2

再利用できるものは再利用する

Page 34: 確率を用いた協調フィルタリング

ポリシー3

ポリシーは必ず貫く

Page 35: 確率を用いた協調フィルタリング

ポリシー4

知らないものは知らない分からないものは分からない

Page 36: 確率を用いた協調フィルタリング

ポリシー5

労力を減らすための努力を惜しまない

Page 37: 確率を用いた協調フィルタリング

ポリシー6

こだわりを持たない