確率を用いた協調フィルタリング

Probabilistic Memory-Based Collaborative Filtering

Kai Yu, Anton Schwaighofer, Volker Tresp, Xiaowei Xu, and Hans-Peter Kriegel

IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING,

VOL.16, NO.1, JANUARY 2004

慶應義塾大学　理工学部　情報工学科

萩原研究室　学籍番号　 60204734

奥野　陽

確率を用いた協調フィルタリング

１１．背景・目的（１／２）

協調フィルタリング

推薦システム

•映画

•書籍•Ｗｅｂページ

Ｗｅｂサービスでの実用化例： Amazon

1

14

4241

?

2515

アイテム

ユーザ

・・・

情報過多

個人の好みに合わせて推薦

似たユーザの評価からアイテムの評価を予測

•タイタニック•マトリックス•ダヴィンチコード

・・・

補足　協調フィルタリング

A

B

C

D

タイタニッ

クマトリッ

ク

スダヴィンチコー

ド

ユー

ザ

ここに入る評価は？

4

2

4

1

?

2

5

1

1

1

4

5


好みが類似

タイタニッ

クマトリッ

ク


ド

ユー

ザ

A

B

C

D

4

2

4

1

?

2

5

1

1

1

4

5


この評価を強く反映

タイタニッ

クマトリッ

ク


ド

ユー

ザ

A

B

C

D

1

1

4

4

2

4

1

5

2

5

15

１１．背景・目的（１／２）

協調フィルタリング

推薦システム

Ｗｅｂサービスでの実用化例： Amazon

個人の好みに合わせて推薦

似たユーザの評価からアイテムの評価を予測

アイテム

ユーザ

情報過多•映画

•書籍•Ｗｅｂページ

・・・

•タイタニック•マトリックス•ダヴィンチコード

・・・

1

14

4241

?

2515

２１．背景・目的（２／２）

確率を用いた協調フィルタリングPMCF

(Probabilistic Memory-Based Collaborative Filtering)

確率に基づく拡張性の高い枠組みを提案

提案

従来法の問題点提案法の改善法

•精度の向上

•学習効率の良い能動学習

•代表的なデータのみ使用

•的外れな推薦

•ユーザが評価する負担

•計算時間がかかる

３２．提案法（１／５）２．１　イメージ図

全体 DB

代表 DB

定期的にデータ追加

評価・学習

システムUI

予測・推薦おすすめアイテム

気に入ったか？

４２．提案法（２／５）２．２　予測方法

予測方法未評価のアイテムの評価

評価の期待値

＝

評価確率分布

期待値確率分布 × 評価）（＝

類似度　 ×

類推モデル

＝

自ユーザの確率分布

評価確率分布

自ユーザ

似ていないユーザ似ているユーザ

類似度

ユーザ

ユーザ

他ユーザの確率分布

５２．提案法（３／５）２．３　確率分布

評価済みの値を中心とする正規分布

確率分布

＝

評価確率分布

他ユーザの確率分布

評価済みの値

類似度個別類似度

評価個別類似度

自分相手

× × ・・・

×

自分の評価を中心とするガウス関数

類似度個別類似度アイテム

＝

６２．提案法（４／５）２．４　能動学習法

ユーザユーザ

類似度類似度

類似度のばらつき増加量を最大にするアイテムを選択・提示

能動学習法

能動学習：学習効率の良いアイテムを提示しその評価からユーザの好みを確定

学習が進行すると類似度のばらつきが増大

ばらつき小ばらつき大

７２．提案法（５／５）２．５　追加学習法

追加学習法

全体

代表

定期的にデータを追加　（例：毎日、毎週）予測精度が高くなるデータを選択

の高いユーザを代表 DB に追加

現在の DB ではうまく予測できないユーザを追加

追加学習：

追加基準＝全体 DB での予測尤度

代表 DB での予測尤度

８３．評価実験（１／３）予測・推薦実験

予測誤差＝　予測値ー実測値

データセット

推薦精度＝推薦したアイテムが実際に好きかどうか

Pearson CC ：相関係数法Naïve Bayes ：確率的手法

目的：　　　従来法と精度を比較

従来法：

精度：

映画の６段階評価ユーザ数　　： 72,916映画の種類： 1,628平均評価数： 30

能動学習実験

追加学習実験

目的：　学習効率を確認

目的：　計算効率を確認

0.9 1.0 1.1 1.2MAE

0.9 1.0 1.1 1.2MAE

0.37 0.38 0.39 0.40 0.41 0.42Ｆ値

９３．評価実験（２／３）

PMCF( 提案法 )Pearson CCNaïve Bayes

PMCF( 提案法 )Pearson CCNaïve Bayes

全データから学習

0.32 0.33 0.34 0.35 0.36Ｆ値

データが少ない状況で有効

上位５個を推薦上位１０個を推薦

５データから学習予測実験

推薦実験

提案法が最も精度が高い

１０３．評価実験（３／３）

学習回数

提案法最良評価選択ランダム選択

0

1.00

1.04

0.96

0.922 4 6 8

少ない回数で学習可能効率的に予測可能

提案法ランダム追加

データベースのサイズ0 100

02000

3000

4000

1.00

0.95

1.05

1.10

MAEMAE

学習回数と誤差を比較能動学習実験

ＤＢサイズと誤差を比較追加学習実験

１１４．結論

総合的な精度の向上ユーザの負担の低減

計算量の削減

長所

確率を用いた協調フィルタリング

提案

付録　類似度

ユーザ a とユーザ i の類似度を定義

)2

)(exp(

2

12

2,,

2, jija

jia

xxS

：ユーザ a が評価した全てのアイテムjix ,

j

：ユーザ i がアイテム j につけた評価

類似度

：分散

中立評価

jix , が未評価の場合

in を使用

分散大

中立評価影響力低下

付録　エントロピー

確率変数Ｘの観測によって得られる平均情報量

Xx

xpxpXH )(log)()(

：Ｘの確率分布

エントロピー

類似度のエントロピー

)(xp

確率変数Ｘ：ユーザ番号 i確率分布 p ：ユーザ i に対する類似度

能動学習)(minarg XHj j

j

：次に質問するアイテムj

：アイテム j を質問後のエントロピー)(XH j

付録　 Kullback-Leibler 情報量

確率分布のモデル化誤差

dxxp

xqxqpqI

)(

)(log)()|(

：モデル化された確率分布

KL情報量

)(xp

：真の確率分布)(xq

)()(0)|(

)()(0)|(

xqxppqI

xqxppqI

　　　

　　　

KL 情報量の減少量を最大化するようなユーザを代表ユーザとして選択

代表ユーザ選択基準

付録　尤度

もっともらしさの度合い

)|( Dxp i ：全データから求めた評価の尤度

尤度

：代表データから求めた評価の尤度)|( Pxp i

)|( PDp

)|( ixPDp

：全データベースの尤度

：　を追加後のデータベースの尤度

)|(

)|()|()|(

Pxp

DxpPDpxPDp

i

ii

ix

ベイズの定理

付録　今後の展望（論文）・コンテンツベースフィルタリングとの統合ユーザだけでなくアイテム同士の類似度も考慮する（アイテムの概要記述を利用）

・暗黙的な評価の利用操作履歴の解析による評価の自動抽出など

付録　今後の展望（独自）・ UI の実装・能動学習提示するアイテムの複数の組み合わせを最適化する評価が高くても似たようなアイテムを推薦するのを避ける（ユーザが飽きないように配慮）・追加学習代表 DB を構成するユーザの組み合わせを最適化する

付録　データセット

EACHMOVIE J ESTERアイテム映画ジョークユーザ数 72,916 17,998種類 1,628 100評価 6段階 20段階データ数 30平均 50平均

表１　データセット

付録　精度実験条件１

•全データから学習　評価用の１つを除く全てのデータから学習　１ユーザあたりの平均データ数　（ EACHMOVIE:30、 JESTER:50)　データが十分に存在する条件を想定

•５データから学習　１ユーザにつき５データから学習　データが少ししかない条件を想定

予測精度条件

付録　精度実験条件２

ユーザの評価 30個をシステムから隠蔽し予測30個のうち評価の高い 5 個または 10個を推薦

•ＥＡＣＨＭＯＶＩＥ　評価が４か５のアイテムを「好き」と仮定

•ＪＥＳＴＥＲ　評価が５より大きいアイテムを「好き」と仮定

推薦精度条件

付録　推薦精度基準

イテム数システムが推薦したア好きであるアイテム数推薦された中で実際に

適合率

推薦精度

好きであるアイテム数全てのアイテムの中で好きであるアイテム数推薦された中で実際に

再現率

再現率適合率再現率適合率Ｆ値

2

好ましい情報の割合

好ましい情報の網羅性

情報検索分野でも使われる３つの基準

両方を考慮適合率と再現率はトレードオフ

付録　精度実験結果

提案法が最も精度が高い

表１　予測誤差（ＭＡＥ）

表２　推薦精度

全データ 5データ全データ 5データPMCF D 0.966 1.008 3.544 3.967PMCF P 0.984 1.008 3.724 3.972

Pearson CC 0.996 1.150 3.927 4.258Baysian networks 1.066 1.154

Naïve Bayes 0.987 1.162 4.132 4.263

EACHMOVIE J ESTER

適合率再現率適合率再現率PMCF D 0.715 0.291 0.425 0.264PMCF P 0.713 0.288 0.416 0.256

Pearson CC 0.703 0.284 0.406 0.251Naïve Bayes 0.663 0.264 0.383 0.235

EACHMOVIE J ESTER

スライドショーの最後です。クリックすると続行します。

ポリシー１

細かいことは気にしない

ポリシー２

再利用できるものは再利用する

ポリシー３

ポリシーは必ず貫く

ポリシー４

知らないものは知らない分からないものは分からない

ポリシー５

労力を減らすための努力を惜しまない

ポリシー６

こだわりを持たない

確率を用いた協調フィルタリング

Documents

Transcript of 確率を用いた協調フィルタリング