確率を用いた協調フィルタリング
Transcript of 確率を用いた協調フィルタリング
Probabilistic Memory-Based Collaborative Filtering
Kai Yu, Anton Schwaighofer, Volker Tresp, Xiaowei Xu, and Hans-Peter Kriegel
IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING,
VOL.16, NO.1, JANUARY 2004
慶應義塾大学 理工学部 情報工学科
萩原研究室 学籍番号 60204734
奥野 陽
確率を用いた協調フィルタリング
11.背景・目的(1/2)
協調フィルタリング
推薦システム
•映画
•書籍•Webページ
Webサービスでの実用化例: Amazon
1
14
4241
?
2515
アイテム
ユーザ
・・・
情報過多
個人の好みに合わせて推薦
似たユーザの評価からアイテムの評価を予測
•タイタニック•マトリックス•ダヴィンチコード
・・・
補足 協調フィルタリング
A
B
C
D
タイタニッ
ク マトリッ
ク
スダヴィンチコー
ド
ユー
ザ
ここに入る評価は?
4
2
4
1
?
2
5
1
1
1
4
5
補足 協調フィルタリング
好みが類似
タイタニッ
ク マトリッ
ク
スダヴィンチコー
ド
ユー
ザ
A
B
C
D
4
2
4
1
?
2
5
1
1
1
4
5
補足 協調フィルタリング
この評価を強く反映
タイタニッ
ク マトリッ
ク
スダヴィンチコー
ド
ユー
ザ
A
B
C
D
1
1
4
4
2
4
1
5
2
5
15
11.背景・目的(1/2)
協調フィルタリング
推薦システム
Webサービスでの実用化例: Amazon
個人の好みに合わせて推薦
似たユーザの評価からアイテムの評価を予測
アイテム
ユーザ
情報過多•映画
•書籍•Webページ
・・・
•タイタニック•マトリックス•ダヴィンチコード
・・・
1
14
4241
?
2515
21.背景・目的(2/2)
確率を用いた協調フィルタリングPMCF
(Probabilistic Memory-Based Collaborative Filtering)
確率に基づく拡張性の高い枠組みを提案
提案
従来法の問題点 提案法の改善法
•精度の向上
•学習効率の良い能動学習
•代表的なデータのみ使用
•的外れな推薦
•ユーザが評価する負担
•計算時間がかかる
32.提案法(1/5) 2.1 イメージ図
全体 DB
代表 DB
定期的にデータ追加
評価・学習
システムUI
予測・推薦おすすめアイテム
気に入ったか?
42.提案法(2/5) 2.2 予測方法
予測方法未評価のアイテムの評価
評価の期待値
=
評価確率分布
期待値確率分布 × 評価)(=
類似度 ×
類推モデル
=
自ユーザの確率分布
評価確率分布
自ユーザ
似ていないユーザ似ているユーザ
類似度
ユーザ
ユーザ
他ユーザの確率分布
52.提案法(3/5) 2.3 確率分布
評価済みの値を中心とする正規分布
確率分布
=
評価確率分布
他ユーザの確率分布
評価済みの値
類似度個別類似度
評価個別類似度
自分 相手
× × ・・・
×
自分の評価を中心とするガウス関数
類似度 個別類似度アイテム
=
62.提案法(4/5) 2.4 能動学習法
ユーザ ユーザ
類似度類似度
類似度のばらつき増加量を最大にするアイテムを選択・提示
能動学習法
能動学習:学習効率の良いアイテムを提示しその評価からユーザの好みを確定
学習が進行すると類似度のばらつきが増大
ばらつき小 ばらつき大
72.提案法(5/5) 2.5 追加学習法
追加学習法
全体
代表
定期的にデータを追加 (例:毎日、毎週)予測精度が高くなるデータを選択
の高いユーザを代表 DB に追加
現在の DB ではうまく予測できないユーザを追加
追加学習:
追加基準=全体 DB での予測尤度
代表 DB での予測尤度
83.評価実験(1/3)予測・推薦実験
予測誤差= 予測値ー実測値
データセット
推薦精度=推薦したアイテムが実際に好きかどうか
Pearson CC :相関係数法Naïve Bayes :確率的手法
目的: 従来法と精度を比較
従来法:
精度:
映画の6段階評価ユーザ数 : 72,916映画の種類 : 1,628平均評価数 : 30
能動学習実験
追加学習実験
目的: 学習効率を確認
目的: 計算効率を確認
0.9 1.0 1.1 1.2MAE
0.9 1.0 1.1 1.2MAE
0.37 0.38 0.39 0.40 0.41 0.42F値
93.評価実験(2/3)
PMCF( 提案法 )Pearson CCNaïve Bayes
PMCF( 提案法 )Pearson CCNaïve Bayes
全データから学習
0.32 0.33 0.34 0.35 0.36F値
データが少ない状況で有効
上位5個を推薦 上位10個を推薦
5データから学習予測実験
推薦実験
提案法が最も精度が高い
103.評価実験(3/3)
学習回数
提案法最良評価選択ランダム選択
0
1.00
1.04
0.96
0.922 4 6 8
少ない回数で学習可能 効率的に予測可能
提案法ランダム追加
データベースのサイズ0 100
02000
3000
4000
1.00
0.95
1.05
1.10
MAEMAE
学習回数と誤差を比較能動学習実験
DBサイズと誤差を比較追加学習実験
114.結論
総合的な精度の向上ユーザの負担の 低減
計算量の削減
長所
確率を用いた協調フィルタリング
提案
付録 類似度
ユーザ a とユーザ i の類似度を定義
)2
)(exp(
2
12
2,,
2, jija
jia
xxS
:ユーザ a が評価した全てのアイテムjix ,
j
:ユーザ i がアイテム j につけた評価
類似度
:分 散
中立評価
jix , が未評価の場合
in を使用
分 散大
中立評価 影響力低下
付録 エントロピー
確率変数Xの観測によって得られる平均情報量
Xx
xpxpXH )(log)()(
:Xの確率分布
エントロピー
類似度のエントロピー
)(xp
確率変数X:ユーザ 番号 i確率分布 p :ユーザ i に対する類似度
能動学習)(minarg XHj j
j
:次に質問するアイテムj
:アイテム j を質問後のエントロピー)(XH j
付録 Kullback-Leibler 情報量
確率分布のモデル化誤差
dxxp
xqxqpqI
)(
)(log)()|(
:モデル化された確率分布
KL情報量
)(xp
:真の確率分布)(xq
)()(0)|(
)()(0)|(
xqxppqI
xqxppqI
KL 情報量の減少量を最大化するようなユーザを代表ユーザとして選択
代表ユーザ選択基準
付録 尤度
もっともらしさの度合い
)|( Dxp i :全データから求めた評価の尤度
尤度
:代表データから求めた評価の尤度)|( Pxp i
)|( PDp
)|( ixPDp
:全データベースの尤度
: を追加後のデータベースの尤度
)|(
)|()|()|(
Pxp
DxpPDpxPDp
i
ii
ix
ベイズの定理
付録 追加基準尤度比
モデル化誤差最小化
まとめ
)|( Dxp i :全体 DB を使えばうまく予測できるかの基準
:現在の代表 DB でうまく予測できているか の基準
アルゴリズム
尤度比最大化
)|( Pxp i
)|(
)|(
Pxp
Dxp
i
i
)|(
)|(maxarg
Pxp
DxpPP
i
i
Cxi
尤度比を最大にするユーザを DBに追加
尤度比=典型さの度合=
付録 今後の展望(論文)・コンテンツベースフィルタリングとの統合ユーザ だけでなくアイテム 同士の類似度も考慮する(アイテムの概要記述を利用)
・暗黙的な評価の利用操作履歴の解析による評価の自動抽出など
付録 今後の展望(独自)・ UI の実装・能動学習提示するアイテムの複数の組み合わせを最適化する評価が高くても似た ようなアイテムを推薦するのを避ける(ユーザが 飽きないように配慮)・追加学習代表 DB を構成するユーザの組み合わせを最 適化する
付録 データセット
EACHMOVIE J ESTERアイテム 映画 ジョークユーザ数 72,916 17,998種類 1,628 100評価 6段階 20段階データ数 30平均 50平均
表1 データセット
付録 精度実験条件1
•全データから学習 評価用の1つを除く全てのデータから学習 1ユーザ あたりの平均データ数 ( EACHMOVIE:30、 JESTER:50) データが十分に 存在する条件を想定
•5データから学習 1ユーザにつき5データから学習 データが少ししかない条件を想定
予測精度条件
付録 精度実験条件2
ユーザの評価 30個をシステムから隠蔽し予測30個のうち評価の高い 5 個または 10個を推薦
•EACHMOVIE 評価が4か5のアイテムを「好き」と仮定
•JESTER 評価が5より大きいアイテムを「好き」と仮定
推薦精度条件
付録 推薦精度基準
イテム数システムが推薦したア好きであるアイテム数推薦された中で実際に
適合率
推薦精度
好きであるアイテム数全てのアイテムの中で好きであるアイテム数推薦された中で実際に
再現率
再現率適合率再現率適合率F値
2
好ましい情報の割合
好ましい情報の網羅性
情報検索分 野でも使われる3つの基準
両方を考慮適合率と再現率はトレードオフ
付録 精度実験結果
提案法が最も精度が高い
表1 予測誤差(MAE)
表2 推薦精度
全データ 5データ 全データ 5データPMCF D 0.966 1.008 3.544 3.967PMCF P 0.984 1.008 3.724 3.972
Pearson CC 0.996 1.150 3.927 4.258Baysian networks 1.066 1.154
Naïve Bayes 0.987 1.162 4.132 4.263
EACHMOVIE J ESTER
適合率 再現率 適合率 再現率PMCF D 0.715 0.291 0.425 0.264PMCF P 0.713 0.288 0.416 0.256
Pearson CC 0.703 0.284 0.406 0.251Naïve Bayes 0.663 0.264 0.383 0.235
EACHMOVIE J ESTER
スライドショーの最後です。クリックすると続行します。
ポリシー1
細かいことは気にしない
ポリシー2
再利用できるものは再利用する
ポリシー3
ポリシーは必ず貫く
ポリシー4
知らないものは知らない分からないものは分からない
ポリシー5
労力を減らすための努力を惜しまない
ポリシー6
こだわりを持たない