Coactive learning

25
Online Structured Prediction via Coactive Learning by Pannaga Shivaswamy, Thorsten Joachims 紹介者:望月駿一 2013/03/27 1 13330日土曜日

Transcript of Coactive learning

Online Structured Prediction via Coactive Learning

by Pannaga Shivaswamy, Thorsten Joachims

紹介者:望月駿一2013/03/27

113年3月30日土曜日

概要

‣ユーザのフィードバックにより学習精度を向上していく枠組みを提唱

‣凸な誤差関数と線形の効用関数を用いて,O(1/√T)で誤差が減少することを示した

‣映画推薦と検索の2つのタスクでこの枠組みの有効性を確かめた

213年3月30日土曜日

‣ユーザがクエリを投入し,システムが結果を返し,さらにユーザがクエリを投入するシステム• Web検索,商品推薦,機械翻訳

背景

クエリ

結果ユーザ システム(学習器)

313年3月30日土曜日

背景

ユーザ システム(学習器)

‣まずユーザは検索文字列をクエリとして投入する

413年3月30日土曜日

背景

ユーザ システム(学習器)

‣評価関数の値が大きいオブジェクト(順位等)を返す

513年3月30日土曜日

背景

ユーザ システム(学習器)

‣表示後のユーザの選択からも再び情報を得られる

613年3月30日土曜日

背景

ユーザ システム(学習器)

‣正確ではないが,何らかのフィードバックが得られる

�713年3月30日土曜日

他の研究との関連‣フレームワークとして• Multiarmed bandit (Auer+,2002)• Learning with expert advice (Lugosi+,2006)• Dueling bandits setting (Yue+,2009)

‣最適化問題として• Online convex optimization (Zinkevich,2003)• Online convex optimization in the bandit setting (Flaxman+,2005)

‣ランキングとして• Ordinal regression (Crammer+,2001)• Learning with pairs of example

813年3月30日土曜日

Coactive Learning Model‣    をクエリ(文字列等),    を返すオブジェクト(検索結果等)とする.‣ユーザは結果に対する何らかの反応として,オブジェクトを返す(順序変化,クリック等)‣ユーザが必ず正しい時,効用関数をUとすると

‣Uがどんな関数であるかは良く分からない

913年3月30日土曜日

Coactive Learning Model‣Uを最大にする最適なオブジェクト(ユーザが選べるとは限らない)

‣目標•できるだけ早く最適なUの値に近いyを見つける

‣条件•合理的な検索をしてくれるユーザという設定•運用上 やUを知る必要はない y⇤

1013年3月30日土曜日

Coactive Learning Model‣ユーザが返す情報の質を定量化する•strictlyα-informative

•α-informative

•expected α-informative

‣ の確率でユーザがフィードバックを選ぶ‣たまに合理的でない挙動をするユーザも許容できるモデルになった

Pxt [yt|yt]

1113年3月30日土曜日

User Study‣本当にユーザのフィードバックが結果に改善をもたらすのか実験を行った‣16人の院生に対して,10の質問を検索させた‣ユーザがクエリごとにクリックしたHPを上位に追加した結果を として返した‣効果の測定にはDCG@10を用いた

‣関連度r(x,・)は五人の評価者によって,0~5の値が手作業で付けられ,それを正規化した値を用いた

y

1213年3月30日土曜日

User Study‣改善前と後の差分で累積分布を調べた‣改善後の方が有意に良い結果を示した(p<0.0001)‣0付近が多いのは,88%のフィードバックが であったため‣初期の順位が与える影響を見るため,順位を入れ替えた

y = y

1313年3月30日土曜日

Coactive Learning Algorithms‣Preference Perceptron

‣条件•パラメタ•x,yは構造を持つオブジェクト(ランク,クエリ等)•Φは特徴空間への写像•ただし

1413年3月30日土曜日

Coactive Learning Algorithms‣更新ごとの誤差の上限を示す‣ユーザからの情報がα-informativeな場合

‣さらにstrictly α-informativeであれば,第一項が消えO(1/√T) の誤差に抑えることができる.

1513年3月30日土曜日

Coactive Learning Algorithms‣Algorithm1のUpdateとΦの条件より

‣再びAlgorithm1より

1613年3月30日土曜日

Coactive Learning Algorithms‣コーシー・シュワルツの不等式より

‣スラック変数を入れて,α-informativeの場合にも 拡張できる

1713年3月30日土曜日

Coactive Learning Algorithms‣Expected α-informativeの場合も誤差上限を考えることができる

1813年3月30日土曜日

Coactive Learning Algorithms‣α-informativeの時と同様に証明できる

‣イェンセンの不等式を√に対して使う

1913年3月30日土曜日

Experiments‣Yahoo!の検索データ(Chapelle+,2011)で実験‣ランキングを予測するため効用関数にDCG由来の関数を定義

:添字qのクエリに対する,i番目のURLの特徴量‣フィードバックが与えられる度に,この値を元にランキングをソートしなおす

x

qyi

2013年3月30日土曜日

Experiments‣情報の質の差が誤差の減少に与える影響について調べた‣システムよりURLのランキング が与えられるとする‣ユーザは上位5個のURLを知らされていて,それを用いて現在のパラメタw*に対してα-informativeになるようなフィードバックを返す‣クエリの順番はユーザによってランダムに与える

yt

2113年3月30日土曜日

Experiments‣予想どおりα=1の方が良い結果になる

‣しかし,定義では情報の質の格差は10倍のはずだが,結果にそこまでの差はない‣思った以上にstrictly α-informativeのフィードバックの条件が理想的すぎるのでは‣α=1だとフィードバックが最適解?

2213年3月30日土曜日

Experiments‣次はリストのうちシステムが返してくるTop10しか見ることが出来ないとする‣この中でユーザは上位5個のランクを並べて返す‣条件が先ほどと異なるためα-informativeな状態ではない‣Ranking SVMと比較‣最初50ペアのデータが集まるまでハイパーパラメタCを100で固定,その後5-foldCVを行なって決定する‣以降,更新後,毎回学習はさせず10%データが増えた時点でモデルの再学習を行う

2313年3月30日土曜日

Experiments‣ノイズが乗っているため誤差は収束しない‣ほとんどの回でPerceptronの方が良い結果‣Perceptronは一回の学習に30分かかるが,SVMは20時間かかっていた

2413年3月30日土曜日

参考文献•Auer, P., Cesa-Bianchi, N., and Fischer, P. Finite-time analysis of the multiarmed bandit problem. Machine Learning, 47(2-3):235‒256, 2002a.

•Cesa-Bianchi, N. and Lugosi, G. Prediction, learning, and games. Cambridge University Press, 2006.

•Chapelle, O. and Chang, Y. Yahoo! learning to rank challenge overview. JMLR - Proceedings Track, 14:1‒ 24, 2011.

•Freund, Y., Iyer, R. D., Schapire, R. E., and Singer, Y. An efficient boosting algorithm for combining preferences. Journal of Machine Learning Research, 4:933‒969, 2003.

•Joachims, T., Granka, L., Pan, Bing, Hembrooke, H., Radlinski, F., and Gay, G. Evaluating the accuracy of implicit feedback from clicks and query reformulations in web search. ACM Transactions on Information Systems (TOIS), 25(2), April 2007.

•Yue, Y. and Joachims, T. Interactively optimizing infor- mation retrieval systems as a dueling bandits problem. In ICML, 2009.

2513年3月30日土曜日