統計的機械学習における量子アニーリング
Transcript of 統計的機械学習における量子アニーリング
統計的機械学習における量子アニーリング
佐藤一誠1、田中宗2 、栗原賢一3
宮下精二2 、中川裕志1
1. 東京大学情報基盤センター
2. 東京大学大学院 理学系研究科
3. Google
情報統計力学の最前線ー情報と揺らぎの制御の物理学を目指してin Kyoto 2012.03.21-23
今回の話: Sato+, UAI2009, Quantum Annealing for Variational Bayes Inference
自己紹介
• 佐藤一誠
– 2011年3月東大大学院情報理工学系研究科博士課程修了(総代)
– 2011年4月より東大情報基盤センター助教
• 研究分野
–統計的機械学習とデータマイニング
•確率的潜在変数モデルの学習
• Bayesian Nonparametrics, Topic Modeling
本研究での我々の目標:量子揺らぎの制御により学習効率を向上させる
2/36
目次
• 統計的機械学習 (デモ:NAYOSEおよび例)–機械学習の目標:機械が過去のデータや人の経験から自動的に情報処理方法を学習し、未知の問題解決を行う
–逆問題
• 潜在変数モデル
• 変分ベイズ法
• 量子アニーリングを用いた変分ベイズ法
• 実験
3/36
• Spring is one of the four temperate seasons, the transition period between winter and summer.
• In Ireland, spring traditionally starts on 1 February, St Brigid's Day.
• A spring is a component of the hydrosphere.
• A spring is any natural situation where water flows to the surface of the earth from underground.
Spring: season, hydrosphere, device, mathematics, tide
語義曖昧性解消問題
4/36
Beat Fasel +2004, Latent Semantic Analysis of Facial Action Codes for Automatic Facial Expression Recognition
表情の分類:どのような表情か?
Happiness
5/36
Beat Fasel +2004, Latent Semantic Analysis of Facial Action Codes for Automatic Facial Expression Recognition
表情の分類:どのような表情か?
Surprise
6/36
物体認識:画像にある物体は?
Putthividhya+2010, Supervised Topic Model for Automatic Image Annotation 7/36
目次
• 統計的機械学習(デモ:NAYOSEおよび例)
• 潜在変数モデル
• 変分ベイズ法
• 量子アニーリングを用いた変分ベイズ法
• 実験
8/36
問題? 問題
問題 問題問題
問題問題
問題
問題問題
統計的機械学習は、機械が過去のデータから学習することで、未知の問題解決を行う情報処理
過去に解いた問題(学習データ)
9/36
問題問題
問題? 問題
問題
問題問題
問題
問題問題
類似性
新しい問題を解く場合、過去の問題(学習データ)との類似性を利用して解くプロセスを考える
類似性をどのようにモデル化するか?類似性の探索をどのように行うか?
10/36
問題? 問題
問題
問題問題
問題
問題問題
問題をどのように分類するか?
1つのアプローチとして、過去の問題をいくつかのクラスに分類することを考える
このクラスに属する
問題問題
11/36
問題問題
各々の問題(データ)は潜在変数 を持っておりこの変数の値が同じ問題(データ)は類似性を持つと仮定
問題 問題
問題
問題問題
問題
問題問題
2 2
2
1 1
1
33
2?
潜在変数の導入による分類のモデル化
12/36
問題問題
ただし、実際のデータにはの情報は
付与されていない(非観測)とする→潜在変数の学習(推定)
問題 問題
問題
問題問題
問題
問題問題
? ?
?
? ?
?
??
??
潜在変数の導入による分類のモデル化
13/36
問題問題問題
問題問題
問題
問題問題
? ?
?
? ?
?
??
潜在変数の導入による分類のモデル化
全潜在変数 の取る状態を確率変数 で表す
学習データ集合Dが与えられた下での条件付確率を用いて
エネルギー関数を定義する:
潜在変数は、
このエネルギー関数を最小に
することにより学習する
)|(log][ DpE
14/36
問題問題問題
問題問題
問題
問題問題
1 3
2
1 2
3
32
最初はランダムに割り振ってスタートする基本的には局所的な探索を行って低いエネルギー状態へ移動する
15/36
問題問題問題
問題問題
問題
問題問題
2 2
2
1 1
3
32
最初はランダムに割り振ってスタートする基本的には局所的な探索を行って低いエネルギー状態へ移動する
→局所解の問題従来研究 熱揺らぎの導入
16/36
問題問題
我々の研究目標:潜在変数に対し量子揺らぎを導入し学習する
アルゴリズムを開発する
問題
問題問題
問題
問題問題
2 2
2
1 1
1
33
熱揺らぎ
量子揺らぎ
17/36
目次
• 統計的機械学習 (デモ:NAYOSEおよび例)
• 潜在変数モデル
• 変分ベイズ法
• 量子アニーリングを用いた変分ベイズ法
18/36
潜在変数学習の(近似)手法は、主に2つ本発表では変分ベイズ法を扱う
)|(log][ DpE
)|(~ Dps
)]|(||)([minarg)()(
DpqKLqq
VB
Sampling (確率的探索):
変分ベイズ法[Attias,1999]:
Kullback-Leibler divergence(相対エントロピー)
計算量大
19/36
(+) 決定性アルゴリズム
(+) 収束が速い
(+) 様々な潜在変数モデルで用いられている
(-)局所解問題
)]|(||)([minarg)()(
DpqKLqq
VB
変分ベイズ法[Attias,1999]:
Kullback-Leibler divergence(相対エントロピー)
20/36
実際には、KL divergence最小化ではなく変分自由エネルギー最小化を行う
)(),(log LDp
)]|(||)([minarg)()(
DpqKLqq
VB
)]|(||)([ DpqKL
)]([ qF
)]([minarg)()(
qFqq
VB
計算量大
L+KLを計算すると最適化し易いFが出てくる
21/36
)]([),(log)]([)(
qHDpqFq
)]([),(log]);([)(
qHDpqFq
逆温度
期待対数尤度
変分自由エネルギー最小化の中身は期待対数尤度+エントロピー最大化
熱揺らぎの導入 [Beal,2006][Katahira+,2007]
エントロピー
22/36
目次
• 統計的機械学習 (デモ:NAYOSEおよび例)
• 潜在変数モデル
• 変分ベイズ法
• 量子アニーリングを用いた変分ベイズ法
–量子揺らぎを制御するパラメータΓの導入
–鈴木トロッター展開による古典系への対応付け
• 実験
23/36
1 23 1 2
3
変分ベイズ法は、初期値によって収束する状態が変わるため(局所解問題)、複数の異なる初期値で独立にプロセスを実行する→非独立にm個のプロセスを実行→量子アニーリング変分ベイズ法
変分ベイズ法 量子アニーリング変分ベイズ法
f f ff
相互作用
24/36
問3問2問1
プロセス1
プロセス2
プロセス3
問3問2問11 2 1
問3問2問11 3 1
問3問2問12 3 3
が複数の潜在変数の値を同時に取る→m個の相互作用付プロセスでシミュレート
f
f
f
f
量子アニーリング変分ベイズ法は量子系を古典系へ対応付けることにより導出
・・・
・・・
・・・
・・・
潜在変数に量子揺らぎを導入すると
量子系 古典系
25/36
量子アニーリング変分ベイズ法は量子系を古典系へ対応付けることにより導出
),;|( Dp
)]Tr[exp(
)exp(
H
H
qc HHH
鈴木トロッター展開
m
Dp m
2
),;|( 1
1
m
2
m 2
f(β,Γ)
量子系 古典系
古典系ハミルトニアンHc
(対角行列)
非対角項が-Γのハミルトニアン
26/36
量子アニーリング変分ベイズ法は量子系を古典系へ対応付けることにより導出
),;|( 1 Dp mは潜在変数の重ね合わせに対する確率分布
)()( 1 mqq
で近似するための変分自由エネルギーを導出する
L
KL
],);()([ 1 mqqF
27/36
)](),([),();( 1
1
jj
m
j
j qqsfm
qF
],);(,),([ 1 mqqF
逆温度がβ/mの変分自由エネルギー
量子アニーリング変分ベイズ法では、m個のプロセス全体で以下を最小化し、各々 を求める)( jq
j番目のプロセスで推定した確率分布
)(,)( 1jj qq
が互いに類似した分布であるほど小さくなる項
相互作用の強さを制御する項Γ:量子効果パラメータ
(m+1=1)
※ポイント:この項は、モデルに無関係なので、実際は、個々のモデルに対してこの項を追加するだけでOK28/36
29/36
)()(),(exp ,1,1 ijij qqf
)(
,\
),(logexp)(ijq
jij Dpm
q
古典系と同じ
)(,)( ,1,1 ijij qq
と類似した分布になる効果
※ポイント:この項は、モデルに無関係なので、実際は、個々のモデルに対してこの項を乗算するだけでOK
実際の更新式 :データiの潜在変数ij ,
目次
• 統計的機械学習 (デモ:NAYOSEおよび例)
• 潜在変数モデル
• 変分ベイズ法
• 量子アニーリングを用いた変分ベイズ法
• 実験
– Simulated Annealing (SA)
– Quantum Annealing (QA)
30/36
実験(文書分類)
• モデル:Unigram mixture (UM) model
• データセット:文書データ– BBCコーパス:
•約2500文書, 約9千語彙(次元数), 5ラベル
– 20NGコーパス
•約4000文書, 約1万語彙(次元数), 8ラベル
• 評価方法:– Minimum Free energy
– F-measure
• 文書分類で使われる評価手法:同一ラベルを持つデータの潜在変数が同じであれば高くなる指標
• 1が最も良い31/36
t0 逆温度
量子効果
t:time(step)
Γ0:大→
20
1
t
スケジューリング: SAに対して複数のスケジュールを試し、最もよいものを採用QAは、Γ0を変えて実験する
β
f(β,Γ) f(β,Γ)
1
32/36
良
SAで並列数mを倍にしても到達できないエネルギー状態へ、QAでは同一の並列数mで到達できる
Γ0が大きくなると性能は
QA=SA33/36
良
文書分類性能も10%以上向上
34/36
良良
文書数が約2倍のデータセット(ラベル数も異なる)
においても、同様な結果が得られた
35/36
実行時間は、同一並列数であれば、SAとQAほとんど変わらない
クラス数を変えて計測
36/36
おわりに• 長所
–従来の変分ベイズ法が適用可能なモデルに対して適用可能• 隠れマルコフモデル(Web閲覧履歴解析)
• Latent Dirichlet Allocation(音楽再生履歴解析)
–シミュレーテッドアニーリングでは到達できないエネルギー状態へ移動できる
• 短所–アニーリングスケジュール依存性
• 今後の展開–適用モデルの拡大(ex.無限混合モデル)
–大規模化(スパコン利用)37/36
Appendix
38/36
古典系ハミルトニアン
39/36
量子系ハミルトニアン
40/36
相互作用関数
41/36
試したスケジュール
β0=0.1, 0.2,0.4,0.60.2を採用
2,,,log tttt
42/36
Trotter product formula [Trotter,1959]
43/36
経路積分
44/36
45
x
x
x
x
x
xx
x
x
x
x
x
xx
:1
:2
1 1
1 1
2
2 2
1
1 1
2 2
2 2
を計算するときに、単純にやると以下の二つは分類という観点では同じ状態
にも関わらず、s=0になってしまう
)](),([ 1jj qqs
Label Identification= 割り当て問題
46
Class 1
Class 2
Class 3
完全マッチ:O(K^3)アルゴリズム近似マッチ:O(K^2) アルゴリズムMAP近似:O(K)アルゴリズム
j-1 j j+1