統計的機械学習における量子アニーリング

統計的機械学習における量子アニーリング

佐藤一誠1、田中宗2 、栗原賢一3

宮下精二2 、中川裕志1

1. 東京大学情報基盤センター

2. 東京大学大学院理学系研究科

3. Google

情報統計力学の最前線ー情報と揺らぎの制御の物理学を目指してin Kyoto 2012.03.21-23

今回の話: Sato+, UAI2009, Quantum Annealing for Variational Bayes Inference

自己紹介

• 佐藤一誠

– 2011年3月東大大学院情報理工学系研究科博士課程修了(総代)

– 2011年4月より東大情報基盤センター助教

• 研究分野

–統計的機械学習とデータマイニング

•確率的潜在変数モデルの学習

• Bayesian Nonparametrics, Topic Modeling

本研究での我々の目標：量子揺らぎの制御により学習効率を向上させる

2/36

目次

• 統計的機械学習 (デモ：NAYOSEおよび例)–機械学習の目標：機械が過去のデータや人の経験から自動的に情報処理方法を学習し、未知の問題解決を行う

–逆問題

• 潜在変数モデル

• 変分ベイズ法

• 量子アニーリングを用いた変分ベイズ法

• 実験

3/36

http://ianua7.r.dl.itc.u-tokyo.ac.jp:8080/nayose/servlet/Nayose

• Spring is one of the four temperate seasons, the transition period between winter and summer.

• In Ireland, spring traditionally starts on 1 February, St Brigid's Day.

• A spring is a component of the hydrosphere.

• A spring is any natural situation where water flows to the surface of the earth from underground.

Spring: season, hydrosphere, device, mathematics, tide

語義曖昧性解消問題

4/36

Beat Fasel +2004, Latent Semantic Analysis of Facial Action Codes for Automatic Facial Expression Recognition

表情の分類：どのような表情か？

Happiness

5/36

Beat Fasel +2004, Latent Semantic Analysis of Facial Action Codes for Automatic Facial Expression Recognition

表情の分類：どのような表情か？

Surprise

6/36

物体認識：画像にある物体は？

Putthividhya+2010, Supervised Topic Model for Automatic Image Annotation 7/36

目次

• 統計的機械学習(デモ：NAYOSEおよび例)




• 実験

8/36


問題? 問題

問題問題問題

問題問題

問題

問題問題

統計的機械学習は、機械が過去のデータから学習することで、未知の問題解決を行う情報処理

過去に解いた問題（学習データ）

9/36

問題問題

問題? 問題

問題

問題問題

問題

問題問題

類似性

新しい問題を解く場合、過去の問題(学習データ)との類似性を利用して解くプロセスを考える

類似性をどのようにモデル化するか？類似性の探索をどのように行うか？

10/36

問題? 問題

問題

問題問題

問題

問題問題

問題をどのように分類するか？

１つのアプローチとして、過去の問題をいくつかのクラスに分類することを考える

このクラスに属する

問題問題

11/36

問題問題

各々の問題(データ)は潜在変数を持っておりこの変数の値が同じ問題（データ）は類似性を持つと仮定

問題問題

問題

問題問題

問題

問題問題

２２

２

１１

１

３３

２？

潜在変数の導入による分類のモデル化

12/36

問題問題

ただし、実際のデータにはの情報は

付与されていない(非観測)とする→潜在変数の学習(推定)

問題問題

問題

問題問題

問題

問題問題

？？

？

？？

？

？？

？？


13/36

問題問題問題

問題問題

問題

問題問題

？？

？

？？

？

？？


全潜在変数の取る状態を確率変数で表す

学習データ集合Ｄが与えられた下での条件付確率を用いて

エネルギー関数を定義する：

潜在変数は、

このエネルギー関数を最小に

することにより学習する

)|(log][ DpE

14/36

問題問題問題

問題問題

問題

問題問題

1 3

２

１ 2

3

３2

最初はランダムに割り振ってスタートする基本的には局所的な探索を行って低いエネルギー状態へ移動する

15/36

問題問題問題

問題問題

問題

問題問題

２２

２

１１

3

３2

最初はランダムに割り振ってスタートする基本的には局所的な探索を行って低いエネルギー状態へ移動する

→局所解の問題従来研究熱揺らぎの導入

16/36

問題問題

我々の研究目標：潜在変数に対し量子揺らぎを導入し学習する

アルゴリズムを開発する

問題

問題問題

問題

問題問題

２２

２

１１

１

３３

熱揺らぎ

量子揺らぎ

17/36

目次

• 統計的機械学習 (デモ：NAYOSEおよび例)




18/36


潜在変数学習の(近似)手法は、主に２つ本発表では変分ベイズ法を扱う

)|(log][ DpE

)|(~ Dps

)]|(||)([minarg)()(

DpqKLqq

VB

Sampling (確率的探索):

変分ベイズ法[Attias,1999]:

Kullback-Leibler divergence(相対エントロピー)

計算量大

19/36

(＋) 決定性アルゴリズム

(＋) 収束が速い

(＋) 様々な潜在変数モデルで用いられている

(－)局所解問題

)]|(||)([minarg)()(

DpqKLqq

VB

変分ベイズ法[Attias,1999]:

Kullback-Leibler divergence(相対エントロピー)

20/36

実際には、KL divergence最小化ではなく変分自由エネルギー最小化を行う

)(),(log LDp

)]|(||)([minarg)()(

DpqKLqq

VB

)]|(||)([ DpqKL

)]([ qF

)]([minarg)()(

qFqq

VB

計算量大

L+KLを計算すると最適化し易いFが出てくる

21/36

)]([),(log)]([)(

qHDpqFq

)]([),(log]);([)(

qHDpqFq

逆温度

期待対数尤度

変分自由エネルギー最小化の中身は期待対数尤度＋エントロピー最大化

熱揺らぎの導入 [Beal,2006][Katahira+,2007]

エントロピー

22/36

目次





–量子揺らぎを制御するパラメータΓの導入

–鈴木トロッター展開による古典系への対応付け

• 実験

23/36


1 23 1 2

3

変分ベイズ法は、初期値によって収束する状態が変わるため(局所解問題)、複数の異なる初期値で独立にプロセスを実行する→非独立にm個のプロセスを実行→量子アニーリング変分ベイズ法

変分ベイズ法量子アニーリング変分ベイズ法

f f ff

相互作用

24/36

問３問２問１

プロセス１

プロセス２

プロセス３

問３問２問１１２１

問３問２問１1 ３１

問３問２問１２３３

が複数の潜在変数の値を同時に取る→m個の相互作用付プロセスでシミュレート

f

f

f

f

量子アニーリング変分ベイズ法は量子系を古典系へ対応付けることにより導出

・・・

・・・

・・・

・・・

潜在変数に量子揺らぎを導入すると

量子系古典系

25/36


),;|( Dp

)]Tr[exp(

)exp(

H

H

qc HHH

鈴木トロッター展開

m

Dp m

2

),;|( 1

1

m

2

m 2

f(β,Γ)

量子系古典系

古典系ハミルトニアンHc

（対角行列）

非対角項が-Γのハミルトニアン

26/36


),;|( 1 Dp mは潜在変数の重ね合わせに対する確率分布

)()( 1 mqq

で近似するための変分自由エネルギーを導出する

L

KL

],);()([ 1 mqqF

27/36

)](),([),();( 1

1

jj

m

j

j qqsfm

qF

],);(,),([ 1 mqqF

逆温度がβ/mの変分自由エネルギー

量子アニーリング変分ベイズ法では、m個のプロセス全体で以下を最小化し、各々を求める)( jq

j番目のプロセスで推定した確率分布

)(,)( 1jj qq

が互いに類似した分布であるほど小さくなる項

相互作用の強さを制御する項Γ：量子効果パラメータ

(m+1=1)

※ポイント：この項は、モデルに無関係なので、実際は、個々のモデルに対してこの項を追加するだけでＯＫ28/36

29/36

)()(),(exp ,1,1 ijij qqf

)(

,\

),(logexp)(ijq

jij Dpm

q

古典系と同じ

)(,)( ,1,1 ijij qq

と類似した分布になる効果

※ポイント：この項は、モデルに無関係なので、実際は、個々のモデルに対してこの項を乗算するだけでＯＫ

実際の更新式：データiの潜在変数ij ,

目次





• 実験

– Simulated Annealing (SA)

– Quantum Annealing (QA)

30/36


実験（文書分類）

• モデル：Unigram mixture (UM) model

• データセット：文書データ– BBCコーパス：

•約2500文書, 約9千語彙(次元数), 5ラベル

– 20NGコーパス

•約4000文書, 約１万語彙(次元数), 8ラベル

• 評価方法：– Minimum Free energy

– F-measure

• 文書分類で使われる評価手法：同一ラベルを持つデータの潜在変数が同じであれば高くなる指標

• １が最も良い31/36

t0 逆温度

量子効果

t:time(step)

Γ0:大→

20

1

t

スケジューリング： SAに対して複数のスケジュールを試し、最もよいものを採用QAは、Γ0を変えて実験する

β

f(β,Γ) f(β,Γ)

1

32/36

良

SAで並列数mを倍にしても到達できないエネルギー状態へ、QAでは同一の並列数mで到達できる

Γ0が大きくなると性能は

QA=SA33/36

良

文書分類性能も10%以上向上

34/36

良良

文書数が約2倍のデータセット(ラベル数も異なる)

においても、同様な結果が得られた

35/36

実行時間は、同一並列数であれば、SAとQAほとんど変わらない

クラス数を変えて計測

36/36

おわりに• 長所

–従来の変分ベイズ法が適用可能なモデルに対して適用可能• 隠れマルコフモデル(Web閲覧履歴解析)

• Latent Dirichlet Allocation(音楽再生履歴解析)

–シミュレーテッドアニーリングでは到達できないエネルギー状態へ移動できる

• 短所–アニーリングスケジュール依存性

• 今後の展開–適用モデルの拡大（ex.無限混合モデル）

–大規模化(スパコン利用)37/36

Appendix

38/36

古典系ハミルトニアン

39/36

量子系ハミルトニアン

40/36

相互作用関数

41/36

試したスケジュール

β0=0.1, 0.2,0.4,0.60.2を採用

2,,,log tttt

42/36

Trotter product formula [Trotter,1959]

43/36

経路積分

44/36

45

x

x

x

x

x

xx

x

x

x

x

x

xx

:1

:2

１１

１１

2

2 2

1

1 1

2 2

2 2

を計算するときに、単純にやると以下の二つは分類という観点では同じ状態

にも関わらず、s=0になってしまう

)](),([ 1jj qqs

Label Identification= 割り当て問題

46

Class 1

Class 2

Class 3

完全マッチ：O(K^3)アルゴリズム近似マッチ：O(K^2) アルゴリズムＭＡＰ近似：O(K)アルゴリズム

j-1 j j+1

統計的機械学習における量子アニーリング

Documents

Transcript of 統計的機械学習における量子アニーリング