半教師あり学習

Introduction to Semi-Supervised Learning

吉田康久

Thursday, January 21, 2010

Outline• なぜ半教師あり学習が必要なのか• 具体的な半教師あり学習のアルゴリズム• Self Traininga• Multiview Algorithms• Generative Models• S3VMs(TSVMs)• Graph-Based Algorithms

• それぞれのモデルの仮定• 参考文献


なぜ半教師ありなのか?


性能とコストのトレードオフ

• 分類器の性能を上げたい• データをたくさん食わせたい

• しかし、ラベル付きデータはcostly...

• 人が入力するのは、時間もコストもかかる• 特に専門的な知識を要するもの• 例 : 専門用語のカテゴリ分け


ラベルなしデータ

• ラベルなしデータはコストをかけずに大量に手に入れることができる

• 目標 : ラベルなしデータを学習にうまく組み合わせることでパフォーマンスを向上できないか? => SSL


ラベルなしデータは役に立つのか?


直感的な説明• 下のようなデータの分類を考えたい• ラベルありデータのみの場合とラベルなしデータを加えた場合では、決定境界がずれる

http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf




SSLのアルゴリズム

• Self Training

• Multiview Algorithms

• Generative Models

• S3VMs(TSVMs)

• Graph-Based Algorithms


Self Training


Self Training

• 仮定 : 信頼できるような分類結果は正しい

• 例 : 事後確率p(y=1|x)が0.99のようなものはラベル1のものと見なしてよいだろう!

• これを学習データ側に加えてあげる


Self Trainingのアルゴリズム

• ラベルありデータの組を使ってfを学習

• ラベルなしデータについてfを使って予測

• (何らかの基準で設定した)閾値を越えたらを追加

• 繰り返し


Self Trainingの特徴• よいところ

• 非常に簡単!

• 任意の学習器を使えるので、新たに学習用のコードを書かなくて済む

• 悪いところ• 初期に明らかに間違ったものをラベルありに加えると、学習がそれに引っぱられてしまう

• 閾値の設定が難しい

• 収束の判定をどうするかの明確な基準はないThursday, January 21, 2010

Multiview Algorithms


Co-training

• 例えばSelf Trainingだと間違ったものを追加していくと後まで引っぱられる弱点があった => それを解消したい

• 一つの視点のみで見ているから間違ったものを追加してしまうのではないか?

• 素性を分割、複数の学習器を構築。それらの多数決でラベルなしデータを追加するか決めよう


例 : Webページの分類


画像とテキストの素性の分割それぞれで学習器




素性分割• それぞれのインスタンスの素性を二分割

• 前者が画像の素性、後者がテキストの素性(BOFとか)

• 「自然な」素性の分割である• Co-trainingのidea

• 画像の学習器とテキストの学習器を別々に構築• それぞれが教え合う


Co-trainingにおける仮定

• 素性の分割が存在する• 分割したそれぞれの素性のみでそれなりに十分な精度を出せる学習器が構築可能

• それぞれの素性はラベルが与えられたもとで条件付き独立である


Co-trainingのアルゴリズム





Co-trainingの特徴• メリット• 簡単で、既存の学習器のラッパーを書くだけでよい

• Self Trainingよりは間違いに敏感ではない

• デメリット• いつでも「自然」な分割が存在するとは限らないので、使える場面は限定されるかもしれない

• 両方の素性を使ったモデルのほうがよい可能性もある


Co-trainingのバリエーション• Co-EM• 上位ではなく全部ぶち込んでEMにかける

• Fake feature split• 自然な分割ではなく、人工的に素性を分割

• Multiview• 素性は分割しない• 全部の素性を使った学習器をいくつか構築 => 多数決で加えるか決定


Generative Models


Generative Models

• データについて、よい生成モデルを仮定できるとする

• ここでは混合ガウス分布を仮定できるとする





Generative Models

• データについて、よい生成モデルを仮定できるとする

• ここでは混合ガウス分布を仮定できるとする

• この時の決定境界は左図のようになる





Generative Models

• ラベルなしデータも追加





Generative Models

• ラベルなしデータも追加

• すると、決定境界が前と変わってくる





Generative Modelsの定式化

• 仮定 : よい生成モデルがある

• 興味があるのは(ラベルなしも含めた)全データを周辺化した以下の密度関数

• 対数尤度関数を構成し、パラメータを最尤推定によって求める


Generative Modelsの例• 混合ガウス分布

• 画像分類でよく使われる• EMアルゴリズムを使用

• ナイーブベイズ• テキスト分類でよく使われる• EMアルゴリズムを使用

• 隠れマルコフモデル• 音声認識• Baum-Welch algorithmを使用

ラベルなしデータのラベルが隠れ変数


混合ガウスの例• 簡単化のために二値分類について考える

• ラベルありデータだけなら以下の尤度関数最大化でよい

• 注意 : PRMLのときはラベルのほうは隠れ変数だったが、今回は違う => EMなしでMLEを推定できる


混合ガウスの例• ラベルなしデータについても考える(最尤推定するのは変わらない)

• ラベルなしデータのyは値が分からないので、2つのラベルの混合分布になっていることに注意

• 隠れ変数が入ってくるので、EMアルゴリズムを使ってMLEを求める


E-step and M-step





Generative Modelsの特徴• よいところ

• 確率モデルを使って明快にモデル化できる

• モデルが真のものに近ければ、かなり効率的である

• 悪いところ

• モデルの正しさを検証するのが難しい

• EMアルゴリズムが(よくない)局所最適に陥いる

• 生成モデルによるモデル化がよくないと、ラベルなしデータによって悪化する恐れがある => 次のpage


Generative Modelsで悪化する例





ラベルなしデータの振舞いをコントロール

• 対数尤度関数において、ラベルなしデータの影響力を下げてやればさっきのようなことは起こりにくいはず

• ラベルありデータとラベルなしデータの重要度の違いを表わすようなパラメータλ(λ < 1)を導入する


S3VMs(TSVMs)


TSVMs• 基本的な考え方はラベルなしデータの情報も使って(超平面である)決定境界をずらしてやる





数学的準備(RKHS)

• SVMで出てきたようなカーネルの付近をもう少し詳しめにやる

• カーネルを特徴ベクトルの内積、ではなくもっと直接的に定義できないだろうか => 再生核ヒルベクト空間(RKHS:reproducing kernel Hilbert space)

• マーサーの定理


マーサーの定理の関数kが正の実数と関数を用いて

と書ける必要十分条件は、kが対称関数であり、半正定値すなわち任意の二乗可積分な上の関数fに対して

を満たすことである。このとき、はの固有関数でを満たす。


再生核ヒルベルト空間• マーサーの定理を満たすようなカーネルをマーサーカーネルと呼ぶ• グラム行列が正定値対称になる、と同じようなもの

• マーサーカーネルの固有関数の線形和で書けるような関数集合 (集合の要素が関数)を考える

• の要素として二つ関数を取ってくる


再生核ヒルベルト空間

• において、内積をと定義する(F内積)

• カーネル関数において、xを固定すればを係数とするFの要素(Fの要素は関数!)と見なせる


再生核ヒルベルト空間• fとのF内積を取ると

• という関係式を得る

• 内積にfとカーネルを投げると、f(にxを適用した値)が返ってくる => fを再生する => Fの作るヒルベルト空間 => 再生核ヒルベルト空間内積が定義されている完備な空間!!


準備完了


SVMの定式化

だから

と再定義すると表現できるので

RKHSの要素!

hwがRKHSの元だから


hinge lossを使う

凸関数なのがhinge lossのうれしいところ!!





ラベルなしデータへの拡張

• ラベルなしデータを新たな正則化として使う

• どういうことか?

• f(x)>1 or f(x)<-1のほうが好ましい

• ラベルなしデータは決定境界からうんと離れていて欲しい


ただし、もはや凸関数ではない!

=> 最適化が困難になってしまった




分枝限定法• Joachims(1999)らのアイデア

• 離散最適化問題として考え、branch-

and-bound search(分枝限定法)を適用する

• 10000サンプルくらいがやっと


▽S3VM

• 凸でなくていいからせめて微分可能ではあって欲しい

• 正則化項を微分可能な関数で近似

• 勾配法で頑張れるhttp://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf




CCCP(Concave-Convex procedure)

• Yuilleら(2003)が発表した最適化に関する手法

• 緩やかな仮定の元で、任意の関数はこの手法が扱える形で書き表すことが可能

• 目的関数が凸関数と凹関数の和(すなわち凸関数と凸関数の差)で書き表わせるものが対象

• Difference of Convex法(DC法)と呼ばれることもある

• Update式は以下を満たすように構成


CCCP(Concave-Convex procedure)

• update式の構成方法• 解析的にできる場合は解析的に、それがだめなら数値的に計算

• 数値的にやらなければならない場合でも、(update式のための)目的関数は凸関数にできるので、勾配法などが使える

• 局所最適解への収束性が保証される!!


TSVMs + CCCP• CCCPが強力なので、TSVMsでも使いたい

• 目的関数を凸関数の差で書き直す• Iterationの度に以下の2次計画問題を解く

http://www.stat.umn.edu/~xshen/paper/tsvm.pdf







L. Wangら(2007)の実験• ラベルありのみから構成のSVM、分子限定法を使ったTSMVs、CCCPを使ったTSMVsをテキストデータで実験

http://www.stat.umn.edu/~xshen/paper/tsvm.pdfThursday, January 21, 2010



Graph-Based Algorithms


例 : テキスト分類• 宇宙と旅行に関する記事で分類したい• 下のような例だと、オーバーラップがあるので類似度を計算するとうまくいきそう





ラベルあり、だけだと失敗する例

• オーバーラップがない!!

• そして、こういうことはよくある• 表記揺れetc





ラベルなしデータで「伝播」させる

• ラベルなしデータでsparsenessを補って、伝播させてやるとうまくいきそう





画像でも伝播

https://www.aaai.org/Papers/ICML/2003/ICML03-118.pdf







Graph-based SSL

• 仮定 : 重みが大きいedgeでつながれているnodeは同じラベルを持っているに違いない

• グラフを構成するノード :

• 重み(instance間の距離とも言える)の決め方

• kNN : 自分から近いk番目以内のものは1、それ以外は0 => グラフがsparseになってくれる。連結ではないかもしれない

• マイナスの指数 :

• グラフはdenseになってしまう


Graph-based SSLの具体的なアルゴリズム

• mincut

• harmonic

• manifold regularization


定式化• さっきの問題は組み合わせ最適化問題に定式化できる

• ラベルありデータはfix、ラベルなしデータを0か1に割り当てる

• ラベルありデータについては動かないので、以下の問題と等価


最小カット• 組み合わせ最適化の問題だが、多項式時間で解けるアルゴリズムが存在 => 最小カット

• 連結なグラフをsourceを含む部分集合とsinkを含むような部分集合に分割したい

• 注意 : 最大フロー最小カット定理

http://john.blitzer.com/tutorial/ssl_tutorial.pdf




最小カット

source sink

負例 : sinkとの重みは-∞正例 : sourceとの重みは∞ ラベルなしとテストデータ


harmonic => Laplacian

• 最小カットは0-1整数計画問題。yを実数に緩和してあげよう

• Zhuら (2003a) の論文が最初のものだと思うが、説明がしにくいので、拡張系になっているGoldbergら(2006)の論文で説明

• 映画の☆の数の予測


harmonic => Laplacianラベルが付いているほうは間違えて欲しくない

ラベルありデータだけを使って予測(SVMとか)

近くにいるノードは同じラベルであって欲しい(違ったときの重みをLではa、Uではbで変えている)。

これをfについて最適化...

→行列を使うと簡単にできる。しかも、閉じた形で書ける!!


グラフの形

http://pages.cs.wisc.edu/~goldberg/publications/goldbergTextgraphs.pdf




ラベルありの部分にはy_iが、ラベルなしの部分にはhat{y}_iが入っている

ベクトル





Laplacian

• fについての二次関数になったので、微分して0と置くと閉じた形で解が得られる! =>


Goldbergら(2006)の実験結果

• SVMRとMetric labelingという手法との比較

• ラベルありデータの数が小さいときにはSSLが勝っている

• ラベルありが多くなってくるとラベルなしデータが結果を悪化させていることが分かる





Manifold regularization

• Harmonic関数の問題点• 新しくデータがきたら、またグラフに追加して計算しないといけない...

• 難易度的には結構高い気がする• RKHSの理解が入ってくる分• が、面白い:)


Manifold regularization

• グラフを用いた半教師あり学習の共通しているところ• 近くにいるノードは同じラベルを持つに違いない

• SVMなどの正則化を使っているモデルを一般化して、「近くのノードは同じラベル」も正則化項に入れてあげよう

• リプレゼンター定理が活躍!


復習 : リプレゼンタ定理• 損失関数に正則化を加えて最適化する問題において、正則化項がという形をしていれば、最適解はをサンプル点としての形に書ける• カーネル多変量解析2章より

• 今回は(正則化項の付近を)RKHSを使って一般化したものを使う

• それをさらにラベルなしデータを使ったものへ拡張


普通の正則化付きの学習

• 以下ように損失関数と正則化項を最小にするようなfを求める

• リプレゼンター定義より、最適なfは以下のようにカーネルの線形和で書き表わせ、係数を求める問題に帰着する


ラベルなしを正則化項へ

• 近くのものは同じラベルに違いない、を第三項へ入れてあげる

• グラフラプラシアンを使って変形

• この場合もリプレゼンタ定理のような形を得ることができる


幾何的な制約• 近くのノードは同じラベルに違いない、を表現するのはグラフラプラシアンだけではない• Iterated Laplacians• Heat semigroup• 拡散カーネル

• Squared norm of the Hessian• 詳しくはBelkinら(2004)の論文で

http://www.geocities.co.jp/Technopolis/5893/publication/kernel.pdf




Laplacian Regularized Least Squres(LapRLS)

• カーネル多変量解析で出てきたような最小二乗法+正則化にグラフの制約を追加したもの

• パラメータはclosedな形で書ける

0と置くとRegularized Least Squres

と等価


Laplacian Support Vector Machines

• SVMの目的関数にグラフの制約を追加した

• 最適なパラメータは以下のように書ける

二次計画問題を解く必要がある0と置くとSVMと等価


何が嬉しいのか?• 新しいデータがくる度に全体を再計算しなおさなくてよい(Harmonicを思い出そう)

• ラベルなしデータへリプレゼンタ定理を拡張した

• パラメータを変えることで、様々なアルゴリズムと等価なものを作り出すことができ、半教師あり学習の統一的な考え方を示していると考えることができる


まとめ


手法と仮定手法仮定

mixture model, EM よい生成モデルがある

TSMVsクラスの交わるところの密度は低い

Co-training素性の分割が条件付き

i.i.dであることGraph-based

近くにある(類似度の高い)のは同じラベル


• no pain, no gain

• no model assumption, no gain

• wrong model assumption, no gain, a lot of pain


• その他のアルゴリズムについて

• Co-boosting

• bootstrap

• Directed graphs

• Information Regularization

• Structural Learning

• Large Dataに対応するための研究やアルゴリズム

• 理論解析の付近

• PACやStatistical Learning Theory

話(さ|せ)なかったこと


参考文献


参考文献(Tutorial etc)• チュートリアル関係

• NAACL 2006 Tutorial: Inductive Semi-supervised Learning with Applicability to NLP, A. Sarkar and G. Haffari.

• ICML 2007 Tutorial: Semi-supervised Learning, Xiaojin Zhu.

• Blitzer, J. and Zhu, J. (2008). ACL 2008 tutorial on Semi-Supervised learning. http://ssl-acl08.wikidot.com/.

• 概要が掴める

• X. Zhu. Semi-supervised learning literature survey. Technical report, Computer Sciences, University of Wisconsin-Madison, 2007.

• Zhu, X. (2005). Semi-supervised learning with graphs. Doctoral dissertation, Carnegie Mellon University. CMU-LTI-05-192.


参考文献(Generative model)

• Nigam, K., McCallum, A. K., Thrun, S., & Mitchell, T. (2000). Text classification from labeled and unlabeled documents using EM. Machine Learning, 39, 103–134.

• Liu, B., Lee, W. S., Yu, P. S., & Li, X. (2002). Partially supervised classification of text documents. Proceedings of the Nineteenth International Conference on Machine Learning (ICML).

• Lee, W. S., & Liu, B. (2003). Learning with positive and unlabeled examples using weighted logistic regression. Proceedings of the Twentieth International Conference on Machine Learning (ICML).

• Denis, F., Gilleron, R., & Tommasi, M. (2002). Text classification from positive and unlabeled examples. The 9th International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems(IPMU).


参考文献(TSVMs)

• Joachims, T. (1999). Transductive inference for text classification using support vector machines. Proc. 16th International Conf. on Machine Learning (pp. 200– 209). Morgan Kaufmann, San Francisco, CA.

• Yuille, A.L., Rangara jan, A. The concave-convex procedure. Neural Computation 15(4) (2003) 915–936.

• L. Wang, X. Shen, and W. Pan. On transductive support vector machines. In J. Verducci, X. Shen, and J. Lafferty, editors, Prediction and Discovery. American Mathematical Society, 2007.

• R. Collobert, et al. (2006). Large Scale Transductive SVMs. Journal of Machine Learning Research 7:1687-1712.


参考文献(Graph-based)• Blum, A., & Chawla, S. (2001). Learning from labeled and unlabeled data using graph

mincuts. Proc. 18th International Conf. on Machine Learning.

• Zhu, X., Ghahramani, Z., & Lafferty, J. (2003a). Semi-supervised lear ning using Gaussian fields and harmonic functions. The 20th International Conference on Machine Learning (ICML).

• Shi, J., & Malik, J. (2000). Normalized cuts and image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22, 888–905.

• Pang, B., & Lee, L. (2004). A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts. Proceedings of the Association for Computational Linguistics (pp. 271–278).

• Goldberg, A., & Zhu, X. (2006). Seeing stars when there aren’t many s tars: Graph-based semi-supervised learning for sentiment categorization. HLT-NAACL 2006 Workshop on Textgraphs: Graph-based Algorithms for Natural Language Processing. New York, NY.

• Belkin, M., Niyogi, P., & Sindhwani, V. (2004b). Manifold regularization: A geometric framework for learning from examples (Technical Report TR-2004-06). University of Chicago.

• M. Belkin & P. Niyogi (2002). `Using Manifold Structure for Partially Labelled Classification'. In NIPS, pp. 929+.


参考文献(その他)

• Seeger, M. (2001). Learning with labeled and unlabeled data (Technical Report). University of Edinburgh.

• François Denis, Bat M, Universit'e De Lille I. PAC Learning from Positive Statistical Queries. Proc. 9th International Conference on Algorithmic Learning Theory - ALT '98

• カーネル多変量解析

• 学習システムの理論と実現


半教師あり学習

Documents

Transcript of 半教師あり学習