臺北市立龍門國中介紹暨實習心得分享 · 教學實習及導師實習,則視指導老師的狀況而定。大 部分的指導老師都不吝於給實習老師們上台的機會,也會
半教師あり学習
description
Transcript of 半教師あり学習
Introduction to Semi-Supervised Learning
吉田 康久
Thursday, January 21, 2010
Outline• なぜ半教師あり学習が必要なのか• 具体的な半教師あり学習のアルゴリズム• Self Traininga• Multiview Algorithms• Generative Models• S3VMs(TSVMs)• Graph-Based Algorithms
• それぞれのモデルの仮定• 参考文献
Thursday, January 21, 2010
なぜ半教師ありなのか?
Thursday, January 21, 2010
性能とコストのトレードオフ
• 分類器の性能を上げたい• データをたくさん食わせたい
• しかし、ラベル付きデータはcostly...
• 人が入力するのは、時間もコストもかかる• 特に専門的な知識を要するもの• 例 : 専門用語のカテゴリ分け
Thursday, January 21, 2010
ラベルなしデータ
• ラベルなしデータはコストをかけずに大量に手に入れることができる
• 目標 : ラベルなしデータを学習にうまく組み合わせることでパフォーマンスを向上できないか? => SSL
Thursday, January 21, 2010
ラベルなしデータは役に立つのか?
Thursday, January 21, 2010
直感的な説明• 下のようなデータの分類を考えたい• ラベルありデータのみの場合とラベルなしデータを加えた場合では、決定境界がずれる
http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
Thursday, January 21, 2010
SSLのアルゴリズム
• Self Training
• Multiview Algorithms
• Generative Models
• S3VMs(TSVMs)
• Graph-Based Algorithms
Thursday, January 21, 2010
Self Training
Thursday, January 21, 2010
Self Training
• 仮定 : 信頼できるような分類結果は正しい
• 例 : 事後確率p(y=1|x)が0.99のようなものはラベル1のものと見なしてよいだろう!
• これを学習データ側に加えてあげる
Thursday, January 21, 2010
Self Trainingのアルゴリズム
• ラベルありデータの組 を使ってfを学習
• ラベルなしデータ についてfを使って予測
• (何らかの基準で設定した)閾値を越えたら を追加
• 繰り返し
Thursday, January 21, 2010
Self Trainingの特徴• よいところ
• 非常に簡単!
• 任意の学習器を使えるので、新たに学習用のコードを書かなくて済む
• 悪いところ• 初期に明らかに間違ったものをラベルありに加えると、学習がそれに引っぱられてしまう
• 閾値の設定が難しい
• 収束の判定をどうするかの明確な基準はないThursday, January 21, 2010
Multiview Algorithms
Thursday, January 21, 2010
Co-training
• 例えばSelf Trainingだと間違ったものを追加していくと後まで引っぱられる弱点があった => それを解消したい
• 一つの視点のみで見ているから間違ったものを追加してしまうのではないか?
• 素性を分割、複数の学習器を構築。それらの多数決でラベルなしデータを追加するか決めよう
Thursday, January 21, 2010
例 : Webページの分類
http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
画像とテキストの素性の分割 それぞれで学習器
Thursday, January 21, 2010
素性分割• それぞれのインスタンスの素性を二分割
• 前者が画像の素性、後者がテキストの素性(BOFとか)
• 「自然な」素性の分割である• Co-trainingのidea
• 画像の学習器とテキストの学習器を別々に構築• それぞれが教え合う
Thursday, January 21, 2010
Co-trainingにおける仮定
• 素性の分割が存在する• 分割したそれぞれの素性のみでそれなりに十分な精度を出せる学習器が構築可能
• それぞれの素性はラベルが与えられたもとで条件付き独立である
Thursday, January 21, 2010
Co-trainingのアルゴリズム
http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
Thursday, January 21, 2010
Co-trainingの特徴• メリット• 簡単で、既存の学習器のラッパーを書くだけでよい
• Self Trainingよりは間違いに敏感ではない
• デメリット• いつでも「自然」な分割が存在するとは限らないので、使える場面は限定されるかもしれない
• 両方の素性を使ったモデルのほうがよい可能性もある
Thursday, January 21, 2010
Co-trainingのバリエーション• Co-EM• 上位ではなく全部ぶち込んでEMにかける
• Fake feature split• 自然な分割ではなく、人工的に素性を分割
• Multiview• 素性は分割しない• 全部の素性を使った学習器をいくつか構築 => 多数決で加えるか決定
Thursday, January 21, 2010
Generative Models
Thursday, January 21, 2010
Generative Models
• データについて、よい生成モデルを仮定できるとする
• ここでは混合ガウス分布を仮定できるとする
http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
Thursday, January 21, 2010
Generative Models
• データについて、よい生成モデルを仮定できるとする
• ここでは混合ガウス分布を仮定できるとする
• この時の決定境界は左図のようになる
http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
Thursday, January 21, 2010
Generative Models
• ラベルなしデータも追加
http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
Thursday, January 21, 2010
Generative Models
• ラベルなしデータも追加
• すると、決定境界が前と変わってくる
http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
Thursday, January 21, 2010
Generative Modelsの定式化
• 仮定 : よい生成モデル がある
• 興味があるのは(ラベルなしも含めた)全データを周辺化した以下の密度関数
• 対数尤度関数を構成し、パラメータを最尤推定によって求める
Thursday, January 21, 2010
Generative Modelsの例• 混合ガウス分布
• 画像分類でよく使われる• EMアルゴリズムを使用
• ナイーブベイズ• テキスト分類でよく使われる• EMアルゴリズムを使用
• 隠れマルコフモデル• 音声認識• Baum-Welch algorithmを使用
ラベルなしデータのラベルが隠れ変数
Thursday, January 21, 2010
混合ガウスの例• 簡単化のために二値分類について考える
• ラベルありデータだけなら以下の尤度関数最大化でよい
• 注意 : PRMLのときはラベルのほうは隠れ変数だったが、今回は違う => EMなしでMLEを推定できる
Thursday, January 21, 2010
混合ガウスの例• ラベルなしデータについても考える(最尤推定するのは変わらない)
• ラベルなしデータのyは値が分からないので、2つのラベルの混合分布になっていることに注意
• 隠れ変数が入ってくるので、EMアルゴリズムを使ってMLEを求める
Thursday, January 21, 2010
E-step and M-step
http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
Thursday, January 21, 2010
Generative Modelsの特徴• よいところ
• 確率モデルを使って明快にモデル化できる
• モデルが真のものに近ければ、かなり効率的である
• 悪いところ
• モデルの正しさを検証するのが難しい
• EMアルゴリズムが(よくない)局所最適に陥いる
• 生成モデルによるモデル化がよくないと、ラベルなしデータによって悪化する恐れがある => 次のpage
Thursday, January 21, 2010
Generative Modelsで悪化する例
http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
Thursday, January 21, 2010
ラベルなしデータの振舞いをコントロール
• 対数尤度関数において、ラベルなしデータの影響力を下げてやればさっきのようなことは起こりにくいはず
• ラベルありデータとラベルなしデータの重要度の違いを表わすようなパラメータλ(λ < 1)を導入する
Thursday, January 21, 2010
S3VMs(TSVMs)
Thursday, January 21, 2010
TSVMs• 基本的な考え方はラベルなしデータの情報も使って(超平面である)決定境界をずらしてやる
http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
Thursday, January 21, 2010
数学的準備(RKHS)
• SVMで出てきたようなカーネルの付近をもう少し詳しめにやる
• カーネルを特徴ベクトルの内積、ではなくもっと直接的に定義できないだろうか => 再生核ヒルベクト空間(RKHS:reproducing kernel Hilbert space)
• マーサーの定理
Thursday, January 21, 2010
マーサーの定理の関数kが正の実数 と関数 を用いて
と書ける必要十分条件は、kが対称関数であり、半正定値すなわち任意の二乗可積分な上の関数fに対して
を満たすことである。このとき、 は の固有関数で を満たす。
Thursday, January 21, 2010
再生核ヒルベルト空間• マーサーの定理を満たすようなカーネルをマーサーカーネルと呼ぶ• グラム行列が正定値対称になる、と同じようなもの
• マーサーカーネルの固有関数の線形和で書けるような関数集合 (集合の要素が関数)を考える
• の要素として二つ関数を取ってくる
Thursday, January 21, 2010
再生核ヒルベルト空間
• において、内積を と定義する(F内積)
• カーネル関数 において、xを固定すれば を係数とするFの要素(Fの要素は関数!)と見なせる
Thursday, January 21, 2010
再生核ヒルベルト空間• fとのF内積を取ると
• という関係式を得る
• 内積にfとカーネルを投げると、f(にxを適用した値)が返ってくる => fを再生する => Fの作るヒルベルト空間 => 再生核ヒルベルト空間 内積が定義されている完備な空間!!
Thursday, January 21, 2010
準備完了
Thursday, January 21, 2010
SVMの定式化
だから
と再定義すると表現できるので
RKHSの要素!
hwがRKHSの元だから
Thursday, January 21, 2010
hinge lossを使う
凸関数なのがhinge lossのうれしいところ!!
http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
Thursday, January 21, 2010
ラベルなしデータへの拡張
• ラベルなしデータを新たな正則化として使う
• どういうことか?
• f(x)>1 or f(x)<-1のほうが好ましい
• ラベルなしデータは決定境界からうんと離れていて欲しい
http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
ただし、もはや凸関数ではない!
=> 最適化が困難になってしまった
Thursday, January 21, 2010
分枝限定法• Joachims(1999)らのアイデア
• 離散最適化問題として考え、branch-
and-bound search(分枝限定法)を適用する
• 10000サンプルくらいがやっと
Thursday, January 21, 2010
▽S3VM
• 凸でなくていいからせめて微分可能ではあって欲しい
• 正則化項を微分可能な関数で近似
• 勾配法で頑張れるhttp://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
Thursday, January 21, 2010
CCCP(Concave-Convex procedure)
• Yuilleら(2003)が発表した最適化に関する手法
• 緩やかな仮定の元で、任意の関数はこの手法が扱える形で書き表すことが可能
• 目的関数が凸関数と凹関数の和(すなわち凸関数と凸関数の差)で書き表わせるものが対象
• Difference of Convex法(DC法)と呼ばれることもある
• Update式は以下を満たすように構成
Thursday, January 21, 2010
CCCP(Concave-Convex procedure)
• update式の構成方法• 解析的にできる場合は解析的に、それがだめなら数値的に計算
• 数値的にやらなければならない場合でも、(update式のための)目的関数は凸関数にできるので、勾配法などが使える
• 局所最適解への収束性が保証される!!
Thursday, January 21, 2010
TSVMs + CCCP• CCCPが強力なので、TSVMsでも使いたい
• 目的関数を凸関数の差で書き直す• Iterationの度に以下の2次計画問題を解く
http://www.stat.umn.edu/~xshen/paper/tsvm.pdf
http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
Thursday, January 21, 2010
L. Wangら(2007)の実験• ラベルありのみから構成のSVM、分子限定法を使ったTSMVs、CCCPを使ったTSMVsをテキストデータで実験
http://www.stat.umn.edu/~xshen/paper/tsvm.pdfThursday, January 21, 2010
Graph-Based Algorithms
Thursday, January 21, 2010
例 : テキスト分類• 宇宙と旅行に関する記事で分類したい• 下のような例だと、オーバーラップがあるので類似度を計算するとうまくいきそう
http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
Thursday, January 21, 2010
ラベルあり、だけだと失敗する例
• オーバーラップがない!!
• そして、こういうことはよくある• 表記揺れetc
http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
Thursday, January 21, 2010
ラベルなしデータで「伝播」させる
• ラベルなしデータでsparsenessを補って、伝播させてやるとうまくいきそう
http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
Thursday, January 21, 2010
画像でも伝播
https://www.aaai.org/Papers/ICML/2003/ICML03-118.pdf
http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
Thursday, January 21, 2010
Graph-based SSL
• 仮定 : 重みが大きいedgeでつながれているnodeは同じラベルを持っているに違いない
• グラフを構成するノード :
• 重み(instance間の距離とも言える)の決め方
• kNN : 自分から近いk番目以内のものは1、それ以外は0 => グラフがsparseになってくれる。連結ではないかもしれない
• マイナスの指数 :
• グラフはdenseになってしまう
Thursday, January 21, 2010
Graph-based SSLの具体的なアルゴリズム
• mincut
• harmonic
• manifold regularization
Thursday, January 21, 2010
定式化• さっきの問題は組み合わせ最適化問題に定式化できる
• ラベルありデータはfix、ラベルなしデータを0か1に割り当てる
• ラベルありデータについては動かないので、以下の問題と等価
Thursday, January 21, 2010
最小カット• 組み合わせ最適化の問題だが、多項式時間で解けるアルゴリズムが存在 => 最小カット
• 連結なグラフをsourceを含む部分集合とsinkを含むような部分集合に分割したい
• 注意 : 最大フロー最小カット定理
http://john.blitzer.com/tutorial/ssl_tutorial.pdf
Thursday, January 21, 2010
最小カット
source sink
負例 : sinkとの重みは-∞正例 : sourceとの重みは∞ ラベルなしとテストデータ
Thursday, January 21, 2010
harmonic => Laplacian
• 最小カットは0-1整数計画問題。yを実数に緩和してあげよう
• Zhuら (2003a) の論文が最初のものだと思うが、説明がしにくいので、拡張系になっているGoldbergら(2006)の論文で説明
• 映画の☆の数の予測
Thursday, January 21, 2010
harmonic => Laplacianラベルが付いているほうは間違えて欲しくない
ラベルありデータだけを使って予測(SVMとか)
近くにいるノードは同じラベルであって欲しい(違ったときの重みをLではa、Uではbで変えている)。
これをfについて最適化...
→行列を使うと簡単にできる。しかも、閉じた形で書ける!!
Thursday, January 21, 2010
グラフの形
http://pages.cs.wisc.edu/~goldberg/publications/goldbergTextgraphs.pdf
Thursday, January 21, 2010
ラベルありの部分にはy_iが、ラベルなしの部分にはhat{y}_iが入っている
ベクトル
http://pages.cs.wisc.edu/~goldberg/publications/goldbergTextgraphs.pdf
Thursday, January 21, 2010
Laplacian
• fについての二次関数になったので、微分して0と置くと閉じた形で解が得られる! =>
Thursday, January 21, 2010
Goldbergら(2006)の実験結果
• SVMRとMetric labelingという手法との比較
• ラベルありデータの数が小さいときにはSSLが勝っている
• ラベルありが多くなってくるとラベルなしデータが結果を悪化させていることが分かる
http://pages.cs.wisc.edu/~goldberg/publications/goldbergTextgraphs.pdf
Thursday, January 21, 2010
Manifold regularization
• Harmonic関数の問題点• 新しくデータがきたら、またグラフに追加して計算しないといけない...
• 難易度的には結構高い気がする• RKHSの理解が入ってくる分• が、面白い:)
Thursday, January 21, 2010
Manifold regularization
• グラフを用いた半教師あり学習の共通しているところ• 近くにいるノードは同じラベルを持つに違いない
• SVMなどの正則化を使っているモデルを一般化して、「近くのノードは同じラベル」も正則化項に入れてあげよう
• リプレゼンター定理が活躍!
Thursday, January 21, 2010
復習 : リプレゼンタ定理• 損失関数に正則化を加えて最適化する問題において、正則化項が という形をしていれば、最適解は をサンプル点として の形に書ける• カーネル多変量解析2章より
• 今回は(正則化項の付近を)RKHSを使って一般化したものを使う
• それをさらにラベルなしデータを使ったものへ拡張
Thursday, January 21, 2010
普通の正則化付きの学習
• 以下ように損失関数と正則化項を最小にするようなfを求める
• リプレゼンター定義より、最適なfは以下のようにカーネルの線形和で書き表わせ、係数を求める問題に帰着する
Thursday, January 21, 2010
ラベルなしを正則化項へ
• 近くのものは同じラベルに違いない、を第三項へ入れてあげる
• グラフラプラシアンを使って変形
• この場合もリプレゼンタ定理のような形を得ることができる
Thursday, January 21, 2010
幾何的な制約• 近くのノードは同じラベルに違いない、を表現するのはグラフラプラシアンだけではない• Iterated Laplacians• Heat semigroup• 拡散カーネル
• Squared norm of the Hessian• 詳しくはBelkinら(2004)の論文で
http://www.geocities.co.jp/Technopolis/5893/publication/kernel.pdf
Thursday, January 21, 2010
Laplacian Regularized Least Squres(LapRLS)
• カーネル多変量解析で出てきたような最小二乗法+正則化にグラフの制約を追加したもの
• パラメータはclosedな形で書ける
0と置くとRegularized Least Squres
と等価
Thursday, January 21, 2010
Laplacian Support Vector Machines
• SVMの目的関数にグラフの制約を追加した
• 最適なパラメータは以下のように書ける
二次計画問題を解く必要がある0と置くとSVMと等価
Thursday, January 21, 2010
何が嬉しいのか?• 新しいデータがくる度に全体を再計算しなおさなくてよい(Harmonicを思い出そう)
• ラベルなしデータへリプレゼンタ定理を拡張した
• パラメータを変えることで、様々なアルゴリズムと等価なものを作り出すことができ、半教師あり学習の統一的な考え方を示していると考えることができる
Thursday, January 21, 2010
まとめ
Thursday, January 21, 2010
手法と仮定手法 仮定
mixture model, EM よい生成モデルがある
TSMVsクラスの交わるところの密度は低い
Co-training素性の分割が条件付き
i.i.dであることGraph-based
近くにある(類似度の高い)のは同じラベル
Thursday, January 21, 2010
• no pain, no gain
• no model assumption, no gain
• wrong model assumption, no gain, a lot of pain
Thursday, January 21, 2010
• その他のアルゴリズムについて
• Co-boosting
• bootstrap
• Directed graphs
• Information Regularization
• Structural Learning
• Large Dataに対応するための研究やアルゴリズム
• 理論解析の付近
• PACやStatistical Learning Theory
話(さ|せ)なかったこと
Thursday, January 21, 2010
参考文献
Thursday, January 21, 2010
参考文献(Tutorial etc)• チュートリアル関係
• NAACL 2006 Tutorial: Inductive Semi-supervised Learning with Applicability to NLP, A. Sarkar and G. Haffari.
• ICML 2007 Tutorial: Semi-supervised Learning, Xiaojin Zhu.
• Blitzer, J. and Zhu, J. (2008). ACL 2008 tutorial on Semi-Supervised learning. http://ssl-acl08.wikidot.com/.
• 概要が掴める
• X. Zhu. Semi-supervised learning literature survey. Technical report, Computer Sciences, University of Wisconsin-Madison, 2007.
• Zhu, X. (2005). Semi-supervised learning with graphs. Doctoral dissertation, Carnegie Mellon University. CMU-LTI-05-192.
Thursday, January 21, 2010
参考文献(Generative model)
• Nigam, K., McCallum, A. K., Thrun, S., & Mitchell, T. (2000). Text classification from labeled and unlabeled documents using EM. Machine Learning, 39, 103–134.
• Liu, B., Lee, W. S., Yu, P. S., & Li, X. (2002). Partially supervised classification of text documents. Proceedings of the Nineteenth International Conference on Machine Learning (ICML).
• Lee, W. S., & Liu, B. (2003). Learning with positive and unlabeled examples using weighted logistic regression. Proceedings of the Twentieth International Conference on Machine Learning (ICML).
• Denis, F., Gilleron, R., & Tommasi, M. (2002). Text classification from positive and unlabeled examples. The 9th International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems(IPMU).
Thursday, January 21, 2010
参考文献(TSVMs)
• Joachims, T. (1999). Transductive inference for text classification using support vector machines. Proc. 16th International Conf. on Machine Learning (pp. 200– 209). Morgan Kaufmann, San Francisco, CA.
• Yuille, A.L., Rangara jan, A. The concave-convex procedure. Neural Computation 15(4) (2003) 915–936.
• L. Wang, X. Shen, and W. Pan. On transductive support vector machines. In J. Verducci, X. Shen, and J. Lafferty, editors, Prediction and Discovery. American Mathematical Society, 2007.
• R. Collobert, et al. (2006). Large Scale Transductive SVMs. Journal of Machine Learning Research 7:1687-1712.
Thursday, January 21, 2010
参考文献(Graph-based)• Blum, A., & Chawla, S. (2001). Learning from labeled and unlabeled data using graph
mincuts. Proc. 18th International Conf. on Machine Learning.
• Zhu, X., Ghahramani, Z., & Lafferty, J. (2003a). Semi-supervised lear ning using Gaussian fields and harmonic functions. The 20th International Conference on Machine Learning (ICML).
• Shi, J., & Malik, J. (2000). Normalized cuts and image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22, 888–905.
• Pang, B., & Lee, L. (2004). A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts. Proceedings of the Association for Computational Linguistics (pp. 271–278).
• Goldberg, A., & Zhu, X. (2006). Seeing stars when there aren’t many s tars: Graph-based semi-supervised learning for sentiment categorization. HLT-NAACL 2006 Workshop on Textgraphs: Graph-based Algorithms for Natural Language Processing. New York, NY.
• Belkin, M., Niyogi, P., & Sindhwani, V. (2004b). Manifold regularization: A geometric framework for learning from examples (Technical Report TR-2004-06). University of Chicago.
• M. Belkin & P. Niyogi (2002). `Using Manifold Structure for Partially Labelled Classification'. In NIPS, pp. 929+.
Thursday, January 21, 2010
参考文献(その他)
• Seeger, M. (2001). Learning with labeled and unlabeled data (Technical Report). University of Edinburgh.
• François Denis, Bat M, Universit'e De Lille I. PAC Learning from Positive Statistical Queries. Proc. 9th International Conference on Algorithmic Learning Theory - ALT '98
• カーネル多変量解析
• 学習システムの理論と実現
Thursday, January 21, 2010