現代家族の危機的傾向 家族役割と家族情緒の乖離slogos/archive/07/yamada1983.pdf · 現代家族の危機的傾向 家族役割と家族情緒の乖離 山田 日日
パターン認識と機械学習 〜指数型分布族とノンパラメトリック〜
-
Upload
mitsuki-ogasawara -
Category
Technology
-
view
683 -
download
0
Transcript of パターン認識と機械学習 〜指数型分布族とノンパラメトリック〜
「パターン認識と機械学習」輪読勉強会
~指数型分布族・ノンパラメトリック法~
自己紹介• 名前 • 小笠原光貴(Mitsuki OGASAHARA)
• 入社年度 • 2014年度
• 所属 • (株)CyberZ 開発エンジニア
• 学生時代の研究分野 • 自然言語処理・機械学習
目次• 2.4 指数型分布族 • 2.4.1 最尤推定と十分統計量 • 2.4.2 共役事前分布 • 2.4.3 無情報事前分布
• 2.5 ノンパラメトリック法 • 2.5.1 カーネル密度推定法 • 2.5.2 最近傍法
2.4 指数型分布族(p.110)• 式(2.194)で定義される分布の族(集合)
!
• 「ガウス分布」「多項分布」など、PRMLに出てくる多くの分布が指数型分布族に含まれる→ 式(2.194)で定義し直すことができる
• ※ xはスカラーでもベクトルでも良い
• ※ xは離散でも連続でも良い
(2.194)
2.4 指数型分布族(p.110)!
• : xに関する関数
• scaling constantとも呼ばれ(MLaPPより)、「1」が入ることもある(ベルヌーイ分布、ガンマ分布)
(2.194)h (x)
2.4 指数型分布族(p.110)!
• : ηに関する関数
• 確率密度関数の積分値が1になるように正規化するためのもの
(2.194)g(⌘)
g (⌘)
Zh (x) exp
�⌘T
u (x)
dx = 1 (2.195)
Z(⌘) =1
g (⌘)=
Zh (x) exp
�⌘T
u (x)
dx
ベルヌーイ分布は指数型分布族か?!
• 無理やりexpの中に入れてみる
!
!
!
• ηを式(2.198)のように定義する
Bern(x|µ) = µ
x(1� µ)1�x (2.196)
Bern(x|µ) = exp{lnµx
(1� µ)
1�x}= exp{x lnµ+ (1� x) ln 1� µ}= exp{x(lnµ� ln 1� µ) + ln 1� µ}= (1� µ) exp{ln( µ
1� µ
)x} (2.197)
(2.198)⌘ = ln(µ
1� µ)
ベルヌーイ分布は指数型分布族か?!
• 最終的には、
!
• となり、式(2.194)と対応した
Bern(x|µ) = µ
x(1� µ)1�x (2.196)
(2.197)
(2.194)
参考:指数型分布族に含まれないもの• 混合正規分布expの和になってしまい、式(2.194)にはならない
(2.194)
2.4.1 最尤推定• 指数型分布族の一般形の式(2.194)から、最尤推定量ηを求める
• 独立に同分布に従うデータ集合Xについて考えると、 この尤度関数は
!
• 対数尤度関数は
2.4.1 最尤推定• 対数尤度関数の(ηに関しての)勾配が0となる値を見つけたい
(2.228)
2.4.1 最尤推定• 原則として、式(2.228)を解くとηは得られる
!
!
• また、最尤推定値は に依存する(十分統計量)
• 言い換えると、最尤推定を求めるためには、 の総和(または平均)のみがあればよい
(2.228)
最尤推定と真のパラメータ• ηの最尤推定値は式(2.228)を解くと得られる
!
!
• の定義に基づくと、
!
!
• つまり、N→∞の極限では、最尤推定値=真の値
(2.228)
g (⌘)
Zh (x) exp
�⌘T
u (x)
dx = 1 (2.195)
(2.226)
2.4.2 共役事前分布• 指数型分布族の任意の分布について、次の形で書ける共役事前分布が存在する
!
• 導出は書いてないが、共役であることが確かめられる尤度関数(2.227)と事前分布(2.229)をかけ、事後分布を求める
(2.229)
2.4.2 共役事前分布• 導出は書いてないが、共役であることが確かめられる尤度関数(2.227)と事前分布(2.229)をかけ、事後分布を求める
(2.229)
(2.230)
2.4.2 共役事前分布• 事前分布のパラメータを、仮想観測値として解釈することもできる
!
!
!
!
• c.f. p.71 二項分布の共役事前分布「ベータ分布」の パラメータを、仮想の観測として解釈した
(2.230)仮想の観測数(Nに相当)
仮想の観測値(u(x)に相当)
2.4.3 無情報事前分布• 事前分布を置きたいが、分布(やパラメータ)についての知識がないとき
• 一様分布を置けば良い?
!
• λが連続かつ範囲が決まってないとき、λについての積分が発散してしまい、正規化できない →変則事前分布
2.4.3 無情報事前分布• 次のような平行移動不変性を持った分布を考える(例:正規分布)
• ※平行移動不変性 • xを定数分移動しても、位置パラメータμを同じだけ移動すれば、 確率密度の形は変わらない
(2.232)
のとき とすると、(2.233)
2.4.3 無情報事前分布• 平行移動不変性を持つ事前分布について考えると、積分区間が平行移動しても、その確率は変わらない
!
!
• よって、式(2.235)より定数となる
(2.234)
(2.235)
2.4.3 無情報事前分布• ガウス分布のμの場合、σ_0^2→∞の極限で無情報事前分布となる
!
!
!
• 事後分布に、事前分布のパラメータが影響しなくなる
(2.140)
(2.141)
2.5 ノンパラメトリック法• パラメトリック • 密度関数(モデル)を選んで、パラメータをデータから推定する→ モデルがデータを表すのに貧弱だと、予測精度は悪い
• 例) ガウス分布をデータに当てはめて、μ・σ^2を推定した → データが多峰性だと、ガウス分布では捉えられない
• ノンパラメトリック • 分布の形状に置く仮定が少ない • 例)多峰性だとか単峰性などの仮定は置かない
ヒストグラム密度推定法• 真の確率密度関数(緑線)から生成された50のデータ点より推定(青ヒストグラム)したもの
• xを幅Δの区間に区切り、その区間に入ったxの観測数をカウントする。これを、式(2.241)で正規化したもの
(2.241)
ヒストグラム密度推定法• 1次元・2次元程度の簡単な可視化には役立つ、簡便な方法
• このアプローチから、次の2つがわかる • ある値の確率密度を推定するには、近傍の観測点の値を考慮する必要がある
• 区間の幅は大きすぎても小さすぎてもいけない • 小:データに影響しすぎる • 大:元の分布を全く再現できない • →モデルの複雑さの選択に似ている
ヒストグラム密度推定法の問題点• 推定した密度が不連続である(区間と区間の間)
• 次元の呪い • xの次元数をDとすると、区間の総数はM^D個
2.5.1 カーネル密度推定法• 未知の確率密度p(x)から得られた観測集合を使って、 p(x)の値を推定したい
• xを含む小さな領域Rの確率をPとする
!
• N個の観測値が得られたとして、K個の観測値がRに含まれる確率は、二項分布に従う
P =
Z
Rp(x)dx
p(K|N,P ) = Bin(K|N,P )
(2.242)
(2.243)
2.5.1 カーネル密度推定法• 二項分布の期待値・分散より、次の関係式が得られる
• Nが大きいとき、分散は小さくなり、期待値の関係から
• また、Rが小さく、p(x)がR内で一定だと近似すると
• 以上より、次の密度推定の関係式が得られる
var
K
N
�=
P (1� P )
N
EK
N
�= P
K ' NP
P ' p(x)V
p(x) =K
NV
(2.244)
(2.245)
(2.246)
2.5.1 カーネル密度推定法• 以上より、次の密度推定の関係式が得られる
!
• 確率密度p(x)を推定するために、KとVを推定する
• Kを固定でVを推定 → K近傍密度推定法
• Vを固定でKを推定 → カーネル密度推定法
p(x) =K
NV(2.246)
2.5.1 カーネル密度推定法• Vを固定し、Kを推定したい
• 確率密度p(x)を求めたい点をx、観測点をx_nとする
• 一辺がhで、xを中心とする小さな超立方体の中にある点の総数は
!
• 一辺hの超立方体なので、Vはh^Dとなり、
K =KX
n=1
k
✓x� xn
h
◆
p(x) =1
N
KX
n=1
1
hDk
✓x� xn
h
◆
(2.248)
(2.249)
2.5.1 カーネル密度推定法• 小さな超立方体の一辺hの大きさが平滑化のためのパラメータになっている
• hが固定になってしまう→ データ密度が高い領域と低い領域で、不都合がある
2.5.2 K近傍密度推定法• Kを固定し、Vを推定したい
• 確率密度p(x)を求めたい点をx、観測点をx_nとする
• xを中心として、点がK個含まれるような超球を探すとVは一意に定まり、確率密度は推定される
図は www.ocw.titech.ac.jp/index.php?module=General&action=DownLoad&file=2005-7244-20060130-3,4.pdf&type=cal より
p(x) =K
NV
2.5.2 K近傍密度推定法• Kが平滑化パラメーターとなっている
まとめると…• カーネル密度推定法 • 領域の体積を固定する • 一辺の長さがhな超立方体に、観測点xnが何個あるかを求めた • hが平滑化パラメーター
• K近傍法 • 領域内の、観測点xnの個数を固定する • 観測点xnがk個になるように、領域を広げた • kが平滑化パラメーター
K近傍法を使ったクラス分類• K近傍法とMAP推定を使って、クラス分類を行う
• xのクラスC_kの事後確率を求めたい
K近傍法を使ったクラス分類• ベイズの定理より、
!
• 確率密度p(x)は、先ほど求めたとおり
!
• 事前分布は、全ての観測点のうちクラスに属する観測点
!
• 尤度は、そのクラスに属する観測点での確率密度より、
p(Ck|x) =p(x|Ck)p(Ck)
p(x)
p(x) =K
NV
p(Ck) =Nk
N
p(x|Ck) =Kk
NkV
K近傍法を使ったクラス分類• ベイズの定理に代入すると、
!
• よって、K近傍のうち、クラスC_kに属する点の数で多数決を取ればよい
• 特に、K=1のとき最近傍法と呼ばれる
p(Ck|x) =p(x|Ck)p(Ck)
p(x)=
Kk
K
◇に近い3つの点で多数決を取っている
最近傍法では、
最近傍法では、クラスの異なる点の対の垂直二等分線になっている
問題点• あるxの確率密度p(x)を推定するにあたって、全てのデータ点を保持する必要がある
• データ点が増えると、近傍を探索していく時間が膨大になる→ 探索するための木構造を作る
本来は、最も近い3点を全探索する必要がある
おわり