統計処理 (1) — 平均,分散,回帰分析 · 回帰曲線と回帰分析1...
Transcript of 統計処理 (1) — 平均,分散,回帰分析 · 回帰曲線と回帰分析1...
情報基礎実践B第4回 (2014年11月10日) – / 43
情報基礎実践B第4回統計処理 (1) —平均,分散,回帰分析
京都大学大学院情報学研究科数理工学専攻/高度情報教育基盤コア準備室
關戸啓人
情報基礎実践B第4回 (2014年11月10日) 1 / 43
今回・次回のアウトライン
基礎的な統計処理を学び,ExcelとRを用いて実際に行ってみる
扱うソフトウェア
Excel(直感的に扱える,大量のデータを扱えない)
R(多少大きなデータも扱える,統計処理に特化したプログラミング
言語)
扱う統計処理
(平均,分散の算出)
線形最小二乗法による回帰分析
主成分分析
情報基礎実践B第4回 (2014年11月10日) 2 / 43
統計とは
統計学とは,大雑把に言って,データの扱い方を考える学問.
データをどうやって得るか
データをどうやって解析するか
データを使って何か主張できるか
なんとなく,ではなく,できるだけ数学的に議論する.
確率論を道具として用いることが多い.
情報基礎実践B第4回 (2014年11月10日) 3 / 43
なぜ確率論を用いるのか?
複雑すぎてわからない,必要な情報が全て得られない,不確定要素がある,
など,真っ向から考えると難しいことを議論するためには確率論.
サイコロをX回振って,1の目がY回出た.このサイコロはどんなものか?
サイコロの振り方はどうやって振ったか.初期位置,初期速度.
気流の流れ,振った人の息遣い.床の形状.サイコロの傷.などなど
青星がわかり,分析できれば,サイコロの形状について詳細にわかる.
→現状では夢物語.本当にそのようなサイコロの詳細な形状が必要か?
例えば,本当に知りたいのは,適当に投げた時,出にくい目や,出やすい目
はありませんか?ということではないか?
情報基礎実践B第4回 (2014年11月10日) 4 / 43
なぜ確率論を用いるのか?
データを扱う
データには誤差がつきもの
測定誤差
2つの値,複数の値関係を調べたい
本当に正しい関係を求めるのは不可能な場合がほとんど
適当な近似を行いモデル化する
モデル化誤差
誤差の要因は複雑怪奇
確率的なものとして扱う
情報基礎実践B第4回 (2014年11月10日) 5 / 43
確率分布と確率変数
確率分布関数 f (x)とは,常に f (x) ≥ 0で,以下を満たすものである.
連続分布の場合:∫ ∞
−∞f (x)dx = 1, 離散分布の場合:
∑x
f (x) = 1
確率分布 f (x)に従う確率変数Xが条件Aを満たす確率をP (A)と書く.
離散分布の場合:P (X = 1) = f (1), P (Xは3の倍数) = ∑xは3の倍数
f (x)
連続分布の場合:P (3 ≤ X < 18) =∫ 18
3f (x)dx
確率変数Xは,試行によって値が定まる変数で,その値が条件 Aを満たす確
率がp = P (A)であるとは,その試行を独立(互いに関係ない状態で)N回行っ
た時,だいたいN p回ぐらい条件Aを満たすだろうという意味である.
情報基礎実践B第4回 (2014年11月10日) 6 / 43
確率分布と確率変数の例
(例)理想的なサイコロの場合
離散分布で, f (1) = f (2) = f (3) = f (4) = f (5) = f (6) = 1/6.
サイコロを振って出る目Xが4である確率はP (X = 4) = f (4) = 1/6.これは,
何回もサイコロを振ると,その振った回数の1/6倍ぐらいの回数だけ4の目が
出るという意味である.
注意:通常サイコロは厳密に各目が出る確率が1/6となるわけではないと思わ
れるが,1/6に非常に近いことが経験的に知られており,厳密にやるのは面倒,
または,不可能なのでこういう風にしましょう,と考えている.
情報基礎実践B第4回 (2014年11月10日) 7 / 43
確率分布と確率変数の例
(例)無作為に20歳の男性を1人選んだ時,その人の体重 (kg)
連続分布で,f (60)とか f (70)ぐらいが大きくて,そこから外れると小さくな
るであろう.
注意:20歳の男性の人数は有限であるので,これは本当は離散分布であると
思われる.しかし,厳密に体重を量れるわけでもなく,そもそも対象がかな
り曖昧(今この瞬間の体重分布か?それとも人間が通常の生活を20年行った
後の体重の分布か?)また,実際に必要となる値は,体重が60kg台の人口比
率P (60 ≤ X < 70)などが多く,連続分布と考えたほうが便利な場合が多い.
実際の現象をできるだけうまく説明できる,数学的に扱うのが便利,などを
考えて,うまく設定する必要がある.
情報基礎実践B第4回 (2014年11月10日) 8 / 43
期待値,平均,分散,標準偏差 (1)
確率分布 f (x)に従う,確率変数Xの関数 s(X )の期待値を
連続分布の場合:E [s(X )] =∫ ∞
−∞s(x) f (x)dx
離散分布の場合:E [s(X )] =∑x
s(x) f (x)
と書く.
この分布の平均,分散,標準偏差は,
平均:E [X ]
分散:E [(X −E [X ])2] = E [X 2]−E [X ]2
標準偏差:√
E [(X −E [X ])2] =√
E [X 2]−E [X ]2
のことである.分散の項の等式はE [αs(X )+βt (X )] = αE [s(X )]+βE [t (X )]や
E [1] = 1などから導かれる.
情報基礎実践B第4回 (2014年11月10日) 9 / 43
期待値,平均,分散,標準偏差 (2)
平均,分散などは,その確率分布を知るための手がかりとなることがある.
もしくは,確率分布関数を直接的に扱うのが難しいが,平均や分散は単なる
実数なので扱いやすい.
平均:確率変数がだいたいどのぐらいの値になるかという目安の1つ.
X1, X2, . . . , XNが独立で,それぞれその分布に従うなら,(X1+X2+ . . .+XN )/N
はNが大きい時,平均に近づく.
分散:確率変数が平均からどれぐらい離れた値になるか,という目安の1つ.
(平均からの距離の2乗)の平均,であるので,オーダーは「距離」の2乗.
標準偏差:分散の正の平方根.オーダーは「距離」.
情報基礎実践B第4回 (2014年11月10日) 10 / 43
母集団 (population)と標本 (random sample)
X1, X2, . . . , XNが独立で,すべて同じ確率分布に従うとき,これをサイズN
の標本という.独立であるとは,荒っぽく言うと,X1がとある値のとき,X2
はとある値になりやすい,などといった関係がないという事.標本が従う確
率分布を母集団分布という.
(例)サイコロをN回振るとき,i回目に出た目の数をXiで表すと,
X1, X2, . . . , XNはサイズNの標本となる.1回目のサイコロの出目は,2回目の
サイコロの出目に影響しないであろうから,これらは独立である.
注意:統計処理を行う際には,標本Xiには,与えられたデータなどの実数が
入っている.ただし,数学的に,標本や,その標本から得られる量はどのよ
うな性質があるかなどを議論したいときは,標本を確率変数と考えている.
情報基礎実践B第4回 (2014年11月10日) 11 / 43
標本平均,標本分散,不偏分散
サイズNの標本X1, X2, . . . , XNに対して,定義されるものとして:
標本平均:X = X1+X2+·· ·+XN
N
標本分散:1
N
N∑i=1
(X −Xi )2 = X 2− (X )2
不偏分散:1
N −1
N∑i=1
(X −Xi )2
注意:標本平均の期待値は母集団分布の平均に一致する.また,不偏分散の期
待値は,母集団分布の分散に一致する.逆に,標本分散は,母集団分布の分
散より小さくなりやすい.標本に対して分散を調べるときは標本分散を,標
本を通じて,母集団分布の分散を調べるときは不偏分散を用いることが多い.
情報基礎実践B第4回 (2014年11月10日) 12 / 43
回帰曲線と回帰分析 1多変量解析—回帰分析と最小二乗法
2つの確率変数XとY を考える.X = xという条件下でのY の平均
E[Y |X = x]をxの関数と思ったとき,それを回帰曲線という.
回帰分析とは,大雑把に言えば,回帰曲線を推定することにより,2つの確率
変数XとY の関係を調べること,である.特に,E[Y |X = x]を推定するとき
は,Xは説明変数で,Y は目的変数である.つまり,Y がどのような値を取る
かはXによって定まる,と考えている.
説明変数は複数あっても良い.説明変数がX1, X2, . . . , Xnで,
E[Y |X1 = x1, X2 = x2, . . . , Xn = xn]を考えても良い.説明変数が1個の場合を単
回帰分析,複数の場合を重回帰分析という.
情報基礎実践B第4回 (2014年11月10日) 13 / 43
回帰曲線と回帰分析 2多変量解析—回帰分析と最小二乗法
例えば,小学生を対象に,Xを朝食を食べる割合,Yでテストの点数とすれ
ば,回帰分析で,これらの関係がわかるであろう.多くの場合は,
E[Y |X = x] = ax +b (a, b ∈R)
という関係を仮定する,もしくは,
E[Y |X = x] = ax +b +ε (a, b ∈R)
として,誤差項(Xだけでは説明できない部分)εをできるだけ小さくするよ
うにa, bを決めることが多い.
重回帰分析の場合は,
E[Y |Xk = xk] =n∑
k=1ak xk +b +ε (ak , b ∈R)
とする場合が多い.勿論,もっと複雑な式を考えることもある.
情報基礎実践B第4回 (2014年11月10日) 14 / 43
回帰曲線と回帰分析 3多変量解析—回帰分析と最小二乗法
ただし,推定した結果,aが明らかに正であるからと言って,朝食を食べる
ことが直接テストの点数を上げるとは限らない.例えば,食生活をきちんと
躾けていれば,朝食を食べる割合が高くなり,テストの点数も良い傾向にあ
り,朝食を食べたからといってテストの点数が上がるわけではないかもしれ
ない.
aが0か,正か,負かのみが重要な場合もあるが,そのようなときは,検定な
どを用いれば良い.他にも,a, bを推定した後,ε(残差)がどのようになっ
ているか調べ,E[Y |X = x]の式の形を修正するなどを考えることも必要かも
しれない.今回は,どうやって,関数E[Y |X = x]を推定するかについて述べ
る.多くの場合は,最小二乗法を用いる.
情報基礎実践B第4回 (2014年11月10日) 15 / 43
最小二乗法の概要多変量解析—回帰分析と最小二乗法
未知な関数を得られたデータから推定したい.
今回は特に未知関数が1変数関数の時を考える(2変数以上を考える場合は,
以下でxはベクトルだと思えば良い).この時,大雑把に言うと
未知関数 f (x)の形はわかっていて,未知パラメータを含む形で書かれる
データ(x j , y j )は f (x j )での値が y jであることを「示唆」する
データは厳密に「正しい」訳ではない.つまり厳密に f (x j ) = y jとは限ら
ない(測定誤差などが含まれている)
という状況で,未知関数を推定する.
情報基礎実践B第4回 (2014年11月10日) 16 / 43
最小二乗法の例 (その1)多変量解析—回帰分析と最小二乗法
f (x) = θ1x +θ0
情報基礎実践B第4回 (2014年11月10日) 16 / 43
最小二乗法の例 (その1)多変量解析—回帰分析と最小二乗法
f (x) = 0.8x +1.2
情報基礎実践B第4回 (2014年11月10日) 17 / 43
最小二乗法の例 (その2)多変量解析—回帰分析と最小二乗法
f (x) = θ3x3+θ2x2+θ1x +θ0
情報基礎実践B第4回 (2014年11月10日) 17 / 43
最小二乗法の例 (その2)多変量解析—回帰分析と最小二乗法
f (x) = 0.3x3−0.5x2−2.7x +2.1
情報基礎実践B第4回 (2014年11月10日) 18 / 43
最小二乗法の例 (その3)多変量解析—回帰分析と最小二乗法
f (x) = θ2x2+θ1x +θ0
x +θ3
情報基礎実践B第4回 (2014年11月10日) 18 / 43
最小二乗法の例 (その3)多変量解析—回帰分析と最小二乗法
f (x) = 2.1x2−13.1x +3.1
x +12.0
情報基礎実践B第4回 (2014年11月10日) 19 / 43
最小二乗法の例多変量解析—回帰分析と最小二乗法
その1: 直線で近似する場合
f (x) = θ0+θ1x
(単純な)単回帰分析
その2: 未知関数がパラメータについて線形(線形最小二乗法)
f (x) = θ0 f0(x)+θ1 f1(x)+·· ·+θm−1 fm−1(x)
(単純な)重回帰分析,以下では主にこれを説明する
その3: 未知関数がパラメータについて非線形(非線形最小二乗法)
f (x) = f (x ;θ0,θ1, . . . ,θm−1)
複雑な式の形を指定した場合,解く場合は最適化の理論を用いる
情報基礎実践B第4回 (2014年11月10日) 20 / 43
回帰モデルの例 (1) —単回帰モデル多変量解析—回帰分析と最小二乗法
体重を意味する確率変数をW
身長を意味する確率変数をH
モデル:W = θ1H +θ0+ε
データは,例えば体重 (kg) 身長 (cm)
A氏 56.8 163.3B氏 52.1 160.2C氏 52.6 158.0D氏 23.4 129.0E氏 32.1 139.7F氏 40.6 141.4
情報基礎実践B第4回 (2014年11月10日) 21 / 43
回帰モデルの例 (2-1) —重回帰モデル多変量解析—回帰分析と最小二乗法
体重を意味する確率変数をW
身長を意味する確率変数をH
モデル:W = θ2H 2+θ1H +θ0+ε
データは,例えば体重 (kg) 身長 (cm) 身長2(cm2)
A氏 56.8 163.3 26666.89B氏 52.1 160.2 25664.04C氏 52.6 158.0 24964.00D氏 23.4 129.0 16641.00E氏 32.1 139.7 19516.09F氏 40.6 141.4 19993.96
情報基礎実践B第4回 (2014年11月10日) 22 / 43
回帰モデルの例 (2-2) —重回帰モデル多変量解析—回帰分析と最小二乗法
体重をW,身長H,体脂肪率をF,性別をS
性別は女性を1,男性を0で表す
モデル:W = θ3H +θ2F +θ1S +θ0+ε
データは,例えば体重 (kg) 身長 (cm) 体脂肪率 (%) 性別
A氏 56.8 163.3 14.3 0B氏 52.1 160.2 15.3 0C氏 52.6 158.0 21.2 1D氏 23.4 129.0 13.3 1E氏 32.1 139.7 16.8 0F氏 40.6 141.4 19.6 1
情報基礎実践B第4回 (2014年11月10日) 23 / 43
線形最小二乗法の定義,および,性質 1多変量解析—回帰分析と最小二乗法
線形回帰モデルは
Y =m−1∑k=0
θk fk(x)+ε= f (x ,θ)+ε
で表され,
fk(x)は既知の関数
θkは未知のパラメータ,θ = (θ0,θ1, . . . ,θm−1)T
εは確率変数で平均0(E[ε] = 0)
を意味する.今,n個のデータを
y j = f (x j ,θ)+ε j , j = 1, 2, . . . , n
で書く.理論を考える上では,y j ,ε jは確率変数.
情報基礎実践B第4回 (2014年11月10日) 24 / 43
線形最小二乗法の定義,および,性質 2多変量解析—回帰分析と最小二乗法
n個のデータ
y j = f (x ,θ)+ε j , j = 1, 2, . . . , n
今回は,誤差ε jに対して以下の仮定を置く
平均は0.つまり,E[ε j ] = 0
誤差の分散は等しく,正.つまり,V[ε j ] =σ2 > 0
誤差は互いに独立.つまり,E[εiε j ] = 0, i ̸= j
このとき,
S(β) =n∑
j=1(y j − f (x j ,β))2
を最小化するβを最小二乗推定量 θ̂と言う.
情報基礎実践B第4回 (2014年11月10日) 24 / 43
線形最小二乗法の定義,および,性質 2 (補足)多変量解析—回帰分析と最小二乗法
n個のデータ
y j = f (x ,θ)+ε j , j = 1, 2, . . . , n
今回は,誤差ε jに対して以下の仮定を置く
平均は0.つまり,E[ε j ] = 0
誤差の分散は等しくない場合.つまり,V[ε j ] =σ2j > 0
誤差は互いに独立.つまり,E[εiε j ] = 0, i ̸= j
このとき,
S(β) =n∑
j=1
(y j − f (x j ,β))2
σ2j
を最小化するβを最小二乗推定量 θ̂と言う.(この場合も以降の議論はだいたい成り立つ)
情報基礎実践B第4回 (2014年11月10日) 25 / 43
絵で見る最小二乗法多変量解析—回帰分析と最小二乗法
緑の線の長さの二乗和を最小化するように,未知パラメータθを推定する
情報基礎実践B第4回 (2014年11月10日) 26 / 43
線形最小二乗法の定義,および,性質 3多変量解析—回帰分析と最小二乗法
最小二乗推定量 θ̂は,最良線形不偏推定量である.
E[θ̂] = θ(不偏)
θ̂は,y jについて線形の式で書ける(線形)
その中で,分散がある意味で最小(最良) Cov[β]−Cov[θ̂]が非負定値
誤差εが正規分布に従うとき,最小二乗推定量 θ̂は,最尤推定量である.つ
まり,x1, . . . , xnを固定して,測定結果として y1, . . . , ynが得られる確率をθの
関数として考えた時,その確率の値が最大となるのがθ = θ̂の時である.
情報基礎実践B第4回 (2014年11月10日) 27 / 43
最小二乗法推定量 (その1)多変量解析—回帰分析と最小二乗法
S(β) =n∑
j=1(y j − f (x j ,β))2
を最小化したいのだから,β0,β1, . . . ,βm−1で偏微分して0になるβを見つけれ
ば良い.
f (x ,β) =β1x +β0の場合
S(β) =n∑
j=1(y j −β1x j −β0)2
であるから,
情報基礎実践B第4回 (2014年11月10日) 28 / 43
最小二乗法推定量 (その1)多変量解析—回帰分析と最小二乗法
∂
∂β1S(β) = 2
n∑j=1
(x2j β1+x jβ0−x j y j ) = 0
∂
∂β0S(β) = 2
n∑j=1
(x jβ1+β0− y j ) = 0
つまり
(∑x2
j∑
x j∑x j n
)(β1β0
)=
(∑x j y j∑
y j
)を解けば良い.
β1 = n∑
x j y j−∑
x j∑
y j
n∑
x2j −(
∑x j )2
β0 =∑
x2j∑
y j−∑
x j y j∑
x j
n∑
x2j −(
∑x j )2
情報基礎実践B第4回 (2014年11月10日) 29 / 43
最小二乗法推定量 (その2)多変量解析—回帰分析と最小二乗法
S(β) =n∑
j=1(y j − f (x j ,β))2
β0,β1, . . . ,βm−1で偏微分して0になるβを見つける.
f (x ,β) =β0 f0(x)+β1 f1(x)+·· ·+βm−1 fm−1(x)の場合
S(β) =n∑
j=1
(y j −
m−1∑k=0
βk fk(x j )
)2
であるから,
∂
∂βiS(β) = 2
n∑j=1
fi (x j )
((m−1∑k=0
fk(x j )βk
)− y j
)= 0
情報基礎実践B第4回 (2014年11月10日) 30 / 43
正規方程式多変量解析—回帰分析と最小二乗法
これをBβ= bと書くと (B ∈ Mm(R), b ∈Rm)
Bi j =n∑
k=1fi (xk) f j (xk)
bi =n∑
k=1fi (xk)yk
となる.行列Bがフルランクであれば,最小二乗推定量が一意に定まる.
Bβ= bは正規方程式と呼ばれる.
数値計算する際は,この方程式を直接解くよりも高精度な方法が存在する.
(Excelで2003以前のバージョンでは,この正規方程式を解くことによって,
回帰分析を行う.2003,および,それ以降では,この後補足で述べるQR分
解を用いた方法を使用している)
情報基礎実践B第4回 (2014年11月10日) 31 / 43
正規方程式多変量解析—回帰分析と最小二乗法
行列A ∈ Mn,m(R)を
Ai j = f j (xi ) = ∂∂β j
f (xi ) (ヤコビアン,データ行列)
で定義すると,
B = ATA
b = ATy
であるから,正規方程式は
ATAβ= ATy (yは (y1, . . . , yn)T)
と書きなおされる.最小二乗推定量は
θ̂ = (ATA)−1 ATy
情報基礎実践B第4回 (2014年11月10日) 32 / 43
回帰モデルの例 (1) —単回帰モデル多変量解析—回帰分析と最小二乗法
モデル:W = θ1H +θ0+ε
データは,例えば体重 (kg) 身長 (cm)
A氏 56.8 163.3B氏 52.1 160.2C氏 52.6 158.0D氏 23.4 129.0E氏 32.1 139.7F氏 40.6 141.4
A =
1 163.31 160.21 158.01 129.01 139.71 141.4
, y =
56.852.152.623.432.140.6
情報基礎実践B第4回 (2014年11月10日) 33 / 43
回帰モデルの例 (2-1) —重回帰モデル多変量解析—回帰分析と最小二乗法
モデル:W = θ2H 2+θ1H +θ0+ε
データは,例えばwi hi h2
iA氏 56.8 163.3 26666.89B氏 52.1 160.2 25664.04C氏 52.6 158.0 24964.00D氏 23.4 129.0 16641.00E氏 32.1 139.7 19516.09F氏 40.6 141.4 19993.96
A =
1 163.3 26666.891 160.2 25664.041 158.0 24964.001 129.0 16641.001 139.7 19516.091 141.4 19993.96
, y =
56.852.152.623.432.140.6
情報基礎実践B第4回 (2014年11月10日) 34 / 43
回帰モデルの例 (2-2) —重回帰モデル多変量解析—回帰分析と最小二乗法
モデル:W = θ3H +θ2F +θ1S +θ0+ε
データは,例えばwi hi fi si
A氏 56.8 163.3 14.3 0B氏 52.1 160.2 15.3 0C氏 52.6 158.0 21.2 1D氏 23.4 129.0 13.3 1E氏 32.1 139.7 16.8 0F氏 40.6 141.4 19.6 1
A =
1 0 14.3 163.31 0 15.3 160.21 1 21.2 158.01 1 13.3 129.01 0 16.8 139.71 1 19.6 141.4
, y =
56.852.152.623.432.140.6
情報基礎実践B第4回 (2014年11月10日) 35 / 43
QR分解を用いて解く多変量解析—回帰分析と最小二乗法
行列AをQR分解できたとして
A =QR
とする.ただし,Q ∈ Mn,m(R)は列ベクトルが長さ1で互いに直交し,
R ∈ Mm(R)は正則な上三角行列である.このとき,正規方程式は,
ATAβ= ATy
(QR)TQRβ= (QR)Ty
RTQTQRβ= RTQTy
RTRβ= RTQTy (QTQ = I )
Rβ=QTy (RTは正則)
となり,Rは上三角行列であるから,これは簡単に解ける.
情報基礎実践B第4回 (2014年11月10日) 36 / 43
行列Aが列フルランクでない場合多変量解析—回帰分析と最小二乗法
行列Aが列フルランクでない場合は,最小二乗推定量は一意に定まらない.
そこで,最小二乗推定量の中で,∥β∥2を最小とするものを求めることが多い.
ただし,∥β∥2 = ∥β∥ =√
β20+β2
1+·· ·β2m−1 =
√βTβ
結論を言うと,AのMoore–Penroseの一般逆行列をA+と書くと,
β= A+y = R+QTy
を求めれば良いことがわかる.
これは,特異値分解を用いることによって計算できる.(完全ピポット選択付
きQRと直交変換を用いた高速な方法などもある)
情報基礎実践B第4回 (2014年11月10日) 37 / 43
(補足)行列Aが列フルランクでない場合多変量解析—回帰分析と最小二乗法
以下では気になる人向けにAが列フルランクでない場合に,Moore–Penrose
の一般逆行列を用いて最小二乗推定量が表わされること,特異値分解を用い
て計算できることの概略を述べる.講義では説明しないし,テストなどにも
出さない.
β= K yと書けて,S(β) = ∥Aβ− y∥2を最小にするような,行列Kを考えよう.
任意のwに対して,S(K y +w )−S(K y) ≥ 0より,
∥A(K y +w )− y∥2−∥AK y − y∥2 ≥ 0
∥Aw + AK y − y∥2−∥AK y − y∥2 ≥ 0
∥Aw∥2+2yT(K TAT− I )Aw ≥ 0
よって,K TATA = Aのとき,S(K y +w )−S(K y) ≥ 0を満たす.
情報基礎実践B第4回 (2014年11月10日) 38 / 43
(補足)行列Aが列フルランクでない場合多変量解析—回帰分析と最小二乗法
逆に,K TATA ̸= Aのとき,
u = AT(AK − I )y ̸= 0
となるような yが存在する.w =αuとすると,
S(K y +w )−S(K y) =α2∥Au∥2+2α∥u∥2
となり,αを絶対値の小さな負の数にすればこれはマイナスになる.
よって,β= K yが最小二乗推定量になる必要十分条件はK TATA = A
情報基礎実践B第4回 (2014年11月10日) 39 / 43
(補足)行列Aが列フルランクでない場合多変量解析—回帰分析と最小二乗法
K TATA = Aは以下の条件と同値である.
AK A = A かつ (AK )T = AK
なぜなら,下の条件を仮定すれば
K TATA = (AK )TA = AK A = A
であるし,K TATA = Aを仮定すれば
AK = K TATAK = (AK )TAK
K TATAK = (K TATAK )T
より,
AK = (AK )T = (AK )2
A = K TATA = (AK )TA = AK A
情報基礎実践B第4回 (2014年11月10日) 40 / 43
(補足)一般の最小二乗推定量多変量解析—回帰分析と最小二乗法
β= K yが1つの最小二乗推定量ならば,一般の最小二乗推定量は任意のベ
クトルzを用いて
K y − (I −K A)z
と書ける.
なぜなら,S(K y − (I −K A)z) = ∥A(K y − (I −K A)z)− y∥2 = ∥A(K y)− y∥2 =S(K y)で,逆に,任意の最小二乗推定量βに対して,t = β−K yを考えると,
S(β)−S(K y) = 0から∥At∥2 = 0を導くことができ,β= K y + t = K y −(I −K A)z
情報基礎実践B第4回 (2014年11月10日) 41 / 43
(補足)ノルム最小の最小二乗推定量多変量解析—回帰分析と最小二乗法
行列Aがフルランクでない場合,最小二乗推定量は一意に定まらないが,∥β∥が最小となるような推定量を考えよう.そのような推定量は一意に定まり,以
下を満たすβ= K yである.
AK A = A
(AK )T = AK
K AK = K
(K A)T = K A
一般に行列Aに対して,上の4つの条件を満たす行列KをAの
Moore–Penroseの一般逆行列といいA+で表し,一意に定まる.
情報基礎実践B第4回 (2014年11月10日) 42 / 43
(補足)ノルム最小の最小二乗推定量多変量解析—回帰分析と最小二乗法
A =U DV Tと特異値分解されたとする.ただし,U ,V は列ベクトルが正規
直交系を成している行列で,Dは対角成分にのみ要素を持つ行列で,対角成
分は非負.
D+は,D+i i = 1/Di i , Di i > 0で他の要素は0であるような行列である.
DD+D = D, (DD+)T = DD+など簡単に確かめられる
K = V D+U Tとすると,Kは AのMoore–Penroseの一般逆行列であり,β =K yがノルム最小の最小二乗推定量である.
情報基礎実践B第4回 (2014年11月10日) 43 / 43
(補足)ノルム最小の最小二乗推定量多変量解析—回帰分析と最小二乗法
A =U DV T,K =V D+U Tとすると
AK A =U DV TV D+U TU DV T =U DD+DV T =U DV T = A
AK =U DV TV D+U T =U DD+U T
(AK )T = (U DD+U T)T =U (DD+)TU T =U DD+U T = AK
など