卒論プレゼンテーション -DRAFT-

33
線形回帰モデルにおける説明変数の選択と 回帰係数の縮小推定法:Lasso Elastic Net 中村知繁 慶應義塾大学理工学部数理科学科南研究室 February 6, 2014

description

 

Transcript of 卒論プレゼンテーション -DRAFT-

Page 1: 卒論プレゼンテーション -DRAFT-

線形回帰モデルにおける説明変数の選択と回帰係数の縮小推定法:LassoとElastic Net

中村知繁

慶應義塾大学理工学部数理科学科南研究室

February 6, 2014

Page 2: 卒論プレゼンテーション -DRAFT-

Contents

イントロダクション - 研究背景

Lasso - L1罰則による、縮小推定と変数選択

Lassoの問題点 - n ≫ p問題とグループ化効果

Elastic Net - Lassoに変わる新たな手法

Prostate Cancer Data

音声認識

まとめ

今後の課題

2 / 33

Page 3: 卒論プレゼンテーション -DRAFT-

研究背景

線形回帰法は、一般的に目的変数 Yn×1 を、説明変数X1, ..., Xp の線形結合で説明する方法である。このような方法のうち最も基本的なものの1つは、最小二乗法 (OLS法)であり、OLS法を利用した回帰係数の推定値は以下のように表される

β(OLS) = (XTX)−1XTy (1)

回帰における重要な 2つの視点▶ データの予測精度 - 学習データで構築したモデルが、未知のデータが得られたとき、結果をどの程度の精度で予測できるか。

▶ モデルの解釈 - 目的変数と説明変数の関係性をみるために、目的変数に対して影響の大きい説明変数のみで、モデルを構築できているか。

3 / 33

Page 4: 卒論プレゼンテーション -DRAFT-

研究背景

線形回帰法は、一般的に目的変数 Yn×1 を、説明変数X1, ..., Xp の線形結合で説明する方法である。このような方法のうち最も基本的なものの1つは、最小二乗法 (OLS法)であり、OLS法を利用した回帰係数の推定値は以下のように表される

β(OLS) = (XTX)−1XTy (1)

回帰における重要な 2つの視点▶ データの予測精度 - 学習データで構築したモデルが、未知のデータが得られたとき、結果をどの程度の精度で予測できるか。

▶ モデルの解釈 - 目的変数と説明変数の関係性をみるために、目的変数に対して影響の大きい説明変数のみで、モデルを構築できているか。

4 / 33

Page 5: 卒論プレゼンテーション -DRAFT-

研究背景 (続き)

予測精度の向上▶ リッジ回帰:L2罰則を課したもとで、残差二乗和を最小化する

▶ 問題点:回帰係数を縮小推定するが、一方で説明変数の選択ができない。

説明変数の選択▶ 変数増加法・変数減少法・最良変数選択法:AICなどを基準にして、説明変数の選択を行う。

▶ 問題点:連続的な説明変数の選択ができない。計算コストが大きい。

5 / 33

Page 6: 卒論プレゼンテーション -DRAFT-

研究背景 (続き)

予測精度の向上▶ リッジ回帰:L2罰則を課したもとで、残差二乗和を最小化する

▶ 問題点:回帰係数を縮小推定するが、一方で説明変数の選択ができない。

説明変数の選択▶ 変数増加法・変数減少法・最良変数選択法:AICなどを基準にして、説明変数の選択を行う。

▶ 問題点:連続的な説明変数の選択ができない。計算コストが大きい。

6 / 33

Page 7: 卒論プレゼンテーション -DRAFT-

Lasso

Lassoとは▶ Lasso:Least Absolute Shrinkage and Selection Operator

▶ Tibshirani(1996)

特徴▶ L1罰則のもとで、残差二乗和を最小化する▶ 回帰係数を縮小推定することで、予測精度を向上させる。▶ 連続的な変数の選択が可能。解は係数のパス図で得られる。▶ 上記 2つを同時に行うことができる。

7 / 33

Page 8: 卒論プレゼンテーション -DRAFT-

Lasso 続き

定義 (Lasso)

▶ Xは n× pの標準化された共変量の行列。▶ yは平均を 0に調整した、目的変数のベクトル。▶ Lassoの推定量は

β(Lasso) = argminβ

||y−Xβ||2+λ|β|1 , |β|1 =p∑

j=1

|βj | (2)

または、

β(lasso) = argminβ

||y−Xβ||2, subject to

p∑j=1

|βj | ≤ t. (3)

8 / 33

Page 9: 卒論プレゼンテーション -DRAFT-

Lasso 続き

p=2の場合で Lassoの性質を確認する:縮小推定

▶ 簡単のため、共変量の個数を 2つとする▶ 共変量ベクトルを x1,x2、その相関係数を xT

1 x2 = ρとする。▶ ここで、β1(ols) > 0, β2(ols) > 0とすると、Lassoの推定量は、(3)から、以下のように表される。(

β1

β2

)=

(β1(ols)− λ

2(1+ρ)

β2(ols)− λ2(1+ρ)

)+

▶ Lassoは各回帰係数を同じ大きさだけ縮小して推定する。▶ 縮小した結果 0以下になった推定量を 0にする : 変数選択の性質

9 / 33

Page 10: 卒論プレゼンテーション -DRAFT-

Lasso 続き

p=2の場合で Lassoの性質を確認する:縮小推定 (続き)

▶ 上のスライドの結果と β1 + β2 = tを用いて、ρを式から消去すると、Lassoの推定量は

β1(lasso) =

(t

2+

β1(ols)− β2(ols)

2

)+

β2(lasso) =

(t

2− β1(ols)− β2(ols)

2

)+

▶ Lassoの推定量は説明変数間の相関の影響を受けない

10 / 33

Page 11: 卒論プレゼンテーション -DRAFT-

Lasso 続き

Lassoを解くためのアルゴリズム:LARS法▶ Lassoを解析的に解くことは難しい。解析的に解く場合の計算コストはO(2p)である (Tibshirani 1996)

▶ Lassoが扱う問題は pが大きい事例が多いので、指数的に計算量が大きくなる方法では対応できない。

▶ LARS(Efron 2004)のアルゴリズムは計算コストO(p3 + np2)で解くことができる。

▶ LARS : Least Angle Regression

▶ より高速なアルゴリズムとして Coordinate Descentがある。▶ 詳しくは卒論に書いてありますが、ここでは紹介に留めます。

11 / 33

Page 12: 卒論プレゼンテーション -DRAFT-

Lasso 続き

シュミレーション : Lassoとリッジ回帰の性質の比較▶ 2つの独立な変数 z1と z2を以下のように定義する

z1 ∼ U(0, 20) z2 ∼ U(0, 20)

▶ 目的変数ベクトルを y = z1 + 0.1× z2 +N(0, 1)とする▶ 観測された説明変数を以下のように定義する

x1 = z1 + ϵ1 x2 = −z1 + ϵ2 x3 = z1 + ϵ3x4 = z2 + ϵ4 x5 = −z2 + ϵ5 x6 = z2 + ϵ6

▶ データ (X,y)にリッジ回帰と、Lassoを当てはめて推定値求めた結果が次の図。

12 / 33

Page 13: 卒論プレゼンテーション -DRAFT-

Lasso 続き : シュミレーション結果

Figure: 左図:Lassoの解のパス図.右図:リッジ回帰の解のパス図:横軸は |β|1/max |β|1 の大きさ、縦軸は回帰係数の推定量

13 / 33

Page 14: 卒論プレゼンテーション -DRAFT-

Lassoの課題

Lassoの問題点▶ p ≫ n問題 (West et al. 2001):p ≫ nの状況において、共変量が p個あった場合でも、Lassoが選択できる共変量の個数は n個である(分散共分散行列のランクが nになるため)。

▶ グループ化効果がない:Lassoは変数間の相関を考慮できない。高い相関を持ついくつかの変数があるとき、それらをグループ化された変数とよび、Lassoは、その中から 1つしかモデルに取り込むことはできない。

▶ n > pでの問題:説明変数間の相関が高い場合には、グループ化変数を無視する性質によってリッジ回帰よりも予測精度が悪くなることがある。

14 / 33

Page 15: 卒論プレゼンテーション -DRAFT-

Lassoの課題 続き

Lassoが課題になる具体的な例▶ 白血病の人の遺伝子データ, Golub et al. Science(1999)。▶ データのサンプル数 72個, 共変量の数 7129個.(p ≫ n問題)

▶ 遺伝子データでは、一般的に p ≈ 10000で、サンプル数n < 100である。

▶ 遺伝子データでは、一般的に遺伝子同士の結合 (”Pathway”)が似通っていることから、共変量同士の相関が高いケースが多く、グループ化された変数が存在する。

▶ → 解決策の1つとして、(Naıve) Elastic Netがある。

15 / 33

Page 16: 卒論プレゼンテーション -DRAFT-

Elastic Net

定義 (Naıve Elastic Net : Naıve ENet)λ1 > 0, λ2 > 0として、

β(Naive ENet) = argminβ

||y −Xβ||2 + λ2||β||2 + λ1|β|1

または、0 ≤ α ≤ 1として、これと同値な式

β(Naive ENet) = argminβ

||y −Xβ||2, s.t. (1− α)|β|1 + α||β||2 ≤ t (4)

を Naıve ENetの推定量と定義する。

Naıve ENetの特徴▶ λ1 → 0とするとリッジ回帰.λ2 → 0とすると Lassoになる.▶ 推定量の計算は、次のスライドのように定義の式を変形することで Lassoと同様に LARSで解くことができる。

16 / 33

Page 17: 卒論プレゼンテーション -DRAFT-

Elastic Net 続き

Naıve ENetの特徴▶ λ1 → 0とするとリッジ回帰.λ2 → 0とすると Lassoになる.▶ 計算は、次のスライドのように定義の式を変形することで

Lassoと同様に LARSで解くことができる。▶ p >> n問題を解決:(refenet)式により、Naıve ENetは n× p行列を (n+ p)× pに拡張した後に Lassoのアルゴリズムを適応し推定値を求めるため、p個の共変量をすべてモデルに取り込むことができる。

17 / 33

Page 18: 卒論プレゼンテーション -DRAFT-

Elastic Net 続き

Naıve ENetの解法

まず、以下のようにX∗ と、y∗ を定義する。

X∗(n+p)×p = (1 + λ2)

−1/2

(X√λ2Ip

)y∗(n+p) =

(y0

)(5)

ここで、γ = λ1/√(1 + λ2), β

∗ =√

(1 + λ2)βとすると、次が成り立つため Lasso同様に LARS法で解くことができる。

β(Naive ENet) = argminβ

||y∗ −X∗β∗||2 + γ|β∗|1

以上より、β(Naive ENet) =

1√1 + λ2

β∗

▶ (5)から、X のランクが pになり、p ≫ n問題を解消できることが示される。

18 / 33

Page 19: 卒論プレゼンテーション -DRAFT-

Elastic Net 続き : グループ化効果一般的に罰則付きの最小自乗法は、J(β) を罰則項として次のように表される。

β = argminβ

|y −Xβ|2 + λJ(β) (6)

ここで、β = (β1, · · · , βi, · · · , βj , · · · , βp)、β′= (β1, · · · , βj , · · · , βi, · · · , βp) とし

て、J(β) = J(β′) が成立することを仮定する。すると、次の補題が示せる。

補題xi = xj (i, j ∈ 1, 2, · · · , p) であると仮定する。(a) J(·) が狭義凸関数であるならば、βi = βj が全ての λ > 0 に対して成り立つ。(b) J(β) = |β|1 であるならば、βiβj ≥ 0 かつ、β∗ は方程式 (7) の異なる最小の値であり、全ての s ∈ [0, 1] に対して、以下が成立する。

β∗k =

βk if k = i and k = j,

(βi + βj) · (s) if k = i

(βi + βj) · (1− s) if k = j

→ Lasso の罰則はグループ化効果を持たないことが示せる。一方の Elastic Net の罰則はグループ化効果を持つことが示唆される。

19 / 33

Page 20: 卒論プレゼンテーション -DRAFT-

Elastic Net 続き : グループ化効果

定理データセット (y, X)とパラメータ (λ1, λ2)が与えられたとき、β(λ1, λ2)を Naıve elastic netの推定量とする。ここで、βi(λ1, λ2)βj(λ1, λ2) > 0と仮定し、以下でDλ1,λ2(i, j)を定義する。

Dλ1,λ2(i, j) =1

|y|1|βi(λ1, λ2)− βj(λ1, λ2)|

このとき、ρ = xTi xj(xiと xj の相関係数)とすると、以下が成り

立つ。Dλ1,λ2(i, j) ≤

1

λ2

√2(1− ρ)

▶ 相関係数によって係数の差の絶対値は押さえ込まれる。ρ = 1とすると、2つの回帰係数の推定量が一致することがわかる。→ Naıve ENetはグループ化効果を持つ。

20 / 33

Page 21: 卒論プレゼンテーション -DRAFT-

Elastic Net 続き

Naıve ENetの課題と Elastic Netの定義▶ 課題:経験的に、Naıve ENetは良いパフォーマンス示さないことが知られている。

▶ 原因:リッジ回帰と Lassoのによって、回帰係数の推定値が2重に縮小されているため。

▶ 対処:Naıve ENetの回帰係数に対して、リスケーリングを行ったものを ENetの推定値とする。実際、リッジ回帰における回帰係数の縮小は 1/(1 + λ2)であるから、その大きさに対応する。

β (ENet) = (1 + λ2)β (Naıve ENet) (7)

21 / 33

Page 22: 卒論プレゼンテーション -DRAFT-

Elastic Net 続き : シュミレーション (続き)

Figure: 左:Lasso.真ん中:リッジ回帰、右:ENet:横軸は |β|1/max |β|1の大きさ、縦軸は回帰係数の推定量。Lassoには、グループ化効果は見て取れないが、Elastic Netはグループ化効果を示している。

22 / 33

Page 23: 卒論プレゼンテーション -DRAFT-

結果:前立腺がんのデータより

▶ 8つの臨床的尺度を説明変数。目的変数は前立腺のある抗体の量の対数をとったもの。

Table: 前立腺がんのデータ:各方法別の比較

Method Parameter Test Prediction Error Variables Selectied

OLS 0.522 すべてリッジ回帰 λ = 1 0.517 すべて

Lasso s = 0.35 0.471 (1,2,4,5,8)Naıve elastic net λ = 1, s = 0.74 0.450 (1,2,4,5,6,7,8)

Elastic net λ = 1000, s = 0.18 0.349 (1,2,5,6,8)

▶ λはリッジの罰則の重みを表し、sは LASSOの罰則の重みを表している。また、λ > 0、0 < s < 1である。

▶ このケースにおいては、Elastic Netは他のどの方法よりも優れた結果を残している。

23 / 33

Page 24: 卒論プレゼンテーション -DRAFT-

推定値のパス図

Figure: 左図:Lassoの解のパス図.右図:Elastic Netの解のパス図

24 / 33

Page 25: 卒論プレゼンテーション -DRAFT-

音声認識への応用

音声認識とは▶ 音素認識 (音声認識) は、ヒトの話す音声言語をコンピューターによって解析し、話している内容を文字データとして取り出す方法。

▶ 具体的には、大量の発話を記録した学習用データから音声の特徴を蓄積し、入力された音声信号と、蓄積された特徴を比較して、最も特徴の近い文字を認識結果として出力する

モチベーション▶ 音素判別における課題:波形が類似している 2 つの音を分離する場合、分離精度が悪くなる。

▶ 今回は機械で見分ける上で難しいとされる”aa”と”ao”という 2 つの音を、回帰法によって分離する。その際、用いた手法の 精度を比較と、 特徴量抽出ができているかを確認する。

▶ 用いる手法は、最小自乗法、リッジ回帰、変数増加法、LASSO、Elastic Net。

25 / 33

Page 26: 卒論プレゼンテーション -DRAFT-

音声データの解析

データと解析手法▶ 50 名の男性の連続的な発話から、”aa”の音声データと、”ao”の音声データを抽出した、それぞれのサンプル数は 695個と 1022個である。

▶ 共変量は各周波数毎で、256個ある。目的変数は以下のようにした。

Y =

{1 (音声データが”aa”であるとき)0 (音声データが”ao”であるとき)

▶ 各手法の分離精度は、”aa”と”ao”のデータをランダムに 4分割し、3つを学習用データ、1つをテスト用データとするクロスバリデーション法を用いて、平均正答率で測る。

▶ また、特徴量を抽出できているか確認するため、全データを用いてモデルを構築する際に取り込まれる変数を、そのモデルが取り込む選択する特徴量とした。

26 / 33

Page 27: 卒論プレゼンテーション -DRAFT-

音声データの解析結果

解析結果:予測精度▶ 解析結果を見ると、説明変数を選択する手法を用いた方が、分離能力は向上することがわかる。

▶ 説明変数を選択する手法の中でも、変数増加法よりもLASSO及び、(Naıve)ENetの方がより予測精度ではより良いパフォーマンスを示している。

Table: 音素解析:方法別の結果比較手法 パラメータ 正答率 選択された変数の数

最小二乗法 0.698 すべて変数増加法 0.768 47リッジ回帰 λ = 2.0 0.704 すべて

Lasso s = 0.09 0.794 32Naıve elastic net λ = 1, s = 0.31 0.797 43

Elastic net λ = 1000, s = 0.30 0.808 42

27 / 33

Page 28: 卒論プレゼンテーション -DRAFT-

特徴量抽出特徴量抽出とは頑健な学習モデルの構築のため、特徴集合(説明変数)のうち意味のある部分集合だけを選択する手法。

Figure: ”aa”と”ao”の音素の Log-Periodgram を 100 個ずつプロットしている。ここでは、40-70の周波数の領域が特徴量と見て取ることができる。

28 / 33

Page 29: 卒論プレゼンテーション -DRAFT-

音声データの解析結果

解析結果:特徴量抽出▶ 変数増加法は、特徴量をうまく抽出できていない。▶ LASSO, (Naıve) ENetは特徴量を抽出しているが、LASSOはグループ化効果を持たないため、特徴量に取りこぼしがある。

▶ ENet, Naıve ENetは特徴量を取りこぼしなくモデルに取り込んでいる。

Table: 音素解析:用いた 4つの変数選択法で選択された変数手法 選択された変数

変数増加法 2 4 8 9 12 13 21 22 30 32 38 40 41 42 48 55 56 58 60 63 67 71 77 80 122 124 153154 159 161 176 180 182 185 187 197 200 201 204 218 224 226 227 231 242 251 256

Lasso 4 23 37 40 42 43 44 45 47 48 49 53 59 62 63 64 65 93 103 132141 152 167 184 211 222 223 231 234 235 238 241

Naıve elastic net 9 19 23 26 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 5657 58 59 60 61 62 63 64 65 66 69 85 92 100 109 224 227 228 231 247

Elastic net 4 23 37 38 39 40 41 42 43 44 45 46 47 48 49 52 53 54 55 56 57 58 59 60 61 62 63 6465 79 221 223 231 232 234 236 246 251 253 254 255 256

29 / 33

Page 30: 卒論プレゼンテーション -DRAFT-

まとめ

▶ 昨今のデータ解析では、共変量が多いケースがある。その場合に、予測精度の向上と、解釈可能なモデルの構築がしばしば課題になる。

▶ Lassoは説明変数の選択を行い、スパースなモデルを構築するが、一方でグループ化効果を取り込むことができず、予測精度が下がることがある。

▶ Lassoはその性質上、p >> n問題には対応できない。▶ Elastic Netは、上記の負の側面を解消することで、予測精度を向上させる一方、変数を選択し解釈可能なモデルを与える。

▶ Elastic Netは特徴量抽出の点からも、優れた結果を残すことが音素解析の事例から理解できた。遺伝子解析分野への応用が期待できる。

30 / 33

Page 31: 卒論プレゼンテーション -DRAFT-

今後の課題と展望

計算量の視点▶ 今回、Lassoと Elastic Netの解法には、LARSアルゴリズムを用いたが、遺伝子解析などケースで変数が大規模化(p ≈ 10000)する場合には、LARSアルゴリズムでは計算量が多く時間がかかることが知られている。

▶ この問題の解消には、Friedman(2009)で提案されるCoordinate Descentが有効であり、現在の R Packageではこの方法を用いて推定量が計算されている。

Elastic Net罰則を用いた応用手法▶ スパース主成分分析▶ サポートカーネルマシーン

31 / 33

Page 32: 卒論プレゼンテーション -DRAFT-

参考文献

▶ Bradley Efron, Trevor Hastie, Iain Johnstone, RobertTibshirani(2004). LEAST ANGLE REGRESSION

▶ Hui Zou and Trevor Hastie(2005). Regularization and variableselection via the elastic net

▶ Robert Tibshirani (1996). Regression Shrinkage and Selectionvia the Lasso

▶ Trevor Hastie, Robert Tibshirani, Jerome Friedman(2009).The Elements of Statistical Learning 2nd Edition

32 / 33

Page 33: 卒論プレゼンテーション -DRAFT-

ご清聴ありがとうございました

33 / 33