2015jpa sympo shimizu

ペアデータ分析における階層線形モデルのバイアス

清水裕士

関西学院大学社会学部

今日話す内容

• ペアデータとマルチレベル分析 – ペアデータが持つ特徴 – 階層線形モデル

• ペアデータに適用する場合の注意点 – 説明変数にペア間変動があると，ペアレベルの推定値にバイアスが生じる

• マルチレベル構造方程式モデル – 説明変数にペア間変動があっても，正しく推定できる – ベイズ推定のススメ

ペアデータの特徴

• データにペア内の類似性が存在

–例：パートナーへの愛情

• パートナー同士の愛情は，相互に独立ではない

• ラブラブカップルは互いに好き合っている

• 統計モデリングの基本的な仮定

–独立で，同一の分布からサンプリングされている

–ペアデータは，全然独立じゃない

マルチレベルモデル

• 独立にサンプリングされてないデータ

–ペアデータ

–集団実験のデータ

–層化抽出法によるデータ

• 変動を分けることで独立性を担保する

–データを個人間変動とペア間変動に分ける

–サンプリングの単位ごとでみれば独立になる

階層線形モデル

• 最もよく使われているマルチレベル分析

–個人レベルの変数に対して，集団レベルの変数がどのように影響を与えているか

–目的変数の集団間変動を推定して，集団レベルの説明変数の効果を見る

• ペアデータでも利用可能

–例：交際年数（ペアレベル）が愛情（個人レベル）に与える影響

階層線形モデルの利点

• ペアレベルの変数の効果を推定できる

–個人の変数（幸福感など）に対して，ペアレベルの変数（交際年数，収入など）の影響を見れる

–個人レベルの変数と比較することができる

説明変数ペアレベル

説明変数個人レベル

個人レベル

ペアレベル

目的変数

ペアレベルと個人レベル

• ペアレベル –ペア単位の変動の関連

–個人に還元できないペア特有の共変動 • 例：交際期間が長くなると，愛情は互いに減る

• 例：よく会話する夫婦は，二人とも幸福感が高い

• 個人レベル –ペアの効果を統制した個人間変動の関連

–ペアの影響を受けていない純粋な個人内共変動 • 例：よく話す人は，相対的に幸福感が高い

説明変数にもペア間変動がある場合

• 目的変数も説明変数もペア間変動がある場合 – 例：目的変数が愛情で，説明変数が夫婦内の会話 – どちらも，夫婦内で類似している事が考えられる

• 説明変数の中心化 – ペアの平均値を取り除くことで，ペア間変動をなくしてやる – しかし，説明変数のペア間変動を失う

• ペア平均値を改めて説明変数に加える – 説明変数のペア平均を別の変数として加える – 中心化した変数とペア平均の2つの変数を同時にモデルに入れて推定する

説明変数にもペア間変動がある場合

• 説明変数を二つに分割

–集団平均で中心化 → 個人レベル

–ペア平均値 → ペアレベル

中心化した説明変数

個人レベル

ペアレベル説明変数のペア平均

元の説明変数

平均化

中心化

ペア平均とペア平均中心化

ペア平均値の効果とバイアス

• ペア平均値の分散には，まだ二つの分散が混在 – ペア間変動σB

– 個人間変動σW

– 集団の平均サイズk*

• ペア平均値を説明変数にいれたモデル – 推定された効果に個人レベルの効果とペアレベルの効果が混在する

– 真のペアレベルの相関が0でも，個人レベルの効果が混在することで，ペア平均から有意な効果が生じることがある

シミュレーション

• 100組200人のペアデータを1000個生成 – 説明変数をペア平均で中心化した変数と，ペア平均値をモデルに入れたHLMを実行

– ペア平均値の目的変数に対する効果がどのようにバイアスを受けるかを検証した

• シミュレーションの設定 – ペアレベルの母相関を0に固定 – 個人レベルの母相関を0.5，0.25，0の3パターン – 級内相関を0.1～0.9で変化 – 最尤法で推定

ペア平均の効果のバイアス

-0.1

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

個人レベル母相関0.5



説明変数の級内相関

※ペアレベルの母相関=0.0 説明変数のペア平均の効果

個人レベルの母相関が高く，級内相関が小さいとき，バイアスが大きい

ペア平均の効果のバイアス

• 個人レベルの相関が影響する – 個人レベルの相関が高いとバイアスが大きい

– ペア平均に個人レベルの情報が混在していることが原因

– なお，個人レベルは正しく推定できている

• 級内相関の小ささが影響する – 級内相関が小さいほど，バイアスは大きくなる – 集団のサイズが小さいほど，バイアスは大きい

• 清水（2015）日本グループ・ダイナミックス学会発表予定 • ペアデータでは，バイアスが深刻になる

じゃあ，どうしよう？

• 説明変数のペア間変動も推定する必要性

–階層線形モデルでは，説明変数は個人間変動とペア間変動をわけてくれない

–ペア間変動をちゃんと推定する必要がある

• マルチレベル構造方程式モデル

–目的，説明変数に限らず，個人とペア間変動をそれぞれ推定してくれる

マルチレベル構造方程式モデル

• 構造方程式モデルのマルチレベル版

–説明変数についても集団レベルの効果を正しく推定できる

個人レベル

集団レベル

目的変数

個人レベル

集団レベル

説明変数

同じシミュレーション

• 100組200人のペアデータを1000個生成 – 個人レベルとペアレベルでそれぞれ説明変数から目的変数にパスを引いたマルチレベルSEMを実行

– ペアレベルの目的変数に対する効果がどのように推定されるかを検証

• シミュレーションの設定（HLMの場合と同じ） – ペアレベルの母相関を0に固定 – 個人レベルの母相関を0.5，0.25，0の3パターン – 級内相関を0.1～0.9で変化 – 最尤法で推定

マルチレベルSEMの推定

• 個人レベルの相関の影響を受けない –集団レベルの母相関を正しく（一部変だが）推定できている

– もちろん個人レベルも正しく推定できている

• 級内相関が低いと推定がやや不安定 –集団サイズが小さいペアデータの場合に顕著

–不適解（分散が負になる）になることが多い • 標準化係数が1を超えることがある

マルチレベルSEMの推定

-0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9



個人レベル母相関0

説明変数の級内相関

※ペアレベルの母相関=0.0 説明変数のペア平均の効果

実際のペアデータの分析例

• 夫婦223組に調査

–幸福感

–身体的不健康症状

• 夫婦レベルで身体症状が幸福感を予測？

–身体的な不健康さと幸福感の関連は，夫婦単位の変動によって説明されるか？

– HLMとマルチレベルSEMで検討

級内相関係数

• 夫婦内で類似性が高い

–幸福感，身体症状ともに級内相関が高い

–家族，夫婦関係がそれぞれのWell-beingに影響

変数名 ICC 95%下限 95%上限

幸福感 .394 .277 .499

身体症状 .274 .148 .391

階層線形モデル

変数名係数標準誤差 Z値 p値

身体症状_中心化 -0.267 0.055 -4.843 .000

身体症状_ペア平均 -0.288 0.063 -4.550 .000

マルチレベルSEM

変数名係数標準誤差 Z値 p値

身体症状_個人レベル -0.267 0.055 -4.843 .000

身体症状_ペアレベル -0.317 0.165 -1.927 .054

実際のペアデータの分析例

夫婦の幸福感を目的変数とした分析

→ HLMでは高度に有意だが，ML-SEMでは有意ではない

ベイズ推定（MCMC）でML-SEM

• 不適解が生じない – 分散パラメータを正しく推定することができる – 標準化係数が自然な範囲で推定される

• ペア・集団の数が少なくても推定できる – 最尤法にくらべて分散パラメータが不偏 – 事前分布を活用できる

• 信用区間の計算が用意 – ML-SEMのパラメータは正規分布にならない – MCMCなら，それらは簡単に，正確に推定できる

ペアレベルの分散の分布

95%CI [0.457, 2.512]

まとめ

• ペアデータの階層線形モデル –説明変数もペア内で類似性がある場合は，階層線形モデルによる分析は危険 • 個人レベルの相関に引きずられる

• マルチレベルSEMの活用 –説明変数も同様にペア間変動をモデル化

–正しい推定が可能

– MCMCを使うと簡単に正確な結果を得られる

清水裕士関西学院大学社会学部

E-mal: [email protected] Web: http://norimune.net

ご清聴ありがとうございました

清水裕士(2014) 個人と集団のマルチレベル分析ナカニシヤ出版

2015jpa sympo shimizu

Science

Transcript of 2015jpa sympo shimizu