エクセルで統計分析4 因子分析のやり方

34
エクセルで統計分析4 HADによる因子分析・クラスタ分析 清水裕士 関西学院大学社会学部

description

Excelで動くフリーの統計分析プログラム、HADの解説です。 プログラムは、以下のサイトからダウンロードできます。 http://norimune.net/had エクセルで統計分析 HADについて http://slidesha.re/10ARA0k エクセルで統計分析2 HADの使い方 http://slidesha.re/RsVBp7 エクセルで統計分析3 回帰分析のやり方 http://slidesha.re/XVATPV エクセルで統計分析4 因子分析のやり方 http://slidesha.re/YWUGNY

Transcript of エクセルで統計分析4 因子分析のやり方

Page 1: エクセルで統計分析4 因子分析のやり方

エクセルで統計分析4HADによる因子分析・クラスタ分析

清水裕士

関西学院大学社会学部

Page 2: エクセルで統計分析4 因子分析のやり方

HADとは

• 清水が作ったExcelで動くフリーソフト

– 心理統計分析のほとんどが実行可能

– http://norimune.net/had

• 無償・無登録で利用可能です。

• HADの基本的な使い方

– http://slidesha.re/RsVBp7

• こちらのスライドシェアを先に御覧ください

Page 3: エクセルで統計分析4 因子分析のやり方

多変量解析

• 2つのカテゴリから選ぶ– 回帰分析:因果関係を推測する分析– 因子分析:次元圧縮やカテゴリ分けの分析

• 該当するオプションボタンを押すと、モデリングスペースが開く

下は因子分析のモデリングスペース

Page 4: エクセルで統計分析4 因子分析のやり方

多変量解析の使用方法

• 使用変数のところに変数を指定– これはほかの分析と同じ

– その後、モデリングスペースでモデルを指定したり、分析オプションを選択して、「分析実行」ボタンを押す

– 「オプション」ボタンを押すと、各分析のより詳細な設定を変更することができる

• 詳しくはWebで。– 清水のブログでも解説しています

• HADのページ• http://norimune.net/had

Page 5: エクセルで統計分析4 因子分析のやり方

因子分析グループ

• モデリングシートの「因子分析」を選択する

– 因子分析用のモデリングスペースが開く

– 主に変数の潜在構造を検討する分析法の集まり

• 「因子分析」の中のサブカテゴリ

– 因子分析:因子分析、主成分分析

– クラスタ分析:クラスタ分析、多次元尺度法

– 対応分析:コレスポンデンス分析、数量化三類

Page 6: エクセルで統計分析4 因子分析のやり方

因子分析

Page 7: エクセルで統計分析4 因子分析のやり方

因子数と推定法を選ぶ

• 因子数を選ぶ– スクリープロットなどから判断して、因子数を指定

• 推定法を選ぶ– 因子抽出法:共通性の推定法– 因子軸の回転法:単純構造を求める方法

• 出力方法を選ぶ– サイズでソート:因子負荷量が大きい順に並び替える– 因子得点:因子得点を出力する– 尺度得点:因子に所属する尺度の平均値を計算する

• 因子負荷量が一番高い因子に所属すると仮定する

Page 8: エクセルで統計分析4 因子分析のやり方

因子分析

• 因子抽出法– 最尤法、最小二乗法、反復主因子法、主成分法、非反

復推定法から選択• 基本は最尤法がオススメ• 不適解がでるなら、最小二乗法→・・・の順で。

• 回転法– 直交回転:バリマックス回転

• 基準を変えることで、クォーティマックスなどが選べる

– 斜交回転:プロマックス、オブリミン、独立クラスタ回転– プロクラステス回転

• 仮説に最も近くなるように回転する• 斜交と直交が選択できる

Page 9: エクセルで統計分析4 因子分析のやり方

因子分析の出力

項目 Factor1 Factor2 共通性v6 .835 -.047 .647v8 .751 .105 .679v10 .750 -.045 .521v9 .744 .015 .570v7 .716 .077 .591v5 -.077 .810 .579v4 -.022 .753 .545v2 .022 .706 .519v1 .103 .666 .544v3 .107 .595 .450

因子寄与 4.210 3.995

適合度 乖離度 = 0.110 CFI = 1.000

χ 2値 = 21.279 RMSEA = .000

DF = 26 AIC = 59.884p = .727 BIC = 122.552

Page 10: エクセルで統計分析4 因子分析のやり方

因子分析のオプション

Page 11: エクセルで統計分析4 因子分析のやり方

スクリープロット

• 「スクリープロット」ボタンを押す– 「分析実行」ではない

• 因子の固有値の推移をプロット– 因子数の推定に役立つ

• その他、因子数決定に役立つ指標– MAP:最小の因子数を提案– 平行分析:誤差以上の因子数を提案– SMC平行分析:最大の因子数を提案

• MAPとSMC平行分析の間が真の因子数である可能性が高い• それぞれ黄色になっているところが提案ポイント

Page 12: エクセルで統計分析4 因子分析のやり方

スクリープロットの出力

• SMC平行分析の例

Page 13: エクセルで統計分析4 因子分析のやり方

スクリープロットのオプション

Page 14: エクセルで統計分析4 因子分析のやり方

共分散行列データの利用

• 共分散行列データを保存する– 因子分析や回帰分析はローデータではなく共分

散行列から分析が可能

– あらかじめ共分散行列を作成して保存しておけば、因子分析の計算が早くなる• 特にサンプルサイズが大きいときに有効

• 共分散行列データを外部から読み込む

– データがそもそも相関行列や共分散行列の場合でも読み込んで分析することができる

Page 15: エクセルで統計分析4 因子分析のやり方

共分散行列の保存

• 「データセット」ボタンを押す– 右のようなGUIが立ち上がる

– ローデータ• デフォルトはこれ

– 共分散データ• 内部に共分散行列を保存

– ポリコリック相関• 内部にポリコリック相関を保存

– シートを指定• 外部の共分散行列を読み込む

Page 16: エクセルで統計分析4 因子分析のやり方

共分散データモード

• 共分散行列を保存・取り込むと

– 以下のようなスペースが表示される

– チェックを付けた変数を分析に用いる

Page 17: エクセルで統計分析4 因子分析のやり方

プロクラステス回転

• 仮説に最も近くなるように回転する方法

– 共分散データモードの場合のみ選択可能

– 下のように、仮説的な因子負荷量を入力する画面が表示される

Page 18: エクセルで統計分析4 因子分析のやり方

因子負荷量の仮説を入力

• 因子負荷量なので-1~1の範囲になるよう注意

• また、2乗和が1以下になるよう注意

• 負荷する因子だけがわかってる場合は下のように負荷する因子のところに1とだけ入力してもよい

Page 19: エクセルで統計分析4 因子分析のやり方

共分散データ利用の注意点

• 交互作用項は検討できません– 回帰分析にも共分散データは利用できますが、交互

作用は検討できません。

• 分散分析など多くの分析法は利用できません– 主にカテゴリカル変数を使うものはすべて無理です。

• Macでは利用できません– 申し訳ないですが、現状そうなっています。– 余裕があれば改善します。

Page 20: エクセルで統計分析4 因子分析のやり方

クラスタ分析

Page 21: エクセルで統計分析4 因子分析のやり方

「クラスタ分析」を選択

• クラスタ分析のモデリングスペース

Page 22: エクセルで統計分析4 因子分析のやり方

モデルの指定

• クラスタ数の指定– 階層クラスタの場合は、指定しないこともできる

• その場合、クラスタごとの特徴は出力されない

• 分類対象– 回答者:サブジェクトを変数を使って分類する– 変数:変数を、サブジェクトを使って分類する

• 距離行列– ローデータ:そのままの得点から距離行列を計算– 標準化:データを標準化してから計算

Page 23: エクセルで統計分析4 因子分析のやり方

推定法の選択

• 「オプション」ボタンを押す– 階層的クラスタと非階層的クラスタの2種類

• 階層的クラスタ・・・クラスタのネスト関係を仮定– ウォード法:最も妥当な解を出すといわれている– 群平均法:ユークリッド距離を仮定しない方法 そこそこ良い– 最長距離法:ユークリッド距離を仮定しない方法 まぁまぁ

• 階層クラスタはサンプルサイズが大きいと計算時間がかかるので注意

• 非階層クラスタ・・・階層クラスタにくらべてかなり計算が早い– K-means法:クラスタの階層関係を仮定しない 計算が早い– マハラノビス距離によるk-means法:より精度がよくなるが、計算

にやや時間がかかる

Page 24: エクセルで統計分析4 因子分析のやり方

出力の設定

• 所属クラスタ– 回答者の分類でクラスタ数を指定した場合、回答者の所属クラ

スタを出力する

• クラスタ平均値– 変数の分類でクラスタ数を指定した場合、各クラスタの平均値

を出力する

• デンドログラム– 階層クラスタの場合、樹形図を出力

• クラスタの特徴– クラスタ数を指定した場合、そのクラスタの特徴を変数の標準

化得点で表示する

Page 25: エクセルで統計分析4 因子分析のやり方

出力例

• デンドログラムCL1

CL2

CL3

CL4

CL5

CL6

CL7

CL8

CL9

CL10

CL11

CL12

CL13

CL14

CL15

CL16

CL17

CL18

CL19

CL20

CL21

CL22

CL23

CL24

CL25

Page 26: エクセルで統計分析4 因子分析のやり方

デンドログラム描写の設定

• デンドログラムの表示法– デンドログラムを表示する際、クラスタ間の距離をど

のように計算するかを設定できます。

– 距離の1乗がデフォルトで、10乗まで変えられます。乗数をあげると、上位のクラスタがより際立って表示されるようになります。

• デンドログラムの要約基準– 回答者を分類するとき、全員をデンドログラムに表示

すると非常に大きな図になってしまいます。– そこで、HADでは上位のクラスタのみを表示するのを

デフォルトにしています。– 上位何クラスタまで表示するかを設定できます。

Page 27: エクセルで統計分析4 因子分析のやり方

多次元尺度法

• 距離行列をもとに変数を2次元に表示– 尺度の一次元性などを確認できる

Page 28: エクセルで統計分析4 因子分析のやり方

クラスタ分析のオプション

Page 29: エクセルで統計分析4 因子分析のやり方

数量化分析(等質性分析)

Page 30: エクセルで統計分析4 因子分析のやり方

「数量化分析」を選択

• 対応分析のモデリングスペース

Page 31: エクセルで統計分析4 因子分析のやり方

モデルの指定

• 次元数の指定・・・何次元まで抽出するか– バリマックス回転を行う

• 次元軸を単純構造に回転する

• データ・・・入力データのタイプを選択– 変数型・・・1,2,3といったカテゴリごとに数値が割り当てられ

ているタイプ– カテゴリ反応型・・・カテゴリごとに0・1でコードされたダミー変数

が設定されているタイプ– クロス表型・・・2変数がクロス表で得られるタイプ

• 重み– 次元の固有値で重みづけるかどうかを選択

Page 32: エクセルで統計分析4 因子分析のやり方

出力の指定

• 得点– 回答者のスコア・・・回答者ごとに次元得点を出力

– カテゴリ反応型データ・・・変数型をカテゴリ反応型に変換して出力

• 変数をプロット– 変数をカテゴリごとに2次元にプロットする

• 回答者をプロット– 回答者を2次元にプロットする

Page 33: エクセルで統計分析4 因子分析のやり方

クロス表からの分析結果

Page 34: エクセルで統計分析4 因子分析のやり方

数量化分析のオプション