[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

64
Rによるデータサイエンス 第Ⅱ部 第3章 対応分析 @yokkuns : 里 洋平 第8回R勉強会@東京(Tokyo.R#08) 2010/08/28

Transcript of [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

Page 1: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

Rによるデータサイエンス第Ⅱ部 第3章 対応分析

@yokkuns : 里 洋平第8回R勉強会@東京(Tokyo.R#08)

2010/08/28

Page 2: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

AGENDA

自己紹介 対応分析とは 主成分分析 データの尺度 質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に

Page 3: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

AGENDA

自己紹介 対応分析とは 主成分分析 データの尺度 質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に

Page 4: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

自己紹介

id : yokkuns 名前 : 里 洋平

所属 : tkul、Tokyo.R、数式ニヤニヤ勉強会

確率統計とかデータマイニング、機械学習など勉強中です。

プログラミング言語は、C/C++/Perl/Ruby/PHP/R/JS/Javaとかやってます。

最近、Androidアプリにも手を出し始めました

Page 5: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

AGENDA

自己紹介 対応分析とは 主成分分析 データの尺度 質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に

Page 6: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

対応分析とは

クロス表の行と列の関連を見える形にするための方法

質的データの主成分分析

ピアソンのカイ二乗統計量と密接な関係がある

Page 7: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

対応分析の例 – データ

856814034898dark

2641290984343medium

4188584116688light

311024138326blue

blackdarkmediumredfair

caithデータ イギリスに住んでる人々の目の色と髪の色に関して

5387人を対象として行った結果

Page 8: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

対応分析の例 – バイプロット

目の色がdarkの人は髪がbalckの人が多く、髪の色がfairの人は目の色がblueかlightの人が多いことが分かる

目の色髪の色

Page 9: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

AGENDA

自己紹介 対応分析とは 主成分分析 データの尺度質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に

Page 10: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

主成分分析

多変量データの次元圧縮を行う手法

変数間の相関を排除し出来るだけ少ない情報の損失で、少ない合成変数に縮約 情報 = 分散

散布図において、分散が最大になる軸を求め、その軸にデータを射影

Page 11: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

主成分の求め方

固有値問題

分散共分散行列

固有値 = 主成分上での分散

固有ベクトル = 主成分

対象データの分散共分散行列の固有値問題に帰着

Page 12: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

AGENDA

自己紹介 対応分析とは 主成分分析 データの尺度 質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に

Page 13: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

データの尺度

質的データ 記号とか文字列で表すデータ

量的データ 数値で表すデータ

重さ、長さ、容量掛け算、割り算差と比に意味がある比例

気温足し算、引き算順序と数値の差に意味がある間隔

量的

成績区分大小の比較付与された数値に順序関係がつく順序

都道府県コード違いの比較名義的に付与した数値名義

質的

例可能な演算説明尺度変数

Page 14: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

AGENDA

自己紹介 対応分析とは 主成分分析 データの尺度 質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に

Page 15: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

質的データの比較

対応分析は、クロス集計したデータが分析対象

クロス表は、量的データの散布図に相当するもの

856814034898dark

2641290984343medium

4188584116688light

311024138326blue

blackdarkmediumredfair

Page 16: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

質的データの比較

対応分析は、クロス集計したデータが分析対象

クロス表は、量的データの散布図に相当するもの

このクロス表の値に対して以下の事が可能か?

• 平均や標準偏差を求める• 主成分分析などの、原則「量的データを対象とした手法の適用

856814034898dark

2641290984343medium

4188584116688light

311024138326blue

blackdarkmediumredfair

Page 17: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

質的データは比率で比較する

各行及び列は異なる反応数を持つため各セルの実際の度数を比較できない

Page 18: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

質的データは比率で比較する

各行及び列は異なる反応数を持つため各セルの実際の度数を比較できない

Page 19: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

質的データは比率で比較する

データ全体数に対する比率で比較する

各行及び列は異なる反応数を持つため各セルの実際の度数を比較できない

Page 20: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

AGENDA

自己紹介 対応分析とは 主成分分析 データの尺度 質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に

Page 21: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

独立性の検定

帰無仮説H : 2変数は独立である検定統計量 : ピアソンのカイ二乗検定量

Page 22: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

独立性の検定の考え方 – i行が出現する確率

i行が出現する確率

Page 23: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

独立性の検定の考え方 – j列が出現する確率

j列が出現する確率

Page 24: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

独立性の検定の考え方 – i行j列が出現する確率

独立の場合に、i行j列が出現する確率

Page 25: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

独立性の検定の考え方 – 理論値との剥離

確率分布が自由度1のカイ二乗分布に従う

各セルのカイ二乗検定量

確率分布は自由度n-2のカイ二乗分布に従う

カイ二乗検定量の合計

Page 26: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

AGENDA

自己紹介 対応分析とは 主成分分析 データの尺度 質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に

Page 27: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

ピアソンのカイ二乗統計量と対応分析

カイ二乗統計量は、一種の距離であるが、独立性の検定では、「2項目の間に何か関係があるだろう」しか分からないどんな関係があるのかが知りたい

Page 28: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

ピアソンのカイ二乗統計量と対応分析

カイ二乗統計量は、一種の距離であるが、独立性の検定では、「2項目の間に何か関係があるだろう」しか分からないどんな関係があるのかが知りたい

Page 29: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

ピアソンのカイ二乗統計量と対応分析

カイ二乗統計量は、一種の距離であるが、独立性の検定では、「2項目の間に何か関係があるだろう」しか分からないどんな関係があるのかが知りたい

ベンゼリクは、2項目の関連性を主成分分析型手法とすることで固有値(=相関の情報)の大きさで測ることを可能にした。

固有値とピアソンのカイ二乗統計量が次のように関連付けた

Page 30: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

AGENDA

自己紹介 対応分析とは 主成分分析 データの尺度 質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に

Page 31: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

対応分析の考え方

Page 32: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

対応分析の考え方

行方向の基準化(プロフィル)

Page 33: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

対応分析の考え方

行方向の基準化(プロフィル)

変換

Page 34: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

対応分析の考え方

行方向の基準化(プロフィル)

変換

多次元空間へ布置

Page 35: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

対応分析の考え方

行方向の基準化(プロフィル)

変換

多次元空間へ布置

次元縮約

Page 36: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

対応分析の考え方

行方向の基準化(プロフィル)

変換

多次元空間へ布置

次元縮約

列方向の基準化(プロフィル)

変換

多次元空間へ布置

次元縮約

Page 37: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

対応分析の考え方

行方向の基準化(プロフィル)

変換

多次元空間へ布置

次元縮約

列方向の基準化(プロフィル)

変換

多次元空間へ布置

次元縮約

同時布置

Page 38: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

クロス集計表の相対度数

個体の周辺確率 : xの周辺確率 : 個体とxの同時確率 :

Page 39: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

行方向の基準化(行プロフィル)

各行の相対度数を各行和で割った条件付確率

Page 40: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

プロフィルを多次元空間に布置

1

1

1

c=3の場合、三次元空間

Page 41: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

プロフィルを多次元空間に布置

1

1

1

c=3の場合、三次元空間

行方向に基準化されているため

という平面上に全ての点が乗る

Page 42: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

プロフィルを多次元空間に布置

1

1

1

c=3の場合、三次元空間

行方向に基準化されているため

という平面上に全ての点が乗る多次元空間から相関構造を把握するのは困難なため次元圧縮を行う

Page 43: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

多次元空間で次元圧縮

多次元空間で次元圧縮したい(主成分分析がしたい)

Page 44: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

多次元空間で次元圧縮

多次元空間で次元圧縮したい(主成分分析がしたい)

Page 45: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

多次元空間で次元圧縮

多次元空間で次元圧縮したい(主成分分析がしたい)

分散共分散行列が欲しい

Page 46: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

多次元空間で次元圧縮

多次元空間で次元圧縮したい(主成分分析がしたい)

分散共分散行列が欲しい

Page 47: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

多次元空間で次元圧縮

多次元空間で次元圧縮したい(主成分分析がしたい)

分散共分散行列が欲しい

カテゴリ間の距離を定義(カイ二乗距離)

Page 48: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

多次元空間で次元圧縮

多次元空間で次元圧縮したい(主成分分析がしたい)

分散共分散行列が欲しい

カテゴリ間の距離を定義(カイ二乗距離)

Page 49: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

多次元空間で次元圧縮

多次元空間で次元圧縮したい(主成分分析がしたい)

分散共分散行列が欲しい

カテゴリ間の距離を定義(カイ二乗距離)

分散共分散行列を作ったときに、カテゴリ間の距離がカイ二乗距離になるような変換

Page 50: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

多次元空間で次元圧縮

ここで

Xに対して分散共分散行列を作成それに対して主成分分析を行う

固有値問題

分散共分散行列

固有値 = 主成分上での分散

固有ベクトル = 主成分

Page 51: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

多次元空間で次元圧縮

数量化得点 ・・・主成分分析における主成分得点

Page 52: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

多次元空間で次元圧縮

Xを転置して同じような計算すれば、項目xの数量化得点が計算できる

Page 53: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

布置図と同時布置図

Page 54: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

AGENDA

自己紹介 対応分析とは 主成分分析 データの尺度 質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に

Page 55: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

Rによる演習 – 関数

パッケージMASS

対応分析法 : corresp(data, nf=n) data : データオブジェクト

nf : 求める主成分数

多重対応分析法 : mca(df, nf = 2, abbrev = FALSE) df : データフレーム

nf : 求める主成分数 abbrev : データラベルのレベル

Page 56: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

Rによる演習 – データ

856814034898dark

2641290984343medium

4188584116688light

311024138326blue

blackdarkmediumredfair

caithデータ イギリスに住んでる人々の目の色と髪の色に関して

5387人を対象として行った結果

Page 57: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

Rによる演習 – Rのソースコード

min(行数, 列数)

Page 58: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

Rによる演習 – 数量化得点

Page 59: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

Rによる演習 - biplot

Page 60: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

まとめ

対応分析とは 質的データの主成分分析

Rで使うには MASSパッケージのcorresp関数

Page 61: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

AGENDA

自己紹介 対応分析とは 主成分分析 データの尺度 質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に

Page 62: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

第9回R勉強会@東京(Tokyo.R#09)発表者募集中!

Page 64: [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析

ご清聴ありがとうございました