第36 回「センサ・マイクロマシンと応用システム ...第36 回「センサ・マイクロマシンと応用システム」シンポジウム 開催報告書V2 3 講演「超高齢社会
[Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
-
Upload
yohei-sato -
Category
Documents
-
view
2.995 -
download
1
Transcript of [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析
Rによるデータサイエンス第Ⅱ部 第3章 対応分析
@yokkuns : 里 洋平第8回R勉強会@東京(Tokyo.R#08)
2010/08/28
AGENDA
自己紹介 対応分析とは 主成分分析 データの尺度 質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に
AGENDA
自己紹介 対応分析とは 主成分分析 データの尺度 質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に
自己紹介
id : yokkuns 名前 : 里 洋平
所属 : tkul、Tokyo.R、数式ニヤニヤ勉強会
確率統計とかデータマイニング、機械学習など勉強中です。
プログラミング言語は、C/C++/Perl/Ruby/PHP/R/JS/Javaとかやってます。
最近、Androidアプリにも手を出し始めました
AGENDA
自己紹介 対応分析とは 主成分分析 データの尺度 質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に
対応分析とは
クロス表の行と列の関連を見える形にするための方法
質的データの主成分分析
ピアソンのカイ二乗統計量と密接な関係がある
対応分析の例 – データ
856814034898dark
2641290984343medium
4188584116688light
311024138326blue
blackdarkmediumredfair
caithデータ イギリスに住んでる人々の目の色と髪の色に関して
5387人を対象として行った結果
対応分析の例 – バイプロット
目の色がdarkの人は髪がbalckの人が多く、髪の色がfairの人は目の色がblueかlightの人が多いことが分かる
目の色髪の色
AGENDA
自己紹介 対応分析とは 主成分分析 データの尺度質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に
主成分分析
多変量データの次元圧縮を行う手法
変数間の相関を排除し出来るだけ少ない情報の損失で、少ない合成変数に縮約 情報 = 分散
散布図において、分散が最大になる軸を求め、その軸にデータを射影
主成分の求め方
固有値問題
分散共分散行列
固有値 = 主成分上での分散
固有ベクトル = 主成分
対象データの分散共分散行列の固有値問題に帰着
AGENDA
自己紹介 対応分析とは 主成分分析 データの尺度 質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に
データの尺度
質的データ 記号とか文字列で表すデータ
量的データ 数値で表すデータ
重さ、長さ、容量掛け算、割り算差と比に意味がある比例
気温足し算、引き算順序と数値の差に意味がある間隔
量的
成績区分大小の比較付与された数値に順序関係がつく順序
都道府県コード違いの比較名義的に付与した数値名義
質的
例可能な演算説明尺度変数
AGENDA
自己紹介 対応分析とは 主成分分析 データの尺度 質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に
質的データの比較
対応分析は、クロス集計したデータが分析対象
クロス表は、量的データの散布図に相当するもの
856814034898dark
2641290984343medium
4188584116688light
311024138326blue
blackdarkmediumredfair
質的データの比較
対応分析は、クロス集計したデータが分析対象
クロス表は、量的データの散布図に相当するもの
このクロス表の値に対して以下の事が可能か?
• 平均や標準偏差を求める• 主成分分析などの、原則「量的データを対象とした手法の適用
856814034898dark
2641290984343medium
4188584116688light
311024138326blue
blackdarkmediumredfair
質的データは比率で比較する
各行及び列は異なる反応数を持つため各セルの実際の度数を比較できない
質的データは比率で比較する
各行及び列は異なる反応数を持つため各セルの実際の度数を比較できない
質的データは比率で比較する
データ全体数に対する比率で比較する
各行及び列は異なる反応数を持つため各セルの実際の度数を比較できない
AGENDA
自己紹介 対応分析とは 主成分分析 データの尺度 質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に
独立性の検定
帰無仮説H : 2変数は独立である検定統計量 : ピアソンのカイ二乗検定量
独立性の検定の考え方 – i行が出現する確率
i行が出現する確率
独立性の検定の考え方 – j列が出現する確率
j列が出現する確率
独立性の検定の考え方 – i行j列が出現する確率
独立の場合に、i行j列が出現する確率
独立性の検定の考え方 – 理論値との剥離
確率分布が自由度1のカイ二乗分布に従う
各セルのカイ二乗検定量
確率分布は自由度n-2のカイ二乗分布に従う
カイ二乗検定量の合計
AGENDA
自己紹介 対応分析とは 主成分分析 データの尺度 質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に
ピアソンのカイ二乗統計量と対応分析
カイ二乗統計量は、一種の距離であるが、独立性の検定では、「2項目の間に何か関係があるだろう」しか分からないどんな関係があるのかが知りたい
ピアソンのカイ二乗統計量と対応分析
カイ二乗統計量は、一種の距離であるが、独立性の検定では、「2項目の間に何か関係があるだろう」しか分からないどんな関係があるのかが知りたい
ピアソンのカイ二乗統計量と対応分析
カイ二乗統計量は、一種の距離であるが、独立性の検定では、「2項目の間に何か関係があるだろう」しか分からないどんな関係があるのかが知りたい
ベンゼリクは、2項目の関連性を主成分分析型手法とすることで固有値(=相関の情報)の大きさで測ることを可能にした。
固有値とピアソンのカイ二乗統計量が次のように関連付けた
AGENDA
自己紹介 対応分析とは 主成分分析 データの尺度 質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に
対応分析の考え方
対応分析の考え方
行方向の基準化(プロフィル)
対応分析の考え方
行方向の基準化(プロフィル)
変換
対応分析の考え方
行方向の基準化(プロフィル)
変換
多次元空間へ布置
対応分析の考え方
行方向の基準化(プロフィル)
変換
多次元空間へ布置
次元縮約
対応分析の考え方
行方向の基準化(プロフィル)
変換
多次元空間へ布置
次元縮約
列方向の基準化(プロフィル)
変換
多次元空間へ布置
次元縮約
対応分析の考え方
行方向の基準化(プロフィル)
変換
多次元空間へ布置
次元縮約
列方向の基準化(プロフィル)
変換
多次元空間へ布置
次元縮約
同時布置
クロス集計表の相対度数
個体の周辺確率 : xの周辺確率 : 個体とxの同時確率 :
行方向の基準化(行プロフィル)
各行の相対度数を各行和で割った条件付確率
プロフィルを多次元空間に布置
1
1
1
c=3の場合、三次元空間
プロフィルを多次元空間に布置
1
1
1
c=3の場合、三次元空間
行方向に基準化されているため
という平面上に全ての点が乗る
プロフィルを多次元空間に布置
1
1
1
c=3の場合、三次元空間
行方向に基準化されているため
という平面上に全ての点が乗る多次元空間から相関構造を把握するのは困難なため次元圧縮を行う
多次元空間で次元圧縮
多次元空間で次元圧縮したい(主成分分析がしたい)
多次元空間で次元圧縮
多次元空間で次元圧縮したい(主成分分析がしたい)
多次元空間で次元圧縮
多次元空間で次元圧縮したい(主成分分析がしたい)
分散共分散行列が欲しい
多次元空間で次元圧縮
多次元空間で次元圧縮したい(主成分分析がしたい)
分散共分散行列が欲しい
多次元空間で次元圧縮
多次元空間で次元圧縮したい(主成分分析がしたい)
分散共分散行列が欲しい
カテゴリ間の距離を定義(カイ二乗距離)
多次元空間で次元圧縮
多次元空間で次元圧縮したい(主成分分析がしたい)
分散共分散行列が欲しい
カテゴリ間の距離を定義(カイ二乗距離)
多次元空間で次元圧縮
多次元空間で次元圧縮したい(主成分分析がしたい)
分散共分散行列が欲しい
カテゴリ間の距離を定義(カイ二乗距離)
分散共分散行列を作ったときに、カテゴリ間の距離がカイ二乗距離になるような変換
多次元空間で次元圧縮
ここで
Xに対して分散共分散行列を作成それに対して主成分分析を行う
固有値問題
分散共分散行列
固有値 = 主成分上での分散
固有ベクトル = 主成分
多次元空間で次元圧縮
数量化得点 ・・・主成分分析における主成分得点
多次元空間で次元圧縮
Xを転置して同じような計算すれば、項目xの数量化得点が計算できる
布置図と同時布置図
AGENDA
自己紹介 対応分析とは 主成分分析 データの尺度 質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に
Rによる演習 – 関数
パッケージMASS
対応分析法 : corresp(data, nf=n) data : データオブジェクト
nf : 求める主成分数
多重対応分析法 : mca(df, nf = 2, abbrev = FALSE) df : データフレーム
nf : 求める主成分数 abbrev : データラベルのレベル
Rによる演習 – データ
856814034898dark
2641290984343medium
4188584116688light
311024138326blue
blackdarkmediumredfair
caithデータ イギリスに住んでる人々の目の色と髪の色に関して
5387人を対象として行った結果
Rによる演習 – Rのソースコード
min(行数, 列数)
Rによる演習 – 数量化得点
Rによる演習 - biplot
まとめ
対応分析とは 質的データの主成分分析
Rで使うには MASSパッケージのcorresp関数
AGENDA
自己紹介 対応分析とは 主成分分析 データの尺度 質的データの比較 独立性の検定(ピアソンのカイ二乗検定) ピアソンのカイ二乗統計量と対応分析 対応分析の考え方 Rによる演習 最後に
第9回R勉強会@東京(Tokyo.R#09)発表者募集中!
参考文献
Rによるデータサイエンス - データ解析の基礎から最新手法まで
多次元データ解析法 (Rで学ぶデータサイエンス 2)
カテゴリカルデータ解析 (Rで学ぶデータサイエンス 1)
対応分析法・数量化法III 類の考え方対応分析によるデータ解析 [ 480.54KB ] - 対応分析によるデータ解析*
ご清聴ありがとうございました