JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群...

118
2008年9月26UH UH(University of Hyogo) Masahiro Arima 1 兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室 2008年度兵庫県立大学公開講座 アンケート調査とデータ解析 JMPによる多変量解析入門 兵庫県立大学 大学院応用情報科学研究科 教授 有馬昌宏

Transcript of JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群...

Page 1: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 1

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

2008年度兵庫県立大学公開講座

アンケート調査とデータ解析

JMPによる多変量解析入門

兵庫県立大学

大学院応用情報科学研究科

教授 有馬昌宏

Page 2: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 2

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

多変量解析とは?

①複数の対象(企業、自治体、人間、製品など)に対して

→ ケース(case)、オブザベーション(observation)、サンプル(sample)

②それらの持つ特性(属性)を測定・観測・調査・記録することによって収集された、

→ 変量(variate)、変数(variable)

③3つ以上の属性に関するデータの集まり(データセット、データベース、データ

ウェアハウス)を対象に、 → 多変量(multivariate)

④仮説に基づく検証や探索的にデータの持つ特徴を捉えていこうとするプロセスを

通じて、 →仮説(hypothesis) 探索的(exploratory)

⑤問題解決のために有益な情報を引き出そうとする活動を支援するための

⑥統計的手法群

重回帰分析 判別分析 主成分分析 生準相関分析 クラスター分析

数量化理論第Ⅰ類 数量化理論第Ⅱ類 数量化理論第3類

因子分析 潜在構造分析 分散分析 共分散分析 ロジスティック回帰 など

Page 3: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 3

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

情報とは• 自然科学分野での最広義の定義

物質=エネルギーの時間的・空間的な、そして定性的・定量的な「パターン」人間は、自ら情報を生成するとともに、五感を通じて外界からの情報を認識する。

• N.Wienerの情報概念「我々が外界に適用しようと行動し、またその調整行動の結果を外界から感知する際に、我々が外界と交換するものの内容」 Wiener はCyberneticsの理論の創始者

• C.E.Shannonの情報概念不確実性の量を減らす働きをするもの

不確実性:今、あるシステムにおいて、起こり得る状態として、Z1,Z2,・・・,Znが考えられるが、このうちのどれが実際に起こるかが完全には分からないとき、このシステムは「一定量の不確実性を持っている」という。 Shannonは通信理論の確立者

• A.M.McDonoughによる情報概念データ:特定の状況において、それらの持つ価値が評価されていないメッセージ情 報:特定の状況における評価されたデータに対する表示知 識:情報の概念のより一般的な表現で、知っていることによって役立つ事柄の全般的貯蔵

あるいは蓄積

• J.Marschakによる情報概念不確実性下の意思決定に直面している人間にとって最大期待効用を増大させるもの

Page 4: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 4

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

多変量解析と多変数解析

• 多変量解析( multivariate analysis )「多変量データ解析」,「多次元データ解析」などの呼称

統計学,確率論,線形代数などと関連する分野

データ解析では変数と変量の区別は曖昧

複数の変数に関する測定データ(多変量データ行列または変動行列)を分析

目的は次元縮小・予測・分類・判別など

• 多変数解析 ( analysis of several variables )関数解析(複素関数論など)の分野の呼称

(出典:鈴木督久氏ウェブサイト http://www.littera.waseda.ac.jp/faculty/stok/)

Page 5: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 5

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

データの収集

能動的 検証的 高価 少量

1.実験データ

2.調査データ

3.実績データ

受動的 探索的 安価 大量

実験データ:農業試験,新薬開発(実験計画・小標本)

調査データ:世論調査,社会調査(標本計画・大標本)

実績データ:景気指標,レジ記録(実績蓄積・大規模)

(出典:鈴木督久氏ウェブサイト http://www.littera.waseda.ac.jp/faculty/stok/)

Page 6: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 6

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

データのタイプ

• 量的変数(定量データ) quantitative

連続変数(実数)continuous

離散変数(整数)discrete

• 質的変数(定性データ) qualitative

分類変数 classification

– カテゴリカルデータcategorical)

二値変数 binary, dichotomous

– ダミー変数(論理値)0-1型変数

(出典:鈴木督久氏ウェブサイト http://www.littera.waseda.ac.jp/faculty/stok/)

• 数字で表わされるデータが定量的データか?

Page 7: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 7

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

データのタイプ

• 比率尺度(比例) ratio → C絶対温度・身長・体重・金額(量的・計量)属性の強さと変数値が比例関係.0は属性量が「無」を意味.絶対原点をもつ.単位変換(定数の乗算)y = axが許される。

• 間隔尺度(距離) interval → C摂氏,華氏・知能・暦年(量的・計量)属性の強さの差=変数値差.原点に「無」の意味なし.単位と原点の変換(一次変換y = ax +b)が許される。 (華氏=1.8×摂氏+32)

• 順序尺度(序数) ordinal → O等級・震度・鉱物の硬度(量的・非計量)単調関係.任意の単調変換が許される(大小関係は保存される)。

• 名義尺度(分類) nominal → N都道府県・背番号・銘柄・性別(質的・非計量)対象の質的な差異を示す。

(出典:鈴木督久氏ウェブサイト http://www.littera.waseda.ac.jp/faculty/stok/)

Page 8: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 8

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

JMPとは?

• 1989年にSAS社上席副社長のJ.P.Sallによって開発された統計

解析パッケージ。

• GUI(Graphical User Interface)を最大限に活用し、J.W.Tukeyの提唱した探索的データ解析(EDA:Exploratory Data Analysis)を

サポートできるソフト

• Excelによる多変量解析も可能であるが、9,800円のソフト(廉価版のJMP IN 5)でここまで出来るということを見てしまうと、使わ

ざるを得ない。

• 機能的にはSAS(Statistical Analysis System)に及ばないが、かなりの基本的手法はカバーしており、操作性ではSASを凌駕。

http://www.jmp.com/japan/product/jmp_high_education_product_comparison.shtmlhttp://www.jmp.com/japan/product/jmp_outline.shtmlhttp://www.sas.com/offices/asiapacific/japan/

Page 9: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 9

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

JMPがジャンプ?

優れたソフトウェア

JMP + U = JUMPあなた(You)

• JMPが優れたソフトウェアであっても、分析する者がいなければ、単にそこにはCD-ROMが置いてあるだけ。

• 「優れたソフトウェアであるJMPに、あなた(you=U)が加わっ

てJMPと対話しながらデータを解析したとき、そのときはじめて、JMPとあなたが一緒になってデータからJumpできる」という思いを込めて命名されたとされる。

• 当初の名前は、John‘s Macintosh Product

Page 10: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 10

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

JMPでのデータ解析

• 使用するデータ(圓川隆夫、『多変量のデータ解析』、朝倉書店、1988年より)

バッチ番号 y:収率(%) x1:圧力(気圧) x2:温度(℃)

1 30.4 14.5 87.6

2 26.5 17.1 89.3

3 29.2 16.5 92.3

4 29.5 15.5 89.2

5 25.9 16.6 87.0

6 29.6 18.8 91.6

7 26.2 19.1 90.0

8 28.1 17.5 91.5

9 31.1 14.6 89.7

10 26.9 16.1 90.5

仮説:ある化学製品の収率は反応過程の圧力と温度で決まるようだ。

Page 11: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 11

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

エクセルデータの読み込みと尺度の変更

ここをクリックして列情報で各種の設定

Page 12: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 12

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

一変量の分布

Page 13: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 13

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

一変量の分布のオプション(1)

• スケールを統一しておくと、分布の比較が容易になる。

• 列の積み重ねで出力の並べ方を変更できる。

• スクリプトをスクリプトウィンドウに保存し、スクリプトに名前をつけて保存しておくと、実施した分析結果を後で再実行させることができる。

Page 14: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 14

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

一変量の分布のオプション(2)

Page 15: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 15

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

箱ひげ図の見方

外れ値の箱ひげ図

分位点の

箱ひげ図

標本平均と95%信頼区間

Page 16: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 16

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

ヒストグラムの書式設定

ここをダブルクリック

軸の指定ダイアログボックス

Page 17: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 17

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

モーメントの解釈

• 分散(不偏分散):偏差平方和をN-1で割った値。標準偏差はこの平方根。

• 歪度:0で左右対称、正で右に、負で左に裾が伸びている。

• 尖度:0で正規分布型、正で尖り、負で平坦になっている。

• 変動係数:標準偏差を平均で割り、100を掛けて算出。

平均のひし形

Page 18: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 18

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

変数間の関係を調べる

• 複数のバーを強調表示するには、Shftキーを押しながら矢印ツールでクリック。

• 強調を解除するには、Ctrlキーを押しながら矢印ツールでクリック。

Page 19: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 19

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

スクリプトの保存

Page 20: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 20

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

多変量の相関

計算されるのはPearsonの積率相関

散布図行列

図中で手のひらツールを動かしてみると?

Page 21: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 21

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

多変量の相関のオプション

用語や操作が理解できなければ、ヘルプツールを利用する。

偏相関係数:2変数の間の相関を、他のすべての変数で調整して算出したもの。

Page 22: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 22

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

外れ値分析と投げ縄ツール

• 投げ縄ツールで外れ値をドラッグして囲い込み、点を強調表示できる。複数の範囲を強調表示する場合は、Shiftキーを押しながら投げ縄ツールを使う。強調表示を解除するには、点のない所を投げ縄ツールで囲う。

• ラベルにする列は、データテーブルウィンドウで、列のラベルあり/ラベルなしで設定。

Page 23: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 23

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

層別散布図を作成したい場合は

• By変数を指定することにより、層別散布図を作成できる

Page 24: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 24

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

2変量の関係

Page 25: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 25

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

JMPによる多変量解析の実際-市町村データから地域格差を知る-

指示に従って、

ヒストグラム作成

散布図作成

自治体規模別の指標平均値計算

回帰分析

平均値の差の検定

比率の差の検定

などを実行してみて下さい。

Page 26: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 26

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

回帰分析散布図に直線(の式)をあてはめる

26)

Page 27: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 27

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

y = b0 + b1 x + e

従属変数

独立変数

(偏)回帰係数

誤差変数

切片・定数項

直線の式(回帰直線,回帰式)

母数

27

(出典:鈴木督久氏ウェブサイト ttp://www.littera.waseda.ac.jp/faculty/stok/ スライド17まで)

Page 28: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 28

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

直線:y = b0 + b1 x 身長

体重

直線はb0とb1で決まる

どのように回帰式を選ぶか

Y=-46.4 + 0.06 x

28

Page 29: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 29

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

最小2乗法

• 残差平方和の最小化

• 符号の問題を解決する

• 2乗すると,大きい残差は,より大きく強調されるので,大きい残差を排除しようとする

• 代数的(数学的)に扱いやすい

29

Page 30: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 30

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

xbybss

SS

bxx

xy

xx

xy101 , −===

SSCP 体重 身長

体重 339.600身長 1832.400 30885.600

COV 体重 身長

体重 37.733身長 203.600 3431.733

weight height1 48 16152 65 17893 57 17184 67 17955 65 17176 58 16397 63 17008 65 16649 61 168610 53 1735

mean 60.2 1705.8var 37.7 3431.7 003.41

8.17050593.02.60

0593.07.34316.203

6.308854.1832

10

1

=×−=−=

===

xbyb

b

予測値 = 切片 + 0.0593 * 身長

残差 = 体重(実測値) ー 予測値

30

Page 31: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 31

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

単回帰分析

寄与率または決定係数

=回帰による変動/全変動

推定された回帰式

確率誤差の標準偏差の推定値

=誤差の平均平方の平方根

回帰式の優位性の検定

F検定とt検定

p値が0.05および0.01

より小さいかどうか?

t値は推定値の標準誤差に対する比率

Page 32: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 32

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

重回帰分析の手順

①データ入力

②変数の選択と散布図行列の表示

分析 → 多変量 → 多変量の相関

(Y,列に相関関係を見たい変数名を割り当てる)

(Byに変数を割り当てるとその変数で層別の散布図

行列が作成される。)

③散布図を動かしてみる(外れ値の有無や相関関係の確認)

ツール → 手のひらツール

Page 33: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 33

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

④変数の選択と重回帰分析の実行

分析 → モデルのあてはめ

1)被説明変数(従属変数)を「役割変数の選択」のYに割り

当てる。

2)説明変数(独立変数)を「モデル効果の構成」に追加で

指定する。

3)手法を「標準最小2乗」に設定して、「モデルの実行」を

クリックする。

⑤結果の解釈

1)自由度調整R2乗

2)分散分析のp値 (モデルのF検定)

3)パラメータ推定値のp値の列 (偏回帰係数のt検定)

Page 34: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 34

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

⑥残差の分析

1)応答Yのプルダウンメニューの「列の保存」 → スチュー

デント化された残差 を選択

2)データテーブルにスチューデント化された残差が記録され

るので、このスチューデント化された残差と各説明変数と

の間の無相関を散布図から確認する。

最小2乗法によるモデルのあてはめの前提

1)誤差項が各ケースで独立

2)誤差項は平均が0で分散は一定

3)誤差項は正規分布に従う

Page 35: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 35

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

95%信頼区間と平均線の表示

• 図示した95%信頼区間の曲線が平均線と交わっているかどうかで、5%有意水準での回帰式の有意性の検定を視覚的に行うことができる。

Page 36: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 36

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

残差分析• 残差分析(残差=観測値-予測値)

• 残差をプロットすることにより、

①外れ値や異常値のチェックおよびこれによる隠された要因の検討

②点の並び方のクセやトレンドから誤差の等分散性や系列相関、さらに非線形性のチェック

1)残差のヒストグラムから正規分布にしたがっているといえるか?

2)残差の+と-の符号の数は同数か?

3)残差の中央値はゼロに近いか?

4)残差と目的変数および説明変数との間の散布図から何らかの関係が見つからないか?

を検討する。

• ダービン・ワトソン比:時系列データの自己相関のチェックに。2を中心に0から4までの値を取る。

Page 37: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 37

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

回転プロット

Page 38: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 38

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

3次元表示で視覚的に確認

手のひらツールで回転させる。

Shift

Alt の各キーを押しながら

Ctrl

Page 39: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 39

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

モデルのあてはめ

目的変数

従属変数

被説明変数

決定変数

独立変数

説明変数

Page 40: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 40

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

あてはめ結果の解釈

①自由度調整R2乗(自由度調整済み決定係数)

②分散分析表によるF検定

(帰無仮説:回帰式は意味をもたない。

(切片を除く全ての回帰パラメータが0である。))

③偏回帰係数のt検定

(帰無仮説:真のパラメータはゼロである。)

④偏回帰係数の推定値の符号

Page 41: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 41

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

残差分析

• 効果の検定は、連続量の説明変数の場合にはt検定と同じ。

• 残差分析

製造条件をチェック。

他の要因はないか?

Page 42: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 42

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

残差と変数との関係

• スチューデント化された残差:i番目の残差について、i番目の残差を除いた他の残りの残差から計算された残差の標準偏差を用いて基準化した残差。外的にスチューデント化された残差とも言う。単に全残差の標準偏差で基準化された残差を標準化残差あるいは内的にスチューデント化された残差と言う。

Page 43: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 43

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

残差と各説明変数との間の関係

スチューデント化された残差と説明変数との間に何の関係も見られないことが望ましい。

Page 44: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 44

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

てこ比プロット

個々の偏回帰係数の有意性に関して、5%有意水準で視覚的に判定できる。

Page 45: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 45

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

標準偏回帰係数

• 目的変数と説明変数のそれぞれのデータを標準化してデータテーブルに保存。

• この標準化されたデータを用いて重回帰分析を行うと、得られる偏回帰係数は、ある説明変数が1標準偏差分だけ変化したとき、目的変数は何標準偏差分だけ変化するかを示すことになり、説明変数のスケール値やバラツキの大小には依存しないようにして、各説明変数の目的変数への影響度の比較を行うことができるようになる。

• このようにして得られる偏回帰係数を標準偏回帰係数と呼ぶ。

Page 46: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 46

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

標準偏回帰係数の推定

Page 47: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 47

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

重回帰分析演習(1)

バッチ番号 y:収率(%) x1:圧力(気圧) x2:温度(℃) x3:酸度(pH)

1 30.4 14.5 87.6 7.5

2 26.5 17.1 89.3 6.9

3 29.2 16.5 92.3 7.2

4 29.5 15.5 89.2 7.4

5 25.9 16.6 87.0 6.5

6 29.6 18.8 91.6 8.2

7 26.2 19.1 90.0 7.3

8 28.1 17.5 91.5 7.8

9 31.1 14.6 89.7 7.0

10 26.9 16.1 90.5 6.7

• 酸度の変数を追加して収率の変動を説明するモデルを構築せよ。

Page 48: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 48

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

相関分析

偏相関係数

他の変数の影響を取り除いた純粋な目的変数と1つの説明変数との間の相関の程度を表す尺度。目的変数と説明変数を残りの説明変数で回帰式にあてはめ、それぞれの残差から求められる相関係数のこと。

Page 49: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 49

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

結果の解釈

①自由度調整R2乗(自由度調整済み決定係数)

②分散分析表によるF検定

③偏回帰係数のt検定

④偏回帰係数の推定値の符号

Page 50: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 50

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

重相関分析演習(2)

バッチ番号

y:収率(%)x1:圧力(気

圧)x2:温度

(℃)x3:酸度(p

H)x4:粘度

1 30.4 14.5 87.6 7.5 6.2

2 26.5 17.1 89.3 6.9 5.5

3 29.2 16.5 92.3 7.2 5.7

4 29.5 15.5 89.2 7.4 6.1

5 25.9 16.6 87.0 6.5 5.0

6 29.6 18.8 91.6 8.2 5.9

7 26.2 19.1 90.0 7.3 5.0

8 28.1 17.5 91.5 7.8 5.7

9 31.1 14.6 89.7 7.0 6.4

10 26.9 16.1 90.5 6.7 5.2

• 粘度が追加された以下のデータを用いて収率を説明するモデルを作成せよ。

Page 51: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 51

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

相関分析と相関・偏相関係数

Page 52: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 52

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

結果の解釈

偏回帰係数のt検定結果と偏回帰係数の推定値はどのように変化しただろうか?

Page 53: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 53

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

偽相関

• 粘度を目的変数に、圧力と温度と酸度を説明変数に重回帰分析を行ってみよ。

• 同じ説明変数を用いた、収率を目的変数とした重回帰分析の結果と比較してみよ。

• 粘度は収率を説明する原因系の変数ではなく、収率と同様に圧力と温度と酸度で説明される結果系の変数ではないか。

• 収率と粘度との間の高い単相関は、互いに共通した説明要因に起因する偽相関である可能性が強いようだ。

Page 54: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 54

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

説明変数の選択• Principle of Parsimony(ケチの原則)

目的変数の予測という立場からは、説明変数の数が増えるほど寄与率は高くなるが、あまり寄与率は下げないで、なるべく少数の説明変数で、簡潔にモデルを記述したいという考え方。

• 有効な変数と不要な変数を選択して、最適な回帰式を求めるには?

• 変数選択の方法

①総当り法

②ステップワイズ法(逐次変数選択法)

1)変数増加法

2)変数減少法

3)変数増減法

4)変数減増法

③対話型変数選択法

Page 55: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 55

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

ステップワイズ法による変数選択

Page 56: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 56

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

説明変数の選択方法の選択

• 方向で選択方法を選択

• SSE:誤差平方和

• DFE:誤差の自由度

• MSE:平均平方誤差

• Cp:MallowのCp基準

• AIC:赤池の情報量基準

AIC=nln(SSE/n)

+2p

AICが最小であるモデルが最良のモデル。

• 経験的にF値が2以上であれば有効な変数、2未満であれば不要な変数とされている。

Page 57: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 57

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

ステップワイズ法の結果

Page 58: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 58

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

多重共線性

• 説明変数の中に互いに非常に相関の高い変数が含まれているときに起こる現象。

• 発生する問題

①偏回帰係数を求めるとき、大きな計算誤差を伴うか、あるいは計算不能

になってしまう。

②求められた偏回帰係数が、1つのオブザベーションの追加や、ちょっとし

た誤差によって、大きく変化してしまう。

③求められた偏回帰係数の符号が単相関係数の符号と合わない。

④寄与率(決定係数)は高いのに、個々の偏回帰係数は統計的に有意に

ならない。

• 対策

①互いに関係をもった説明変数の一部を除去する。

②多重共線性を弱めるようなデータを追加する。

Page 59: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 59

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

多重共線性の例

y x1 x2 x3

1 30 10 20 15

2 32 12 24 17

3 30 14 28 19

4 33 16 32 19

5 30 18 36 22

6 35 20 40 24

7 35 22 44 24

8 37 24 48 25

9 37 26 52 25

10 39 28 56 26

• 以下のデータを用いて重回帰分析を行ってみなさい。(内田他、『すぐわかるJMPによる多変量解析』、東京図書、2002年より)

Page 60: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 60

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

質的変数を含んだ重回帰分析

バッチ番号

y:収率(%)x1:圧力(気

圧)x2:温度(℃)

x3:酸度(pH)

x5:原料

1 30.4 14.5 87.6 7.5 A

2 26.5 17.1 89.3 6.9 B

3 29.2 16.5 92.3 7.2 B

4 29.5 15.5 89.2 7.4 A

5 25.9 16.6 87.0 6.5 B

6 29.6 18.8 91.6 8.2 A

7 26.2 19.1 90.0 7.3 B

8 28.1 17.5 91.5 7.8 B

9 31.1 14.6 89.7 7.0 A

10 26.9 16.1 90.5 6.7 B

• これまでのデータには、AとBの異なる原産地からの原料が含まれていることがわかった。原料の情報を新たな説明変数に加えて重回帰分析を試みよ。

Page 61: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 61

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

結果の解釈

• Marginal法

• 推定された回帰式は?

Page 62: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 62

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

0ー1型ダミー変数の導入

Page 63: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 63

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

結果の違いは?

• Partial法

• 推定された回帰式は?

Page 64: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 64

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

ダミー変数の作り方partial法 marginal法

x1 x2 x3 x1 x2 x3

A 1 0 0 1 0 0

B 0 1 0 0 1 0

O 0 0 1 0 0 1

AB 0 0 0 -1 -1 -1

順序尺度の場合のJMP

x1 x2 x3

1 0 0 0

2 1 0 0

3 1 1 0

4 1 1 1

Page 65: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 65

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

多項式回帰モデルと線形回帰モデルVTR生産台数

1970 50

1971 49

1972 114

1973 137

1974 124

1975 119

1976 288

1977 762

1978 1470

1979 2199

1980 4441

1981 9498

1982 13134

1983 18217

1984 28611

(×1000台)

• 左に示すのは、1970年から1984年までの国内VTR生産台数のデータである。

• この生産台数の推移をうまく当てはめるモデルを推定しなさい。

ヒント

①年の取り方に工夫されたい。

②グラフでプロットしてみて、データの特徴を読み取られたい。

③2次と3次の項を考えなさい。

Page 66: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 66

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

データ分析の例

店舗名 乗降客数 店の広さ 駐車台数 売上高

小田原 245 59 60 272

秦野 118 32 35 161

伊勢原 142 25 30 129

本厚木 249 55 45 252

海老名 174 49 40 204

藤沢 202 32 35 168

大和 254 54 45 242

相模大野 168 32 40 169

町田 224 42 50 224

新百合ヶ丘 186 45 45 202

成城学園前 212 56 50 259

経堂 145 32 30 165

下北沢 174 31 35 180

梅ヶ丘 82 38 30 131

代々木上原 177 34 40 215 出所:「Lotus1-2-3活用多変量解析」(共立出版)

Page 67: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 67

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

参考文献

• 内野治・松木秀明・上野真由美、『すぐわかるJMPによる統計解析』、東京図書、2002年。

• 内野治・松木秀明・上野真由美、『すぐわかるJMPによる多変量解析』、東京図書、2002年。

• 田久浩志・林俊克・小島隆矢、『JMPによる統計解析入門』、2002年。

• 圓川隆夫、『多変量のデータ解析』、朝倉書店、1988。

• JMPのヘルプファイルや統計関係のウェブサイトも参考になります。ちなみに「JMP」をキーワードに検索エンジンで検索してみて下さい。

Page 68: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 68

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

多項式回帰(1)

• 直線(説明変数xの1次式)

y = a x + b

• 曲線1(説明変数の2次式)

y = a x2 + b x + c

• 曲線2(説明変数の3次式)

y = a x3 + b x2 + c x + d

Page 69: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 69

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

多項式回帰(2)

• 列を追加して、計算式で説明変数(西暦年-1969)の2乗と3乗の列を作成する。

Page 70: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 70

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

多項式回帰(3)

Page 71: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 71

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

多項式回帰(4)

Page 72: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 72

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

多項式回帰(5)

推定された多項式回帰モデルは y = 5318.13 – 2812.08 x + 271.686 x2

Page 73: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 73

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

多項式回帰(6)

推定された多項回帰式: y = -2063.55 + 1970.32 x – 452.007 x2 + 30.1539 x3

Page 74: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 74

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

予測値のチェック

Page 75: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 75

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

モデルは予測に使えるか?

①マイナスの生産台数

②3次のモデル1973年から76年まで予測値が減少

③1970年頃(少量生産)と1980年頃(大量生産)で等分散性を仮定してよいか?

Page 76: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 76

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

VTR生産台数の対数変換

• VTR生産台数を対数変換してみると、線形の関係が見られる。

Page 77: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 77

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

変数変換による線形回帰モデル

推定された回帰モデル: ln y = 2.797 + 0.496 x

このモデルで生産台数を予測するには?

Page 78: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 78

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

予測値の逆変換

Page 79: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 79

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

対数変換モデルによる予測

Page 80: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 80

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

JMPでの変数変換による重回帰分析

Page 81: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 81

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

JMPでの対数変換モデルの推定結果

• ここに示された決定係数は、変換後のデータに対するもの

Page 82: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 82

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

数量化理論第Ⅰ類

• ダミー変数のみを用いた重回帰分析と同等

1987年度プロ野球観客動員数と球団属性一覧

観客動員数 リーグ 本拠地 親会社業種 前年度成績

読売 304 セ 首都圏 新聞 A

中日 201 セ その他 新聞 A

広島 112 セ その他 市 A

ヤクルト 222 セ 首都圏 メーカー B

大洋 154 セ 首都圏 市 B

阪神 213 セ 関西 電鉄 C

西武 181 パ 首都圏 電鉄 A

阪急 123 パ 関西 電鉄 A

日本ハム 124 パ 首都圏 メーカー B

南海 88 パ 関西 電鉄 B

ロッテ 78 パ 首都圏 メーカー C

近鉄 101 パ 関西 電鉄 C

Page 83: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 83

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

モデルの仮説

観客動員数

セントラルリーグ パシフィックリーグ

首都圏

関西

その他

新聞社

メーカー

電鉄

Aクラス Bクラス Cクラス

プラスの効果

マイナスの効果

Page 84: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 84

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

モデルのあてはめ

Page 85: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 85

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

数量化理論第Ⅰ類の結果(1)

カテゴリスコア

リーグ[パ]の係数=-リーグ[セ]の係数

= -60.76087

本拠地[首都圏]の係数

=-本拠地[関西]の係数

-本拠地[その他]の係数

= 4.333333 + 42.24638 = 46.57971

アイテムの有意性の判定

アイテムのレンジ

=アイテムのカテゴリスコアの

最大値 - カテゴリスコアの最小値

Page 86: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 86

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

数量化理論第Ⅰ類の結果(2)

アイテム カテゴリー 頻度 カテゴリースコア レンジ

リーグ セ 6 60.76087 121.5217

パ 6 -60.76087

本拠地 首都圏 6 46.579713 88.82609

関西 4 -4.333333

その他 2 -42.24638

親会社業種 新聞 2 34.081522 108.7825

メーカー 5 -4.679239

市 2 -69.09239

電鉄 3 39.690107

前年度成績 A 5 24.92029 42.1087

B 4 -7.731884

C 3 -17.188406

Page 87: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 87

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

残差の分析

• 残差の分析からどのようなことが言えるであろうか?

Page 88: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 88

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

数量化理論第Ⅰ類の応用

• 2003年度のデータを使用してプロ野球の観客動員数の予測を

行ってみなさい。

• 兵庫県市町データを用いて、数量化理論第Ⅰ類を適用した分析を考えてみなさい。

Page 89: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 89

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

判別関数分析カード使用者の使用状態に関するプロフィールデータ

サンプル番号 カード使用状態 家族構成数 年齢 年収

1 ○ 3 30 347

2 ○ 4 55 383

3 ○ 5 50 615

4 ○ 4 54 435

5 ○ 6 60 751

6 ○ 5 39 377

7 ○ 3 42 430

8 ○ 6 64 672

9 ○ 2 70 702

10 ○ 4 35 398

11 × 3 41 552

12 × 3 37 306

13 × 2 40 408

14 × 2 30 301

15 × 3 42 315

16 × 4 37 308

17 × 4 33 375

18 × 2 34 578

19 × 3 39 357

20 × 5 30 422

(出典:圓川隆夫著、『多変量のデータ解析』、朝倉書店、1988)

Page 90: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 90

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

一変量の分布(層別ヒストグラム)

• カード使用状況とその他の変数との間には、どのような関係が存在するか?

Page 91: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 91

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

層別散布図(1)

Page 92: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 92

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

層別散布図(2)

• 「多変量の相関」で散布図行列を表示させ、2つの変数を用いてカードの使用状況が判別できそうかどうかを検討する。

Page 93: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 93

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

回転プロット

Page 94: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 94

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

判別関数分析(1)

• 外的基準(説明したい変数)を0-1型の変数に変換する。

Page 95: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 95

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

判別関数分析(2)

• JMP 4Jには判別関数分析が用意されていないので、外的基準を0-1型変数に変換した上で、この外的基準を目的変数とする重回帰分析を行うと、判別関数分析が行える。

0-1型に変換された外的基準

• JMP 5Jでは、「分析」→「多変量」→「判別分析」を選択

Page 96: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 96

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

判別関数分析(3)

Page 97: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 97

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

判別関数分析(4)

Page 98: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 98

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

判別関数分析(5)

0-1型変数の総平均を越えているかどうかで判別0.5以上であれば正常(○)

0.5未満であれば異常(×)

Page 99: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 99

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

判別関数分析(6)

Page 100: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 100

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

判別関数分析(7)マハラノビスの汎距離による判別式を得るには、外的基準 y の値として

Ⅰ群に n2/(n1 + n2)

Ⅱ群に –n1/(n1+n2)

を与える。こうすれば、外的基準の値の総平均が0となり、予測値の正負で判別が可能になる。

また、重回帰分析の変数選択や偏回帰係数の有意性の検討が判別関数分析にも応用できる。

Page 101: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 101

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

判別関数分析(8)

z = -1.362 + 0.116 x1 + 0.0218 x2 と

なる直線(線形判別関数)

Ⅰ群(正常○)に判別

Ⅱ群(異常×)に判別

Page 102: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 102

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

判別関数分析(9)

MANOVA(多変量分散分析モデル)を指定

説明変数を指定

外的基準を指定

Page 103: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 103

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

判別関数分析(10)

• 判別結果をデータテーブルに保存する

Page 104: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 104

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

判別関数分析(11)

各群の重心からオブザベーションまでのマハラノビスの距離

オブザベーションが各群に含まれる確率

判別結果

Page 105: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 105

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

判別関数分析(12)

説明変数として、家族構成員数と年齢に加えて、年収も入れて分析を行ってみよ。

年収は判別に寄与していない!

Page 106: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 106

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

数量化理論第Ⅱ類(1)

• ダミー変数のみを用いた判別関数分析と同等

• リーグを外的基準にして、リーグの違いを分析してみよ。

C電鉄関西パ101近鉄

Cメーカー首都圏パ78ロッテ

B電鉄関西パ88南海

Bメーカー首都圏パ124日本ハム

A電鉄関西パ123阪急

A電鉄首都圏パ181西武

C電鉄関西セ213阪神

B市首都圏セ154大洋

Bメーカー首都圏セ222ヤクルト

A市その他セ112広島

A新聞その他セ201中日

A新聞首都圏セ304読売

前年度成績親会社業種本拠地リーグ観客動員数

1987年度プロ野球観客動員数と球団属性一覧

Page 107: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 107

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

数量化理論第Ⅱ類(2)

リーグを0ー1型変数または0.5と-0.5の値をとる変数に変換。

Page 108: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 108

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

数量化理論第Ⅱ類(3)

R*2=1-(SE/(n-p-1))/(ST/(n-1))

分析結果を解釈してみると?

Page 109: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 109

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

数量化理論第Ⅱ類(3)

Page 110: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 110

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

主成分分析(1)多数の変数データから、変数間の内部関連に基づく少数の主成分と呼ばれる合成変数を構成する分析法

学生番号 国語 社会 数学 理科 音楽 美術 保健体育 技術家庭 英語

1 55 59 38 66 29 32 29 36 61

2 36 49 35 57 63 62 55 66 45

3 53 58 16 41 67 54 50 50 48

4 78 80 42 65 85 75 69 76 70

5 6 19 38 59 49 47 43 57 26

6 41 43 49 66 74 64 63 75 49

7 73 78 57 77 61 62 53 65 73

8 21 29 38 58 64 58 52 65 32

9 50 55 22 51 58 58 51 46 52

10 61 69 57 71 68 61 53 64 63

11 73 80 66 88 43 48 42 60 80

12 56 69 79 91 55 50 50 72 73

13 56 53 30 50 73 72 63 62 45

14 35 43 35 49 57 53 45 47 38

15 37 52 54 71 81 72 70 80 51

16 61 66 53 74 69 62 56 74 63

17 39 55 56 69 82 70 68 78 52

18 37 41 23 42 53 50 37 44 37

19 40 45 60 72 73 67 59 76 48

20 54 65 55 72 81 73 68 85 66

Page 111: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 111

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

主成分分析(2)

Page 112: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 112

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

主成分分析(3)

•x1、x2、‥‥、xpのp個の変数から新しい変数z1、z2、‥‥、zmを作成することを考える。

z1=a11x1+a12x2+‥‥+a1pxp

z2=a21x1+a22x2+‥‥+a2pxp

: : : : :

zm=am1x1+am2x2+‥‥+ampxp

ここで、z1からzmへと順にx1からxpまでの情報が最大限に集約されるように係数aijを決めたい。

•もとの変数の分散共分散行列の固有値と固有ベクトルを計算することに帰着される。

Page 113: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 113

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

主成分分析(4)

•通常は相関係数行列からを選択

•分散共分散行列からを選択すると変数のスケールのとり方に依存して分散共分散行列の値が変化する。

Page 114: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 114

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

主成分分析(5)

固有値の総和=p (分散共分散行列からの場合は各変数の分散の総和)

第k主成分の寄与率=第k主成分の固有値/p

どこまでの主成分を考えるかの基準

①累積寄与率 ②寄与率の低下の仕方 ③相関行列からの場合に固有値が1より大

第1から第9までの主成分

Page 115: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 115

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

主成分分析(6)

主成分分析の結果(各主成分の重み係数=主成分負荷量=固有ベクトル)を保存

1行ずれている!

Page 116: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 116

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

主成分分析(7)

主成分の解釈(主成分の意味の検討)

各主成分の散布図行列から各主成分のもつ意味を検討する。

Page 117: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 117

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

主成分分析(8)

Page 118: JMPによる多変量解析入門 - University of Hyogoarima/ppt200801.pdf · ⑥統計的手法群 重回帰分析判別分析主成分分析生準相関分析クラスター分析

2008年9月26日 UHUH(University of Hyogo) Masahiro Arima 118

兵庫県立大学大学院 応用情報科学研究科 有馬昌宏研究室

主成分分析(9)

第1主成分

綜合点

第2主成分

第3主成分

特殊技能系

文科系

理科系

が分離できる。

主成分スコアから各オブザベーションの特徴を知る