040 相関

27
統計学入門 相関係数 Correlation Coefficient 2008.05 2009.05.27 式の誤りを修正 2009.06.02 R での計算 http://case.f7.ems.okayama-u.ac.jp/animation/scattergram.html 2011.05.31 演習問題データ変更 2012.05.23 アニメーション追加

Transcript of 040 相関

Page 1: 040 相関

統計学入門 相関係数   Correlation Coefficient2008.052009.05.27 式の誤りを修正2009.06.02 R での計算http://case.f7.ems.okayama-u.ac.jp/animation/scattergram.html2011.05.31 演習問題データ変更2012.05.23 アニメーション追加

Page 2: 040 相関

直線的強さの尺度

� Kendall の τ (タウ)係数� 共分散� 相関係数( Pearson )� 順位相関係数

� Spearman の順位相関係数� Kendall   の順位相関係数 τ

Page 3: 040 相関

直線的強さの尺度

� 2つの目的� 右上がり、右下がりの区別 符号で� 直線的な傾向が強い  大きな値� 直線的な傾向が弱い  小さな値-0.988 -0.478 0.312

Page 4: 040 相関

Kendall の τ 係数

Page 5: 040 相関

Kendall の τ 係数

� 平均でⅠ象限からⅣ象限に分割する� Ⅰ 象限、Ⅲ象限のデータ数 K� Ⅱ 象限、Ⅳ象限のデータ数 L     K+L=n

� 右上がりの傾向のとき     K が大きく、 L が小さい    0<K-L

� 右下がりの傾向のとき     L が大きく、 K が小さい     K-L<0

� τ = (K - L)/n -1 ≦τ ≦ 1

Page 6: 040 相関

Kendall の τ 係数

� 後のために、別の表現� 各ケースに +1 、ないしは -1 の重みwをつけ

τ=−=

∈−∈+

=

∑=

)(1

),(1

,),(1

,),(1),(

1

LKn

yxwn

IVIIyx

IIIIyxyxw

i

n

ii

      

Page 7: 040 相関

τ 係数の問題点

� 4 つの点は同じ重み� データが変化(追加

、削除、修正)した時に、同じ象限に� 同じ象限に留まる� 別の象限に移りや

すい

� 点ごとに重みを変える1 2

Page 8: 040 相関

共分散

222

11

)(

))((1

),(1

))((),(

yxxy

xy

n

iiii

n

ii

sss

syyxxn

yxwn

yyxxyxw

=−−=

−−=

∑∑==

Page 9: 040 相関

相関係数

xyyx

xy

yx

n

i ii

n

i y

i

x

ii

n

ii

yx

rss

s

ss

yyxxn

s

yy

s

xx

nyxw

n

s

yy

s

xxyxw

==−−

=

−−=

−−=

∑∑

=

==

1

11

))((1

))((1

),(1

))((),(

Page 10: 040 相関

相関係数の値

> cor(height, weight)

0.851211920646571

Page 11: 040 相関

相関係数行列(irisデータ )

(1.0000000000000006 -0.11756978413300196 0.8717537758865829 0.8179411262715756)

(-0.11756978413300196 1.0000000000000006 -0.4284401043305399 -0.36612593253643912)

(0.8717537758865829 -0.4284401043305399 0.9999999999999994 0.96286543140279552)

(0.8179411262715756 -0.36612593253643912 0.96286543140279552 1.0000000000000002))

Page 12: 040 相関

相関係数の性質

� -1 ≦ r xy≦1

� 完全相関 r xy = ±1  1本の直線上にすべての点

� 無相関  r xy =0相関(直線的な傾向)が無い

Page 13: 040 相関

関係はあるが、無相関

Page 14: 040 相関

演習(回帰直線の演習問題と同じデータ)

� 相関係数、回帰直線を求めよう

� height� 148, 160, 159, 153, 151, 140, 156, 137, 149, 160,

151, 157, 157, 144� 和 2122 2 乗和 322338

� weight� 41, 49, 45, 43, 42, 29, 49, 31, 47, 47, 42, 39, 48,

36� 和 588 2 乗和 25226

� 積和  89643

Page 15: 040 相関

順位相関係数

� データが順位で与えられる場合� Spearman の順位相関係数

� 通常の Pearson の相関係数を計算� データが「順位」ということから・・・

� Kendall の順位相関係数� 全部に順位をつけるのが難しい場合� 対比較 (paired comparison)

Page 16: 040 相関

順位データ (Spearman)

� n個の対象に対して1からnまでの順位をつける

� 二人がつけた順位

の関連を求める

nOOO ,,, 21

naaa ,,, 21

nbbb ,,, 21

� 順位ということより

は1からnまでが1回ずつ現れる

naaa ,,, 21

Page 17: 040 相関

順位データの例

球団 A B中日 3 2広島 2 6阪神 1 3

ヤクルト 5 5横浜 4 1巨人 6 4

対象 A BO1 a1 b1

O2 a2 b2

・・・ ・・・

・・・

・・・ ・・・

・・・

・・・ ・・・

・・・

On an bn

Page 18: 040 相関

2

12/)1(2121 +=+=+++=+++= n

n

nn

n

n

n

aaaa n

12

)1)(1()

2

1(

6/)12)(1(

)2

1(

21

)(

)(1

)(1

2

2222

222

221

1

22

1

22

−+=+−++=

+−+++=

−+++=

−=−= ∑∑==

nnn

n

nnn

n

n

n

an

aaa

aan

aan

s

n

n

ii

n

iia

Page 19: 040 相関

22

1

2

1

2

1

22

1

1

2

1 1

22

2

)())((2)(

})())((2){(

)(

)()(

baba

n

ii

n

iiii

n

i

iiii

n

i

n

iii

n

i

n

iiiii

nsnsns

bbbbaaaa

bbbbaaaa

bbaa

baaaba

+−=

−+−−−−=

−+−−−−=

−+−=

−+−=−

∑∑∑

∑ ∑

===

=

=

= =

=

=

−−−+=

−−+=

n

iii

n

iiibaab

ban

nn

ban

sss

1

2

1

222

)(2

1

12

)1)(1(

2/})(1

{

Page 20: 040 相関

=

=

−−+

−=

−+−+

−−−+

=

=

n

iii

n

iii

ba

abab

bannn

nnnn

ban

nn

ss

sr

1

2

1

2

22

)()1)(1(

61

)12

)1)(1()(

12)1)(1(

(

)(21

12)1)(1(

∑=

−−+

−=n

iiiab ba

nnnr

1

2)()1)(1(

61

Page 21: 040 相関

Spearmanの順位相関係数> a<-c(3, 2, 1, 5, 4, 6)> b<-c(2, 6, 3, 5, 1, 4)

> a-b[1] 1 -4 -2 0 3 2> (a-b)^2[1] 1 16 4 0 9 4> sum((a-b)^2)[1] 34> 1-6*sum((a-b)^2)/(5*6*7)[1] 0.02857143

> 1/35[1] 0.02857143

> cor(a, b)[1] 0.02857143

> mean(a)[1] 3.5> mean(b)[1] 3.5> sd(a)[1] 1.870829> sd(b)[1] 1.870829> cov(a,b)[1] 0.1> cov(a,b)/(sd(a)*sd(b))[1] 0.02857143

Page 22: 040 相関

球団 A B A-B ( A-B)2

中日 3 2 3-2 1広島 2 6 2-6 16阪神 1 3 1-3 4

ヤクルト

5 5 5-5 0

横浜 4 1 4-1 9巨人 6 4 6-4 4合計 34

35

1

35

34134

576

61 =−=×

××−=abr

∑=

−−+

−=n

iiiab ba

nnnr

1

2)()1)(1(

61

Page 23: 040 相関

対比較 (paired comparison) (Kendall の順位相関係数 )

� n個の対象に対して1からnまでの順位をつけるのは大変

� n個から取り出した 2 個 (pair)  に対して二人で大小関係をつける� Pair の組数 � 二人の大小関係が一致した組み数   K� 二人の大小関係が不一致の組み数  L� M=K+L  

nOOO ,,, 21

),( ji OO

2

)1(2

−== nnCM n

11 ≤−≤−

≤−≤−

M

LK

MLKM

  2/)1( −−=−=

nn

LK

M

LKτ

Page 24: 040 相関

対比較中:広>:<中:阪

広:阪

>:<

>:>

中:ヤ

広:ヤ

阪:ヤ

<:<

<:>

<:<

中:横

広:横

阪:横

ヤ:横

<:>

<:>

<:>

>:>

中:巨

広:巨

阪:巨

ヤ:巨

横:巨

<:<

<:>

<:<

<:>

<:<

τ=(7-8)/15=-1/15

球団 A B

中日 3 2

広島 2 6

阪神 1 3

ヤクルト 5 5

横浜 4 1

巨人 6 4

Page 25: 040 相関

各種相関係数

> cor(a, b)[1] 0.02857143

> cor(a, b, method="pearson")[1] 0.02857143

> cor(a, b, method="spearman")[1] 0.02857143

> cor(a, b, method="kendall")[1] -0.06666667

> cor(height, weight)[1] 0.851212> cor(height, weight, method="pearson")[1] 0.851212> cor(height, weight, method="spearman")[1] 0.7433628> cor(height, weight, method="kendall")

> rank(height) [1] 4.0 13.5 12.0 8.0 6.5 2.0 9.0 1.0

    5.0 13.5 6.5 10.5 10.5 3.0> cor(rank(height), rank(weight))[1] 0.7433628

Page 26: 040 相関

演習� 次のデータから順位相関係数を求めよ

球団 2006 年最終

2011.05.31

中日 1 1阪神 2 5

ヤクルト 3 2巨人 4 4広島 5 3横浜 6 6

Page 27: 040 相関

相関係数を当ててみようhttp://case.f7.ems.okayama-u.ac.jp/simulation/scatter_java/index.html

� 入門編� -1.0, -0.8, -0.5, 0,

0.5, 0.8, 1.0

� 初級編� -1.0(0.2)1.0

� 中級編� -1.0(0.1)1.0

� 上級編� -1.00(0.01)1.00