K030 appstat201203 2variable
Transcript of K030 appstat201203 2variable
![Page 1: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/1.jpg)
1
情報統計学
2変量データの分析20110520 scale 修正
20120502 スライド追加(散布図)
![Page 2: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/2.jpg)
22変量データ
2変量データではあるが• それぞれの変量を 1変量データとして
1. 代表値2. 散布度3. ヒストグラム,ボックスプロット
などで分析できる。
![Page 3: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/3.jpg)
3データの登録
データを登録,読み込む方法• weightという名前で登録し,その後, bodydataという形でまとめる。
• bodydataとして行列で登録
![Page 4: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/4.jpg)
4ファイルからデータを読み込む(重要)
• data1.txtというデータファイルがあるとする。スペース orタブ区切り。
• data1.csvという CSVファイルを読み込むには
• データを確認してみよう• data1-1.csvという CSVファイル> bodydata <-read.csv("data1-1.csv")
![Page 5: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/5.jpg)
5データの一部を取り出す
• まず, 1変量ずつ分析するため,一部を取り出そう
• height, weightそれぞれについて一変量の分析を行う。 関数 one.var.analysisをつくってあるのでそれを使う。
![Page 6: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/6.jpg)
6
![Page 7: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/7.jpg)
72変量の分析
• 並行箱ひげ図> boxplot(height, weight, names=c(”height”, ”weight”))
ちなみに
> boxplot(as.vector(scale(height)), as.vector(scale(weight)), names=c(“height”, “weight”))
とすれば ・・・
単位の異なる変数、数値の桁が異なる変数の平行箱ひげ図は意味が無い!ことが多い
![Page 8: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/8.jpg)
散布図 plot
140 145 150 155 160
30
35
40
45
height
wei
ght
plot(bodydata)plot(height,weight)plot(weight~height)
![Page 9: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/9.jpg)
9回帰直線
• 散布図から右上がり,右下がりの直線的な傾向
![Page 10: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/10.jpg)
10回帰直線の導出
![Page 11: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/11.jpg)
11
回帰分析の結果を bodylmに保存
![Page 12: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/12.jpg)
12
![Page 13: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/13.jpg)
13散布図に回帰直線を追加する。
![Page 14: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/14.jpg)
14共分散・相関係数
• 散布図→直線的な傾向(回帰直線を引く)• 直線的傾向の強弱を数値化
右上がりか右下がりか どれだけ直線的傾向があるか
平均で分割した象限
「第 I,第 III象限のデータ数」>「第 II,第 IV象限のデータ数」の場合には右上がり「第 I,第 III象限のデータ数」<「第 II,第 IV象限のデータ数」の場合には右下がりの傾向
![Page 15: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/15.jpg)
15
• 「第 I,第 III象限のデータ数」 - 「第 II,第 IV象限のデータ数」 正の場合は右上がり 負の場合は右下がり
最大の値は n – 0 = n 最小の値は 0 – n = – n
2つのデータでデータサイズが異なると (nAと nBなど),値により比較がしにくい。
• 比較しやすいようにデータ数で割る
• ケンドール
範囲は,-1から1±1に近いほど傾向が強い
![Page 16: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/16.jpg)
16後のために別表現
ケンドールの τ係数
![Page 17: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/17.jpg)
17共分散
• 共分散
• データの単位に関係する• どの程度強いか判定しにくい。
![Page 18: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/18.jpg)
18
• →各軸からの距離を標準偏差で割った値にする
相関係数
![Page 19: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/19.jpg)
19Rにおける共分散,相関係数
• Rで共分散を計算するには covを使うcov(height, weight)
• varでも計算できるn-1で割っていることを確認すること。 P37
• Rで相関係数を計算 corを使う cor(height, weight)
この例では, 0.851212
![Page 20: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/20.jpg)
20相関係数の性質
• -1 ≦ r xy 1≦• 完全相関 r xy = ±1 1本の直線上にすべての点
• 無相関 r xy =0相関(直線的な傾向)が無い
• 計算結果が 0だとしても関係がないわけではない 直線的な関係以外
![Page 21: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/21.jpg)
21-1 ≦ r xy 1≦
![Page 22: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/22.jpg)
22完全相関
つまり直線状
![Page 23: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/23.jpg)
23散布図と相関係数
• 散布図を見て,相関係数の値を読み取れるように練習。• testcor()
• 誤差は ±0.1の範囲で。
![Page 24: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/24.jpg)
24順位相関係数
• データが順位( 1位, 2位,・・・)で与えられている場合の相関係数→順位相関係数
• スピアマンの順位相関係数 順位を普通のデータとして相関係数を計算
Aと Bの相関係数
![Page 25: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/25.jpg)
25
• 順位の平均,分散 データは順位なので, 1から nが一度ずつ出てくる。
![Page 26: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/26.jpg)
26
• 共分散
![Page 27: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/27.jpg)
27
• よって相関係数は
スピアマンの順位相関係数
![Page 28: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/28.jpg)
28ケンドールの順位相関係数
• 順位を全部に対してつけるのは難しい。 順位をつけられない場合もある
• n個の対象から取り出した nC2組の 2つの組み合わせに対して大小関係をつける。
• A,Bの 2名に大小関係をつけてもらう 一致した組数 K 不一致の組数 L M=K+L
• このとき ケンドールの順位相関係数
![Page 29: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/29.jpg)
レポート• 2変量データ carsデータに対して分析を行え。• しめきり
月 日 時
![Page 30: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/30.jpg)
30多変量データのグラフ表現
• irisデータ 3種類のアイリス(アヤメ)について各 50個の花を, 4ヶ所ずつ測定したデータ• がくの長さ• がくの幅• 花弁の長さ• 花弁の幅
• 有名なデータで,統計の分野では,よく利用される。• irisで確認できる。
![Page 31: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/31.jpg)
31並行箱ひげ図
Sepal.Length Sepal.Width Petal.Length Petal.Width
02
46
8
![Page 32: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/32.jpg)
32散布図行列
• pairs(iris[1:4])• pairs(iris[1:4],pch=21,bg = c("red", "green3", "blue")[unclass(iris$Species)])
![Page 33: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/33.jpg)
333次元散布図
library(rgl)
rgl.points(iris[1:50,1], iris[1:50,2], iris[1:50,3], color="red", size=3)
rgl.points(iris[51:100,1], iris[51:100,2], iris[51:100,3], color="green", size=3)
rgl.points(iris[101:150,1], iris[101:150,2], iris[101:150,3], color="blue", size=3)
rgl.lines(c(0, max(iris[, 1])), c(0, 0), c(0, 0))
rgl.lines(c(0, 0), c(0, max(iris[, 2])), c(0, 0))
rgl.lines(c(0, 0), c(0, 0), c(0, max(iris[, 3])))
text3d(max(iris[, 1]), 0, 0, text = "X")
text3d(0, max(iris[, 2]), 0, text = "Y")
text3d(0, 0, max(iris[, 3]), text = "Z")
![Page 34: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/34.jpg)
パッケージのインストール• > library(rgl)
以下にエラー library(rgl) : 'rgl' という名前のパッケージはありません
• パッケージ「 rgl」がインストールされていない。• Rguiウィンドウのメニュー「パッケージ」より
CRANミラーサイトの設定• Japan(Aizu) を選択(日本のどこでも可)
パッケージのインストール• rgl を選択
![Page 35: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/35.jpg)
35
![Page 36: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/36.jpg)
36平行座標プロット
library(MASS)
parcoord(iris[1:4], col = 1 + (0:149)%/%50)
![Page 37: K030 appstat201203 2variable](https://reader035.fdocuments.net/reader035/viewer/2022081515/55984e621a28ab3c6d8b4837/html5/thumbnails/37.jpg)
37散布図と相関係数
• 散布図を見て,相関係数の値を読み取れるように練習。• testcor()
• 誤差は ±0.1の範囲で。