K020 appstat201202

30
1 情報統計学 1 変量データの分析

Transcript of K020 appstat201202

Page 1: K020 appstat201202

1

情報統計学

1変量データの分析

Page 2: K020 appstat201202

2データをとったら• まず,思い浮かべるのは,データがどうなっているか調べる

簡単な方法• 数値を出す??

– 平均とか最高点とか

もっと簡単にデータの構造がわかる

グラフを描いてみる• 統計グラフ

Page 3: K020 appstat201202

3ヒストグラム

• 「ヒストグラム」(histogram) 「棒グラフ」と似ている

• 棒グラフはデータの数値を棒の高さで表したもの

• ヒストグラムは各階級の度数(データの個数)を棒の高さで表したものである

• ヒストグラムは各階級(小区間)に入っている個数であるので、隣の階級

とは接することになる。

160cmに向かって山がある単調型一般には中央あたりに山が一つある「単峰型」の分布をしている違う場合は・・・

だいたいどんな値でどのぐらいばらついているか。どの値が多いだろうか。中心はどこだろうか。

Page 4: K020 appstat201202

4階級の個数

• データの大きさに対して, 階級を多く取りすぎてしまうと

• 各階級に属する度数は少なくなってしまい,分布の特徴を捉えにくい

逆に少なすぎると• 大雑把過ぎて,データが持っている特長を見逃してしまう

• 階級の個数をいくつにするか (目安)

Page 5: K020 appstat201202

5主な分布形状

(a)単峰型 (b)双峰型 (b) 多峰型

Page 6: K020 appstat201202

6共通一次試験 (1980年 ) 民間給与実態統計調査(平成 9年)

Page 7: K020 appstat201202

7データの縮約

• 特性値 もとのデータの持っている特性を一つの数値で表したもの

大別して代表値,散布度• 代表値

– データ全体を一つの数値で代表させたもの» 平均値,メディアン(中央値),モード(最頻値),最大値,最小値など

• 散布度– データの散らばり具合を測る物差し

» レンジ(範囲),平均偏差,分散,標準偏差

Page 8: K020 appstat201202

8 平均値 (mean)

• 最小2乗法の意味で最良

Page 9: K020 appstat201202

9中央値(median)

中央値と平均値の関係

•平均値と中央値の値が近い場合

•その値を中心として左右対称

•この 2つの値が離れているとき

•対称性が崩れて右または左に歪んでいる

•外れ値がある

ことが多い

Page 10: K020 appstat201202

10平均値と中央値

• 一般的に外れ値に弱い(影響を受けやすい)• 中心の代表値

• 中央値は外れ値に頑健 (robust)中央値と平均値の関係• アプリケーション

http://case.f7.ems.okayama-u.ac.jp/ テキストにある関数 P14

• boxplot.app()– Windowsのみで動作– http://www.mikawaya.to/appstat/

平均値の改良としてTrimmed mean(切り捨て平均)などもある

平均値 中央値

Page 11: K020 appstat201202

11トリムド・ミーン( trimmed mean) 切り捨て平均

• 大きい方から 100α%,小さいほうから 100α%のデータをないものとして,平均値を再計算 これにより,外れ値の影響をできるだけ除外

平均値

平均値

Page 12: K020 appstat201202

12最大値,最小値

• 代表値として,最大値,最小値を使うことも多い 最大震度,最低気温,スポーツの新記録

• 最大値 大きさの順(小さいほうから)に並べ替えたとき,一番大きな値

• 最小値 大きさの順(小さいほうから)に並べ替えたとき,一番小さな値

Page 13: K020 appstat201202

13演習問題

• 次のデータについて,

5, 4, 3, 6, 4, 8, 5, 5

1. データの大きさ nを求めよ。

2. 平均,メディアン,最大値,最小値を求めよ。

3. データの最後に新たに 2が加わった。メディアンを求めよ。

Page 14: K020 appstat201202

145数要約

Page 15: K020 appstat201202

15箱ひげ図• 分布の概形を知りたい場合,グラフ表現としては前節のヒストグラムが有効 この形の特徴を数値的に表現するため

• 四分位点 n 個のデータを大きさの順に

n/4個づつ4つに分割する 分点は3個

• 小さい方から– 「第1四分位点」– 「第2四分位点」– 「第3四分位点」

箱の高さから 1.5 倍以内

の最大値

第 3 四分位点

第 1 四分位点

第 2 四分位点

中央値

箱の高さから 1.5 倍以内

の最小値

外れ値

Page 16: K020 appstat201202

16ヒストグラムと箱ひげ図

箱ひげ図からヒストグラムを

思い浮かべる

Page 17: K020 appstat201202

17レポート• riversデータ

data()

• riversデータに対して,分析を行い,結果を考察せよ。 図も張り付けて分析する。 ならった統計量も出そう。 対数をとった値でもやってみよう

• log.rivers<-log(rivers)

Page 18: K020 appstat201202

18ばらつきの尺度

• hist(height)• hist(height2)

を比べてみよう。平均はほぼ同じだが,データの散らばり具合が異なる

Page 19: K020 appstat201202

19並行はこひげ図

> boxplot(height, height2, names = c("height", "height2"))

Page 20: K020 appstat201202

20散布度 (バラツキの尺度)

• 代表値 データをひとまとめにしてそれを代表する値

• 通常,データは,広がりを持っている。 散らばりの程度を計る物差し

Page 21: K020 appstat201202

21ばらつきの尺度

• 範囲 (range)• 四分位範囲 (quartile range)

• 平均偏差 (mean deviation)• 分散 (variance)• 標準偏差 (standard deivation)

Page 22: K020 appstat201202

22範囲

• 範囲とは ( Rで表わすことにする) データの最大値から最小値を引いた値

• 計算は楽• 欠点

上の例でも,明らかなように• 一つでも他と大きく離れたものがあると,直接その影響を受けてしまう

Page 23: K020 appstat201202

23

新しい関数の作り方

Page 24: K020 appstat201202

24四分位範囲

• 四分位範囲 両端から, 25%ずつデータを除いて,残った 50%分のデータでの範囲

Q1 Q3Q2

Median(中央値)と一致

Page 25: K020 appstat201202

25四分位範囲

• 範囲は外れ値の影響を受けやすい• 四分位範囲

小さい方の 25%のデータ,大きい方の 25%のデータを捨てて残った中央部の半分( 50%)のデータの範囲を求めた値

Page 26: K020 appstat201202

26平均偏差 d

• 偏差

– 個々の偏差の和をデータ全体についてとれば,全体の散布度が得られるはず

» しかし,和をとると0になる。• 平均偏差

偏差 diの絶対値をとり,平均した値

Page 27: K020 appstat201202

27平均偏差

Page 28: K020 appstat201202

28 分散 s2

• 平均偏差は 絶対値の取り扱いが面倒(数学的に) 符号をなくすため,今度は絶対値の代わりに 2乗を考える

• 分散とは

Page 29: K020 appstat201202

29分散,不偏分散

> var(height)[1] 53.95604> sum((height-mean(height))^2)/length(height)[1] 50.10204> sum((height-mean(height))^2)/(length(height)-1)[1] 53.95604

nで割るか、 n-1で割るか

Page 30: K020 appstat201202

30 標準偏差 s

• 標準偏差 sは 分散 s2 の正の平方根を取る 分散を計算して,平方根を計算すればよい