K020 appstat201202

1

情報統計学

1変量データの分析

2データをとったら• まず，思い浮かべるのは，データがどうなっているか調べる

簡単な方法• 数値を出す？？

– 平均とか最高点とか

もっと簡単にデータの構造がわかる

グラフを描いてみる• 統計グラフ

3ヒストグラム

• 「ヒストグラム」(histogram) 「棒グラフ」と似ている

• 棒グラフはデータの数値を棒の高さで表したもの

• ヒストグラムは各階級の度数（データの個数）を棒の高さで表したものである

• ヒストグラムは各階級（小区間）に入っている個数であるので、隣の階級

とは接することになる。

160cmに向かって山がある単調型一般には中央あたりに山が一つある「単峰型」の分布をしている違う場合は・・・

だいたいどんな値でどのぐらいばらついているか。どの値が多いだろうか。中心はどこだろうか。

4階級の個数

• データの大きさに対して，階級を多く取りすぎてしまうと

• 各階級に属する度数は少なくなってしまい，分布の特徴を捉えにくい

逆に少なすぎると• 大雑把過ぎて，データが持っている特長を見逃してしまう

• 階級の個数をいくつにするか　（目安）

5主な分布形状

(a)単峰型 (b)双峰型 (b) 多峰型

6共通一次試験 (1980年 ) 民間給与実態統計調査（平成 9年）

7データの縮約

• 特性値もとのデータの持っている特性を一つの数値で表したもの

大別して代表値，散布度• 代表値

– データ全体を一つの数値で代表させたもの» 平均値，メディアン（中央値），モード（最頻値），最大値，最小値など

• 散布度– データの散らばり具合を測る物差し

» レンジ（範囲），平均偏差，分散，標準偏差

8 平均値 (mean)

• 最小２乗法の意味で最良

9中央値（median）

中央値と平均値の関係

•平均値と中央値の値が近い場合

•その値を中心として左右対称

•この 2つの値が離れているとき

•対称性が崩れて右または左に歪んでいる

•外れ値がある

ことが多い

10平均値と中央値

• 一般的に外れ値に弱い（影響を受けやすい）• 中心の代表値

• 中央値は外れ値に頑健 (robust)中央値と平均値の関係• アプリケーション

http://case.f7.ems.okayama-u.ac.jp/ テキストにある関数 P14

• boxplot.app()– Windowsのみで動作– http://www.mikawaya.to/appstat/

平均値の改良としてTrimmed mean（切り捨て平均）などもある

平均値中央値

11トリムド・ミーン（ trimmed mean）　切り捨て平均

• 大きい方から 100α％，小さいほうから 100α％のデータをないものとして，平均値を再計算これにより，外れ値の影響をできるだけ除外

平均値

平均値

12最大値，最小値

• 代表値として，最大値，最小値を使うことも多い最大震度，最低気温，スポーツの新記録

• 最大値大きさの順（小さいほうから）に並べ替えたとき，一番大きな値

• 最小値大きさの順（小さいほうから）に並べ替えたとき，一番小さな値

13演習問題

• 次のデータについて，

5, 4, 3, 6, 4, 8, 5, 5

1. データの大きさ nを求めよ。

2. 平均，メディアン，最大値，最小値を求めよ。

3. データの最後に新たに 2が加わった。メディアンを求めよ。

145数要約

15箱ひげ図• 分布の概形を知りたい場合，グラフ表現としては前節のヒストグラムが有効この形の特徴を数値的に表現するため

• 四分位点 n 個のデータを大きさの順に

n/4個づつ４つに分割する分点は３個

• 小さい方から– 「第１四分位点」– 「第２四分位点」– 「第３四分位点」

箱の高さから 1.5 倍以内

の最大値

第 3 四分位点

第 1 四分位点

第 2 四分位点

中央値

箱の高さから 1.5 倍以内

の最小値

外れ値

16ヒストグラムと箱ひげ図

箱ひげ図からヒストグラムを

思い浮かべる

17レポート• riversデータ

data()

• riversデータに対して，分析を行い，結果を考察せよ。図も張り付けて分析する。ならった統計量も出そう。対数をとった値でもやってみよう

• log.rivers<-log(rivers)

18ばらつきの尺度

• hist(height)• hist(height2)

を比べてみよう。平均はほぼ同じだが，データの散らばり具合が異なる

19並行はこひげ図

> boxplot(height, height2, names = c("height", "height2"))

20散布度　（バラツキの尺度）

• 代表値データをひとまとめにしてそれを代表する値

• 通常，データは，広がりを持っている。散らばりの程度を計る物差し

21ばらつきの尺度

• 範囲 (range)• 四分位範囲 (quartile range)

• 平均偏差 (mean deviation)• 分散 (variance)• 標準偏差 (standard deivation)

22範囲

• 範囲とは　（ Rで表わすことにする）データの最大値から最小値を引いた値

• 計算は楽• 欠点

上の例でも，明らかなように• 一つでも他と大きく離れたものがあると，直接その影響を受けてしまう

23

新しい関数の作り方

24四分位範囲

• 四分位範囲両端から， 25%ずつデータを除いて，残った 50%分のデータでの範囲

Q1 Q3Q2

Median（中央値）と一致

25四分位範囲

• 範囲は外れ値の影響を受けやすい• 四分位範囲

小さい方の 25%のデータ，大きい方の 25%のデータを捨てて残った中央部の半分（ 50%）のデータの範囲を求めた値

26平均偏差 d

• 偏差

– 個々の偏差の和をデータ全体についてとれば，全体の散布度が得られるはず

» しかし，和をとると０になる。• 平均偏差

偏差 diの絶対値をとり，平均した値

27平均偏差

28 分散 s2

• 平均偏差は絶対値の取り扱いが面倒（数学的に）符号をなくすため，今度は絶対値の代わりに 2乗を考える

• 分散とは

29分散，不偏分散

> var(height)[1] 53.95604> sum((height-mean(height))^2)/length(height)[1] 50.10204> sum((height-mean(height))^2)/(length(height)-1)[1] 53.95604

nで割るか、 n-1で割るか

30 標準偏差 s

• 標準偏差 sは分散 s2 の正の平方根を取る分散を計算して，平方根を計算すればよい

K020 appstat201202

Documents

Transcript of K020 appstat201202