K020 appstat201202
Transcript of K020 appstat201202
1
情報統計学
1変量データの分析
2データをとったら• まず,思い浮かべるのは,データがどうなっているか調べる
簡単な方法• 数値を出す??
– 平均とか最高点とか
もっと簡単にデータの構造がわかる
グラフを描いてみる• 統計グラフ
3ヒストグラム
• 「ヒストグラム」(histogram) 「棒グラフ」と似ている
• 棒グラフはデータの数値を棒の高さで表したもの
• ヒストグラムは各階級の度数(データの個数)を棒の高さで表したものである
• ヒストグラムは各階級(小区間)に入っている個数であるので、隣の階級
とは接することになる。
160cmに向かって山がある単調型一般には中央あたりに山が一つある「単峰型」の分布をしている違う場合は・・・
だいたいどんな値でどのぐらいばらついているか。どの値が多いだろうか。中心はどこだろうか。
4階級の個数
• データの大きさに対して, 階級を多く取りすぎてしまうと
• 各階級に属する度数は少なくなってしまい,分布の特徴を捉えにくい
逆に少なすぎると• 大雑把過ぎて,データが持っている特長を見逃してしまう
• 階級の個数をいくつにするか (目安)
5主な分布形状
(a)単峰型 (b)双峰型 (b) 多峰型
6共通一次試験 (1980年 ) 民間給与実態統計調査(平成 9年)
7データの縮約
• 特性値 もとのデータの持っている特性を一つの数値で表したもの
大別して代表値,散布度• 代表値
– データ全体を一つの数値で代表させたもの» 平均値,メディアン(中央値),モード(最頻値),最大値,最小値など
• 散布度– データの散らばり具合を測る物差し
» レンジ(範囲),平均偏差,分散,標準偏差
8 平均値 (mean)
• 最小2乗法の意味で最良
9中央値(median)
中央値と平均値の関係
•平均値と中央値の値が近い場合
•その値を中心として左右対称
•この 2つの値が離れているとき
•対称性が崩れて右または左に歪んでいる
•外れ値がある
ことが多い
10平均値と中央値
• 一般的に外れ値に弱い(影響を受けやすい)• 中心の代表値
• 中央値は外れ値に頑健 (robust)中央値と平均値の関係• アプリケーション
http://case.f7.ems.okayama-u.ac.jp/ テキストにある関数 P14
• boxplot.app()– Windowsのみで動作– http://www.mikawaya.to/appstat/
平均値の改良としてTrimmed mean(切り捨て平均)などもある
平均値 中央値
11トリムド・ミーン( trimmed mean) 切り捨て平均
• 大きい方から 100α%,小さいほうから 100α%のデータをないものとして,平均値を再計算 これにより,外れ値の影響をできるだけ除外
平均値
平均値
12最大値,最小値
• 代表値として,最大値,最小値を使うことも多い 最大震度,最低気温,スポーツの新記録
• 最大値 大きさの順(小さいほうから)に並べ替えたとき,一番大きな値
• 最小値 大きさの順(小さいほうから)に並べ替えたとき,一番小さな値
13演習問題
• 次のデータについて,
5, 4, 3, 6, 4, 8, 5, 5
1. データの大きさ nを求めよ。
2. 平均,メディアン,最大値,最小値を求めよ。
3. データの最後に新たに 2が加わった。メディアンを求めよ。
145数要約
15箱ひげ図• 分布の概形を知りたい場合,グラフ表現としては前節のヒストグラムが有効 この形の特徴を数値的に表現するため
• 四分位点 n 個のデータを大きさの順に
n/4個づつ4つに分割する 分点は3個
• 小さい方から– 「第1四分位点」– 「第2四分位点」– 「第3四分位点」
箱の高さから 1.5 倍以内
の最大値
第 3 四分位点
第 1 四分位点
第 2 四分位点
中央値
箱の高さから 1.5 倍以内
の最小値
外れ値
16ヒストグラムと箱ひげ図
箱ひげ図からヒストグラムを
思い浮かべる
17レポート• riversデータ
data()
• riversデータに対して,分析を行い,結果を考察せよ。 図も張り付けて分析する。 ならった統計量も出そう。 対数をとった値でもやってみよう
• log.rivers<-log(rivers)
18ばらつきの尺度
• hist(height)• hist(height2)
を比べてみよう。平均はほぼ同じだが,データの散らばり具合が異なる
19並行はこひげ図
> boxplot(height, height2, names = c("height", "height2"))
20散布度 (バラツキの尺度)
• 代表値 データをひとまとめにしてそれを代表する値
• 通常,データは,広がりを持っている。 散らばりの程度を計る物差し
21ばらつきの尺度
• 範囲 (range)• 四分位範囲 (quartile range)
• 平均偏差 (mean deviation)• 分散 (variance)• 標準偏差 (standard deivation)
22範囲
• 範囲とは ( Rで表わすことにする) データの最大値から最小値を引いた値
• 計算は楽• 欠点
上の例でも,明らかなように• 一つでも他と大きく離れたものがあると,直接その影響を受けてしまう
23
新しい関数の作り方
24四分位範囲
• 四分位範囲 両端から, 25%ずつデータを除いて,残った 50%分のデータでの範囲
Q1 Q3Q2
Median(中央値)と一致
25四分位範囲
• 範囲は外れ値の影響を受けやすい• 四分位範囲
小さい方の 25%のデータ,大きい方の 25%のデータを捨てて残った中央部の半分( 50%)のデータの範囲を求めた値
26平均偏差 d
• 偏差
– 個々の偏差の和をデータ全体についてとれば,全体の散布度が得られるはず
» しかし,和をとると0になる。• 平均偏差
偏差 diの絶対値をとり,平均した値
27平均偏差
28 分散 s2
• 平均偏差は 絶対値の取り扱いが面倒(数学的に) 符号をなくすため,今度は絶対値の代わりに 2乗を考える
• 分散とは
29分散,不偏分散
> var(height)[1] 53.95604> sum((height-mean(height))^2)/length(height)[1] 50.10204> sum((height-mean(height))^2)/(length(height)-1)[1] 53.95604
nで割るか、 n-1で割るか
30 標準偏差 s
• 標準偏差 sは 分散 s2 の正の平方根を取る 分散を計算して,平方根を計算すればよい