第 2 章 Ⅱ 特性値による記述 (増補版)
description
Transcript of 第 2 章 Ⅱ 特性値による記述 (増補版)
※ 以前のスライドに補足を加えたい部分が多くあったので、増補版を作成した。
ある集団についてのデータ(例えば 50 人のクラスの身長など)があるとき、集団の特徴をあらわすには、その中心的傾向を示す数値が必要となる。
中心的傾向をあらわす数値として、› 算術平均› メディアン(中央値)› モード(最頻値)
の 3 種類がある。
1) 代表値(中心的傾向)
算術平均 = データの合計 ÷ データ数
出席番号 1 2 3 4 5 6 7 8 9 10点数 60 90 80 50 70 10 60 80 20 80
6010
600
10
80208060107050809060
x
ⅰ) 算術平均
(例) 10 人のテストの点数
n
x
n
xxxx
n
ii
n
121
メディアン → データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の 2 つの値を足して 2 で割る。
出席番号 1 2 3 4 5 6 7 8 9 10点数 60 90 80 50 70 10 60 80 20 80
点数の低い順に並べ替え
10 20 50 60 60 70 80 80 80 90
真ん中この 2 つを足して 2 で割った
( 60 + 70 ) ÷2=65 がメディアン
ⅱ) メディアン(中央値、中位数)
モード - データの中で最も多く出てくる値。 10 人のテストの点数の例では
出席番号 1 2 3 4 5 6 7 8 9 10点数 60 90 80 50 70 10 60 80 20 80
80 点が 3 人と最も多い。モードは 80 となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではなく、度数分布表にしたときに、最も度数の多い階級の階級値をモードと考える。
ⅲ) モード(最頻値)
下の表は A,B,C,D,E 5人のある月の収入(単位:万円)である。
ⅳ) 各代表値の特徴
仮想データ
• この5人の収入の算術平均は
A B C D E20 20 22 28 30
245
120
5
0328222020
x
• メディアンは、この場合、小さい順に並んでるので
• モードは、
• よって、算術平均は 24 、メディアンは 22 、モードは 20となる。
A B C D E F20 20 22 28 30 60
次に、裕福な F さんがこの5人に加わったとする。
仮想データ
• この6人の収入の算術平均は
306
180
6
600328222020
x
• メディアンは、真ん中の2人を足して2で割るので、 (22+28)÷2=25
• モードは、
• よって、算術平均は 30 、メディアンは 25 、モードは 20となる。
A B C D E F G20 20 22 28 30 60 1220
次に、より裕福な G さんがこの 6 人に加わったとする。
仮想データ
• この 7 人の収入の算術平均は
2007
1400
7
1220600328222020
x
• メディアンは、真ん中である。
• モードは、
• よって、算術平均は 200 、メディアンは 28 、モードは20 となる。
別の例もみてみよう。下の図は貯蓄現在高階級別の世帯分布である。
出典:総務省統計局『家計簿から見たファミリーライフ』(http://www.stat.go.jp/data/kakei/family/4-5.htm#1)
• 貯蓄現在高が算術平均 (1638 万円 ) より低い世帯は全世帯の 3分の 2 におよぶ。ほとんどの世帯はメディアンである 988万円ほどの貯蓄もなく、 200 万円未満の貯蓄しかない ( ここがモードである ) 。
• 少数の大金持ちと多数の庶民がいるため、このようなことがおこる。
051015202530354045
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
度数
階級
右にゆがんだ分布の例
051015202530354045
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
度数
階級
左右対称な分布の例(1)
051015202530354045
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
度数
階級
左右対称な分布の例(2)
ゆがんだ分布であれば、算術平均とメディアンは一致しない。(モードも一致しない)左右対称な分布であれば、算術平均とメディアンは一致する。また、分布の山が 1 つであれば、モードもこれに一致する。
<正規分布> 算術平均、メディアン、モードが等しくなる、山が 1 つの左
右対称の分布の中に、つりがね型†をした正規分布といわれるものがある。
この分布は、数学的に非常に取り扱いやすい性質を持っており、身長や知能指数などがこの分布にしたがうといわれている。テストの点数もこのような分布になることが理想といわれている。
† 「つりがね型」は、 bell curve の訳であり、日本の寺院にあるつりがねの形ではなく、教会にあるベルの形をしている。
算術平均は少数の極端な値が含まれるとき、その集団の正しい代表値とならないことがある。メディアンの方が少数の極端な値の影響を受けづらい。
しかし、貯蓄現在高のように分布がゆがんでいる場合には、メディアンでも集団の正しい代表値とはいえない場合もある。(この場合はモードが適切か)
しかし、算術平均は数学的な扱いやすさから、代表値として非常に良く用いられている。
算術平均をうのみにしないようにしよう!
教員 B• チャイムと同時に教室にく
ることもあれば、10分以上遅れることもある。
教員 A• チャイムの5分後に必ず教
室にくる。
• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2 人の教員の特徴を表現するために、平均だけでは不十分。
→散らばりの尺度の必要性• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差– レンジ(範囲)、四分位偏差
などがある。
2) 散布度(散らばりの傾向)
分散=偏差 2 乗和 ÷ データ数 偏差 2 乗和 - 個々のデータから算術平均を引いたも
の(偏差)を 2 乗して、すべて加えたもの。
n
xx
n
xxxxxxs
n
ii
n
1
222
22
12
)()()()(
10
60)(8060)(2060)(8060)(6060)(1060)(7060)(5060)(8060)(9060)(60 22222222222 s
64010
6400
10 人のテストの点数の例では
ⅰ) 分散
出席番号 1 2 3 4 5 6 7 8 9 10点数 60 90 80 50 70 10 60 80 20 80
0 30 20 -10 10 -50 0 20 -40 20
算術平均 60 を引く
偏差
2 乗を求める
0 900 400 100 100 2500 0 400 1600 400
合計を求める
6400データ数 (10) で割る
640 分散
標準偏差 ⇒ 分散の平方根
n
xxss
n
ii
1
2
2
)(
10 人のテストの点数の例では
25.298640 s
ⅱ) 標準偏差
( 単位 : 分 )※ 2 人の教員が教室に来る時間の例
回 1 2 3 4 5 6 7 8 9 10A教員 4.5 5.3 4.8 5 5.5 4.7 5.2 4.8 4.9 5.3B教員 0 6 4 5 11 4 8 5 1 6
510
50
10
3.59.48.42.57.45.558.43.55.4
Ax
09.010
9.010
09.001.004.004.009.025.0004.009.025.010
)3.0()1.0()2.0()2.0()3.0()5.0()0()2.0()3.0()5.0(
10
)53.5()59.4()58.4()52.5()57.4()55.5()55()58.4()53.5()55.4(
2222222222
22222222222
As
教員 A
3.009.0 As
510
50
10
61584115460
Bx
910
9010
116091360112510
)1()4()0()3()1()6()0()1()1()5(
10
)56()51()55()58()54()511()55()54()56()50(
2222222222
22222222222
Bs
教員 B
22BA ss となり、教員 B の分散の方が大きいことがわ
かる。
39 Bs
標準偏差も である。BA ss
<標準化と標準正規分布> A 君は、あるテストで英語が 90 点、数学が 65 点で
あった。 ⇒ 英語の方が数学より成績が良かった?? 英語の平均点が 80 点、数学の平均点が 50 点だった。 ⇒ 英語は平均点より 10 点高い、数学は平均点より
15 点高い。数学の方が良い?? 英語と数学のどちらが成績が良かったのだろうか? ⇒ 標準化の必要性(これを応用したものが偏差値)
平均や分散の異なるものを比較するとき、平均や分散をそろえ、その相対的な位置によって比較しようというのが標準化の考えである。
標準化は次のような変換である。このようにして求められた変量を標準化変量( z スコア)
英語が平均 80 点、標準偏差 10 であり、数学が平均 50 点、標準偏差 20 であったとする。
この例で、
英語は
数学は
となり英語の方が成績が良いことになる。
s
xxz ii
110
8090
75.020
5065
z スコアの大小で、平均や分散の異なるものを比較することができる。 z スコアは算術平均 0 、標準偏差 1 の変量であるが、これを算術平均 50 、標準偏差 10 の変量に変換したものが偏差値 (T スコア ) である。 ( 算術平均50 、標準偏差 10 は 100 点満点のテストの点数のように見える )
偏差値は z スコアを次のように変換する。
先ほどの例では、 英語は
数学は
となる。
ii zT 1050
6011050
5.5775.01050
データを大きさの順(小さい順)に並べて、 4 分割する点を q1,q2,q3とする。
このとき、次式で定義される Q を四分位偏差という。
2
)( 13 qqQ
最小値 最大値q1 q2 q3
ⅳ) 四分位偏差
• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10 人のテストの点数の例では 90 - 10 =80
ⅲ) レンジ(範囲)
(例) 9 人のテストの点数が次のようになっていたとする。
出席番号 1 2 3 4 5 6 7 8 9点数 60 90 80 50 70 10 60 80 20
10 20 50 60 60 70 80 80 90
点数の低い順に並べ替え
最小値 q1 q2
(メディアン)
q3 最大値
q1⇒最小値と q2 (メディアン)の真ん中の値15
2
30
2
)5080(
Q
q3 q⇒ 2 (メディアン)と最大値の真ん中の値
0
10
20
30
40
50
60
70
80
90
100
9人のテストの点数の箱ひげ図
最大値q3 (第 3 四分位点)q1 (第 1 四分位点)
最小値
<箱ひげ図>
最大値、最小値、中央値、四分位点などをグラフに表したものが箱ひげ図である。下の図は、 9 人のテストの点数を箱ひげ図に表した 1 例である。
× 中央値