第 2 章 Ⅱ  特性値による記述 (増補版)

24
以以以以以以以以以以以以以以以以以以以以以以以以以 以以以以以以以以以 、。

description

第 2 章 Ⅱ  特性値による記述 (増補版). 統計学基礎  2010 年度. ※  以前のスライドに補足を加えたい部分が多くあったので、増補版を作成した。. Ⅱ  特性値による記述. 1)  代表値(中心的傾向). ある集団についてのデータ(例えば 50 人のクラスの身長など)があるとき、集団の特徴をあらわすには、その中心的傾向を示す数値が必要となる。 中心的傾向をあらわす数値として、 算術平均 メディアン(中央値) モード(最頻値) の 3 種類がある。. ⅰ)  算術平均. 算術平均 = データの合計 ÷ データ数. (例)  10 人のテストの点数. - PowerPoint PPT Presentation

Transcript of 第 2 章 Ⅱ  特性値による記述 (増補版)

Page 1: 第 2 章 Ⅱ  特性値による記述 (増補版)

※ 以前のスライドに補足を加えたい部分が多くあったので、増補版を作成した。

Page 2: 第 2 章 Ⅱ  特性値による記述 (増補版)

ある集団についてのデータ(例えば 50 人のクラスの身長など)があるとき、集団の特徴をあらわすには、その中心的傾向を示す数値が必要となる。

中心的傾向をあらわす数値として、› 算術平均› メディアン(中央値)› モード(最頻値)

の 3 種類がある。

1)  代表値(中心的傾向)

Page 3: 第 2 章 Ⅱ  特性値による記述 (増補版)

算術平均 = データの合計 ÷ データ数

出席番号 1 2 3 4 5 6 7 8 9 10点数 60 90 80 50 70 10 60 80 20 80

6010

600

10

80208060107050809060

x

ⅰ)  算術平均

(例)  10 人のテストの点数

n

x

n

xxxx

n

ii

n

121

Page 4: 第 2 章 Ⅱ  特性値による記述 (増補版)

メディアン → データを大きさの順に並べたときに真ん中にくる値。データ数が偶数のときは真ん中の 2 つの値を足して 2 で割る。

出席番号 1 2 3 4 5 6 7 8 9 10点数 60 90 80 50 70 10 60 80 20 80

点数の低い順に並べ替え

10 20 50 60 60 70 80 80 80 90

真ん中この 2 つを足して 2 で割った

( 60 + 70 ) ÷2=65 がメディアン

ⅱ)  メディアン(中央値、中位数)

Page 5: 第 2 章 Ⅱ  特性値による記述 (増補版)

モード - データの中で最も多く出てくる値。 10 人のテストの点数の例では

出席番号 1 2 3 4 5 6 7 8 9 10点数 60 90 80 50 70 10 60 80 20 80

80 点が 3 人と最も多い。モードは 80 となる。

† データのとりうる値が多いとき、データの最も多く出てくるものではなく、度数分布表にしたときに、最も度数の多い階級の階級値をモードと考える。

ⅲ)  モード(最頻値)

Page 6: 第 2 章 Ⅱ  特性値による記述 (増補版)

下の表は A,B,C,D,E 5人のある月の収入(単位:万円)である。

ⅳ)  各代表値の特徴

仮想データ

• この5人の収入の算術平均は

A B C D E20 20 22 28 30

245

120

5

0328222020

x

• メディアンは、この場合、小さい順に並んでるので

• モードは、

• よって、算術平均は 24 、メディアンは 22 、モードは 20となる。

Page 7: 第 2 章 Ⅱ  特性値による記述 (増補版)

A B C D E F20 20 22 28 30 60

次に、裕福な F さんがこの5人に加わったとする。

仮想データ

• この6人の収入の算術平均は

306

180

6

600328222020

x

• メディアンは、真ん中の2人を足して2で割るので、 (22+28)÷2=25

• モードは、

• よって、算術平均は 30 、メディアンは 25 、モードは 20となる。

Page 8: 第 2 章 Ⅱ  特性値による記述 (増補版)

A B C D E F G20 20 22 28 30 60 1220

次に、より裕福な G さんがこの 6 人に加わったとする。

仮想データ

• この 7 人の収入の算術平均は

2007

1400

7

1220600328222020

x

• メディアンは、真ん中である。

• モードは、

• よって、算術平均は 200 、メディアンは 28 、モードは20 となる。

Page 9: 第 2 章 Ⅱ  特性値による記述 (増補版)

別の例もみてみよう。下の図は貯蓄現在高階級別の世帯分布である。

出典:総務省統計局『家計簿から見たファミリーライフ』(http://www.stat.go.jp/data/kakei/family/4-5.htm#1)

• 貯蓄現在高が算術平均 (1638 万円 ) より低い世帯は全世帯の 3分の 2 におよぶ。ほとんどの世帯はメディアンである 988万円ほどの貯蓄もなく、 200 万円未満の貯蓄しかない ( ここがモードである ) 。

• 少数の大金持ちと多数の庶民がいるため、このようなことがおこる。

Page 10: 第 2 章 Ⅱ  特性値による記述 (増補版)

051015202530354045

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

度数

階級

右にゆがんだ分布の例

051015202530354045

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

度数

階級

左右対称な分布の例(1)

051015202530354045

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

度数

階級

左右対称な分布の例(2)

ゆがんだ分布であれば、算術平均とメディアンは一致しない。(モードも一致しない)左右対称な分布であれば、算術平均とメディアンは一致する。また、分布の山が 1 つであれば、モードもこれに一致する。

Page 11: 第 2 章 Ⅱ  特性値による記述 (増補版)

<正規分布> 算術平均、メディアン、モードが等しくなる、山が 1 つの左

右対称の分布の中に、つりがね型†をした正規分布といわれるものがある。

この分布は、数学的に非常に取り扱いやすい性質を持っており、身長や知能指数などがこの分布にしたがうといわれている。テストの点数もこのような分布になることが理想といわれている。

†  「つりがね型」は、 bell curve の訳であり、日本の寺院にあるつりがねの形ではなく、教会にあるベルの形をしている。

Page 12: 第 2 章 Ⅱ  特性値による記述 (増補版)

算術平均は少数の極端な値が含まれるとき、その集団の正しい代表値とならないことがある。メディアンの方が少数の極端な値の影響を受けづらい。

しかし、貯蓄現在高のように分布がゆがんでいる場合には、メディアンでも集団の正しい代表値とはいえない場合もある。(この場合はモードが適切か)

しかし、算術平均は数学的な扱いやすさから、代表値として非常に良く用いられている。

  算術平均をうのみにしないようにしよう!

Page 13: 第 2 章 Ⅱ  特性値による記述 (増補版)

教員 B• チャイムと同時に教室にく

ることもあれば、10分以上遅れることもある。

教員 A• チャイムの5分後に必ず教

室にくる。

• 2人の教員はともに平均してチャイムの5分後に教室にくる

• 2 人の教員の特徴を表現するために、平均だけでは不十分。

   →散らばりの尺度の必要性• 散らばりの傾向をあらわす尺度として

– 分散、標準偏差– レンジ(範囲)、四分位偏差

などがある。

2)  散布度(散らばりの傾向)

Page 14: 第 2 章 Ⅱ  特性値による記述 (増補版)

分散=偏差 2 乗和 ÷ データ数  偏差 2 乗和 - 個々のデータから算術平均を引いたも

の(偏差)を 2 乗して、すべて加えたもの。

n

xx

n

xxxxxxs

n

ii

n

1

222

22

12

)()()()(

10

60)(8060)(2060)(8060)(6060)(1060)(7060)(5060)(8060)(9060)(60 22222222222 s

64010

6400

10 人のテストの点数の例では

ⅰ) 分散

Page 15: 第 2 章 Ⅱ  特性値による記述 (増補版)

出席番号 1 2 3 4 5 6 7 8 9 10点数 60 90 80 50 70 10 60 80 20 80

0 30 20 -10 10 -50 0 20 -40 20

算術平均 60 を引く

偏差

2 乗を求める

0 900 400 100 100 2500 0 400 1600 400

合計を求める

6400データ数 (10) で割る

640 分散

Page 16: 第 2 章 Ⅱ  特性値による記述 (増補版)

標準偏差 ⇒ 分散の平方根

n

xxss

n

ii

1

2

2

)(

10 人のテストの点数の例では

25.298640 s

ⅱ) 標準偏差

Page 17: 第 2 章 Ⅱ  特性値による記述 (増補版)

( 単位 : 分 )※ 2 人の教員が教室に来る時間の例

回 1 2 3 4 5 6 7 8 9 10A教員 4.5 5.3 4.8 5 5.5 4.7 5.2 4.8 4.9 5.3B教員 0 6 4 5 11 4 8 5 1 6

510

50

10

3.59.48.42.57.45.558.43.55.4

Ax

09.010

9.010

09.001.004.004.009.025.0004.009.025.010

)3.0()1.0()2.0()2.0()3.0()5.0()0()2.0()3.0()5.0(

10

)53.5()59.4()58.4()52.5()57.4()55.5()55()58.4()53.5()55.4(

2222222222

22222222222

As

教員 A

3.009.0 As

Page 18: 第 2 章 Ⅱ  特性値による記述 (増補版)

510

50

10

61584115460

Bx

910

9010

116091360112510

)1()4()0()3()1()6()0()1()1()5(

10

)56()51()55()58()54()511()55()54()56()50(

2222222222

22222222222

Bs

教員 B

22BA ss となり、教員 B の分散の方が大きいことがわ

かる。

39 Bs

標準偏差も      である。BA ss

Page 19: 第 2 章 Ⅱ  特性値による記述 (増補版)

<標準化と標準正規分布> A 君は、あるテストで英語が 90 点、数学が 65 点で

あった。 ⇒ 英語の方が数学より成績が良かった?? 英語の平均点が 80 点、数学の平均点が 50 点だった。 ⇒ 英語は平均点より 10 点高い、数学は平均点より

15 点高い。数学の方が良い?? 英語と数学のどちらが成績が良かったのだろうか? ⇒ 標準化の必要性(これを応用したものが偏差値)

Page 20: 第 2 章 Ⅱ  特性値による記述 (増補版)

平均や分散の異なるものを比較するとき、平均や分散をそろえ、その相対的な位置によって比較しようというのが標準化の考えである。

標準化は次のような変換である。このようにして求められた変量を標準化変量( z スコア)

英語が平均 80 点、標準偏差 10 であり、数学が平均 50 点、標準偏差 20 であったとする。

この例で、

      英語は

      数学は

となり英語の方が成績が良いことになる。

s

xxz ii

110

8090

75.020

5065

Page 21: 第 2 章 Ⅱ  特性値による記述 (増補版)

z スコアの大小で、平均や分散の異なるものを比較することができる。 z スコアは算術平均 0 、標準偏差 1 の変量であるが、これを算術平均 50 、標準偏差 10 の変量に変換したものが偏差値 (T スコア ) である。 ( 算術平均50 、標準偏差 10 は 100 点満点のテストの点数のように見える )

偏差値は z スコアを次のように変換する。

先ほどの例では、      英語は

      数学は

となる。

ii zT 1050

6011050

5.5775.01050

Page 22: 第 2 章 Ⅱ  特性値による記述 (増補版)

データを大きさの順(小さい順)に並べて、 4 分割する点を q1,q2,q3とする。

このとき、次式で定義される Q を四分位偏差という。

2

)( 13 qqQ

最小値 最大値q1 q2 q3

ⅳ) 四分位偏差

• レンジ ⇒ データの取りうる範囲

    レンジ = 最大値 - 最小値

• 10 人のテストの点数の例では   90 - 10 =80

ⅲ) レンジ(範囲)

Page 23: 第 2 章 Ⅱ  特性値による記述 (増補版)

(例) 9 人のテストの点数が次のようになっていたとする。

出席番号 1 2 3 4 5 6 7 8 9点数 60 90 80 50 70 10 60 80 20

10 20 50 60 60 70 80 80 90

点数の低い順に並べ替え

最小値 q1 q2

(メディアン)

q3 最大値

q1⇒最小値と q2 (メディアン)の真ん中の値15

2

30

2

)5080(

Q

q3 q⇒ 2 (メディアン)と最大値の真ん中の値

Page 24: 第 2 章 Ⅱ  特性値による記述 (増補版)

0

10

20

30

40

50

60

70

80

90

100

9人のテストの点数の箱ひげ図

最大値q3 (第 3 四分位点)q1 (第 1 四分位点)

最小値

<箱ひげ図>

最大値、最小値、中央値、四分位点などをグラフに表したものが箱ひげ図である。下の図は、 9 人のテストの点数を箱ひげ図に表した 1 例である。

× 中央値