第 2 章 確率と確率分布
description
Transcript of 第 2 章 確率と確率分布
第 2 章 確率と確率分布
統計学 2013 年度
Ⅰ 確率の定義a) 先験的確率
1) 先験的確率の定義 2) 先験的確率の誤用b) 経験的確率
1) 経験的確率の定義 2) 経験的確率の特徴c) 主観的確率
1) 主観的確率の定義 2) 主観的確率の特徴Ⅱ 確率の公理と計算定理
a) 確率の公理b) 確率の計算定理
1) 加法定理 2) 条件つき確率と乗法定理 ☆発展☆ 条件つき確率とベイズの定理
Ⅲ 確率分布a) 確率変数b) 確率分布と確率密度c) 期待値と分散d) 2 項分布
◎ 数学補足 n Cx についてe) 正規分布
1) 標準化 2) 標準正規分布
Ⅰ 確率の定義
• 確率 - ある事象が起こるか起こらないか確実には分からないとき、その事象の起こる「確からしさ」を数値で表したもの
• 確率の定義には次の 3 とおりの方法がある。– 先験的確率– 経験的確率– 主観的確率
• ある行動の起こりうる結果が全部で n 通りあり、そのうち事象 A にあてはまる結果が a 通りあるとする。それらが同様に確からしく、互いに重複しない場合、 を事象 A の確率とする。
(例 1 ) コインを 1 枚投げたときに表の出る確率– 起こりうる結果 - 表、裏の 2 通り( n=2 )– 事象 A - 表が出る– あてはまる結果 - 1 通り( a=1 )
⇒
a) 先験的確率(古典的確率、数学的確率などともいう) 1) 先験的確率の定義
(例 2 ) サイコロを 1 個投げたときに 5 以上の目の出る確率– 起こりうる結果 - 1,2,3,4,5,6 の 6 通り( n=6 )– 事象 A - 5 以上の目が出る– あてはまる結果 - 5,6 の 2 通り( a=2 )
⇒ • これらの例では、おこりうるすべての結果が分かり、
同様に確からしいとみなせるので、実験を実際におこなってみなくても、確率を評価できる。
よって、先験的確率といわれる。
• 2 枚のコインを同時に投げたときに少なくとも 1 枚が表である確率を考える。– 起こりうる結果 - 表表、表裏、裏裏の 3 通り( n=3 )– 事象 A - 少なくとも 1 枚が表である– あてはまる結果 - 表表、表裏の 2 通り( a=2 )
⇒
「ローベルバルの過ち」といわれる問題
• 正しくは次の通り(パスカルがこのように修正した)– 起こりうる結果 - 表表、表裏、裏表、裏裏の 3 通り( n=4 )– 事象 A - 少なくとも 1 枚が表である– あてはまる結果 - 表表、表裏、裏表の 3 通り( a=3 )
⇒
2) 先験的確率の誤用
起こりうる結果が「同様に確からしい」とはいえない
• 明日、雨が降る確率(降水確率)– 起こりうる結果 - 雨が降る、雨が降らない の 2 通り
( n=2 )– 事象 A - 雨が降る– あてはまる結果 - 1 通り( a=1 )
⇒ • 「雨が降る」と「雨が降らない」は同様に確からし
いとはいえない。 ⇒ 先験的確率によって確率を定義することの限界
• 同じ条件のもとで繰り返し十分大きい観察がおこなわれたとき、観察総数 n の中で、特定の事象 A となる場合の数が a であったならば、 を事象 A の経験的確率という。
(例 1 ) 男児の出産確率 多数の出産例を観察した結果求められたもの。
(例 2 ) 降水確率同様な天気図(雲の配置など)を多数観察し、それから降水確率を求めている。
b) 経験的確率 1) 経験的確率の定義
• すべての結果がわからない場合でも確率を求めることができる。
• おこりうるすべての結果が同様に確からしいとはいえない。
• 同じ条件のもとで繰り返し十分大きい観察が不可能な事象については経験的確率が定義できない。
2) 経験的確率の特徴
• 事象 A に対する個人の確信の度合いを数値で表したもの P(A) を事象 A の主観的確率という。
(例) 日本ダービーでロゴタイプが勝つ確率は 60%である。
⇒ 競馬には対戦相手、枠順、血統、騎手、馬の調子、ローテーション、馬場状態、開催競馬場などの条件がある。これら同一の条件で、繰り返し十分な観察をすることは不可能である。
c) 主観的確率 1) 主観的確率の定義
• 主観的確率は個人の確信によって定まるので、同じ事象に対しても確率の評価は異なる。
⇒ このことから賭けがはじめて成立する。
( 例 ) 日本シリーズで日本ハムと巨人のどちらが勝つか。• 日本ハムに賭ける人 - 日本ハムが勝つ確率 ( 主観的確率 ) が高
い。• 巨人に賭ける人 - 巨人が勝つ確率 ( 主観的確率 ) が高い。
この両者が存在することによって、初めて賭けが成立する。全員が「日本ハムが勝つ確率が高い」と思っていたら賭けは成立し
ない。しかし、勝つ確率が低い方に賭けることもある。それは当たった時
にもらえる金額が多くなるからである。 ⇒ 期待値の大きさで判断している。
2) 主観的確率の特徴
主観的確率
経験的確率
先験的確率
Ⅱ 確率の公理と計算定理
a) 確率の公理
1. どのような事象 A に対しても、確率の値は常に 0 と 1の間の値をとる。すなわち、
2. おこりうる事象全体の集合を S とすれば、 S の確率は1 である。
3. A,B,… が同時に起こらない事象 ( このとき、 A,B,… を排反事象という ) のとき、 A,B,… のいずれかが起こる確率はそれぞれの事象が起こる確率の和に等しい。すなわち
0≤ 𝑃 ( 𝐴 )≤1
𝑃 (𝑆 )=1
𝑃 ( 𝐴∪𝐵∪⋯ )=𝑃 ( 𝐴 )+𝑃 (𝐵 )+⋯
ブランコがホームランを打つ (A1)
ブランコがホームランを打たない(A2)
計
DeNA が勝つ (B1) 0.1 0.495 0.595
引き分け (B2) 0.01 0.05 0.06
DeNA が負ける(B3)
0.04 0.305 0.345
計 0.15 0.85 1
b) 確率の計算定理
• ブランコがホームランを打ち、 DeNA が勝つ確率 → A1 と B1 がともに起きる確率である。これを A1 と B1 の同時確率といい、 P(A1∩B1) とあらわす。(∩は「かつ」(and) を表す記号。 cap とよぶ。 )• ブランコがホームランを打つかどうかに関わらず、 DeNA が勝つ確率 → A1 が起こるかどうかに関わらず、 B1 が起きる確率である。これを B1 の周辺確率といい、 P(B1) とあらわす。
1) 加法定理
(例) ブランコがホームランを打つか、 DeNA が勝つ確率
(∪は「または」 (or) を表す記号。 cup とよぶ。 )
<排反事象の場合> (例) DeNA が勝つか、引き分ける確率
ブランコがホームランを打つ (A1)
ブランコがホームランを打たない(A2)
計
DeNA が勝つ (B1) 0.1 0.495 0.595
引き分け (B2) 0.01 0.05 0.06
DeNA が負ける(B3)
0.04 0.305 0.345
計 0.15 0.85 1
加法定理
排反事象の場合の加法定理
𝑃 (𝐴1∪𝐵1 )=𝑃 (𝐴1 )+𝑃 (𝐵1 )−𝑃 (𝐴1∩𝐵1 )=0.15+0.595−0.1=0.645
𝑃 (𝐵1∪𝐵2 )=𝑃 (𝐵1 )+𝑃 (𝐵2 )=0.595+0.06=0.655
𝑃 (赤1∩赤2 )=𝑃 (赤1 )×𝑃 (赤2∨赤1 )=35×24=310
2) 条件つき確率と乗法定理• P(E)>0 のとき、事象 E の起こることを条件として、事象 F が起こ
ることを、 (E を条件とする )F の条件つき確率といい、 P(F|E) であらわす。
(例) 袋の中に、赤球 3 個、白球 2 個の計 5 個の球が入っている。この袋から球を続けて 2 個取り出すとき、 2 個とも赤球となる確率を考えてみよう。
1 個目が赤球であったという条件のもとで、 2 個目が赤球となる確率は、
1 個目が赤球となる確率は、
よって、 2 個とも赤球となる確率は、
乗法定理
A と B が同時に起こる確率であり、 A と B の同時確率といわれる。1 個目も 2 個目も赤球である確率。
1 個目の球が赤球である確率
1 個目の球が赤球であったという条件のもとで、 2 個目の球も赤であるという条件付き確率
𝑃 (赤1 )=35
𝑃 (赤2∨赤1 )=24
ブランコがホームランを打つ (A1)
ブランコがホームランを打たない(A2)
計
DeNA が勝つ (B1) 0.1 0.495 0.595
引き分け (B2) 0.01 0.05 0.06
DeNA が負ける(B3)
0.04 0.305 0.345
計 0.15 0.85 1
(例) ブランコがホームランを打ったときに、 DeNA が勝つ確率 ⇒ A1 を条件とする B1 の条件つき確率 P(B1|A1) である。 この条件つき確率を用いて、ブランコがホームランを打ち、
DeNA が勝つ確率を考えると、乗法定理により
となる。よって条件つき確率 P(B1|A1) は同時確率を周辺確率で割ることによって求めることができ、
となる。
𝑃 (𝐴1∩𝐵1 )=𝑃 (𝐴1 )×𝑃 (𝐵1∨𝐴1 )
𝑃 (𝐵1∨𝐴1 )=𝑃 (𝐴1∩𝐵1 )𝑃 ( 𝐴1 )
= 0.10.15
=0.67
<独立事象の乗法定理>• 事象 E が起こっても起こらなくても事象 F の確率に変化がないと
き、すなわち P(F|E) = P(F|Ec) = P(F) のとき、事象 E と事象 F は独立であるという。( Ec は E が起こらないという状況をあらわす)
この例で雨が降った場合の白鵬が勝つ条件つき確率は
雨が降らない場合の白鵬が勝つ条件つき確率は
となり、 P(B1|A1) = P(B1|A2) = P(B1) であることから、雨が降る
か降らないかと、白鵬が勝つか負けるかは独立である。• 事象 E と事象 F が独立である場合、乗法定理は
となる。
雨が降る (A1) 雨が降らない (A2) 計
白鵬が勝つ (B1) 0.2 0.6 0.8
白鵬が負ける (B2) 0.05 0.15 0.2
計 0.25 0.75 1
𝑃 (𝐵1∨𝐴1 )=𝑃 (𝐴1∩𝐵1 )𝑃 ( 𝐴1 )
= 0.20.25
=0.8
𝑃 (𝐵1∨𝐴2 )=𝑃 ( 𝐴2∩𝐵1 )𝑃 (𝐴2 )
= 0.60.75
=0.8
𝑃 (𝐸∩𝐹 )=𝑃 (𝐸 )×𝑃 (𝐹 )
☆ 発展☆ 条件つき確率とベイズの定理
(例) 5 本中 2 本の当たりのあるくじを、 5 人で順番に引く。 2番目に引く人があたりくじを引く確率は?
⇒ この問題に答えるときに、条件つき確率と乗法定理が用いられている。
(解) 1番目の人 当たり A1 はずれ A2
2番目の人 当たり B1 はずれ B2
とする。 1番目の人が当たりとわかったあとで、 2番目の人も当たりく
じを引く確率は ○ ××× ○
𝑃 (𝐵1∨𝐴1 )=14
1番目の人がはずれとわかったあとで、 2番目の人が当たりくじを引く確率は
○○ ××
よって、 2番目の人が当たりくじを引く周辺確率は
となる。(これは 1番目の人がくじを引く前の確率と考えられる)
×
𝑃 (𝐵1∨𝐴2 )=24=12
𝑃 (𝐵1 )=𝑃 ( 𝐴1∩𝐵1 )+𝑃 (𝐴2∩𝐵1 )=𝑃 (𝐴1 )×𝑃 (𝐵1∨𝐴1 )+𝑃 ( 𝐴2 )×𝑃 (𝐵1∨𝐴2 )=25×14+35×12=110
+310
=25
計
計
さらに、次のようなことを考える。
(例) 2番目に引く人があたりくじを引いたとき、 1番目に引いた人があたりを引いた確率は?
(解) 2番目に引く人があたりを引いたという条件のもとで、 1番目の人があたりを引く条件つき確率なので
を求めればよい。 この条件つき確率は
として求めることができる。
𝑃 (𝐴1¿𝐵1 )
𝑃 (𝐴1¿𝐵1 )=𝑃 ( 𝐴1∩𝐵1 )𝑃 (𝐵1 )
これはさらに
と変形することによって、
と計算できる。
𝑃 ( 𝐴1∩𝐵1 )𝑃 (𝐵1 )
=𝑃 (𝐴1 )× 𝑃 (𝐵1∨𝐴1 )
𝑃 ( 𝐴1 )× 𝑃 (𝐵1∨𝐴1 )+𝑃 (𝐴2 )×𝑃 (𝐵1∨𝐴2 )
𝑃 (𝐴1¿𝐵1 )=
25×14
25×14+ 35×12
=
11025
=14
※ ベイズの定理• 条件つき確率 P(A1|B1) は、周辺確率 P(A1) と条件つき確率 P(B1|A1)
を用いて次のように求めることが可能であった。
この定理をベイズの定理 という。
ベイズの定理は、 A1 についての事前確率 P(A1) が事象 B1 がおこったことによって、事後確率 P(A1|B1) に更新されたと解釈することができる。
(ここでは、 1番目の人が当たりを引いた確率が、 2番目の人が当たりくじを引いたことがわかることによって更新される)
この考え方は、迷惑メールのフィルタなどにも応用されている。
𝑃 (𝐴1¿𝐵1 )=𝑃 (𝐴1)× 𝑃 (𝐵1∨𝐴1 )
𝑃 ( 𝐴1 )×𝑃 (𝐵1∨𝐴1)+𝑃 (𝐴2 )× 𝑃 (𝐵1∨𝐴2 )
次のような例を考えてみよう (森田優三 (1993)『新統計概論』 p.361 より引用)
(例) ある銀行で貸出金が貸倒れ(返済されないこと)になる確率は 5% である。あるとき、この銀行が新しい審査基準を設けた。この審査基準を過去の借り手に適用すると、貸倒れにおわった借り手の 20% はこの審査に合格、順当に返済した借り手は 90% が合格であった。この審査に合格した新しい借り手が貸倒れにおわる確率はいくらか。
(解) 貸出金が 貸倒れ A1 完済 A2
審査に 合格 B1 不合格 B2
とする。
求める確率は P(A1|B1) である。
例の設定から次のようなことがわかるP(A1)=0.05 、 P(A2)=0.95
P(B1|A1)=0.2 、 P(B1|A2)=0.9
ベイズの定理を用いて P(A1|B1) を求めると
となる。貸倒れの事前確率 P(A1)= 0.05 が審査という追加情報によって、 P(A1|B1)= 0.012 という事後確率に更新されたと解釈できる。
𝑃 (𝐴1¿𝐵1 )=𝑃 (𝐴1)× 𝑃 (𝐵1∨𝐴1 )
𝑃 ( 𝐴1 )×𝑃 (𝐵1∨𝐴1)+𝑃 (𝐴2 )× 𝑃 (𝐵1∨𝐴2 )= 0.05×0.20.05×0.2+0.95×0.9
= 0.010.01+0.855
=0.01156…
Ⅲ 確率分布
a) 確率変数
• サイコロを 3回振る実験を考える。• 1 の目が出た場合を○、 1 の目以外が出た場合を × とあ
らわすと、起こりうる結果は○○○, ○○×, ○×○, ×○○, ○××, ×○×, ××○, ×××
の 8 通りである。
• ここで、 1の目が何回出たかによって分類するなら右図のようになる。
• 2回目に振ったサイコロの目は1回目に振ったさいころの目とは独立であるので、独立事象の乗法定理が用いられる。
1 の目が出た回数 パターン 確率
0回 ×××
1回 ××○
×○×
○××
2回 ○○×
○×○
×○○
3回 ×××
• 1 の目が出た回数を x 回とし、それに対応する確率を P(x) とあらわすと、次のように整理できる。
• このようにとりうる値†のそれぞれにある確率が対応している変数を確率変数といい、その対応関係を確率分布という。
† 連続変数の場合はその値を含む微小な区間を考える。
3 1サイコロを 回振った時の の目の出る回数
0
0.2
0.4
0.6
0.8
0 1 2 31の目の出る回数
確率
0 1 2 3
(0.579) (0.347) (0.069) (0.005)
b) 確率密度
• 右の図のようなルーレットがある。
• x は連続変数なので、 0 から 359 までの 360 通り以外に、 42.75, 108.268 などとりうる値が無限にある。
• そのため、 P(x=60) の確率を求めることはできない
xルーレットの針と真上とのなす角を x 度とする。ここで、 x=60度となる確率を考えると、
𝑃 (𝑥=60 )= 1360
• 連続型確率変数の場合には、 x=60 といった確率を求めることはできないので、代わりにといった微小区間に入る確率を考える。
• この確率を確率密度という。
• 連続型確率変数の確率分布は、確率密度を線で結んだ密度関数 f(x)によってあらわす。(グラフの場合も、数式の場合もある)
• ルーレットの例の場合の密度関数は次のようになる。
0 360
1/360f(x)
• 右のような確率で賞金がもらえるくじがあったとする。
• このくじを 1 枚購入した時点で、いくらの賞金がもらえるかはわからない。
• しかし、大体いくらぐらいもらえるかを知りたい。
• そのとき、もらえる金額 × 当たる確率
の総和がもらえると期待できる金額となる。
このくじの期待値は 50 (円)であるという
c) 期待値と分散
50(円 )
等 もらえる金額 当たる確率
1 等 1000000円
2 等 20000円
3 等 100円
はずれ 0円
• ある人がこのくじを 5万本全部買い占めたとする。くじの当選番号が発表された後で当選金の払い戻しを受ける場合、その合計金額は確実に 2500000 (円)であり、 1 枚あたりの当選金(すなわち算術平均)を考えると、 2500000÷50000=50 (円)であり、期待値に一致する。
期待値=確率変数の算術平均† このことから、期待値のことを、「平均」「平均値」などと呼ぶこともある。
等
1 等 1000000 1 1000000
2 等 20000 50 1000000
3 等 100 5000 500000
はずれ 0 44949 0
2500000
• 主催者が、全部で 5万本のくじを作成したとする。当たる確率を考えると、このときくじの中に、 1等を 1 本、 2 等を 50 本、3 等を 5000 本入れる必要がある。このくじが、全部で 5万本あったとすると、右のような度数分布表であらわすことができる。
• このことは、次のように考えることができる。
• サイコロを 3回振る実験で 1 の目が出た回数を x とするなら、 x の期待値は
となり、 1 の目が出る回数の期待値は 0.5回である。• またサイコロを 6回振る実験をおこなうと
となるので、 1 の目が出る回数の期待値は
となり、 6回ふれば 1 の目が 1回ぐらい出るという直感に一致する。
0×125216
+1×75216
+2×15216
+3×1216
=0+75216
+30216
+3216
=108216
=12
0×1562546656
+1×1875 046656
+2×937546656
+3×250046656
+4×37546656
+5×3046656
+6×1
46656=0+
1875046656
+1875046656
+750046656
+150046656
+15046656
+6
46656=4665646656
=1
0 1 2 3 4 5 6
• 期待値は とあらわすことができる。• 分散は となる。
• 連続型確率変数の場合は
となる。
𝐸 (𝑥 )=∫𝑥 𝑓 (𝑥 ) 𝑑𝑥𝑉 (𝑥 )=∫ (𝑥−𝐸 (𝑥 ) )2 𝑓 (𝑥 )𝑑𝑥
• 確率分布は、いくつかの種類に分類することができる。– 離散型確率分布
2 項分布、ポアソン分布、負の 2 項分布、超幾何分布、・・・– 連続型確率分布
正規分布、 t 分布、カイ 2 乗分布、・・・
d) 2 項分布
[ 定義 ] 起こりうる結果が A か B かという 2 つの結果しか起こらない試行† を n回繰り返したとき、 A という結果が x回おこったとする。この x の確率分布を 2 項分布という。† このような試行をベルヌーイ試行という
[ 分布関数 ] A が起こる確率を p 、 B が起こる確率をq(=1-p) とすると、 2 項分布は
p(x)=nCxpxqn-x
という式であらわすことができる。この式を 2 項分布の分布関数という。
( 例 ) サイコロを 3回振る実験では、 A ( 1 の目が出る)か B ( 1 の目が出ない)かという 2 つの結果しか起こらない試行を n ( =3 )回繰り返したとき、 A ( 1の目が出る)という結果が x回おこった。この x の確率分布は 2 項分布 ( にしたがう ) といわれる。
• この例では、 であるので、分布関数にあてはめると、 となる。
• x のとりうる値は 0,1,2,3 の 4 つであるので、この分布関数は次のような関係を表している。
0 1 2 3
◎ 数学補足 n Cx について• n Cx は n 個の中から x 個を選ぶ組み合わせの数であり、
次のように定義される。
• ここで、!は階乗を表す記号であり、次のようなものである。
n! = n ×(n-1)×・・・ ×2×1
よって、n Cx は次のように計算できる。
𝑛𝐶𝑥=𝑛× (𝑛−1 )×⋯ (𝑛−𝑥+1 )× (𝑛−𝑥 )×⋯×2×1𝑥× (𝑥−1 )×⋯×2×1× (𝑛− 𝑥 )×⋯×2×1
=𝑛× (𝑛−1 )×⋯ (𝑛− 𝑥+1 )𝑥× (𝑥−1 )×⋯×2×1
x 個
𝑛𝐶𝑥=𝑛 !
𝑥 ! (𝑛−𝑥 ) !
x 個
たとえば、5人の班の中から 2 人の委員を選ぶ組み合わせは
となる。• サイコロを 3回振る実験において、 1 の目が 1回出る
パターンは、 ○ ××, ×○×, ××○ の 3 通りあるが、これはサイコロを振る 3回のうち、何回目に 1 の目が出るかを考えたものであり、
である。• また、 nC0 は定義のように計算できないので、 nC0=1と特別に定義する。
5𝐶2=5×42×1
=202
=10 ( 通り)
3𝐶1=31=3 (通り )
[ 期待値と分散 ] 2 項分布の期待値(平均)は E(x)=np 分散は
V(x)=npq となる。
• 離散型確率変数の期待値は、一般に によって求めることができるので、
となる。• 確率変数が 2 項分布にしたがう場合、期待値は として
求めることができる。すなわち、すべてのとりうる値と対応する確率が得られなくても、期待値が計算できるのである。
• この例の場合 となる。• また分散は、 となる。
𝐸 (𝑥 )=0× 125216
+1×75216
+2×15216
+3×1216
=0+75216
+30216
+3216
=108216
=12=0.5
2 (n=5)項分布
0
0.1
0.2
0.3
0.4
0.5
0 1 2 3 4 5
2 (n=10)項分布
00.050.10.150.20.250.30.35
0 1 2 3 4 5 6 7 8 9 10
2 (n=20)項分布
0
0.05
0.1
0.15
0.2
0.25
0 2 4 6 8 10 12 14 16 18 20
2 (n=50)項分布
00.020.040.060.080.10.120.140.16
0 2 4 6 8 10 12 14 16 18 20
2 (n=100)項分布
0
0.02
0.04
0.06
0.08
0.1
0.12
0 3 6 9 12 15 18 21 24 27 30 33
e) 正規分布• 2 項分布において、 n を大きくしていくと、左右対称の
つりがね型の正規分布といわれる分布に近づく。• 2 項分布は離散型確率変数の分布であるが、 n を無限に
大きくしたとき、 x のとりうる値は無限に大きくなる。すなわちxは連続型確率変数として扱われる。
n=500のとき
0
0.01
0.02
0.03
0.04
0.05
0.06
0 8 16 24 32 40 48 56 64 72 80 88 96 104
112
120
128
136
144 x
P(x)
• 正規分布は数学的に望ましい性質を持った分布• 身長や知能指数などがこの分布にしたがうといわれて
いる。• 密度関数
𝑓 (𝑥 )= 1
√2𝜋 𝜎2𝑒− 12 (𝑥−𝜇𝜎 )
2
(自然対数の底 )
正規分布の平均は、分散は
• 正規分布は平均 μ 、分散 σ2 の値によって、中心の位置や山の高さが変わってくる。
<平均の異なる正規分布>
σ =1の正規分布
0
0.1
0.2
0.3
0.4
0.5
-7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7
μ =0μ =3μ =-4
<分散の異なる正規分布>
• これらの正規分布は、中心の位置を移動させたり、目盛りの幅を変える(横に伸ばしたり、縮めたりする)ことによって、全て同じ正規分布となる。
μ =0の正規分布
00.10.20.30.40.50.60.70.80.9
-7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7
σ =1σ =2σ =1/ 2
1) 標準化• A君は、あるテストで英語が 90点、数学が 65点で
あった。 ⇒ 英語の方が数学より成績が良かった??
• 英語の平均点が 80点、数学の平均点が 50点だった。⇒ 英語は平均点より 10点高い、数学は平均点より 15点高い。数学の方が良い??
• 英語と数学のどちらが成績が良かったのだろうか?⇒ 標準化の必要性(これを応用したものが偏差値)
• 英語が平均 80 、標準偏差 10 の正規分布、数学が平均50 、標準偏差 20 の正規分布にそれぞれしたがうとする。
• 平均や分散の異なるものを比較するとき、平均や分散をそろえ、その相対的な位置によって比較しようというのが標準化の考えである。
英語と数学の成績の分布
0
0.01
0.02
0.03
0.04
0.05
0 10 20 30 40 50 60 70 80 90 100
点数
f(x)
数学英語
• 標準化は次のような変換である。
• この例で、英語は (90-80)/10=1
数学は (65-50)/20=0.75
となり英語の方が成績が良いことになる。• 偏差値は、この z を用いて 50+10×z で求められる。こ
の人の英語の偏差値は 60 、数学の偏差値は 57.5 である。
𝑧=𝑥−𝜇𝜎
2) 標準正規分布• 正規分布にしたがう変数について、このような変換を
おこなうと、標準正規分布(平均 0 、分散 1 の正規分布)になる。
• 標準正規分布では ±1 の範囲に 68.3% 、 ±2 の範囲に95.4% 、 ±3 の範囲に 99.7% が含まれる。
標準正規分布
00.050.10.150.20.250.30.350.40.45
- 3.5 - 3 - 2.5 - 2 - 1.5 - 1 - 0.5 0 0.5 1 1.5 2 2.5 3 3.5