統計学勉強会 試験直前回
Transcript of 統計学勉強会 試験直前回
統計検定3級受験直前回
2015/06/13
● 各章のタイトルがここに入ります その章の中のどのあたりにいるかがここに入ります
西 航
統計学超入門
● 過去問の解説- 前回の勉強会で、2014/11/30の統計検定3級の問題を各自解きました。
- その中の、問5, 6, 8-(1), 13について解説します。
- とくに、今まで扱っていなかった箱ひげ図について少し詳しく説明します。
● 条件付き確率- 試験の範囲であるにも関わらず、
今まで取り上げられていなかった条件付き確率について説明します。
過去問の解説● 条件付き確率
レジュメ
過去問の解説
過去問の解説● 条件付き確率
問5問6問8-(1)問13
過去問の解説
● 元のデータは、年間所得金額の、階級別の構成比の統計。
● その10年間の推移がグラフになっている。
● そのグラフから読み取れる、年間所得金額の中央値の推移を表した折れ線グラフを、選択肢から選びなさい。
● 過去問の解説● 条件付き確率
問5問6問8-(1)問13
問5 設問
● 所得金額の中央値は、構成比のグラフのどこに現れるか?
問5問6問8-(1)問13
問5 解説
● 過去問の解説● 条件付き確率
● ここ
問5問6問8-(1)問13
問5 解説
● 過去問の解説● 条件付き確率
● 中央値が「500万円未満」を明らかに上回っているのは平成11年のみ。12年はちょうど500万くらい。
● 14年と15年ではほぼ同じ?それ以外は年々下がっている。
問5問6問8-(1)問13
問5 解説
※この問題の正解を選ぶにあたって邪魔になる注意
純粋にグラフから読み取れる情報としては、たとえば「400万円台の階級のうち、中央値は下から8割くらいの高さのところにあるから480万円くらい」ということは言えない。
論理的には、400万円台のうち上のほうの世帯の年収と下のほうの世帯の年収が同じであることもあり得る。(400万円台のすべての世帯の年収がちょうど450万0000円である場合など)
一般に論理的には、階級ごとにまとめられたデータに基づいたグラフから階級内での変動を読み取ることはできないが、今回のデータは現実の所得金額の統計であることを考慮すると、読み取ることができると考えてもほとんど問題ないと思われる。
● 過去問の解説● 条件付き確率
● 中央値が「500万円未満」を明らかに上回っているのは平成11年のみ。12年はちょうど500万くらい。
● これを満たす選択肢は「1」しかない。
● 念のため「14年と15年でほぼ同じ」も確認すると、たしかにそのようになっている。
● 問5の解説おわり。
問5問6問8-(1)問13
問5 解説
● 過去問の解説● 条件付き確率
● これから登場する「箱ひげ図」の説明をします。
問5問6問8-(1)問13
問6の前に
● 過去問の解説● 条件付き確率
● この図が全てです。(http://kou.benesse.co.jp/nigate/math/a13m0404.html にあった)
問5問6問8-(1)問13
箱ひげ図とは
● 過去問の解説● 条件付き確率
● 以下のデータについて、箱ひげ図を描いてみましょう。
問5問6問8-(1)問13
練習問題(箱ひげ図)
[10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20]
[20, 23, 24, 25, 25, 25, 25, 25, 26, 27, 30]
[30, 35, 37, 37, 38, 38, 39, 39, 39, 40, 40]
最小値 = 3, 最大値 = 38, Q1 = 10,Q3 = 26, 中央値 = 18, 平均 = 15 のデータ
● 過去問の解説● 条件付き確率
● 2014/11/30の問題では、平均の「+」マークが書かれていないものしか出題されていない。
● でもビビる必要はなくて、それ以外は全く同じだし、詳しくは知らないけど、平均の位置は必ず書かないといけないものでもないんだと思う。
● もし、見た目が通常のものから大きく変わるようであれば、問題中に十分な説明があるはず。
● 「+」マークに限らず、箱ひげ図に限らず、少しくらい変化があってもビビらないようにしましょう。
● 箱ひげ図の説明は終わり。
問5問6問8-(1)問13
箱ひげ図の説明は終わり
● 過去問の解説● 条件付き確率
● 1952年から1963年までの12年間と、2002年から2013年までの12年間の、東京の9月の平均気温の箱ひげ図
● 箱ひげ図から読み取れることとして、最も適切なものを選択肢から選びなさい。
問5問6問8-(1)問13
問6 設問
● 過去問の解説● 条件付き確率
● ざっと観察
問5問6問8-(1)問13
問6 解説
3年
3年
3年
3年
3年3年3年
3年
● 過去問の解説● 条件付き確率
● 2002年から2013年では、平均気温が25.0℃ 以上であった年が7年以上あった。
● 6年以下。
● いずれの12年間でも、平均気温が23℃ であった年があった。
● 2002-2013年ではあったように読み取れるが、1952-1963年ではそのことは読み取れない。
● 中央値のラインが23℃ ちょうどの位置にあっても、23℃ の年があったとは言えないことに注意。(12個のデータの中央値は、6位と7位の平均)
問5問6問8-(1)問13
問6 選択肢1, 2
● 過去問の解説● 条件付き確率
● 1952年から1963年における23℃ 以上24℃ 未満の平均気温の年の数に比べ、2002年から2013年における23℃ 以上24℃ 未満の平均気温の年の数の方が少ない。
● 前者は3以下?、後者は3?なので、後者が少ないということはない。(微妙だが、少なくとも確実に少ないとは言えない)
● 平均気温が24℃ 以上あった年は、2002年から2013年では9年以上あったことに対し、1952年から1963年では6年以下であった。
● 正しい。
問5問6問8-(1)問13
問6 選択肢3, 4
● 過去問の解説● 条件付き確率
● 1952年から1963年では、23℃ 以下の平均気温の年が5年未満であった。
● 6年以上。
● 問6の解説終わり。
問5問6問8-(1)問13
問6 選択肢5
● 過去問の解説● 条件付き確率
● 20名のクラスで実施した数学と英語の試験の点数の、一次データと散布図が与えられている。
● 数学の得点の分布を表す箱ひげ図、英語の得点の分布を表す箱ひげ図としてそれぞれ適切なものを選びなさい。
問5問6問8-(1)問13
問8-(1) 設問
● 過去問の解説● 条件付き確率
問5問6問8-(1)問13
問8-(1) 解説
● 過去問の解説● 条件付き確率
● 散布図を観察● 英語の得点の順位
を書き込んだもの● 最小値40くらい
● 最大値92くらい
● 中央値70くらい(10と11の平均)
● Q1 = 54くらい(5と6の平均)
● Q3 = 87くらい(15と16の平均)
● 最小値40の箱ひげ図は「ロ」だけ
● 数学の得点● 書き込むのは面倒
すぎて諦めた● 最小値23くらい
● 最大値98くらい
● 中央値70くらい(10と11の平均)
● Q1 = 65くらい(5と6の平均)
● Q3 = 75くらい(15と16の平均)
● 適当そうな図は「イ」
問5問6問8-(1)問13
問8-(1) 解説
● 過去問の解説● 条件付き確率
● 数学の箱ひげ図は「イ」、英語の箱ひげ図は「ロ」
● 四分位偏差 (Q3 -Q1)/2 は明らかに、数学のほうが英語より小さい。
● 四分位偏差、標準偏差は共にばらつきの尺度なので、標準偏差も数学のほうが小さいと思われる。
● 選択肢のうち、「標準偏差は数学のほうが小さい」は3だけで、他は同じとか英語のほうが小さいとか書いてる。
● 正解は3.
問5問6問8-(1)問13
ついでに問8-(2)
● 過去問の解説● 条件付き確率
● 30年間の、東京の7月の平均気温を表す箱ひげ図が与えられている。
● 箱ひげ図の元となるデータのヒストグラムを、選択肢から選びなさい。
問5問6問8-(1)問13
問13 設問
● 過去問の解説● 条件付き確率
● 箱ひげ図を観察
● 最小値は22.2くらい、最大値は28.8くらい
● 中央値(15位と16位の平均)は26.3くらい
● Q1 (8位)は25.9くらい、Q3 (23位)は27.3くらい
問5問6問8-(1)問13
問13 解説
● 過去問の解説● 条件付き確率
● 選択肢1はQ1が23.5-24.5の階級内。不適切
● 選択肢2も同様
● 選択肢3も同様
● 選択肢4はQ1が24.5-25.5の階級内。不適切
● 選択肢5が正解
● 過去問の解説終わり。
問5問6問8-(1)問13
問13 解説
● 過去問の解説● 条件付き確率
条件付き確率
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
条件付き確率
● 赤い袋(R) が1つと、青い袋(B) が1つあります。
● りんご(a)が8個、オレンジ(o)が14個あります。
● 赤い袋には、りんご2個とオレンジ8個が入っています。
● 青い袋には、りんご6個とオレンジ6個が入っています。
● 赤い袋と青い袋は、ある1つの箱に入っています。
● 箱から、ランダムに果物を取り出すことを考えます。
共通のシチュエーション
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● 箱から果物を1つ取り出すとき、それがりんごである確率P(a)はいくらでしょう?
● 箱から果物を1つ取り出すとき、それが青い袋から取り出される確率P(B)はいくらでしょう?
まずは普通の確率
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● 箱から果物を1つ取り出すとき、それがりんごである確率P(a)はいくらでしょう?
● りんごは8個、果物は全部で22個なので、
P(a) = 8/22.● 箱から果物を1つ取り出すとき、それが青い袋から
取り出される確率P(B)はいくらでしょう?
● 青い袋に入っている果物は12個、果物は全部で22個なので、P(B) = 12/22.
まずは普通の確率
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● P(R) = 10/22.● P(B) = 12/22.● P(a) = 8/22.● P(o) = 14/22.
ついでに、それぞれの確率
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● 箱から果物を1つ取り出すとき、それが赤い袋から取り出されたりんごである確率P(R, a)はいくらでしょう?
● 箱から果物を1つ取り出すとき、それが青い袋から取り出されたオレンジである確率P(B, o)はいくらでしょう?
同時確率
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● 箱から果物を1つ取り出すとき、それが赤い袋から取り出されたりんごである確率P(R, a)はいくらでしょう?
● 赤い袋に入っているりんごは2個、果物は全部で22個なので、P(R, a) = 2/22.
● 箱から果物を1つ取り出すとき、それが青い袋から取り出されたオレンジである確率P(B, o)はいくらでしょう?
● 青い袋に入っているオレンジは6個、果物は全部で22個なので、P(B, o) = 6/22.
同時確率
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● P(R, a) = 2/22.● P(R, o) = 8/22.● P(B, a) = 6/22.● P(B, o) = 6/22.
ついでに、それぞれの同時確率
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● 一般に、「XかつY」と「YかつX」は同じなので、同時確率について
P(X, Y) = P(Y, X)
が言える。● 「赤い袋から取り出されたりんごである確率」を
P(R, a)と書いても、
P(a, R)と書いても良い、ということ。
ところで
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● 箱から果物を1つ取り出しました。それは赤い袋から取り出されたことが分かっています。それがオレンジである確率P(o | R)はいくらでしょう?
● 箱から果物を1つ取り出しました。それはりんごでした。それが青い袋から取り出された確率P(B | a)はいくらでしょう?
条件付き確率
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● 箱から果物を1つ取り出しました。それは赤い袋から取り出されたことが分かっています。それがオレンジである確率P(o | R)はいくらでしょう?
● 赤い袋に入っているオレンジは8個、赤い袋に入っている果物は全部で10個なので、P(o | R) = 8/10.
● 箱から果物を1つ取り出しました。それはりんごでした。それが青い袋から取り出された確率P(B | a)はいくらでしょう?
● 青い袋に入っているりんごは6個、りんごは全部で8個なので、P(B | a) = 6/8.
条件付き確率
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● 以下のように計算してもよい。● 赤い袋に入っているオレンジは8個、赤い袋に入っている果物は全部で10個なので、P(o | R) = 8/10.
● P(o, R) = 8/22, P(R) = 10/22なので、
P(o | R) = P(o, R) / P(R) = 8/10.● 青い袋に入っているりんごは6個、りんごは全部で8個なので、
P(B | a) = 6/8.
● P(B, a) = 6/22, P(a) = 8/22なので、
P(B | a) = P(B, a) / P(a) = 6/8.
条件付き確率の計算
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● 条件付き確率は、もとになる事象の確率と同時確率から計算できる!
● 条件付き確率を計算するには、それぞれの事象の具体的な個数/頻度を知らなくても、確率を知っていれば十分。
条件付き確率の計算
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● P(R | a) = 2/8.● P(B | a) = 6/8.● P(R | o) = 8/14.● P(B | o) = 6/14.● P(a | R) = 2/10.● P(o | R) = 8/10.● P(a | B) = 6/12.● P(o | B) = 6/12.
ついでに、それぞれの条件付き確率
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● 独立な試行に関しては、条件を付けても付けなくても変わりません。つまり、XとYが独立であるとき、
P(X | Y) = P(X),
P(Y | X) = P(Y)
が成り立ちます。
● 条件付き確率の基本的な話は一通り終わり。
ところで
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● ベイズの定理って、もしかしたら3級の範囲じゃないかも。。。
● 「条件付き確率」は明確に範囲内で、ベイズの定理は条件付き確率に関する超有名な定理なので当然範囲内だと思っていましたが、調べてみるとどうも2級からのような気がします。
● でもスライド作ったので喋らせてください。
レジュメに書いておいてアレですが
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● 同時確率P(X, Y) = P(Y, X)● 条件付き確率
● この2つから、条件付き確率について
が成り立つことが分かる。● これをベイズの定理という。
ベイズの定理
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● 意味が分からない● 何をしたいのか分からない
→重要な応用として、事後確率の計算に使える。
● 事前確率と事後確率について説明します。
この式は何?
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● 先ほどの、りんごとオレンジの入った赤い袋と青い袋の入った箱を考える。
● ランダムに果物を取り出すとき、それが赤い袋に入っていた確率は P(R) = 10/22.
● 果物がオレンジであることを確認した場合、それが赤い袋に入っていた確率は P(R | o) = 8/14.
事前確率と事後確率
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● P(R) = 10/22 = 0.454... を、果物の種類を確認する前の確率であることから、事前確率という。
● P(R | o) = 8/14 = 0.571... を、果物の種類を確認した後の確率であることから、事後確率という。
● この例に限らず、何かを観測する前に計算された確率を事前確率、観測した後に計算された確率を事後確率という。
● ここでもちろん、事前とか事後というのは、何か基準を決めて初めて言える相対的なものであることに注意。
事前確率と事後確率
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● P(R | o) = 8/14 は、ベイズの定理を使って計算できる。
ベイズの定理の利用
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● 使わなくても計算できてましたやん
● オレンジが全部で14個で、赤い袋に入ってるオレンジは8個だから8/14でしょ?
ハァ?
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● この場合はあらかじめすべてのりんごとオレンジの分布がわかっていた。
● ベイズの定理を使うと、すべてを数えることができる場合でなくても、それぞれの事前確率さえ分かれば事後確率が計算できる。
この場合はそうなのですが
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● ベイズの定理を使った事後確率の有名な計算として、癌の診断の話とベイジアンフィルタを紹介する。
● スライドを作っている時点で、当日いま何時になっているか読めないので、時間によってはここで終わります。(続きはWebで)
有名な応用
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● ベイズの定理P(X | Y) = P(Y | X)P(X)/P(Y)● 右辺の分母P(Y)は、別の形で表せる。
● 最初の=は、事象は「Xである」か「Xでない」かのどちらかしかないから。
● 最後の=は、条件付き確率に関する等式から。
● 具体例の前に、もう少し式をいじる
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● 複雑になっただけに見える。● でも実は、これから紹介する例はこの形のほうが
計算しやすい。
● 具体例の前に、もう少し式をいじる
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● ある癌の診断方法は、正確さが98%とする。
● つまり、癌である場合に癌であると診断される確率、癌でない場合に癌でないと診断される確率がどちらも98%とする。
● 全人口のうち、実際に癌である人の割合は0.5%であるとする。
● ある人がこの検査を受けたところ、結果は陽性だった。この人が実際に癌にかかっている確率はいくらか。
癌の診断
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● ある人が癌にかかっている事象をcで、検査が陽性である事象をpで表す。
● わかっていることは
P(c) = 0.005, P(not c) = 0.995,
P(p | c) = 0.98, P(not p | not c) = 0.98,
P(p | not c) = 0.02
であって、計算したい確率は
P(c | p)
である。
癌の診断
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● ベイズの定理から、
癌の診断
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● 98%の確率で正しい検査でも、陽性の人が実際に癌にかかっている確率P(c | p)は2割以下と、意外に低い。
● 「~~%の確率で正しい」の意味に注意が必要。● 癌にかかっている人に比べて、かかっていない人
のほうが圧倒的に多いという仮定が大きく効いている。
● 余裕があれば、P(p | c) = P(not p | not c) = 99%の場合のP(c | p)も計算してみましょう。
癌の診断
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● 機械学習のアルゴリズム。● ベイズの定理を使った、シンプルな仕組み。● 有名な応用例に、迷惑メールの自動判定がある。● 基本的なところだけであれば、完全に今日の知識
だけで説明できる。● 性質上、少しお下品な単語が登場しますが、ハラ
スメントの意図はありません。ご承知おきください。
ベイジアンフィルタ
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● サンプルとして、十分な数のメールを迷惑メールと迷惑でないメールに分類し、さまざまな単語について、それぞれのグループにどれだけの割合で含まれるか調査する。
● たとえば、迷惑メールはメール全体の20%で、迷惑メールには10%に、迷惑でないメールには0.5%に、"sex”という単語が含まれていたとする。
● いま、受信した新しいメールに"sex”という単語が含まれていた場合、それが迷惑メールである確率はいくらか?
ベイジアンフィルタ
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● メールが迷惑メールである事象をsで、“sex”という単語を含む事象をwで表す。
● わかっていることは
P(s) = 0.2, P(not s) = 0.8,
P(w | s) = 0.1, P(w | not s) = 0.005
であって、計算したい確率は
P(s | w)
である。● 計算してみましょう。
ベイジアンフィルタ
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● P(s | w) = 0.8333...● “sex”が含まれるメールは8割以上スパム。
● 実際には、"sex”だけではなく、ほかの単語についてもスコアを計算した上で判断される。たぶん。
● 今回のメールを判断材料の一つとして、次回以降、より精度の高い判断ができる。これがベイジアンフィルタを使った機械学習の基礎。たぶん。
● 「たぶん」と書いた部分は、まだ詳細に勉強していなくて、気分しかわかっていないので、間違っているかもしれません。注意。
ベイジアンフィルタ
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率
● 試験は6/21(日)です。
● 成績優秀者には表彰状をくれるみたいなので、とりあえず満点を目標に頑張りましょう。
● 受験票に写真を貼り忘れない● 筆記用具を忘れない● 会場を間違えない
● 20分以上遅刻しない
● 電卓がなくても慌てない(なくても合格は可能)
終わり
過去問の解説● 条件付き確率
同時確率条件付き確率ベイズの定理事前確率と事後確率