2018年4月10日@統計モデリング
担当:田中冬彦
統計モデリング第一回
・本講義を履修後にできるようになること・本講義について・グループタスクについて・背景知識の確認・統計モデリングの応用イメージ
本講義を履修後にできるようになること
チャレンジャー号爆発事故 (1/2)事故の概要
Oリングの破損と気温の関係を統計モデリングで調べる!
1986年1月28日チャレンジャー号(スペースシャトル) が打ち上げ直後に爆発7名の乗組員が犠牲
・ブースターについているOリングの破損が直接の原因・スケジュールの延期や打ち上げ当日の異常な寒波のため, これまでの発射に比べて低い気温下での打ち上げ
事後調査でわかったこと
サイオコール社の技術者は、もしリングの温度が12℃以下になった場合、気密性を正常に保つだけの柔軟性を有するかを判断するのに十分なデータを持っていないと論じた(出典: Wikipedia)
参考文献J. J. Faraway: Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric Regression Models.,(Texts in Statistical Science), Chapman and Hall/CRC, Boca Raton, 2006.
S. Dalal, E. Fowlkes, and B. Hoadley: Risk analysis of the space shuttle: Pre-Challenger prediction of failure.J. Amer. Statist. Assoc., vol. 84 (1989), 945-957.
・1回の打ち上げ : ブースター 2つ; Oリングは1ブースターに3つ = 計6つ・これまで 23回の打ち上げ・各打ち上げ後の Oリングの破損数 & 打ち上げ時の気温データ
データの説明 (Faraway, Chap.2 )
チャレンジャー号爆発事故 (2/2)
データ (23回打ち上げ分)摂氏温度 破損数 破損率11.7 5 5/613.9 1 1/614.4 1 1/617.2 1 1/618.9 0 0・・・・
25.6 0 026.1 0 027.2 0 0
Oリング破損数と気温の関係 (1/2)
-5 0 5 10 15 20 25 30
0.0
0.2
0.4
0.6
0.8
1.0
Temperature(C)
Pro
b of
dam
age
単純な線形回帰は統計モデルとしては不適切!
iii xp εββ ++= 10
線形回帰 (第二回目で復習!)
),0(~ 2σε Ni
ロジスティック回帰(第三回目で話すGLMの一種)→ 確率の予測値は0, 1の間におさまる
iqqii xx βββη +++= 110
iii yni
yi
i
iii pp
yn
yYP −−
== )1()(
−
==i
iii p
ppg1
log)(η
ロジスティック回帰
-5 0 5 10 15 20 25 300.
00.
20.
40.
60.
81.
0
Fitted Curve by Logit Regress
Temperature(C)
Pro
b of
dam
age
ii x10 ββη +=
ii yi
yi
iii pp
yyYP −−
== 6)1(
6)(
−
==i
iii p
ppg1
log)(η
1.単純な線形回帰に比べるとあてはまりがよい2.チャレンジャー打ち上げ時の気温(-0.556 C) だと, Oリング6つのすべてが破損することが予測される
予測値
23,,2,1 =i
x: 気温(C), y: Oリングの破損数
Oリング破損数と気温の関係 (2/2)
本講義について
統計モデリング
実データに対しさまざまな統計モデルを用いて分析, 適切なモデルを判断して、分析結果を解釈する作業
-5 0 5 10 15 20 25 30
0.0
0.2
0.4
0.6
0.8
1.0
Temperature(C)
Pro
b of
dam
age
-5 0 5 10 15 20 25 30
0.0
0.2
0.4
0.6
0.8
1.0
RAW DATA
Temperature(C)
Pro
b of
dam
age
-5 0 5 10 15 20 25 30
0.0
0.2
0.4
0.6
0.8
1.0
Fitted Curve by Logit Regress
Temperature(C)
Pro
b of
dam
age
本講義で扱う内容 (1/2)
ロジスティック回帰ポアソン回帰・・・・(もちろん線形回帰も含まれる)
本講義で扱う内容 (2/2)
本講義で扱う内容専門分野に関係なく, 共通して使える理論や一般的なノウハウの説明
・一般化線形モデル(GLM)・ベイズモデリング・スパースモデリング
扱わないこと
・時系列データの分析・モデル選択・多変量解析・統計数学
他の講義でカバーしている内容
比較・検討の選択肢として、様々な統計モデルとモデリング技法に触れる
講義スタイル
受講者の作業
講義パート
・統計モデルの紹介 (数式)・解析例の紹介・モデルの良い点、悪い点
スライドは印刷物を配布 + Web上にPDF
・1人/ 複数で考えたりディスカッション・手を動かす(計算問も)
通常講義との違い
・まとめや結論は明文化して与えない (Why?)
想定される受講者
統計分析に携わる人
ひとくちに統計手法といっても一冊におさまることはないExample: Chapman and Hall Texts in Statistical Science Series (60冊!)
→ (専門分野によらない)代表的な手法を知る最初のとっかかり
解析ソフトの安易な利用からの脱却 (誤った使い方でもエラーは出ない!)
→ ソフトが使っている統計モデルを理解しておくことが重要
統計研究室の学生
統計モデリングにおける数理的側面を深く理解するとっかかり
実データへの応用例・適用例を知っておくことが望ましい
グループタスクの概要
・データの収集, モデリング手法の検討, 解析プログラムの作成, 結果の解釈と検討, プレゼン資料作成という一連の流れを体験
・異質な者同士でのコミュニケーション能力を磨く
・グループ内での自分の役割を認識, 協力して目標を達成する経験
グループタスク
目的
統計分析の現場で必要な能力
・次回以降に数グループに分ける(統計研究室とそれ以外で混ぜる)
・各グループで統計モデリングを使ってデータの解析&発表
→ 成績評価はグループごと(40点満点); 発表を他グループが審査
やりかた
詳細(この資料の付録)は各自で熟読しておくこと
・血液検査による間質性肺炎の診断方法の統計的性能の評価(医学系の方が参加)
・Mn12系クラスターの磁気的相互作用に対するイジング模型を用いた解析
これまでの例 (2015年~昨年)
専門性の高いもの (他学部・学科受講者のデータ利用)
盛り上がりました!!
学術的なものに限らず趣味や興味本位(?)なものもOK
・地震データ、金融データの分析
・(バイト先の)塾の学生の成績データ分析
・野球・サッカーデータの分析(スポーツ統計)
社会科学系
標準的な統計の話題
・ソーシャルメディアにおける嫉妬と行動
・彼女ができる人はどんな人?(阪大生にアンケート実施)
背景知識の確認
1.統計の基礎的なこと
講義で出てくる確率分布 (1/2)
記法 )|( θxp
データ
(確率変数)パラメータ
0)|(,1d)|( ≥=∫ θθ xpxxp
離散の場合には和記号
0)|(,1)|( ≥=∑ θθ xpxpx
ポアソン分布
( ) λλλ −= ex
xpx
!)|(
,2,1,0=x
二項分布 (n回の試行) nx ,,2,1,0 =
xnx qqxn
qxp −−
= )1()|(
離散分布
xexp λλλ −=)|(指数分布 0≥x
),(N 2σm2
2 )(2
1
2
2
21),|(
mxemxp
−−= σ
πσσ
平均 m, 分散 (>0) の正規分布(ガウス分布)2σ連続分布(確率密度関数)
χ二乗分布 2/12/
221
)2/(1)|( x
t
ext
txp −−
Γ= 0≥x ,2,1=t
2d
2)(
0
2/1 xexu x
u
∫∞ −
−
=Γ
ガンマ分布 0,0 >> ba0≥x
↑指数分布、χ二乗分布を含む広いクラス
※多くのテキストに掲載されており正確に覚えておく必要はない
be
bx
abaxp bx
a 1)(
1),|( /1
−−
Γ=
講義で出てくる確率分布 (2/2)
線形回帰モデル
iii ebxaY ++= ni ,,2,1 = ),0(N~,, 21 σnee i.i.d.
0 2 4 6 8
-20
24
68
x
y
回帰直線のあてはめは基本的な知識
xbyaxx
xxyyb n
ii
n
iii
ˆ:ˆ,)(
))((:ˆ
1
2
1 −=−
−−=
∑
∑
=
=
統計検定2級相当(学部1年)の知識があると望ましいが・・・
参考:統計検定URL: http://www.toukei-kentei.jp/
2.統計解析ソフトR
統計解析ソフトR
・Windows, MAC, Linuxなどで使えるフリーソフト
・統計処理に特化した機能が豊富
・平易なプログラミングで高度な処理が可能
・ビジュアルな図示が簡単
Rの特徴
・オブジェクト指向&コンパイル不要
・配列や繰り返し処理に特化した機能
・大規模な処理は、他言語を呼び出す方法もある
統計解析ソフトRプログラミング言語としてのR
・乱数の発生が容易
統計解析ソフトRプログラミング言語としてのR(続)
- 標準正規分布 (normal distribution) から乱数を10個発生させる場合
- round(x, n) x の数値を n桁に丸める
・棄却点の計算など統計でよく使う関数がかなり整備
標準正規分布での上側95%点と両側95%点
Rの知識があると望ましいが独力で勉強するのは大変・・・
統計モデリングの応用イメージ
板中橋区ではここ2週間で3件の放火事件が発生している
想定シチュエーション
放火犯は単独であり, ランダムに3ヵ所で放火を起こしている
さいしょに
以下では放火事件を題材に, ベイズモデリングの活用方法を紹介
(「板中橋区」など, すべて架空の設定)
実データ
-4 -2 0 2 4 6
-4-2
02
46
Crime Location Data
X
Y
これまでの火災現場(3件)
板中橋区の火災現場は3件
2次元データで地図と合わせたのが以下の図
一方, 放火犯の傾向や犯罪心理などから次のような結果(次スライド)が知られている
現場の経験
犯人は自分の住居から
1~ 5kmはなれた所
のうち, 適当な場所で犯行に及んでいる
ここでは犯行場所の確率分布として
ドーナツモデル(統計モデル)を導入! x
y
Crim
e distribution
板中橋区警察署の経験則として, 放火犯には以下の傾向があることが知られている。
統計モデルの設定
もし, 10件くらい犯行があると
犯行場所が円状にちらばる
→ ドーナツモデルから犯人の住居(ダイヤ印)がある程度推定できる
1.10件も待ってられない! 放火犯を早く見つけたい
2.(1が難しくても)次にどこが狙われそうか知りたい
しかし, 実際には…
-4 -2 0 2 4
-4-2
02
4Crime Location Data
X
Y +
点推定の問題 → データが少ないと難しい
-4 -2 0 2 4 6
-4-2
02
46
Crime Location Data
X
Y
犯人の住居の推定
予測分布の問題 → ベイズ予測分布が有効
次に狙われそうな地域をある程度絞り込む
x
y
Bayesian predictive distribu
ベイズ予測分布 (ドーナツが少しひしゃげた形)
-4 -2 0 2 4 6
-4-2
02
46
Crime Location Data
X
Y
・3件では犯人の住居を特定するには不十分;
・しかし、4件目の犯行の可能性が高い場所はベイズ予測分布から計算できる!
・右下図の赤が犯行可能性が高い地域
ベイズ予測分布による危険地域の割り出し
-4 -2 0 2 4 6
-4-2
02
46
Highly Probable Area of Next C
X
Y
+
+ +
※実際には過去の類似データから統計モデルの妥当性も検討すべき(ドーナツモデル以外のモデルもいくらでもあり得る)
付録:グループタスクの詳細
グループタスク
グループタスクの流れ
・データ収集と統計分析の目的設定
・モデリング手法の検討と実装(R推奨)
・分析結果の解釈と検討
・プレゼン資料にまとめて発表 (発表者は一人でよい)
4/17 (来週): グループ分けアンケート【必ず出席!】
6/5 第一回テーマ: ベイズモデリング
6月後半第二回テーマ: 一般化線形モデリング
7月後半第三回テーマ: スパースモデリング
日程 (予定)
発表直前チェックシート
□収集したデータの説明と統計分析の目的
□実装(R言語)の概要
□モデリング手法の検討
□グループ内の作業分担
□分析結果の解釈と検討
□グループでの作業分担は適切か、分析結果を全員が理解しているか
□設定した課題の難易度(うまくいかなくてもよいが試行錯誤は必要)
□発表スライドの内容やその他のルール・要件をきちんと満たしているか
評価の観点
発表スライドに含めるべき内容
その他
・資料を印刷して配布してもよい (義務ではない)
発表に関するルール
・各グループ 一回発表 (発表順も決めておき, 13時~発表開始できるように)
・発表&質疑応答で20分程度×2~3 + 審査(グループディスカッション)
・グループ発表の回は、グループごとに固まって座る(場所は任意)
・収集データ, 分析に用いたソースコード, スライド(草稿で可)はzip ファイルでまとめて, 教員(田中(冬))に前日までに送付
・データの収集, モデリング手法の検討, 解析プログラムの作成, 結果の解釈と検討, プレゼン資料作成という一連の流れを体験
・異質な者同士でのコミュニケーション能力を磨く
・グループ内での自分の役割を認識, 協力して目標を達成する経験
目的(再掲)
統計分析の現場で必要な能力
*赤字部分は従来の個別学習では身につかない部分