Post on 11-Sep-2019
RR による統計解析
R による空間統計解析
Outline
1 R
2 Rによる統計解析
3 Rによる空間統計解析
それぞれについて,完全な説明は不可能なので,聴衆の皆さんがRを使いたいと,思えるような例や図をお見せしたい.
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
Rは統計ソフトウェア
以前は SASや SPSSを始めとする商用統計ソフトウェアの独壇場だった
フリーで高性能の Rの登場で大きく変わりつつある.
まともな統計学者は,新しい手法に関する論文を書くと同時に Rのコードを配る.あるいはまとまった形で,パッケージとして公開する(後述).
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
Rは統計ソフトウェア
以前は SASや SPSSを始めとする商用統計ソフトウェアの独壇場だった
フリーで高性能の Rの登場で大きく変わりつつある.
まともな統計学者は,新しい手法に関する論文を書くと同時に Rのコードを配る.あるいはまとまった形で,パッケージとして公開する(後述).
Stanfordの Friedman教授 決定木 (CART)の発案者として,データマイニング業界でも有名
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
比較
競合するソフトウェアの特徴
プログラム言語 C, Fortranなど計算速度が速いプログラム作成が簡単でない
表計算ソフト EXCEL
GUIの操作,手軽にグラフィックスデータ加工やプログラム作成には不向き
統計解析ソフト SAS,SPSSなどデータ加工,プログラムが容易.グラフィックスも簡単.GUI.非常に高価
Rは??
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
R の歴史
1980年代 ベル研究所の Chambers等が対話的な統計解析環境として S言語を開発
1988年度の米国計算機学会 ソフトウェア部門賞受賞
S-PLUS等の商用ソフトとして世界の統計家・ユーザーが使用
1991年 ニュージーランドの統計学者 R. Ihaka, R. Gentlemanが講義用にスキーム言語のアイデアを用いた S言語の独自な実装
1995年,GNU GPL 条項の下で公開,フリー.
現在までに,全世界の統計家とユーザの熱狂的な支持を獲得
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
R の開発体制
一流の統計学者のグループによる急速な改良と拡張
開発を支える公式団体 R Foundation
第 2.3版で日本語 (国際)化.現在は 2.5版
開発当初からできるだけ S-PLUS互換を目指す
現在では S-PLUS に十分匹敵,一部は凌駕する機能を持つ
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
R の動くプラットフォーム
Unix, Linux, Free BSD等の Unix-like OS
Microsoft Windows
Mac OS X
その他.zaurus SLシリーズなど
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
R の動くプラットフォーム
Unix, Linux, Free BSD等の Unix-like OS
Microsoft Windows
Mac OS X
その他.zaurus SLシリーズなど
基本的には CUI
アドオンパッケージ Rcmd により GUI モード でも実行可能
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
Rの特徴
R には本体だけでも多様な標準的統計手法を実装
システムそのものに,アドオンパッケージと呼ばれるボランティアによる特定手法用の追加機能を開発,利用するための完備した機構が用意社会科学,機械学習,遺伝学,多変量解析,ファイナンス,環境科学,空間統計学,計量経済学など
現在の公開アドオンパッケージ数は約 1100.
パッケージは容易に R 本体に追加でき,本来の機能と区別無しに使える
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
Rの特徴
統計解析以外にも,数値解析,線形代数,組合せ論,データ処理,文字列処理などの関数がある.
インタプリタ言語.しかし,内部で Cや Fortranが動いており,Excelより速いのはもちろん,商用のMathematicaなどよりも計算が速い.
出版物レベルの高度なグラフィックス機能
解析結果を直ちにグラフィックス表示でき,対話的にデータ解析を行える
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
R の特徴
貧富の差無く使え,高機能・汎用性がある唯一の本格的な統計システム
学校・自宅で制限無く実習でき,社会でも使えるシステム
統計的手法の共通基盤,新しい統計手法がまず実装されるワークベンチ
商用ソフトでは不可能なマイナーな手法の実装
R を前提とした統計本の出版ラッシュ. 日本でも既に 10冊以上.
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
R に関する情報サイト
公式サイト The R Project for Statistical Computinghttp://www.r-project.org/
R 本体,貢献パッケージ,公式マニュアル等,開発者,ユーザー向けの三つの MLによる活発な情報交換
日本ユーザーサイト RjpWiki
http://www.okada.jp.org/RWiki/
豊富な Tips 集,R に関する様々な日本語情報,日本語マニュアル等,リンク集,Q&A コーナー
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
約 10年前の文科 II類の学生のデータ.n = 324
あなたの身長は何センチですか?
あなたの体重は何キロですか?
あなたの父親の身長は何センチですか?
あなたの母親の身長は何センチですか?
通学時間は片道何分ですか?
アルバイトは週平均何時間ぐらいしていますか?
テレビを一日平均何分ぐらい見ますか?
煙草をすいますか? 1:はい, 0:いいえ
自宅ですか,下宿ですか? 1:自宅, 0:下宿
など,17項目.
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
一次元のデータ
データの様子を把握する基本は,度数分布,ヒストグラム
より定量的に,,,
平均 どのあたりを中心に分布しているか
分散 ばらつき傾向.散らばっていれば大きい.
平均 x =
∑ni=1 xi
n, 分散
∑ni=1(xi − x)2
n
平均と分散だけだと集約しすぎ?
alternative (最小値,下側 25%点,中央値,上側 25%点,最大値)
グラフに描いたものが箱ひげ図
箱の中に全体の半分のデータが入る
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
二次元以上のデータ
各変数毎の分布だけでなく,変数間の関係が重要
基本は散布図
関係の強さの定量的な指標が相関係数∑
(xi − x)(yi − y)√
∑
(xi − x)2∑
(yi − y)2
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
二次元以上のデータ
各変数毎の分布だけでなく,変数間の関係が重要
基本は散布図
関係の強さの定量的な指標が相関係数∑
(xi − x)(yi − y)√
∑
(xi − x)2∑
(yi − y)2
3変数以上でも,2変数の相関関係の組合せを考えるのが基本
Rの pairsを使うと,非常にわかりやすい
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
回帰分析
まず説明変数が一つの単回帰分析
統計局統計センターにある社会・人口統計体系のデータGakureki 最終学歴が大学・大学院卒の者の割合 (%)Shushou 合計特殊出生率
県別のデータで単回帰分析
Shushou = a + b × Gakureki +確率的な誤差
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
重回帰分析
興味のある変数 y を,y に関係する変数(説明変数)を用いて言い当てたい,あるいは予測したい.
関係するかどうかは,事前に分からないので,関係しそうなものもそうでないものも,使えそうなものは全て候補に加える.
それらを x1, . . . , xp とする
線形和として言い当てる(予測する)
y = a0 + a1x1 + · · · + apxp
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
重回帰分析 変数選択の重要性
役に立たない変数を含めても,役に立つ変数が含まれなくても性能が悪くなる.
役に立つ変数だけのベストの組み合わせを選びたい.
つまり,役に立たない変数を除いて
y = a0 + a2x2 + a7x7 + · · · + ap−1xp−1
のようなモデルを作るのが目的
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
どのようにベストモデルを選択するのか?
submodelは 2p 個ある.p = 10だと 210 = 1024
例えば,
y = a0 + a2x2 + a7x7
各サブモデルに一次元の量を対応させて,その大小でモデルの良さを比較出来れば,嬉しい.
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
どのようにベストモデルを選択するのか?
AIC (the Akaike Information Criterion)
n log(残差平方和) + 2 ×説明変数の個数
BIC (Bayesian Criterion)
n log(残差平方和) + log(サンプル数) ×説明変数の個数
AICや BICは小さい方が望ましい指標
残差平方和は説明変数の個数が増えると,小さくなる
Rでは,関数 stepを使って容易に AICや BICに基づく説明変数の選択が可能.
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
GIS業界への最近の貢献
シェープファイル(ESRI Shapefile)は,ESRI社の提唱した,公開されたベクタデータの業界標準フォーマット
ESRI・ERDAS製品はもちろん,多くの GISソフトウェアで利用が可能
無料のソフトを用いてシェープファイルの編集・加工をすることは(一部のソフトを除いて)できない
Rでは shapefiles,maptoolsを用いてシェープファイルの編集・加工をすることが可能
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
GIS業界への最近の貢献
牧山さん(Rjpwikiでのペンネームは okinawa)2005年に,ESRIJapanが公開している全国市区町村境界データの県別の切り出しを行い,Rjpwikiに置いた(もちろんESRIの許可を得ている)
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
GIS業界への最近の貢献
牧山さん(Rjpwikiでのペンネームは okinawa)2005年に,ESRIJapanが公開している全国市区町村境界データの県別の切り出しを行い,Rjpwikiに置いた(もちろんESRIの許可を得ている)
もちろん最近では,国土数値情報データ変換ツールなどで街区レベル位置参照情報データで自分の好みの地域の shapefileが作成できるが,先駆的役割を果たしたと言える.
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
GIS業界への最近の貢献
牧山さん(Rjpwikiでのペンネームは okinawa)2005年に,ESRIJapanが公開している全国市区町村境界データの県別の切り出しを行い,Rjpwikiに置いた(もちろんESRIの許可を得ている)
もちろん最近では,国土数値情報データ変換ツールなどで街区レベル位置参照情報データで自分の好みの地域の shapefileが作成できるが,先駆的役割を果たしたと言える.
同じく牧山さん シェープファイル⇒google earthの kml形式に変換する Rのプログラムを Rjpwikiに投稿
有料では複数のソフトがあるが,フリーではRだけ(らしい)
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
GIS業界への最近の貢献
牧山さん & なかまさんGoogleや YahooのMapAPIを用いたジオコーディングaddress<-"千葉県柏市柏の葉 5-1-5"
returnform<-"xml"
key<-"***"#ここは GoogleAPI でもらった keyを登録text1<-"http://maps.google.com/maps/geo?q="
text2<-"&output="; text3<-"&key="
savefile<-"c:\\geocode.xml"
EncodeAddress<-paste(c("",charToRaw(iconv(address,
"CP932","UTF-8"))),collapse="%")
URLText<-paste(text1,EncodeAddress,text2,
returnform,text3,key,sep="")
download.file(URLText,savefile)
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
Rの空間統計用パッケージ
当初,複数の空間統計解析用のパッケージが独立に開発されていたが,2003年から Roger Bivandさんや Edzer Pebesmaさんを中心にまとまった.
空間データ用の共通のクラス spやそのメソッド
シェープファイルの読み書き
GISや OGR/GDALと密な連携.
既存の空間統計解析用パッケージとの連携(geoR/geoRglm, gstat, spatstat, splancs, DCluster, spdep, ...)
http://www.r-project.org/Rgeo
http://cran.r-project.org/src/contrib/Views/Spatial.html
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
空間予測 クリギング
興味の対象となる変数 y の観測されていない地点での値を予測空間データを分析する場合の大きな目的の一つ
興味の対象となる変数の観測値,観測地点間の位置関係,および観測地点と観測しようとする地点との位置関係などを考慮に入れて,興味の対象となる変数の値を予測 クリギング
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
クリギング
n個の観測地点 u1, . . . , unで予測の対象となる変数についての観測値が得られている.
それを y1, . . . , ynとする
未観測地点 u0での予測の対象となる変数 y の値を言い当てたい.⇒空間予測
予測量は,通常 y1から ynの線形和
a1y1 + · · · + anyn
最小二乗法のような基準で,a1, . . . , an を最適化する.
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
クリギング
a1, . . . , anは,観測地点 u1, . . . un の間の位置関係観測地点 u1, . . . un と未観測地点 u0 の位置関係空間相関として与える統計モデル推定方法,最尤法 or · · ·説明変数があれば,説明変数
などによって決まる.
u0を対象となる領域全体を動かすと,予測面が出来る.
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
相関係数(時間があれば)
まず (x1, y1), . . . , (xn, yn)を各変数毎に標準化する.locationと scaleを合わせる
ui =xi − x
√∑n
i=1(xi − x)2/n, vi =
yi − y√
∑ni=1(yi − y)2/n
∑
ui =∑
vi = 0,∑
u2i /n =
∑
v2i /n = 1
相関係数はその積 u1v1, . . . , unvnの平均値∑
uivi
n
ui と vi の符号が同じ時,uivi > 0⇔ xi と yi が共に大きい(小さい)
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
相加平均・相乗平均の関係
uivi ≤ |uivi | ≤1
2(u2
i + v2i )
n個足し合わせると,∣
∣
∣
∣
1
n
∑
uivi
∣
∣
∣
∣
≤1
n
∑
|uivi | ≤∑ u2
i + v2i
2n= 1
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
回帰診断の重要性(時間があれば)
Anscombeの例
最小二乗法による回帰係数の推定量,決定係数は 4つの場合で共通
この場合は,説明変数が一つの単回帰分析なので,plotを見れば,回帰分析の解釈の妥当性が明らか
複数の説明変数があると,妥当性の判断が難しい.
Rではその判断に助けになるような出力が手軽に利用できる
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
Ansbombeの例
............
............
............
............
............
............
............
............
............
............
............
....................................................................................................................................................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 10 15
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.......
.......
.......
.......
.......
46
810
12
...............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x1
y1
...................................................................................................................................................................................................................................................................................................
............
............
..............
.
.
........
............
............
............
............
............
............
............
....................................................................................................................................................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 10 15
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.......
.......
.......
.......
.......
46
810
12
...............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x2
y2
...................................................................................................................................................................................................................................................................................................
............
............
............
............
............
............
............
............
............
............
............
....................................................................................................................................................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 10 15
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.......
.......
.......
.......
.......
46
810
12
...............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x3
y3
...................................................................................................................................................................................................................................................................................................
............
............
............
............
............
............
............
............
............
............
............
....................................................................................................................................................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 10 15
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.......
.......
.......
.......
.......
46
810
12
...............................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x4
y4
...................................................................................................................................................................................................................................................................................................
Anscombeによる4つの回帰分析
丸山 祐造 R で空間統計解析
RR による統計解析
R による空間統計解析
例えば,Cookの距離
一つのデータが,回帰係数の推定量に大きな影響を与えることがある.外れ値
i 番目のデータを除いて回帰分析を行い,全データを用いた場合の βとの食い違いが i 番目のデータの回帰推定への影響
i 番目のデータの Cookの距離n個のサンプルポイントにおける予測値の差の平方和
Di =(y − y(−i))
′(y − y(−i))
pσ2, y(−i) = X β(−i), y = X β
Cookの距離が 0.5を越えるとそのデータは影響が大きめとされ,1を越えるなら「特異に大きな影響力」を持つとされる.外れ値と判断.
丸山 祐造 R で空間統計解析