目前统计学在国内外的发展现状是怎样的?math0.bnu.edu.cn/~jgbao/xinxifabu/%cd%b3%bc%c6%d1... ·...

13
目前统计学在国内外的发展现状是怎样的? 都有哪些分支?今后的研究方向大致是向哪里走? 本人北美 Biostatistics 博士生,对这几个问题有一点点自己的思考,所以来跟大家分享 一下(这么装逼的外交辞令....)准备大体介绍一下统计学、国外(北美)的统计系,大致分 支、近年来的某些热点。 傲娇的声明 本人不是本科学数学或统计出身,而且生物统计也只是统计学的一个应用分支而已,所 以我并不是回答这个问题的上佳人选。在知乎上看过不少藤校的数学和统计博士,希望他们 有空的时候来作更全面的解答(其实是更无情的碾压 T^T...)我回答的私心是趁机宣传生物 统计学近年来的热点:Bayesian hierarchicaldisease mapping and spatial analysis。所以如 果认为我重点跑偏,或者答案没有帮助,请自由地选用赞同感谢评论感谢私信 感谢关注我等一系列激烈的手段来表达你们的愤怒。 PS:感谢 @张雨萌 大牛对答主的建议和指点!已根据他的建议将部分答案做了修改。 ===========================开始答题============================== 首先,统计学的发展现状是怎样的?都有哪些分支?1. 在回答之前,先要澄清一下统计学是什么。统计学是以数据为对象的一门科学。可 以把它归类为形式科学(formal science,像数学、逻辑学、系统论),因为它的研究领域是 抽象的形式(abstract structures)。另外有些人认为它是自然科学或社会科学,因为它研究 了自然科学的问题或者社会领域的问题。但是如何分类并不重要。 统计学的方法论里有一部分内容是抽象的形式为研究对象,比如中心极限定理,比如正 态分布,这些内容是无法证伪的,因为它是按照严格的逻辑关系推导出来的,是数学的一个 分支,是一种逻辑体系。而另外一部分内容,尤其是贝叶斯主义兴盛之后,则是可以证伪的。 比如我先观察了飞机起飞的间隔大约是五分钟,然后预测下一班飞机将于五分钟后起飞。这 个统计推断就是可证伪的。所以非要把统计学归为某类科学没什么意义,知道它是研究数据 的科学就够了。 插一段题外话:可证伪性是卡尔·波普尔的理论,也是从 20 世纪以来最流行的科学哲学 理论。因为科学理论是建立在观察现象提出理论进行实验修改理论的科学方法之上, 所以可证伪性成为一个理论是不是科学理论的必要条件。比如神爱众人,这个理论不可能 检验,因为没法观察到,也没法定义什么才是。但另一些建立在观察基础上 的推断,比如摩擦力导致运动着的小球停止,摩擦力越大,运行距离越短,则是完全可以 证伪的。这就是伽利略开创的科学方法,经由这套方法发展出来的理论才是科学理论:并不

Transcript of 目前统计学在国内外的发展现状是怎样的?math0.bnu.edu.cn/~jgbao/xinxifabu/%cd%b3%bc%c6%d1... ·...

Page 1: 目前统计学在国内外的发展现状是怎样的?math0.bnu.edu.cn/~jgbao/xinxifabu/%cd%b3%bc%c6%d1... · 目前统计学在国内外的发展现状是怎样的? 都有哪些分支?今后的研究方向大致是向哪里走?

目前统计学在国内外的发展现状是怎样的?

都有哪些分支?今后的研究方向大致是向哪里走?

本人北美 Biostatistics 博士生,对这几个问题有一点点自己的思考,所以来跟大家分享

一下(这么装逼的外交辞令....)准备大体介绍一下统计学、国外(北美)的统计系,大致分

支、近年来的某些热点。

傲娇的声明

本人不是本科学数学或统计出身,而且生物统计也只是统计学的一个应用分支而已,所

以我并不是回答这个问题的上佳人选。在知乎上看过不少藤校的数学和统计博士,希望他们

有空的时候来作更全面的解答(其实是更无情的碾压 T^T...)我回答的私心是趁机宣传生物

统计学近年来的热点:Bayesian (hierarchical)disease mapping and spatial analysis。所以如

果认为我重点跑偏,或者答案没有帮助,请自由地选用“赞同”、“感谢”、“评论感谢”、“私信

感谢”、“关注我”等一系列激烈的手段来表达你们的愤怒。

PS:感谢 @张雨萌 大牛对答主的建议和指点!已根据他的建议将部分答案做了修改。

===========================开始答题==============================

首先,“统计学的发展现状是怎样的?都有哪些分支?”

1. 在回答之前,先要澄清一下统计学是什么。统计学是以数据为对象的一门科学。可

以把它归类为形式科学(formal science,像数学、逻辑学、系统论),因为它的研究领域是

抽象的形式(abstract structures)。另外有些人认为它是自然科学或社会科学,因为它研究

了自然科学的问题或者社会领域的问题。但是如何分类并不重要。

统计学的方法论里有一部分内容是抽象的形式为研究对象,比如中心极限定理,比如正

态分布,这些内容是无法证伪的,因为它是按照严格的逻辑关系推导出来的,是数学的一个

分支,是一种逻辑体系。而另外一部分内容,尤其是贝叶斯主义兴盛之后,则是可以证伪的。

比如我先观察了飞机起飞的间隔大约是五分钟,然后预测下一班飞机将于五分钟后起飞。这

个统计推断就是可证伪的。所以非要把统计学归为某类科学没什么意义,知道它是研究数据

的科学就够了。

插一段题外话:可证伪性是卡尔·波普尔的理论,也是从 20 世纪以来最流行的科学哲学

理论。因为科学理论是建立在“观察现象—提出理论—进行实验—修改理论”的科学方法之上,

所以可证伪性成为一个理论是不是科学理论的必要条件。比如“神爱众人”,这个理论不可能

检验,因为没法观察到“神”,也没法定义什么才是“神”的“爱”。但另一些建立在观察基础上

的推断,比如“摩擦力导致运动着的小球停止,摩擦力越大,运行距离越短”,则是完全可以

证伪的。这就是伽利略开创的科学方法,经由这套方法发展出来的理论才是科学理论:并不

Page 2: 目前统计学在国内外的发展现状是怎样的?math0.bnu.edu.cn/~jgbao/xinxifabu/%cd%b3%bc%c6%d1... · 目前统计学在国内外的发展现状是怎样的? 都有哪些分支?今后的研究方向大致是向哪里走?

是说凡是可被证伪的理论都是科学理论,但是科学理论一定要具备可以被实验推翻的可能性。

话题回来。我们大概追溯一下现代统计学的发展。统计方法可以追溯到很早,几乎在计

数方法被发明的时候就有了原始的统计方法。到了 16 世纪,由于掷筛子赌博的兴盛(据说),

学者们开始研究点数的频率,推算概率。这是早期的概率论。与此同时,政府为了增强控制

力需要了解人口的特征。学者们发展了国情学,开始应用在人口统计上,比如男女性别。统

计方法以概率论和国情学为两个方法论的源头,有了进一步的发展。

统计方法发展成为现代(数理)统计学,则是更近的事。17、18 世纪的数学家继续发

展了概率论,为现代统计学的奠定了部分理论基础。这其中就有数学家 Thomas Bayes,他在

18 世纪中期提出条件概率的贝叶斯公式之后,他并不知道会给统计学带来多大的变化。

不得不提到的一个巨人是 Karl Pearson。没错,就是 Pearson test 那个 Pearson,他还很

任性地用姓氏首字母命名了一个折磨了统计系学生们一百年的变量—— p value。除此之外,

他在统计理论的各个方面都有创新,最重要的是,他创建了世界上第一个统计系。他被公认

为是现代(数理)统计学的创建者,也是我们生物统计的创建者(第一个生物统计学期刊就

是他开的)。其实能者是无所不能的,此君在业余还取得了大律师资格,还是一个坚定的基

因改良主义者,要知道那才是 1890s!

下面这幅图是 Pearson 的老婆为他的学术著作画的插页(1),主题就是:Chance of death。

从左到右意思是人从出生到老要经历不同的死亡风险。不知道为什么采用桥这个元素,有可

能是听过奈何桥的传说??

Page 3: 目前统计学在国内外的发展现状是怎样的?math0.bnu.edu.cn/~jgbao/xinxifabu/%cd%b3%bc%c6%d1... · 目前统计学在国内外的发展现状是怎样的? 都有哪些分支?今后的研究方向大致是向哪里走?

Pearson 之后,统计学就发展得非常快了:Spearman、Bonferroni、Neyman、Tukey、Cox、

Box 等等,基本上我们现在常用到的工具在 1950s 之前已经被发展的比较完备了。在这之后,

比较大的变化是贝叶斯主义的兴盛。

1950s,统计学家内部还是一边倒地偏向 frequentist。不过城堡都是从内部被攻破的。

当时 Irving Good 还跟同事打了赌,他预测贝叶斯理论将成为统计思想的主流,同事则坚信

频率主义。后来事实的发展支持了 Good (2)。

我说一点对于贝叶斯主义的理解(很有可能是根本不着调的,但。。。不管了!)

在贝叶斯主义之前,使用 prior knowledge 是不规范的。你必须比较确切地知道某个随

机事件发生的概率,才能用它来计算一些东西。怎么知道呢?你得去吭哧吭哧统计这个随机

事件发生的频率,如果遇到一个很大的总体,那可能等你统计出来人家的 paper 早发了。贝

叶斯主义者比较简单粗暴,根据一些 prior knowledge,直接给概率赋值。看似武断,其实大

大拓展了统计学的发展和应用空间。

因为建筑在各种 prior knowledge 基础上的统计推断,天然具备了可证伪性,比如我们

前面举的例子:“五分钟后飞机起飞”这个推断。要检验这一点非常直接:你只需要再观察五

分钟即可。如果起飞了,说明我们的推断是还算准确的,如果没起飞,说明我们用的 prior

有问题,要修改它的值,然后再做下一次的统计推断。如果是 frequentist,他会搭好观察台,

在机场长期观察各类型飞机的起飞时间和架次,统计出来比较精确的频率,然后再做推断。

这个时候人家 Bayesian 早迎娶白富美走上人生巅峰了!

你可以把贝叶斯主义看做“尺蠖式”前进:往前两步再后退一步,后退是没有问题的,马

老师说过这叫“螺旋式上升”,毛老师说过撤退就是转进嘛!关键是要行动:大量应用 prior

knowledge 和贝叶斯定理,做出推断,然后再根据观察去修正 prior knowledge。

统计学的历史简单介绍到这里(还是挺啰嗦的 T^T....)下面开始回答问题(这次是认真

的....)

2. 统计学可以这样划分:理论统计学和应用统计学。

统计学的基础理论包括概率论、实分析、线性代数、asymptotic theory 等等数学内容。

现在又包括了 computational statistics。Computational statistics 发展了 bootstrapping、Monte

Carlo simulation 这些新的方法,在计算机被发明以前,这些技术是没法想象的,因为计算量

太大了(不太确定 computational statistics 是否应该放在理论统计学里,不过这个不重要)。

应用统计学基本分为两大块:descriptive statistics 和 inferential statistics。前者是从总体

中抓样本数据进行描述,后者是通过对于样本的分析对总体的特征进行推断。

这样直观的记忆比较好:

Page 4: 目前统计学在国内外的发展现状是怎样的?math0.bnu.edu.cn/~jgbao/xinxifabu/%cd%b3%bc%c6%d1... · 目前统计学在国内外的发展现状是怎样的? 都有哪些分支?今后的研究方向大致是向哪里走?

前者:population ---> sample

后者:sample ---> population

从 population 到 sample,这个是以使用概率论为主。不过 descriptive statistics 本身并不

发展新的理论知识。从 sample 到 population,这个才是应用统计学的重要目的。因为统计

学面对的是随机事件,而且是不完整的信息(sample),但要对完整的世界(population)做

出估计。

划分理论统计学和应用统计学意义也不是很大。统计学起源之一是国情学,这就注定了

“应用”的基因。但是现在科学进步这么快,而一部分人对理论研究更感兴趣,说不定就突然

发现新的方法打开了一片新天地。对这些新方法加以应用,统计学才得以保持旺盛生命力,

过去五十年不正是这样吗?

统计学经过漫长的发展,尤其是计算机的大量应用,目前包括但不限于下面这些分支(或

者交叉领域):

理论研究:概率论(比如 stochastic process),计算统计理论(比如 asymptotic theory,

在 CS 系的 computational theory 下面)当然应该包括很多我听也没听过的理论知识(搞应用

的伤不起。。。),这里就没法列举了。

统计模型、各种 test 的发展(比如 time series,likelihood ratio test, Wald test, permutation

test 等等)

计算统计方法的发展(比如 Monte Carlo simulation,Bootstrap)

数据采集(census,survey 和 clinical trial 等)

生物统计(比如 longitudinal analysis, spatial analysis)

machine learning

data mining

目前最火热的学科都是跟计算机结合比较紧密的。统计学领域也不例外,data mining 和

machine learning 都是一出生就建立在统计学(和概率论)基础之上的,现在大量的人在做

这个。而解决的实际问题包括:卫生、环境、行为等等。比如你的每一次点击都部分地决定

了 Google 将要给你投放什么样的广告,你的每一个手机使用行为都部分地决定了苹果下一

款手机的开发方向。这里面海量的数据的搜集、统计分析、行为分析,都是以统计学为核心

的。

3. 如果要高屋建瓴地评价各个分支的“研究现状和研究前沿”,有这个能力的人估计也

不多,也不会来知乎,那个已到了 methodological philosophy 的层面。

Page 5: 目前统计学在国内外的发展现状是怎样的?math0.bnu.edu.cn/~jgbao/xinxifabu/%cd%b3%bc%c6%d1... · 目前统计学在国内外的发展现状是怎样的? 都有哪些分支?今后的研究方向大致是向哪里走?

但我们还是有间接的方法——通过阅读 top journal知道行业内现在流行的研究趋势和最

新的进展。统计领域的 top journal 包括下面这些(3,4):

Journal of American Statistical Association (JASA )

Biometrika (Bka )

Journal of Royal Statistical Society (Series B, and Series A) (JRSB, JRSA)

The American Statistician (AmSt )

Survey Methodology (SrvM )

Annals of Statistics (AoS )

Journal of Official Statistics (JOS )

Biometrics (Bcs )

International Statistical Review (ISR )

另外还有计量经济学领域的 Econometrica 也是统计学家们会去投的 top journal。 PS:

经济学领域投这个比投 AER 还难。。。吧?

有兴趣的可以结合自己的背景去翻一翻最新的期刊。

4. 送给留学党:北美的统计系 PhD 项目,一般在数学系下面或者统计系下面(有一些

在商学院的运筹学系)。好一点包括:Stanford,UC Berkeley,Harvard,NYU (专指 Courant),

MIT,U Washington, Johns Hopkins, Chicago, Cornell 等等, 还有加拿大的 UBC。US NEWS 每年

都做美国的统计系排名: Best Statistics Programs,可以作为参考。当然也欢迎大家来读生

物统计系,一般是在公共卫生学院,学生的背景比较多样,学生物的学医学的学统计的都不

少,也有个别像我这样从经济系过来的(异端 T^T)。最好的学校有 John Hopkins, Harvard

school of public health, Columbia (Mailman school),北卡教堂山。加拿大的 UBC 也不错,医学

院和统计系都挺强。一般来说,统计系好的学校生物统计也不差,大概是因为教师资源可以

共享吧。

根据 @张雨萌 的介绍,统计系的就业还有一点分化。偏概率的就业要稍微窄一点差一

点,跟数学系差不多,多数还是去学术界。偏统计的则好一些,因为现在 IT 界有大量的 data

analyst 需求。他介绍说:(他们统计系)

这一届 10 个人,4 个概率 6 个统计。统计的几个人中还没毕业就被 google 挖走 2 个了,

另外一个也在湾区找了工作。概率的 2 个人想走业界路线的也都在自学统计/机器学习。

虽然工作走向有差别,不过还是觉得大家根据自己的兴趣来就好,喜欢搞理论就研究理

Page 6: 目前统计学在国内外的发展现状是怎样的?math0.bnu.edu.cn/~jgbao/xinxifabu/%cd%b3%bc%c6%d1... · 目前统计学在国内外的发展现状是怎样的? 都有哪些分支?今后的研究方向大致是向哪里走?

论,喜欢应用就搞应用,follow your heart (烂俗的鸡汤话。。。)

=========================生物统计的热点========================

先讲一个 spatial analysis 的小故事,来作为后面介绍 Bayesian disease mapping 的引子。

同时也希望更多的人关注这个问题,这是统计领域目前很火也很有发展潜力的一个方向!而

且这是个交叉领域,数学、CS、流行病学、地球科学、经济学都可以有很强的 input

尽管已经经历了工业革命,19 世纪的英国对于公共卫生的重视还远远不够,各种烈性

传染病时有发生。1840s 末期,伦敦又爆发了严重的霍乱疫情,不少人死去。

当时主流的理论认为霍乱是靠“肮脏的空气”传染的。但是又怎么可能识别和隔离“肮脏

的空气”呢?所以当时对霍乱的预防其实是毫无办法的——理论的误导太严重了。一个年轻

有为的医生,John Snow,这时已经是伦敦皇家外科医学院和伦敦皇家内科医学院的双料成

员,盯上了这个问题。他不太相信空气传播霍乱的说法,认为水里携带的细菌才是主因。他

用几年时间,走遍伦敦进行调研和病情记录,绘制了一系列的点图。比如:

从图中可以清晰看到,霍乱的发生跟地点的关系很大,呈中心发散型。这就很大程度上

挑战了“空气传染”说,因为如果是空气传染的话,霍乱的发生应该是比较均匀的才对。同时

这个研究也提供了很强的证据支持霍乱是水传播的。就在图的中心,Snow 将传染源锁定为

一个公共抽水机(从被污染了的泰晤士河里取水),并说服政府将抽水机挪走。尽管这个研

究后来还有一些波折,这里按下不表,无论如何,Snow 的工作大大开拓了当时的研究视野。

从图中可以清晰看到,霍乱的发生跟地点的关系很大,呈中心发散型。这就很大程度上挑战

了“空气传染”说,因为如果是空气传染的话,霍乱的发生应该是比较均匀的才对。同时这个

Page 7: 目前统计学在国内外的发展现状是怎样的?math0.bnu.edu.cn/~jgbao/xinxifabu/%cd%b3%bc%c6%d1... · 目前统计学在国内外的发展现状是怎样的? 都有哪些分支?今后的研究方向大致是向哪里走?

研究也提供了很强的证据支持霍乱是水传播的。就在图的中心,Snow 将传染源锁定为一个

公共抽水机(从被污染了的泰晤士河里取水),并说服政府将抽水机挪走。尽管这个研究后

来还有一些波折,这里按下不表,无论如何,Snow 的工作大大开拓了当时的研究视野。

这就是 Snow 锁定的抽水机,现在已经成了一个地标:

这就是早期的最有影响力的 spatial analysis 的研究!从中可以受到启发,关键的是两块

信息:

1. 某个 outcome (eg 霍乱的发生)

2. 地理位置

这个 outcome 可以千变万化,疾病发生率,死亡率,收入水平,就业率,入学率等等。

地理位置也可以上至大洲大洋,下至左邻右坊,可以是单中心,也可以多中心,可以有不同

类型的分布,不同的方差,等等等等。当信息量超过一定程度,又需要更好用的数学模型,

更有效率的算法,更强大的硬件……所以这个领域能结合各学科知识,能重新诠释很多问题。

就像课上老师说的:given enough data, with spatial analysis you could act like a God!

Page 8: 目前统计学在国内外的发展现状是怎样的?math0.bnu.edu.cn/~jgbao/xinxifabu/%cd%b3%bc%c6%d1... · 目前统计学在国内外的发展现状是怎样的? 都有哪些分支?今后的研究方向大致是向哪里走?

故事讲完。

我们已经得到了一个信息:疾病的发病率跟地理位置是相关的,所以 spatial analysis 在

生物统计方面应该是大有用处的。但是以前这方面的研究很少,没别的,就是缺少数据。不

是每个人都肯像 Snow 那样跑遍伦敦——所以他四十多岁就累死了。。。

题外话:Snow 也是乙醚麻醉剂定量研究的第一位科学家,维多利亚女王生孩子的时候,

他使用了乙醚进行麻醉。当时连毒理实验也没做过,真是奔放的年代!

要应用 spatial analysis 在疾病的统计上,需要两门核心基础课:longitudinal data analysis

和 Bayesian Biostatistics (更基础一点的课比如 400 level 的就不提了)。

1. longitudinal data analysis

最好的教材,由浅入深依次是:

1. Hedeker, Donald, and Robert D. Gibbons. Longitudinal data analysis. Vol. 451. John Wiley

& Sons, 2006.

2. Fitzmaurice GM, Laird NM, and Ware JH. 2011. Applied Longitudinal Analysis (2nd Edition).

Wiley.

3. Diggle PJ, Heagerty P, Liang KY, and Zeger SL. 2002. Analysis of Longitudinal Data (2nd

Edition). Oxford University Press.

Hedeker 的教材语言平易,容易入门。Fitz 的书覆盖面很广。Diggle 最难,但公式和推

导都给得很全,是最严谨的。

2. Bayesian Biostatistics

参考书目是:

1. Berry DA and Stangl DK (eds). Bayesian biostatistics. Taylor & Francis, New York

2. Carlin BP and Louis TA. Bayes and empirical Bayes methods for data analysis. Chapman&

Hall, New York.

3. Gelman A, Carlin JB, Stern HS, and Rubin DB. Bayesian data analysis. Chapman & Hall,New

York

4. Congdon P. Bayesian statistical modeling. Wiley, New York.

5. Andrew B Lawson. Bayesian disease mapping. Chapman & Hall, New York

我们老师主要用的是 Berry 和 Lawson 的。这里重点推荐一下 Lawson 的书给所有学统计

的朋友,语言简单易懂,理论与实践的应用结合得很好,关键是做 disease mapping 是统计

Page 9: 目前统计学在国内外的发展现状是怎样的?math0.bnu.edu.cn/~jgbao/xinxifabu/%cd%b3%bc%c6%d1... · 目前统计学在国内外的发展现状是怎样的? 都有哪些分支?今后的研究方向大致是向哪里走?

学和公共卫生交叉的一个未来研究趋势,在北美已经做了不少了,中国在这一块潜力很大。

(不过要吐槽一下,现在国内像样的数据还没有。大城市也只是有全病因 mortality的 location

数据而已,数据量少、单一,而且还不公开)

在这两门课掌握好之后,就可以开始 Bayesian Disease Mapping 的入门了。

1. 先看看“别人家的孩子”。

北美的 disease mapping 开始得早,所以应用的也早。比如加拿大的 British Columbia 省,

就有这个很好的官网(要安装 Microsoft Silverlight):

iMapBC

在网页地图里选择某种 outcome(比如心脏病),很快就会显示这个 outcome 在各地的

发病率是多少,非常直观,很容易看到跟 location 的关系,从而有助于政府制定相关的预防

措施。

2. 目的。我们能用 disease mapping 干什么?

了解疾病在各地的发生

预测各地的疾病发生率

测量地区之间在疾病发生率上的差异

总结数据的“pattern”,看看有什么规律没有

这一切都是为了能够更好的评估各地的 health service outcome,从而将有限的资源更加

合理地分配,实现最大化的效用。比如蒙古和卢旺达在 Ebola上的发病率肯定是显著不同的,

联合国要援助,显然是要先援助卢旺达。但是卢旺达和纳米比亚相比?这就需要更加精细的

spatial analysis 了

3. 数据。

要做成 iMapBC 里面的效果,必须要有足够丰富的数据。NASA data 是一个好的来源

(data.nasa.gov )。柴静那个片子里面用到 NASA 的图片来说明问题应该是有人指点过吧,

思路挺对的,虽然不够严谨,但没关系。真正要深入研究还是要先 define 一个良好的问题,

然后从 NASA 下载数据,用统计学手段好好分析。当然也不一定局限于 NASA 的数据。考古

学、地质学的数据,都可以拿来应用,只要能拿来数据!

比如这篇堪称丧心病狂的农业经济学文章:

Bowles, Samuel, and Jung-Kyoo Choi. "Coevolution of farming and private property during

the early Holocene." Proceedings of the National Academy of Sciences 110.22 (2013): 8830-8835.

Page 10: 目前统计学在国内外的发展现状是怎样的?math0.bnu.edu.cn/~jgbao/xinxifabu/%cd%b3%bc%c6%d1... · 目前统计学在国内外的发展现状是怎样的? 都有哪些分支?今后的研究方向大致是向哪里走?

用了考古数据——四万年的地表温度数据,来估计当时原始人的迁徙,以及对于农业和

私有制产生的影响。四万年!!!

那我们一般需要什么样的 data 呢?

最好是这样的:

来自于一个大型的有很多观察结点的 follow-up study,这样就可以使用 longitudinal

analysis 看看时间跟发病率之间有什么样的关系。

数据结构有几个 hierarchy,比如省、市、医院、个体四级,这样就可以使用 Bayesian

hierarchical

model

地位信息是完备的(spatial data),这样就可以使用 spatial analysis。

一般是没有这么理想,但是即便只满足一个要求,也是质量很不错的 data 了。

其中 spatial data 是非常有趣的:

可以是 John Snow 那样的静态位点信息;

可以是动态的位置连续变化,比如汽车的移动;

还可以是 Lattice data,这是以区域为单位的一块一块的数据,就像这样:

Page 11: 目前统计学在国内外的发展现状是怎样的?math0.bnu.edu.cn/~jgbao/xinxifabu/%cd%b3%bc%c6%d1... · 目前统计学在国内外的发展现状是怎样的? 都有哪些分支?今后的研究方向大致是向哪里走?

4. 模型。

我们现在有一些常用的模型去处理 disease mapping。比如:

Mixed effects model for longitudinal data (5)

Bayesian hierarchical model (intrinsic conditional autoregressive, iCAR)(6)

spatial model. Eg. BYM model (7)

还有一些不太常用的。模型就不在这里展开了,提供了模型的文献,有兴趣的可以随意

观赏。但是我建议把例子看一下。

这是 BC 省的 injury 情况的 Bayesian spatial analysis (8),图是这样的:

而通过下面这个图,又能看到从 1991-2000 的变化:

Page 12: 目前统计学在国内外的发展现状是怎样的?math0.bnu.edu.cn/~jgbao/xinxifabu/%cd%b3%bc%c6%d1... · 目前统计学在国内外的发展现状是怎样的? 都有哪些分支?今后的研究方向大致是向哪里走?

第二个例子是英国的一个地区:喝酒引起的死亡率的 spatial analysis (9),如图:

Page 13: 目前统计学在国内外的发展现状是怎样的?math0.bnu.edu.cn/~jgbao/xinxifabu/%cd%b3%bc%c6%d1... · 目前统计学在国内外的发展现状是怎样的? 都有哪些分支?今后的研究方向大致是向哪里走?

5. 未来发展的方向。

随着更先进的卫星、更庞大的监测体系、更长跨度的跟踪,我们会有更加丰富也更加复

杂的数据,体现在:

Areal data:现在往往是以省、市为单位做 Bayesian spatial analysis,将来一定囊括比现

在更广阔的地区;

Multilevel data:现在基本是三级数据已经很难得,将来的数据会有更多的层级;

Dynamic data:现在的数据还基本是静态数据,将来也许会容纳很多的动态数据,来反

映即时的位置变化和状态变化。

终于把这个大坑基本填完了!谢谢各位朋友的点赞和感谢!如果想交流更多的 disease

mapping 和 Bayesian spatial analysis,我们可以另外开新的题目继续交流!

Reference

(1)Pearson, Karl. The chances of death, and other studies in evolution. London ; New York :

E. Arnold, 1897.

(2)Good, Irving John. "Some history of the hierarchical Bayesian methodology."Trabajos

de estadística y de investigación operativa 31.1 (1980): 489-519.

(3)Theoharakis, Vasilis, and Mary Skordia. "How do statisticians perceive statistics

journals?." The American Statistician 57.2 (2003).

(4)04.25.2010 - Journals Ranked by Impact: Statistics & Probability

(5) McLean, Robert A.; Sanders, William L.; Stroup, Walter W. (1991). "A Unified

Approach to Mixed Linear Models". The American Statistician (American Statistical Association)

45 (1): 54–64. doi:10.2307/2685241. JSTOR 2685241

(6)Besag, Julian, and Charles Kooperberg. "On conditional and intrinsic autoregressions."

Biometrika 82.4 (1995): 733-746.

(7)Besag J, York J, Mollie A: Bayesian image restoration with two applications in spatial

statistics. Annals of the Institute of Statistical Mathematics 1991, 43:1-59. OpenURL

(8)MacNab, Ying C. "Bayesian spatial and ecological models for small-area accident and

injury analysis." Accident Analysis & Prevention 36.6 (2004): 1019-1028.

(9)Strong, Mark, et al. "Mapping gender variation in the spatial pattern of alcohol-related

mortality: a Bayesian analysis using data from South Yorkshire, United Kingdom." Spatial and

spatio-temporal epidemiology 3.2 (2012): 141-149.