第章第章第四第 章章 计算生物学的基本问题 - PKU...第章第章第四第 章章...

25
计算生物学的基本问题 计算生物学的基本问题 计算生物学的基本问题 计算生物学的基本问题 高通量、大数据下的计算生物学 高通量、大数据下的计算生物学 重大转变 重大转变 :从基于传统基因组测序数据分析转向新一代基因 组测序数据分析转向对高通量组学大数据的分析包括对表 组测序数据分析转向对高通量组学大数据的分析包括对表 观基因组、转录组、调控组、代谢组、宏基因组(宏蛋白质组) 等各个系统层次上的分析,转向用系统生物学观点研究生物复 杂系统的基本规律。 系统性的体现 系统性的体现 :基因的达、功能以及细胞 的行为,在很多情况下,都是多基因、多种蛋白质相互作用的 结果 学科发展趋势 学科发展趋势 :数学、物理、计算科学、系统科学、控制 科学、信息科学与生物学的综合应用

Transcript of 第章第章第四第 章章 计算生物学的基本问题 - PKU...第章第章第四第 章章...

第 章第 章第四章第四章

计算生物学的基本问题计算生物学的基本问题计算生物学的基本问题计算生物学的基本问题

高通量、大数据下的计算生物学高通量、大数据下的计算生物学重大转变重大转变:从基于传统基因组测序数据分析转向新一代基因

组测序数据分析,转向对高通量组学大数据的分析,包括对表组测序数据分析,转向对高通量组学大数据的分析,包括对表观基因组、转录组、调控组、代谢组、宏基因组(宏蛋白质组)等各个系统层次上的分析,转向用系统生物学观点研究生物复杂系统的基本规律。

系统复杂性的体现系统复杂性的体现:基因的表达、蛋白质的功能以及细胞系统 杂系统 杂 表 蛋 质 功能的行为,在很多情况下,都是多基因、多种蛋白质相互作用的结果

学科发展趋势学科发展趋势:数学、物理、计算科学、系统科学、控制科学、信息科学与生物学的综合应用

核心与源头核心与源头:基因组信息学

“读懂”基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能在发现了新基因信息之后进行蛋白质空间结构模拟和预测在发现了新基因信息之后进行蛋白质空间结构模拟和预测依据特定蛋白质的功能进行药物设计了解基因表达的调控机理 根据生物分子在基因调控中的了解基因表达的调控机理,根据生物分子在基因调控中的

作用,描述人类疾病的诊断、治疗内在规律

§§4.1 4.1 基因与基因组学基因与基因组学

基因基因与基因组数据与基因组数据:以核酸序列、蛋白质序列为主(一维数字序列)数字序列)

目的目的:解读遗传语言的奥秘

以往关注以往关注较多的工作较多的工作:编码区(coding regions)编码区(coding regions)部分调控序列(regulatory regions)

大部分的非编码区:正在研究中

A) A) 大规模、高通量测序大规模、高通量测序中的数据分析中的数据分析

大规模测序的每一个环节都与数据分析紧密相关

过程复杂、工作量大

有效的数据分析算法与软件有效的数据分析算法与软件

高通量测序技术(新一代、下一代)新的挑战:全基高通量测序技术(新 代、下 代)新的挑战:全基因组的高通量测序数据、复杂微生物群落的基因组测序数据、单细胞测序数据数据 单细胞测序数据

大规模测序及大规模测序及数据分析过程

大规模测序数据分析的关键问题大规模测序数据分析的关键问题

序列序列拼接拼接((AssemblyAssembly))

填补序列间隙填补序列间隙填补序列间隙填补序列间隙

举例举例:Phrap软件(Green & Ewing 1998)Phrap软件(Green & Ewing, 1998)(http://www.genome.washington.edu/UTGC/analysistools/phrap.htm)

GigAssembler软件(Kent & Haussler, 2000)g ( )

将测序得到的原始序列拼接成片段重叠群(contig),并进一步拼接成更大的contig。步拼接成更大的co t g。

核心算法问题:优化算法,如动态规划算法(dynamic programming)、贪婪算法(greedy algorithm)

高通量测序的宏基因组和宏转录组数据分析过程

过计算分析过计算分析 数 库发 新基数 库发 新基

B) B) 新基因的发现新基因的发现

通过计算分析从通过计算分析从ESTEST数据库发现新基因数据库发现新基因EST(Expressed Sequence Tags):基因表达的短cDNA序列

从从DNADNA序列计算预测基因编码区序列计算预测基因编码区三种方法的综合:1 从 RNA和EST得到直接的证据1、从mRNA和EST得到直接的证据;2、从已知基因和蛋白的序列同源性得到间接证据;3、结合各种统计性质的从头预测(ab initio prediction)方法。

HMM方法语言学方法语言学方法人工神经网络、模式识别方法……

http://www.nsf.gov/div/index.jsp?div=OCE

Sample depth

Size(Mb)

Predicted gene number

Genes matching

KO (e≤0.01)

Genes matching KO with certain

function

Genes matching COG

(e≤0.01)

Novel gene

number10m 8.63 9767 6351 3367 5358 15470m 12.4 12309 7538 3506 6029 191

130m 7.15 9587 4298 2164 4141 322200 9 12 9884 5987 2785 5164 346200m 9.12 9884 5987 2785 5164 346500m 10.1 11299 7998 3788 6717 97770m 13.5 13631 9899 4674 8273 65

4000m 12 4 14053 10271 4544 8477 118

The Sorcerer II Global Ocean Sampling Expedition Stations

4000m 12.4 14053 10271 4544 8477 118

Delong E F, Preston C M, Mincer T et al (2006) Community genomics among stratified microbial assemblages in the ocean's interior. Science 311:496-503

非编码区占人类基因组的95%以上 其生物学意义目前尚

C) C) 非编码区的信息解读非编码区的信息解读

非编码区占人类基因组的95%以上,其生物学意义目前尚不是很清楚;(“Junk” DNA?)

一般认为 它们的生物学功能可能体现在对基因表达的时一般认为,它们的生物学功能可能体现在对基因表达的时空调控上;

非非编码区信息解读的途径编码区信息解读的途径::(1)基于已有的已经为实验证实的所有功能已知的DNA元件的序列特征,预测非编码区中可能含有的功能已知的DNA元件,从而预测其可能的生物学功能,并通过实验进行验证;

(2)通过理论直接探索非蛋白编码区的新的未知的序列特征 并从理论(2)通过理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。

人内含子区域的剪接调节元件:剪接调节元件

通过对非编码调控控区DNA序列的自学习模式识别算法 检测到8算法,检测到8类保守的调节元件,它们对转录件,它们对转录过程的剪接起到重要的调控作用。

生命的本质生命的本质:

D) D) 基因组整体功能及其调控网络的系统把握基因组整体功能及其调控网络的系统把握

生命的本质生命的本质:生命现象是基因组中所有功能单元相互作用共同制造出来的。(复杂网络

系统、复杂现象)

基于基因芯片的数据挖掘基于基因芯片的数据挖掘:基因芯片(gene chip / DNA microarray)技术:可以监测基因组在各种时基因芯片(gene chip / DNA microarray)技术:可以监测基因组在各种时

间断面上的整体转录表达状况对该技术所产生的大量实验数据进行高效分析,从中获得基因组运转以

及调控的整体系统的机制或者是网络机制 是生物信息学在该领域中的重要及调控的整体系统的机制或者是网络机制,是生物信息学在该领域中的重要问题。

探针设计的优化算法基因芯片的信息管理基因芯片的信息管理数据挖掘算法基因转录调控网络分析方法……

E) E) 基因组演化与物种演化基因组演化与物种演化

178个与人类宿主有关的细菌基因组序列的 16S因组序列的 16SrRNA序列的系统进化树

当前分子进化研究的局限当前分子进化研究的局限:尽管已经在分子演化方面取得了许多重要的成就,但仅仅依靠某些基

因或者分子的演化现象 就想阐明物种整体的演化历史似乎不太可靠因或者分子的演化现象,就想阐明物种整体的演化历史似乎不太可靠。例:人与黑猩猩之间有98%~99%的结构基因和蛋白质相同,但表型

上却差异巨大。Building block 复杂系统

基因组整体组织方式的演化基因组整体组织方式的演化:

Building block、复杂系统

基因组整体组织方式的演化基因组整体组织方式的演化:基因组整体组织方式在研究物种演化历史中起着重要作用而不仅仅是个

别基因起作用。基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理种个体的发育和生理。

因此,从基因组整体结构组织和整体功能调节网络方面,结合相应的生理表征现象,进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径的最佳途径;

发展比较基因组学的新方法、新算法。

基因组的共同演化问题基因组的共同演化问题:

基因组集合体(宏基因组与环境或宿主)

遗传物质和遗传信息的交换遗传物质和遗传信息的交换

基因组演化动力学

The two major influences on bacterial genomes: insertion of genes byduplication and lateral gene transfer, and the loss of non-functionalsequences by deletion. From Mira et al. (2001).q y ( )

§§4.2 4.2 蛋白质组(蛋白质组(proteomeproteome))

基因组基因组

基因芯片技术基因芯片技术

RNARNA

蛋白质组技术蛋白质组技术

蛋白质蛋白质

蛋白质组技术蛋白质组技术

蛋白质蛋白质

§§4.3 4.3 蛋白质结构与功能预测蛋白质结构与功能预测

核酸与蛋白质序列数据库核酸与蛋白质序列数据库

实验方法实验方法蛋白质结构蛋白质结构与功能的知识与功能的知识

实验方法:实验方法:X射线晶体衍射技术NMR技术与功能的知识与功能的知识三维图像重构技术…

理论方法:模式识别理论方法:模式识别理论方法:模式识别理论方法:模式识别

基本思想基本思想:利用存在于蛋白质序列或结构中的某些特征基本思想基本思想 利用存在于蛋白质序列或结构中的某些特征模式识别相关蛋白质的性质。

基本路线基本路线 将已知蛋白质的特征序列模式和特征结构模基本路线基本路线::将已知蛋白质的特征序列模式和特征结构模式搜集起来,构建成数据库,则可以用来确定新测定的蛋白质序列中是否具有某种特征模式 从而确定该未知蛋白属于质序列中是否具有某种特征模式,从而确定该未知蛋白属于哪个蛋白质家族。

A) A) 蛋白质二级结构预测蛋白质二级结构预测

统计统计//经验算法经验算法Chou-Fasman方法(由已知结构统计各种氨基酸残基形成二级结构的构象趋势)趋势)GOR(Garnier-Osguthorpe-Robson)方法(基于信息论算法,将一级结构与二级结构看成由一个转化过程相联系两个信息)机器学习方法机器学习方法

物理化学方法物理化学方法基于氨基酸的物理化学性质,包括堆积性、疏水性、电荷性、氢键形成

能力等

序列比对方法序列比对方法通过序列比对,由已知三维结构的同源蛋白推断未知蛋白的二级结构

B) B) 蛋白质三级结构预测蛋白质三级结构预测

同源蛋白质结构预测同源蛋白质结构预测(比较建模方法):进化过程中蛋白质三维结构的保守性远大于序列的保守性,当两个蛋

白质序列同源性高于35%时,一般情况下其三维结构基本相同。片段组装法、距离几何法

蛋白质折叠类型的识别问题蛋白质折叠类型的识别问题1. 新测定蛋白质序列能否折叠成已知的折叠模式?给定 个结构 能否在序列库中找到所有能够折叠成该结构的序列2. 给定一个结构,能否在序列库中找到所有能够折叠成该结构的序列?

判别序列与结构模式匹配的计分算法、判别序列与蛋白质结构匹配的势函数方法、序列与结构排比的算法……

蛋白质结构的从头预测蛋白质结构的从头预测二级结构片段的堆积计算级结构片段的堆积计算简化模型的计算基于知识的结构预测与从头预测相结合完全根据蛋白质的物理模型进行分子动力学模拟完全根据蛋白质的物理模型进行分子动力学模拟

蛋白质三级结构预测,特别是基于二级结构预测的三级结构预测,尽管已经由个别成功的例子,总的说来,还远远没有成熟有成熟。

§§4.4 4.4 生物大分子结构模拟生物大分子结构模拟和药物设计和药物设计和药物设计和药物设计

由于基因多态性基因多态性的存在,生物表型及对环境、外源物和药物的反应都有所不同。研究基因多态性可以对群体的基因基因共性共性及其中的基因个性基因个性都有明确的认识 从而在保健 预防共性共性及其中的基因个性基因个性都有明确的认识,从而在保健、预防、治疗以及制药方面实现个性化、最优化。

计算生物学和生物信息学所提供的数据资料,可以指导对药物作用靶位的选定和药物分子的设计。这种方法有快速物 用 物分 有高效的特点,它的研究包括:大分子结构功能的模拟和预报药物分子与大分子结合的模拟药物分子与大分子结合的模拟关键性基因的致病机制生物分子同源性的分析生物分子同源性的分析生物分子在指定细胞的分布和位点个体差异……

RNA结构模拟和反义RNA的分子设计;蛋白质空间结构模拟和分子设计;具有不同功能域的复合蛋白质以及连接肽的设计;具有不同功能域的复合蛋白质以及连接肽的设计;生物活性分子的电子结构计算和设计;纳米生物材料的模拟与设计;纳米生物材料的模拟与设计;基于酶和功能蛋白质结构、细胞表面受体结构的药物设计;基于DNA结构的药物设计。

§§4.5 4.5 新一代测序的计算生物学问题新一代测序的计算生物学问题

新一代测序数据产生和误差的数学模型通过对数据模型和后续应用的研究指导测序的实验设计和技术改进验设计和技术改进通过算法、软件、硬件和系统的策略有效应对高通量测序数据带来的存储 传输与计算问题通量测序数据带来的存储、传输与计算问题通过信号处理、模式识别等手段准确有效地从ChIP-seq、bisulfite-seq、3C、RNA-seq、CLIP-seq等类型的测序数据中提取各种有效信号

建立比较各种信号的统计模型通过高分辨率基因组和表观基因组数据识别各种通过高分辨率基因组和表观基因组数据识别各种调控元件、构建调控系统通过对 A测序数据的处理精细绘制转录组 精通过对RNA测序数据的处理精细绘制转录组、精确构建编码和非编码基因的转录谱和剪接加工模式在没有参考序列的情况下非监督地组装和识别宏基因组和宏转录组中的有效功能单位、进而对微生基因 和宏转录 中的有效功能单位 进而对微物群落的功能进行刻画对细胞分化和癌症发生发展等复杂生物过程动态对细胞分化和癌症发生发展等复杂生物过程动态地构建调控网络、解读这些过程中的调控程序

将不同层次、不同尺度上的组学数据进行整合定量描述复杂生物网络的功能 定量研究生物网定量描述复杂生物网络的功能、定量研究生物网络整体特性与疾病等表型的关联在新一代测序数据下,更有效地开展群体遗传学研究采用混合样本测序策略进行全基因组关联研究的统计学性质统计学性质通过高分辨率的功能元件谱建立复杂疾病遗传学因素的功能通路因素的功能通路

§§4.6 4.6 细胞过程模拟细胞过程模拟

细胞是生命活动的基本单元。

已有基础 对细胞内各种代谢途径与信号转导过程的知识和已有基础:对细胞内各种代谢途径与信号转导过程的知识和数据积累。

“Even if you construct a complete list of all the processes known to occur within a cell, that won't tell you how it works.”

1999年4月2日《SCIENCE》刊文:Building Working Cells “in Silico”Building Working Cells “in Silico”E-Cell (Masaru Tomita, 1999)Virtual Cell (L. Loew & J. Schaff, 1999)( , )

EE--CellCell程序程序

可以演示基本上已知的生化反应途径,前景上可以用计算实验模拟、代替试管和活体实验;

允许用户规定细胞中有哪些基因和其它分子,以及它们的基因和其它分子,以及它们的位置和浓度,有程序去模拟生化过程的发展。运行中可以剔除某个基因,或改变营养状况,以观察过程变化。

计算生物学的远大目标计算生物学的远大目标

如何运用数学 物理及相关领域的理论成果对生物体进行完如何运用数学、物理及相关领域的理论成果对生物体进行完整系统的理论模型描述,使得人类能够从一个更加明确的角度和一个更加易于操作的途径来认识和控制自身以及所有其度和 个更加易于操作的途径来认识和控制自身以及所有其他的生命体。

community

whole cell

organs

pathways

complexes

biological data

proteins

genes

计算生物学计算生物学的蓝图的蓝图(1)(1):细胞:细胞

DNA、RNA和蛋白质序列

1 序列数据库1、序列数据库

2、序列相似性和双序列比对2、序列相似性和双序列比对

3、多序列比对

4、局部比对搜索

5、全局比对搜索

计算生物学计算生物学的蓝图的蓝图(2)(2):单个生物体:单个生物体

RNA和蛋白质的基因组层次

1 基因表达的生物信息学问题1、基因表达的生物信息学问题

2、基因表达的数据分析方法、基因表达的数据分析方法

3、蛋白质分析和蛋白质组学

4、蛋白质结构

5、分子进化

计算生物学计算生物学的蓝图的蓝图(3)(3):生命之树:生命之树基因组分析基因组分析

1、全基因组与系统发育树1、全基因组与系统发育树

2、病毒基因组分析

3、原核基因组分析

4、真核基因组分析

5、人类基因组与人类疾病研究

计算生物学计算生物学//生物生物信息学领域重要刊物信息学领域重要刊物Nucleic Acids Res (http://nar oxfordjournals org)Nucleic Acids Res. (http://nar.oxfordjournals.org)

Bioinformatics (http://bioinformatics.oxfordjournals.org)

http://www.nature.com/msb/

http://www.ploscompbiol.org/home.action

http://www.biomedcentral.com/bmcbioinformatics