第九章 数据挖掘与基因表达调控信息分析( 2 )
description
Transcript of 第九章 数据挖掘与基因表达调控信息分析( 2 )
![Page 1: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/1.jpg)
第九章 数据挖掘与基因表达调控信息分析( 2 )
主讲人:孙 啸
制作人 :刘志华
东南大学 吴健雄实验室
![Page 2: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/2.jpg)
第四节 基因表达数据的聚类分析
基因表达数据主要来自于两个方面:一是基因芯片,这是最主要的表达数据来源,
利用基因芯片技术可以大规模并行获取基因转录结果 mRNA 的数据。
表达系列分析 SAGE 和差异显示、蛋白质芯片等是快速检测蛋白质及其含量的另一类技术。
![Page 3: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/3.jpg)
聚类分析是模式识别中一种非常有吸引力的方法,特别适用于模式分类数不知道的情况。
从机器学习的角度来看,有两种基本的聚类分析:
有教师聚类无教师聚类
![Page 4: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/4.jpg)
基因表达数据聚类分析一般包括以下几个步骤:
(1)确定基因表达的数据(2)计算相似性矩阵,各个矩阵元素代表两个基因的表达是否相似(3)选择算法进行聚类分析(4)显示分析结果。
![Page 5: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/5.jpg)
对数据进行聚类分析之前,必须将包含在基因表达矩阵中的数据进行相似程度分析,并且对分析结果进行量化。 通常情况下,相似往往被赋于一个较大的量化的值,而不相似则由一个较小的量化的值来表示。在实际计算中,往往以距离代替相似的概念,相似性度量被转化为两个基因表达模式之间的距离。距离越小,表达模式越相近,反之,则表达模式差异大。
![Page 6: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/6.jpg)
![Page 7: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/7.jpg)
几种常用的聚类方法
1 .简单聚类2 .层次式聚类3 . K 平均聚类4 .自组织映射神经网络5. 模糊聚类分析方法6 、聚类分析结果的树图表示
![Page 8: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/8.jpg)
1 、简单聚类假设有 n 个基因
表达数据向量分别为 X1, X2,…, XN
• 令任意一个基因的表达向量为第一个聚类的中心• 依次处理其它基因
• 在处理第 i 个基因时,首先计算该基因的表达数据向量与现有各类中心的距离• 假设与第 j 类的距离 Dij 最小,并且 Dij<T ,则将基因 i 分配到第 j 类;否则生成一个新类,该类的中心为第 i 个基因的表达向量。
![Page 9: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/9.jpg)
2 、层次式聚类
![Page 10: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/10.jpg)
3 、 K 平均聚类• 任意选取 K 个基因表达向量作为初始聚类中心 Z1, Z2,…, Zk• 反复迭代计算• 如果 ||X-Zj(l)||< ||X-Zi(l)||(i=1,2,…,K,ij) ,则将 X
所代表的基因归于第 j 类。按照上述办法处理所有的基因;
• 经过上述处理,聚类可能发生变化,因此需要重新计算 K 个新聚类中心:
• 对于所有的聚类中心,如果 Zj(l+1)=Zj(l)(j=1,2,…,K) ,则迭代结束,得到最后的聚类结果;否则继续进行迭代计算。
)(
1)1(
lfXjj
j
XN
lZ
![Page 11: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/11.jpg)
4 、自组织映射神经网络
![Page 12: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/12.jpg)
图 9.12 SOM聚类结果示意
![Page 13: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/13.jpg)
5 、模糊聚类分析方法
主要过程:
( 1 )建立模糊相似矩阵
( 2 )生成模糊等价矩阵
( 3 )构建动态聚类图
![Page 14: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/14.jpg)
6 、聚类结果显示
图 9.15 基因表达模式聚类结果图示
![Page 15: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/15.jpg)
分类分析方法 有监督学习
疾病诊断、细胞类型识别
样本分类:(例) •急性淋巴细胞白血病 (ALL)
•急性髓性白血病 (AML)
![Page 16: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/16.jpg)
例:两类划分
![Page 17: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/17.jpg)
问题:
基因的选择?
分类的方法?• 贝叶斯分类法• 支持向量机( SVM )• k 最近邻法• 神经网络方法• 决策树方法• 投票分类法(多分类器)
![Page 18: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/18.jpg)
7 、主成分分析 PCA
![Page 19: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/19.jpg)
图 9.13 主元素对应特征值图示
![Page 20: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/20.jpg)
![Page 21: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/21.jpg)
分析基因表达数据
发现与疾病直接相关的基因
发现这些基因的活动规律
![Page 22: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/22.jpg)
第五节 基因调控网络分析
一个基因网络由一组生物分子(如基因、蛋白质)以及它们之间的相互作用构成,这些生物分子共同完成一些特定的细胞功能任务。在实际分析过程中,往往以图这种数据结构表示基因网络,图中的节点代表基因或者蛋白质,而节点之间的连线代表基因、蛋白质之间的相互作用。基因网络描述了特定细胞或组织中的功能路径,如代谢、基因调控,信号传导等。
![Page 23: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/23.jpg)
图 9.16 基因表达在化学催化中的作用
ProB 谷氨酰激酶 反应 表达 催化
谷氨酸盐
谷氨酰磷酸脂
ATP
ADP
产生 产生
底物 底物
![Page 24: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/24.jpg)
ProB 谷氨酰激酶 反应 表达 催化
谷氨酸盐
谷氨酰磷酸脂
ATP
NADPH;H+
产生
ProA 谷氨酰磷酸脂还原酶 反应 表达 催化
谷氨酰半醛
NADP 产生
1-吡咯啉-羧基 NACPH
自然产生
ProC 1-吡咯啉-5-羧基还原酶 反应 表达 催化
脯氨酸 NADP
产生
ADP
H2O
抑制
抑制
图 9.17 代谢路径示例:脯氨酸的生物合成
![Page 25: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/25.jpg)
基因表达实际上是细胞、组织、器官受遗传和环境影响的结果。一个基因的转录和表达由细胞的生化状态所决定,在一个基因的转录过程中,一组转录因子作用于该基因的启动子区域,控制该基因转录,而这些转录因子本身又是其它基因的产物。当一个基因通过转录、翻译形成功能基因产物后,它将改变细胞的生化状态,从而直接或间接地影响其它基因的表达,甚至影响自身的表达。多个基因的表达不断变化,使得细胞的生化状态不断地变化。
![Page 26: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/26.jpg)
一个基因的表达受其它基因的影响,而这个基因又会影响其它基因的表达,这种相互影响、相互制约关系构成了复杂的基因表达调控网络。 基因表达数据之中隐含基因之间的相互作用关系,因而可以通过分析基因表达数据,构建基因调控网络。
![Page 27: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/27.jpg)
几种基因调控网络模型 1 、布尔网络模型
![Page 28: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/28.jpg)
A B C
A B C
系统运行轨迹
循环 A B C
1 1 1 0 2 1 1 1 3 0 1 1 4 0 0 1 5 0 0 0 6 0 0 0
前一个状态
后一个状态
作用规则
(1) A激活 B
(2) B激活 A 和C
(3) C抑制 A
![Page 29: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/29.jpg)
![Page 30: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/30.jpg)
2 、线性组合模型
线性组合模型是一种连续网络模型,在这种模型中,一个基因的表达值是若干个其它基因表达值的加权和。基本表示形式为:
j
jiji tXwttX )()(
![Page 31: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/31.jpg)
3 、加权矩阵模型
加权矩阵模型与线性组合模型相似,在该模型中,一个基因的表达值是其它基因表达值的函数。
j
jiji tuWtr )()(
![Page 32: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/32.jpg)
4 、互信息关联网络
可以用距离或相关系数作为基因表达模式之间的相似性度量,还可以用另外一种度量形式,即用熵和互信息描述基因与基因的关联。一个基因表达模式的熵是该模式所含信息量的度量。设 X 是一个基因表达模式,用下式计算熵:
n
iii xPxPXH
12 ))((log)()(
![Page 33: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/33.jpg)
5 、基因调控网络实例真核生物生理过程的调控网络 GeneNet
GeneNet 展示了协调方式下基因的整体功能,良好的调控功能和对外界刺激的反应。该基因网具有以下基本功能:
(a) 描述执行特定生物功能时所涉及到的整体基因交互作用(b) 描述基因的蛋白质编码(c) 描述基因对外界刺激的传感途径(d) 通过一组反馈自动地稳定网络参数或者使网络转换到新的功能状态(e) 利用外部信号、激素和代谢产物作为生理学参数激发基因网纠正其作用
![Page 34: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/34.jpg)
该基因网描述了四类实体: (a) 细胞 ( 组织,器官 )
(b) 蛋白质 (c) 基因 (d) 物质
该基因网还描述了实体间两种关系:(a) 反应( reaction ) , 即通过交互作用产生新的实体或过程(b) 调控( regulatory )事件 , 特定反应对实体的作用。
![Page 35: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/35.jpg)
GeneNet 网络
![Page 36: 第九章 数据挖掘与基因表达调控信息分析( 2 )](https://reader036.fdocuments.net/reader036/viewer/2022081417/568159e9550346895dc736c3/html5/thumbnails/36.jpg)