多序列比对的原理以及 clustal 在多序列比对中的应用

29
多多多多多多多多多多 clustal 多多 多多多多多多多多 中中中中中中中 2003 中 10 中

description

多序列比对的原理以及 clustal 在多序列比对中的应用. 中山大学生科院 2003 年 10 月. 内容提要. 多序列比对的意义 多序列比对的方法 自动多序列比对的算法 Clustalx 的使用( clustal 法) 实例分析. 序列相似性比较和序列同源性分析. 序列相似性比较: 就是将待研究序列与 DNA 或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有 BLAST 、 FASTA 等 ; 序列同源性分析: - PowerPoint PPT Presentation

Transcript of 多序列比对的原理以及 clustal 在多序列比对中的应用

Page 1: 多序列比对的原理以及 clustal 在多序列比对中的应用

多序列比对的原理以及 clustal 在多序列比对中的应

中山大学生科院

2003年 10月

Page 2: 多序列比对的原理以及 clustal 在多序列比对中的应用

内容提要

•多序列比对的意义•多序列比对的方法•自动多序列比对的算法•Clustalx 的使用( clustal

法)•实例分析

Page 3: 多序列比对的原理以及 clustal 在多序列比对中的应用

序列相似性比较和序列同源性分析

序列相似性比较: 就是将待研究序列与 DNA 或蛋白质序列库进行比

较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有 BLAST、 FASTA 等;

序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同

物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有 CLUSTAL 等;

Page 4: 多序列比对的原理以及 clustal 在多序列比对中的应用

多序列比对的意义

• 用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找 motif ,保守区域等。

• 用于描述一个同源基因之间的亲缘关系的远近,应用到分子进化分析中。

• 其他应用,如构建 profile ,打分矩阵等。

Page 5: 多序列比对的原理以及 clustal 在多序列比对中的应用

• 同源性分析中常常要通过多序列比对来找出序列之间的相互关系,和 blast 的局部匹配搜索不同,多序列比对大多都是采用全局比对的算法。这样对于采用计算机程序的自动多序列比对是一个非常复杂且耗时的过程,特别是序列数目多,且序列长的情况下。

多序列比对的方法

Page 6: 多序列比对的原理以及 clustal 在多序列比对中的应用

多序列比对的方法基本上多序列比对可以分为 1. 手工比对(辅助编辑软件如 bioedit ,

seaview , Genedoc 等) 通过辅助软件的不同颜色显示不同残基,靠分

析者的观察来改变比对的状态。 2. 计算机程序自动比对 通过特定的算法(如同步法,渐进法等),由

计算机程序自动搜索最佳的多序列比对状态。

Page 7: 多序列比对的原理以及 clustal 在多序列比对中的应用

自动多序列比对的算法1. 同步法 将序列两两比对时的二维动态规划矩阵

扩展到三维矩阵。即用矩阵的维数来反映比对的序列数目。这种方法的计算量很大,对于计算机系统的资源要求比较高,一般只有在进行少数的较短的序列的比对的时候才会用到这个方法。

Page 8: 多序列比对的原理以及 clustal 在多序列比对中的应用

自动多序列比对的算法

2. 步进法 最常见的就是 clustal 所采用的方法。 其基本思想就是基于相似序列通常具有

进化相关性的这一假设。

Page 9: 多序列比对的原理以及 clustal 在多序列比对中的应用

Clustal 的渐进比对过程 在比对过程中,先对所有的序列进行

两两比对并计算它们相似性分值,然后根据相似性分值将它们分成若干组,并在每组之间进行比对,计算相似性分值。根据相似性分值继续分组比对,直到得到最终比对结果。在比对过程中,相似性程度较高的序列先进行比对而距离较远的序列添加在后面。

Page 10: 多序列比对的原理以及 clustal 在多序列比对中的应用

多序列比对工具- clustalX

Clustal 是一个单机版的基于渐进比对的多序列比对工具,由 Higgins D.G. 等开发。有应用于多种操作系统平台的版本,包括 linux 版, DOS 版的 clustlw , windows 版本的 clustalx 等。

Page 11: 多序列比对的原理以及 clustal 在多序列比对中的应用

Clustal 简介• CLUSTAL 是一种渐进的比对方法,先将

多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。

Page 12: 多序列比对的原理以及 clustal 在多序列比对中的应用

Clustalx的工作界面(多序列比对模式)

Page 13: 多序列比对的原理以及 clustal 在多序列比对中的应用

Clustalx的工作界面(剖面 (profile) 比对模式)

Page 14: 多序列比对的原理以及 clustal 在多序列比对中的应用

Clustal 的工作原理

Clustal 输入多个序列

快速的序列两两比对,计算序列间的距离,获得一个距离矩阵。

邻接法 (NJ)构建一个树(引导树)

根据引导树,渐进比对多个序列。

Page 15: 多序列比对的原理以及 clustal 在多序列比对中的应用

Clustal 的应用

1. 输入输出格式。输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是 PIR 、 SWISS-PROT、GDE、 Clustal、GCG/MSF 、 RSF等格式。

输出格式也可以选择,有 ALN、GCG、 PHYLIP和 NEXUS 等,用户可以根据自己的需要选择合适的输出格式。

Page 16: 多序列比对的原理以及 clustal 在多序列比对中的应用

2. 两种工作模式。

a. 多序列比对模式。

b. 剖面 (profile) 比对模式。

3. 一个实际的例子。

Clustal 的应用

Page 17: 多序列比对的原理以及 clustal 在多序列比对中的应用

多序列比对实例输入文件的格式 (fasta) :

>KCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTN……>DMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK…….>KPRO_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN……>DAF1_CAEELQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD……>1CSN HYKVGRRIGEGSFGVIFEGTNLLNN……

Page 18: 多序列比对的原理以及 clustal 在多序列比对中的应用

第一步:输入序列文件。

Page 19: 多序列比对的原理以及 clustal 在多序列比对中的应用

第二步:设定比对的一些参数。

Page 20: 多序列比对的原理以及 clustal 在多序列比对中的应用

参数设定窗口。

Page 21: 多序列比对的原理以及 clustal 在多序列比对中的应用

第三步:开始序列比对。

Page 22: 多序列比对的原理以及 clustal 在多序列比对中的应用
Page 23: 多序列比对的原理以及 clustal 在多序列比对中的应用

第四步:比对完成,选择保存结果文件的格式

Page 24: 多序列比对的原理以及 clustal 在多序列比对中的应用
Page 25: 多序列比对的原理以及 clustal 在多序列比对中的应用

在线的 clustalw分析

1.EBI 提供的在线 clustalw 服务

http://www.ebi.ac.uk/clustalw/

2. 我们构建的在线 clustalw 服务

http://sls.zsu.edu.cn/biopro/clustalw.html

Page 26: 多序列比对的原理以及 clustal 在多序列比对中的应用

EBI 提供

的在线

Clustalw

服务

Page 27: 多序列比对的原理以及 clustal 在多序列比对中的应用

我们构建的在线clustalw 服务

Page 28: 多序列比对的原理以及 clustal 在多序列比对中的应用

更为详细的教程可以在这里得到更多关于 clustal 的帮助:http://www-

igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html

Page 29: 多序列比对的原理以及 clustal 在多序列比对中的应用

实际操作•使用 clustalx程序,对给定的多序列,选择合适的参数,进行多序列比对,输出结果文件维 phylip 格式。

• 相同的文件,使用 ebi 和我们提供的在线服务,进行多序列比对。

• 对上述计算机程序比对的结果进行手工改动( bioedit , seaview),使得多序列比对结果跟符合要求。