第二十五章 基因结构分析的基本策略

78
目 目 目目目目目 目目目目目目目目目目目 Basic strategy for analyzing gene structure

description

第二十五章 基因结构分析的基本策略. Basic strategy for analyzing gene structure. 主要内容: 第一节 基因序列结构的生物信息学检索和比对 分析 第二节 基因转录起始点的鉴定 第三节 启动子的结构及功能分析 第四节 编码序列结构分析. 第一节 基因序列结构的生物信息学检索和比对分析. 基因或 DNA 序列比对. 就是在数据库中对基因序列或 DNA 序列进行 比对分析,以其能够推测出其结构、功能及在进化上的联系 . 比对方法: 1. 双重比对 2. 多序列比对. 直接的数量关系. 序列比对目的: - PowerPoint PPT Presentation

Transcript of 第二十五章 基因结构分析的基本策略

Page 1: 第二十五章 基因结构分析的基本策略

目 录

第二十五章

基因结构分析的基本策略

Basic strategy for analyzing gene structure

Page 2: 第二十五章 基因结构分析的基本策略

目 录

主要内容:

第一节 基因序列结构的生物信息学检索和比对 分析

第二节 基因转录起始点的鉴定

第三节 启动子的结构及功能分析

第四节 编码序列结构分析

Page 3: 第二十五章 基因结构分析的基本策略

目 录

第一节

基因序列结构的生物信息学检索和比对分析

Page 4: 第二十五章 基因结构分析的基本策略

目 录

•就是在数据库中对基因序列或 DNA 序列进行 比对分析,以其能够推测出其结构、功能及在进化上的联系 .

•比对方法:

1. 双重比对

2. 多序列比对

序列比对目的:•判断两个或多个序列间是否具有足够的相似性从而判断二者之间是否具有同源性

直接的数量关系

进化上曾具有共同祖先

•基因或 DNA 序列比对

Page 5: 第二十五章 基因结构分析的基本策略

目 录

序列比对的结果:•取代•插入•缺失

Mouse:

GGKDSCQGDSGGPVVCNG----QLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAAN

Crayfish:

GGKDSCQGDSGGPLAASDTGSTYLAGIVSWGYGCARPGYPGVYTEVSYHVDWIKANAV--

缺失?

保守序列

保守序列:•可能是共同进化的标志•可能并不代表功能的重要性

插入? •当两个序列非常相似时,是否一定说明它们具有相似的功能?

Page 6: 第二十五章 基因结构分析的基本策略

目 录

•NCBI 数据库

NCBI 首先创建 GenBank 数据库

•于 1991 年开发了 Entrez 数据库检索系统,该系统整合了GenBank 、 EMBL 、 PIR 和 SWISS-PROT 等数据库的序列信息以及 MEDLINE 有关序列的文献信息,并通过相关链接,将他们有机地结合在一起

•NCBI 还 提 供 了 其 他 数 据 库 , 包 括 在 线 人 类 孟 德 尔 遗 传(OMIM )、三维蛋白结构的分子模型数据库( MMDB )、人 类 基 因 序 列 集 成 ( UniGene ) 、 人 类 基 因 组 基 因 图 谱( GMHG )、生物门类( Toxonomy ) 等数据库

Page 7: 第二十五章 基因结构分析的基本策略

目 录

Page 8: 第二十五章 基因结构分析的基本策略

目 录

1. 各种数据库的介绍

(1) Nucleotide

•该数据库由国际核苷酸序列数据库成员美国国立卫生研究院 GenBank 、日本 DNA 数据库 (DDBJ) 和英国 Hinxton Hall 的欧洲分子生物学实验室数据库 (EMBL )三部分数据组成

•三个组织每天交换各自数据库中的新增序列实现数据共享

Page 9: 第二十五章 基因结构分析的基本策略

目 录

(2) Genome

•即基因组数据库,提供了多种基因组、完全染色体、重叠序列图谱以及一体化基因物理图谱

(3) Structures

•即结构数据库或称分子模型数据库 (MMDB) ,包含来自 X 线晶体学和三维结构的实验数据•NCBI 已经将结构数据交叉链接到书目信息、序列数据库和NCBI 的 Taxonomy 中运用 NCBI 的 3D 结构浏览器和 Cn3D ,可以很容易地从 Entrez 获得分子的分子结构间相互作用的图像

Page 10: 第二十五章 基因结构分析的基本策略

目 录

(4) Taxonomy

•即生物学门类数据库,可以按生物学门类进行检索或浏览其核苷酸序列、蛋白质序列、结构等

(5) PopSet

•包含研究一个人群、一个种系发生或描述人群变化的一组组联合序列•PopSet 既包含了核酸序列数据又包含了蛋白质序列数据

Page 11: 第二十五章 基因结构分析的基本策略

目 录

(7) 文献数据库

•PubMed :生物医药科学的检索系统 •OMIM :孟德尔遗传学数据库是人类基因和基因疾病的目录数据库

•其他:书目,杂志,文章引用匹配等

•该数据库包括原文信息、图片和参考信息,同时还可以链接到 Entrez 系统 MEDLINE 数据库中相关文献和序列信息

Page 12: 第二十五章 基因结构分析的基本策略

目 录

2. NCBI 数据库检索

•在检索框中输入检索词,检索词间默认逻辑关系为 AND ,检索规则基本同 PubMed

•可以通过下拉菜单选择记录的显示格式,通常选择 GenBank Report格式或 FASTA Report格式。•当选择 GenBank Report格式后,屏幕显示较完整的基因记录,包括:基因位点 (Locus )、基因定义 (Definition )、基因存取号(Accession )、 核酸编号 (NID )、关键词 (Keywords )、 来源(Source )、组织分类 (Organism) 、参考文献 (Reference) 、 著者 (Author )、题目 (Title )、期刊 (Journal )、 Medline存取号 (Medline ) 、 序 列 特 征 (Features ) 、 基 因(Gene )、 CDS ( cDNA )、等位基因 (Allele ) 对等的肽 (Mat-Peptide )、计算碱基数 (Base Count )、原序列 (Origin )。•而 FASTA Report格式仅包括检出序列的简要特征描述。

Page 13: 第二十五章 基因结构分析的基本策略

目 录

例如:人 EPO 基因序列检索•输入关键词,选择合适的程序

Page 14: 第二十五章 基因结构分析的基本策略

目 录

•向下拉寻找符合目标的条目

Page 15: 第二十五章 基因结构分析的基本策略

目 录

•点击此条打开连接

Page 16: 第二十五章 基因结构分析的基本策略

目 录

•向下拉寻找关注的内容

Page 17: 第二十五章 基因结构分析的基本策略

目 录

•凡是连接的地方都可以点击查看

•可以直接拷贝保存相关内容

Page 18: 第二十五章 基因结构分析的基本策略

目 录

•Entrez :

是一个用以整合 NCBI 数据库中信息的搜寻和检索工具

3. NCBI 数据库搜索工具

•BLAST :

是一个 NCBI 开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段

•NCBI 提供的附加软件工具有:开放阅读框寻觅器( ORF Finder ) ,电子 PCR , 和 序 列 提 交工具, Sequin 和 BankIt

•Entrez 的一个强大和独特的特点是检索相关的序列,结构,和参考文献的能力

Page 19: 第二十五章 基因结构分析的基本策略

目 录

•Entrez:

Page 20: 第二十五章 基因结构分析的基本策略

目 录

•BLAST:

Page 21: 第二十五章 基因结构分析的基本策略

目 录

•BLAST程序

程序 数据库 查询 内容

Blastp 蛋白质 蛋白质 使用取代矩阵寻找较远的关系:

可以进行 SEG 过滤

Blastn 核苷酸 核苷酸 寻找较高分值的匹配,对较远关系

不太适用

Blastx 核苷酸 蛋白质 对于新的 DNA 序列和 ESTs 的分析极

(翻译) 为有用

Tblastn 蛋白质 核苷酸 对于寻找数据库中没有标注的编码

(翻译) 区极为有用

Tblastx 核苷酸 核苷酸 对于分析 EST极为有用

(翻译) (翻译)

Page 22: 第二十五章 基因结构分析的基本策略

目 录

点击核酸序列 blast ,在框内输入序列:

Page 23: 第二十五章 基因结构分析的基本策略

目 录

选择搜索条件:

Page 24: 第二十五章 基因结构分析的基本策略

目 录

选择特殊程序:

Page 25: 第二十五章 基因结构分析的基本策略

目 录

比较两个序列之间的相似性:

Page 26: 第二十五章 基因结构分析的基本策略

目 录

以上仅简介了 NCBI 相关数据库及工具软件关于其他数据库及软件工具等信息见书中第二十五章表 1-5。

Page 27: 第二十五章 基因结构分析的基本策略

目 录

第二节

基因转录起始点的鉴定

Page 28: 第二十五章 基因结构分析的基本策略

目 录

主要内容:

一、基因转录起始点的序列特征

二、基因转录起始点的序列分析

Page 29: 第二十五章 基因结构分析的基本策略

目 录

一、基因转录起始点的序列特征

TATA box

CAAT box

GC box

增强子

顺式作用元件

结构基因-GCGC---CAAT---TATA

转录起始点

1. 真核基因及其调控元件

Page 30: 第二十五章 基因结构分析的基本策略

目 录

II 型启动子的 TSS :•没有明确的保守序列•有一种趋势,即 mRNA 的第一个碱基是 A ,其侧翼碱基倾向于是嘧啶•与 mRNA 第一个碱基对应的位置标记为 -1区•-3 ~ +5区域被称作起始子 (initiator)

2. 转录起始点( TSS )

+10 +20Start site

-10-20-30-40

+1

ATG-3 +5

Initiator Py2CAPy5

Page 31: 第二十五章 基因结构分析的基本策略

目 录

二、基因转录起始点的序列分析

思考:•转录起始点 (TSS) 位于基因编码序列的 5端•基因编码区是指能体现在多肽链中的核苷酸序列•多肽链是以 mRNA为模板经翻译合成的因此,

分析鉴定 TSS 的方法都是以 cDNA为切入点

Page 32: 第二十五章 基因结构分析的基本策略

目 录

1. cDNA克隆测序

AAAAAnAAAAAn

AAAAAn

mRNA

反转录酶

AAAAAn

Oligo (dT)15-18

TTTTT15-18

cDNA 第一链CCCCC

TTTTT15-18

cDNA 第一链nCCCCnGGGG

cDNA 第二链

克隆扩增, 5 端测序分析

反转录酶的末端转移酶活性Oligo (dG)15-18

mRNA

与线性载体相连接要求:

cDNA 的 5 端完整无缺

Page 33: 第二十五章 基因结构分析的基本策略

目 录

2. cDNA末端快速扩增技术 (RACE)

•传统的 RACE :

AAAAAnmRNA

AAAAAnTTTTT15-18

cDNA

mRNA-53-

反转录酶Oligo (dT)15-18

末端转移酶dGTP

TTTTT15-18nGGGGG

锚定 PCR 扩增

TTTTT15-18nGGGGG

nCCCCC锚定引物

特异引物

PCR 产物

Page 34: 第二十五章 基因结构分析的基本策略

目 录

•Deep-RACE : 用寡核苷酸替代 mRNA 的 5′ 端帽结构以及发光标记巢氏 PCR 引物实现高通量鉴定转录起始点

AAAAAn5-p 帽mRNA

牛小肠磷酸酶 (CIP)

AAAAAn5- 帽

烟草酸焦磷酸酶 (TAP)

AAAAAn5-将 5-RACE adaptor ( 寡核苷酸 ) 加到脱帽 RNA 分子上

AAAAAn5-RACE adaptor ( 寡核苷酸 ) 反转录酶

10nt 随机引物

Page 35: 第二十五章 基因结构分析的基本策略

目 录

5-RACE adaptor5-RACE adaptor5-RACE adaptor5-RACE adaptor

长短不同的 cDNA 随机引物

用 10nt 随机引物与 5-RACE 引物进行 PCR 扩增

5-RACE adaptor5-RACE adaptor5-RACE adaptor5-RACE adaptor

PCR 产物 随机引物

以 5’-RACE 引物和 5’ 端甩尾的基因特异性反向引物进行巢氏 PCR

5-RACE adaptor

以 5’-RACE 发光标记引物对 PCR混合物直接进行一次性测序

分析基因转录起始点

Page 36: 第二十五章 基因结构分析的基本策略

目 录

3.连续分析基因转录起始点

•在 RACE 的基础上,通过在转录本 5 ′ 端引入一个特殊的 II 型限制性核酸内切酶识别位点,实现了基因 5 ′ 端短片段串联连接产物一次测序分析多个基因转录起始点的目的•主要有两种方法:•5 ′ 端连续分析基因表达( 5 ′ -end serial analysis of gene expression, 5 ′ SAGE )•帽分析基因表达( cap analysis gene expression, CAGE )

Page 37: 第二十五章 基因结构分析的基本策略

目 录

(1) 5 ′ SAGE

•5′SAGE 是在 PCR 过程中将 MmeI 酶切位点引物cDNA 的 5′ 端,通过酶切和连接获得不同短片段重复序列,并对重复序列进行测序获得大量片段序列信息 •不同序列的短片段代表不同基因的转录起始点 (TSS)

MmeI:

•是一种特殊的 II 型限制性核酸内切酶•识别的序列不是回文结构,而是不对称的 DNA序列 5′-TCCRAC-3′ ( R 代表 G 或 A )•在识别位点下游 18~20 碱基处切开双链 DNA

Page 38: 第二十五章 基因结构分析的基本策略

目 录

Gppp AAAAAAAAnmRNA

用 BAP 和 TAP 处理

AAAAAAAAnp

在 RNA 的 5 端加上寡核苷酸帽

AAAAAAAAn5XhoI MmeI

反转录酶RT

5AAAAAAAAn5

cDNA

PCR Biotin- 标记引物

随机引物

55Biotin

MmeI酶切消化

520 mer

5Biotin亲和素用亲和素 - 生物素,可以将 5- 端片段与其他片段分离开

Page 39: 第二十五章 基因结构分析的基本策略

目 录

520 mer

连接

5Biotin5 Biotin520 mer

PCR 扩增

55Biotin

5 Biotin5

XhoI酶切消化

自身连接

串联体

测序分析

Page 40: 第二十五章 基因结构分析的基本策略

目 录

(2) CAGE

CAGE 与 5′SAGE 非常相似

所不同的是 :

•CAGE 不 需 要 在 RNA 上 加 接 头 , 而 是 用oligo(dT) 引物先进行第一链 cDNA 的合成•然后通过捕获帽结构,将含有 MmeI 和另一内切酶位点如 XmaJI 的 linker 加到单链全长cDNA 的 3′ 末端

Page 41: 第二十五章 基因结构分析的基本策略

目 录

AAAAAAnCapmRNA

反转录酶 Oligo (dT)15~18

AAAAAAnCapTTTTTTTn

cDNA

捕获 5- 帽结构单链 linker

连接

TTTTTTTn

Biotin

cDNA 第二链的合成

TTTTTTTnAAAAAAn

MmeIXmaJI

MmeI酶切

亲和素

20 mer

用亲和素 - 生物素,可以将 5-端片段与其他片段分离开

Page 42: 第二十五章 基因结构分析的基本策略

目 录

连接第二个 linker

XbaIXmaJI

XmaJI, Xbal酶切消化

PCR (用 linker1 和 linker2 作引物)

Linker 1 Linker 2

纯化,串联连接,克隆

20 mer

XmaJI 和 XbaI 是同尾酶:

XmaJI : C^CTAGG

XbaI : T^CTAGA

串联体

测序分析

Page 43: 第二十五章 基因结构分析的基本策略

目 录

第三节

启动子的结构及功能分析

Page 44: 第二十五章 基因结构分析的基本策略

目 录

主要内容:

一、启动子的结构分析

二、启动子的功能分析

Page 45: 第二十五章 基因结构分析的基本策略

目 录

启动子( promoter )•是一段能被蛋白质识别的、参与特定基因转录调控的 DNA 序列•II 型启动子通常位于结构基因的上游•共通序列 (consensus sequence) 是其特征性序列

•共通序列和启动子所处的位置是研究启动子的重要线索

Page 46: 第二十五章 基因结构分析的基本策略

目 录

+10 +20Start site

-10-20-30-40

+1

ATG-3 +5

Initiator

共通序列例如:•原核基因的共通序列:

-10 区: Pribnow box ( T77A76T60A61A56T82 序列)

-35 区: T69T79G61A56C54A54 序列 •真核基因的共通序列:

真 核 基 因 启 动 子 在 -50 区 域 附 近 ( 大 约5%~30% 基因启动子在 -25~-30 区域)有 TATA box ( TATAAA 序列) TATAATTTGACA

Page 47: 第二十五章 基因结构分析的基本策略

目 录

一、启动子的结构分析

主要方法:•利用 PCR技术克隆启动子•利用核酸 -蛋白质相互作用方法研究启动子•生物信息学预测启动子

Page 48: 第二十五章 基因结构分析的基本策略

目 录

(一)利用 PCR技术克隆启动子

特异性基因序列基因上游序列基因组 DNA

根据基因序列合成一条反向引物正向引物用随机引物

PCR 扩增

随机引物

特异引物

克隆及测序分析

注意:•真核基因有内含子,应该根据mRNA 序列设计特异性引物•特异性引物尽可能靠近基因的5 端

1. 根据已知基因序列直接进行 PCR扩增

Page 49: 第二十五章 基因结构分析的基本策略

目 录

2. 利用 TSS钓取启动子

AAAAAAnCap 5-mRNA

反转录AAAAAAnTTTTTTn

cDNA

插入载体,克隆扩增

Cap 5-

以基因特异引物与载体引物配对PCR 扩增

5-

测序分析基因转录起始点序列

以 TSS 序列为引物,基因组序列为模板,与随机引物配对进行 TSS 上游序列的 PCR 扩增

Page 50: 第二十五章 基因结构分析的基本策略

目 录

3. 利用环状 PCR钓取启动子基因组 DNA

酶切消化基因组 DNA 片段

直接环化连接 加上接头后环化连接

根据基因上游序列设计一对反向互补引物

PCR 扩增 根据接头序列设计引物PCR 扩增

克隆

测序分析

克隆

测序分析

•加接头环化 PCR 不依赖特异基因序列•可用于筛选启动子

接头

Page 51: 第二十五章 基因结构分析的基本策略

目 录

(二)利用核酸 -蛋白质互作方法研究启动子

•启 动 子 是 一 段 能 被蛋白 质识别 和结 合的DNA 序列,因此,能够检测核酸 - 蛋白质相互作用的研究方法都可以用于启动子的研究中 主要方法:•足迹法(酶足迹法,化学足迹法)•电泳迁移率变动实验( EMSA )•染色体免疫沉淀( ChIP )

Page 52: 第二十五章 基因结构分析的基本策略

目 录

1. 用足迹法研究启动子

足迹法( Footprinting )

•利用 DNA 电泳条带连续性中断的图谱特点判断与蛋白质结合的 DNA 区域 基本流程:

DNA 与蛋白质相互作用

切割 DNA

凝胶电泳

分析电泳图谱

蛋白与未标记的竞争 DNA 结合

蛋白与标记的 DNA 结合

凝胶电泳

放射自显影

Page 53: 第二十五章 基因结构分析的基本策略

目 录

( 1 )酶足迹法 (Enzymatic footprinting)

利用能切割 DNA 的酶处理 DNA- 蛋白质混合物,然后通过电泳进行分析

• DNase I 足迹法 (DNase I footprinting)

是一种利用 DNase I 随机切割双链 DNA ,从而确定 DNA 结合蛋白在 DNA 上结合位点的方法

• 核酸外切酶 III 足迹法 (Exonucleoase III footprinting)

是利用核酸外切酶 III ( Exo III )的 35外切酶活性从 3 末端切割双链 DNA 的特性,确定蛋白质在 DNA 上的结合位点的常用方法

Page 54: 第二十五章 基因结构分析的基本策略

目 录

DNase I 足迹法

dsDNA

单链末端标记

DNA 结合蛋白

DNase I酶切消化(控制反应时间)

产生长短不同的片段

但蛋白质结合区被保护

Page 55: 第二十五章 基因结构分析的基本策略

目 录

蛋白质结合区

M No-pro Pro-DNA

对在凝胶上出现空白区域的 DNA 进行克隆测序,即可确定结合蛋白质的 DNA 序列

变性凝胶电泳

Page 56: 第二十五章 基因结构分析的基本策略

目 录

( 2 )化学足迹法 (Chemical footprinting)

•是利用能切断 DNA 骨架的化学试剂处理DNA- 蛋白质复合物,从而通过化学试剂无法接近结合蛋白质的 DNA 区域而确定 DNA 的蛋白质结合位点

主要方法:

•羟自由基足迹法

•体内足迹法

Page 57: 第二十五章 基因结构分析的基本策略

目 录

1 )羟自由基足迹法( Hydroxyl radical footprinting )

化学试剂羟自由基

•利用化学试剂产生的羟自由基攻击 DNA 分子表面脱氧核糖骨架使 DNA断裂

•当 DNA 结合蛋白将脱氧核糖遮盖时,自由羟基无法攻击而使这个区域的 DNA受到保护

电泳图谱上出现空白区的地方就是结合蛋白质的 DNA

变性凝胶电泳

Page 58: 第二十五章 基因结构分析的基本策略

目 录

2 )体内基足迹法( In vivo footprinting ) •用化学试剂对活细胞进行体内处理,使 DNA 在细胞内受到化学修饰,然后裂解细胞,用化学法或酶法进行足迹实验。

•甲基化干扰实验 (Methylation interference assay)

是利用化学试剂如硫酸二甲酯( Dimethyl sulfate, DMS )对活细胞 DNA 进行甲基化修饰,从而干扰蛋白质与 DNA 的结合。

•乙基化干扰实验 (Ethylation interference assay)

是利用化学试剂对活细胞 DNA 进行乙基化修饰,从而干扰蛋白质与 DNA 的结合。

Page 59: 第二十五章 基因结构分析的基本策略

目 录

化学试剂

提取 DNA

DNase I

或化学试剂

变性凝胶电泳分析

切割 DNA

•化学修饰对蛋白质与 DNA 的结合有干扰,因此,体内足迹实验也叫干扰实验

•电泳图谱需与未修饰的 DNA 样品进行比较,在未修饰样品中出现空白区的位置是体内发生化学修饰的 DNA 区域

正常对照 化学修饰

提取 DNA

Page 60: 第二十五章 基因结构分析的基本策略

目 录

2. 用电泳迁移率变动实验研究启动子

电泳迁移率变动实验

(Electrophoretic mobility shift assay, EMSA)

•是利用结合蛋白质的 DNA 片段在凝胶中迁移滞后的特点,通过电泳分离研究核酸 - 蛋白质互作的方法•又称为凝胶阻滞实验 (Gel retardation assay)

Page 61: 第二十五章 基因结构分析的基本策略

目 录

细胞蛋白质提取物标记的 DNA 片段

蛋白质与 DNA 结合

蛋白质 -DNA 复合物电泳迁移滞后

凝胶电泳

显影

滞后条带表明 DNA是与蛋白质结合的区域

Page 62: 第二十五章 基因结构分析的基本策略

目 录

3. 用染色体免疫沉淀技术研究启动子

染色体免疫沉淀

(Chromatin immunoprecipitation, ChIP)

•是在保持蛋白质与染色体 DNA 结合的同时,将染色体切割成小片段并沉淀下来 •非变性 ChIP :是先用核酸酶处理细胞核,将染色体消化成碎片,然后用合适的抗体将结合有蛋白质的染色体片段通过免疫沉淀选择出来,再以 PCR或核酸杂交技术对 DNA 序列进行分析 •变性 ChIP :是先用甲醛处理细胞,使蛋白质与DNA 在细胞内发生交联,然后分离染色体并进行剪切,用特异性抗体与 DNA 结合蛋白相结合,以沉淀法分离 DNA- 蛋白质复合体 前面章节已介绍,这里不再详述

Page 63: 第二十五章 基因结构分析的基本策略

目 录

(三)生物信息学预测启动子•真核基因组的测序正在以不断增长的速度进行着,目前已经可以获得大约 50 个完整真核生物基因组的序列信息,•预计在未来几年内将会完成更多的基因组测序工作•对基因组注释工作中最难的就是精确鉴定和描绘启动子,因此,启动子的预测就显得非常重要

预测启动子的切入点•启动子的结构特征•启动子在染色体上的位置

Page 64: 第二十五章 基因结构分析的基本策略

目 录

1. 启动子的结构特征

典型启动子

核心启动子:一般在 TSS 上游 -35 区域以内

近端启动子:一般涉及 TSS 上游几百个碱基

远端启动子:一般涉及 TSS 上游几千个碱基

含有增强子或沉默子•一些特征性的结构

TSS 附近的 CG岛经常出现在启动子中

共通序列 (consensus sequence)

Page 65: 第二十五章 基因结构分析的基本策略

目 录

2. 启动子的预测分析

•EPD (Eukaryotic promoter databases)

•TRRD (Transcription regulatory regions databases)

•基因转录起始点数据库 (DBTSS)

•启动子数据库

这些数据库主要通过计算机识别、判断及分析,在数据库中寻找启动子的特异性特征结构。

Page 66: 第二十五章 基因结构分析的基本策略

目 录

二、启动子的功能分析•启动子通常是基因上游参与基因转录调控的DNA 序列。由于启动子中的顺式作用元件在基因的特异性表达中发挥重要作用,因此,可以通过连接报告基因研究启动子的功能。

1. 报告基因 (Reporter gene)

•是研究者们为了制造一种可在细胞培养条件下或动植物体内作为筛选标志的易检测信号,通过分子生物学操作将发光蛋白或酶的编码基因附加到一个感兴趣基因上或插入基因调控序列下游,从而监测感兴趣基因的表达或分析基因调控序列的活性 。

Page 67: 第二十五章 基因结构分析的基本策略

目 录

•常用的报告基因

•荧光蛋白编码基因:

绿色荧光蛋白 (GFP)

红色荧光蛋白 (dsRed)

•蛋白酶:

荧光素酶 (luciferase)

-半乳糖苷酶

•在蓝色光源照射下发绿光

•能催化荧光素 (luciferin) 发生氧化反应发光

•能使细菌在 X-gal

存在条件下变成蓝色

Page 68: 第二十五章 基因结构分析的基本策略

目 录

2. 报告基因的应用

•监测基因的转染效率

报告基因与目的基因分别插入各自启动子下游,实现报告基因的组成性表达模式•监控目的基因的表达

报告基因与目的基因融合共同受控于一个启动子,报告基因的表达即代表目的基因的表达•研究启动子的活性

报告基因插入被研究启动子下游,通过观察报告基因的表达情况推测启动子活性

Page 69: 第二十五章 基因结构分析的基本策略

目 录

启动子捕获技术 (promoter trapping) :是一种研究启动子活性的筛选方法•基本流程:

构建启动子捕获载体

观察报告基因的表达 报告基因

MCS

ori

候选启动子序列

插入 MCS

转染细胞观察报告基因的表达

启动子捕获载体

Page 70: 第二十五章 基因结构分析的基本策略

目 录

第四节 编码序列结构分析

Page 71: 第二十五章 基因结构分析的基本策略

目 录

编码序列 (coding sequence) :

通常是指能体现在蛋白质氨基酸序列中的基因信息

主要内容一、基因编码序列的结构特征二、基因编码序列的结构分析

Page 72: 第二十五章 基因结构分析的基本策略

目 录

一、基因编码序列的结构特征

基因的编码序列具有一些特征性序列

比如:•开放阅读框架•蛋白质翻译的起始密码子和终止密码子•真核基因的外显子(编码序列)和内含子(非编码序列)之间有特殊序列

Page 73: 第二十五章 基因结构分析的基本策略

目 录

(一)开放阅读框架

开放阅读框架 (open reading frame, ORF)

•是指生物基因组中含有能潜在编码蛋白质的一段核苷酸序列

•在基因序列中, ORF 位于起始密码子( start codo

n )和终止密码子( stop codon )之间 密码子:•是由三个核苷酸组成的 DNA 序列,也称作三联密码子•生物体基因组中总共有 64 种密码子,其中三个终止密码子, 61 个编码氨基酸的密码子

Page 74: 第二十五章 基因结构分析的基本策略

目 录

分析一段 DNA 序列中是否存在 ORF :

从理论上说,一般需要对双链 DNA 序列的 6种阅读框架进行分析,每一条链分析三种阅读框架

例如:1 ) 5-UCU AAA AUG GGU GAC-3

( 其中 AUG 是起始密码子 )

2 ) 5-U CUA AAA UGG GUG AC-3

3 ) 5-UC UAA AAU GGG UGA C-3

( 其中 UAA 是终止密码子 )

只有真正的 ORF 可以不遇到终止密码子

Page 75: 第二十五章 基因结构分析的基本策略

目 录

(二) mRNA选择性剪接的序列特征

mRNA 的选择性剪接 (alternative splicing) :•是指基因外显子转录产物 RNA 以不同方式进行切割再连接的过程•经剪接所产生的 mRNA 可以翻译成不同的蛋白质,从而导致一个基因可以编码一个以上蛋白质

真核基因的内含子在与外显子交界区域有共通序列 (consensus sequences) :•内含子的 5 端有 GU 序列, 3 端有 AG 序列

Page 76: 第二十五章 基因结构分析的基本策略

目 录

(三)基因外显子的序列特征基因外显子可以被分成三部分•能够被翻译成蛋白质的编码区•5- 非翻译区( 5UTR )•3- 非翻译区( 3UTR )

•有作为蛋白质翻译起始重要元件的 Kozak 序列:

由起始密码子 AUG 及其周围序列组成

•3UTR 位于终止密码子下游,含有 poly A 尾的加尾信号 AATAAA

序列

Page 77: 第二十五章 基因结构分析的基本策略

目 录

二、基因编码序列的结构分析•基因的编码序列是指能体现在成熟 mRNA 中的 核 苷 酸 序 列 , 因 此 , 与 mRNA 互 补 的cDNA 成为研究编码序列的主要切入点 .

主要方法:•cDNA 文库的编码序列筛选•RNA剪接分析编码序列•用数据库分析编码序列

•高通量分析 RNA 剪接的方法主要有三种:基于 DNA微点阵分析、交联免疫沉淀( CLIP )和体外报告基因测定法

•对各种方法所获得的 cDNA 片段的序列在基因数据库中进行同源性比对, 通过染色体定位分析、内含子 / 外显子分析、 ORF 分析及表达谱分析等

Page 78: 第二十五章 基因结构分析的基本策略

目 录

小结:

•基因结构分析的切入点已经从一个基因的克隆测序,发展到如今在基因组范围的高通量筛选,因此,研究策略也发生了变化,基因数据库在不知不觉中占据了重要地位。

•基因结构特点成为基因组范围内高通量扫描基因的重要靶标,基因的转录起始点、启动子以及编码序列是基因的重要结构特征