第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl...

27
448 13 数量性状基因定位 .............................................................................................................. 448 §13.1 QTL 作图群体和作图原理 ................................................................................................... 448 §13.1.1 QTL 作图的遗传群体和数据类型................................................................................. 448 §13.1.2 QTL 作图的基本原理..................................................................................................... 451 §13.2 简单区间作图方法 ............................................................................................................... 454 §13.2.1 标记区间中 QTL 基因型的频率................................................................................... 454 §13.2.2 QTL 基因型均值和方差的极大似然估计..................................................................... 456 §13.2.3 QTL 存在的假设检验与遗传参数估计......................................................................... 458 §13.2.4 大麦 DH 群体中粒重的简单区间作图 ........................................................................ 461 §13.2.5 简单区间作图方法的局限性 ........................................................................................ 462 §13.3 具有背景控制的 QTL 作图方法.......................................................................................... 463 §13.3.1 单个 QTL 的标记回归模型........................................................................................... 463 §13.3.2 多个加性 QTL 的标记回归模型................................................................................... 466 §13.3.3 完备区间作图的背景控制 ............................................................................................ 467 §13.3.4 大麦 DH 群体中粒重的完备区间作图 ........................................................................ 469 §13.4 集成软件 QTL ICIMAPPING 简介.......................................................................................... 471 练习题.............................................................................................................................................. 472

Transcript of 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl...

Page 1: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

第 13 章 数量性状基因定位 .............................................................................................................. 448

§13.1 QTL 作图群体和作图原理 ................................................................................................... 448 §13.1.1 QTL 作图的遗传群体和数据类型 ................................................................................. 448 §13.1.2 QTL 作图的基本原理..................................................................................................... 451

§13.2 简单区间作图方法 ............................................................................................................... 454 §13.2.1 标记区间中 QTL 基因型的频率 ................................................................................... 454 §13.2.2 QTL 基因型均值和方差的极大似然估计 ..................................................................... 456 §13.2.3 QTL 存在的假设检验与遗传参数估计 ......................................................................... 458 §13.2.4 大麦 DH 群体中粒重的简单区间作图 ........................................................................ 461 §13.2.5 简单区间作图方法的局限性 ........................................................................................ 462

§13.3 具有背景控制的 QTL 作图方法 .......................................................................................... 463 §13.3.1 单个 QTL 的标记回归模型 ........................................................................................... 463 §13.3.2 多个加性 QTL 的标记回归模型 ................................................................................... 466 §13.3.3 完备区间作图的背景控制 ............................................................................................ 467 §13.3.4 大麦 DH 群体中粒重的完备区间作图 ........................................................................ 469

§13.4 集成软件 QTL ICIMAPPING 简介 .......................................................................................... 471 练习题 .............................................................................................................................................. 472

Page 2: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

第 13 章 数量性状基因定位

前面几章一直把控制数量性状的所有基因,作为一个整体进行研究。利用这些基因共同

决定的表型数据,通过遗传方差的分解,研究数量性状在上下代之间的传递规律,不区分单

个基因的效应,也不知道这些基因在染色体上的具体位置。随着分子标记技术的发展,目前

人们已经可以像研究质量性状基因那样研究数量性状基因,也可以把数量性状基因

(quantitative trait gene or locus,简称 QTL)定位在染色体上,并估计单个座位上基因的遗

传效应。寻找 QTL 在染色体上的位置并估计其遗传效应的过程,称为 QTL 作图或定位(QTL

mapping)。自 Lander 和 Botstein(1989)提出区间作图方法以来,QTL 定位已经成为数量

遗传学的研究重点,也成为动植物数量性状遗传分析的主要方法。根据定位结果对数量性状

基因进行精细定位、图位克隆,利用定位到的标记对数量性状进行辅助选择等,都有成功的

例子。本章简单介绍 QTL 作图基本原理、简单区间和完备区间两种作图方法,以及连锁图

谱构建和基因定位集成软件 QTL IciMapping。更多内容请读者参看《基因定位与育种设计》

一书。

§13.1 QTL 作图群体和作图原理

§13.1.1 QTL 作图的遗传群体和数据类型

可以这么说,任何存在遗传变异的群体基本都可用于 QTL 定位研究。QTL 作图群体包

括双亲或多亲本杂交产生的各种分离后代,也包括自然群体和具有一定亲缘关系的家系群体。

按照基因型是否纯合,可以把它们分为暂时群体和永久群体两类。暂时群体中,个体的基因

型是杂合的,自交繁殖后基因型将发生变化。双亲杂交产生的 F2 和回交都可被看作暂时群

体。

永久群体中,每个个体具有纯合的基因型,自交繁殖后基因型不再发生变化。常见的永

久群体有重组近交家系(RIL)、加倍单倍体(DH)和染色体片段置换系(CSSL)等。RIL

群体是由 F2 个体连续自交,直至纯合而得到的家系群体,产生 RIL 群体的常用方法是一粒

传。DH 群体是由 F1、F2 或其它自交世代的配子直接加倍纯合得到的群体。CSSL 群体是通

过 F1 多代回交,并对供体亲本(也可以同时对背景亲本)的染色体进行选择而得到的。这

些群体中,每个家系都可以通过自交繁殖永久地保存下去,家系内不再发生基因型分离,故

Page 3: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

称永久群体。当然,能够进行无性繁殖的群体,其实也可以被看作是永久群体。利用永久群

体,可以在不同年份(季节)、不同地点下,开展有重复的数量性状表型鉴定试验。因此能

够比较准确地获得个体或家系的基因型值,比较准确地定位 QTL,并分析 QTL 表达的稳定

性及研究 QTL 和环境之间的互作效应。

暂时群体和永久群体多用于可以人工控制杂交的物种。对动物和人类的遗传研究来说,

可供利用的只是自然条件下的随机交配群体。利用自然群体中的剩余连锁不平衡开展 QTL

作图研究,又称关联分析(association mapping)。关联分析的主要问题是连锁不平衡的程度

很低(见§1.5.2),需要对全基因组大量标记(数万甚至数十万个)进行筛选,才有可能找到

与目标基因连锁的标记。因此,关联分析又称全基因组关联研究(genome-wide association

study,简称 GWAS)。关联分析的另一个问题是难以排除群体混合造成的标记与性状假关联

现象(见§1.5.5)。为了与自然群体的关联分析相区分,基于双亲或多亲杂交群体、动物或人

类核心家系的基因定位方法,有时又称为连锁作图(linkage mapping)。

前面的作图群体分类,基于自交繁殖过程中群体的遗传结构是否发生改变。也有研究把

作图群体分为初级群体和次级群体。初级群体(primary population)一般是由两个亲本杂种

F1代衍生的未经选择的遗传群体,其中的各种基因型期望频率是已知的。次级群体(secondary

population)经人为选择而产生,如经过多代回交、供体亲本和背景亲本定向选择产生的近

等基因系或染色体片段置换系群体,也可以是某一 RIL 或 DH 家系与亲本再杂交后形成的

群体。次级群体一般用于 QTL 的精细定位和克隆研究。

开展 QTL 作图,首先需要创建一个或数个作图群体,然后对群体中每个分离个体或分

离纯合家系进行分子标记的基因型检测,同时通过多环境试验对所关心的数量性状进行表型

鉴定。在获得作图群体的基因型和表型数据之后,就可以利用专业计算机软件开展 QTL 定

位研究。如果定位方法需要连锁图谱,则需要首先根据群体的基因型数据构建。为方便起见,

标记基因型一般用代码表示。以 DH 群体为例,两种亲本的带型分别用 2 和 0 编码,缺失带

型用-1 表示。如是暂时群体,则用 1 表示杂合型。当然,双亲后代中的三种可能基因型和

缺失,也可以用 A(或 AA)、B(或 BB)、H(或 AB)、X(或 XX 或*)等其它编码方式表

示。使用不同的编码方式,不会影响 QTL 作图结果。但要注意,不同 QTL 作图软件允许的

编码方式可能存在差异,只有采用软件接收的、正确的编码方式,才能得到预期的分析结果。

表型数据一般用数字表示,对于一些分级调查性状,也要将其转换成数字才能进行 QTL 作

Page 4: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

图。表型数据也允许缺失,不同作图软件对缺失表型的表示方式也会有差异。

纯合亲本‘Harrington’和‘TR306’衍生的 145 个大麦(Hordeum vulgare L.)DH 家系

构成的群体,是国际上的一个知名 QTL 作图群体。利用该群体 127 个标记的基因型数据,

已构建了均匀覆盖大麦 7 条染色体(用 1H 至 7H 表示)的遗传连锁图谱。1992~1993 年,

在 17 个地点共 25 个环境条件下,评价了多种数量性状的表现 (Tinker et al., 1996)。这一章

里,自始至终利用这个群体的 127 个标记数据和平均粒重作为实例。表 13.1 给出该群体的

10个DH家系在 1H染色体 14个标记座位上的基因型数据和平均粒重,2表示亲本Harrington

的基因型,0 表示亲本 TR306 的基因型,-1 表示缺失基因型。

表 13.1 两个纯合亲本衍生的 10 个大麦 DH 家系在 1H 染色体的 14 个标记型和平均粒重。

亲本‘Harrington’用 2 编码,亲本‘TR306’用 0 编码,-1 表示缺失基因型。表型无缺失

分子标记 位置/cM DH1 DH2 DH3 DH4 DH5 DH6 DH7 DH8 DH9 DH10 Act8A 0 0 2 -1 2 0 2 2 0 0 2 OP06 10.9 0 2 2 2 0 2 2 0 0 2 aHor2 18.5 0 2 2 2 0 2 2 0 0 2 MWG943 78.2 2 2 2 2 2 2 0 0 0 0 ABG464 91.2 2 -1 2 2 2 2 0 0 0 0 Dor3 111.2 2 0 2 0 2 2 2 0 0 0 iPgd2 114.7 2 0 2 0 2 2 2 0 0 0 cMWG733A 121.7 2 0 2 0 2 2 2 2 2 2 AtpbA 125.2 0 0 2 0 2 2 2 2 2 2 drun8 138.8 0 0 2 0 2 2 0 2 2 2 ABC261 143.7 0 0 2 0 2 2 2 2 2 2 ABG710B 150.7 0 0 2 0 0 0 2 2 2 2 Aga7 154.2 0 0 2 0 0 0 2 2 2 2 MWG912 159.9 0 0 2 -1 0 0 2 2 2 2 粒重

41.0 40.4 40.1 40.3 41.5 45.8 40.2 44.1 42.1 45.7

利用作图群体的标记基因型数据,首先可以估计成对标记的重组率,然后对标记进行分

群和排序,从而构建出表 13.1 第二列给出的标记位置,表中的 14 个标记已经按照在染色体

上的位置顺序排列。重组率估计和连锁图谱构建方法详见《基因定位与育种设计》第二章,

这里不作进一步介绍。这个大麦 DH 群体中,亲本‘Harrington’的粒重为 38.7mg,‘TR306’

的粒重为45.0mg,145个DH家系的最低、平均和最高粒重分别为35.8mg、42.0mg和48.1mg。

粒重在 DH 家系间呈连续性分布,是一个典型的数量性状,并且在两个方向上均呈现出超亲

分离的现象(图 13.1)。单从图 13.1 的表型分布,无法得知究竟有多少个基因控制粒重。下

Page 5: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

面即将看到,如果借助表 13.1 的连锁图谱和标记数据,就可以对染色体特定位置上是否存

在粒重 QTL 进行检验,并估计这个位置对粒重的遗传贡献。

图 13.1 大麦 145 个 DH 家系平均粒重的次数分布

§13.1.2 QTL 作图的基本原理

不论是连锁作图还是关联分析,QTL 作图利用的都是标记与控制性状基因之间的连锁

不平衡。由于这种不平衡的存在,性状在不同标记基因型间才会存在差异。利用单个遗传标

记,开展数量性状与标记间的连锁分析,称为单标记分析。Sax (1923) 最早利用单标记分析,

报导了菜豆 (Phaseolus vulgaris) 籽粒颜色和粒重之间的连锁关系,这里的籽粒颜色为标记。

单标记分析适用于标记比较少、难以构建连锁图谱的情况,目前已很少采用,但这一方法中

包含的基本原理对所有作图方法都是适用的。

假定标记 M/m 与控制某一性状的基因 Q/q 存在连锁,两个亲本的基因型是 MMQQ 和

mmqq,DH 群体在每个分离座位上只包含两种纯合基因型。由于连锁的存在,MM 标记型

中 QQ 的频率就会高于 qq,mm 标记型中 QQ 的频率就会低于 qq。如果基因型 QQ 比 qq 有

更高的表型,将群体按照标记型分成两组后,这两组标记型在表型性状上就呈现截然不同的

两个分布(图 13.2)。标记 MM 的分布具有较高的均值,标记 mm 的分布具有较低的均值(图

13.2A)。如果标记与控制性状的基因之间没有连锁关系,同样把群体按照标记型分成两组后,

QQ 和 qq 的频率在这两组之间没有差异,不同标记型的分布具有相同的均值,表现出两个

相似的分布(图 13.2B)。因此,通过检验不同标记型的性状是否服从相同的分布,就能判

断该标记和 QTL 间是否存在连锁关系。

0

5

10

15

20

25

30

36 37 38 39 40 41 42 43 44 45 46 47 48

DH家

系数

大麦粒重的组中值/mg

亲本Harrington编码为2, 平均

粒重38.7mg

亲本TR306编码为0, 平均粒

重45.0mg

Page 6: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

图 13.2 一个标记座位上 2 种标记型 MM 和 mm 的性状分布

图注:A. 标记与控制性状的基因存在连锁;B. 标记与控制性状的基因不存在连锁

假定两个纯合亲本 P1 和 P2的基因型分别为 MMQQ 和 mmqq。DH 群体中,标记基因型

有 MM 和 mm 两种,QTL 的基因型有 QQ 和 qq 两种。标记与 QTL 结合起来共有 4 种基因

型,即 MMQQ、MMqq、mmQQ 和 mmqq。假定标记与 QTL 间的重组率为 r,4 种基因型的

频率分别为 )1(21 r− 、 r

21 、 r

21 和 )1(

21 r− 。标记一般是中性 DNA 水平的多态性,标记

本身并不会产生任何表型效应。基因型 MMQQ 和 mmQQ 的遗传效应是由 QQ 决定的;基因

型 MMqq 和 mmqq 的遗传效应是由 qq 决定的。因此,在加显性模型下,4 种基因型具有两

种不同的均值,由公式 13.1 给出。

MMQQµ = mmQQµ =μ+a, MMqqµ = mmqqµ =μ-a (13.1)

两种 QTL 基因型的差异表现为数量上的差异,一般不能直接鉴别 DH 家系的 QTL 基因

型。但是,DH 家系的标记型是可以区分的,有 MM 和 mm 两种。如果一个 DH 家系的标记

型为 MM,不能明确确定它的 QTL 基因型究竟是 QQ 还是 qq。但是,如果把所有标记型为

MM 的 DH 家系看作一个群体,这个群体中 QQ 和 qq 的频率是知道的,即 1-r 和 r。因此得

到标记型 MM 平均数的公式 13.2。与标记型 MM 类似,标记型 mm 中 QQ 的频率是 r,qq

的频率是 1-r,标记型 mm 的平均数由公式 13.3 给出。于是得到两种标记型平均值 MMµ 与

mmµ 之间的差异,由公式 13.4 给出。

MMqqMMQQMM rr µµµ +−= )1(

ararar )21()())(1( −+=−++−= µµµ (13.2)

标记型mm

标记型MM标记型mm 标记型MMA B

Page 7: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

arararmm )21())(1()( −−=−−++= µµµµ (13.3)

armmMM )21(2 −=− µµ (13.4)

从公式 13.4 可以看到,如果标记与 QTL 之间不存在连锁关系,即重组率 r=0.5,标记

型 MM 和 mm 平均数间的差异便不复存在。反过来说,如果两种标记型间存在明显差异,

则说明该标记与 QTL 之间存在连锁。利用这一原理,就可以对作图群体按照标记型进行分

组,计算两种标记型的平均数 MMµ 与 mmµ 以及它们的方差,然后利用 t 检验,检验两个平

均数之间的差异显著性。差异显著则说明标记与 QTL 之间存在连锁关系;否则就说明标记

与 QTL 之间不存在连锁关系。

在前面的大麦 DH 群体中,以 1H 染色体上的标记 Act8A 和 5H 染色体上的标记 Act8B

为例,图 13.3 给出粒重在两种标记型分组中的次数分布。按照标记 Act8A 分组后,两个分

布看上去有很大程度的重叠(图 13.3A),这种差异完全可以由随机误差造成,说明控制粒

重的基因与 Act8A 之间没有连锁关系或距离较远。标记 Act8B 分组后的两个分布,存在较

大差异(图 13.3B),不能完全用随机误差来解释,说明控制粒重的基因与 Act8A 之间存在

比较紧密的连锁关系。

图 13.3 大麦 DH 群体中,标记 Act8A(A)和 Act8B(B)分组的粒重次数分布

Act8A 两种标记型的样本量分别为 70 和 74,缺失一个 DH 家系的标记型;粒重平均数

分别为 42.23mg 和 42.79mg(表 13.2),t-统计量为 1.51,显著概率为 0.13,没有达到 0.05

的显著性水平。说明控制粒重的基因与 Act8A 之间不存在连锁或距离较远。Act8B 的两种标

0

5

10

15

20

25

30

36 38 40 42 44 46 48 50

样本

粒重

标记型0

标记型2

0

5

10

15

20

25

30

36 38 40 42 44 46 48 50

样本

粒重

标记型0

标记型2

A B

Page 8: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

记型的样本量分别为 58 和 69,缺失 18 个 DH 系的标记型。粒重平均数分别为 43.89mg 和

41.25mg(表 13.2),t-统计量为 8.37,远超过 0.01 的极显著性水平。说明控制粒重的基因

与 Act8B 之间存在极显著的遗传连锁关系。

表 13.2 大麦 DH 群体中,两个标记座位上两种标记型粒重的差异显著性检验。 参数 标记 Act8A 标记 Act8B

标记型 0 标记型 2 标记型 0 标记型 2 样本量 70 74 58 69 自由度 69 73 57 68 均值 42.23 42.79 43.89 41.25 方差 4.45 5.32 3.53 2.79 标准差 2.11 2.31 1.88 1.67 合并方差 4.90 3.13 t 统计量 1.51 (P=0.1341) 8.37 (P=1.00×10-13)

§13.2 简单区间作图方法

§13.2.1 标记区间中 QTL 基因型的频率

假定两个纯合亲本在两个标记座位上存在多态性,一个座位上的两种标记型分别用 A

和 a 表示,另一个座位上的两种标记型用 B 和 b 表示,两个标记之间存在一个 QTL,等位

基因分别用 Q 和 q 表示。左侧标记 A/a 与 QTL 间的重组率用 rL表示,QTL 与右侧标记 B/b

的重组率用 rR表示,侧连标记 A/a 与 B/b 之间的重组率用 r 表示。在标记之间没有其他标记

的情况下,区间上无交换和双交换产生的配子是不能区分的,因为它们具有相同的亲本标记

型。当然,任意多于 2 的偶数次交换产生的配子,都是无法区分的,但它们在有限染色体区

间上的存在概率非常低。在估计两个座位间的重组率时,一般都忽略两次或两次以上的交换。

当交换独立时,即不存在干涉现象,公式 13.5 给出三个重组率之间的关系。

RLRL 2 rrrrr −+= (13.5)

同时考虑左标记、QTL 和右标记三个连锁座位,图 13.4 是杂种 F1 配子产生过程的示意

图。忽略左侧标记与 QTL 间的两次和两次以上的交换,忽略 QTL 与右侧标记间的两次和两

次以上的交换。同时考虑这三个连锁座位时,F1 将产生 8 种类型的配子。根据两个区间上

的交换次数和交换发生的区间,又可把它们分为 4 种类型(图 13.4)。第一类属于无交换,

Page 9: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

即左侧标记和 QTL 之间、QTL 和右侧标记之间均无交换,发生频率等于 )1)(1( RL rr −− ,

由此产生的两种配子为 AQB 和 aqb,频率各占 )1)(1(21

RL rr −− 。第二类属于一次交换,发

生在左侧标记和 QTL 之间,发生的频率等于 )1( RL rr − ,产生两种配子 aQB 和 Aqb,频率各

占 )1(21

RL rr − 。第三类也属于一次交换,但交换发生在 QTL 和右侧标记之间,发生的频率

等于 RL )1( rr− ,产生两种配子 AQb 和 aqB,频率各占 RL )1(21 rr− 。第四类属于两次交换,

一次发生在左侧标记和QTL之间,一次发生在QTL和右侧标记之间,发生的频率等于 RLrr ,

产生两种配子 AqB 和 aQb,频率各占 RL21 rr 。

图 13.4 三个连锁座位上杂种 F1 产生配子的过程示意图

图注:下三角符号代表左侧标记,上三角符号代表右侧标记,圆圈代表两个标记间的 QTL。

实心代表亲本 1 等位基因,空心代表亲本 2 等位基因。左侧标记与 QTL 间的重组率用 rL表

示,QTL 与右侧标记间的重组率用 rR 表示。两个亲本基因组用实线和虚线加以区分

图 13.4 的 8 种配子经过加倍之后,就得到 DH 群体的各种基因型,基因型频率等于相

应配子的频率(表 13.3)。其它类型的双亲群体,如 F2 和回交等,各种基因型频率都可从这

8 种配子频率推导出来。

▲●

▽ △○

▼ ▲● ▽

△○

▽ △○▼ ▲●

▼ ▲●▼ ▲● ▽ △○

▽ △○×

○ ▼ ▲

●▽ △

无交换 一次交换发生在左侧标记与QTL间

一次交换发生在QTL与右侧标记间

两次交换, 一次在左侧标记与QTL间, 一次在

QTL与右侧标记间

)1)(1(21

RL rr −− )1(21

RL rr − RL )1(21 rr− RL2

1 rr

)1)(1( RL rr −− )1( RL rr − RL )1( rr− RLrr

)1)(1(21

RL rr −− )1(21

RL rr − RL )1(21 rr− RL2

1 rr

Page 10: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

表 13.3 DH 群体中两个相邻标记与它们之间 QTL 共三个连锁座位上的 8 种基因型频率 标记型

频率 QTL 基因型的频率

左侧标记 右侧标记 QQ qq

AA BB )1(21 r− )1(

21

RLRL rrrr +−− RL21 rr

AA bb r21 RL )1(

21 rr− )1(

21

RL rr −

aa BB r21 )1(

21

RL rr − RL )1(21 rr−

aa bb )1(21 r− RL2

1 rr )1(21

RLRL rrrr +−−

§13.2.2 QTL 基因型均值和方差的极大似然估计

区间作图通过染色体上逐点扫描来检测 QTL。当扫描到一个染色体的特定位置时,根

据连锁图谱,就知道这个位置的左右两侧标记。于是就可以利用这两个侧连标记,对群体进

行分组。DH 群体中,4 组标记型的样本量分别用 n1~n4 表示(表 13.4),总样本量为 n。表

13.3 中,每行的两种 QTL 基因型频率之和等于标记型的频率。QTL 基因型频率除以相应的

标记型频率,就得到表 13.4 每种标记型下 QTL 基因型的条件频率或条件概率,用符号 π表

示,两个数字的下标用于区分 4 种标记类型和两种 QTL 基因型。

表 13.4 DH 群体中两个相邻标记上四种标记型的 QTL 基因型条件频率。 标记型

样本量 QTL 基因型的条件频率

左侧标记 右侧标记 QQ qq

AA BB 1n r

rrrr−

+−−=

11 RLRL

11π r

rr−

=1

RL12π

AA bb 2n r

rr RL21

)1( −=π

rrr )1( RL

22−

aa BB 3n r

rr )1( RL31

−=π

rrr RL

32)1( −

aa bb 4n r

rr−

=1

RL41π

rrrrr

−+−−

=1

1 RLRL42π

如也能按照 QTL 基因型对 DH 家系进行分类,两种基因型 QQ 和 qq 服从相同的分布,

则说明这个座位上的不同基因型不会产生表型差异,也就不是控制性状的基因。反之,如果

QQ 和 qq 服从不同的分布,用公式 13.6 表示它们服从的分布,说明这个座位上的不同基因

型产生了有差异的表型,是一个控制性状的座位。用 k=1~4 表示表 13.4 的 4 种标记型,j=1,

2, …, nk表示标记型 k 中的家系。标记型 k 中,DH 家系的性状观测值用 Ykj 表示,可以看作

Page 11: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

是两个 QTL 基因型按照比例 πk1 和 πk2 组成的混合分布,即公式 13.7。

),(~ 21 σµNQQ , ),(~ 2

2 σµNqq (13.6)

),(),(~ 222

211 σµπσµπ NNY kkkj + ,k=1~4, j=1, 2 …, nk (13.7)

用 ),|( 2σµYf 表示任意正态分布 ),( 2σµN 的概率密度函数(具体表达式见公式 6.32),

公式 13.8 给出了所有 DH 家系表型数据 Ykj 的联合概率密度函数,或称似然函数。

]),|(),|([),,|(,

222

211

221 ∏ +=

jkkjkkjk YfYfYL σµπσµπσµµ (13.8)

类似于公式 13.8 的似然函数,都难以直接求解,常常要用到 EM 迭代算法(Dempster et

al., 1977)。EM 算法在 QTL 作图中被普遍使用,在许多其它遗传数据分析中也有广泛的应

用,如练习 1.11。利用 EM 算法时,首先要对似然函数 13.8 中的待估参数 1µ 、 2µ 和 2σ 指

定一组初始值。这样就相当于知道了两个 QTL 基因型的分布 ),( 21 σµN 和 ),( 2

2 σµN ,然

后利用公式 13.9 计算每个 DH 家系基因型属于 QQ 和 qq 的概率,这种概率又称为后验概率

(posterior probability)。

),|(),|(),|(

222

211

211

1 σµπσµπσµπ

kjkkjk

kjkkj YfYf

Yfw

+= ,

),|(),|(),|(

222

211

222

2 σµπσµπσµπ

kjkkjk

kjkkj YfYf

Yfw

+= (13.9)

从群体的角度来讲,每种标记型下,QTL 基因型的频率完全取决于重组率(表 13.4)。

但从公式 13.9 不难看出,每个 DH 家系的后验 QTL 基因型概率,除与重组率有关外,还与

家系自身的性状观测值有关。对于每个 DH 家系,都可以按照公式 13.9 计算它的基因型是

QQ 或是 qq 的后验概率。接下来,把每个 DH 家系按照公式 13.9 计算出的后验概率形象地

分成两份,分别对应于两种基因型 QQ 和 qq,这两份样本服从的分布分别对应于 QQ 和 qq

的分布(公式 13.6)。在此基础上,公式 13.10 和 13.11 给出一个新的似然函数及其对数函数。

对对数似然函数求导数并令导数等于 0,就得到新的均值估计公式 13.12 和方差估计公式

Page 12: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

13.13。

∏=jk

wkj

wkj

kjkj YfYfYL,

22

21

221

21 )],|([)],|([)|,,( σµσµσµµ (13.10)

∑ +=jk

kjkjkjkj YfwYfwL,

222

211 )],|(ln),|(ln[ln σµσµ (13.11)

∑∑

=

jkkj

jkkjkj

w

Yw

,1

,1

1µ ,∑∑

=

jkkj

jkkjkj

w

Yw

,2

,2

2µ (13.12)

∑ −+−=jk

kjkjkjkjn YwYw,

222

211

12 ])()([ µµσ (13.13)

将公式 13.12 和公式 13.13 得到的估计值作为下一轮的起始值,并不断重复这一过程,

直到相邻两次迭代间的估计值达到一定的精度为止;也可以用两次迭代间,似然函数差异小

于一定的精度作为停止迭代的标准。公式 13.9 代表的过程,相当于待估参数已知的情况下,

计算每个 DH 家系分属于未知基因型 QQ 和 qq 的期望概率,称为 EM 算法的期望步骤

(expectation step)。公式 13.10~公式 13.13 代表的过程,相当于知道每个 DH 家系 QTL 基

因型的情况下,通过求解似然函数公式 13.10 或公式 13.11 的最大化,计算两种分布均值和

方差的极大似然估计,称为 EM 算法的最大化步骤(maximization step)。迭代结束时的估计

值,就是待估参数 1µ 、 2µ 和 2σ 的极大似然估计。

§13.2.3 QTL 存在的假设检验与遗传参数估计

如果基因型 QQ 和 qq 的均值 μ1和 μ2之间存在显著差异,则说明不同 QTL 基因型产生

了具有显著差异的表型效应,这时就说这个位置是一个 QTL。反之,则说明不同 QTL 基因

型不会产生具有显著差异的表型效应,这时就说这个位置不是一个 QTL。公式 13.14 给出检

验 QTL 存在与否的零假设和备择假设。

210 : µµ =H , 21 : µµ ≠AH (13.14)

前一节已经利用 EM 迭代算法,计算了备择假设 AH 下,待估参数的极大似然估计。将

Page 13: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

迭代结束时得到的估计值代入似然函数,就得到似然函数的极大值。在假设 H0下,所有 DH

的表型服从同一个正态分布,用分布公式 13.15 表示。样本似然函数和对数似然函数分别用

公式 13.16 和 13.17 表示。对对数似然函数公式 13.17 求导数,并令导数等于 0,就得到公式

13.15 中两个待估参数的极大似然估计公式 13.18。

),(~ 200 σµNYkj ,k=1~4,j=1, 2, …, nk (13.15)

∏=jk

kjYfYL,

200

200 ),|(),|( σµσµ (13.16)

∑=jk

kjYfYL,

200

200 ),|(ln),|(ln σµσµ (13.17)

∑=kj

jkYn ,

01µ̂ , ∑ −=

kjjkY

n ,

20

20 )ˆ(1ˆ µσ (13.18)

把公式 13.18 的极大似然估计值代入公式 13.16,就得到 H0 的似然函数极大值,用

)( max 0HL 表示;备择假设 HA 的似然函数极大值用 )( max AHL 表示。备择假设对待估参数

没有施加任何限制条件,零假设需要对待估参数施加一定的约束条件。因此,备择假设的极

大似然函数,不会小于零假设的极大似然函数。可以想象,如果备择假设为真,这时带有约

束条件零假设的似然函数就会远低于真的备择假设;如果零假设为真,这时即使没有约束条

件,似然函数也不会比零假设高得太多。因此,两种假设下极大似然函数的比值,提供了一

种对零假设的检验方法,这就是统计上用途很广的似然比检验(likelihood ratio test,简称

LRT)。检验统计量及其大样本分布由公式 13.19 给出。

)(~)(max)(maxln2 20 df

HLHLLRT

A

χ−= (13.19)

公式 13.19 适合于任何场合的似然比检验。当样本量足够大时,LRT 统计量服从2χ 分

布,自由度等于两种假设的独立待估参数个数之间的差异。检验公式 13.14 的零假设包含两

个待估参数,备择假设包含三个待估参数。因此,区间作图 LRT 的2χ 分布自由度 df=1。这

样,利用公式 13.19 的统计量,就可以对 QQ 和 qq 的均值差异进行显著性检验。

Page 14: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

公式 13.19 的统计量是一个自然对数。实际中,人们更习惯于以 10 为底的常用对数,

即公式 13.20 给出的 LOD 统计量。如果 HA和 H0 的极大似然函数比值为 10,则 LOD 值等

于 1;如果比值为 100,则 LOD 值等于 2 等等。不难看出,LRT 和 LOD 之间相差一个常数

比值,公式 13.21 给出两者的换算关系。LOD 统计量并不满足2χ 分布。如想知道它的显著

性概率,需要利用公式 13.21 把 LOD 转换为 LRT,然后根据分布公式 13.19 计算概率值。

=

)(max)(maxlogLOD

010 HL

HL A (13.20)

LRT217.010ln2

LRTLOD ≈= , LOD605.4LRT ≈ (13.21)

如前所述,任意一个扫描位置上,都能通过 EM 迭代算法,得到 QTL 基因型均值 μ1和

μ2 的极大似然估计 1µ̂ 和 2µ̂ 。公式 13.22 给出它们与性状平均数 μ和 QTL 加性效应 a 之间

的关系,由此得到性状平均数 μ和 QTL 加性效应 a 的估计公式 13.23。

a+= µµ1ˆ , a−= µµ2ˆ (13.22)

)ˆˆ(21ˆ 21 µµµ += , )ˆˆ(

21ˆ 21 µµ −=a (13.23)

根据增效和减效等位基因在亲本中的分布情况,公式 13.23 得到的加性效应可正可负。

加性效应的单位与表型相同。为了便于比较不同性状的 QTL,需要定义 QTL 的表型贡献率,

有时也称 QTL 解释表型变异的大小(phenotypic variance explained, PVE)。一个 QTL 的 PVE

定义为这个座位上的遗传方差占表型方差的百分数,即公式 13.24,其中 VG是 QTL 的遗传

方差,VP 是数量性状的表型方差,等于零假设下的方差估计值。如不考虑奇异分离,QTL

在 DH 群体中的遗传方差等于 a2;公式 13.25 给出两种基因型频率不等时遗传方差的计算方

法,基因型 QQ 和 qq 频率的计算要用到公式 13.9 的后验概率。

%100PVE ×=P

G

VV

(13.24)

Page 15: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

24 affV qqQQG = ,其中 ∑=kj

jkQQ wn

f,

11

, ∑=kj

jkqq wn

f,

21

(13.25)

从QTL的遗传方差计算公式 13.25可以看到,QTL的贡献率除依赖于它的遗传效应外,

还依赖于基因型的频率。在不存在奇异分离的群体中,效应较大的 QTL,也会具有较高的

表型贡献率。如果作图群体中存在较严重的奇异分离,效应较大的 QTL,有时也可能具有

较低的表型贡献率。这方面的详细研究以及奇异分离对 QTL 定位的影响,可参考李慧慧等

(2010)和 Zhang 等(2010)的研究。

§13.2.4 大麦 DH 群体中粒重的简单区间作图

利用 145 个大麦 DH 家系的双亲作图群体,图 13.5 给出全基因组粒重一维扫描的 LOD

曲线,扫描步长为 1cM。当 LOD 临界值取 2.5 时,染色体 5H 上有一个显著的峰,7H 上有

两个显著的峰,其他染色体上也存在一些峰,但峰值没有超过邻近值。超过临界值的三个峰

所在的位置,可看作区间作图鉴定出的三个 QTL 的位置。

图 13.5 大麦全基因组七条染色体粒重一维扫描的 LOD 曲线(扫描步长为 1cM)

表 13.5 进一步给出这三个粒重 QTL 的位置和遗传效应。前四列描述 QTL 位置的相关

信息,后面三列描述 QTL 遗传效应。QTL 连锁最紧密的侧连标记可用于标记辅助选择,即

通过对连锁标记的筛选,间接选择控制性状的基因。LOD 值和贡献率不依赖性状的量纲和

QTL 效应的正负号。因此,可用于比较不同性状 QTL 的相对重要性。

表 13.5 大麦 DH 群体中,简单区间作图鉴定出的粒重 QTL。 染色体 位置/cM 最近左侧标记 最近右侧标记 LOD 值 贡献率/% 加性效应 5 3 ABA306B Act88 13.15 34.55 -1.31 7 0 dRpg1 iPgd1A 2.55 7.79 -0.62 7 98 VAtp57A MWG571D 5.36 15.77 -0.89

02468

101214

1111111122222222222333333334444444455555555555566666666777777777

LOD值

大麦7条染色体的一维扫描, 步长1cM

Page 16: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

加性效应既衡量 QTL 对性状的贡献,又能从效应的正负号判断有利等位基因的亲本来

源。在双亲遗传群体中,每个鉴定出的 QTL 都携带有两个等位基因。有些性状在育种中要

求越高越好,有些性状要求越低越好,有些性状要求最好在一定的范围内,太低或太高都不

好。因此,等位基因的有利或不利是根据所关心的性状和特定的育种目标而言。该 DH 群体

中,亲本‘Harrington’和‘TR306’的平均粒重分别为 38.7mg 和 45.0mg。QTL 作图时,

用 2 表示‘Harrington’的标记型,0 表示‘TR306’的标记型。育种对粒重的要求一般是越

高越好。因此,如果加性效应为正说明‘Harrington’携带的等位基因能起到增加粒重的作

用,‘TR306’携带的等位基因则起到降低粒重的作用。反之,如果某个 QTL 加性效应为负

值,则说明‘Harrington’携带的等位基因起到降低粒重的作用,‘TR306’携带的等位基因

则起到增加粒重的作用。从表 13.5 的结果来看,三个被检测到的控制粒重的 QTL 均具有负

的加性效应,这三个 QTL 上提高粒重的等位基因,均来源于编码为 0 的亲本,即粒重较高

的亲本‘TR306’。

§13.2.5 简单区间作图方法的局限性

Lander 和 Botstein(1989)提出区间作图方法时,曾假定每条染色体上的 QTL 不超过

一个。如果存在两个连锁 QTL,并且 QTL 的遗传效应有相同的方向(又称为相引连锁),

区间作图会在两个 QTL 的中间出现一个峰,这种现象称为幻影 QTL。如果存在两个遗传效

应方向相反的连锁 QTL(又称为互斥连锁),区间作图在整条染色体上的 LOD 会很低,可

能检测不出任何 QTL 的存在。图 13.6 给出一个模拟群体中,简单区间作图的 LOD 曲线。

模拟过程中共考虑 6 条染色体,第一 1 条存在一个 QTL,加性效应为 1;第二条存在两个

QTL,加性效应均为 1;第三条存在两个 QTL,加性效应为 1 和-1;其它三条无 QTL。从

LOD 曲线上可以看到,第一染色体的 QTL 位置附近有一个明显的峰。第二染色体上有多个

峰,难以准确断定 QTL 的个数和位置,如只考虑最高峰,则它恰好在两个真实 QTL 的中间,

即所谓的幻影 QTL。第三条染色体上,两个 QTL 的效应一正一负,看不到显著的峰值。

Page 17: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

图 13.6 一个模拟群体中,简单区间作图的 LOD 曲线 图注:共考虑 6 条染色体,第一条存在一个 QTL,加性效应为 1;第二条存在两个 QTL,加性效应均为 1;第三条存在两个 QTL,加性效应为 1 和-1;其它三条无 QTL。图中箭头对

应的 X 轴,为 QTL 的真实位置,方向表示加性效应的正负

究其原因,简单区间作图在某一标记区间的一个扫描位置上进行参数估计和假设检验时,

没有对区间之外的 QTL 进行任何控制。当存在 QTL 连锁时,简单区间作图不能有效定位

QTL,更谈不上准确估计遗传效应了。即使 QTL 位于不同的染色体上,假设检验中的分布

也会有较大的方差,对效应相对较小的 QTL 的检验功效较低。同时,QTL 的影响范围很大,

在没有 QTL 的区间上也会出现检验统计量超过临界值的情况;每个位置上的检验统计量只

利用两个标记的信息,利用的信息量较少。针对简单区间作图的这些问题,人们随后提出了

具有背景控制的 QTL 作图方法(Zeng, 1994; Li et al. 2007; 王建康, 2009)。

§13.3 具有背景控制的 QTL 作图方法

§13.3.1 单个 QTL 的标记回归模型

简单区间作图没有对背景遗传变异施加任何控制,背景遗传变异与随机误差方差一起组

成参数估计和假设检验中的样本方差。统计学上,参数估计的精确度和假设检验的功效,一

方面受分布参数真实大小的影响,另一方面也受随机样本所服从分布方差的影响。样本方差

越大,参数估计的精确度和假设检验的功效越低。这一节仍以最简单的 DH 群体为例,介绍

完备区间作图(Inclusive composite interval mapping,简称 ICIM),以说明如何通过背景控制,

使得样本方差仅来自随机误差,进而提高参数估计的精确度和 QTL 检测的功效。读者也可

参考 Li 等(2007)和王建康(2009)的研究。ICIM 在包含杂合基因型群体中的推广,可参

考 Zhang 等(2008)的研究;ICIM 在上位型互作 QTL 分析中的推广,可参考 Li 等(2008)

和 Zhang 等(2012)的研究;ICIM 在 QTL 与环境互作分析中的推广,可参考 Li 等(2015)

05

1015202530

0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100

LOD值

6条长度均为120cM染色体的一维扫描, 步长1cM

幻影QTL

Page 18: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

的研究。要想系统了解 QTL 作图方法、不同方法的比较研究及在数量性状遗传研究中的应

用,需参看《基因定位与育种设计》一书。

在只有一个 QTL 的加性遗传模型下,Q 和 q 表示该座位上 2 个等位基因,两种纯合 QTL

基因型 QQ 和 qq 的基因型值 G 统一用公式 13.26 表示。其中,μ 代表两种纯合基因型 QQ

和 qq 的中亲值,a 为加性效应,w 是 QTL 基因型的指示变量,w=1 代表基因型 QQ、w=-1

代表基因型 qq。

awG += µ (13.26)

QTL 作图前,个体的 QTL 基因型是未知的,遗传参数 a 有待估计,难以对公式 13.26

进行估计。但是,个体的标记型是已知的。由于标记和 QTL 之间存在连锁,标记型提供了

QTL 基因型的信息。因此,需要寻求 QTL 基因型与标记基因型间的关系。假定两个多态性

标记之间存在一个 QTL,两个亲本的基因型分别为 AAQQBB 和 aaqqbb。DH 群体中有 4 种

不同的标记型,每种标记型下,两种 QTL 基因型的频率可通过 QTL 与两个标记间的重组率

来估计(表 13.4)。类似遗传模型公式 13.26 中 QTL 基因型的指示变量,如表 13.6 定义两个

侧连标记的指示变量。在表 13.6 中,每种标记下的 QTL 基因型频率及重组率的含义均与表

13.4 相同。

表 13.6 DH 群体中两个相邻标记座位上 4 种标记型内 QTL 基因型的期望频率

标记型 标记变量

QTL 基因型的频率 w 的条件期望 E(w|xL, xR)

xL xR QQ (w=1) qq (w= -1)

AABB 1 1 r

rrrr−

+−−1

1 RLRL r

rr−1

RL 1RL ˆ

121 f

rrr

=−

AAbb 1 -1 r

rr RL )1( −

rrr )1( RL −

2LR ˆ f

rrr=

aaBB -1 1 r

rr )1( RL −

rrr RL )1( −

2RL f

rrr

−=−

aabb -1 -1 r

rr−1

RL r

rrrr−

+−−1

1 RLRL 1RL

121 f

rrr

−=−

+−

根据表 13.6 中指示变量 w 的取值和各种标记型下的条件概率,计算各种标记型下 QTL

指示变量 w 的条件期望,列于表 13.6 最后一列。以标记型 AABB 为例,并利用公式 13.5 给

出的三个重组率之间的关系,QTL 指示变量 w 期望的计算方法如下。其它标记型中,w 期

Page 19: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

望的计算方法与此类似。

1RL

RLRL ˆ121}1,1|Pr{)1,1|( f

rrrxxwwxxwE =−

−===×=== ∑

如用 f1和 f2 分别表示 AABB 和 AAbb 中 w 的期望,那么,aaBB 和 aabb 中,w 期望分别

等于-f2 和-f1(表 13.6)。根据表 13.6 最后一列的 4 个期望,按照公式 13.27 和 13.28 定义两

个新的参数,稍后给出这两个参数的具体含义。不难验证,QTL 基因型指示变量 w 在 4 种

标记型下的期望值,可以通过 λL和 λR表示为标记指示变量 xL和 xR的线性函数,即公式 13.29。

)1(22)(

21 RLRL

21L rrrrrrrff

−−+−

=+=λ (13.27)

)1(22)(

21 RLRL

21R rrrrrrrff

−−−+

=−=λ (13.28)

RRLLRL ),|( xxxxwE λλ += (13.29)

在公式 13.29 的基础上,单基因加性效应模型(公式 13.26)中,基因型值 G 对标记型

的条件期望就能用公式 13.30 表示出来。将公式 13.30 中标记指示变量的系数视为标记的效

应,分别用 AL和 AR 表示,那么基因型值 G 对标记型的条件期望,就可以用标记效应表示

为公式 13.31。同时可以看到,公式 13.27 乘以 QTL 加性效应后,就是左侧标记的加性效应;

公式 13.28 乘以 QTL 加性效应后,就是右侧标记的加性效应。

RRLLRLRL ),|(),|( xaxaxxwaExxGE λλµµ ++=+= (13.30)

RRLLRL ),|( xAxAxxGE ++= µ ,其中 LL λaA = , RR λaA = (13.31)

从上述的推导过程可以看出,线性模型公式 13.31 的系数 AL和 AR,既包含 QTL 的位置

信息,又包含 QTL 加性效应的信息。反过来,如果能够估计公式 13.31 中标记的系数,就

能推断 QTL 在标记区间上的相对位置,并估计其加性遗传效应。

Page 20: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

§13.3.2 多个加性 QTL 的标记回归模型

为简单起见,假定 m 个 QTL 在两个纯合亲本 P1和 P2 中分离,分布在由 m+1 个标记分

隔的 m 个区间内。假定 P1的基因型为 Q1Q1Q2Q2…QmQm,P2的基因型为 q1q1q2q2…qmqm。对

DH 群体中的一个家系,X=(x1, x2, …, xm, xm+1) 代表标记指示变量,亲本 P1标记型用 1 表示,

亲本 P2 标记型用-1 表示;W=(w1, w2, …, wm) 代表 QTL 指示变量,亲本 P1 基因型用 1 表示,

亲本 P2基因型用-1 表示。QTL的加性效应用 a1, a2, …, am表示。假设 QTL的效应是可加的,

DH 家系的基因型值 G 可表示为公式 13.32。

∑=

+=m

jjjwaG

1

µ (13.32)

指示变量 jw 的期望与第 j个QTL在染色体上的位置及其所在区间的长度有关(表13.6)。

为区分不同 QTL 产生的标记效应,将公式 13.29 另记为公式 13.33,其中, L)(jλ 和 R)(jλ 为

第 j 个标记和第 j 个 QTL 之间、第 j 个 QTL 和第 j+1 标记之间、第 j 个和第 j+1 个标记之间

重组率的函数,计算方法与公式 13.27 和 13.28 相同。

1R)(L)()|( ++= jjjjj xxwE λλX (13.33)

因此,在标记基因型已知的条件下,基因型值 G 的期望可表示为标记变量的线性函数

公式 13.34。从公式 13.34 中标记系数的构成来看,第 j 个标记的系数仅受标记区间 (j-1, j) 和

(j, j+1) 上 QTL 加性效应的影响。如果与 (j, j+1) 相邻的左右两个区间上没有 QTL,区间 (j,

j+1)两端标记的回归系数 jβ 和 1+jβ 仅包含该区间内 QTL 位置和加性效应的信息。这正是

ICIM 加性作图的理论依据,也是其它回归作图方法的理论依据,如 Haley 和 Knott(1992)。

∑∑+

==+ +=++=

1

10

11R)(L)( ˆ)()|(

m

jjj

m

jjjjjj xxxaGE ββλλµX , (13.34)

其中, µβ =0 , 1L)(11 aλβ = , jjjjj aa L)(1R))(1( λλβ += −− (j=2, …, m),

mmm a)R(1 λβ =+

Page 21: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

假定一个群体中有 n 个 DH 家系,目标性状的表型和 m+1 个已排序标记的基因型都是

已知的。基于遗传模型公式 13.34,可以得到用于 QTL 加性作图的线性回归模型公式 13.35,

其中,i=1, 2, …, n,n 为家系数目; iY 是 DH 群体中第 i 个家系的表型值; 0β 是线性回归模

型的常数项; jβ 是表型对第 j 个标记变量的偏回归系数; ijx 是第 j 个标记在第 i 个家系中

的标记指示变量,亲本 P1标记型用 1 表示,亲本 P2标记型用-1; iε 是残差项,假定服从均

值为 0、方差为 2εσ 的正态分布。

i

m

jijjii xGEY εββε ++=+= ∑

+

=

1

10)|( X (13.35)

线性模型公式 13.35 是 ICIM 方法实现背景控制的理论基础。从推导过程可以看出,在

QTL 的效应满足可加性的假定下,表型对标记的偏回归系数只依赖于两个相邻标记所标定

区间上的 QTL,而不受其他区间上 QTL 的影响。

§13.3.3 完备区间作图的背景控制

ICIM 的基本思想是用全基因组上所有标记信息构建回归模型公式 13.35,利用矫正的表

型值进行区间作图,以达到控制背景遗传变异的目的。考虑到 QTL 个数通常远低于标记个

数,采用逐步回归策略选择公式 13.35 的重要标记变量,未中选标记的偏回归系数设为 0。

公式 13.35 中的参数只估计一次。如当前扫描的标记区间为 (k, k+1),利用公式 13.36 对观

测值进行矫正。其中, jβ̂ 是公式 13.35 中参数 jβ 的估计值。如果样本量足够大,而且当前

区间 (k, k+1) 的相邻区间上不存在 QTL 时,估计值 kβ̂ 和 1ˆ

+kβ 仅包含区间 (k, k+1) 上 QTL

位置和加性效应的信息。因此,在随后的区间作图中,表型矫正值 iY∆ 就不会遗漏当前扫描

区间 (k, k+1) 上 QTL 位置和效应的信息。同时,矫正值 iY∆ 中扣除了当前区间之外标记的

回归系数,相等于控制了其他区间和染色体上 QTL 的效应。因此,随后利用矫正值 iY∆ 进

行区间作图时,也就排除了当前区间之外所有 QTL 的影响。只有当扫描位置移动到下一个

区间时,才需要重新计算表型矫正值 iY∆ 。

Page 22: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

∑+≠

−=∆1,

ˆkkj

ijjii xYY β ,i=1, 2, …, n,n 为群体大小 (13.36)

从前面的介绍可以看出,ICIM 方法包含以下两个步骤。第一步,利用所有标记的信息,

通过逐步回归选择重要的标记变量并估计其效应。第二步,利用逐步回归得到的线性模型矫

正表型数据,利用矫正后的数据进行区间作图。图 13.7 给出一个模拟群体的完备区间作图

LOD 曲线,所用的遗传模型和群体大小与图 13.6 完全相同。可以看到,不管是第二染色体

上的两个相引连锁、还是第三染色体上的两个互斥连锁 QTL,ICIM 都在真实位置附近产生

很高的峰,远离 QTL 的地方、没有 QTL 的染色体,ICIM 产生的 LOD 值接近于 0。

图 13.7 一个模拟 DH 群体中,完备区间作图 LOD 曲线 图注:遗传模型和群体大小与图 13.6 完全相同。第一条存在一个 QTL,加性效应为 1;第

二条存在两个 QTL,加性效应均为 1;第三条存在两个 QTL,加性效应为 1 和-1;其它三条

无 QTL。图中箭头对应的 X 轴,为 QTL 的真实位置,方向表示加性效应的正负

大量模拟研究和实际数据都表明,ICIM 是一个行之有效的 QTL 定位方法。ICIM 有

较低的抽样误差,较高的作图效率。存在 QTL 的区域,ICIM 能够产生出显著高的 LOD 值;

没有 QTL 的区域,ICIM 的 LOD 值接近于 0。ICIM 对作图参数有着很好的稳健性,同时也

容易被推广到上位性作图,以及多亲本杂交和两个无性系杂交产生的遗传研究群体(Zhang

et al., 2015)。在上位性作图时,不仅可以检测到有加性效应 QTL 间的互作,而且还可以检

测到没有明显加性效应的 QTL 之间的互作。与简单区间作图相比,ICIM 放弃了单条染色体

至多存在一个 QTL 的假定。但这并不是说,不管多么近的连锁 QTL 都可以分辨出来。ICIM

区分连锁 QTL 是有条件的,要求连锁 QTL 之间至少存在一个空白区间,即“分隔 QTL”

(isolated QTL);同时也要求有足够大的作图群体。

05

1015202530

0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100

LOD值

6条长度均为120cM染色体的一维扫描, 步长1cM

Page 23: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

§13.3.4 大麦 DH 群体中粒重的完备区间作图

利用 145 个大麦 DH 家系的双亲作图群体,ICIM 第一步变量选择时,采用的变量进出

回归方程的显著水平分别为 PIN=0.001 和 POUT=0.002。然后利用矫正的表型值进行区间作

图。图 13.7 给出粒重全基因组扫描的 LOD 曲线。LOD 曲线在染色体 2H、3H、5H 和 7H 上

存在明显的峰值,最高的峰位于染色体 5H,次高的峰位于染色体 7H。不同峰值位置上的效

应有正有负,基本表现为 LOD 峰值越高,绝对效应越大。不同峰值位置上 QTL 解释表型变

异的大小与 LOD 峰值的高低、以及绝对效应大小呈明显的正相关。说明效应大的 QTL 解释

较多的表型变异,在 QTL 作图中能够导致较大的 LOD 值,因此易于检测。

图 13.8 大麦 145 个 DH 家系粒重性状的完备区间作图 逐步回归中变量进入模型的概率水平为 0.001,变量退出模型的概率水平为 0.002

当 LOD 临界值取 2.5 时,从图 13.8 的 LOD 曲线中,能够发现七个超过临界值的峰。

染色体 2H 上有 3 个,3H 和 5H 上各有一个,7H 上有两个。这时就认为检测到七个控制粒

重的 QTL,并且把这些峰所在的位置作为 QTL 位置的估计,峰所在位置的效应作为 QTL

加性效应的估计,峰所在位置的变异解释率作为 QTL 解释表型变异率的估计。习惯上,我

们在性状的缩写字母前加上小写字母 q、后面加上染色体编号的方式命名 QTL。与其他基因

的命名类似,QTL 的名字也用斜体表示。如果一个染色体上检测到多个 QTL,名称后面再

用数字进行区分。大麦 DH 群体中,检测到 QTL 的名字见表 13.7 第一列,表中其他各列为

染色体上的位置、最邻近的标记、LOD 值、效应等表征 QTL 的相关信息。

表 13.7 大麦 DH 作图群体中粒重性状的加性 QTL 作图结果 (PIN=0.001, POUT=0.002) QTL 名称 染色体上的

位置 (cM) 左侧最邻标

记 右侧最邻标

记 LOD 值 加性效应 贡献率/%

qKWT2H-1 84 Pox BCD351B 4.10 0.43 3.63 qKWT2H-2 138 ABC620 MWG882 6.36 -0.56 6.21

05

101520253035

1H 1H 1H 1H 1H 1H 1H 2H 2H 2H 2H 2H 2H 2H 2H 3H 3H 3H 3H 3H 3H 3H 4H 4H 4H 4H 4H 4H 5H 5H 5H 5H 5H 5H 5H 5H 5H 5H 6H 6H 6H 6H 6H 6H 7H 7H 7H 7H 7H 7H 7H 7H

LOD值

qKWT2H-1qKWT2H-2

qKWT2H-3

qKWT3H qKWT5H

qKWT7H-1

qKWT7H-2

Page 24: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

qKWT2H-3 190 BCD453B ABG317 5.45 0.53 5.60 qKWT3H 27 Ugp2 Ugp1 3.23 0.38 2.99 qKWT5H 5 Act8B MWG502 31.33 -1.47 43.92 qKWT7H-1 4 iPgd1A BCD129 7.41 -0.59 7.07 qKWT7H-2 96 MWG626 VAtp57A 18.35 -1.01 20.53

位于 5H 染色体 5cM 上的 qKWT5H 和位于 7H 染色体 96cM 上的 qKWT7H,是加性遗传

效应最大的 2 个 QTL,分别解释表型变异的 43.92%和 20.53%(表 13.7)。4 个效应较大 QTL

的加性遗传效应均为负值,说明在这些座位上,提高粒重的等位基因来源于编码为 0 的亲本,

即粒重较高的亲本‘TR306’(图 13.1)。亲本‘Harrington’的粒重低于亲本‘TR306’,但

在 QTL 座位 qKWT2H-1、qKWT2H-3 和 qKWT3H 上仍携带有提高粒重的等位基因。增效基

因在两个亲本中的分散分布,很好地解释了表型分布图 13.1 中观察到的超亲分离现象。

利用 ICIM,首先要对回归模型公式 13.35 进行估计。前面说过,一般群体中 QTL 的个

数都会远低于标记的个数。当标记数目较大,或者标记数远超过群体大小时,公式 13.35 会

包含很多变量。尽管我们知道大多数变量的系数都是 0,但要确定公式 13.35 中究竟哪些效

应是 0、哪些不是 0,并不是一件容易的事。逐步回归的变量选择过程中有两个重要参数,

一个是变量进入模型的显著性概率,用 PIN 表示;另一个是变量离开模型的显著性概率,

用 POUT 表示。PIN 决定哪些变量需要进入回归模型,POUT 决定在新变量加入模型后哪些

变量需要离开回归模型。不同的 PIN 和 POUT 会选择到不同的标记变量,因此 QTL 作图也

会产生不同的结果。如果回归模型未能拟合大部分或全部的遗传变异,ICIM 第二步区间作

图时的背景控制就会不完全,从而影响 QTL 的检测功效,就可能检测不出来效应较小的 QTL。

如果回归模型出现过拟合,ICIM 第二步区间作图时就可能会产生假阳性 QTL。正确使用

ICIM,既要避免表型对标记变量的不完全拟合而产生的假阴性问题,又要避免过拟合而产

生的假阳性问题。

实际数据中,通过对比回归模型的决定系数和性状的广义遗传力,可以大致判定模型的

拟合程度。回归模型的决定系数定义为回归平方和占总平方和的比例,可以视为回归模型解

释表型变异的比例。如果决定系数远高于性状的广义遗传力,则表明可能存在过拟合问题。

如果决定系数低于性状的广义遗传力,则表明可能存在拟合不足问题。另外,作图结果中是

否存在紧密连锁 QTL,也可以用来判断是否存在过拟合。如果在检测到的 QTL 中存在紧密

连锁的现象,甚至检测到紧密连锁的互斥 QTL,都表明可能有过拟合问题。当存在过拟合

Page 25: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

现象时,可通过降低标记进入回归模型的概率,逐步改善过拟合问题。

§13.4 集成软件 QTL IciMapping 简介

构建高密度的遗传连锁图谱、定位重要性状的 QTL 是目前动植物遗传研究的重要内容。

这些研究工作,需要借助专门的计算机软件才能完成。QTL IciMapping 是中国农业科学院

作物科学研究所数量遗传课题组,通过 10 年努力研制的一个集成软件,是国际上首例能够

同时进行连锁图谱构建和数量性状基因定位的遗传分析工具(Meng et al. 2015)。软件采用

最新的编程技术,把不同功能包装在一个工程中,用户可以随时查看已经完成的各项操作,

浏览已完成操作产生的各种结果。软件具有友好的用户交互界面,可以满足大多数遗传研究

群体的表型数据和基因型数据分析,并根据遗传研究的发展和用户的需要不断地更新完善。

软件 4.1 版于 2016 年 1 月发布,读者可以从网站 http://www.isbreeding.net 登录后自由

下载。软件 4.1 版具有以下九大功能:1、多环境表型数据方差分析的 AOV 功能;2、删除

冗余标记的 BIN 功能;3、构建连锁图谱的 MAP 功能;4、整合连锁图谱的 CMP 功能;5、

定位奇异分离座位的 SDL 功能;6、双亲衍生群体 QTL 作图的 BIP 功能;7、多环境表型鉴

定数据 QTL 分析的 MET 功能;8、染色体片段置换系 QTL 作图的 CSL 功能;9、巢式关联

分析群体 QTL 作图的 NAM 功能。另外还提供了两个附加工具:1、绘制已构建遗传连锁图

谱的 MapShow 工具;2、两点重组率估计的 2pointREC 工具。利用 QTL IciMapping 软件集

成的各种功能,研究工作者现在可以很方便地开展单环境/多环境表型鉴定数据的方差分析

和遗传力估计、分析基因型鉴定数据的冗余性、利用分子标记构建遗传连锁图谱、鉴定奇异

分离座位、通过一维扫描定位加性和显性 QTL、通过二维扫描定位上位性互作 QTL、以及

开展 QTL 与环境互作分析等多方面的遗传研究。

QTL IciMapping 软件除接收按照一定规则整理的纯文本数据文件外,还能读入不同版

本的 Excel 文件。用户在使用 Excel 文件导入数据时,只需参照软件中的例子文件,或者干

脆使用这些例子作模板,把自己群体的一般性信息如群体类型、群体大小、标记个数、性状

个数或环境个数等存放在一个工作表中,把基因型数据、表型数据、标记锚定信息等存放于

其他不同的工作表中,软件就可以根据用户选定的功能,读取不同 Excel 工作表中的数据。

同时,用户在完成一个功能的分析后,软件会输出大量的分析结果。有些结果以文件的形式

Page 26: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

存放在用户的工程下,有些结果是各种各样的图形。用户可以在工程下浏览这些文件,将文

件保存到其它地方或保存为其它格式。用户也可以在工程下浏览图形输出,对图形进行编辑

并保存成具有不同分辨率的图片文件。

为了使用更方便,软件在研制过程中还注重不同功能之间的衔接。用户在使用某些功

能时,软件会根据用户可能开展的后续分析,利用一个功能得到的分析结果,自动地创建出

后续功能的输入文件。例如,用户在使用删除冗余标记的 BIN 功能后,软件会自动生成连

锁图谱构建功能 MAP 的输入文件,这样,用户就可以很方便地利用去除冗余后的标记来构

建图谱。用户在使用 MAP 功能后,软件会自动生成奇异分离作图 SDL 功能的输入文件,

用户可以立即利用构建出的连锁图谱,来定位奇异分离座位;同时还会自动生成各种 QTL

作图功能的输入文件,用户只需指定性状的个数、添加这些性状的表型数据,然后就能顺利

开展各种 QTL 定位分析。

练习题

13.1 三个标记座位 A、B 和 C 在染色体上的排列顺序为 A-B-C,它们之间的重组率用

rAB、rBC 和 rAC 表示。假定染色体区间 A-B-C 上不存在交换干涉,证明三个成对重组率满足

关系式 BCABBCABAC 2 rrrrr −+= 。

13.2 在一个大麦 DH 群体中,前 45 个家系在标记 Act8A 上的标记型和粒重数据见下

表。利用单标记分析检验标记 Act8A 与粒重 QTL 之间是否存在显著的连锁关系。

1~15 Act8A 0 2 -1 2 0 2 2 0 0 2 2 2 0 2 2

粒重 41 40 40 40 41 46 40 44 42 46 44 41 43 42 47

16~30 Act8A 0 0 0 2 2 0 0 2 0 0 0 2 0 2 2

粒重 44 41 41 44 42 44 45 40 41 41 48 47 42 44 43

31~45 Act8A 0 0 2 0 2 0 2 0 0 0 0 2 0 0 2

粒重 40 39 41 46 42 41 40 47 42 41 43 46 43 44 41

13.3 亲本 P1和 P2在一个标记座位和一个 QTL 上的基因型分别为 MMQQ 和 mmqq,

标记与 QTL 间的重组率 r=0.1。基因型 QQ 和 qq 服从正态分布,均值分别为 20 和 10,方

差均为 4。计算 DH 群体中,两种标记型下 QQ 和 qq 的频率;根据两种 QTL 的基因型频率,

计算每种标记型的群体平均数,并将结果整理在下面的表格中;绘制标记型 MM 的表型混

合分布曲线图。

标记型 QQ qq 标记型的群体均值

Page 27: 第13 章 数量性状基因定位 448 - isbreeding.net•°量遗传... · §13.1 qtl 作图群体和作图原理 §13.1.1 qtl 作图的遗传群体和数据类型 可以这么说,任何存在遗传变异的群体基本都可用于qtl

448

MM mm

13.4 亲本 P1和 P2在一个标记座位和一个 QTL 上的基因型分别为 MMQQ 和 mmqq,

标记与 QTL 间的重组率 r=0.1。QTL 基因型 QQ、Qq 和 qq 的服从正态分布均值分别为 20、

18 和 10、方差均为 4。计算 F2 群体中,三种标记型下 QQ、Qq 和 qq 的频率;根据三种 QTL

的基因型频率,计算每种标记型的群体平均数,并将结果整理在下面的表格中;绘制标记型

mm 的表型混合分布曲线图。

标记型 QQ Qq qq 标记型的群体均值 MM Mm mm

13.5 假定标记 A/a 和 B/b 决定的区间上存在一个影响数量性状的 QTL,两个等位基因

用 Q 和 q 表示,基因型 QQ 和 qq 的平均表现分别为 20 和 15,QTL 与标记 A 间的重组率为

0.05、与标记 B 间的重组率为 0.03。计算亲本 AAQQBB 与 aaqqbb 的 DH 群体中,各种标记

型下 QQ 和 qq 的频率;根据两种 QTL 的基因型频率,计算每种标记型的群体平均数。并将

结果整理在下面的表格中。

标记型 QQ qq 标记型的群体均值 AABB AAbb aaBB Aabb

13.6 利用 QTL IciMapping 软件附带的大麦 DH 群体,练习使用软件连锁图谱构建的

MAP 功能,并绘制大麦的 7 条连锁图谱。

13.7 利用 QTL IciMapping 软件附带的大麦 DH 群体,练习使用软件数量性状基因定

位的 BIP 功能,并绘制简单区间和完备区间作图结果的 LOD 曲线图。