第六章连锁不平衡与基因作图

第六章连锁不平衡与基因作图

假设某一对同源染色体上存在A-a ，B-b两对连锁基因，现有两个亲本P1 和P2，它们的基因型分别为AABB和aabb，两亲本杂交产生AaBb双杂合体。F1在减数分裂过程中应产生4种类型的配子，其中两种为亲型配子AB和ab，两种为重组型配子Ab和aB。由于A-a和B-b位于同一染色体上，要产生重组型配子必须在这两个基因的连锁区段上发生交换。

连锁不平衡 Coefficient of linkage disequilibrium, D 如果D=0，连锁平衡如果D≠0，连锁不平衡 • 这里的平衡或不平衡，与种群是否平衡无关。

连锁不平衡

连锁不平衡 D’=1，至少一个单倍型缺失。

D的进化 经过1个世代，D至多下降0.5 一代可到达H-W平衡，但达到连锁平衡则需要很多世代 D下降的速率依赖于c, c 越大D下降越快。大种群中，一代随机交配后，D如何变化？

D的进化 以人类基因组为例： C=0.01/one centiMorgan 1mb 7编码蛋白基因/1mb 每两个蛋白基因之间，平均重组率是0.01/7=0.0142 1000generations, D只下降24%.

D的进化 D’=1,表示只有三个单倍型，当第四个单倍型出现时，或者由重组产生，或者由recurrent mutation产生。

两个基因座的Wahlund效应 POP1 POP2 即使每一个种群内都连锁平衡，当考虑两个基因座时，种群分化将造成连锁不平衡。

两个基因座的Wahlund效应 基因座表现LD：Wahlund效应，自然选择或基因型错误；如果多对基因座表现LD：Wahlund效应。如果一对基因座表现LD，其余均LE，则考虑自然选择或基因型错误。

重组如果没有重组，两个基因座将一直处于同一条染色体，与哺乳动物的线粒体和Y染色体一样。两个基因座的谱系关系将完全相同。

重组现在祖先如果存在重组，在两条染色体上的基因座将重组到一条染色体。

重组平均分离时间是1/c generations. 平均聚合时间是2N generations. C<<1/2N，大部分时间两个基因座会出现在同一染色体。 C>>1/2N，大部分时间两个基因座会分离。两个基因座出现在同一染色体上的时间依赖重组率和种群大小。

重组考虑两个基因座，一种情况是由于溯祖使得它们处于一条染色体，另外一种情况是由于重组使得它们具有不同的谱系关系。发生共祖的概率是1/2N，不发生重组的概率是(1-c)2,那么共祖前不发生重组的概率是 4Nc代表重组和溯祖的相对重要性， 4Nc <<1,重组相对共祖发生的频率低。

重组 a a A a b B b b • 两个基因座的谱系关系与连锁不平衡系数紧密相关。 • 假设每一个基因座第二个等位基因由突变产生，则只有三个单倍型。 • 只有重组或者突变才能使得D’小于1

考虑整个染色体，连锁越紧密的位点， D’越大，越可能具有相似或相同的谱系关系. 距离越远的位点， D’接近0，谱系关系差异越大。距离相同的位点间的D’不同，由于溯祖和重组的效应。

Why ?

Association mapping 现代遗传学的一个重要目标，定位调控重要性状的基因。基因定位，确定目标基因和已知Marker之间的重组率。

由遗传重组测验结果推算出来的，在一条染色体上基因的排列图。由遗传重组测验结果推算出来的，在一条染色体上基因的排列图。

遗传图谱构建方法流程

1筛选数据 样本分子标记—snp 基因序列—scaffold

2 获得单倍型和交换点 单倍型，是单倍体基因型的简称，在遗传学上是指在同一染色体上进行共同遗传的多个基因座上等位基因的组合；通俗的说法就是若干个决定同一性状的紧密连锁的基因构成的基因性。按照某一指定基因座上基因重组发生的数量，单倍型甚至可以指至少两个基因座或整个染色体。基因  snp序列

得到亲本单倍型 观测数据观测到基因型组合亲本的单倍型：

得到交换点 找到交换点后，同一序列上两个交换点之间的snp位点都是一起遗传的，可以把它们看做一个整体。更多细节可以参考 High-throughput genotyping by whole-genome resequencing http://www.ncbi.nlm.nih.gov/pubmed/19420380/

3计算遗传距离 两基因间的遗传距离(cM--centimorgan)： L = 重组率*100 即1cM对应1%重组率重组率（交换值）：指同源染色体的非姊妹染色单体间有关基因的染色体片段发生交换的频率，一般利用重新组合配子数占总配子数的百分率进行估算。重组率(%) = (重新组合配子数/总配子数)×100% 重组率——>0%，连锁强度越大，连锁的非等位基因之间交换越少；重组率——>50%，连锁强度越小，连锁的非等位基因之间交换越多。

重组率 r = 3/20 = 0.15 遗传距离L = 15cM

交换干扰 双交换：随着间距的增加，两个基因座之间便可能在两处同时发生遗传物质的交换，其实际频率往往少于由单交换概率相乘所估得的理论值。交换干扰：一个位置上所发生的交换会减少其周围另一个单交换的发生。

干扰的程度可用符合系数C表示，符合系数C为实际双交换值与理论双交换值的比值。干扰的程度可用符合系数C表示，符合系数C为实际双交换值与理论双交换值的比值。理论双交换值是指一段染色体上发生2次独立不相关的单交换的概率。C的取值范围为[0,1]。当C=0时，表示完全干扰，没有双交换发生；当C=1时，表示没有干扰，两单交换独立发生。一般而言，两单交换的位置相距越远，则彼此干扰的程度就越低，符合系数就越大。

作图函数 要计算两个相距较远的基因座之间的图距时，如果中间没有其它基因座可利用，则两个基因座之间实际发生的双交换就不能被鉴别出来。因此，采用一些数学方法进行矫正是必要的，否则，从重组率估计出的图距就会比真实图距小。这种矫正可通过作图函数来实现。

Haldane作图函数： x = 1/2ln(1-2r) Haldane作图函数的不合理之处在于假定了完全没有交叉干扰。

Kosambi作图函数： 可以看出Kosambi作图函数计算出的图距比Haldane小，该模型看似更合理，所以得到了更广泛的应用。

4.聚类得到连锁群 • 连锁：不同的基因一起遗传给后代的倾向，一般而言两基因位于同一条染色体上。 • 连锁群：倾向于一起遗传的基因的集合，一般而言就是同一条染色体上基因的集合 • 两点测验法：检验两个基因连锁还是不连锁。 • r < 0.5 连锁 • r = 0.5 不连锁如何检验是否连锁(r<0.5 or r=0.5)？

LODscore (logarithm (base 10) of odds): NR:非重组后代个数 R :重组后代个数 θ:重组率R/(NR+R) 一般认为LOD>3可以确定连锁，LOD<2可以确定不连锁更多 http://www.pnas.org/content/93/8/3471.full.pdf Logarithm of odds (lods) for linkage in complex inheritance

通过一些聚类算法把两两连锁的基因放在一个类中，就得到了连锁群。通过一些聚类算法把两两连锁的基因放在一个类中，就得到了连锁群。

5.基因排序 0.2 a b c 0.1 0.1 得到连锁群后，我们还需要对连锁群内的基因进行排序，这需要三点测验法。三点测验法：三个基因已知两两之间的遗传距离后，就能对这三个基因确定相对位置。如基因a,b,c，L(ac)=0.2, L(ab)=0.1, L(bc)=0.1,他们之间的相对位置应该为

E A B C D e A B C D a a c c d b b d e E f • 更多基因之间的排序都是建立在三点排序的基础上。排序算法也有很多种，比如插入排序法，是一种容易想到的算法：下图所示假设ABCD是已经定好位置的四个基因，新的基因E分别尝试插入abcde五个位置，总有一个位置使得相邻的两个基因和E的遗传距离的和最小。

遗传图距与物理距离对应关系的估计 不同生物的1cM图距所对应的实际物理距离（碱基对数量）存在很大差异。一般而言，生物越低等或越简单，1cM图距平均对应的碱基对数量就越少（表3.1）。表3.1中给出的各种生物中遗传图距与物理距离之间的对应关系只是一个大约的平均值，实际上它变化很大。在一条染色体上，由于不同区域上发生交换的频率存在差异，因而遗传图距与物理距离之间的对应关系可以有很大的变化。例如，在着丝粒附近，染色体交换受到抑制，因而所估计的遗传图距小于平均对应的物理距离。在同一种生物中，两个特定基因座之间的遗传图距会因遗传背景的不同而改变，甚至有时由同一对亲本所产生的遗传背景相同的不同群体间也存在很大差异。

第六章 连锁不平衡与基因作图