测序中的数学问题李松岗北京大学 2002/04/04

测序中的数学问题李松岗北京大学2002/04/04

生物信息学是数据导向的科学, 大规模测序是其最重要的数据来源之一

大规模测序与实验室测序的不同 • 实验室测序：手工操作，效率低，结果是第一位的 • 大规模测序：流水线操作，自动化追求稳定、高效、低成本

两种测序策略： • 基于BAC的方法：先把基因组打碎成200－300kb的片段并制成BAC文库，再选择一些BAC进一步打碎成3kb左右的小片段，测序并拼接。 • 全基因组鸟枪法：把基因组直接打碎成3kb左右的小片段，测序并拼接。

基于BAC的方法 • 全基因组DNA • 随机打成大片段选择并克隆 • 大片段排序，选择 • 再打碎，克隆，测序，拼接

全基因组鸟枪法 基因组DNA 随机打碎测序并拼接

近来测序技术的进展 • 从基于BAC的策略转向全基因组鸟枪法 • 毛细管自动测序仪的广泛使用

全基因组鸟枪法测序的拼接 困难：数据量极大大量重复序列造成拼接途径的不确定

拼接软件的新需求 • 能充分利用正反向测序的配对信息, 避免重复序列造成的错误拼接 • 能处理数以百万甚至千万计的数据程序并行化高效率比对能逐步拼接

水稻基因组拼接步骤: 采用数学模型识别重复序列把重复序列屏蔽掉后，根据是否具有重叠部分进行分组采用大型计算机并行拼接恢复重复序列，延伸contig 构建scanfold

识别重复序列的数学模型

重复序列识别： • 若repeat有m个拷贝，且已知随机序列覆盖深度为0，1，2……的概率：g0 ，g1 ，g2 ，……，则一次抽样repeat覆盖深度为0，1，2，……的概率P0， P1， P2，……为：

n次抽样，其中i次以上深度在j以上的概率Pij • 设一次抽样深度在j以上和以下的概率分别为：Pj－，Pj+；

n次抽样，其中i次以上深度在j以上则认为是repeat，此时犯两类错误的概率 为： • 设repeat在基因组中的比例为b，出现概率为P，非repeat出现概率为P* ，则：

MDR (Mathematically-Defined Repeat) vs. BDRs (Biologically-Defined Repeats) BDR’ (~25%) MDR (42.2%) BDR (~50%?)

人与水稻基因组中重复序列分布的差别

Contigs:127,550 (N50=6,688 bp) Quality: 546 bp at Q20 Scaffolds: 102,444 (N50=11,764 bp)

进一步工作的设想 • 新拼接程序步骤： • 利用覆盖深度模型纠正测序错误 • 采用严格比对快速确定所有可能的重叠 • 利用图论或线性代数方法完成拼接

纠正测序错误 • 对6X左右鸟枪法测序数据，统计所有20碱基长小片段出现次数； • 对每一个read，顺序标出它的小片段出现次数； • 若有连续一串1出现，则可能有测序错误存在，应进行纠正。

消除测序错误的好处： • 可区分部分重复序列； • 可采用严格比对的方法，提高计算速度； • 有利于简化拼接算法； • 有利于后期数据分析，例如SNP识别等。

测序中的数学问题李松岗北京大学 2002/04/04