170 likes | 563 Views
转录组 Trinity 组装软件介绍. 微生物组: 曾柳红 2011-9-16. Outline. Why do we use Trinity ?. 转录组组装面临的挑战: ﹡ 转录本覆盖度不均匀,一些转录本覆盖度很低,一些则会很高。 ﹡ 由于序列本身偏向性,转录本内 read 覆盖度可能不一致。 ﹡ 与一个测序正确但低表达的转录本相比,一个有测序错误但高表达的转录本,其表达丰度可能更高。 ﹡ 由于可变剪切,构建数据结构需考虑到一个基因有多个转录本的可能。 ﹡ 来自不同基因的重复序列可能给组装带来歧义。. Why do we use Trinity ?.
E N D
转录组Trinity组装软件介绍 微生物组:曾柳红 2011-9-16
Why do we use Trinity ? • 转录组组装面临的挑战: ﹡转录本覆盖度不均匀,一些转录本覆盖度很低,一些则会很高。 ﹡由于序列本身偏向性,转录本内read覆盖度可能不一致。 ﹡与一个测序正确但低表达的转录本相比,一个有测序错误但高表达的转录本,其表达丰度可能更高。 ﹡由于可变剪切,构建数据结构需考虑到一个基因有多个转录本的可能。 ﹡来自不同基因的重复序列可能给组装带来歧义。
Why do we use Trinity ? • 转录组组装方法:
How does Trinity work ? • Trinity 破茧成蝶的过程
Inchworm ﹡构建k-mer库,K=25。 ﹡从k-mer库中删除可能包含错误的k-mer。 ﹡选择最高频度的k-mer作为种子(不包括复杂度和单一的k-mers,一次用完即从k-mer库中剔除),用来contig组装。 ﹡延伸种子,k-1个overlap关系。(a greedy k-mer-based approach) ﹡延伸至不能再延伸,形成线性contig ﹡重复3-5,直到k-mer库为空。
Chrysalis ﹡把可能存在可变剪切及其他平行基因的contigs聚类。 聚类情况: (1)如果contigs间有k-1(25-1=24)个overlap。 (2)如果两个contig各有(k-1)/2个overlap。 ﹡每个contigs集定义成一个component,对每个component构建de Bruijn graphs(构建de Bruijn图时,Trinity利用k-1mer作为节点,SOAPdenovo利用k-mer作为节点) ﹡拿reads验证,看每个component的reads支持情况。
Butterfly ﹡graph simplification (1)合并在de Bruijn图中有连续节点的线性路径,以形成更长的序列。 (2)剔除可能由于测序错误(只有极少reads支持)的分叉,使边均匀。(多倍体多态性似乎比测序错误更常见,保留) ﹡plausible path scoring 用动态规划算法打分,鉴定被reads和read pairs支持的路径,剔除reads支持少的路径。
How to run Trinity • 在官网下载,解压缩。make http://sourceforge.net/projects/trinityrnaseq/ • 目前版本trinityrnaseq_r2011-08-20(比原版本trinityrnaseq-03122011运行效率快很多) • perl /ifs2/BC_MG/RNA/bin/denovo_2.0/trinityrnaseq_r2011-08-20/Trinity.pl --seqTypefq --left *_1.fq --right *_2.fq --output outdir --min_contig_length 100 --paired_fragment_length 199 --run_butterfly --CPU 10 • 参数设置见:http://trinityrnaseq.sourceforge.net/#running_trinity
产生文件(夹): ﹡ left.faright.faboth.fa* inchworm.K25.L48.DS.fameryl_kmer* meryl.kmers.min1.fa monitor.out chrysalis/ 及Trinity.fasta(为最终组装结果) ﹡Trinity最终组装成contig,不含N,而不是scaffold,组装的序列也无须补洞、优化。 ﹡Trinity组装很占内存及空间,一般,2G以内包括2G clean data,4~15G内存足够;若clean data大于2G ,内存要设大于15G,4G以上就要大于20G内存。
文件内容说明: ﹡inchworm.K25.L48.DS.fa
文件内容说明: ﹡Trinity.fasta
the end thank you!