1 / 17

转录组 Trinity 组装软件介绍

转录组 Trinity 组装软件介绍. 微生物组: 曾柳红 2011-9-16. Outline. Why do we use Trinity ?. 转录组组装面临的挑战: ﹡ 转录本覆盖度不均匀,一些转录本覆盖度很低,一些则会很高。 ﹡ 由于序列本身偏向性,转录本内 read 覆盖度可能不一致。 ﹡ 与一个测序正确但低表达的转录本相比,一个有测序错误但高表达的转录本,其表达丰度可能更高。 ﹡ 由于可变剪切,构建数据结构需考虑到一个基因有多个转录本的可能。 ﹡ 来自不同基因的重复序列可能给组装带来歧义。. Why do we use Trinity ?.

neka
Download Presentation

转录组 Trinity 组装软件介绍

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 转录组Trinity组装软件介绍 微生物组:曾柳红 2011-9-16

  2. Outline

  3. Why do we use Trinity ? • 转录组组装面临的挑战: ﹡转录本覆盖度不均匀,一些转录本覆盖度很低,一些则会很高。 ﹡由于序列本身偏向性,转录本内read覆盖度可能不一致。 ﹡与一个测序正确但低表达的转录本相比,一个有测序错误但高表达的转录本,其表达丰度可能更高。 ﹡由于可变剪切,构建数据结构需考虑到一个基因有多个转录本的可能。 ﹡来自不同基因的重复序列可能给组装带来歧义。

  4. Why do we use Trinity ? • 转录组组装方法:

  5. How does Trinity work ? • Trinity 破茧成蝶的过程

  6. Inchworm ﹡构建k-mer库,K=25。 ﹡从k-mer库中删除可能包含错误的k-mer。 ﹡选择最高频度的k-mer作为种子(不包括复杂度和单一的k-mers,一次用完即从k-mer库中剔除),用来contig组装。 ﹡延伸种子,k-1个overlap关系。(a greedy k-mer-based approach) ﹡延伸至不能再延伸,形成线性contig ﹡重复3-5,直到k-mer库为空。

  7. Chrysalis ﹡把可能存在可变剪切及其他平行基因的contigs聚类。 聚类情况: (1)如果contigs间有k-1(25-1=24)个overlap。 (2)如果两个contig各有(k-1)/2个overlap。 ﹡每个contigs集定义成一个component,对每个component构建de Bruijn graphs(构建de Bruijn图时,Trinity利用k-1mer作为节点,SOAPdenovo利用k-mer作为节点) ﹡拿reads验证,看每个component的reads支持情况。

  8. Butterfly ﹡graph simplification (1)合并在de Bruijn图中有连续节点的线性路径,以形成更长的序列。 (2)剔除可能由于测序错误(只有极少reads支持)的分叉,使边均匀。(多倍体多态性似乎比测序错误更常见,保留) ﹡plausible path scoring 用动态规划算法打分,鉴定被reads和read pairs支持的路径,剔除reads支持少的路径。

  9. Butterfly

  10. Butterfly

  11. How to run Trinity • 在官网下载,解压缩。make http://sourceforge.net/projects/trinityrnaseq/ • 目前版本trinityrnaseq_r2011-08-20(比原版本trinityrnaseq-03122011运行效率快很多) • perl /ifs2/BC_MG/RNA/bin/denovo_2.0/trinityrnaseq_r2011-08-20/Trinity.pl --seqTypefq --left *_1.fq --right *_2.fq --output outdir --min_contig_length 100 --paired_fragment_length 199 --run_butterfly --CPU 10 • 参数设置见:http://trinityrnaseq.sourceforge.net/#running_trinity

  12. 具体执行步骤(2011-08-20版)

  13. 产生文件(夹): ﹡ left.faright.faboth.fa* inchworm.K25.L48.DS.fameryl_kmer* meryl.kmers.min1.fa monitor.out chrysalis/ 及Trinity.fasta(为最终组装结果) ﹡Trinity最终组装成contig,不含N,而不是scaffold,组装的序列也无须补洞、优化。 ﹡Trinity组装很占内存及空间,一般,2G以内包括2G clean data,4~15G内存足够;若clean data大于2G ,内存要设大于15G,4G以上就要大于20G内存。

  14. 文件内容说明: ﹡inchworm.K25.L48.DS.fa

  15. 文件内容说明: ﹡Trinity.fasta

  16. the end thank you!

More Related