Negative training samples are also important for mining microRNAs from genome-scale data

Negative training samples are also important for mining microRNAs from genome-scale data BY Leyi Wei

背景介绍 • microRNA 和 microRNA precursor （1）microRNA是一类长度大约为22nt的非编码RNA，与参与调控细胞过程，近期研究发现与疾病也有很大关联，发掘microRNA意义重大。（2）microRNA precursor（pre-miRNA）俗称为前体microRNA。简单来说microRNA与pre-miRNA的关系就是： pre-miRNA包含着microRNA。当然不仅仅是简单的包含，这只是个前提。Pre-miRNA的序列是能形成典型的发卡环（hairpin）结构。

The pathway of microRNA in mammals

预测microRNA的方法 • Comparative methods 基于同源信息，序列保守性信息等等，只能预测保守的microRNA • Non -- comparative methods 其中很多方法都是基于机器学习算法，能够预测非保守的microRNA

影响机器学习的因素 1. 分类器和特征在目前的大多数方法都集中于对分类器很特征的开发而性能提高的却不是很多。 • 训练集很少的方法会去研究训练集的选取，特别是反例的选取。在机器学习方法中训练集一般是由：正例（real pre-miRNA）和反例（pseudo pre-miRNA）所组成。

正例是由实验验证过的real pre-miRNA 组成的 反例则是由pseudo pre-miRNA组成的，这是一类和正例具有非常相似特征的序列，也具有典型的发卡环。由于与real pre-miRNA的极其相似，所以被应用于作为反例集。

训练集如何影响分类器性能呢？ 正反例的相似性高往往能得到高的性能现有的少量方法也有致力于反例的提取，我们发现多数的方法都是用简单的过滤在CDS上选取与正例相似的，但是用这些反例组成的训练集真的能得到高的分类器性能吗？

（实验设计）用我们的测试集做测试：

ROC- analysis

实验总结 • 在对正例进行预测时，现有的方法都表现出差不多的性能，与我们的方法相当。 • 而在预测反例时，现有方法性能表现不一，都比较差。导致了分类器的性能较差。这说明现有方法在预测反例集是不够有效的

基于我们负集训练的效果 • Triplet-SVM classifier

基于我们负集训练的效果 • Mirident-classifier (Table)

Mirident-classifier (Figure)

Our ensemble classifier based on this negative set • Our ensemble classifier performance 实验设计：由于用的是联合分类器，我们与其单一分类器做了比较，看是否有提高性能。 • Feature set performance 实验设计：由于我们主体的特征集都是用别人的，加上自己提出的三个特征，看是否这三个特征会提高分类器性能

mirnaDetect • 基于我们的之前的分类器系统，还结合使用了搜索算法，我们开发出了能在基因组中挖掘pre-miRNA的程序

mirnaDetect • 算法流程：

投稿经验 • 作为一个菜鸟，一篇文章都还没有发成功，但是很愿意很大家投稿时的感受哈~ 主要针对投国外期刊（SCI）：（1）投哪？怎么投？一开始，听老师的。一般作为菜鸟肯定不知道哪些期刊好，哪些坏，听老师的，过来人有经验。一般的原则就是从高往低的投。幸运的话，高水平的期刊往往能返回一些你的文章的命门，建议先投会议（会议往往拒了你，也会给你点意见的）。当然到了你自己对这领域有所了解，就可以自主选择期刊了。

（2）文章格式。 选择完期刊了，注意有些期刊还会要求你文章的格式问题，如果是会议的话都会有模板，一般他们的网站上都有。（3）有些会要求要写cover letter . 需要的话找我要模板。

(4) 终于投出去了。 一般国外期刊的审稿周期很长，比较快的应该至少也要一个月才有消息吧。网站上的状态会持续的保持在“under review”。直到有消息前，干点别的吧~ 有消息的话，他们会邮件通知responding author

（5）终于有消息了！ Rejected OR （major）Revision （6）Revision 说明你还有希望。你要重视。Editor或者 Riviewers 会给你一堆的意见。要做到逐条修改，认真对待。编辑会要你再提交修改版的manuscript时候，把你对意见的回复也提交上去，一般这叫做The Rebuttal Letter 但是要怎么写呢？请看下面一个例子：

提交Revised manuscript： 会要求你把修订过程一并提交，一般叫做Track Changes File。可是你在修改后，往往就是你接受所有修订的文章，没有修订痕迹怎么办？

谢谢大家！

Negative training samples are also important for mining microRNAs from genome-scale data

Negative training samples are also important for mining microRNAs from genome-scale data

Presentation Transcript

Mining the Genome

Profiting from Data Mining

Large-scale genome projects

microRNAs

Genome-Scale Mutagenesis

Are we ready for… Genome-scale Metabolic Modeling in plants

Large scale genomic data mining

Knowledge-based Analysis of Genome-scale Data

microRNAs : genome regulators

Genome-scale phylogenomics

Mining your Personal Genome

Large scale genomic data mining

DATA MINING Extracting Knowledge From Data

Mining Gold from Data

STRING Large-scale data and text mining

Data Mining the Yeast Genome Expression and Sequence Data

Data Mining Algorithms for Large-Scale Distributed Systems

Mining Negative Association Rules

Important Future Trends in Data Mining

New methods for estimating species trees from genome-scale data

Are You Looking For Data Mining Project

Why Are Landscapes And Also Qualities Important?