1 / 20

基于聚类的蛋白质家族建立

基于聚类的蛋白质家族建立. 组长:许坤 组员:高晨曦、曹天骄、韩蕊 主讲:曹天骄 韩蕊 联系方式: xukun@icst.pku.edu.cn. ——Final Project Proposal 2010. 备选提案. 多国语词典 多媒体推荐系统 蛋白质比对分析处理系统 地震 / 气象预测系统. 可行性分析. 分析标准 方案所要用到的主要技术与课程的相关性 方案所要用到的数据集规模和来源能否满足课程设计要求 实现方案可能遇到的问题 现有. 确定选用的方案. 蛋白质比对分析处理系统. Introduction.

Download Presentation

基于聚类的蛋白质家族建立

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 基于聚类的蛋白质家族建立 组长:许坤 组员:高晨曦、曹天骄、韩蕊 主讲:曹天骄 韩蕊 联系方式:xukun@icst.pku.edu.cn ——Final Project Proposal 2010

  2. 备选提案 • 多国语词典 • 多媒体推荐系统 • 蛋白质比对分析处理系统 • 地震/气象预测系统 www.themegallery.com

  3. 可行性分析 • 分析标准 • 方案所要用到的主要技术与课程的相关性 • 方案所要用到的数据集规模和来源能否满足课程设计要求 • 实现方案可能遇到的问题 • 现有 www.themegallery.com

  4. 确定选用的方案 • 蛋白质比对分析处理系统 www.themegallery.com

  5. Introduction • 世界上所有蛋白质的种类难以估计,一个细胞内就有上千种结构、功能、分子质量不同的蛋白质。 www.themegallery.com

  6. What is protein? Components of organisms: Enzymes (metabolism) Transport (O2, membrane …) Movements (muscles) Antibodies (immunity ) Brain … … Protections (horns, skins…) www.themegallery.com

  7. www.themegallery.com

  8. 氨基酸 • 20种基本氨基酸(一级结构) • 蛋白质的结构和功能(三级结构) • a carboxyl group(羧基) • an amino group(氨基) • side chains, or R groups www.themegallery.com

  9. www.themegallery.com

  10. 同源蛋白质 • Protein sequences can elucidate the history of life on earth • The study of molecular evolution generally focuses on families of closely related proteins. • The members of protein families are called homologous proteins or homologs. • 同源蛋白质可以在物种内也可以在物种间。 • 蛋白质之间的关系远近可以体现出物种间进化关系的远近。 • 蛋白质的氨基酸序列包含了判断这一关系所需要的全部信息,因此通过氨基酸序列比对,可以得到物种的进化树。 www.themegallery.com

  11. 蛋白质的氨基酸序列数据库(约80G) (download from uniprot) ftp://ftp.ncbi.nlm.nih.gov美国生物信息中心 www.themegallery.com

  12. Expectation • 通过比对蛋白质氨基酸序列,得到蛋白质的相似度,从而得到同源性高的蛋白质 • 最终建立蛋白质家族 www.themegallery.com

  13. 初步思路 1、输入输出: 输入:蛋白质的氨基酸序列 Key/value:蛋白质名称/氨基酸序列 输出:同源性高的蛋白质序列 2、方法:cluster www.themegallery.com

  14. 3、抽象模型: (1)坐标系的建立: ·维度:以最长的蛋白质序列的氨基酸个数作为维度数 目,张开一个空间;每个坐标轴上有20个离散刻度(分别是每个氨基酸对应的数值); ·坐标:根据氨基酸各个参数确定一个公式,以确定每个氨基酸对应的数值 ; www.themegallery.com

  15. (2)散点空间位置的确定: 根据每个蛋白质的氨基酸序列把它对应到空间上的点。 (3)两点距离公式(比对): www.themegallery.com

  16. 参考模型 www.themegallery.com

  17. Set-Similarity Join • partition the data across nodes • balance the workload • minimize the need for replication • self-join and R-S join cases • control the amount of data kept in main memoryon each node. even if we use the most fine-grained partitioning, the data • experiments on uniprot datasets • Synthetically increased in size, to evaluate the speedup and scale upproperties of the proposed algorithms using Hadoop. www.themegallery.com

  18. Clustering www.themegallery.com

  19. 结果评价 www.themegallery.com

  20. 参考文献 • Nelson, D. L., and Cox, M. M. (2005) Lehninger Principles of Biochemistry, fourth edition, Worth Publishers. www.themegallery.com

More Related