1 / 26

生物计算整体解决方案 Total Solution of Bio-Computing

生物计算整体解决方案 Total Solution of Bio-Computing. 张鑫磊 博士 生物信息部 经理 北京健数通科技有限公司. 大数据时代的生命科学产业 生命科学机构云体系 DNAdaptor 在蛋白质组学研究中的应用 天合生物计算一体机. 生物的复杂性决定了生物学大数据的必然性. Short of prior knowledge and hypothesis; even you have it, usually, you are wrong. 数据驱动的科研模式. 定义的更好的 新的假设. 多组学大数据 全景图. 试错模式.

kedem
Download Presentation

生物计算整体解决方案 Total Solution of Bio-Computing

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 生物计算整体解决方案 Total Solution of Bio-Computing 张鑫磊 博士 生物信息部 经理 北京健数通科技有限公司

  2. 大数据时代的生命科学产业 • 生命科学机构云体系 • DNAdaptor在蛋白质组学研究中的应用 • 天合生物计算一体机

  3. 生物的复杂性决定了生物学大数据的必然性 Short of prior knowledge and hypothesis; even you have it, usually, you are wrong. 数据驱动的科研模式 定义的更好的 新的假设 多组学大数据 全景图 试错模式 建立假设

  4. 由点及面:生命科学研究将面对海量的数据

  5. 从科研到医学应用—无创DNA产前检测 200,000×150bp Sequence Alignment

  6. 大数据时代的生命科学产业 • 生命科学机构云体系 • 总体架构 • 生物计算整体解决方案 • DNAdaptor在蛋白质组学研究中的应用 • 天合生物计算一体机

  7. 生命科学机构云

  8. 生物计算整体解决方案

  9. DNAdaptor

  10. 数据库系统 • 案例:病原体系统医学资源库

  11. 大数据时代的生命科学产业 • 生命科学机构云体系 • DNAdaptor在蛋白质组学研究中的应用 • 天合生物计算一体机

  12. 项目背景与客户需求 • 作为人类蛋白质组计划(HPP)的重要组成部分,国际染色体蛋白质组计划(C-HPP)于2011年由 HUPO启动。C-HPP计划旨在识别每条人类染色体上基因编码的所有蛋白质,同时获取它们相关的丰度、组织表达特异性、亚细胞定位、翻译后修饰和相互作用组等信息。C-HPP组织采用了“chromosome-by-chromosome”的研究策略,人类24条染色体和线粒体的研究任务分别由全球25个研究团队承担。C-HPP计划的实施产生了大量蛋白质组学数据。 • 如何从这些不同来源、类型和置信度的海量数据中挖掘生物学知识是亟待解决的问题。一个整合不同数据分析工具、满足科研人员订制化研究需求、且具有良好交互性的软件平台是不可或缺的。 

  13. 产品设计

  14. CAPER 2.0: An Interactive, Configurable, and Extensible Workflow-Based Platform to Analyze Data Sets from the Chromosome-centric Human Proteome Project

  15. 大数据时代的生命科学产业 • 生命科学机构云体系 • DNAdaptor在蛋白质组学研究中的应用 • 天合生物计算一体机

  16. 根据用户需求选择硬件配置

  17. Hadoop与Symphony • Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 • IBM Platform Symphony包含了兼容 Apache Hadoop 的 MapReduce 实施,针对低延迟、可靠性和资源共享进行优化。

  18. 全基因组关联分析(GWAS) 面对30亿像素的照片玩儿“找茬”游戏

  19. IBM针对GWAS应用的解决方案

  20. 基准测试硬件环境 primary server Secondary server data node data node GPFS 组件 quorum node quorum node quorum node Master Server Symphony 组件 Slave Server Data Node Data Node 主机B 主机A 主机C 主机D GPFS节点角色: Primary Server:主管理节点 Secondary Server:备份管理节点 Data Node:数据节点 Quorum node:法定节点,超半数节点失效,整个集群失效 Symphony节点角色: Master Server:主管理节点; Slave Server:从管理节点; Data node:数据节点

  21. Contrail测试结果(Symphony vs Hadoop) • 针对于大肠杆菌子数据集 (10K reads)的运行时间比较 • 作业调度程序之间的比较

  22. 生命科学机构云

  23. 谢 谢

More Related