1 / 22

大规模分布式数据的管理

大规模分布式数据的管理. 高能所计算中心 程耀东 中国 · 贵阳 2010-8-15. 主要内容. 数据管理需求. 1. 分布式数据管理技术. 2. 网格环境下的数据管理. 3. 云计算存储模式. 4. 数据快速增长. 数据量增长到底有多快?视频、音频、图片 … EMC&IDC 报告“数字宇宙十年 — 你是否准备好( 2010.5.5 )”称 2010 年数据量相当于 750 亿部 16GB 的 iPad : 摆满北京国家体育场 ( 鸟巢 )15.5 次, 伦敦温布利体育场 41 次, 台北 101 大楼 23 次,

hoang
Download Presentation

大规模分布式数据的管理

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 大规模分布式数据的管理 高能所计算中心 程耀东 中国·贵阳 2010-8-15

  2. 主要内容 数据管理需求 1 分布式数据管理技术 2 网格环境下的数据管理 3 云计算存储模式 4

  3. 数据快速增长 • 数据量增长到底有多快?视频、音频、图片… • EMC&IDC报告“数字宇宙十年—你是否准备好(2010.5.5)”称2010年数据量相当于750亿部16GB的iPad: • 摆满北京国家体育场(鸟巢)15.5次, 伦敦温布利体育场 41次, 台北101大楼23次, LHC隧道151次 • 全球每人平均拥有11台iPad • 福克斯电视台热门电视连续剧《24小时》连续播放1.25亿年 • 数据量达到1.2ZB 1MB=1024KB 1GB=1024MB 1TB=1024GB 1PB=1024TB 1EB=1024PB 1ZB=1024EB

  4. 高能物理数据量 • Hepix 2010 • 14个主要站点在线存储空间达到87PB,而2007年才14PB,增加了5倍多 • WLCG • 在线存储:62PB,近线存储:58PB • 大型实验 • LHC: 15PB/year • BES: 累积5PB 5PB光盘

  5. 数据管理需求 • 数据量大 – 存的下 • 高速访问 – 取得到 • 广域分布 – 易分享 • 长期保存 – 存的妥

  6. 数据存储技术 • 在IT界,存储技术一直很火,为什么? • 看似简单的需求,实际上要求很高 • 数据存储技术从软件到硬件都在不断发展,以满足需求 • 存储连接方式 • 单机存储(DAS) 网络存储(NAS, SAN) • 存储管理软件 • 本地存储系统 分布式网络存储系统

  7. 直接连接存储 DAS: Direct-Attached Storage 计算与存储集中 网络存储 FAS: Fabric-Attached Storage 存储与计算分离(一场革命) 存储连接方式 应用软件 应用软件 应用软件 网络 文件系统 文件系统 文件系统 FC/GbE 存储设备 存储设备 存储设备 DAS NAS SAN

  8. 存储管理软件 • 存储设备连接方式的变化,存储管理软件也随之发展 • 本地文件系统 • 管理本地的存储系统,为本地的应用服务 • 在DAS以及SAN服务器上比较常见 • 分布式网络存储管理系统 • 将分布在网络上的存储设备统一管理,为多个连接在网络上的应用服务 • NAS服务器上的网络文件系统(NFS,CIFS)以及分布式文件系统(AFS, Lustre)等 • 趋势:数据量爆炸性的增长、计算模式的集群化发展、开放标准的存储设备,导致存储系统朝着集群化、分布式的方向发展

  9. 典型的高能物理存储环境 存储网络与计算网络分离; 存储设备与存储服务器是网络分布的; 普遍采用基于磁盘-磁带的分级存储; 采用分布式存储管理软件来管理存储空间 计算集群 计算网络 存储网络 磁带服务器 磁盘服务器 存储设备连接 磁盘阵列 磁带库

  10. 分布式存储系统典型结构 元数据服务器 传输流与控制流的分离 I/O服务器集群化分布,易于实现性能和容量的双向增长 元数据服务器统一管理,提供统一存储空间 用户态 内核态 客户端 I/O服务器

  11. 存储管理的功能组件

  12. 分布式存储管理系统 • 共享Home目录 • AFS, NFS • 大型实验数据空间 • GPFS, LUSTRE, XROOTD, dCACHE, CASTOR, HPSS • 磁带迁移 • HPSS, TSM, ENSTORE, CASTOR/STAGER

  13. 困惑 • 有这么多的系统可以选择,是否值得高兴呢? • 值得高兴是肯定的,因为有系统可以用,但是同样也有不少困惑 • 困惑一:如何选择? • 可扩展性 • 客户端访问协议 • 软件是否能够长期维护? • 困惑二: • 众多的存储系统,在网格环境下如何管理? • 网格强调:局部自治,全局统一 • 因此,对于这点,不再仅仅是困惑,而是一个必须要解决的问题!

  14. SRM • 既然大家不能统一使用同一个存储系统,就只能通过标准化来解决 • CERN, FNAL, DESY, INFN等单位成立标准工作组,制定了SRM(Storage Resource Manager)接口标准 • 包括了空间管理、文件管理、数据传输、协议发现等多组函数 dCache (FNAL) 通过统一的SRM接口同各种存储系统交互; 可以在目标系统预留空间; 可以调用相应的协议传输文件 … DPM (IHEP) SRM CASTOR (CERN) LUSTRE (CNAF)

  15. WLCG网格存储管理 VO 数据管理系统 网格文件目录 大规模数据传输 文件传输服务 FTS (Tier 0) 文件传输服务 FTS(Tier 1) 通信与认证 Tier 0 Tier 1 Tier 2 SRM 接口 SRM 接口 SRM 接口 站点存储 (CASTOR) 站点存储 (dCache) 站点存储 (Lustre) 高速网络(~10Gb) 高速网络(~1Gb)

  16. 其它领域 • 以上的方案在高能物理领域应用非常广泛 • 高能物理只是大规模分布式数据应用的其中一个,还有更多的领域,比如搜索、社交网站、WEB2.0等等 • 每个领域的解决方案各有不同,但是核心都是采用分布式数据管理技术 • 随着数据量的快速增长以及计算模式的改变,Google、Yahoo等公司,推出了以GFS、HDFS等为代表云计算存储 • 试想这么一个例子: 从一个1TB的文件中统计包含“IHEP”的行,如何来做? 仅网络传输数据就需要大量时间!!

  17. Hadoop • Hadoop文件系统HDFS将文件分成若干个数据块,并将它们放置在服务器群的计算节点中MapReduce就可以在它们所在的节点上处理这些数据

  18. MapReduce简单过程 • 传统的做法 Cat input | grep IHEP | sort| uniq –c |cat > output • MapReduce Input | Map | shuffle&sort | Reduce | Output Map0 Input0 Reduce0 Input1 Map0 shuffle Out1 Reduce1 Map0 Input2

  19. 计算与存储的协同 • 以GFS、HDFS等为代表云计算存储系统在设计时普遍遵守一个前提: “移动计算比移动数据划算” • 存储系统在存储数据时把数据切成小块,任务调度器把计算任务正好调度到有数据的地方,直接在本地做计算,免去网络传输 • 计算与存储的协同统一,是一次新的变革。事物的发展总是波浪式前进、螺旋式的上升

  20. 其它特点 • 可靠性设计 • 设计时认为:”硬件故障是常态” • 存储系统有成千上百个节点组成,坏掉任何一个对系统运行没有任何影响 • 机架感知的复制策略 • 故障检测:心跳包、块报告、完整性检测 • 存储空间自动平衡 • 存储节点需要频繁更换或增加 • 新增节点或更换节点,副本会自动增加,并保证各个节点间的水位平衡 • 简单一致性模型 • 以支持“一次写入多次读取”的访问模型为主,大大简化数据一致性问题,使得高吞吐量的数据访问成为可能

  21. 小结 • 数据爆炸性增长对存储系统提出了持续的需求,网络存储以及分布式数据管理技术已成为当前的趋势 • 存在多种分布式存储系统,具有不同的功能和特点,适用于不同的应用需求,比如大数据量处理、小文件访问等 • 网格环境下,需制定统一数据访问接口以屏蔽不同存储系统异构性 • 在大规模、数据快速增长的云计算应用中,分布式存储系统呈现出计算与存储协同、存储空间自动平衡等新的特点

  22. Thank You ! chyd@ihep.ac.cn

More Related