220 likes | 435 Views
大规模分布式数据的管理. 高能所计算中心 程耀东 中国 · 贵阳 2010-8-15. 主要内容. 数据管理需求. 1. 分布式数据管理技术. 2. 网格环境下的数据管理. 3. 云计算存储模式. 4. 数据快速增长. 数据量增长到底有多快?视频、音频、图片 … EMC&IDC 报告“数字宇宙十年 — 你是否准备好( 2010.5.5 )”称 2010 年数据量相当于 750 亿部 16GB 的 iPad : 摆满北京国家体育场 ( 鸟巢 )15.5 次, 伦敦温布利体育场 41 次, 台北 101 大楼 23 次,
E N D
大规模分布式数据的管理 高能所计算中心 程耀东 中国·贵阳 2010-8-15
主要内容 数据管理需求 1 分布式数据管理技术 2 网格环境下的数据管理 3 云计算存储模式 4
数据快速增长 • 数据量增长到底有多快?视频、音频、图片… • EMC&IDC报告“数字宇宙十年—你是否准备好(2010.5.5)”称2010年数据量相当于750亿部16GB的iPad: • 摆满北京国家体育场(鸟巢)15.5次, 伦敦温布利体育场 41次, 台北101大楼23次, LHC隧道151次 • 全球每人平均拥有11台iPad • 福克斯电视台热门电视连续剧《24小时》连续播放1.25亿年 • 数据量达到1.2ZB 1MB=1024KB 1GB=1024MB 1TB=1024GB 1PB=1024TB 1EB=1024PB 1ZB=1024EB
高能物理数据量 • Hepix 2010 • 14个主要站点在线存储空间达到87PB,而2007年才14PB,增加了5倍多 • WLCG • 在线存储:62PB,近线存储:58PB • 大型实验 • LHC: 15PB/year • BES: 累积5PB 5PB光盘
数据管理需求 • 数据量大 – 存的下 • 高速访问 – 取得到 • 广域分布 – 易分享 • 长期保存 – 存的妥
数据存储技术 • 在IT界,存储技术一直很火,为什么? • 看似简单的需求,实际上要求很高 • 数据存储技术从软件到硬件都在不断发展,以满足需求 • 存储连接方式 • 单机存储(DAS) 网络存储(NAS, SAN) • 存储管理软件 • 本地存储系统 分布式网络存储系统
直接连接存储 DAS: Direct-Attached Storage 计算与存储集中 网络存储 FAS: Fabric-Attached Storage 存储与计算分离(一场革命) 存储连接方式 应用软件 应用软件 应用软件 网络 文件系统 文件系统 文件系统 FC/GbE 存储设备 存储设备 存储设备 DAS NAS SAN
存储管理软件 • 存储设备连接方式的变化,存储管理软件也随之发展 • 本地文件系统 • 管理本地的存储系统,为本地的应用服务 • 在DAS以及SAN服务器上比较常见 • 分布式网络存储管理系统 • 将分布在网络上的存储设备统一管理,为多个连接在网络上的应用服务 • NAS服务器上的网络文件系统(NFS,CIFS)以及分布式文件系统(AFS, Lustre)等 • 趋势:数据量爆炸性的增长、计算模式的集群化发展、开放标准的存储设备,导致存储系统朝着集群化、分布式的方向发展
典型的高能物理存储环境 存储网络与计算网络分离; 存储设备与存储服务器是网络分布的; 普遍采用基于磁盘-磁带的分级存储; 采用分布式存储管理软件来管理存储空间 计算集群 计算网络 存储网络 磁带服务器 磁盘服务器 存储设备连接 磁盘阵列 磁带库
分布式存储系统典型结构 元数据服务器 传输流与控制流的分离 I/O服务器集群化分布,易于实现性能和容量的双向增长 元数据服务器统一管理,提供统一存储空间 用户态 内核态 客户端 I/O服务器
分布式存储管理系统 • 共享Home目录 • AFS, NFS • 大型实验数据空间 • GPFS, LUSTRE, XROOTD, dCACHE, CASTOR, HPSS • 磁带迁移 • HPSS, TSM, ENSTORE, CASTOR/STAGER
困惑 • 有这么多的系统可以选择,是否值得高兴呢? • 值得高兴是肯定的,因为有系统可以用,但是同样也有不少困惑 • 困惑一:如何选择? • 可扩展性 • 客户端访问协议 • 软件是否能够长期维护? • 困惑二: • 众多的存储系统,在网格环境下如何管理? • 网格强调:局部自治,全局统一 • 因此,对于这点,不再仅仅是困惑,而是一个必须要解决的问题!
SRM • 既然大家不能统一使用同一个存储系统,就只能通过标准化来解决 • CERN, FNAL, DESY, INFN等单位成立标准工作组,制定了SRM(Storage Resource Manager)接口标准 • 包括了空间管理、文件管理、数据传输、协议发现等多组函数 dCache (FNAL) 通过统一的SRM接口同各种存储系统交互; 可以在目标系统预留空间; 可以调用相应的协议传输文件 … DPM (IHEP) SRM CASTOR (CERN) LUSTRE (CNAF)
WLCG网格存储管理 VO 数据管理系统 网格文件目录 大规模数据传输 文件传输服务 FTS (Tier 0) 文件传输服务 FTS(Tier 1) 通信与认证 Tier 0 Tier 1 Tier 2 SRM 接口 SRM 接口 SRM 接口 站点存储 (CASTOR) 站点存储 (dCache) 站点存储 (Lustre) 高速网络(~10Gb) 高速网络(~1Gb)
其它领域 • 以上的方案在高能物理领域应用非常广泛 • 高能物理只是大规模分布式数据应用的其中一个,还有更多的领域,比如搜索、社交网站、WEB2.0等等 • 每个领域的解决方案各有不同,但是核心都是采用分布式数据管理技术 • 随着数据量的快速增长以及计算模式的改变,Google、Yahoo等公司,推出了以GFS、HDFS等为代表云计算存储 • 试想这么一个例子: 从一个1TB的文件中统计包含“IHEP”的行,如何来做? 仅网络传输数据就需要大量时间!!
Hadoop • Hadoop文件系统HDFS将文件分成若干个数据块,并将它们放置在服务器群的计算节点中MapReduce就可以在它们所在的节点上处理这些数据
MapReduce简单过程 • 传统的做法 Cat input | grep IHEP | sort| uniq –c |cat > output • MapReduce Input | Map | shuffle&sort | Reduce | Output Map0 Input0 Reduce0 Input1 Map0 shuffle Out1 Reduce1 Map0 Input2
计算与存储的协同 • 以GFS、HDFS等为代表云计算存储系统在设计时普遍遵守一个前提: “移动计算比移动数据划算” • 存储系统在存储数据时把数据切成小块,任务调度器把计算任务正好调度到有数据的地方,直接在本地做计算,免去网络传输 • 计算与存储的协同统一,是一次新的变革。事物的发展总是波浪式前进、螺旋式的上升
其它特点 • 可靠性设计 • 设计时认为:”硬件故障是常态” • 存储系统有成千上百个节点组成,坏掉任何一个对系统运行没有任何影响 • 机架感知的复制策略 • 故障检测:心跳包、块报告、完整性检测 • 存储空间自动平衡 • 存储节点需要频繁更换或增加 • 新增节点或更换节点,副本会自动增加,并保证各个节点间的水位平衡 • 简单一致性模型 • 以支持“一次写入多次读取”的访问模型为主,大大简化数据一致性问题,使得高吞吐量的数据访问成为可能
小结 • 数据爆炸性增长对存储系统提出了持续的需求,网络存储以及分布式数据管理技术已成为当前的趋势 • 存在多种分布式存储系统,具有不同的功能和特点,适用于不同的应用需求,比如大数据量处理、小文件访问等 • 网格环境下,需制定统一数据访问接口以屏蔽不同存储系统异构性 • 在大规模、数据快速增长的云计算应用中,分布式存储系统呈现出计算与存储协同、存储空间自动平衡等新的特点
Thank You ! chyd@ihep.ac.cn