180 likes | 415 Views
国家虚拟天文台. 白皮书(技术问题). 现状. 数据中心和超级计算机中心 数据: 数十 TB => PB 超级计算中心 Intenet II 天文信息服务 ADS NED SIMBAD 数据分析软件 AIPS IRAF IDL FTOOLS SkyView. 问题. 数据归档(流水线):光学红外、射电 数据交换、相互操作 分析软件:分布式数据 数据挖掘:算法、程序、工具箱 统计研究:超级计算机 高性能网络:数据、软件与计算的互联. 数据库. 能够对地面仪器和巡天得到的高质量数据集进行存档并发表就显得尤为必要 全波段的星图与星表 完美地整合数据
E N D
国家虚拟天文台 白皮书(技术问题)
现状 • 数据中心和超级计算机中心 • 数据: 数十TB => PB • 超级计算中心 • Intenet II • 天文信息服务 • ADS NED SIMBAD • 数据分析软件 • AIPS IRAF IDL FTOOLS SkyView
问题 • 数据归档(流水线):光学红外、射电 • 数据交换、相互操作 • 分析软件:分布式数据 • 数据挖掘:算法、程序、工具箱 • 统计研究:超级计算机 • 高性能网络:数据、软件与计算的互联
数据库 能够对地面仪器和巡天得到的高质量数据集进行存档并发表就显得尤为必要 • 全波段的星图与星表 • 完美地整合数据 • 在全波段中探索天文现象 在国家中心建立存档设施 => VO的主干节点
技术挑战 • 10到20个主要的数据中心 • 无数的辅助数据库 • 各种学术团体(数以千计的科学家) • 数据集具有不同特性 • 复杂度不断增加的数据结构 • 数据的分析将变得非常复杂
大规模的数据 • 数据 • 星表:TB量级 数据:PB量级 • 数据集合的复杂性:更严峻的挑战 ! • 数据挖掘 • 上千万的天体 • 每个天体又有几十或上百个属性 • 大规模计算 • 星表的多变量相互关联 • 象素层次上的分析 现有的分析手段还不能应付大规模数据的问题!
数据访问与计算问题 • 元数据的表示与处理 • 大规模统计分析与相互关联 • 分布式并行计算技术 • 互联性:极高速的网络 • 大规模的数据集 • 用户与资源在地理上的广泛分布 其它学科 高能物理 计算基因学 全球气候研究和海洋学等
元数据标准与访问协议 • 使分布的数据库和网络服务连为一体 • 小型数据库接入 • 简便可行,以鼓励人们发表新收集的数据 • 直接的系统接口 • 对广泛分布的数据收集和计算服务,尽可能地透明
体系结构 • 特点 • 分布式系统 • 具有统一有效的数据访问和服务 • 与数据的具体位置和具体实现无关 • 组成部分 • 数据库 • 元数据标准 • 数据访问层 • 查询和计算服务 • 数据挖掘应用程序
数据挖掘程序查询和计算服务数据访问层元数据标准数据库数据挖掘程序查询和计算服务数据访问层元数据标准数据库
数据库 数据库—数据集合—数据集 元数据 • 数据库访问:Web FTP • 接入VO • 数据访问层
元数据标准 描述数据的数据 • 数据库 • 数据库提供的服务 • 数据库中的数据集合 • 每个数据集合的结构和语义 • 数据集合中每个数据集的结构和语义 VO各组成部分的自动化协同工作 需要设计一套元数据标准
数据访问层 提供了访问所有数据和服务的统一接口 • 最底层是一个标准协议 • 实现此协议的基准级软件 • 数据库和计算服务的服务器端软件 • 可编写API
特点 • 位置透明性 • 存储透明性 • 标准数据模型、数据模型转换 • 服务器端函数 • 用户自定义函数 • 数据集复制
查询和计算服务 • 基本查询服务 • 多重星表融合(相互关联) • 大规模相互关联 • 大规模并行计算问题 • 对原始数据进行象素水平的分析 • 万亿次超级计算机
数据挖掘应用程序 大规模多变量数据集的可视化与统计分析 • 天文数据分析软件 • 升级为“国家虚拟天文台式”的软件 • 使用本地数据和远程数据 • 应用程序所需要的接口和工具箱 • 初步的数据挖掘应用程序 基金项目:多学科的数据挖掘研究
信息系统研究 • 技术突破 • 存储技术 • 信息管理 • 数据处理 • 分布和并行计算 • 高速网络 • 数据可视化 • 数据挖掘 • 标准的开发 • 元数据处理、数据处理、分布式计算 • 多学科研究 • 天文学家、数学家、计算机与软件专家 • 新一代Internet的应用
向教育和公共领域的延展 非常适合教育领域和先进的科学普及 • 免费地从因特网上获得数据 • 公众对天文学有着浓厚的兴趣 • 前所未有的社会和地理范围 中心作用和催化作用 在天文学和计算机应用科学之间架起了一座桥梁=> 经济与社会 (SETI@home )