380 likes | 558 Views
科学数据网格虚拟天文台进展. 中科院计算机网络信息中心 罗 泽 2005 年 11 月 25 日. 提纲. 中科院计算机网络信息中心介绍 项目背景 虚拟天文台工作进展. 中科院计算机网络信息中心. 中国科学院计算机网络信息中心( Computer Network Information Center , CNIC )是中国科学院下属的科研事业单位。主要从事中国科学院信息化建设、运行与支撑服务,以及计算机网络技术、数据库技术和科学工程计算的研究与开发。 中科院计算机网络信息中心是中国科学院“十五”信息化建设项目的牵头实施单位。. 主要业务.
E N D
科学数据网格虚拟天文台进展 中科院计算机网络信息中心 罗 泽 2005年11月25日
提纲 • 中科院计算机网络信息中心介绍 • 项目背景 • 虚拟天文台工作进展
中科院计算机网络信息中心 • 中国科学院计算机网络信息中心(Computer Network Information Center, CNIC)是中国科学院下属的科研事业单位。主要从事中国科学院信息化建设、运行与支撑服务,以及计算机网络技术、数据库技术和科学工程计算的研究与开发。 • 中科院计算机网络信息中心是中国科学院“十五”信息化建设项目的牵头实施单位。
主要业务 • 中国科技网的建设、运行和管理 • 中国域名注册和地址分配服务 • 网上应用开发和信息服务 • 科学数据库资源建设和应用服务 • 超级计算应用与服务 • 国家网络科普基地 • 计算机网络技术、数据库技术、大规模科学与工程计算等前沿技术的跟踪和研究 • 办公室自动化和管理信息系统的建设、运行和技术支撑服务
背景 • 虚拟天文台的建立和实现需要网格技术的支持 • 虚拟天文台的最终发展目标就是实现全球天文数据的高级共享,同时提供一整套的智能化工具。TB量级甚至PB量级大型天文数据产出项目的不断涌现,对数据存储、数据管理、数据传输、数据检索等技术提出了更高的要求。在如此海量分布式数据的基础上进行科学研究,就必须有全新的数据共享、数据互操作、作业调度、数据可视化、数据统计分析、数据挖掘、数据安全管理等工具的支持。这些需求正是网格技术,特别是数据网格技术要实现的目标。
背景 • 虚拟天文台为网格技术提供最好的试验场 • 天文数据绝大部分是开放数据。国际上许多大型天文观测项目的观测数据都会及时在互联网上公布,这为数据共享提供了良好基础。 • 天文数据很少有商业价值。这意味着相互之间不存在保密性的问题,可以将数据和结果进行自由共享,非常适合国际性的联合研究与试验。 • 天文数据是海量的数据。例如美国正计划建造的“暗物质望远镜”,每天的观测数据高达18TB。这非常适合网格环境下海量数据处理和数据挖掘算法的研究。 • 天文数据是真实而归档完好的数据,并提供在线访问服务。 • 天文数据是高度复杂的数据。海量高度复杂的数据对数据处理、数据挖掘、可视化等研究提出了挑战。
背景 • 中科院国家天文台和中科院计算机网络信息中心携手合作,共同在863重大专项“高性能计算机及其核心软件”的应用网格“科学数据网格”中承担了虚拟天文台的研究和开发工作。 • 项目2002年10月立项,2005年11月结题
工作进展 • 天文数据的整理、发布,提供统一访问 • CDS;2MASS;Hipparcos;Tycho;Other • 天文软件封装,天文处理工具 • Dss星图检索;GSC1.2星表查询;USNO星表查询;基本天文计算服务;VO服务自动封装系统;VOFilter等。 • 两个应用示例 • 银河系化学元数丰度梯度统计分析; • 2MASS巡天星表搜寻OB星协研究银河系的旋臂结构
天文数据的整理、发布 • CDS Proposed solution • CDS chose to keep the astronomical catalogues as plain ascii files, and to store the description of the catalogue as a separate ascii file. This description file includes all the necessary information related to the catalogue: author(s), reference(s) of the related published papers, brief summary, scientific keys, caption and accurate description of each table of the catalogue. • plain ascii files+ description file
天文数据的整理、发布 • plain ascii files+ description file • 不利于天文数据的使用 • 不易查询、搜索、过滤、联合等数据处理 • 解决方案:将表列数据整理到关系数据库中,利用关系数据库管理数据,利用关系数据库提供的API访问数据。 • 不利于天文应用的集成 • 没有提供一种统一的方式对数据进行处理,访问方式多样(下载,转换等),访问模式固化(执行固定的操作),不具备位置透明性,只实现简单共享。 • 解决方案:用Web服务方式封装数据库资源,通过Web服务PortType实现统一的数据访问和处理,提供高层的数据资源共享
CDS数据整理 • 由文本文件--〉关系数据库(MySql) • 根据每个Catalogue中的ReadMe进行整理转换。 • 6180 Catalogues available from CDS • 我们整理了一共5023个catalogues • Obsoletes • Binary ReadMe file Contents 参见 http://vizier.u-strasbg.fr/doc/catstd-3.1.htx
CDS数据整理 • 一、概况数据库 • 数据库CdsCatalogSummary • +-----------------------------+ • | Tables_in_CdsCatalogSummary | • +-----------------------------+ • | Summary | • +-----------------------------+ • 包含一个数据表Summary;
CDS数据整理 • Summary Schema • +-------------+--------------+------+-----+---------+-------+ • | Field | Type | Null | Key | Default | Extra | • +-------------+--------------+------+-----+---------+-------+ • | catalogPath | varchar(255) | | | | | • | content | blob | YES | | NULL | | • +-------------+--------------+------+-----+---------+-------+ • catalogPath:在CDS目录结构中Catalogue所在的目录; • Content:摘自Catalogue ReadMe中关于Catalogue的介绍
CDS数据整理 • 二、Catalogue数据库(以Catalogue /I/100A为例) • +------------------+ • | Tables_in_I_100A | • +------------------+ • | CatalogInfo | • | FileContents | • | FileTableMapping | • | w10_dat | • | w10_dat_meta | • | w25_dat | • | w25_dat_meta | • | w50_dat | • | w50_dat_meta | • +------------------+
CDS数据整理 • CatalogInfo Schema • +--------------+-------------+------+-----+---------+-------+ • | Field | Type | Null | Key | Default | Extra | • +--------------+-------------+------+-----+---------+-------+ • | catalogName | varchar(32) | | | | | • | catalogTitle | blob | YES | | NULL | | • | Description | blob | YES | | NULL | | • | fileSummary | blob | YES | | NULL | | • +--------------+-------------+------+-----+---------+-------+ • catalogName:Catalogue的名称; • catalogTitle:Catalogue的标题(来自ReadMe文件); • Description:关于Catalogue的描述(来自ReadMe文件); • fileSummary:Catalogue相关文件的总结,包括文件名称和文件简介(来自ReadMe文件)。
CDS数据整理 • FileContents Schema • +-------------+------------+------+-----+---------+-------+ • | Field | Type | Null | Key | Default | Extra | • +-------------+------------+------+-----+---------+-------+ • | fileName | blob | | | | | • | type | char(1) | YES | | NULL | | • | fileContent | mediumblob | YES | | NULL | | • +-------------+------------+------+-----+---------+-------+ • fileName:文件名称(来自ReadMe); • Type:文件类型(C表示转换为关系数据表,N表示不能转换); • fileContent:文件内容的具体描述(来自ReadMe)
CDS数据整理 • FileTableMapping Schema • +---------------+--------------+------+-----+---------+-------+ • | Field | Type | Null | Key | Default | Extra | • +---------------+--------------+------+-----+---------+-------+ • | fileName | varchar(255) | | | | | • | metaTableName | varchar(255) | YES | | NULL | | • | dataTableName | varchar(255) | YES | | NULL | | • | explanation | blob | YES | | NULL | | • +---------------+--------------+------+-----+---------+-------+ • fileName:转换为关系数据表的文件的名称; • metaTableName:对应该文件存储元数据的表名称; • dataTableName:对应该文件存储数据的表名称; • Explanation:对应该文件内容的简要解释。
CDS数据整理 • *_meta schema • +--------------+-------------+------+-----+---------+-------+ • | Field | Type | Null | Key | Default | Extra | • +--------------+-------------+------+-----+---------+-------+ • | Lable | varchar(32) | YES | | NULL | | • | Units | varchar(32) | YES | | NULL | | • | Formats | varchar(16) | YES | | NULL | | • | Bytes | varchar(16) | YES | | NULL | | • | Explanations | blob | YES | | NULL | | • +--------------+-------------+------+-----+---------+-------+ • Lable:存储数据表的字段名称; • Units:该字段的单位; • Formats:该字段的数据格式; • Bytes:该字段在数据文件中的位置; • Explanations:该字段的简要解释;
CDS数据整理 • 数据表Schema,根据元数据表,各不相同 • +-------+------------+------+-----+---------+-------+ • | Field | Type | Null | Key | Default | Extra | • +-------+------------+------+-----+---------+-------+ • | ID | varchar(5) | YES | | NULL | | • | DM | varchar(8) | YES | | NULL | | • | mag | varchar(5) | YES | | NULL | | • | RAh | char(2) | YES | | NULL | | • | RAm | char(2) | YES | | NULL | | • | RAs | varchar(6) | YES | | NULL | | • | pmRA | varchar(6) | YES | | NULL | | • | DE- | char(1) | YES | | NULL | | • | DEd | char(2) | YES | | NULL | | • | DEm | char(2) | YES | | NULL | | • | DEs | varchar(5) | YES | | NULL | | • | pmDE | varchar(6) | YES | | NULL | | • | o_RAh | char(3) | YES | | NULL | | • | o_DEd | char(3) | YES | | NULL | | • | EpRA | varchar(7) | YES | | NULL | | • | EpDE | varchar(7) | YES | | NULL | | • | cat | varchar(5) | YES | | NULL | | • +-------+------------+------+-----+---------+-------+
CDS Web Service封装 • 采用Web Service封装CDS数据资源,提供统一访问,定义以下接口: • String getDBName(String CatalogPath) • 输入参数类型:String • 输入参数CatalogPath是CDS对应Catalogue在目录结构中的位置,如:/I/108A; • 输出参数类型:String • 输出参数是该Catalogue对应的数据库的名称,当CataloguePath不存在,或CatalogPath对应的星表已过期(=Obsolete=),则返回null。
CDS Web Service封装 • String getTableName(String catalogPath, String fileName); • 输入参数catalogPath类型:String; • 输入参数catalogPath是CDS对应Catalogue在目录结构中的位置,如:/I/108A • 输入参数fileName类型:String; • 输入参数fileName是Catalogue中文件的名称 • 输出参数类型:String; • 输出参数是该catalogPath中对应文件fileName在CDS数据库中的表名称,如果文件不存在,或文件不能转换为关系表,那么返回为null。
CDS Web Service封装 • String getMetaTableName(String catalogPath, String fileName); • 输入参数catalogPath类型:String; • 输入参数catalogPath是CDS对应Catalogue在目录结构中的位置,如:/I/108A • 输入参数fileName类型:String; • 输入参数fileName是Catalogue中文件的名称 • 输出参数类型:String; • 输出参数是该catalogPath中对应文件fileName在CDS数据库中的元数据表名称,如果文件不存在,或文件不能转换为关系表,那么返回为null。
CDS Web Service封装 • String queryCDS(String strSql); • 输入参数类型:String; • 输入参数strSql是查询CDS关系数据库的sql语句; • 输出类型:String; • 输出参数是该查询返回的结果,如果无结果,返回null。
CDS发布平台建设 • 参考http://portal.sdg.ac.cn • Web服务前端(考虑用portlet实现) • 1、获得数据库名称Portlet; • 2、获得元数据表名称Portlet; • 3、获得数据表名称Portlet; • 4、查询Portlet; • 另有一页对相关的Web Service进行介绍。
CDS发布平台建设 • 其他天文数据( 2MASS;Hipparcos;Tycho;Other)的整理、服务封装和发布与CDS类似
天文软件封装,天文处理工具 • DSS星图检索工具 • 通过网格服务的方式提供数字巡天图检索,初步实现一个虚拟天文望远镜的功能,通过输入区域参数,能够检索出相应区域的星空图,与天文学家通过天文望远镜观测星空类似。天文学家可在此基础上进行进一步的科研和试验分析。 • 参考http://portal.sdg.ac.cn
天文软件封装,天文处理工具 • GSC1.2查询检索网格服务 • 结构:GSC导星目录需要提供“译码”和“查询”两个功能。因为GSC是以压缩的二进制的格式存储的天文数据,必须通过译码获得原始星表。与此同时,为了更加方便用户快速了解到具体详细的局部信息,还提供了查询功能。 • 参考http://portal.sdg.ac.cn
天文软件封装,天文处理工具 • USNO查询检索网格服务
天文软件封装,天文处理工具 • VO服务自动封装系统 • VOFilter • 基本天文计算服务 • VOTable2XHTML • China-VO注册中心 • 集成其他的VO工具,如aladin等
应用示例 • 《2MASS巡天星表搜寻OB星协研究银河系的旋臂结构》科学课题 • 基本思想 • 利用已观测到的OB星,在2MASS天文数据库中查找OB星的光谱范围,再将属于这个有效光谱范围的银河系天体可视化,通过相应的数据挖掘,其结果帮助研究银河系的旋臂结构。
应用示例 • 基本试验步骤 • 在Hipparcos和CDS天文数据库中,根据已观测到的OB星的坐标,查找它们的光谱范围; • 将光谱范围做完约束,在2MASS天文数据库中搜索OB星候选体的坐标; • 坐标变换; • 可视化OB星候选体,观察旋臂结构.
应用示例 • 需求 • 分布、异构数据资源的统一访问和集成。 因为原始数据信息一般都分布在不同的地理位置,数据的存储格式及存储管理系统各不相同; • 易用、可视化的问题求解环境,帮助科学家快速构造和修改试验流程。 在这个平台上定义通用的过程模型,支持用户在图形编辑环境下从库中选择各种有效的组件构造具体科学问题的求解模型,并自动收集执行的元数据。如此一来,天文工作者依照事先拟订好的试验步骤,协同、反复多次使用大量的分布、异构数据检索、数据计算、可视化、数据挖掘等资源,甚至可接受本地开发的程序,组合成有效的处理,进而开展天文研究工作。
应用示例 • 问题求解环境
应用示例 • 数据库
应用示例 • 演示
应用示例 • 银河系化学元素丰度梯度统计