400 likes | 508 Views
政府信息公开中数据著录的元数据描述方法. 报告人:章旭 苏州图书馆 2008.10. 目录. 一、相关背景 二、政府信息公开的资源分析 三、政府信息公开元数据结构 四、政府信息公开元数据的描述实例 五、元数据的 XML 表达形式 六、问题和想法. 目录. 一、相关背景 二、政府信息公开的资源分析 三、政府信息公开元数据结构 四、政府信息公开元数据的描述实例 五、元数据的 XML 表达形式 六、 问题和想法. 1. 政府信息公开现状. (1)政府信息公开情况 2008年5月1日《中华人民共和国政府信息公开条例》开始施行
E N D
政府信息公开中数据著录的元数据描述方法 报告人:章旭 苏州图书馆 2008.10
目录 • 一、相关背景 • 二、政府信息公开的资源分析 • 三、政府信息公开元数据结构 • 四、政府信息公开元数据的描述实例 • 五、元数据的XML表达形式 • 六、问题和想法
目录 • 一、相关背景 • 二、政府信息公开的资源分析 • 三、政府信息公开元数据结构 • 四、政府信息公开元数据的描述实例 • 五、元数据的XML表达形式 • 六、问题和想法
1. 政府信息公开现状 • (1)政府信息公开情况 • 2008年5月1日《中华人民共和国政府信息公开条例》开始施行 • 涉及各个领域,信息数量庞大,文献类型复杂 • 政府拥有了全社会80%的信息资源。 • 上海:从2004年5月至2007年底,政府主动公开的信息大概接近26万条 • 市民和各方面的企业申请公开的信息3.5万条左右 • 2007年通过上海政府网站查阅政府信息的人次接近1.9亿。
政府信息公开现状(续) • (2)政府信息公开形式 • 政府信息公开包括主动公开和申请公开的信息 • 主动公开的信息主要采用网上公开 • 建立在电子政务基础上的 • 信息著录及描述规范 • 制定了公开信息目录著录规范 • 对信息本身的加工整理、描述、排序等未作具体要求。 • 只有目录关联的电子文档 • 结果 • 没有一个信息共享的体系标准和规范 • 形成信息孤岛现象。 • 不易查找 • 交互性差
政府信息公开现状(续) • (3)图书馆和政府信息公开 • 公共图书馆是公众获取政府信息的“公共接入点” • 公共图书馆增加了一个非常重要的信息来源。 • 政府信息公开工作是公共图书馆的重要工作内容 • 公共图书馆政府信息公开服务的主要任务 • 科学组织、加工整理、深度揭示 • 介入政府信息公开资源的描述、整理、排序、分类、聚类等工作 • 完善图书馆所提供的政府信息公开服务 • 制订一套合理的、规范化的元数据描述方法 • 形成一个分布的、交互性强的信息系统
2.政府信息公开的规范标准状况 • (1)国外两种主要的政府信息元数据标准 • a . GILS(Government Information Locator Service,政府信息定位服务) • 20世纪90年代由美国联邦政府提出并实施 • 一种支持公众搜寻、获取和使用政府公开信息资源的分布式信息资源及利用体系。 • 一种信息检索系统 • 一种元数据格式:28个核心栏目 • 一种服务形式 • 描述和辨别政府信息资源,并提供获得该资源方式的系统 • 利用元数据概念和技术 • 分布式结构 • 以Z39.50为信息检索和交换标准 • 跨平台实现数据交换和共享 • 美国、俄罗斯、日本等国广泛应用
2.政府信息公开的规范标准状况(续) • b . DC-Government(都柏林核心政府元数据) • DC_GOV WG(DCMI Government Working Group,DCMI政府工作组) ;MIReG(Managing Information Resources for e_Government)工作组 • 2001年9月17日 发布了专门针对政府信息资源管理的应用纲要DC –Government Application Profile • 以DC为基础,复用DC元数据集的15个核心元素;一个DC-GOV新元素Audience(受众);并增加5个DC元素限制属性 • 澳大利亚的AGLS、英国的e-GMF、加拿大的TBITS39.1以及新西兰、丹麦、爱尔兰等国家 • GILS与DC-Government • GILS在专业元素设置、应用实施成熟度方面占优势 • DC-Government在可扩展性、互操作性、资源发现及共建共享方面占优势 • DC-Government占据未来政府信息资源描述领域的主流地位
2.政府信息公开的规范标准状况(续) • (2) 国内对政府信息元数据标准研究 • 我国已制定了一些元数据标准 • 电子图书、论文、网络资源、音频资料、古籍、家谱等等 • 电子文件元数据规范 • 江西等九省区各级国家档案馆、各级党政机关、社会团体、企事业单位 • 王芳;我国电子政务元数据的构建及其基于Web服务的共享实现 • 我国政府信息资源元数据核心集CGIMC建议方案 • 探索性地将我国政府信息资源的元数据核心元素定义为五大类共23个 • 张承伟;政府信息资源元数据的描述方法 • 13个元数据项,10个与DC相对应
2.政府信息公开的规范标准状况(续) • 制定一套适合于我国的政府信息公开的元数据方案 • 国外的元数据标准不能完全适应我国国情 • GILS,DC-Government等都是适应广泛需求的标准体系 • 受到各国政府的基础建设、资源状况、社会需求甚至是政治、文化、经济等各个方面的影响 • 本土化 • 国内没有一套成熟的政府信息的元数据标准 • 尝试制定一套政府信息公开的元数据标准 • 以DC为基础 • 借鉴国内外政府信息元数据的描述规范 • 参照国内一些成熟的元数据标准
目录 • 一、相关背景 • 二、政府信息公开的资源分析 • 三、政府信息公开元数据结构 • 四、政府信息公开元数据的描述实例 • 五、元数据的XML表达形式 • 六、问题和想法
1. 政府信息公开定义 • 政府信息公开需同时符合三个条件 • 一是由政府机关掌握的信息 • 二是与经济、社会管理和公共服务相关的信息 • 三是由特定载体所反映的内容 • 载体:纸质、胶卷、磁带、磁盘以及其他电子存储材料等 • 政府信息公开是政府机关依照法定程序,以法定形式在各自职责范围内公开与社会成员利益相关的政府信息的具体内容 。 • 公众通过查询、阅览、复制、摘录、收听、观看、下载等形式进行充分利用。
2.资源分析 • 政府信息来源: • 国家机关、各个部门,在立法、司法、行政、纪检监察和面向公共服务的过程中产生、收集、整理、储存、利用和传播的各种信息。 • 涵盖行政程序、会议活动及文件资料等多个方面 • 内容: • 业务职责、政策法规、规章制度与规范性文件、政府机构职能、人员配置、办公程序、执法依据等信息。 • 形式: • 文字、图表、音像、计算机文件等资料信息
资源分析(续) • 以多种形式划分政府信息 • 内容所涉及的领域 • 政治信息、军事信息、科技信息、经济信息、文化信息等 • 信源 • 可分为内生信息和外生信息 • 信息流通方式和传递范围 • 政府信息可分为公开信息、内部信息和保密信息 • 信息种类 • 政府信息可分为政策法规信息、行业管理信息、统计信息和日常事务信息等。 • 综上所述,在本方案中将政府信息公开分为:命令、决议、指示、通知、报告、批复、函、会议纪要、说明书、协议书、鉴定书、任务书、判决书、国书、照会等资源类型。
3.资源的著录单位(信息源单元) • 独立存在并使用的信息资源单元 • 如一条命令、一个决议、一份通知、一份会议纪要等等。 • 对于一些单独存在,但有可能是来自或转发于另一份信息的部分或全部内容,本方案中将提供与该相关信息单元的连接机制,揭示这些信息单元之间的包含、从属、相关等关系。
目录 • 一、相关背景 • 二、政府信息公开的资源分析 • 三、政府信息公开元数据结构 • 四、政府信息公开元数据的描述实例 • 五、元数据的XML表达形式 • 六、问题和想法
政府信息公开元数据结构 • 我国政府信息公开资源具有异构性、海量和分布式存储等特点。 • 一套完整的资源元数据描述体系可以较好地解决异构数据资源的交换与共享,并提供更加灵活的检索查询方法。 • 本元数据方案以Dublin Core核心元数据集为基础,复用DC的15个核心元数据,并根据政府信息公开的特点扩展相应的元素,制定针对应用于多种形式和资源类型的政府信息公开的元数据方案。 • 政府信息公开元数据由18个元素组成 • 15个DC核心元素、3个政府信息公开核心元素 • 必备元素:题名、创建者、索引号、日期、资源类型 • 所有元素的数据类型均为字符串
政府信息公开元数据结构(续) • (1)题名,政府信息公开的正式标题或主要标题 • 必备,不可重复 • 有两个元素修饰词:①并列题名;②副题名及说明题名文字 • (2)创建者,创建政府信息的主要责任的实体,主要是指政府信息的发文机构 • 必备,可重复 • (3)主题,描述政府信息公开的受控或非受控的词汇 • 主题词以我国《国务院公文主题词表》及各部委制定的行业专门主题词表为依据 • 可重复 • 有一个元素修饰词:目录分类 • (4)其它责任者,对创建政府信息负次要责任的实体 • 可重复
政府信息公开元数据结构(续) • (5)说明 ,政府信息公开资源的文本描述,包括资源的摘要与文摘,资源内容的列表,资源的注释等 • 可重复 • 有两个元素修饰词:①摘要;②目录 • (6)出版者,使政府信息资源成为可以获得和利用的实体 • 可重复 • (7)日期,政府信息公开形成、发布、修改的时间 • 一般采用 YYYY-MM-DD的表达方式 • 必备,不可重复 • 有三个元素修饰词:①生成日期;②发布日期;③修改日期 • (8)语种,政府信息公开的正文语种描述 • 可重复
政府信息公开元数据结构(续) • (9)覆盖范围,政府信息公开所涉及或覆盖的时间空间范围 • 可重复 • 有两个元素修饰词:①时间范围;②空间范围 • (10)标识符,在特定的范围内赋于政府信息公开的一个唯一标识 • 不可重复 • (11)资源类型,资源内容的特征和类型 • 命令、决议、指示、通知、报告、批复、函、会议纪要、说明书、协议书、鉴定书、任务书、判决书、国书、照会等。 • 可用两级表示法:第一级为“政府信息公开”,第二级为上述的类型名,中间用“.”分隔 • 必备,可重复。 • (12)权限,有关政府信息公开资源本身所有的或被赋予的权限信息 • 可重复
政府信息公开元数据结构(续) • (13)格式,资源的形式和尺寸 • 包括政府信息公开文件的电子文件类别、数据格式、存储介质、文件大小等 • 可重复 • 有五个元素修饰词: • ①电子文件类别,包括:文本文件(T),图像文件(I),图形文件(G ),影像文件(V),声音文件(A),超媒体链接文件(O),多媒体文件(M),程序文件(P),数据文件(D) • ②数据格式,包括:XML、DOC、PDF、TXT、TIFF、JPEG、JPEG-2000、SVG、AVI、WAV、MP3、MPEG-2、MPEG-4、DBF、DWF、DWG • ③存储介质,包括:CD-R、DVD+R、DVD-R、Hard disk、Tape • ④文件(指文件大小) • ⑤页码 • (14)来源,政府信息来源的参照 • 可重复
政府信息公开元数据结构(续) • (15)关联资源,与其他政府信息资源的关联 • 可重复 • 有七个元素修饰词:①被替代;②替代;③组成;④部分为;⑤被参照;⑥参照;⑦遵循 • (16)索引号,根据政府信息公开的管理和利用的需要而赋予政府信息公开的一组编号 • 索引号由地区及部门编号、类别号、年度号、流水号等四个部分构成,每个部分之间用“-”隔开 • 必备,不可重复 • (17)文件编号,文件制发过程中由制发机关、团体所赋予文件的顺序号 • 可重复 • (18)附件,政府信息公开文件正文后的附加内容 • 可重复 • 有两个元素修饰词:①附件名称;②附件标识符
目录 • 一、相关背景 • 二、政府信息公开的资源分析 • 三、政府信息公开元数据结构 • 四、政府信息公开元数据的描述实例 • 五、元数据的XML表达形式 • 六、问题和想法
现以苏州政府颁发的文件《市政府办公室关于认真做好政府信息公开有关工作的通知》为例说明政府信息公开资源的描述方法:现以苏州政府颁发的文件《市政府办公室关于认真做好政府信息公开有关工作的通知》为例说明政府信息公开资源的描述方法: • 题名:市政府办公室关于认真做好政府信息公开有关工作的通知 • 创建者:苏州市人民政府办公室 • 主题:政务公开、政府信息、通知 • 目录分类:政府文件 • 索引号:EA100-C1000-2008-005 • 文件编号:苏府办[2008]59号 • 摘要:《通知》要求各地、各部门、各单位对拟以市政府或市政府办公室名义印发、转发、批转的文件需在文稿上注明是否“公开”字样;公开的要编写“内容概述”。 • 出版者:苏州市人民政府 • 生成日期:2008-04-15 • 发布日期:2008-04-17 • 语种:汉语 • 时间范围:2008-04-15起 • 空间范围:苏州市 • 标识符:http://221.224.13.103/news/2/2008/4/17/zx-14-51-523645.doc • 资源类型:政府信息公开.通知 • 电子文件类别:文本文件(T) • 数据格式:DOC • 页码:2 • 权限:苏州市人民政府
目录 • 一、相关背景 • 二、政府信息公开的资源分析 • 三、政府信息公开元数据结构 • 四、政府信息公开元数据的描述实例 • 五、元数据的XML表达形式 • 六、问题和想法
元数据的XML表达形式 • XML(eXtensible Markup Language):一种嵌入于数据中以表明其结构的标记语言 • 使数据通过网络无障碍地进行传输,并显示在用户的浏览器上 • XML提供了可以对内容进行管理的语义描述机制 • XML简洁、灵活,适应各行各业的不同需求 • 提高了应用程序的互操作性 • 1999年,XML/RDF正式成为W3C推荐的网络资源元数据描述标准 • 我们可以采用XML来描述政府信息公开资源元数据
<?xml version="1.0" encoding="GB2312"?> • <dc> • <title>市政府办公室关于认真做好政府信息公开有关工作的通知</title> • <creator>苏州市人民政府办公室</creator> • < subject >政务公开</ subject > • < subject >政府信息</ subject > • < subject >通知</ subject > • < subject ><class >政府文件</ class></ subject > • <index> EA100-C1000-2008-005</ index > • < recordnum >苏府办[2008]59号</ recordnum > • <description >< summary >《通知》要求各地、各部门、各单位对拟以市政府或市政府办公室名义印发、转发、批转的文件需在文稿上注明是否“公开”字样;公开的要编写“内容概述”。</summary ></description > • < publisher >苏州市人民政府</ publisher > • < date >< createdate >2008-04-15</ createdate ></date > • < date >< publishdate >2008-04-17</ publishdate ></ date > • <language>汉语</language> • < coverage >< temporal >2008-04-15起</ temporal ></ coverage > • < coverage >< spatial >苏州市</ spatial ></ coverage > • <identifier> http://221.224.13.103/news/2/2008/4/17/zx-14-51-523645.doc </identifier> • <type>政府信息公开.通知</type> • <format>< elecrecords_type >文本文件(T)</ elecrecords_type ></format> • <format>< data_format > DOC </ data_format ></format> • <format>< page_number > 2 </ page_number ></format> • <identifier>7-01-003471-0</identifier> • <right>苏州市人民政府</right> • </dc>
目录 • 一、相关背景 • 二、政府信息公开的资源分析 • 三、政府信息公开元数据结构 • 四、政府信息公开元数据的描述实例 • 五、元数据的XML表达形式 • 六、问题和想法
问题和想法 • 1.政府信息公开资源的元数据描述 • 5个必备元素,其它为可选元素 • 只有尽可能地对资源进行全面描述,才能发挥元数据的作用 • 有利于建立资源间的关联 • 有助于对信息的发现, • 提高政府信息查找的灵活性和准确性。 • 2.需要一套完整的元数据提取技术 • 根据语法、语义等的规则对信息进行抽取和分类的技术 • 从主题、应用等多个角度对政府信息公开资源进行管理、识别、定位、发现、评估与选择 • TRS政府信息公开目录服务系统解决方案 • 3.需要选择合适的应用平台 • 支持XML格式数据管理(创建、存储和检索) • 方便资源管理(信息分类 、组织) • 快速查找、定位信息
结束语 • 本政府信息公开资源描述元数据方案的制定是为了更好地完善图书馆所提供的政府信息公开服务。 • 鉴于政府信息公开的数量大、内容复杂,及自身技术水平的限制,难免有不够周全之处,因此本元数据方案还需要在实际中不断完善,使其更加合理、规范。
结束! 谢谢各位领导和专家!