610 likes | 834 Views
数字图书馆 元数据标准体系建设. 刘 炜 上海图书馆系统网络中心. 讨论的主题. 数字图书馆建设的标准规范体系 数字图书馆资源组织规范 —— 元数据标准体系 有关知识本体 ontology 的研究 上图建设数字图书馆的一些想法. 数字图书馆技术标准体系 — 信息流法 ( 肖珑法 ). DL 建设流程. 资源转换. 资源管理. 资源检索. 资源加工. 资源存储. 资源发布. 资源创建. 资源描述. 资源组织. 资源存取. 数据编码. 元数据标引. 对象管理. 网络协议. UNICODE GBK …. DC MARC FGDC
E N D
数字图书馆元数据标准体系建设 刘 炜 上海图书馆系统网络中心
讨论的主题 • 数字图书馆建设的标准规范体系 • 数字图书馆资源组织规范——元数据标准体系 • 有关知识本体ontology的研究 • 上图建设数字图书馆的一些想法
数字图书馆技术标准体系—信息流法(肖珑法) DL建设流程 资源转换 资源管理 资源检索 资源加工 资源存储 资源发布 资源创建 资源描述 资源组织 资源存取 数据编码 元数据标引 对象管理 网络协议 UNICODE GBK … DC MARC FGDC EAD TEI … CORBA DCOM SOAP … TCP/IP HTTPMIME ILL … DL标准体系 开放链接 对象标识 置标encoding 互操作协议 DOI URN PURL … XML/RDF HTML … SFX … Z39.50/SDLIP OAI … 文件格式 系统/通信平台 检索协议 JPG MPG GIF PNG MP3 PDF … 操作系统 数据库 通信 安全… STARTS …
数字图书馆技术标准体系—生命周期法(张晓林法)数字图书馆技术标准体系—生命周期法(张晓林法) • 关于数字内容创建的标准规范:内容编码;数据格式;内容标识; • 数字对象描述(元数据)的标准规范:元数据应用原则;标准选择;内容主体描述语言选择; • 资源组织体系描述的标准规范:对资源集合的描述;对资源组织机制的描述;对资源管理机制的描述;资源组织建设的过程、原则、方法及相应的标准规范进行描述;对资源组织的描述数据的要求; • 关于数字资源系统服务的标准规范:接入条件;检索条件;数据应用条件;分布数字对象机制; • 关于数字资源长期保护的标准规范
技术类型分类(经过补充的林宁法) • 字符编码 • 多媒体信息编码 • 数据元素 • 描述语言 • 电子图书 • 数据格式 • 影像压缩 • 操作系统 • 安全规范 • 程序语言 • 网络协议 • 数据库 • 界面与人机交互
技术应用分类(真溱、黄奇法) • 信息采集与编码标准Capture and Encoding • 信息组织与存档标准Organizing and Archiving • 资源标识标准 Resource identification standards • 资源描述标准 Resource description standards • 记录管理标准 Records management standards • 信息检索与服务标准Retrieval and Services • 互操作标准 Interoperability standards • 信息权益管理Rights Management • 信息安全标准System Security • 信息评价标准Measure Metrix
采用标准的问题 • 标准太多了!都是我要关心的吗? • 不要发明轮子,但要用好轮子; • 不是标准的标准; • 标准的适用性问题; • 标准有生命周期; • 大胆探索实践。
标准规范类型分类 • 标准Standard • 规范Specification • 指南Guideline • 体系架构System Framework • 应用方案Application Profile • 典型案例Best Practice
标准规范的作用 • 异构系统的互操作性,信息资源的共享便利; • 技术、方案、代码、组件的重用; • 数据独立于软件和系统; • 系统升级、迁移方便; • 有利于数据的“永久”保存。
重要的相关标准规范 • XML家族 • 元数据及DC • 多媒体文件格式 • 通信协议 • 面向对象技术 • 中间件
DL建设必须/常用的标准 • 数字化的各项标准; • 多媒体数据格式、字符编码标准 • 信息组织(内容管理)标准; • 各类置标方案XML/RDF/DTD/XML Schema; • 各类元数据方案; • 各类知识规范体系:叙词表、分类表、知识本体等; • 信息系统设计方面的标准:数据库、网络通信、信息安全等
数字图书馆“核心”标准 • 知识(资源)的表达、组织方面的标准 • W3C • 大公司
Document Content XML Structure DTD, XML Schema Presentation HTML, CSS, XSL SGML/XML实现了内容与表现形式的分离 好处:易扩展、跨平台、适宜永久保存。 资料来源:台湾陳昭珍?
元数据体系研究 • 元数据标准:传统的理解 • 元数据体系: • 从数字图书馆体系结构角度设计元数据方案 • 元数据方案作为一个完整的体系 • 数字图书馆的宏观微观结构 • 知识本体与元数据方案的关系
元数据的一般概念 • 元数据:关于数据的(结构化)数据 • 作用: • 资源发现与书目控制(resources discovery) • 认证(authentication) • 数据连接与交换 • 互操作(interoperability) • 内容组织与管理(data management) • 版权管理与访问控制(rights management) • 存取管理与数字化保存(digital preservation) • 内容分级(content rating services)
系统需求分析 现有标准 可用? 进行限定 可用? 混合标准 可用? 扩展元素 可用? N N N N 自行研制方案 Y Y Y Y 形成元数据 应用规范 定义置标方式 制定著录方法 标引/置标 装载入库/提供检索 元数据方案的应用流程
元数据的作用 • 摘要Summary • 查找Finding • 建议Advisement • 选择Selection • 检索Retrieval • 限制Restriction • 解析Interpretation • 规范Specifications • 追溯History • 数据管理Data administration • 数据链接Data linkages or relationships • 数据结构Data structure 摘自Carl Lagoze等人的论文
描述性元数据的分类 描述能力 低 高
各类元数据标准和协议 • 元数据的存在形态 • 人能理解但机器难以理解(卡片目录) • 机器能理解而人不容易理解(MARC) • 人与机器或机器之间都易于理解(SGML/XML) • 元数据根据标准而结构化 • MARC, EAD, CIMI, TEI …. • Dublin Core • XML, RDF • 元数据按照某种协议被应用 • Z39.50, whois++, LDAP
元数据相关技术 • 元数据语义与结构 • 属性元素与值: DC\MICI\FGDC\ GILS\AAT\LCSH • 结构:RDF • 元数据语法 • SGML\XML\HTML • 元数据查询 • OAI\Z39.50 • 元数据显示 • Style Sheet
国外元数据方案 • 根据不同领域的数据特点和应用需要,90年代以来出现了许多Metadata格式和方案: • 网络资源:Dublin Core、IAFA Template、CDF、Web Collections、PICS • 文献资料:MARC(with 856 Field),Dublic Core • 人文科学:TEI Header • 社会科学数据集:ICPSR SGML Codebook • 博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core • 政府信息:GILS、AGILS • 地理空间信息:FGDC/CSDGM • 数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images • 档案库与资源集合:EAD • 技术报告:RFC 1807 • 视频图像:MPEG-7
国内元数据方案 • 国家试验型数字图书馆项目初期提出元数据方案:以DC为基础加以扩展; • 国家图书馆正在制定的元数据方案:基于OAIS参考模型; • 国家地理信息元数据方案(参考FGDC?); • 北京大学古籍/拓片元数据方案; • 清华大学中国建筑数字图书馆元数据方案。
目前元数据方案的缺陷 • 不具有普遍适用性。特殊性与一般性的矛盾与生俱来,无法克服; • 难以实现元数据方案本身的进化,数据元素定义的含糊、矛盾无法克服; • 难以对不同知识体系、不同“粒度”的资源进行描述,以及实现语义联系; • 缺乏对数字资源的整个生命周期的描述; • 缺乏对版权属性的描述机制; • 缺乏灵活性和可扩展性,增加了互操作的难度; • 停留于信息集成,无法满足数字图书馆服务集成的需要
从数字图书馆体系结构角度看元数据 • 元数据体系决定数字图书馆的结构,定义了数字图书馆中数字对象: • 如何表示? • 如何关联? • 如何使用? • 元数据体系主要解决两个问题: • 定义数字图书馆中数字对象的信息结构 • 定义由数字对象构成的资源库的组织结构
资源创建者 创建 数据 包含 数字对象 由句柄(调度)系统创建 句柄/调度码 包含在 仓储 被存取 句柄注册于 句柄服务器 RAP(仓储存取协议) 数字图书馆微观结构:KWF
数字图书馆门户 用户访问网关服务 名字服务 馆藏服务 句柄 索引服务 数字资源对象 资源库服务 数字图书馆宏观结构 资料来源:Sandra Payette “Computing Methods for Digital Libraries”, April 20, 2000”
Repository Data Provider OAI Verb Service Provider Data Provider Data Provider Data Provider Data Provider Request Repository Record Repository User Response OAI的体系结构 资料来源:台湾陳昭珍?
DOI Internet Internet Handle System OAI Service Provider (即聯合目錄) 知識工作者 OAI content Provider 版本更新 自動註冊 資料簡目 資料詳目 調閱全文或 多媒體物件 典藏單位 OAI Repository 典藏單位 OAI Repository 台湾數位典藏聯合目錄 建置方案OAI and handle system 架構圖 (陳昭珍)
元数据层次体系 • 系统级system level • 资源库级collection level • 资源级resource level (object) • 次资源级element level (object)
元数据 元数据 信息内容 元数据 作品与对象 元数据 作品与对象集合 元数据 作品/对象及其集合的管理和服务机制 元数据 信息服务过程和服务系统模式 描述上述信息内容的规则、方法和机制 元数据层次体系 引自张晓林《开放元数据机制》
知识表示的层次 • 基于元数据的(Meta-data based) • DC, RDF, MARC, …… • 基于表层特征的(Superficial-feature based) • 向量空间模型,词频,tf*idf • 基于深层特征的(Deep-feature based) • 知网及相关工作 • 基于语义模版的(Semantic-template based) • 信息提取和消息理解 • 基于本体论的(Ontology based) • CYC工程 引自白硕《信息资源与知识体系结构》
元数据体系设计 • 资源对象的描述方案; • 管理元数据方案; • 元数据置标方案; • 资源集合元数据方案; • 元数据体系映射方案; • 资源的著录方案; • 技术实现方案。
Ontology(知识本体)的应用 • 从元数据体系方案上升到知识本体; • 知识本体:领域知识的规范的抽象和描述,表达、共享、重用知识的方法; • 与数字图书馆元数据方案体系的关系;
知识本体在数字图书馆中的应用 • 提供描述型元数据有关语义描述的知识地图; • 提供资源库领域知识的规范描述; • 提供元数据映射方案,集成到数字图书馆体系中的元数据服务中,成为协议的一部分; • 提供智能代理与信息环境之间基于语义的理解机制; • 跨平台、跨系统之间的通信中介; • 分布环境下查询请求的语义理解、自动分发; • 提供CSCW(计算机支持的协同工作); • 用于数字图书馆中的数据挖掘。
本体论描述 • 基于资源对象生命周期的“事件敏感性(event-awareness)”本体论描述; • 提供所有元数据方案映射的方法论基础; • 各元数据方案的本体论层次: • 概念Conception • 表达Expression • 显现Manifestation • 物化Materialization Digitalization • 实例Instance
知识本体框架中元数据元素的关系图示 图片来自 IFLA “Functional Requirement for Bibliographic Records” http://www.ifla.org/VII/s13/frbr/frbr.pdf
上图数字图书馆元数据方案设计 • 解决元数据模型问题:确立DL的元数据方案(元数据模型),包括核心元素和置标方案; • 解决元数据映射问题:支持各主要资源描述型元数据方案的相互映射,包括予以映射和结构映射; • 元数据模型的实现:满足资源描述、存储、互操作、检索、分布式知识发现等各相关构件或模块对元数据模型提出的功能需求。
实现一定的元数据服务 • 系统对于元数据的功能需求通过元数据服务实现; • 元数据服务内容包括: • 元数据模型代理:提供资源的元数据语义; • 元数据模型转换/映射; • 向搜索代理提供元数据表达工具; • 本地元数据库(可以是动态cache)
上图元数据方案(规划) • 本地资源描述 • DC为核心元数据,适当扩展 • XML/RDF置标,XML存储 • 与资源对象的连接:URL连接/DOI解析 • 站点描述 • 以本体论(ontology)方法提供站点组织依据,拓展无环有向图方式; • 通过各类元数据方案的语义映射和结构映射,提供异构站点互操作能力; • 提供对于站点的Mediator/Wrapper方案
元数据映射的考虑 • 动态映射/静态自动抽取转换建库; • 支持目前实用的大多数主流资源描述元数据方案:MARC/DC/OAIMS/GILS等; • 进一步支持Z39.50bib-1/OAI
工作计划 • 完善元数据置标方案; • 实现对特定类型资源的元数据自动抽取; • 以本体论(ontology)方法提供站点组织依据,拓展目前的无环有向图方案; • 通过各类元数据方案的语义映射和结构映射,提供异构站点互操作能力; • 构建测试平台; • 关注METS和MODS的应用进展。 • 关注语义网络的技术动向,了解MOF/XMI元数据建模方案;
元数据体系总结 • 元数据为分布的、由多种数字化资源有机构成的信息体系(数字图书馆)提供整合的工具与纽带,与体系结构、互操作、存储、检索、查询处理、发布等密切相关,不能割裂; • 元数据方案应该具有灵活性、扩展性、可操作性,并尽可能避免多义性; • 构件化的、独立的元数据服务必须能够满足数字图书馆中其他构件或模块对元数据所提出的功能需求,该构件中封装的站点元数据模型、元数据映射模型等应该基于标准,而逐步使元数据服务成为数字图书馆中的标准构件; • 对数字图书馆的宏观微观结构的认识的统一使得对元数据描述体系的认识也逐步在走向统一和简化。Warwick框架允许在统一的数据描述格式之下包容各种不同的具体数据表现形式,而RDF的出现是应用推广更为容易,前景更加明朗。 • 元数据互操作问题的彻底解决,必须依赖于高层互操作协议的标准化和广泛应用,因此应该关注W3C倡导的语义网络的元数据解决方案,应用将最终决定技术;
上图数字图书馆实践 • 为什么要建设数字图书馆(Vision) • 怎样建设数字图书馆(Mission) • 建设怎样的数字图书馆(Goals)
为什么要建设数字图书馆 图书馆信息环境发生了根本的变化 • 馆藏的变化; • 馆藏揭示体系的变化; • 服务业务模式的变化。
怎样建设数字图书馆 • 资源整合 • 统一查询 • 个性化定制 • 内容管理 • 技术研发 • 全文检索 • 基于多媒体的内容检索 • …… • 数字化 • 数据库建设 • 数字资源发展规划 • 网站建设 • 网上读书 • 网上服务 • 门户建设
怎样建设数字图书馆 国外三个热点问题: • 数字资源的永久保存; • 数字参考服务(虚拟参考服务); • 资源整合
怎样建设数字图书馆 • 建立标准体系指南/手册; • 定期培训,开办workshop; • 开展元数据体系以及有关知识本体研究; • 基于开放方案,建立参考模型或示范工程; • 成立协会或联盟,促进技术应用,以非营利为目的。