1 / 33

DC 元数据进展

DC 元数据进展. 刘炜. 上图 DL 活动. 1997 年启动古籍数字化 1999 年大规模数字化( 7 个资源库) 2000 年 IBM DL v.2.4 内容管理 数字图书馆及元数据跟踪研究 数字化 - 资源整合 - 服务整合 2004-? 上海年华 /Library Anywhere. 关于 DC. DC 是都柏林核心元数据( Dublin Core Metadata )的简称 由 OCLC 于 1994 年开始倡导并提供经费支持 是目前最具影响的元数据形式,已成为或正在成为 ISO/IEC 、 CEN 、 NISO 等国际、国家的正式标准

odessa
Download Presentation

DC 元数据进展

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DC元数据进展 刘炜

  2. 上图DL活动 • 1997年启动古籍数字化 • 1999年大规模数字化(7个资源库) • 2000年IBM DL v.2.4内容管理 • 数字图书馆及元数据跟踪研究 • 数字化-资源整合-服务整合 • 2004-? 上海年华/Library Anywhere

  3. 关于DC • DC是都柏林核心元数据(Dublin Core Metadata)的简称 • 由OCLC于1994年开始倡导并提供经费支持 • 是目前最具影响的元数据形式,已成为或正在成为ISO/IEC、CEN、NISO等国际、国家的正式标准 • 其维护机构为DCMI(Dublin Core Metadata Initiative)

  4. Dublin Core Factoids • 9 workshops in 7 countries on 4 continents • 1000 attendees • 30 languages • 7 governments • Museums, libraries, government agencies, supra-national agencies, commerce, e-publishing, archives…. • Cross disciplinary discovery of information resources using the Internet From: Stuart Weibel presentation on DC2002

  5. OCLC Board of Trustees Advisory Board Directorate Usage Board Working Groups Interest Groups DCMI的组成和运作 • DCMI是致力于DC推广应用和标准化的组织 • DCMI的组成: 有关应用方案、文档的批准、发布 自由动议 制定Charter、年度计划,有方案、报告、固定的人员和资助

  6. Board of Trustees Executive Director Directorate Managing Director Advisory Board Usage Board WGs WGs WGs Standards Development Infrastructure DCMI Subscribers DCMI Activity Areas User Support and Education Liaison 6 DCMI Organizational Structure From: Stuart Weibel presentation on DC2002

  7. Branding • The three ‘I’s • International focus and reach国际化 • Independent initiative独立运动 • Influenceable (openness)持续的影响力 From: Makx Dekkers presentation on DC2002

  8. Audience change • Initially: a group of inspired pioneers, eager to participate and contribute • Now: a large group of people who want to know ‘How-to-do-it’, ‘How to integrate in business processes’ • Needs: • Timely, stable and dependable documents and specifications • Community support From: Makx Dekkers’ presentation on DC2002

  9. 进展 • Application Profile的使用规范 • Abstract Model的提出 • Metadata Registry

  10. DC Metadata Abstract ModelDC元数据抽象模型 • 为什么要有这个抽象模型? • 什么是DC元数据抽象模型? • DC元数据抽象模型包含哪些内容? • 如何应用该抽象模型?

  11. Why • 明确了一些长期争论或容易模糊的概念: • 数据模型:DC描述的对象:资源Resource; • 描述的结构及资源、属性、值的关系; • 信息模型:DC描述的基本单位:一条描述Description • DC限定的约束等 • (在一套概念术语的基础之上)提供一个抽象的数据模型(概念的坐标参照系),以便在不同的元数据方案(如果都采用或宣称采用基于DC的方案或者AP)之间获得共同的理解; • 独立于特定的编码语法,约束和补充置标方案的不足; • 深入理解编码对象的属性,实现元素的映射、翻译和转换,从而实现元数据方案的共享和重用; • 在语义层实现元数据应用系统(数字图书馆)的互操作

  12. DC元数据的描述对象:资源 的抽象模型 • 每个资源(resource)具有零个或多个属性(properties); • 每个属性(property)具有一个或多个值(values); • 每个值(value) 本身是一个资源(resource)(即:用来描述资源,与属性相关的物理或概念实体。); • 每个资源(resource)可以是一个或多个类(classes)中的成员;(注:作为属性值的资源所在的类(class)常被称为编码体系词表(vocabulary encoding scheme)); • 每个属性(property)和类(class)均具有其被声明的语义; • 每个类(class)通过限定(子类)关系与一个或多个其它类相关(当两个类共享部分语义(semantics)时,所有属于子类(sub-class)的资源(resource)同时也是另一个相关类(class)的成员; • 每个属性只能与一个其它属性通过限定关系(子属性)相关(当两种属性共享部分语义时,子属性的的有效值也就是相关属性的有效值)。

  13. DC元数据描述的抽象模型 • 一个条描述(description)是由一个或多个陈述(statements)(该陈述仅与一个且唯一一个资源有关),以及零个或一个资源的URI组成(URI用来标识所描述的资源); • 每个陈述由一个属性URI(这里的URI用于标识一个属性),零个或一个值URI(这里的URI用于标识属性的值),零个或一个编码体系URI(这里的URI标识值的类),零个或多个值的表述(representations)组成; • 每个属性都是被描述资源的一项特性; • 每个属性URI可以在多个陈述中重复; • 值的表述(value representation)可以是字串值(value string)、复合值(rich value)或相关描述(related description)等形式; • 每个字串值都是一个简单的、人类可读的字符串,用以表示属性的值; • 每个字串值可以有相应的编码体系URI( encoding scheme URI),用来标识一个语法编码体系; • 每个字串值可以有相应的字串语种(value string language),它是一个ISO语种标记(例如,en-GB); • 每个复合值(rich value)是一些标记文本、图像、视频、音频等,或者它们的组合,表示作为属性值的资源; • 每条相关资源描述都是一个用来描述属性值的资源。

  14. DC元数据描述的抽象模型 • 一条“相关描述”描述一个相关的资源,因此并非是“描述”的一部分,例如,当一个人是所描述资源的创建者时,一条相关描述可以提供关于这个“人”的元数据。 • 在某些语境(Context)中,语法编码体系也可以认为是某种“数据类型” • 在DCMI元数据描述中,所描述资源的类通常由DC类型(DC Type)属性的值来描述。

  15. “记录”与“值” • 一条DCMI元数据记录是一条或多条描述的集合,这些描述是关于一个或多个相关资源的,这些资源根据某个DCMI置标指南实例化(这些置标指南有:XHTML meta tags, XML, RDF/XML, 等等) • 一个DCMI元数据值是物理的或者概念的实体,当描述一个资源时,这个实体就成为该资源的属性。

  16. 简单DC和限定DC • 简单DC记录: • 遵从抽象模型 • 仅由一条描述组成 • 仅使用DC元数据元素集[DCMES]中的15个属性 • 不使用URI值,编码体系,复合值或相关描述 • 限定DC记录: • 遵从DCMI抽象模型 • 至少包含一个来自于DCMI元数据术语推荐表[DCTERMS]中的属性

  17. 向上兼容(Dump Down)原则 • 并且在任何情况下,向上兼容算法都应该: • 忽略任何相关描述和复合值 • 忽略任何编码体系URI

  18. 如何应用 • 应用于元数据方案的制定 • 抽象模型提供了应用纲要的基础 • 建立资源模型 • 确立资源对象 • 选取元素 • 确定置标方案 • 确定记录组织形式和相互关系

  19. Metadata Application Profile元数据应用纲要 • 什么是元数据应用纲要? • 为什么要提出元数据应用纲要? • 元数据应用纲要的具体内容是什么? • 除了DCMI,还有哪些元数据标准维护机构支持元数据应用纲要? • 如何应用元数据应用纲要?

  20. 来源 • 作为一种元数据方案(metadata schema)的形式被引入; • 对于应用不同元数据标准的内容和方法进行一定程度的规范; • 思想来自于Warwick Framework:不同元素可以集成在一个包中描述一个资源;

  21. 为什么要用AP • 元数据方案重用 • 标准化 • 互操作 • 简便易行

  22. 内容 • 欧洲标准见:CEN CWA14855 • 定义所要描述的资源属性,并采用ER分析方法明确所要描述的资源对象; • 声明元素语义及可能存在相互关系、相关规则等,这些元素可以来自多个不同的元数据标准规范(不同命名域); • 声明元素限定或修饰。元素的语义可以根据所引用的元数据标准规范进行某种程度的限定,但是不能扩大或交叉; • 可以规定元素的编码规则; • 可以规定元素的值的约束; • 可以规定其他约束:是否必选、可重复、取值范围、数据类型等等 • 如果需要增加“新”的元素,必须自己建立命名域并维护这些新的元素组成的元数据方案; • 编码规则(制定置标方案)(机读); • 编写有关应用文档(人读) 参见:http://www.ariadne.ac.uk/issue25/app-profiles/ http://www.cultivate-int.org/issue3/schemas/

  23. 为什么要用命名域 • 推荐采用具有命名域的元数据规范有如下考虑,命名域提供了一种机制,能够: • 标识元数据元素的管理机构,具有一定的权威性(某种意义上的权威控制); • 支持元素的原有语义定义; • 保证元素概念的“唯一性” 以及与相关概念的关系。

  24. 制定AP的过程 各有不同,但共性如下: • 根据资源类型和系统开发需要,定义元数据及数据元素需求 • 选择现有的最合适的元数据标准规范(元数据元素集) • 复用标准的元素,根据目标系统的需要赋予特定的语义(仅缩小语义,不扩大、改变),制订著录规则并考虑应用规范词表 • 扩展元素/限定并进行定义,赋予本地的命名域进行管理

  25. 支持抽象模型的元数据机构 • DCMI • DC-Lib • DC-Ed • MARC • DOI • IEEE/LOM

  26. AP的问题 • 不同元数据元素的一致性问题; • 元数据标准更新的同步问题; • 编码体系等修饰词的维护、更新问题; • 应用纲要的标准化问题 • 完全的形式化是否有可能?

  27. 元数据注册体系 • 什么是元数据注册系统? • 为什么要注册? • 目前有哪些注册系统? • DC注册系统的现状和功能 • 相关标准:ISO11179

  28. 什么是元数据注册系统 • 元数据注册系统(又叫登记系统,Metadata Registry MR )是对元数据的定义信息、置标方案、转换规则、著录规则、应用指南等规范进行发布登记管理和检索的系统; • 支持Internet环境中元数据规范的发现、识别、调用以及在此基础上的元数据转换挖掘和复用

  29. 需要注册系统的原因 • 提供开放的管理机制 • 元数据方案重用 • 标准化 • 支持Semantic Web Service架构 • DC注册系统的具体需求: • 规范词典; • 提供元数据模式Schema; • 提供各类元数据标准的映射方案; • 提供元数据方案的翻译

  30. 目前的注册系统 • DCMI Open Metadata Registry • ROADS Metadata Registry • DESIRE Metadata Registry • GERMAN METADATA REGISTRY • CSDL 元数据登记政策与登记系统(建设中) • UDDI

  31. 注册系统当前发展简评 • 人工系统为主 • 人工登录 • “以人为本”的功能设定(查询/浏览); • 静态服务为主,通常涉及元素和方案两个层次,对命名域中的元素进行一定的分类,具有对元素、置标方案和各类其它文档的浏览、查询和链接功能; • 元素与各类元数据应用相关文档登记,供一定范围内(例如课题组或一个系统)的重用和参考

  32. 历届DC会议 • 1 1995 Dublin, Ohio, USA OCLC (The very beginning:12elements) • 2 1996 Warwick, UK UKOLN (Warwick Framework:15elements) • 3 1996 Dublin, Ohio, USA OCLC • 4 1997 Canberra, Australia National Library of Australia (Qualifiers) • 5 1997 Helsinki, Finland National Library of Finland (Finish Simp.DC) • 6 1998 Washington DC, USA Library of Congress (Dumb-down) • 7 1999 Frankfurt, Germany Die Deutsche Bibliothek (DCMI Sustainability) • 8 2000 Ottawa, Canada National Library of Canada (Application Posters and Demos) • 9 2001 Tokyo, Japan National Institute of Informatics (DC2001: 1st Intl. Conf. of DC) • 10 2002 Florence, Italy Biblioteca Nazionale Centrale Firenze • 11 2003 Seattle, Washington, USA Washington Univ. • 12 2004 Shanghai, China, Shanghai Library

  33. DC2004 • Oct.11-14 (Monday-Thurday), 2004 • 100 foreign specialists, 150 domestic attendees • 10 Full Papers, 23 Short Papers • Keynotes: Prof. Zhang Xiaolin, Eric Miller, ?Sumir Meghani (From Yahoo!) • 8:30-10:00 Tutorial • 10:30-12:00 Plenary Session • Afternoon: Paper Session/Workshop/Special Session • Pre-conference and Post sessions

More Related