1 / 92

数字图书馆与元数据

数字图书馆与元数据. 概念与要点. 上海图书馆系统网络中心 赵亮. 数字图书馆的定义. 从不同的概念演变而来 电子图书馆、网络图书馆、虚拟图书馆、没有围墙的图书馆、图书馆数字化等等 尚无一个全球范围公认的定义. 数字图书馆的定义. 定义一: 利用数字技术获取、存储、存取、发布信息的图书馆 定义二: 数字图书馆为国家信息基础设施提供关键性信息管理技术,同时提供其主要的信息库和资源库。换句话说,数字图书馆是国家信息基础设施的核心。. 数字图书馆的定义. 美国研究图书馆协会的定义 1、 数字图书馆并不是一个单一的实体;

jabari
Download Presentation

数字图书馆与元数据

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 数字图书馆与元数据 概念与要点 上海图书馆系统网络中心 赵亮

  2. 数字图书馆的定义 • 从不同的概念演变而来 • 电子图书馆、网络图书馆、虚拟图书馆、没有围墙的图书馆、图书馆数字化等等 • 尚无一个全球范围公认的定义

  3. 数字图书馆的定义 • 定义一: • 利用数字技术获取、存储、存取、发布信息的图书馆 • 定义二: • 数字图书馆为国家信息基础设施提供关键性信息管理技术,同时提供其主要的信息库和资源库。换句话说,数字图书馆是国家信息基础设施的核心。

  4. 数字图书馆的定义 • 美国研究图书馆协会的定义 • 1、 数字图书馆并不是一个单一的实体; • 2、 数字图书馆需要技术支持;链接许多信息资源; • 3、 多个数字图书馆及信息机构之间的链接对终端用户透明; • 4、 全球范围的对数字图书馆与信息服务的获取是一个目标; • 5、 数字图书馆的收藏不仅限于文献的替身,她还把不能以印刷形式代替和传播的人工印刷品数字化,加以收藏。

  5. Definition • The digital library is not a single entity • The digital library requires technology to link the resources of many • The linkages between the many digital libraries and information services are transparent to the end users • Universal access to digital libraries and information services is a goal • Digital library collections are not limited to document surrogates: they extend to digital artifacts that cannot be represented or distributed in printed formats (ARL, 1995)

  6. 数字图书馆的定义 • 中国数图工程规划的定义: • 是采用现代高新技术所支持的数字信息资源系统,将成为下一代互联网网上信息资源的管理模式,可从根本上改变目前网上信息分散、不便使用的现状。可以说,数字图书馆是运行在互联网上超大规模的、便于使用的、没有时空限制的知识中心。

  7. 数字图书馆的要点 • 数字化资源(多媒体) • 网络化分布化的体系结构 • 统一的透明的用户接口 • 全球化(非单一实体) • 元数据与对象管理 • 新的服务体系与模式

  8. 数字图书馆的结构 • KW结构 • 数字对象(Digital Object) • 键元数据、数字资料、调度码 • 数字对象仓库(Repositories) • 元对象(Meta Object)

  9. 读者 图书馆管员 书刊资料库 (物理馆藏) 图书馆自动化系统管理/服务模式 图书馆 自动化 系统 人工获取 书目索引等 二次文献 索引与对象间无完整性保证

  10. 读者 IBM Digital Library 数字图书馆的结构-IBM 访问入口 客户端 (ACCESS Client) 检索数据 (Search Data) 存储(STORE) 查询(SEARCH) Library Server 对象内容 (Content Objects) 光盘库或磁带库

  11. 数字图书馆的结构体系 • 国家图书馆

  12. 数字图书馆的实践 • 国际 • 数字图书馆先导计划(DLI 1、2) • 美国回忆和美国国家数字图书馆计划(NDLP) • 国内 • 中国试验型数字图书馆项目 • 中国数字图书馆工程

  13. 美国DLI计划 • 由美国科学基金会NSF、国防部高等技术开发署DARPA、美国航空航天总署NASA等单位联合资助 • DLI-1 ($24M, 1994.9~1998.9) • DLI-2 ($40M~$50M, 1999~2003)

  14. DLI1研究项目 • 环境规划与多媒体信息系统(加州大学伯克利分校) • 图象和空间参考信息综合服务的分布式数字图书馆(加州大学圣巴巴拉分校) • 集成声音、图象和语言理解技术, 创建和搜索数字视频图书馆--Informedia(卡内基·梅隆大学) • 综合性科学文献数字图书馆(伊利诺大学厄尔巴那分校) • 智能信息搜索引擎(密歇根大学) • 各类数字图书馆网络综合集成机制--InfoBus (斯坦福大学)

  15. DLI-2在规模、范围、内容和方向上的显著变化 • 受资助单位大幅度增加 • 在过去纯研究的风格外,增加了面向实际问题的研究和开发 • 除保留了传统的体系结构、信息检索、互操作主题之外,一些新的研究主题受到关注,如:信息保藏、添加声音、建立和维护数字图书馆的实际问题、与医疗有关的电子病历、医学图象等 • 与情报学的联系密切 • 地理信息核医学情报是众多项目的交汇点

  16. 美国回忆与NDLP计划 • 美国回忆(American Memory)由美国国会图书馆实施,主要内容为特色历史资源数字化。(1989-1995) • 美国国家数字图书馆项目(NDLP)是美国回忆的后续项目,目标是2000年数字化美国国会图书馆的500万件藏品。(1994-)计划总投资6000万美元。

  17. 数字图书馆的实践(国内) • 中国试验型数字图书馆项目 • 1996年倡导,1997年立项,2001年结题 • 国家图书馆、上海图书馆、南京图书馆、深圳图书馆、辽宁省图书馆、中山图书馆、桂林图书馆

  18. 数字图书馆的实践(国内) • 中国数字图书馆工程 • 一期规划(2000-2005) • 指导思想: • 统筹规划,需求牵引,科技创新,滚动发展。 • 建设原则: • 公益性为主、资源建设为核心、统一标准规范、开放建设与利益共享、开发与引进相结合

  19. 数字图书馆的实践(国内) • 中国数字图书馆工程 • 建设目标: • 在互联网上形成超大规模的、高质量的中文数字资源库群,并通过国家骨干通信网向全国及全球提供高效服务;总体技术与国际主流技术接轨。建设一批中文多媒体资源库,总容量不低于20TB;联合引进若干国内需要的国外专题资源库;实现全国大部分地区图书馆文献资源的联合采编及馆际互借;完成开发具有中国特色的数字图书馆智能应用系统;培养一批高水平的专业人才队伍,持续发展中国数字图书馆工程。 • 实施步骤: • 准备和实验阶段(2000年) • 初步实用阶段(2001-2002年) • 规模型成长阶段(2003-2005年)

  20. 内容创建 &提取 Right Managment 存储 &管理 权限 管理 ? 内容查询 &访问 内容发布 数字图书馆五大功能(IBM)

  21. 数字图书馆主要技术内容 • 馆藏资源数字化 • 海量数据的建库与维护 • 数字对象的存取和获得 • 图书馆服务的网络提供 • 版权管理

  22. 数字资源标识体系 • 文件系统 • URL • PURL • URN • DOI • 其他…...

  23. 10.1048 / 872 DOI的实例 <DIR>.<REG>/<DSS> Publisher ID assigned by DOI Agency Item ID assigned by Publisher 10.156 / catalog-96 10.1532 / PII 10.18698 / SICI

  24. DOI DOI和URN等的操作模型 用户 出版者或其他资源提供者 Handle System

  25. 基于内容的检索 • 文本 - 最成熟, 实用化 • 图象 - 通过色彩, 底纹, 形状 • 视频 - 自动侦测析出关键帧 • 音频 - 语音识别

  26. average color shape texture position Query By Image Content • Search images as human sees them color mixture Or use an image as an example --”show me more like this”

  27. Query Image Content Search Image Color Pattern This beautiful suit by Cardin is available in our new winter collection. Text Content Search Full Text “Cardin or Dior” Item #: 12345 Type: suit Price: $450 Size: L, M, S Catalog Search Catalog Type = suit Price < $450 组合检索ultisearch

  28. 多媒体信息检索—Informedia • 自动分析视频、音频、隐含的标题、场景变换和其它信息 • 其特色在于:虽然个别模式的分析只能得到不完美的信息,但是组合所有模式提供的信息却能得到非常优异的效果 • 向Informedia数字图书馆馆藏中增加新的素材 • 将视频素材分割到各主题部分中 • 通过音轨语音的识别、视频流隐含标题的识别来 标识每个部分相关的文本 • 各种自然语言处理工具产生合适的索引纪录 • 用户可以用多模式中的任何一种形式提出 查询要求 多模式信息检索体现优异的效果

  29. 文本总结 自动分类 电视台发出的或经语音识别得到的文本 关键帧检测 人脸检测和识别 电视节目的智能浏览 Excerpted from Dr, Zhnag Hongjiang’s 新一代多媒体检索

  30. 数字图书馆建设所涉及的标准 • 数字对象及存储标准(字符集、编码标准、媒体格式等) • 信息结构表达与交换标准(元数据标准) • 信息查询与显示标准(Z39.50、虚拟联合目录及馆际互借协议) • 信息安全与应用服务标准

  31. 元数据简介:什么是元数据 • 数据的数据 (Data about data) • 结构化数据 (Structured data) • 资源的信息 (Information about a resource) • 编目信息 (Cataloguing information) • 管理、控制信息(Administrative information)

  32. 元数据的种类 • 管理型元数据 • 结构型元数据 • 描述型元数据

  33. 描述性元数据的层级 描述能力 低 高

  34. 常用的描述型元数据标准(或规范) • MARC • DC • TEI • EAD • FGDC • CIMI • GILS

  35. 编码与著录 • SGML • HTML • XML • RDF • 其他方式

  36. 标记语言 • SGML (结构化、规范、复杂、描述能力强、需要DTD) • HTML (半结构化、不断变化发展、描述能力差、单一DTD) • XML (结构化、规范、简洁、描述能力强、DTD可选)

  37. 标记语言实例 HTML实例: <html> <head></head> <body> <p><b>张三</b> <br>系统网络中心 <br>上海图书馆</p> </body> </html> 结果显示: 张三 系统网络中心 上海图书馆

  38. 标记语言实例 XML实例: <?XML version=“1.0” encoding=“GB2312”?> <职工> <名字>张三</名字> <部门>系统网络中心</部门> <单位>上海图书馆</单位> </职工>

  39. 标记语言实例 更复杂的XML实例: <?xml version="1.0" encoding="GB2312"?> <将帅> <姓名>陈伯钧</姓名> <曾用名>陈国懋</曾用名> <照片><filename>523173918.jpg</filename></照片> <出世年月>1910年11月26日</出世年月> <逝世时间>1974年2月6日</逝世时间> <籍贯>四川省达县河市乡</籍贯> <职别>北京高等军事学院院长</职别> <军衔>上将</军衔> <授予时间>1955年</授予时间> <荣获奖励>1955年一级解放勋章</荣获奖励> <生平介绍>陈 伯 钧 (1910-1974) 陈伯钧,原名陈国懋,字少达。中国人民解放军高级将领。1955年被授予上将军衔,荣获一级八一勋章、一级独立自由勋章、一级解放勋章。...... </生平介绍> </将帅>

  40. SGML—MARC Example <Leader>data omitted</Leader> <Varfields> <MainEnty> <Fld100 Name type = “Single”> <a>Fosdick, Howard.</a></Fld100> </MainEnty> <Titles> <Fld245 AddEnty = “yes”><a>Computer basics for libraries and information scientists/</a> <c>Howard Fosdick; with a forward by F. Wilfrid Lancaster</c></Fld245> </Titles> </Varfields> (Adapted from “SGML and the USMARC Standard,” Technical Services Quarterly (15(3), 21ff))

  41. SGML—TEI Example Modified from TEI header created by the University of Virginia Library Cataloging Services Department: <fileDesc> <titleStmt> <title>A summary view of the rights of BritishAmerica: [a machine-readable transcription]</title> <author>Jefferson.Thomas, 1743-1826</author> </titleStmt> <extent>Approx. 44 Kilobytes</extent> <publicationStmt> <publisher>University of Virginia Library</publisher> <pubPlace>Charlottesville, Va.</pubPlace> <availability> <p>Available from: Oxford Text Archive</p> <p>URL:http://etext.lib.virginia.edu/</p> </availability> <date>1993</date> </publicationStmt> </fileDesc>

  42. rendering style sheet software formatted document XML语言的三要素 document with XML markup Server(s) DTD Client

  43. XML语言的三要素 • DTD或XML Schema • Document Type Definition • 文件类型定义 • XSL • eXtensible Stylesheet Language • 可扩展样式语言 • XLINK • eXtensible Link • 可扩展链接语言

  44. The XML Namespace (命名域) Definition Form: <Element xmlns “:optional prefix”= “actual URL”> Example namespace definition: <Element xmlns:ddc=“http://www.ddc.org/”> Meaning: When you see “ddc”, interpret it according to the explanation offered at the site http://www.ddc.org Example Use <Description xmlns:ddc=“http:// www.ddc.org/”> <ddc:Class> 025.316 </ddc:Class> </Description>

  45. 互操作性与RDF • 互操作性:由元数据语义及结构不同所引起的难题。 • 解决方法: • 根据元数据之间的对应关系(mapping)进行相互转换 • 核心元数据集 - 如Dublin Core • 支持异构的资源检索 • RDF

  46. 什么是RDF? • 资源描述框架(Resource Description Framework) • 数据描述模式而且采用基于 XML的句法 • 提供语义、结构、句法三个层次的互操作能力 • 模块化的互操作能力 • 有些数据化信息需要不同的元数据描述,RDF对集成这些元数据非常有用

  47. 什么是RDF? RDF是一个与任何特定语法无关的抽象的资源表达模式,用来反映资源(Resource)、属性(Property)与属性值(Value) 属性 property 资源 resource 属性值 value 语句 statement

  48. 什么是RDF? • 换言之… • “张三是由以下网址所标识的资源的作者:http://www.libnet.sh.cn/tsgzz/99-3/p22.htm” 作者 author http://www.libnet.sh.cn/tsgzz/ 99-3/p22.htm 张三

  49. RDF描述实例 作者 author http://www.libnet.sh.cn/tsgzz/ 99-3/p22.htm 张三 RDF基于XML的描述实例: <rdf:RDF> <rdf:Description about=”http://www.libnet.sh.cn/tsgzz/99-3/p22.htm”> <作者>张三</作者> </rdf:Description> </rdf:RDF>

  50. 基于RDF的DC描述实例 DC:Creator http://www.libnet.sh.cn/tsgzz/ 99-3/p22.htm 张三 Dublin Core基于RDF的描述: <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.0/"> <rdf:Description about=”http://www.libnet.sh.cn/tsgzz/99-3/p22.htm”> <dc:Creator>张三</dc:Creator> </rdf:Description> </rdf:RDF>

More Related