1 / 98

数字图书馆中的知识组织

数字图书馆中的知识组织. 刘炜 wliu @libnet.sh.cn. . 数字图书馆的定义. 美国研究图书馆协会的定义 1、 数字图书馆并不是一个单一的实体; 2、 数字图书馆需要技术支持;链接许多信息资源; 3、 多个数字图书馆及信息机构之间的链接对终端用户透明; 4、 全球范围的对数字图书馆与信息服务的获取是一个目标; 5、 数字图书馆的收藏不仅限于文献的替身,她还把不能以印刷形式代替和传播的人工印刷品数字化,加以收藏 。. 数字图书馆的定义. 中国数图工程规划的定义:

orli
Download Presentation

数字图书馆中的知识组织

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 数字图书馆中的知识组织 刘炜 wliu@libnet.sh.cn

  2. 数字图书馆的定义 • 美国研究图书馆协会的定义 • 1、 数字图书馆并不是一个单一的实体; • 2、 数字图书馆需要技术支持;链接许多信息资源; • 3、 多个数字图书馆及信息机构之间的链接对终端用户透明; • 4、 全球范围的对数字图书馆与信息服务的获取是一个目标; • 5、 数字图书馆的收藏不仅限于文献的替身,她还把不能以印刷形式代替和传播的人工印刷品数字化,加以收藏。

  3. 数字图书馆的定义 • 中国数图工程规划的定义: • 是采用现代高新技术所支持的数字信息资源系统,将成为下一代互联网网上信息资源的管理模式,可从根本上改变目前网上信息分散、不便使用的现状。可以说,数字图书馆是运行在互联网上超大规模的、便于使用的、没有时空限制的知识中心。

  4. 其它定义 • 数字化图书馆就是图书馆在线服务系统; • 数字图书馆就是以数字形式存贮和处理信息的图书馆; • 数字图书馆是指图书馆所有的工作流程都基于计算机,而且馆藏资源都实现数字化; • 所谓“数字图书馆”就是图书馆馆藏实现数字化管理,并上网服务,供读者随时随地查阅; • 数字图书馆是指通过多种技术将各种文献数字化,并将其组织起来在网上提供信息服务的信息中心或数据库; • 数字化图书馆实际就是人们所说的电子图书馆、虚拟图书馆、无墙图书馆,不同的称谓只是人们从不同的角度描述数字化图书馆的特征;

  5. 什么是数字图书馆? • 未来因特网上信息资源(知识)的组织形式。 • 数字形式 • 载体无关 • 网络提供

  6. 数字图书馆的定义 • 数字图书馆是对以数字化形式存在的信息进行收集、整理、保存、发布和利用的实体,其形式可以是具体的社会机构或组织,也可以是虚拟的网站或者任何数字信息资源集合。 • 在计算机界也通常指与此相关的非常广泛的技术研究领域。 • 数字图书馆的内容特征是数字化信息,结构特征是不论其资源组织或用户利用都可以通过网络进行分布式的管理和存取,并具有个性化、人性化和动态化特征。 • 随着计算机和网络技术的研究和发展,数字图书馆正在从基于信息的处理和简单的人机界面逐步向基于知识的处理和广泛的机器之间的理解发展,从而使人们能够利用计算机和网络更大范围地拓展智力活动的能力,在所有需要交流、传播、存储和利用知识的领域,包括电子商务、教育、远程医疗等,发挥极其重要的作用

  7. DL信息/知识组织的实现方法 • 对资源内容的处理:知识组织(信息的结构化,用于先控) • 对用户使用习惯/知识背景(user profile)的处理(相关反馈,修正用户配置) • 对提问的处理(交互修正,提问分发,规范后控) • 对检索结果的处理(剔重、排序等,根据查询结果对于用户的重要性)

  8. 数字图书馆的产生背景 • INTERNET的发展(信息传播方式的改变) • 各国NII的提出及GII的实施 • 数字化技术的发展 • 知识交流模式的变化 • 知识挖掘等技术的进步 • 知识交流界面的人性化

  9. 对图书馆事业发展产生重大影响的变化主要有三个方面:对图书馆事业发展产生重大影响的变化主要有三个方面: • 1.信息资源数字化 • 2.信息传送网络化 • 3.信息服务产业化 数字图书馆时代的文献保障从强调“拥有”转变为强调“检索”,通过提高文献信息的可获知能力与可获得能力,以提高信息保障能力

  10. 出版商 批发商 零售商 文摘机构 联机提供商 图书馆 用户 经典知识交流模式

  11. Digital LibrariesShorten the Chain from Author Editor Reviewer Publisher A&I Consolidator Library Reader

  12. DLs Shorten the Chain to Roles Digital Library Author Teacher User Reader Editor Learner Reviewer Librarian

  13. 数字图书馆三要素 • 数字化资源 • 直接获取原文而不是线索(二次文献) • 多媒体资源 • 网络化存取 • 消除时空限制的网络查询 • 分布式管理 • 实现“联邦检索”,网络资源无限

  14. 多媒体的基本概念 • 多媒体定义 • 指能够同时获取、处理、编辑、存储和展示两个以上不同类型信息媒体的技术。 • 多媒体技术 • 计算机综合处理多种媒体信息,文本、图形、图像、音频和视频,使多种信息建立逻辑连接,集成为一个系统并具有交互性。 • 多媒体类型: • 文本、图形、图像、音频、视频、三维建模(虚拟现实)等等

  15. 数字图书馆特点 • 直接满足任何信息需求(原始文献、多媒体); • 超文本、全交互性,创造信息需求; • 支持面向对象的、分布式的数据组织结构; • 支持基于知识内容的检索; • 同样内容可以多种媒体提供。

  16. 数字图书馆的要点 • 数字化资源(多媒体) • 网络化分布化的体系结构 • 统一的透明的用户接口 • 全球化(非单一实体) • 元数据与对象管理 • 新的服务体系与模式

  17. 业务范围 传统图书馆 电子图书馆 馆藏发展与管理 选择书刊加入馆藏 典藏 书架维护 装订与保护 选择适于电子转换的资料加入馆藏 版本控制 系统维护 采访 了解需求 资料具体采购 资料送达划到 费用支付 了解需求 用EDI方式定购电子资料 数字化转换 版权管理 电子支付(EFT) 编目 手工编目 自动编目 标引 人工标引 自动标引 目录 卡片目录 OPAC 虚拟联合目录 借阅 预约 流通 催还 定题服务 自动设定(个人化)服务 网上传递 分布式查询及交换资料 馆际互借 自动参考馆员 联机帮助 自动知识导航 读者服务 参考馆员 导引系统 统计分析 业务活动对比

  18. 数字图书馆的实践(国内) • 中国数字图书馆工程 • 建设目标: • 在互联网上形成超大规模的、高质量的中文数字资源库群,并通过国家骨干通信网向全国及全球提供高效服务;总体技术与国际主流技术接轨。建设一批中文多媒体资源库,总容量不低于20TB;联合引进若干国内需要的国外专题资源库;实现全国大部分地区图书馆文献资源的联合采编及馆际互借;完成开发具有中国特色的数字图书馆智能应用系统;培养一批高水平的专业人才队伍,持续发展中国数字图书馆工程。 • 实施步骤: • 准备和实验阶段(2000年) • 初步实用阶段(2001-2002年) • 规模型成长阶段(2003-2005年)

  19. 美国回忆与NDLP计划 • 美国回忆(American Memory)由美国国会图书馆实施,主要内容为特色历史资源数字化。(1989-1995) • 美国国家数字图书馆项目(NDLP)是美国回忆的后续项目,目标是2000年数字化美国国会图书馆的500万件藏品。(1994-)计划总投资6000万美元。

  20. DLI1研究项目 • 加州大学伯克利分校——环境电子图书馆:可升级的、智能化和分布式电子图书馆的原型 • 加州大学圣巴巴拉分校——亚历山大项目:图象和空间参考信息综合服务的分布式数字图书馆的初步探索 • 卡内基﹒梅隆大学(Carnegie Mellon University) ——信息媒体:集成声音、图象和语言理解技术创建和探索数字视频图书馆 • 伊利诺大学厄尔巴那分校——构建互联空间:为大学工程学科建立数字图书馆的基本架构 • 密歇根大学——智能信息搜索 • 斯坦福大学——斯坦福综合电子图书馆

  21. DLI2研究重点 • 以人为中心的研究 • 以内容和收藏为中心的研究 • 以系统为中心的研究

  22. DLI2研究项目 • 专家选择利用信息的轨迹研究及其利用 • 图象传输中的安全研究 • WWW上自动化参考“图书馆员” • 为人文科学服务的实验图书馆 • 棉质藏品的2D/3D重建 • 高性能的数字图书馆分类系统:从信息搜寻到知识管理

  23. 大不列颠图书馆 建设数字图书馆的主要任务 • 促进各类书目、联合目录的利用,对现有馆藏的揭示提供详尽信息,改善馆藏存取; • 促进数字化馆藏资源建设和利用; • 注重创新各种数字化资源的服务模式; • 制订规划进行馆藏资源的数字化建设; • 促成呈缴本制度的改革,使之包括数字化出版物; • 在管理、用户服务、部门协作、员工技能等各方面均得到提高。

  24. 国内情况 • 中国试验型数字图书馆 • 中国国家数字图书馆工程 • 辽宁省馆的数字图书馆计划 • 中山图书馆的数字图书馆解决方案 • 上海交通大学的电子图书馆计划 • 清华大学期刊全文库 • 中信所计划 • 重庆分所计划(维普公司)

  25. 逐步走向数字图书馆 • 走向电子图书馆: 馆藏建设中传统媒体与数字化媒体的关系问题; • 走向网上图书馆: 传统图书馆业务与服务的网络化问题; • 走向虚拟图书馆: 广域网环境下的多馆资源共知共建共享问题; • 走向数字图书馆: 特色馆藏资源的数字化及网上提供(联邦检索)问题

  26. 数字图书馆组成 • 一定规模并从内容或主题上相对独立的数字化资源; • 可用于广域网(目前主要是INTERNET)服务的网络设备和通信条件; • 一整套符合标准规范的数字图书馆赖以运作的软件系统,主要分信息的获取与创建、存储与管理、访问与查询、动态发布以及权限管理5大模块,类似于目前的图书馆集成管理系统对于传统图书馆所起的作用; • 数字图书馆的维护管理和用户服务。如果缺少了这一项,数字图书馆就是一个死的图书馆了.

  27. 数字图书馆的基本结构 不论计算机技术怎样发展,网络结构多么复杂,图书馆信息服务的基本模型始终如一,这就是“信息源—图书馆—读者”构成的三角架构,图书馆充当一个知识整理的中间人的角色。计算机与网络的出现使图书馆的信息服务能够更为全面、及时、准确、高效,数字图书馆技术在各个环节上加固了这种模型,使信息社会中图书馆得到的作用和效益发挥到极限。

  28. 读者 图书馆管员 书刊资料库 (物理馆藏) 图书馆自动化系统管理/服务模式 图书馆 自动化 系统 人工获取 书目索引等 二次文献 索引与对象间无完整性保证

  29. 读者 IBM Digital Library 数字图书馆的结构-IBM 访问入口 客户端 (ACCESS Client) 检索数据 (Search Data) 存储(STORE) 查询(SEARCH) Library Server 对象内容 (Content Objects) 光盘库或磁带库

  30. 数字图书馆的三角结构 图书馆服务器的作用是负责管理目录数据的索引和查询,对象服务器负责管理数字化数据,是信息源,可以由图书馆设立,也可以由任何社会信息部门设立。它们与读者构成三角形架构。读者通过广域网或图书馆内部的局域网(电子阅览室)发出查询请求,经Web服务器处理后传递给图书馆服务器(类似于查询目录卡片),图书馆服务器将查询结果通知对象服务器并有对象服务器取出最终结果送达读者,这就实现了数字图书馆对象数据的发布。

  31. 数字图书馆的结构 • KW结构 • 数字对象(Digital Object) • 键元数据、数字资料、调度码 • 数字对象仓库(Repositories) • 元对象(Meta Object)

  32. 数字图书馆的结构体系 • 国家图书馆

  33. 数字图书馆主要技术内容 • 馆藏资源数字化 • 海量数据的建库与维护 • 数字对象的存取和获得 • 图书馆服务的网络提供 • 版权管理

  34. 内容创建 &提取 Right Managment 存储 &管理 权限 管理 ? 内容查询 &访问 内容发布 数字图书馆五大功能(IBM)

  35. 元数据 • 描述元数据 • 管理元数据 • 保存元数据 • …… • MARC • Dublin Core • TEI • EAD • ……

  36. 数字资源标识体系 • 文件系统 • URL • PURL • URN • DOI • 其他…...

  37. 10.1048 / 872 DOI的实例 <DIR>.<REG>/<DSS> Publisher ID assigned by DOI Agency Item ID assigned by Publisher 10.156 / catalog-96 10.1532 / PII 10.18698 / SICI

  38. DOI DOI和URN等的操作模型 用户 出版者或其他资源提供者 Handle System

  39. 基于内容的检索 • 文本 - 最成熟, 实用化 • 图象 - 通过色彩, 底纹, 形状 • 视频 - 自动侦测析出关键帧 • 音频 - 语音识别

  40. 图象内容查询 "Show me more like this" Shape Color Mixture Average Color Texture Position Image Query . http://wwwqbic.almaden.ibm.com

  41. 图象内容查询 QBIC(tm) - Query By Image Content

  42. 综合查询 Multi-Search 这套高级的皮尔 卡丹 西服刚在本店上柜 Combined catalog, text and image search 图象内容查询 图象 色彩 图案 全文查询 全文 "卡丹或蒂娥" 货号: 12345 种类:西服 价格: $450 尺寸:L, M, S 目录/参量查询 种类 = 西服 价格 < $500 目录/参量

  43. 多媒体信息检索— Informedia • 自动分析视频、音频、隐含的标题、场景变换和其它信息 • 其特色在于:虽然个别模式的分析只能得到不完美的信息,但是组合所有模式提供的信息却能得到非常优异的效果 • 向Informedia数字图书馆馆藏中增加新的素材 • 将视频素材分割到各主题部分中 • 通过音轨语音的识别、视频流隐含标题的识别来 标识每个部分相关的文本 • 各种自然语言处理工具产生合适的索引纪录 • 用户可以用多模式中的任何一种形式提出 查询要求 多模式信息检索体现优异的效果

  44. 文本总结 自动分类 电视台发出的或经语音识别得到的文本 关键帧检测 人脸检测和识别 电视节目的智能浏览 Excerpted from Dr, Zhnag Hongjiang’s 新一代多媒体检索

  45. 数字媒体格式总结 • 文本 • 编码(中文编码、不同平台编码) • 特殊标记、格式 • 图象 • 压缩存储(有损压缩和非有损压缩) • TIFF,JPEG,GIF,BMP…… • 多级存储 • 音频 • WAV,MP3,REAL AUDIO • 视频 • AVI,QUICK TIME,MPEG I,MPEG II,MPEG IV,REAL VIDEO • 其他(三维实体VRML等等)

  46. 数字媒体格式总结(数字化方法) • 文本 • 录入员录入 • 对扫描文件进行OCR • 图象 • 扫描 • 数码照相 • 音频 • 利用声卡采集 • 电脑合成 • 视频 • 利用视频采集卡采集 • 硬件压缩转换或软件压缩转换

  47. 四种扫描模式 Bitonal Grayscale Special Treatment Color

More Related