880 likes | 990 Views
数字图书馆现状与发展趋势. 林芳 2004 年 10 月 15 日. 主要内容:. 数字图书馆的概念 数字图书馆技术 数字资源及其组织和管理 几个中国数字图书馆项目简介 其它内容. 数字图书馆的概念. 定义 数字图书馆是一个环境,它将收藏、服务和人带到一起以支持数据、信息乃至知识的全部相关流程,包括从创造、传播、使用以及保存的全过程。 —— 美国国家科学基金 NSF1997 年. 数字图书馆的概念. 定义 1 数字图书馆并非单一的实体 2 数字图书馆需要技术,以连接更多的数字图书馆和信息服务机构的信息资源
E N D
数字图书馆现状与发展趋势 林芳 2004年10月15日
主要内容: • 数字图书馆的概念 • 数字图书馆技术 • 数字资源及其组织和管理 • 几个中国数字图书馆项目简介 • 其它内容
数字图书馆的概念 • 定义 数字图书馆是一个环境,它将收藏、服务和人带到一起以支持数据、信息乃至知识的全部相关流程,包括从创造、传播、使用以及保存的全过程。 ——美国国家科学基金NSF1997年
数字图书馆的概念 • 定义 1 数字图书馆并非单一的实体 2 数字图书馆需要技术,以连接更多的数字图书馆和信息服务机构的信息资源 3 各种数字图书馆和信息服务机构之间的连接对终端用户是透明的 4 实现数字图书馆和信息服务机构全球查询是其目标 5 数字图书馆的馆藏并不局限于文献替代物:它们扩展成为数字产品,无法用印刷品格式取代或传播
数字图书馆的概念 • 定义 另一种说法: 数字图书馆是采用现代高新技术所支持的数字信息资源系统,是下一代因特网网上信息资源的管理模式,是没有时空限制的、便于使用的、超大规模的知识中心。
数字图书馆的概念 • 体系结构
数字图书馆的概念 • 功能 (1) 各种载体文献的数字化 文献的载体(图书、资料、文献、杂志等)、各种印刷型文本(含古籍、珍本、善本)、地图、缩微资料、视听资料等都是数字化的内容。
数字图书馆的概念 • 功能 (2) 数据的存储和管理 数字化图书馆大多采用客户机/服务器(C/S)管理模式,客户端、图书馆服务器和信息对象服务器构成信息传递的核心结构。图书馆服务器主要管理数据的目录、索引和查询,而对象服务器用于管理数字化的实体对象,当对象数据到达客户端时,就实现了图书馆对象数据的传送。在这一模式中,用户获取信息有两种方式:一是用户向图书馆服务器发出检索要求,检索信息服务对象,图书馆服务器将检索到的相关信息转送给信息对象服务器,信息对象服务器将信息对象发送给用户。二是用户向图书馆服务器发出检索要求,图书馆服务器将检索到的相关信息转送给客户机,客户机向服务对象服务器发出信息检索请求,信息对象服务器将信息对象发送给用户。
数字图书馆的概念 • 功能 (3) 组织有效的访问和查询 随着 Internet 上万维网服务器的发展,已出现网上的全文检索软件,用户可按自然语言方式输入查询命令,系统将自动抽取关键词,进行概念匹配,进而与文件的索引信息进行相似性比较,按相似性的高低列出查询结果。对于图像与视频等多媒体信息可采用特征提取技术以及相关反馈等技术进行检索。
数字图书馆的概念 • 功能 (4) 数字化资料的传送 多媒体信息网为数字化图书馆提供了良好传输环境,近年来,光缆的发展与普及,使传输率可达 1Gbps – 2 Gbps,是数字化的多媒体信息的最理想的传输介质。
数字图书馆的概念 • 数字图书馆是一个环境,一种信息基础设施 • 从大处说,是未来知识创造和传播的环境,是未来人们学习和生活的环境 • 从小处讲,是面向未来的信息服务环境 • 数字图书馆是一个不断发展的概念 • 技术的发展会促进数字图书馆概念的发展 • 数字图书馆建设是一长期、渐进的过程 • 数字图书馆建设不是某个机构自己的事,为了尽可能地保护建设成果,充分利用全球资源,建设者必需联合起来,共同建设,协调发展。
数字图书馆技术 • 信息的捕获与创建技术
数字图书馆技术 • 信息的存贮与管理技术 文本分析技术、分类与聚类技术、数据挖掘技术、多语言技术
数字图书馆技术 • 信息的搜索与访问技术 搜索引擎技术、图像及视频检索技术、可视化信息检索技术
数字图书馆技术 • 所谓信息可视化就是利用计算机支撑的、交互的、对抽象数据的可视表示,来增强人们对这些抽象信息的认知。信息可视化技术将为人们发现规律、辅助决策、解释现象提供强有力的工具。 信息可视化的基本内容: 信息描述与存储的可视化 信息检索的可视化(http://belmont.antarcti.ca/start/) 检索结果提供的可视化
数字图书馆技术 • 信息的传递技术 压缩技术
数字图书馆技术 • 权限管理技术
数字资源及其组织和管理 • 数字资源的种类 一、数字资源的定义 凡图书馆引进(包括购买、租用和受赠)或自建(包括扫描、转换和录入)的,拥有磁、光介质或网络使用权的数字形态的文献资源,为图书馆的数字资源。 二、数字资源的分类 根据目前高校图书馆数字资源的现状分为四种类型:电子书(包括学位论文及其他类似书的出版物);电子刊(包括其他类似刊的出版物);二次文献数据库(包括题录、文摘、索引等);其他数据库。
数字资源及其组织和管理 • 数字资源的种类 三、高校原生文献(born electronic document)的种类: 电子论文(electronic theses and dissertations) 研究数据(research data) 机构资料(Instructional materials): 教学大纲、讲座、样题等 学术研究文章(scholarly research papers):fully peer-reviewed, manuscripts or preprints 灰色文献(grey literature): working papers, white papers, policy papers, technical reports
数字资源及其组织和管理 • 信息组织原理 信息组织即信息序化或整序,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的描述和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的组合和流通.外在特征是信息的物质载体所直接反映的特征,内容特征是信息所包含和承载的具体内容.
数字资源及其组织和管理 • 信息组织的基本方法 (1)语法信息组织方法:按形式特征组织信息,如字顺组织法,代码法,地序组织法,时序组织法. (2)语义信息组织方法:按内容特征组织信息,如分类组织法,主题组织法. (3)语用信息组织方法:按使用频度组织信息,如权重值组织法,概率组织法.
数字资源及其组织和管理 • 数字资源的组织方法 (1)MARC (2)DC元数据 (3)METS (4)FRBR
数字资源及其组织和管理 • 数字资源的组织方法 (1)MARC
数字资源及其组织和管理 • 数字资源的组织方法 (2)DC元数据 元数据的定义 • 元数据是关于数据的数据(data about data) • 元数据是关于数据的数据。此术语指任何用于帮助网络电子资源的识别、描述和定位的数据。 • 元数据是关于数据的结构化的数据(structured data about data)。 • 元数据是与对象相关的数据,此数据使其潜在的用户不必预先具备对这些对象的存在或特征的完整认识。 • 元数据是对信息包(Information package)的编码描述 ,其目的在于提供一个中间级别的描述,使得人们据此就可以做出选择而无需检索大量不相关的全文文本。 • 元数据,即代表性的数据,通常被定义为数据之数据。它包含用于描述信息对象的内容和位置的数据元素集,促进了网络环境中信息对象的发展和检索。
数字资源及其组织和管理 • 数字资源的组织方法 (2)DC元数据 元数据在网络信息组织方面的作用 • 描述(Description) 对信息对象的内容和位置进行描述,从而为信息对象的存取与利用奠定必要的基础。 • 定位(Location) 元数据包含有关网络信息资源位置方面的信息,因而由此便可确定资源的位置之所在。此外,在信息对象的元数据确定以后,信息对象在数据库或其它集合体中的位置也就确定了。 • 发现(Discovery) 元数据提供搜寻的基础,在著录的过程中,将信息对象中的重要信息抽出并加以组织,赋予语意,并建立关系,从而有利于用户识别资源的价值,发现其真正需要的资源。 • 评估(Evaluation) 元数据提供有关信息对象的名称、内容、年代、格式、制作者等基本属性,使用户在无需浏览信息对象本身的情况下,就能够对信息对象具备基本了解和认识,参照有关标准,即可对其价值进行必要的评估 • 选择(Selection) 根据元数据所提供的描述信息,参照相应的评估标准,结合使用环境,用户便能够做出对信息对象取舍的决定,选择适合用户使用的资源。
数字资源及其组织和管理 • 数字资源的组织方法 • 应用于不同领域的Metadata格式 • 网络资源:DublicCore、ROADSTemplate、CDF(ChannelDefinitionFormat)、WebCollections • 文献资料:MARC(with856Field),DublicCore • 人文科学:TEIHeader(TextEncodingInitiativeHeader) • 社会科学数据集: ICPSRSGMLCodebook(Inter-universityConsortiumforPoliticalandSocialResearch) • 博物馆与艺术作品:CIMI(ComputerInterchangeofMuseumInformation)、CDWA(CategoriesfortheDescriptionofWorksofArts)、RLG REACH Element Set • 视觉资料:VRA (Visual Resources Association) Core Categories for Visual Resources • 音乐资料:SMDL(Standard Music Description Language) • 政府信息:GILS(Government Information Locator Service) • 地理空间信息:FGDC/CSDGM(Federal Geographic Data Committee/Content Standards for Digital Geospatial Metadata) • 数字图像:MOA2metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images • 档案库与资源集合:EAD(Encoding Archival Description) • 技术报告:RFC1807:A format for Bibliographic Records • FTP文件和FTP文件库:IAFA Templates (Internet Anonymous FTP Archives Templates) • 连续图像:MPEG-7
数字资源及其组织和管理 • 数字资源的组织方法 DC产生与发展
数字资源及其组织和管理 • 数字资源的组织方法 DC元数据的元素集
数字资源及其组织和管理 • 数字资源的组织方法 MARC与DC比较
数字资源及其组织和管理 • 数字资源的组织方法 DC与图书馆编目数据的区别 • 创建者不同 • DC元数据的制作者的范围比较广泛,包括内容提供者,即作者、出版发行者等,而且这些人员不需要经过专业培训。 • 编目数据的制作者则是经过专门培训的图书馆编目人员。 • 可靠程度不同 • 编目数据使用受控词表和规范控制来增强用户发现资源的能力,对原始数据进行了增值处理。 • DC元数据没有建立规则和过程来控制数据元素的内容,且所有元素都是可选的。 *DC元数据的可靠性低于编目数据。
数字资源及其组织和管理 • 数字资源的组织方法 DC与图书馆编目数据的区别 • 知识检索有效度不同 • DC元数据整体框架简洁明了,主要由15个核心元素构成,只能大略反映资源状况。 • 编目数据一直追求著录完整、详尽,对著录源的描述更为丰富。 *编目数据的知识检索有效度比DC元数据高。 • 适应对象不同 • DC元数据是用来描述网络信息资源的,是分布式的,具有严格的格式化特征。 • 编目数据则是基于传统的印刷型文献的。 • 标准化程度不同 • DC元数据标准目前仍处在不断发展研究之中 • 编目数据的标准化发展已相对成熟,它遵循已被接受的规则和国家标准。
数字资源及其组织和管理 • 数字资源的组织方法 (3)METS(Metadata Encoding and Transmission Standard):元数据编码及转换标准.要在不同的系统之间进行数字对象的相互转换,需要一个统一的标准XML封装规范,而METS正是提供了这样一个规范.METS也可以用于开发文档信息系统参考模型(Open Archival Information System(OAIS) Reference Model)的提交信息包(SIP-Submission Information Package),归档信息包(AIP-Archival Information Package),分发信息包(DIP-Dissemination Information Package)等. http://www.loc.gov/standards/mets/
数字资源及其组织和管理 • 数字资源的组织方法 (4)FRBR(Functional Requirements for Bibliographic Records----书目记录的功能需求):根据1961年的《巴黎原则》,图书馆目录具有检索与集中两种功能,检索指目录使用者可根据文献的责任者或题名在目录中检索到某一特定的文献,集中指目录须集中某一责任者的各种著作以及某一著作的各个版本。新型载体信息资源的出现,迫使人们重新审视目录的职能。借鉴计算机领域开发关系型数据库的“实体-关系模型”(E-R模型),国际图联研究小组提出了“面向对象编目”的概念,并于1998年正式颁布了采用E-R概念模型的研究报告《书目记录的功能需求》(FRBR)。在60年代,研究者是先确立目录的职能,然后再围绕为实现目录的职能来确立编目的对象,那时的编目对象是书目单元(即同某一本书或某一著作的某一版本)和文献单元(即同一著作的不同版本、译本及改写本构成一个文献单元);而FRBR则从分析编目所涉及到的实体(即编目对象)入手,探讨实体所具有的属性、实体之间的关系,并将用户任务的确立与实体联系起来,从而揭示出书目记录的功能需求。
数字资源及其组织和管理 • 数字资源的组织方法 (4)FRBR(Functional Requirements for Bibliographic Records----书目记录的功能需求):FRBR定义了三组实体(entities):第一组为著作(Work),第二组为个人和团体(Person, Corporate Body),第三组为主题(Subject)。 著作又可分为四个层次的实体: 著作(work):知识或艺术创作的内容。这是一个抽象的实体,必须通过一定的表现方式(如文字、图像、乐曲、声音、舞蹈动作、实物等),才能被人们所认识。 表现方式(expression):知识或艺术创作的内容得以实现的方式,如文字、乐曲、声音、图像、舞蹈动作、实物等或者这些实现方式的任意组合。 表达形式(manifestation):体现知识或艺术内容的表现方式的物理形态。包括范围很广的物理形态,如手稿、图书、期刊、地图、海报、录音制品、录像制品、光盘、影片和多媒体制品等。它是具有同一物理特征与同一内容的所有物理实体的集合。 文献单元(item):知识或艺术内容的表达形式的某一物理实体(如一本单卷专著、单盒录音带),有时也包含内容相关联的几个物理实体(如一套多卷书),这是一个具体的实体。
数字资源及其组织和管理 • 数字资源的组织方法 (4)FRBR(Functional Requirements for Bibliographic Records----书目记录的功能需求): 第二组实体个人和团体是第一组实体的内容的责任者、物理实体的制作者与传播者或保管者。它与第一组实体的关系可称为“责任”关系。 第三组实体主题一般分成四类:概念(concept)、实物(object)、事件(event)、地点(place),但是也可包含第一组实体和第二组实体。 根据这三组实体FRBR确立了目录使用者的四项任务:发现(find)实体、识别(identify)实体、选择(select)实体和获取(obtain)实体。相应的书目记录就必须具备发现、识别、选择、获取四项功能。
几个中国数字图书馆项目简介 • 几个数字图书馆工程 国家863工程下面专门设立了“中国数字图书馆发展战略组”,负责中国数字图书馆事业的统筹规划和组织实施工作。目前,中国国家数字图书馆工程(文化部)、中国高等教育文献保障体系(教育部)、中国国家科学数字图书馆工程(科学院)及全国党校系统数字图书馆工程已全面启动。
几个中国数字图书馆项目简介 • 几个数字图书馆工程——中国数字图书馆工程 由国家图书馆主持的国家级数字资源系统工程,一期工程规划建设时间为2000-2005年,该工程旨在建设超大规模的优质中文信息资源群,并通过国家高速宽带网向全国及全球提供服务,最终形成世界上最全面、最系统的网上中文信息基地和服务中心,工程涉及信息资源加工、存储、检索、传输和利用的全过程,是国家信息化建设不可缺少的重要内容,是知识经济的重要载体,是一项跨地区、跨部门、跨行业的宏大的民族文化工程。 http://www.nlc.gov.cn/dloff/
几个中国数字图书馆项目简介 • 几个数字图书馆工程----中国高等教育数字图书馆 CADLIS(China Academic Digital Library & Information System-中国高等教育数字图书馆)由CADAL项目与CALIS(中国高等教育文献保障系统)共同构成中国高等教育数字图书馆的框架。 分布式的高等教育数字图书馆系统,包括五大环境: 综合文献服务平台(自助式,可查即可得) 分布式联合虚拟参考咨询平台(交互式) 科研辅助平台 教学辅助平台 信息素质教育平台
几个中国数字图书馆项目简介 • 几个数字图书馆工程----中国高等教育数字图书馆 (1) CALIS(中国高等教育文献保障系统)经国务院批准的我国高等教育“211工程”总体规划中两个公共服务体系之一(另一服务体系为CERNET,即中国教育和科研计算机网和重点学科信息服务体系)。CALIS的宗旨是在教育部的领导下,把国家的投资、现代图书馆理念、先进的技术手段、高校丰富的文献资源和人力资源整合起来,建设以中国高等教育数字图书馆为核心的教育文献联合保障体系,实现信息资源共建、共知、共享,以发挥最大的社会效益和经济效益,为中国的高等教育服务。 http://www.calis.edu.cn
几个中国数字图书馆项目简介 • 几个数字图书馆工程----中国高等教育数字图书馆 (1) CALIS(中国高等教育文献保障系统) 目前开展的服务 联机编目 馆际互借与文献传递 统一检索平台 西文期刊篇名目次库
几个数字图书馆工程----中国高等教育数字图书馆几个数字图书馆工程----中国高等教育数字图书馆 • CALIS(中国高等教育文献保障系统) CASHL项目介绍 • 中国高校人文社会科学文献中心(China Academic Humanities and Social Science Library) • 教育部根据高校人文社会科学的发展和文献资源建设的需要而设立 • 教育部高校哲学社会科学“繁荣计划”的重要组成部分
几个数字图书馆工程----中国高等教育数字图书馆几个数字图书馆工程----中国高等教育数字图书馆 • CALIS(中国高等教育文献保障系统) CASHL项目介绍 • 中国高校人文社会科学文献中心 • 文科专款支持,CALIS提供服务平台 • 目前2300余种,今年要超过4000种 • 计划8000种以上 • 以文献传递方式进行 • 已开通: http://www.cashl.edu.cn
几个数字图书馆工程----中国高等教育数字图书馆几个数字图书馆工程----中国高等教育数字图书馆 • CALIS(中国高等教育文献保障系统) CASHL项目介绍 宗旨: • 组织若干所具有学科优势、文献资源优势和服务条件优势的高等学校图书馆,有计划、有系统地引进国外人文社会科学期刊,借助现代化的服务手段,为全国高校的人文社会科学教学和科研提供高水平的文献服务。
几个数字图书馆工程----中国高等教育数字图书馆几个数字图书馆工程----中国高等教育数字图书馆 • CALIS(中国高等教育文献保障系统) CASHL项目介绍 全国性的唯一的人文社会科学外文期刊服务中心 • 与科技部“国家科技图书文献中心”(NSTL)互为补充,珠联璧合 • 建设原则: • 整体建设,分布服务,共知共享,讲求效益 • 建设内容: • 外文期刊文献资源体系 • 文献信息服务体系
几个数字图书馆工程----中国高等教育数字图书馆几个数字图书馆工程----中国高等教育数字图书馆 • CALIS(中国高等教育文献保障系统) CASHL项目介绍 • 组织机构: • 全国中心:北京大学、复旦大学; • 区域中心:武汉大学、吉林大学、四川大学、中山大学、南京大学;
CALIS“十五”数字资源建设项目简介(1)教学参考书全文数据库CALIS“十五”数字资源建设项目简介(1)教学参考书全文数据库 • 由教学参考信息库和全文电子书库组成 • 拟收录3000门课程的3万种教学参考资料 • 覆盖高校的所有公共基础课、大部分专业基础课和一部分精选专业课 • 拟采用方正Apabi电子书技术 • 版权问题:拟采用商业手段解决(联合开发商品化数据库)
CALIS“十五”数字资源建设项目简介(2)高校学位论文全文数据库CALIS“十五”数字资源建设项目简介(2)高校学位论文全文数据库 • 在一期文摘数据库的基础上发展全文库 • 解决新论文的网上提交及相关格式、标准 • 旧论文以扫描的方式回溯 • 拟在2005年达到50万篇 • 问题: • 版权:作者授权书、利用方式 • 密级:可使用范围、解冻年限等
CALIS“十五”数字资源建设项目简介(3)集团采购商业数据库CALIS“十五”数字资源建设项目简介(3)集团采购商业数据库 • 继续组织集团采购 • 逐步降低国家经费补贴 • 结合数字图书馆建设和资源建设的整体思路,根据具体情况采用本地存档、镜像、远程访问等多种方式引进,并加以适当整合
CALIS“十五”数字资源建设项目简介(4)中外文联合书目数据库CALIS“十五”数字资源建设项目简介(4)中外文联合书目数据库 • 已有书目数据130余万条 • 语种包括:中、英、德、日,中文古籍 • 近期计划重点清理期刊数据,巩固现有数据的同时,发展中文回溯数据,语种上拟增加俄文和少数民族语言(如蒙文等) • 规范库
CALIS“十五”数字资源建设项目简介(5)中外文期刊现刊目次库CALIS“十五”数字资源建设项目简介(5)中外文期刊现刊目次库 • 原有中文现刊目次库有约5500种刊,140万条目次数据。 • 中文目次库计划寻求与数据库商或其它共享体系的战略合作,共同进行深层次开发利用。 • 外文期刊目次库计划引进或购买目次数据,加工馆藏数据,作为文献传递的基础数据库。