390 likes | 625 Views
2010 图书馆前沿技术论坛 关联数据与书目数据未来 2010.8.23 上海. 关联 数据 ABC 及两年来的应用进展. 刘 炜 Kevenlw@gmail.com. 内容. 什么 是 URI , RDF ? 什么是关联数据? 关联数据四原则 为什么要用关联数据? 关联数据应用进展 英国广播公司和纽约时报 图书馆界的应用进展概述. 什么是 URI ?. URI: Universal Resource Identifiers URI 、 URL 、 URN 的关系 URL : HTTP URI URN : DOI , ISBN , ISSN
E N D
2010图书馆前沿技术论坛 关联数据与书目数据未来 2010.8.23 上海 关联数据ABC及两年来的应用进展 刘 炜 Kevenlw@gmail.com
内容 • 什么是URI,RDF? • 什么是关联数据? • 关联数据四原则 • 为什么要用关联数据? • 关联数据应用进展 • 英国广播公司和纽约时报 • 图书馆界的应用进展概述
什么是URI? • URI: Universal Resource Identifiers • URI、URL、URN的关系 • URL:HTTP URI • URN:DOI,ISBN,ISSN • CoolURI • OpenURL http://virtuoso.openlinksw.com/images/generic_uri_syntax_image.png
Cool URI • 习惯叫法,为保证RUI的稳定性,对URI命名提出的一些最佳实践要求。 • 只包含0-9,a-z, /, 文件名最后可用#,尽可能使用日期作为目录等等; • 不用后缀名,交由Web服务器重定向; • ……
什么是RDF? • RDF是一种元数据语言,简称为三元组模型 • “主语-谓词-宾语”构成了基本(最小)逻辑单位 • 常见的是用XML表达的三元组,也可以用其它形式表示(如N3,N-triple甚至图示) • 所有的资源都有URI(资源的定义) • 空白节点(Blank node)是指没有全局ID的本地资源(没有定义命名域的URI,如ISBN, DOI) • 文字(Literal)指一个字串值(可以有类型以及语言属性) • 完整解释请参见http://www.rdfabout.com/以及http://www.w3.org/TR/rdf-primer/.
RDF举例 http://www.w3.org/TR/rdf-concepts/fig6may19
什么是关联数据? • 通俗地说,关联数据是任何有意义的数据在万维网上的一种发布方式 • 以HTTP URI(URL)的方式链接到一个数据对象,而不是一个文档 • URI决定了数据的唯一性和“可关联”性,RDF确立了数据的语义。 • RDF文件中应该包含更多的由URI所标识的其它资源,即尽可能不使用“blank nodes”。
什么是关联数据? • 维基百科的定义:关联数据是一种推荐的最佳实践,用来在语义网中使用URI和RDF发布、分享、连接各类数据、信息和知识( “a term used to describe a recommended best practice for exposing, sharing, and connecting pieces of data, information, and knowledge on the Semantic Web using URIs and RDF.”)
什么是关联数据? • 由Web的发明人Tim Berners-Lee提出; • 定义了一种URI规范,使得人们可以通过HTTP/URI机制,直接获得数字资源(Thing); • “一种Web上的富链接机制,将超文本链接(文件之间的链接)转变为超数据链接(事物Thing之间的链接) • 关联数据是实现Data Web的关键技术(Data Web与现在的文本Web相对应)。 Tim Burners-Lee: http://www.w3.org/DesignIssues/LinkedData.html
为什么叫关联数据? 1、URI所表示的是数据,而不是文档; 2、URI的数据资源以RDF形式表达,其中有指向更多数据的URI,也就是链接; 3、RDF所表达的链接其实是有语义的,不是仅仅一个link而已,而是表明了当前资源与被链接资源的关系。
关联数据的四项基本原则: • 使用URI作为任何事物的标识名称,不仅是标识文档 • Use URIs as names for things • 使用HTTP URI,使任何人都可以参引(dereference)这一全局唯一的名称 • Use HTTP URIs so that people can look up those names • 当有人访问名称时,以RDF形式提供有用的信息 • When someone looks up a name, provide useful information • 尽可能提供链接,指向其它的URI,以使人们发现更多的相关信息 • Include links to other URIs so that they can discover more things
关联数据URI发布方式 • 通过以下两种方式,快递员不仅能找到你家的门牌号(URL作为URI),而且能把东西送到/取自你的客厅、厨房甚至卧室、卫生间: • Hash + data • http 303 转向(Negotiation) • 通过扩展改造Web服务器的响应方式,达到上述目的 • 详细请参见How to publish Linked Data on the Web: http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/ • 中文翻译:https://docs.google.com/View?id=ajjq7zprkrz8_0dfhmj8cs
http://www.w3.org/TR/2008/NOTE-cooluris-20080331/img20080331/303.pnghttp://www.w3.org/TR/2008/NOTE-cooluris-20080331/img20080331/303.png
关联数据的发布方式(详细) • URI中避免使用空白节点,避免具体化(reification),尽可能不使用RDF的集(Collection)和包(Container) • 采用内容协商(Negotiation), URI参引(dereferencing), CoolURI(也就是采用hash#和303转向方式指向资源) • 鼓励RDF中链接, 可以用URI别名 • 鼓励本体/模式重用, 遵循术语定义的最佳实践 • 在RDF描述中“必须包含”对该资源描述的内容 • 封装非RDF的数据库或API, 使封闭世界的数据开放出来
为什么要关联数据?1、数据整合;2、赋予语义为什么要关联数据?1、数据整合;2、赋予语义
目标:数据Web • 提供统一的数据模型 (RDF) • 提供统一的存取 API (RDF/SPARQL) • 提供一致的语义描述方法 (RDFS/OWL) • 提供可扩展的数据整合和混搭平台 • 提供了富于想象力的数据利用空间
Web“数据化”趋势 • 信息资源对象越来越细小:从文献到数据; • 信息资源需要结构化,有序组织(于是有各类信息组织方式、语言); • 信息服务的标准化、自助化、自动化(于是各类私有的API和查询语言开始标准化); • 整个Web就是一个数据库。
关联数据使web数据访问具有了标准统一的API linkeddata.org/
数据Web与关联数据的关系 来自:Alexandre Passant & Michael Hausenblas在 WWW09(Madrid, Spain 2009-04-20)上的演示“Hello Open World!”
图书馆关联数据示例 出版商提供某本书的原始数据 来自:法国国家图书馆 Bermes Emmanuelle
图书馆关联数据示例 国家图书馆添加书目信息和权威控制 来自:法国国家图书馆 Bermes Emmanuelle
图书馆关联数据示例 本地图书馆添加馆藏信息 来自:法国国家图书馆 Bermes Emmanuelle
图书馆关联数据示例 “群众”添加附加信息:维基百科的链接 来自:法国国家图书馆 Bermes Emmanuelle
图书馆关联数据示例 图书馆IT人员为所有这些与本书相关的信息生成页面和链接,如同一个作者的其它著作、同一主题的其它书籍、维基百科中的作者生平、亚马逊上的读者评论等等
于是你可以看到,应用了关联数据: • 无需映射,每个流程用自己的元数据标注; • 无数据冗余,每个流程只创建自己的部分数据; • 无需收割,所有数据都“联邦”链接; • 责任明确:哪个流程的元数据出问题,不会影响其它; • 无需统一工作平台:以数据为中心,流到哪个平台就在哪个平台加工。
BBC:关联的媒体帝国 • 创立于1920年,电台业务开播于创立当天,并首次于1930 年播出电视节目。BBC目前有32种语言的国际服务,8个全国电视频道,1个高清频道,很多地方频道,10个国家电台,40多个地方电台。 • 1994年建立 了同行业最早的网站:bbc.co.uk。 • 所有这些历史,积累了难以想象的资料和素材,使它必须再次领先世界,建立最先进的语义媒体库:支持知识搜索,能够自动向机器提供服务。 • 作为广播电视公司,节目是它最大的资源。传统上,网站只是做节目推广。现在三网合一,可以用来发布、推送、组织和存档节目。BBC一直在寻求这样的技术,能够将BBC千万小时的节目及相关资源,组织成一个脑库,成为人类记忆的一部分。
BBC:关联的媒体帝国 • 目前所有这些工作,都是手工而为。 • 节目量实在太大。BBC网站的工作很难满足所有节目信息发布的需要。每天总共有1000-1500档各类节目。 • 以频道和节目为两层管理的体制,相互之间就内容资源来说缺乏整合,需要横向的业务支撑部门。 • 所有的节目信息都是编辑独立上传,信息采集工作与业务流程不统一。如果要存档、编辑、多平台重用并保存所有的多媒体节目,重复的工作量巨大。 • 要揭示所有节目和相关内容的内在联系是一件不可能任务。 • 系统的灵活性和可扩展性很差,过期网页和死链接越来越多。 • 技 术的一个很大的问题是成本问题。很多IT公司跑来给BBC将它的问题不成问题,他们都可以解决,但是成本过于高昂。另一个原因是解决的模式不能融合到现有 的工作流程中去(最好是建立2.0的“众包”和“自产自销”机制),需要另外的人力和其它资源投入(本来这些人工可用于发展业务,这也是机会成本的损 失)。这两方面显然不是目前BBC的架构所能承担和解决的。
BBC:关联的媒体帝国 • 网站和数据的可用性Usability大大增强; • 用户体验得到巨大提升; • SEO效果明显,甚至可以到每个资源; • 可查找性(Findability)(其实是查准率吧)、可点击性(clickability)和可传播性(tweetability)都获得很大提高; • 整个网站是一个API平台,采用了RESTful发布,与Web无缝集成,保证了链接的永久性和数据的开放性; • 系统各组成部分松散耦合,互相联系却互不干扰,整个系统成为一个不断增长的有机体。
图书馆:关联数据的大本营 继2008年时瑞典国家图书馆系统(LIBRIS)将自己的书目数据开放为关联数据(libris.kb.se)之后,目前至少有以下五个国际、国家级的书目数据/规范数据开放了关联数据服务: • 美国国会图书馆及其主题标目(LCSH)(id.loc.gov) • 德国国家图书馆的联合权威档(GemeinsameNormdatei)(d-nb.info/gnd/) • 法国国家图书馆(BnF)的RAMEAU主题标目(stitch.cs.vu.nl/rameau/) • OCLC的杜威分类法及国际虚拟权威档(VIAF)(dewey.info/和viaf.org/) • 匈牙利国家图书馆的目录和叙词表(oszkdk.oszk.hu/resource/DRJ/404)
图书馆:关联数据的大本营 • STW经济学叙词表(zbw.eu/stw) • 社会科学叙词表(lod.gesis.org) • GEMET环境叙词表(eionet.europa.eu/gemet) • Agrovoc(联合国粮农组织叙词表)(aims.fao.org/) • 纽约时报主题标目(data.nytimes.com/) • 科学出版物词表(dblp.rkbexplorer.com)
图书馆关联数据的应用 • 术语服务(注册体系)(DC元数据) • SKOS词汇发布为为关联数据(LCSH) • 书目数据(包括规范记录)作为关联数据:瑞典国家联合目录等 • 其它规范知识体系的关联数据 • FRBR之类的本体模型成为关联数据
使用Firefox插件Tabulator浏览Tim Burners-Lee的关联数据:http://www.w3.org/People/Berners-Lee/card