关联数据 ABC 及两年来的应用进展

2010图书馆前沿技术论坛 关联数据与书目数据未来 2010.8.23 上海关联数据ABC及两年来的应用进展刘炜 Kevenlw@gmail.com

内容 • 什么是URI，RDF？ • 什么是关联数据？ • 关联数据四原则 • 为什么要用关联数据？ • 关联数据应用进展 • 英国广播公司和纽约时报 • 图书馆界的应用进展概述

什么是URI？ • URI: Universal Resource Identifiers • URI、URL、URN的关系 • URL：HTTP URI • URN：DOI，ISBN，ISSN • CoolURI • OpenURL http://virtuoso.openlinksw.com/images/generic_uri_syntax_image.png

Cool URI • 习惯叫法，为保证RUI的稳定性，对URI命名提出的一些最佳实践要求。 • 只包含0-9，a-z, /, 文件名最后可用#，尽可能使用日期作为目录等等； • 不用后缀名，交由Web服务器重定向； • ……

什么是RDF？ • RDF是一种元数据语言，简称为三元组模型 • “主语-谓词-宾语”构成了基本（最小）逻辑单位 • 常见的是用XML表达的三元组，也可以用其它形式表示（如N3，N-triple甚至图示） • 所有的资源都有URI(资源的定义) • 空白节点(Blank node)是指没有全局ID的本地资源(没有定义命名域的URI,如ISBN, DOI) • 文字(Literal)指一个字串值(可以有类型以及语言属性) • 完整解释请参见http://www.rdfabout.com/以及http://www.w3.org/TR/rdf-primer/.

RDF举例 http://www.w3.org/TR/rdf-concepts/fig6may19

什么是关联数据？ • 通俗地说，关联数据是任何有意义的数据在万维网上的一种发布方式 • 以HTTP URI（URL）的方式链接到一个数据对象，而不是一个文档 • URI决定了数据的唯一性和“可关联”性，RDF确立了数据的语义。 • RDF文件中应该包含更多的由URI所标识的其它资源，即尽可能不使用“blank nodes”。

什么是关联数据？ • 维基百科的定义：关联数据是一种推荐的最佳实践，用来在语义网中使用URI和RDF发布、分享、连接各类数据、信息和知识（ “a term used to describe a recommended best practice for exposing, sharing, and connecting pieces of data, information, and knowledge on the Semantic Web using URIs and RDF.”）

什么是关联数据？ • 由Web的发明人Tim Berners-Lee提出； • 定义了一种URI规范，使得人们可以通过HTTP/URI机制，直接获得数字资源(Thing)； • “一种Web上的富链接机制，将超文本链接（文件之间的链接）转变为超数据链接（事物Thing之间的链接） • 关联数据是实现Data Web的关键技术（Data Web与现在的文本Web相对应）。 Tim Burners-Lee: http://www.w3.org/DesignIssues/LinkedData.html

为什么叫关联数据？ 1、URI所表示的是数据，而不是文档； 2、URI的数据资源以RDF形式表达，其中有指向更多数据的URI，也就是链接； 3、RDF所表达的链接其实是有语义的，不是仅仅一个link而已，而是表明了当前资源与被链接资源的关系。

关联数据的四项基本原则： • 使用URI作为任何事物的标识名称，不仅是标识文档 • Use URIs as names for things • 使用HTTP URI，使任何人都可以参引(dereference)这一全局唯一的名称 • Use HTTP URIs so that people can look up those names • 当有人访问名称时，以RDF形式提供有用的信息 • When someone looks up a name, provide useful information • 尽可能提供链接，指向其它的URI，以使人们发现更多的相关信息 • Include links to other URIs so that they can discover more things

关联数据URI发布方式 • 通过以下两种方式，快递员不仅能找到你家的门牌号（URL作为URI），而且能把东西送到/取自你的客厅、厨房甚至卧室、卫生间： • Hash + data • http 303 转向(Negotiation) • 通过扩展改造Web服务器的响应方式，达到上述目的 • 详细请参见How to publish Linked Data on the Web: http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/ • 中文翻译：https://docs.google.com/View?id=ajjq7zprkrz8_0dfhmj8cs

http://www.w3.org/TR/2008/NOTE-cooluris-20080331/img20080331/303.pnghttp://www.w3.org/TR/2008/NOTE-cooluris-20080331/img20080331/303.png

机器可理解，人也可读。

关联数据的发布方式(详细) • URI中避免使用空白节点，避免具体化(reification)，尽可能不使用RDF的集(Collection)和包(Container) • 采用内容协商(Negotiation), URI参引(dereferencing), CoolURI(也就是采用hash#和303转向方式指向资源) • 鼓励RDF中链接, 可以用URI别名 • 鼓励本体/模式重用, 遵循术语定义的最佳实践 • 在RDF描述中“必须包含”对该资源描述的内容 • 封装非RDF的数据库或API, 使封闭世界的数据开放出来

为什么要关联数据？1、数据整合；2、赋予语义为什么要关联数据？1、数据整合；2、赋予语义

数据整合：从开放API到开放数据

目标：数据Web • 提供统一的数据模型 (RDF) • 提供统一的存取 API (RDF/SPARQL) • 提供一致的语义描述方法 (RDFS/OWL) • 提供可扩展的数据整合和混搭平台 • 提供了富于想象力的数据利用空间

Web“数据化”趋势 • 信息资源对象越来越细小：从文献到数据； • 信息资源需要结构化，有序组织（于是有各类信息组织方式、语言）； • 信息服务的标准化、自助化、自动化（于是各类私有的API和查询语言开始标准化）； • 整个Web就是一个数据库。

关联数据使web数据访问具有了标准统一的API linkeddata.org/

数据Web与关联数据的关系 来自：Alexandre Passant & Michael Hausenblas在 WWW09(Madrid, Spain 2009-04-20)上的演示“Hello Open World!”

图书馆关联数据示例 出版商提供某本书的原始数据来自：法国国家图书馆 Bermes Emmanuelle

图书馆关联数据示例 国家图书馆添加书目信息和权威控制来自：法国国家图书馆 Bermes Emmanuelle

图书馆关联数据示例 本地图书馆添加馆藏信息来自：法国国家图书馆 Bermes Emmanuelle

图书馆关联数据示例 “群众”添加附加信息：维基百科的链接来自：法国国家图书馆 Bermes Emmanuelle

图书馆关联数据示例 图书馆IT人员为所有这些与本书相关的信息生成页面和链接，如同一个作者的其它著作、同一主题的其它书籍、维基百科中的作者生平、亚马逊上的读者评论等等

于是你可以看到，应用了关联数据： • 无需映射，每个流程用自己的元数据标注； • 无数据冗余，每个流程只创建自己的部分数据； • 无需收割，所有数据都“联邦”链接； • 责任明确：哪个流程的元数据出问题，不会影响其它； • 无需统一工作平台：以数据为中心，流到哪个平台就在哪个平台加工。

关联数据应用进展

BBC：关联的媒体帝国 • 创立于1920年，电台业务开播于创立当天，并首次于1930 年播出电视节目。BBC目前有32种语言的国际服务，8个全国电视频道，1个高清频道，很多地方频道，10个国家电台，40多个地方电台。 • 1994年建立了同行业最早的网站：bbc.co.uk。 • 所有这些历史，积累了难以想象的资料和素材，使它必须再次领先世界，建立最先进的语义媒体库：支持知识搜索，能够自动向机器提供服务。 • 作为广播电视公司，节目是它最大的资源。传统上，网站只是做节目推广。现在三网合一，可以用来发布、推送、组织和存档节目。BBC一直在寻求这样的技术，能够将BBC千万小时的节目及相关资源，组织成一个脑库，成为人类记忆的一部分。

BBC：关联的媒体帝国 • 目前所有这些工作，都是手工而为。 • 节目量实在太大。BBC网站的工作很难满足所有节目信息发布的需要。每天总共有1000-1500档各类节目。 • 以频道和节目为两层管理的体制，相互之间就内容资源来说缺乏整合，需要横向的业务支撑部门。 • 所有的节目信息都是编辑独立上传，信息采集工作与业务流程不统一。如果要存档、编辑、多平台重用并保存所有的多媒体节目，重复的工作量巨大。 • 要揭示所有节目和相关内容的内在联系是一件不可能任务。 • 系统的灵活性和可扩展性很差，过期网页和死链接越来越多。 • 技术的一个很大的问题是成本问题。很多IT公司跑来给BBC将它的问题不成问题，他们都可以解决，但是成本过于高昂。另一个原因是解决的模式不能融合到现有的工作流程中去（最好是建立2.0的“众包”和“自产自销”机制），需要另外的人力和其它资源投入（本来这些人工可用于发展业务，这也是机会成本的损失）。这两方面显然不是目前BBC的架构所能承担和解决的。

BBC：关联的媒体帝国 • 网站和数据的可用性Usability大大增强； • 用户体验得到巨大提升； • SEO效果明显，甚至可以到每个资源； • 可查找性（Findability）（其实是查准率吧）、可点击性（clickability）和可传播性（tweetability）都获得很大提高； • 整个网站是一个API平台，采用了RESTful发布，与Web无缝集成，保证了链接的永久性和数据的开放性； • 系统各组成部分松散耦合，互相联系却互不干扰，整个系统成为一个不断增长的有机体。

BBC：关联的媒体帝国

图书馆：关联数据的大本营 继2008年时瑞典国家图书馆系统（LIBRIS）将自己的书目数据开放为关联数据（libris.kb.se）之后，目前至少有以下五个国际、国家级的书目数据/规范数据开放了关联数据服务： • 美国国会图书馆及其主题标目（LCSH）（id.loc.gov） • 德国国家图书馆的联合权威档（GemeinsameNormdatei）（d-nb.info/gnd/） • 法国国家图书馆（BnF）的RAMEAU主题标目（stitch.cs.vu.nl/rameau/） • OCLC的杜威分类法及国际虚拟权威档（VIAF）（dewey.info/和viaf.org/） • 匈牙利国家图书馆的目录和叙词表（oszkdk.oszk.hu/resource/DRJ/404）

图书馆：关联数据的大本营 • STW经济学叙词表（zbw.eu/stw） • 社会科学叙词表（lod.gesis.org） • GEMET环境叙词表（eionet.europa.eu/gemet） • Agrovoc（联合国粮农组织叙词表）（aims.fao.org/） • 纽约时报主题标目（data.nytimes.com/） • 科学出版物词表（dblp.rkbexplorer.com）

2010年：图书馆关联数据元年

图书馆关联数据的应用 • 术语服务（注册体系）（DC元数据） • SKOS词汇发布为为关联数据（LCSH） • 书目数据（包括规范记录）作为关联数据：瑞典国家联合目录等 • 其它规范知识体系的关联数据 • FRBR之类的本体模型成为关联数据

使用Firefox插件Tabulator浏览Tim Burners-Lee的关联数据：http://www.w3.org/People/Berners-Lee/card

谢谢！

关联数据 ABC 及两年来的应用进展