面向新一代语义网的汉语语义资源建设与应用技术研究

面向新一代语义网的汉语语义资源建设与应用技术研究 山西大学计算机与信息技术学院刘开瑛二零零七年二月一日

下一代万维网——“语义web” • 2000年，国际万维网联盟W3C总裁Tim Berners-Lee提出了下一代万维网——“语义web”的理念,成为人们讨论与研究的热点。XML, RDF和Ontology（本体）是语义Web的关键层，用于表示Web信息的语义。 • 2006年5月，Tim Berners-Lee宣布，W3C已发布W3C推荐标准80余份，语义Web已经具备了成功所需要的所有标准和技术，包括作为数据语言的RDF、本体语言，以至查询和规则语言，这些国际标准和技术方面的准备为我们的研究提供了可靠的基础。

语义Web的目标 • 语义Web的最终目标是，为万维网上的信息提供计算机可以理解的语义。这太难啦！预计需要十年或更长时间。 • 一些人致力于创造一个巨大的新结构以代替现有的万维网；其他人正在开发一些实用工具，从现有的万维网中提取有意思的信息。 • 现阶段目标是在现有万维网上加入一个语义层，以增强万维网的指导功能和减少万维网类似目录的作用——它甚至还可以为能像人类一样进行推理的系统提供基础。

万维网上加入一个语义层从哪儿入手？ • 虽然也有人怀疑语义Web是可望而不可及的幻想，但是在IBM和谷歌等大小公司里，相关基础技术的研究正在迅速得到追捧。通常以简单实用的功能为主，比如提供度假建议，或是预测下一首畅销歌曲。 • 万维网主要指的是程序（如绘制地图）和服务（如照片共享）在互联网上的无缝连接。万维网上的经典应用是“混合搭建”——比如，把一个租房网站与谷歌地图连接起来，就可以自动显示每一份租房清单上的房屋的实际位置，从而创造出一种更加实用的新服务。 • 当前国际上正在寻找开发人类智能的新方法，他们的对象就是构成万维网上数十亿的文档和把这些文档资料连接在一起的链接。

我们正在开展的工作 • 构建汉语词汇语义知识库（CFN）为万维网上的信息提供计算机可以理解的语义基础资源。 • 建立基于汉语词汇语义知识库的中文售书网站 (www.cfnlab.com)，作为在现有万维网上加入一个语义层的试验区。 • 研究知识本体的编制与标准，用以指导网络本体的构建。

构建汉语框架语义知识库（CFN） • 由于美国FrameNet描述的是词语背后的认知框架，许多国家的学者通过研究都承认其数据可以跨语言使用，有通用价值，尝试建立与FrameNet并行的词典，包括希伯莱语、德语、日语、西班牙语等。 • 我们经过长期调研，考虑到汉语语义研究不成熟的现状，选择了Fillmore的框架语义学作为理论基础，以美国FrameNet为参照，构建汉语框架语义知识库（Chinese FrameNet, 简称CFN）。

汉语框架语义知识库内容 • CFN包括三个子库：框架库、句子库和词元库。 • 目前我们定稿的一个以有限词语集合为描述对象的汉语框架语义知识库，共对汉语1760个词元构建了130个框架，标注了8200条句子，为构建大规模汉语框架语义知识库的样本。2006年10月在倪光南院士主持下进行鉴定，认为：“该课题在信息处理用汉语框架语义研究领域中达到了国际领先水平。” • 例如[量变]框架（见下页）。

句子标注示例 • “波动，增加，提高，减少，降低、下降”等有共同意义基础的词语，都在[量变]框架中得到注释，以此就可以标注这些词语所在的句子。以“下降”为目标次，句子“在遭受同样特大旱灾的情况下，牲畜的死亡率由70年代的10％下降到1993年的3％以下” 标注结果如下： • <环境条件-pp-adva在遭受同样特大旱灾的情况下>，<属性-np-subj牲畜的死亡率> <初值-pp-adva由70年代的10％><tgt下降> <终值-vp-comp到1993年的3％以下>。

汉语框架语义知识库构建方法(1) • 经验主义的语义描述方法 • 对于汉语词汇，确定它们属于那个框架，以至对于一个框架，决定它有哪些框架元素时，主要是根据大量的真实语料。首先找跟词元有关的句法成分，看这些成分传递了什么语义信息，然后选择适当的标签去区分这些成分的语义角色。框架元素的基本语义类型应该在各种使用中都一致，如果不一致，就成为不同的框架元素，即使出现在同样的句法位置，也会根据所指不同，而框架元素类型不同。

汉语框架语义知识库构建方法(2) • 用语义Web标记语言描述汉语框架语义知识库资源 • 我们2004年初开始逐步展开对语义Web尤其是本体的研究,将CFN数据的语义Web语言表示技术作为本课题的另一个重要研究内容，并探索OWL自动转换器的实现技术，这是对XML和RDF（资源描述语言）的延伸，使CFN成为一个机器可读、可理解的语义词典，已有OWL描述样例和OWL自动转换器实验软件。

人机交互的技术路线 • 构建CFN是一个庞大的工程，无论是框架和词元内容的编写还是句子标注，都需要高度交互的辅助工具。我们自主开发了框架信息编辑、框架信息查询、句子辅助标注、自动生成词元库统计报告等功能的汉语框架语义知识库开发和管理系统。 • 目前正在开发的软件还有CFN本体文件自动生成器、CFN资源文件自动生成器、CFN自动推理器和CFN一致性检测器，等等。

应用技术目标定位 • 探讨在有语义的万维网上如何创建一个能够对简单问题做出合理、全面的回答系统。这样的系统构建方法是开发一些实用工具，从现有万维网中提取有意义的信息。 • 在现有万维网上加入一个语义层，开展中文图书评价试验系统的研究，将评价系统嵌入售书网站(www.cfnlab.com)示范系统上，提供专门针对销售行业的评价参考服务。

中文售书网站上的图书评价系统 • 图书评价主要来自图书的简介、目录、前言、作者、出版社评论和读者评论，对一本书提供多角度的分析和评价。 • 目前正在进行的研究是在同一售书网站上的程序和服务的“无缝连接”、不同售书网站上的“混合搭建”技术。已经实现了网上自动采集图书信息入库的功能。 • 正准备研究如何挖掘深层互联网结构，以实现对多个在线数据库的一站式搜索，并利用网页布局结构提高链接分析和排序算法的性能。

结束语 • 近年来，我们依靠山西大学并在太原国家高新区成立“太原语信科技有限公司”语义Web研发中心，良好的软硬件环境为研究提供了强有力的支持。吸收北京传媒大学、上海师范大学、太原理工大学、信息产业部第33研究所等有关单位博士硕士生参加，包括计算机、中文、信息管理等不同学科的师生，大家聚集在一起，进行前沿探索，通过多学科的前瞻性和战略性思考和研究来激发灵感。

谢谢！

面向新一代语义网的汉语语义资源建设与应用技术研究

面向新一代语义网的汉语语义资源建设与应用技术研究

Presentation Transcript