Web 文本中的实体消歧

Web文本中的实体消歧 韩先培 xianpei@nfs.iscas.ac.cn 信息检索研究室, 中国科学院软件研究所

提纲 • 研究背景 • 实体聚类消歧 • 语义知识挖掘 • 基于语义的实体消歧 • 实体链接消歧 • 基于实体-提及模型的实体链接 • 基于图的协同实体链接 • 总结与展望信息检索研究室-中科院软件所

背景(1)：实体歧义 • 实体歧义指的是同一名字在不同上下文中可对应不同的实体 MJ1: Michael Jordan is a researcher in machine learning. MJ2: Learning in Graphical Models: Michael Jordan MJ3: Michael Jordan wins NBA MVP. MJ4 : Michael Jordan plays basketball in Chicago Bulls. • 给知识工程、信息检索和自然语言理解等任务带来问题

背景(2)：连接文本和知识 • Web上有许多迅速增长的大规模知识库 • Wikipedia, Freebase, Yago, DBPedia, etc. • 百度百科、互动百科等等 • 这些知识库包含了丰富的实体、属性和关系知识 • 利用这些知识库中的知识 • 前提：连接文本中的实体与知识库中的实体 • 可为基于知识的NLP和IR系统提供关键基础 IR Laboratory, ISCAS

During his standout career at , also acts in the movie . Bulls Space Jam Jordan Knowledge Base Basketball Player Sport Organization IS-A IS-A IS-A NBA Player NBA Team NBA IS-A IS-A Part-of Employer-of Michael Jordan Chicago Bulls Actor-of Space Jam

命名实体消歧形式化 • 一个命名实体消歧系统是一个六元组 • 待消歧名字集合N，如{乔丹，李鹏, …} • 目标实体集E，如{NBA球星乔丹，Berkeley教授乔丹，爱尔兰政治家乔丹…} • 消歧文档集D，如Web网页集，乔丹的前100个搜索结果，… • 实体指称集O，即实体名在D中的出现加上下文，如{(乔丹，…十大灌篮), (乔丹，NBA统计数据),…} • 背景知识库K，如维基百科 • 消歧义算法：

命名实体消歧方法 • 实体聚类消歧 • 目标实体列表E没有给定 • 把所有指称项聚类 • 聚出来的每一个类别对应一个单独的实体 • 实体链接消歧 • 目标实体列表E给定 • 将实体指称项与其在实体表中对应实体进行链接实现消歧

命名实体消歧方法(实例)

现有方法 • 关键在于如何计算实体指称项之间的相似度 • 传统方法通常采用词袋子模型进行计算 • 实体指称项之间的相似度由词的同现决定 • 有时通过抽取实体属性来扩展特征或进行约束 • 如人物的出生日期,职业，单位，出生地等 MJ1：Michael Jordan is a NBA player MJ2：Michael Jordan wins NBA MVP

现有方法缺点 • 基于词袋子模型的相似度忽略了大部分的语义知识，如 • 概念之间的语义关联: Jordan … Machine learningvs. Learningin Graphical Models … Jordan • 词语之间的词汇化关联: Jordan is a footballervs. Jordan is a football player • 实体之间的社会化关联 Jordan wins NBA MVP vs. Jordan … Chicago Bulls 高性能的命名实体消歧需要有语义知识作为支撑

问题 • 如何获取准确、高覆盖率的语义知识 • 概念之间的语义关联 • 如何基于语义知识构建高性能命名实体消歧系统 • 语义相似度计算

语义知识源 • 互联网上存在着大量的语义知识源 • 结构化的知识源，如Wikipedia、Freebase和OpenCyc等； • 非结构化的知识源，如网页库，文本库； • 但是 • 这些知识源通常是多源异构的 • 语义知识通常以隐藏的形式出现带链接的网页文本库内实体的共现次数 (NBA, Chicago Bulls): 5,630,000 (EMNLP, ACL): 108,000 (EMNLP, NBA): 484 … 如何解释这些统计量的语义？

挑战 • 如何从知识源中挖掘出隐藏的语义知识？ • 如何集成来自不同知识源的语义知识？文本库内实体的共现次数 (NBA, Chicago Bulls): 5,630,000 (EMNLP, ACL): 108,000 (EMNLP, NBA): 484 … 如何解释这些统计量的语义？带链接网页

结构化知识源(Wikipedia) • 大规模在线百科全书(用于捕捉概念之间的语义关联) • 超过300万个条目 • 超链接结构表现的语义知识 • 重定向页面（同义关系） • 消歧页面（多义关系） • 关联关系（其它超链接）

结构化知识源(WordNet) • 英语词汇知识的知识库（用于捕捉词语之间的语言学关联） • 11万英文词汇的词义 • 词义之间的各种语义关系，例如(kind of), holonym (part of), synonym等 18

非结构化知识源(文本库) • 大量文本的集合，如Web网页库 • 基于模糊集合理论，使用文本库的实体同现信息来捕捉命名实体之间的社会化关联 • 使用Google Similarity Distance进行计算共现次数 (NBA, Chicago Bulls): 5,630,000 (EMNLP, ACL): 108,000 (EMNLP, NBA): 484 … 如何解释这些统计量的语义？

问题 • 知识源的多源异构性 • 包含不同的概念：Wikipedia包含实体概念，WordNet包含通用概念 • 包含不同的关系：Wikipedia包含实体概念之间关联关系，WordNet包含词语之间的词汇关系 • 解决方法：融合多源信息的语义关联 • 大部分语义知识隐藏在复杂结构中 • 解决方法：结构化的语义关联

语义图 • 处理知识源的多源异构性 • 统一的语义知识表示模型 • 图的节点表示独立概念 • 图的边表示概念之间是否存在语义关系 • 边的权重表示语义关系的强度

语义图(示例)

结构化语义关联(1) • 语义图中语义知识的挖掘和融合算法 • 语义图中语义知识的两种表现形式 • 语义图的边（显式语义知识）——建模了所有从知识源中直接抽取出的概念之间的显式语义关联 • 语义图的结构（结构化语义知识）——建模了概念之间的隐藏语义关联

结构化语义关联(2) • 计算原则：“如果一个概念的关联概念与另一个概念存在语义关联，则这个概念也与另一个概念存在语义关联” • 传递性：语义关联在图中是传递的 • 递归性：计算原则是递归地，选取语义图边信息作为递归开始点邻居节点传递显式语义关联

结构化语义关联(示例) 挖掘出的隐藏语义关联

研究成果 • 基于结构化语义关联的相似度计算 • 实体指称项的概念向量表示 • 概念对齐 • 相似度计算 • 在相似度计算中加入概念之间的语义关联，有效提升实体消歧系统的性能

指称项的概念向量表示 • 每一个实体指称项被表示为概念的向量 • 每一个特征都是真实意义上的语义单元 • 概念权重取决于它与表示中其它概念的语义关联度 MJ1: Michael Jordan is a leading researcher in machine learning and artificial intelligence. MJ2: Michael Jordan has published over 300 research articles on topics in computer science, statistics and cognitive science

概念对齐 • 识别两个指称项概念表示之间的对齐关系 • 对每一个概念c，将其与另一表示中与其有最大语义关联度的概念对齐 • 处理表示的稀疏问题，以及概念的对应关系

相似度计算(1) • 一个指称项到另一个指称项的语义关联被定义为“所有对齐概念语义关联的带权平均” 概念语义关联权重

相似度计算(2) • 考虑到对齐的非对称性，两个指称项之间的相似度被定义为从ol到ok的和从ok到ol的语义关联度平均 • 相似度考虑了两个方面： • 表示中概念的对应关系 • 指称项概念的语义关联

实体指称项聚类算法 • 实体指称项根据它们之间的相似度进行聚类 • 相似度阈值通过留一测试(Leave-one-out)确定 Distance MJ1 MJ2 MJ3 MJ4

实验 • 使用WePS数据集测试 • 使用结构化关联语义核的实体相似度能够提升10.7%的消歧性能

vs. State-of-Art 与WePS2系统性能对比与WePS1系统性能对比

实体链接 • 将文本中实体提及与其知识库中的所指进行链接实现消歧 • 知识库作为真实世界的映射 • 实现文本到知识的连接 • 考虑到实体链接依赖于大量背景知识，提出 • 基于实体-提及模型的实体链接算法 • 考虑到篇章中实体之间的主题一致性，提出 • 基于图的协同实体链接算法信息检索研究室-中科院软件所

实体链接--Demo 文本知识库 ID: 00000002 Name: 迈克尔·乔丹 Category: Basketball Player Description: “美国NBA著名篮球运动员，被称为“空中飞人,…” Name: 美利坚合众国 Category : Country Description: “是一个宪政联邦共和制国家，…” Name: National Basketball Association Category : Basketball Association Description: “美国第一大职业篮球联盟，…” Name: 耐克公司 Category : Sportswear Company Description: “全球著名的体育用品公司，…” 迈克尔·乔丹：美国 NBA 著名篮球运动员，他为联盟带来至少100亿的收入，也把耐克公司从一家小公司 … 公民 ID: 00010992 球员位于赞助商 ID: 10010974 赞助商 ID: 50610007 信息检索研究室-中科院软件所

基于实体-提及模型的实体链接 • 实体链接依赖于大量背景知识 • 实体的Popularity（知名度）知识 • 新闻中更可能出现朱德（将军），而不是朱德（理发师） • 实体的名字知识 • IBM比全称International Business Machines更容易作为IBM公司的名字出现 • 实体的上下文知识 • 词NBA更可能出现在NBA球星乔丹周围，而不是机器学习教授乔丹 • 提出了实体-提及模型来融合上述异构知识信息检索研究室-中科院软件所

﹖ √ ACL会议关键在于如何建模实体的知名度知识、名字知识和上下文知识 ﹖ ╳

实体-提及模型(EM Model) 在实体-提及模型中,每一个命名性提及m都被建模为通过下述生成过程(generative story)产生的样本 : KB 1. EM Model根据实体的知名度P(e)选取提及m的目标实体e 实体的知名度知识、名字知识和上下文知识依次被建模为概率分布P(e), P(s|e), P(c|e) NBA球星迈克尔乔丹 2. EM Model根据实体的名字知识P(s|e)选取提及m的名字s 乔丹 3. EM Model根据实体的上下文知识P(c|e)输出提及m的上下文c 乔丹在1984年加入NBA 信息检索研究室-中科院软件所

基于实体-提及模型的实体链接 • 基于上述模型, 实体e是提及m目标实体的概率: • 模型选择能最大化条件概率P(e|m)的实体e作为其提及m的目标实体信息检索研究室-中科院软件所

模型估计 Graph based Interdependence Modeling

训练语料 • 训练语料是基于Wikipedia超链接结构构建的语料 • 共包含超过23,000,000标注好的实体链接语料

实体知名度模型—P(e) • 建模“特定实体的知名度”的知识，我们将其量化为在文章中提起该特定实体的概率P(e) • 某种程度上是实体e作为提及m目标实体的先验概率

实体知名度模型 • 一个更知名的实体会在大文档集(如Web)中出现更多次，因此P(e)可以通过如下方式估计 : 实体e出现次数所有实体的出现次数

实体名字模型– P(s|e) • 建模“我们如何称呼一个实体”的知识 • 许多种方式:全名, 别名, 缩写或者拼写错误 • 是处理实体名字多样性问题的关键知识

实体名字模型 • 我们假设实体名s是实体全名f的一个IBM模型1翻译 • 一个词可以通过如下方式翻译 • 保持原始形式：迈克尔 迈克尔 • 缩写：亲爱的 亲 • 省略：温家宝总理 … 总理 • 翻译为其它词语：乔丹 佐顿，乔丹神

实体名字模型 • 基于IBM translation model I，使用Giza++训练

实体上下文模型—P(c|e) • 建模“我们谈论实体的哪些内容” • 提供消歧的核心证据 • 词NBA的出现可以为乔丹指向NBA球星乔丹提供多少证据？ • 词统计的出现可以为乔丹指向机器学习教授乔丹提供多少证据？ • 如果同时出现词NBA和统计呢？

Web 文本中的实体消歧