Query-Title 语义一致识别算法

Query-Title语义一致识别算法 刘树林中国科学院自动化研究所模式识别国家重点实验室

目录 • 问题及算法概述 • 相似度打分 • Query和Title扩展 • 分类及过滤 • 测试结果

问题及算法概述 • 基于机器学习的方法 • 各种分类算法 • 机器翻译 • 大赛的特殊性 • 标注数据少 • 我的算法 • 直接计算query和title之间的相似度，根据相似度进行分类

问题及算法概述-数据准备 • 停用词表 • 自定义分词词典 • 抓取title所在网页 • 统计短查询词相关性

问题及算法概述-问题分类 • 问题分析对query和title分别进行分词及词性标注，并按照词性将词语分为以下几类(见表1) • 计算相似度对每个(query,title)对进行相似度计算

相似度计算 • 词与词的相似度利用计算所刘群老师提出的基于知网的词汇语义相似度计算方法，使用人大夏天实现的开源工具包 Xsimilarity 任何两个词语的相似度都被映射到[0,1] • 问题： 1. 该算法无法识别反义信息。若不相关的词相似性为0，那么反义词相似性应该为负数，但是该算法只能将相似度映射到 [0,1] 纠正方法：加入反义词典进行校正。遗憾的是，没有找到类似的词典，因此算法没有解决这一问题。 2.该算法带来的噪音。该词汇相似度计算方法，对相关的词相似度得分过高。解决方法:根据词性不同，后期校正相似度。对{PER，LOC，ORG，STR}的相似度进行了后续处理。

相似度计算 利用query和title分词序列构建带权二分图在二分图上求解最大匹配最大匹配扩展上例求出来的最大匹配为： (减肥，瘦身）（什么，什么），（产品，产品），（好，好）（null，用）扩展后的匹配： (减肥，瘦身）（什么，什么），（产品，产品），（好，好）（用，用）

相似度计算 计算最大匹配加权和 • 若y[i]=-1,则Sim(q[y[i], ti])=0, • Query-title相似度 • 其中op1、op2为参数，用于调整query和title的相对重要程度

Query扩展和title扩展 • Query扩展对于只有一个查询词的情况进行扩展 • Title扩展利用原页面中的相关问题进行扩展

分类及结果过滤 • 选出语义相同候选答案 • 过滤错误 • 剔除答案类别不同的(query, title) • 剔除关键词差异大的(query, title) • 关键词词性限制：{NN，PER，LOC，ORG，STR，TIM，NUM}

测试结果

谢谢！

Query-Title 语义一致识别算法