120 likes | 444 Views
Query-Title 语义一致识别算法. 刘 树林 中国科学院自动化研究所 模式识别国家重点实验室. 目录. 问题及算法概述 相似度打分 Query 和 Title 扩展 分类及过滤 测试结果. 问题及算法概述. 基于 机器学习的方法 各种 分类算法 机器翻译 大赛 的特殊性 标注 数据少 我 的算法 直接 计算 query 和 title 之间的相似度,根据相似度进行分类. 问题及算法概述 - 数据准备. 停 用词表 自定义 分词词典 抓取 title 所在网页 统计 短查询词相关性.
E N D
Query-Title语义一致识别算法 刘树林 中国科学院自动化研究所 模式识别国家重点实验室
目录 • 问题及算法概述 • 相似度打分 • Query和Title扩展 • 分类及过滤 • 测试结果
问题及算法概述 • 基于机器学习的方法 • 各种分类算法 • 机器翻译 • 大赛的特殊性 • 标注数据少 • 我的算法 • 直接计算query和title之间的相似度,根据相似度进行分类
问题及算法概述-数据准备 • 停用词表 • 自定义分词词典 • 抓取title所在网页 • 统计短查询词相关性
问题及算法概述-问题分类 • 问题分析 对query和title分别进行分词及词性标注,并按照词性将词语分为以下几类(见表1) • 计算相似度 对每个(query,title)对进行相似度计算
相似度计算 • 词与词的相似度 利用计算所刘群老师提出的基于知网的词汇语义相似度计算方法,使用人大夏天实现的开源工具包 Xsimilarity 任何两个词语的相似度都被映射到[0,1] • 问题: 1. 该算法无法识别反义信息。 若不相关的词相似性为0,那么反义词相似性应该为负数,但是该算法只能将相似度映射到 [0,1] 纠正方法:加入反义词典进行校正。遗憾的是,没有找到类似的词典,因此算法没有解决这一问题。 2.该算法带来的噪音。 该词汇相似度计算方法,对相关的词相似度得分过高。 解决方法:根据词性不同,后期校正相似度。对{PER,LOC,ORG,STR}的相似度进行了后续处理。
相似度计算 利用query和title分词序列构建带权二分图 在二分图上求解最大匹配 最大匹配扩展 上例求出来的最大匹配为: (减肥,瘦身)(什么,什么),(产品,产品),(好,好)(null,用) 扩展后的匹配: (减肥,瘦身)(什么,什么),(产品,产品),(好,好)(用,用)
相似度计算 计算最大匹配加权和 • 若y[i]=-1,则Sim(q[y[i], ti])=0, • Query-title相似度 • 其中op1、op2为参数,用于调整query和title的相对重要程度
Query扩展和title扩展 • Query扩展 对于只有一个查询词的情况进行扩展 • Title扩展 利用原页面中的相关问题进行扩展
分类及结果过滤 • 选出语义相同候选答案 • 过滤错误 • 剔除答案类别不同的(query, title) • 剔除关键词差异大的(query, title) • 关键词词性限制:{NN,PER,LOC,ORG,STR,TIM,NUM}