1 / 12

Query-Title 语义一致识别算法

Query-Title 语义一致识别算法. 刘 树林 中国科学院自动化研究所 模式识别国家重点实验室. 目录. 问题及算法概述 相似度打分 Query 和 Title 扩展 分类及过滤 测试结果. 问题及算法概述. 基于 机器学习的方法 各种 分类算法 机器翻译 大赛 的特殊性 标注 数据少 我 的算法 直接 计算 query 和 title 之间的相似度,根据相似度进行分类. 问题及算法概述 - 数据准备. 停 用词表 自定义 分词词典 抓取 title 所在网页 统计 短查询词相关性.

erica-dale
Download Presentation

Query-Title 语义一致识别算法

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Query-Title语义一致识别算法 刘树林 中国科学院自动化研究所 模式识别国家重点实验室

  2. 目录 • 问题及算法概述 • 相似度打分 • Query和Title扩展 • 分类及过滤 • 测试结果

  3. 问题及算法概述 • 基于机器学习的方法 • 各种分类算法 • 机器翻译 • 大赛的特殊性 • 标注数据少 • 我的算法 • 直接计算query和title之间的相似度,根据相似度进行分类

  4. 问题及算法概述-数据准备 • 停用词表 • 自定义分词词典 • 抓取title所在网页 • 统计短查询词相关性

  5. 问题及算法概述-问题分类 • 问题分析 对query和title分别进行分词及词性标注,并按照词性将词语分为以下几类(见表1) • 计算相似度 对每个(query,title)对进行相似度计算

  6. 相似度计算 • 词与词的相似度 利用计算所刘群老师提出的基于知网的词汇语义相似度计算方法,使用人大夏天实现的开源工具包 Xsimilarity 任何两个词语的相似度都被映射到[0,1] • 问题: 1. 该算法无法识别反义信息。 若不相关的词相似性为0,那么反义词相似性应该为负数,但是该算法只能将相似度映射到 [0,1] 纠正方法:加入反义词典进行校正。遗憾的是,没有找到类似的词典,因此算法没有解决这一问题。 2.该算法带来的噪音。 该词汇相似度计算方法,对相关的词相似度得分过高。 解决方法:根据词性不同,后期校正相似度。对{PER,LOC,ORG,STR}的相似度进行了后续处理。

  7. 相似度计算 利用query和title分词序列构建带权二分图 在二分图上求解最大匹配 最大匹配扩展 上例求出来的最大匹配为: (减肥,瘦身)(什么,什么),(产品,产品),(好,好)(null,用) 扩展后的匹配: (减肥,瘦身)(什么,什么),(产品,产品),(好,好)(用,用)

  8. 相似度计算 计算最大匹配加权和 • 若y[i]=-1,则Sim(q[y[i], ti])=0, • Query-title相似度 • 其中op1、op2为参数,用于调整query和title的相对重要程度

  9. Query扩展和title扩展 • Query扩展 对于只有一个查询词的情况进行扩展 • Title扩展 利用原页面中的相关问题进行扩展

  10. 分类及结果过滤 • 选出语义相同候选答案 • 过滤错误 • 剔除答案类别不同的(query, title) • 剔除关键词差异大的(query, title) • 关键词词性限制:{NN,PER,LOC,ORG,STR,TIM,NUM}

  11. 测试结果

  12. 谢谢!

More Related