query title n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Query-Title 语义一致识别算法 PowerPoint Presentation
Download Presentation
Query-Title 语义一致识别算法

Loading in 2 Seconds...

play fullscreen
1 / 12

Query-Title 语义一致识别算法 - PowerPoint PPT Presentation


  • 289 Views
  • Uploaded on

Query-Title 语义一致识别算法. 刘 树林 中国科学院自动化研究所 模式识别国家重点实验室. 目录. 问题及算法概述 相似度打分 Query 和 Title 扩展 分类及过滤 测试结果. 问题及算法概述. 基于 机器学习的方法 各种 分类算法 机器翻译 大赛 的特殊性 标注 数据少 我 的算法 直接 计算 query 和 title 之间的相似度,根据相似度进行分类. 问题及算法概述 - 数据准备. 停 用词表 自定义 分词词典 抓取 title 所在网页 统计 短查询词相关性.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Query-Title 语义一致识别算法' - erica-dale


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
query title

Query-Title语义一致识别算法

刘树林

中国科学院自动化研究所 模式识别国家重点实验室

slide2
目录
  • 问题及算法概述
  • 相似度打分
  • Query和Title扩展
  • 分类及过滤
  • 测试结果
slide3
问题及算法概述
  • 基于机器学习的方法
  • 各种分类算法
  • 机器翻译
  • 大赛的特殊性
  • 标注数据少
  • 我的算法
  • 直接计算query和title之间的相似度,根据相似度进行分类
slide4
问题及算法概述-数据准备
  • 停用词表
  • 自定义分词词典
  • 抓取title所在网页
  • 统计短查询词相关性
slide5
问题及算法概述-问题分类
  • 问题分析

对query和title分别进行分词及词性标注,并按照词性将词语分为以下几类(见表1)

  • 计算相似度

对每个(query,title)对进行相似度计算

slide6
相似度计算
  • 词与词的相似度

利用计算所刘群老师提出的基于知网的词汇语义相似度计算方法,使用人大夏天实现的开源工具包

Xsimilarity

任何两个词语的相似度都被映射到[0,1]

  • 问题:

1. 该算法无法识别反义信息。

若不相关的词相似性为0,那么反义词相似性应该为负数,但是该算法只能将相似度映射到 [0,1]

纠正方法:加入反义词典进行校正。遗憾的是,没有找到类似的词典,因此算法没有解决这一问题。

2.该算法带来的噪音。

该词汇相似度计算方法,对相关的词相似度得分过高。

解决方法:根据词性不同,后期校正相似度。对{PER,LOC,ORG,STR}的相似度进行了后续处理。

slide7
相似度计算

利用query和title分词序列构建带权二分图

在二分图上求解最大匹配

最大匹配扩展

上例求出来的最大匹配为:

(减肥,瘦身)(什么,什么),(产品,产品),(好,好)(null,用)

扩展后的匹配:

(减肥,瘦身)(什么,什么),(产品,产品),(好,好)(用,用)

slide8
相似度计算

计算最大匹配加权和

  • 若y[i]=-1,则Sim(q[y[i], ti])=0,
  • Query-title相似度
  • 其中op1、op2为参数,用于调整query和title的相对重要程度
query title1
Query扩展和title扩展
  • Query扩展

对于只有一个查询词的情况进行扩展

  • Title扩展

利用原页面中的相关问题进行扩展

slide10
分类及结果过滤
  • 选出语义相同候选答案
  • 过滤错误
  • 剔除答案类别不同的(query, title)
  • 剔除关键词差异大的(query, title)
  • 关键词词性限制:{NN,PER,LOC,ORG,STR,TIM,NUM}