slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
QT 语义一致性 PowerPoint Presentation
Download Presentation
QT 语义一致性

Loading in 2 Seconds...

play fullscreen
1 / 12

QT 语义一致性 - PowerPoint PPT Presentation


  • 136 Views
  • Uploaded on

QT 语义一致性. 王朋朋 浙江大学. 主要方法. TF-IDF 编辑距离 Jaccard 相似度 分词结果对齐 词性过滤 词性特征 同义词 算法设计. TF-IDF. 分词: ICTCLAS 方法:合并 train 与 test ,计算词的 idf 值 目标:降低无关词的权重,增加关键词的权重. 编辑距离. 方法:增加 “替换”操作的权重 ,根据 query 和 title 的长度做归一化 处理 替换权重: 1.5 归一化 : 目标 :替换操作会使句子的语义发生较大的变化, 如 “现代 新途胜的年销售量 ”

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'QT 语义一致性' - tate-wheeler


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

QT语义一致性

王朋朋

浙江大学

slide2
主要方法
  • TF-IDF
  • 编辑距离
  • Jaccard相似度
  • 分词结果对齐
  • 词性过滤
  • 词性特征
  • 同义词
  • 算法设计
tf idf
TF-IDF
  • 分词:ICTCLAS
  • 方法:合并train与test,计算词的idf值
  • 目标:降低无关词的权重,增加关键词的权重
slide4
编辑距离
  • 方法:增加“替换”操作的权重 ,根据query和title的长度做归一化处理
      • 替换权重:1.5
      • 归一化:
  • 目标:替换操作会使句子的语义发生较大的变化,如
      • “现代新途胜的年销售量”
      • “现代I30月销售量是多少啊”
  • 归一化可以避免长句跟短句不可比的情况
jaccard
Jaccard相似度
  • 方法:|A intersect B| / |A union B|
  • 目标:衡量query与title的关键词重合度,计算时选取名词
slide6
分词结果对齐
  • 方法:

微信视频安全吗

手机下载微信安全吗

微信视频安全吗

手机下载微信安全吗

  • 目标:分词器缺乏好的词库,分词结果不准确。
slide7
词性过滤
  • 方法:过滤叹词,连词,介词,语气词等干扰词,过滤名词,\x(分词器未标注的词)中长度小于1的词
  • 目标:降低无关词的干扰
slide8
词性特征
  • 方法:使用向量模型计算query和title的相似度,计算时取动词,副词,形容词以及词性标注为ns,nz的词,PosValue
  • 目标:衡量query与title的限定词重合度,作为第二个判定指标(提高了约3个点,0.54到0.57)。
slide9
同义词
  • 方法:word2vec,训练train和test,词与词之间的相似度,计算query和title的相似度(完全相同的词相似度置为0)
  • 目标:解决概念一致但是描述不同的case,提高约1个点
slide10
算法设计

上面两个参数是根据经验设置的,并且如果编辑距离和jacardSim大于某个特定值直接返回1,最后设定sim的阈值

slide11
可改进的地方
  • 结合编辑距离和词性特征,使得操作不同词性的时候有不同的权值,更细致地去区分query和title
  • 选取好的词库和大的语料计算idf值以及同义词,以便逼近真实数据
  • 句法分析,提取特殊结构,如“的”字短语,分析依存关系,抽取关键词和限定词并比对