slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Q T PowerPoint Presentation
Download Presentation
Q T

Loading in 2 Seconds...

play fullscreen
1 / 13

Q T - PowerPoint PPT Presentation


  • 91 Views
  • Uploaded on

Q T. /. 陈 德 @ 浙江大学. Jaccard Similarity. 编辑距离. 规则. 分词. ICTCLAS. Q: 妄想 /v 性 /n 仮 /x 想 /v 人格 /n 障 / ng 害 /v T: 妄想 /v 性 /n 仮 /x 想 /v 人格 /n 障 / ng 害 /v 第二 /m 关 /n 找 /v 不 到 /v 初始 /b 位子 /n 。 / wj. 词 对齐. Q: 妄想 性仮想人格障害 / zz

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Q T' - abigail-zamora


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

QT

/

陈德 @浙江大学

slide2

Jaccard Similarity

编辑距离

规则

slide3

分词

ICTCLAS

Q:妄想/v 性/n 仮/x 想/v 人格/n 障/ng害/v

T: 妄想/v 性/n 仮/x 想/v 人格/n 障/ng害/v 第二/m 关/n 找/v

不到/v 初始/b 位子/n 。/wj

词对齐

Q: 妄想性仮想人格障害/zz

T: 妄想性仮想人格障害/zz第二/m 关/n 找/v 不到/v 初始/b 位

子/n 。/wj

slide4

词过滤

POS

助词(\u)叹词(\e)标点(\w)

连词(\c)语气词(\r)

某些特定类型词:邮箱名、客气词等。

slide5

词权值

TF-IDF、词长度

train4user.txt、test4user.txt

妄想性仮想人格障害/zz/2.9904

妄想性仮想人格障害/zz/1.3373第二/m/0.2494关/n/0.4392找/v/0.2069不到/v/0.4088初始/b/0.8123位子/n/1.1081

slide6

相似度

: 分词前的原始字符串

添加(1)、删除(1)、替换(1.2)

: 处理后的词数组

添加()、添加()、

替换

slide8

初始判别

0.75

1

0.48

slide9

相似度调整

规则使用

升高相似度

0

1

相似度

降低相似度

slide10

规则

降低

  • 某词性在且仅在Query、Title之一中出现
  • 处所词(s): 外地、国外、网上……
  • 方位词( f): 外侧、里面、附近……
  • 数词(m): 20、二、2013
  • 字符串(x): pdf、i9100、iphone
  • 某些词在Query、Title中出现的情况
    • 在之一中存在()
    • 同时存在但没有共同的词()
  • 地名(ns):北京、上海、日本
  • 疑问代词(ry):为什么、怎么、如何
slide11

规则

升高

  • 某些词在Query、Title中同时出现
  • 地名(ns):北京、上海、日本
  • 疑问代词(ry):为什么、怎么、如何
  • 字符串(x): pdf、i9100、iphone
  • 降低Query和Title中首尾词的权值,词性/zz,/ns除外
slide12

不足与改进

  • 分词结果不够理想,可以选用好的分词工具,添加丰富的用户词库。
  • 没有考虑到同义词,尤其在编辑距离的计算中影响巨大。
  • 仅通过TF-IDF和词的长度来判断词的重要性,不够准确。
  • 缺乏语法语义上的分析。