1 / 13

Q T

Q T. /. 陈 德 @ 浙江大学. Jaccard Similarity. 编辑距离. 规则. 分词. ICTCLAS. Q: 妄想 /v 性 /n 仮 /x 想 /v 人格 /n 障 / ng 害 /v T: 妄想 /v 性 /n 仮 /x 想 /v 人格 /n 障 / ng 害 /v 第二 /m 关 /n 找 /v 不 到 /v 初始 /b 位子 /n 。 / wj. 词 对齐. Q: 妄想 性仮想人格障害 / zz

Download Presentation

Q T

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. QT / 陈德 @浙江大学

  2. Jaccard Similarity 编辑距离 规则

  3. 分词 ICTCLAS Q:妄想/v 性/n 仮/x 想/v 人格/n 障/ng害/v T: 妄想/v 性/n 仮/x 想/v 人格/n 障/ng害/v 第二/m 关/n 找/v 不到/v 初始/b 位子/n 。/wj 词对齐 Q: 妄想性仮想人格障害/zz T: 妄想性仮想人格障害/zz第二/m 关/n 找/v 不到/v 初始/b 位 子/n 。/wj

  4. 词过滤 POS 助词(\u)叹词(\e)标点(\w) 连词(\c)语气词(\r) 某些特定类型词:邮箱名、客气词等。

  5. 词权值 TF-IDF、词长度 train4user.txt、test4user.txt 妄想性仮想人格障害/zz/2.9904 妄想性仮想人格障害/zz/1.3373第二/m/0.2494关/n/0.4392找/v/0.2069不到/v/0.4088初始/b/0.8123位子/n/1.1081

  6. 相似度 : 分词前的原始字符串 添加(1)、删除(1)、替换(1.2) : 处理后的词数组 添加()、添加()、 替换

  7. 初始判别 0.75 1 0.48

  8. 相似度调整 规则使用 升高相似度 0 1 相似度 降低相似度

  9. 规则 降低 • 某词性在且仅在Query、Title之一中出现 • 处所词(s): 外地、国外、网上…… • 方位词( f): 外侧、里面、附近…… • 数词(m): 20、二、2013 • 字符串(x): pdf、i9100、iphone • 某些词在Query、Title中出现的情况 • 在之一中存在() • 同时存在但没有共同的词() • 地名(ns):北京、上海、日本 • 疑问代词(ry):为什么、怎么、如何

  10. 规则 升高 • 某些词在Query、Title中同时出现 • 地名(ns):北京、上海、日本 • 疑问代词(ry):为什么、怎么、如何 • 字符串(x): pdf、i9100、iphone • 降低Query和Title中首尾词的权值,词性/zz,/ns除外

  11. 不足与改进 • 分词结果不够理想,可以选用好的分词工具,添加丰富的用户词库。 • 没有考虑到同义词,尤其在编辑距离的计算中影响巨大。 • 仅通过TF-IDF和词的长度来判断词的重要性,不够准确。 • 缺乏语法语义上的分析。

  12. 谢谢

More Related