1 / 21

qt一致性大赛算法描述

qt一致性大赛算法描述. 蔡 洽 吾 NLP Group ICT 23 September 20 13. qt一致性大赛算法描述. My Tag. 中科院计算所. 研二. NLP. qt一致性大赛算法描述. Outline. Task Description Preprocessing My Solutions Postprocessing Experiments Conclusion. qt一致性大赛算法描述. Task Description. Exp:. A: 诺贝尔文学奖是从什么时候开始 ? B:诺贝尔文学奖是怎么评选出来的?.

velma
Download Presentation

qt一致性大赛算法描述

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. qt一致性大赛算法描述 蔡 洽 吾 NLP Group ICT 23September 2013

  2. qt一致性大赛算法描述 My Tag 中科院计算所 研二 NLP

  3. qt一致性大赛算法描述 Outline • Task Description • Preprocessing • My Solutions • Postprocessing • Experiments • Conclusion

  4. qt一致性大赛算法描述 Task Description Exp: A:诺贝尔文学奖是从什么时候开始? B:诺贝尔文学奖是怎么评选出来的? Semantic Textual Similarity & Paraphrase Detection Datasets: 训练集:800句 测试集:150000句,包括queries、titles和url资源

  5. qt一致性大赛算法描述 Data Analysis • 测试集中q和t一致的句对数:3000句左右 • 训练集和测试集重复的句对数:30句左右 • NE数量(人名、机构名、地方名、数词时间词): • 4万多个 • 平均每五行 • 字、词分布

  6. qt一致性大赛算法描述 Outline • Task Description • Preprocessing • My Solutions • Postprocessing • Experiments • Conclusion

  7. qt一致性大赛算法描述 Preprocessing • GB18030  UTF-8 • stop words • Split: • Segment: ICTCLAS • Word2vector: • Word Embedding -> word vector • Gensim: • TF-IDF: word weigiht • Topic Model: sentence vector

  8. qt一致性大赛算法描述 Outline • Task Description • Preprocessing • My Solutions • Postprocessing • Experiments • Conclusion

  9. qt一致性大赛算法描述 Simple Try... sent1 -> [0, 0, 1, ..., 0, 1] sent2 -> [0, 0, 1, ..., 0, 1] • step1: • compute cos(sent1, sent2) • step2: • set threshold result: word: F: 45 split: F: 49

  10. qt一致性大赛算法描述 Second Try... 噪声信道模型 • step1 : • GIZA: get p(fi, ej) • step2 : • set a threshold result: word: F: 49 split: F: 51

  11. qt一致性大赛算法描述 Third Try... SVM Model : libsvm features: 1. 1-gram match 2. 2-gram match 3. tfidf-weight vector similarity 4. relative ic difference 5. number match 6. hownet similarity match 7. word-vector similarity 8. topic similarity 9. GIZA trans probability ....... result: word: F: 53 split: F: 56

  12. qt一致性大赛算法描述 Combine Linear Regression GBRT Maxent

  13. qt一致性大赛算法描述 Outline • Task Description • Preprocessing • My Solutions • Postprocessing • Experiments • Conclusion

  14. qt一致性大赛算法描述 Postprocessing: strategy 1 • Intuition: • 如果单边有数字或英文,另一边应该也要有 adobe reader x 注 册 谁 说 adobe reader x 10.1.0 要 注 册 码 ? 根 本 不 用 。 戴 尔 灵 越 系 列 发 热 太 严 重 怎 么 解 决 戴 尔 灵 越 15r 显 卡 发 热 严 重 怎 么 处 理

  15. qt一致性大赛算法描述 Postprocessing: strategy 2 • Intuition: • 如果单边有NE,另一边应该也要有 端 午 节 高 峰 期 端 午 节 去 厦 门 玩 , 请 问 厦 门 大 学 学 生 公 寓 怎 么 样 ?

  16. qt一致性大赛算法描述 Postprocessing: strategy 3 • Intuition: • 如果单边有固定用词的话,另一边也要有 • 如: • 又如: • 又如: w262 充 电 w262 不 充 电 2013 年 6 月 6 日 农 历 2013 年 6 月 1 日 结 婚 好 不 好 ? 农 历 是 4 月 23 日 , 懂 得 大 侠 指 教 一 下 舒 淇 演 过 多 少 部 三 些 片 舒 淇 和 外 国 的 男 演 员 共 拍 过 几 部 电 影 分 别 是 什 么 名 字 ?

  17. qt一致性大赛算法描述 Outline • Task Description • Preprocess • My Solutions • Postprocessing • Experiments • Conclusion

  18. qt一致性大赛算法描述 Experiment

  19. qt一致性大赛算法描述 Outline • Task Description • Preprocessing • My Solutions • Postprocessing • Experiments • Conclusion

  20. :-) Thanks! qt一致性大赛算法描述 Conclusion • 对问题的调研和定位很重要 • 语料的分析很重要 • 头脑风暴很重要 • 细节的处理很重要 • 可扩展的工作: • 词语归一化 • 设计适应于query的句法信息 • 使用外部知识库 • 半监督

  21. qt一致性大赛算法描述 Reference 1. SemEval-2012 Task 6: A pilot on Semantic Textual Similarity 2. TakeLab: System for Measuring Semantic Text Similarity 3. Sematic Similarity for Short Text 4. From Frequency to Meaning: Vector Space Models of Semantics

More Related