210 likes | 437 Views
qt一致性大赛算法描述. 蔡 洽 吾 NLP Group ICT 23 September 20 13. qt一致性大赛算法描述. My Tag. 中科院计算所. 研二. NLP. qt一致性大赛算法描述. Outline. Task Description Preprocessing My Solutions Postprocessing Experiments Conclusion. qt一致性大赛算法描述. Task Description. Exp:. A: 诺贝尔文学奖是从什么时候开始 ? B:诺贝尔文学奖是怎么评选出来的?.
E N D
qt一致性大赛算法描述 蔡 洽 吾 NLP Group ICT 23September 2013
qt一致性大赛算法描述 My Tag 中科院计算所 研二 NLP
qt一致性大赛算法描述 Outline • Task Description • Preprocessing • My Solutions • Postprocessing • Experiments • Conclusion
qt一致性大赛算法描述 Task Description Exp: A:诺贝尔文学奖是从什么时候开始? B:诺贝尔文学奖是怎么评选出来的? Semantic Textual Similarity & Paraphrase Detection Datasets: 训练集:800句 测试集:150000句,包括queries、titles和url资源
qt一致性大赛算法描述 Data Analysis • 测试集中q和t一致的句对数:3000句左右 • 训练集和测试集重复的句对数:30句左右 • NE数量(人名、机构名、地方名、数词时间词): • 4万多个 • 平均每五行 • 字、词分布
qt一致性大赛算法描述 Outline • Task Description • Preprocessing • My Solutions • Postprocessing • Experiments • Conclusion
qt一致性大赛算法描述 Preprocessing • GB18030 UTF-8 • stop words • Split: • Segment: ICTCLAS • Word2vector: • Word Embedding -> word vector • Gensim: • TF-IDF: word weigiht • Topic Model: sentence vector
qt一致性大赛算法描述 Outline • Task Description • Preprocessing • My Solutions • Postprocessing • Experiments • Conclusion
qt一致性大赛算法描述 Simple Try... sent1 -> [0, 0, 1, ..., 0, 1] sent2 -> [0, 0, 1, ..., 0, 1] • step1: • compute cos(sent1, sent2) • step2: • set threshold result: word: F: 45 split: F: 49
qt一致性大赛算法描述 Second Try... 噪声信道模型 • step1 : • GIZA: get p(fi, ej) • step2 : • set a threshold result: word: F: 49 split: F: 51
qt一致性大赛算法描述 Third Try... SVM Model : libsvm features: 1. 1-gram match 2. 2-gram match 3. tfidf-weight vector similarity 4. relative ic difference 5. number match 6. hownet similarity match 7. word-vector similarity 8. topic similarity 9. GIZA trans probability ....... result: word: F: 53 split: F: 56
qt一致性大赛算法描述 Combine Linear Regression GBRT Maxent
qt一致性大赛算法描述 Outline • Task Description • Preprocessing • My Solutions • Postprocessing • Experiments • Conclusion
qt一致性大赛算法描述 Postprocessing: strategy 1 • Intuition: • 如果单边有数字或英文,另一边应该也要有 adobe reader x 注 册 谁 说 adobe reader x 10.1.0 要 注 册 码 ? 根 本 不 用 。 戴 尔 灵 越 系 列 发 热 太 严 重 怎 么 解 决 戴 尔 灵 越 15r 显 卡 发 热 严 重 怎 么 处 理
qt一致性大赛算法描述 Postprocessing: strategy 2 • Intuition: • 如果单边有NE,另一边应该也要有 端 午 节 高 峰 期 端 午 节 去 厦 门 玩 , 请 问 厦 门 大 学 学 生 公 寓 怎 么 样 ?
qt一致性大赛算法描述 Postprocessing: strategy 3 • Intuition: • 如果单边有固定用词的话,另一边也要有 • 如: • 又如: • 又如: w262 充 电 w262 不 充 电 2013 年 6 月 6 日 农 历 2013 年 6 月 1 日 结 婚 好 不 好 ? 农 历 是 4 月 23 日 , 懂 得 大 侠 指 教 一 下 舒 淇 演 过 多 少 部 三 些 片 舒 淇 和 外 国 的 男 演 员 共 拍 过 几 部 电 影 分 别 是 什 么 名 字 ?
qt一致性大赛算法描述 Outline • Task Description • Preprocess • My Solutions • Postprocessing • Experiments • Conclusion
qt一致性大赛算法描述 Experiment
qt一致性大赛算法描述 Outline • Task Description • Preprocessing • My Solutions • Postprocessing • Experiments • Conclusion
:-) Thanks! qt一致性大赛算法描述 Conclusion • 对问题的调研和定位很重要 • 语料的分析很重要 • 头脑风暴很重要 • 细节的处理很重要 • 可扩展的工作: • 词语归一化 • 设计适应于query的句法信息 • 使用外部知识库 • 半监督
qt一致性大赛算法描述 Reference 1. SemEval-2012 Task 6: A pilot on Semantic Textual Similarity 2. TakeLab: System for Measuring Semantic Text Similarity 3. Sematic Similarity for Short Text 4. From Frequency to Meaning: Vector Space Models of Semantics