1 / 28

英文 Stemmer & Chunking

英文 Stemmer & Chunking. 英语 NLP 开拓组 2008.11. Stemmer 项目. Outline. 项目简介 技术方案 项目评估 应用 项目总结 Reference. 项目简介. 项目背景 项目目标 项目成员 项目时间. 项目背景. 随着网站规模的扩大以及 query 量的增大, B2B 原有的 stemming 算法已经不能满足现在的需求。 目前的 B2B 在线的 Stemmer Tool 不能灵活增加特殊词表。. 项目目标. 基于 Porter2 算法的开发,抽取一个英文单词的词干。

edythe
Download Presentation

英文 Stemmer & Chunking

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 英文Stemmer & Chunking 英语NLP开拓组 2008.11

  2. Stemmer项目 asc irm-saa 部门 08 年终总结

  3. Outline • 项目简介 • 技术方案 • 项目评估 • 应用 • 项目总结 • Reference asc irm-saa 部门 08 年终总结

  4. 项目简介 • 项目背景 • 项目目标 • 项目成员 • 项目时间 asc irm-saa 部门 08 年终总结

  5. 项目背景 • 随着网站规模的扩大以及query量的增大,B2B原有的stemming算法已经不能满足现在的需求。 • 目前的B2B在线的Stemmer Tool不能灵活增加特殊词表。 asc irm-saa 部门 08 年终总结

  6. 项目目标 • 基于Porter2算法的开发,抽取一个英文单词的词干。 • 应用于B2B国际站的建索引,查询扩展,购物者的Query分析,Offer的相关性排序。 asc irm-saa 部门 08 年终总结

  7. 项目人员和项目时间 • 项目成员 • 项目经理:林锋 • 成员:来夏莹(实习生) • 开发时间 • 2008/08/01 – 2008/08/29 asc irm-saa 部门 08 年终总结

  8. 技术方案 • 系统流程 • 数据资源 asc irm-saa 部门 08 年终总结

  9. 系统流程 输入的词 去掉’s, ’d, ’t等后缀 是否在特殊词表中 是 否 找到对应的词 基于Porter2000 算法去根 输出 asc irm-saa 部门 08 年终总结

  10. Porter 2000算法中的部分规则 • tional:   replace by tion • enci:   replace by ence • anci:   replace by ance • abli:   replace by able • entli:   replace by ent • izer   ization:   replace by ize • ational   ation   ator:   replace by ate • alism   aliti   alli:   replace by al • fulness:   replace by ful • ousli   ousness:   replace by ous • iveness   iviti:   replace by ive • biliti   bli+:   replace by ble • ogi+:   replace by og if preceded by l • fulli+:   replace by ful • lessli+:   replace by less • li+:   delete if preceded by a valid li-ending asc irm-saa 部门 08 年终总结

  11. 数据资源 • 国际站一年的Query Log。 • 国际站产品组积累的不需要去跟的特殊词,比如moulding,metallizer等。 asc irm-saa 部门 08 年终总结

  12. 项目评估(1) • 新版本与B2B在线版本的性能比较 • 数据来源:国际站的Query Log • 语料大小:600 个词 asc irm-saa 部门 08 年终总结

  13. 项目评估(2) • 新版本与B2B在线版本的运行性能比较 • 数据来源:国际站的Query Log • 语料大小:427M • 测试平台:服务器KBS10(Xeon 5405*2/4G RAM/750G SATA*2) asc irm-saa 部门 08 年终总结

  14. 应用 • B2B国际站建索引 • 英文MLR项目 • 英文Query分析 • …… asc irm-saa 部门 08 年终总结

  15. Reference • Wiki • http://asc.alibaba-inc.com/wiki/index.php/EN-NLP • DEMO • http://kbs10.asc.cnz.alimama.com/stemmer/stemmer.php asc irm-saa 部门 08 年终总结

  16. Chunking项目 asc irm-saa 部门 08 年终总结

  17. Outline • 项目简介 • 技术方案 • 应用 • 下一步计划 • Reference 17 asc irm-saa 部门 08 年终总结 asc irm-saa 部门 08 年终总结

  18. 项目简介 项目背景 NP ( Noun Phrase ) Chunking是自然语言处理的一项基本任务 Example: [ store unit ] with [ mirror ] “Store unit” 和 “mirror”就是NP 现有的Chunking工具从代码结构、可用性上与实际需求还存在一些差距 18 asc irm-saa 部门 08 年终总结 asc irm-saa 部门 08 年终总结

  19. 项目简介 项目目的 完成一个NP Chunking 工具 好的代码组织结构和编程风格 扩展性:支持用户自定义rule 项目成员 项目经理:林锋 项目成员:郭家清 刘书良 项目时间 项目规模:8人周 预计开发时间: 2008/11/20 – 2008/12/30 19 asc irm-saa 部门 08 年终总结 asc irm-saa 部门 08 年终总结

  20. 技术方案 相关工作 Pos Tagger工具 fnTBL,一个基于TBL机器学习方法的自然语言处理工具包 一个demo 版本的NP-Chunking 工具 20 asc irm-saa 部门 08 年终总结 asc irm-saa 部门 08 年终总结

  21. 技术方案 系统流程图 21 asc irm-saa 部门 08 年终总结 asc irm-saa 部门 08 年终总结

  22. 技术方案 规则定义 T0T1P0 I O JJ O 模板名称 模板参数 转换类型 模板名称规则: T0 T1P0 模板参数规则: I O JJ 模板名称与参数的对应关系 规则之间关系 规则的优先级依次降低 必须按规则的顺序依次执行 TBL训练方法决定了规则的优先级 22 asc irm-saa 部门 08 年终总结 asc irm-saa 部门 08 年终总结

  23. 技术方案 规则库来源 运用TBL的机器学习方法,针对Wall Street Journal语料总结出来的一系列转换规则 通过规则库转换过程 运用规则索引技术组织规则,快速发现句子适用的规则组 对句子运用对应的规则组进行转换 23 asc irm-saa 部门 08 年终总结 asc irm-saa 部门 08 年终总结

  24. 技术方案 数据资源 Wall Street Journal 基于Wall Street Journal的规则库 24 asc irm-saa 部门 08 年终总结 asc irm-saa 部门 08 年终总结

  25. 应用 E-Chunking工具是英文NLP的一个基础工具,许多项目都需要他的支持: English Query Rewrite English Knowledge Base KeyWordExtraction Thematic-words Extraction …… asc irm-saa 部门 08 年终总结

  26. 下一步计划 以B2B query和offer为语料基础,训练规则,提高系统召回率和准确率。 尝试其它方法进行NP-Chunking 条件随机场(Conditional Random Fields, CRF) 支持向量机(Support Vector Machine,SVM) asc irm-saa 部门 08 年终总结

  27. Reference 项目主页 http://asc.alibaba-inc.com/wiki/index.php/E-Chunking 其他参考资料 Introductioni to the CoNIL-2000 shared task Chunking.pdf Text Chunking-Transforamtion based learning.pdf http://www.cs.jhu.edu/~rflorian/fntbl/index.html asc irm-saa 部门 08 年终总结

  28. THE END THANKS! 联系人:林锋 E-mail: frank.linf@alibaba-inc.com 电话:分机30760 联系人:刘书良 E-mail: shuliang.liu@alibaba-inc.com 电话:分机85960 asc irm-saa 部门 08 年终总结

More Related