1 / 26

探索中的搜狗智能组词

探索中的搜狗智能组词. ( 1 )智能组词技术介绍. 输入法结构. 外围开发:兼容性,皮肤,网络,用户帐号, UNICODE , 64 位,软件冲突. 内核开发:音字转换,南方音,笔画,五笔,用户词频,智能组词,长词联想,简拼. 后台开发:注音, bigram 模型和统计,语料,词源管理,新词发现. 音字转换. zuibukesiyideshiqing. Zui’bu’ke’si’yi’de’shi’qing. 智能组词. 系统词库. 用户词库. 细胞词库. 。。。。. 最不,嘴部,最,嘴,. 。。。。. 最不可思议的事情是.

kisha
Download Presentation

探索中的搜狗智能组词

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 探索中的搜狗智能组词

  2. (1)智能组词技术介绍

  3. 输入法结构 外围开发:兼容性,皮肤,网络,用户帐号, UNICODE,64位,软件冲突.. 内核开发:音字转换,南方音,笔画,五笔,用户词频,智能组词,长词联想,简拼 后台开发:注音,bigram模型和统计,语料,词源管理,新词发现

  4. 音字转换 zuibukesiyideshiqing Zui’bu’ke’si’yi’de’shi’qing 智能组词 系统词库 用户词库 细胞词库 。。。。 最不,嘴部,最,嘴, 。。。。 最不可思议的事情是 1. 最不可思议的事情是 2 最不 3 嘴部 4 …..

  5. 智能组词 Zui’bu’ke’si’yi’de’shi’qing 1)在同音的所有可能的组合中,取最大概率; 2)对字和词来说,对应于词频分布在总词频中的比例 ? 最不可思议的事情是

  6. Unigram模型(1元模型) henfangan 原理:认为相邻的两个字(词)是独立事件,概率相乘 hen Fan’gan hen Fang’an 很 反感 很 方案 代表: Sogou1.0 紫光输入法 拼音加加 恨 恨 狠 狠

  7. Bigram模型(2元模型) 原理:认为相邻的两个字(词)是非独立事件,存在一定组合概率 Fan’gan wo hen ta Fang’an 很 他 我 方案 恨 反感 它 喔 代表: Sogou1.5以上 Google输入法 Qq输入法 狠

  8. 从Unigram到Bigram • 空间问题 • 计算时间问题 10w词条 100亿组合 10G byte? Bigram 空间:10M 时间:100Ms Unigram (近似)平方时间 线性时间 Bigram Unigram

  9. 两大核心问题 • Bigram表的制作 • 搜狗输入法的词库 • 网页搜索引擎的分词引擎 • 网页搜索引擎提供的大量文本语料 • Bigram表的使用

  10. 文本集合选择 • 1)10G左右的summary文本,未经任何处理,1.5的水平 • 没有纵向对比,unigram->bigram的飞跃; • 2)扩大文本集合数量,增加至100G • 整体指标未变,但无效模板,重复网页,乱码等的影响显现 • 运营复杂,整体指标下滑; • 3)关注文本集合质量 • 去除乱码,去除重复网页,去除无效模板,控制在20G • 整体指标明显提升 • 4)关注句式 • 考虑句子前后标点符号 • 5)关注文本类型 • 论坛语料,博客语料 • 多文本混合

  11. 统计方法 • WF->DF->SF • WF的问题:镜像网站,转帖,内容型网页,小说人名太高 • DF的问题:对高频字不公平,模型难以一致 • SF的问题:介于2者之间,相当于消重后的WF

  12. Bigram词汇选取 • 1)选择所有1字,2字词 • 没有纵向对比,但发现诸如“俱乐部对,爱丽丝学院”的case; • 2)选择高频的1,2,3字词(32768) • 一些不常见的词(如某小说中高频出现的人名)被选入,导致效率下降 • 3)选择df高的词 • 无效模板的影响 • 4)选择sf高的词

  13. Bigram选取 • 1)根据频率高低选择 • 2)根据转移概率选择 • 3)根据同音组词过滤 • 原理:如果这个2gram不记录,所对应的词组能成为首选,则不保留这个2gram(清华+大学) • 效果:能减少40%的2gram数量 • 风险:实际上降低了很多高频Bigram的权重,在长句时会受到影响

  14. Bigram使用 • 1)float->byte? • Log0.95x • 精度损失? • 2)Bigram在客户端的数据结构 • Hash+顺序表(2分查找,O(logn)) • 局部数组(O(1)) • 3)Bigram和Unigram的混合 • 半命中(一枚导弹,两枚导弹,枚导弹) • 非命中时,使用unigram+惩罚 • 惩罚值的取值问题!!!

  15. Fang’an hen ta wo Fan’gan 很 他 我 方案 恨 它 反感 喔 狠 基本方法:DP,从前向后,依次计算每个词节点为结尾的最佳路径。(DP原则讨论) 剪枝原则:1)unigram排序;2)路径长短;3)限时

  16. 稀疏矩阵的惩罚因子 • 原因:任何一个语料集合都无法覆盖高元 • 惩罚方法: • 1)全局默认惩罚; • 2)基于邻接词的惩罚; • 可能的改进方法 • 1)半词匹配方法 • 2)Markov模型

  17. 其他模型 trigram模型 马尔科夫模型(词性状态转移) 基于规则的模型 多模型混合

  18. 当前(IME3.0f)的现状 • 现状 • 40w词条,160w bigrampair,压缩后8.5m • 短句准确率超过google,ms,位列第一 • 长句准确率略差于google,ms • 简拼和模糊音问题 • 多模型组合能力差 • 研发有一定的积累 • 字,词,注音资源 • 分词,统计方法,筛选方法 • 各种失败的尝试,对现存问题的理解

  19. (2)智能组词研发历程的思考

  20. 各版本改进流程

  21. 历程 IME1.5 IME2.0 IME3.0b1 IME3.0f IME3.1 IME 1.0 反思:专注,连续,正确的人?

  22. 指标与用户评估 指标评价 用户评价 反思:我们是否采用了正确的评价方法?

  23. 智能性? 智能组词 词频调整 简拼能力 新词记忆 自造词参与组词 上下文学习… 智能组词 反思:我们是否真正把握住了用户需求?

  24. 反思:我们是否采用了正确的方法?

  25. TODO…

More Related