410 likes | 586 Views
输入法用户数据分析及应用. 张扬 @ zhangyang@sohu-rd.com. 简介. Topic :输入法用户数据分析及应用 涉及的几个问题 什么是输入法用户数据? 从中能分析出什么样的用户行为? 这些数据能如何被我们利用? 本报告将: 展现输入法用户数据分析的一些初步结论 提供用户数据应用的一些潜在场景 为今后用户数据采集的改进提供依据 预计时间: 1h. Outline. 简述:历史版本及词库制作过程 输入法用户数据分析 输入法打字比赛 用户上传词库 用户数据应用 输入法评测体系 输入法词库 / 分词 / 注音 输入法外围开发
E N D
输入法用户数据分析及应用 张扬@ zhangyang@sohu-rd.com
简介 • Topic:输入法用户数据分析及应用 • 涉及的几个问题 什么是输入法用户数据? 从中能分析出什么样的用户行为? 这些数据能如何被我们利用? • 本报告将: 展现输入法用户数据分析的一些初步结论 提供用户数据应用的一些潜在场景 为今后用户数据采集的改进提供依据 • 预计时间:1h
Outline • 简述:历史版本及词库制作过程 • 输入法用户数据分析 • 输入法打字比赛 • 用户上传词库 • 用户数据应用 • 输入法评测体系 • 输入法词库/分词/注音 • 输入法外围开发 • 搜索查询校正 • 改进方向 • 结论
搜狗输入法历史版本 • V1.0.1.4,第一个版本,2006/06/05 • V1.0.1.6,公测第二版,2006/06/21 v模式,繁体输入 • V1.0.2.0,2006/08/15 支持自定义短语((*^__^*) 嘻嘻……、o(∩_∩)o…哈哈) • V1.0.2.4,1.0正式版,2006/09/05 • 2.0正式版,2007/01/29 词库更新,新组词算法 • V,3.0beta1,2007/03/02 皮肤功能,字符集选择(GB2312/GBK)
搜狗输入法历史版本(Contd.) • v3.0beta2,2007/07/02 细胞词库功能 统计语料整改、黑白名单流程整改 • 3.0正式版,2007/10/18 用户词库/配置网络同步 固定单字字序、增补现汉、百科、口语列表等、注音库第一次整改 • v3.1,2007/12/28 v模式计算器、错音提示 词库管理系统正式投入使用 • v3.2,2008/02/04 支持简拼组词 引入用户词库新词、注音库第二次整改 • V3.3,2008/04/20 成语词典、基于用户信息改进单字字序、新评测体系
输入法词库制作过程综览 涉及到的其他一些模块: 人工编辑词库管理系统 (错词/碎词/垃圾词、错音、注音库、新词) 固定单字字序 色情词汇固排
Outline • 简述:历史版本及词库制作过程 • 输入法用户数据分析 • 输入法打字比赛 • 用户上传词库 • 用户数据应用 • 输入法评测体系 • 输入法词库/分词/注音 • 输入法外围开发 • 搜索查询校正 • 改进方向 • 结论
输入法用户数据分析 • 数据来源 • 输入法打字比赛 用户原始击键序列,包括上屏拼音序列、退格、翻页等击键信息 • 用户上传词库 以用户敲入空格上屏作为词边界 未记录退格、翻页等信息 原始拼音序列扩展成全拼 Samples: 的确dique/diq/dq/dque -> deque 软件按ruanjan -> ruanjianan (“软件”的错误拼写) 算恶劣suanel -> suanle (“算了”的错误拼写)
打字比赛用户击键序列 • 来源:07年末输入法打字比赛的用户输入原始击键序列 • 样本选取标准: 输入时间(115-125sec),长度(100-180字) • 原始数据格式 <: 退格 ^: 向上翻页 _: 向下翻页 • 比赛下输入行为的 特殊性 00BECD37,ren,人 00BEDB9E,zhiyouzai,只有在 00BEFCF1,dfll,颠非琉璃 00BEFE49< 00BEFF53< 00BF001E< 00BF06C5< 00BF1C9F_ 00BF1F10^ 00BF3893,dianfeiliuli,颠非琉璃 00BF3B71< 00BF3C2D< 00BF3CE8< 00BF4F67< 00BF5F26,dpll,颠沛流离 00BF658F,zhihou,之后
基本统计结果 • 样本总数:39756 • 平均输入时间 每词条输入时间:1473251107 / 843687 = 1746.21 msec 每单字平均输入时间:426762423 / 314221 = 1358.16 msec • 词条输入统计 输入二字词的次数最多, 其次是单字 歧义性?入袋为安?
拼音输入模式 • 全拼 > 末字简拼 > 全简拼 > 非末字简拼 的 (62780) de 41436 d 20570 r 153 rn 15 rfma 15 di 3 得到 (370) dedao 321 ded 39 dd 4 deidao 3 ddao 2 dedk 1 一中 (6) yizhong 5 yizhogn 1 什么 (1081) shenme 608 shenm 277 sm 120 shm 40 shme 17 wft 5 sme 4 ufme 3 shime 2 车子里 (13) chezili 11 chezil 1 chzili 1
输入退格模式 • 抓取规则 前后音节不一致;编辑距离(naive)<= 3;前后词条长度 >= 2 • 退格模式类别 错音,字母增/删/交换;末字简拼,候选不理想;组词,候选不理想 么有|meyou -> 没有|meiyou 23 比尔|bier -> 别人|bieren 19 与昂|yuang -> 员工|yuangong 17 批次|pici -> 彼此|bici 14 一进|yijin -> 已经|yijing 13 一位|yiwei -> 因为|yinwei 12 局的|jude -> 觉得|juede 12 失去|shiq -> 事情|shiqing 12 女里|nvli -> 努力|nuli 9 成魔|chengmo -> 沉默|chenmo 9 吃完饭|chiwanfan -> 晚饭|wanfan 8
Outline • 简述:历史版本及词库制作过程 • 输入法用户数据分析 • 输入法打字比赛 • 用户上传词库 • 用户数据应用 • 输入法评测体系 • 输入法词库/分词/注音 • 输入法外围开发 • 搜索查询校正 • 改进方向 • 结论
用户上传词库 • 搜狐通行证/3.0正式版起支持 • 定期从输入法服务器上dump一次词库的快照 以用户为单位,记录词条、拼音、输入次数信息
用户输入的随意性 Case: 一点一起下去吃点东西 下去吃点东西 下去吃点 一起下去 一起下去吃 点一起下 下去吃 一起下 一点一 一点 点一起 7/6 2348/1969 125/116 124/121 2800414/320722 280/266 9/9 61/60 15/15 4/4
用户词库统计 (contd.) • 固定单字字序的必要性
Outline • 简述:历史版本及词库制作过程 • 输入法用户数据分析 • 输入法打字比赛 • 用户上传词库 • 用户数据应用 • 输入法评测体系 • 输入法词库/分词/注音 • 输入法外围开发 • 搜索查询校正 • 改进方向 • 结论
输入法评测体系 • 现有评测体系 • 首选率 评测集合:std5000,mzk7000,bbs3000,userdict 评测模式:全拼、一词一上屏 • 垃圾词识别和删词验证 • 依据用户数据,构建更贴近用户输入行为的评测体系 • 词库完备性验证 增加recall考察指标;评测覆盖单字/系统词库/组词 • 区分devset和testset • 测试用例源于真实的用户输入
Outline • 简述:历史版本及词库制作过程 • 输入法用户数据分析 • 输入法打字比赛 • 用户上传词库 • 用户数据应用 • 输入法评测体系 • 输入法词库/分词/注音 • 输入法外围开发 • 搜索查询校正 • 改进方向 • 结论
输入法词库/分词/注音 • 词库词条:有进有出 • 固定单字字序 • 注音 注音实例:的卢dilu、井柏然jingboran、王栎鑫wangyuexin 分配比例:重用chongyong/zhongyong、都du/dou 外围词库 核心词库 碎词/组合词: 觉自己、的发展和、为用户提供、记者昨、间进行、进行评、记者昨天 口语: 个税、回聊、默拒、团购、大摩、详单、抄底、法伤、国战 概念: 崇礼门、水立方、王紫娇、毒水饺、艳照门/裸照门/淫照门
Outline • 简述:历史版本及词库制作过程 • 输入法用户数据分析 • 输入法打字比赛 • 用户上传词库 • 用户数据应用 • 输入法评测体系 • 输入法词库/分词/注音 • 输入法外围开发 • 搜索查询校正 • 改进方向 • 结论
输入法外围开发 • 拼音纠错模式抽取 将首先用于基于用户词库新词发现的垃圾词过滤上 • 数据:用户词库快照(080202) 55个错音模式共计22w个实例 现在xianzai -> 仙子啊xianzia 什么shenme -> 神恶魔shenem 软件ruanjian -> 软件按ruanjan 睡觉shuijiao -> 水骄傲shuijao • 与打字比赛数据相比,缺乏原始的用户击键序列记录
拼音纠错模式抽取: 步骤 • Step 1:修改传统编辑距离算法(DP, O(mn)),增加字符交换编辑操作 • Step 2: 使用回溯获得拼音对的对齐 • Step 3:用一个滑动窗口找出所有可能的用户编辑方式([ACL00]Brill & Moore) d[i, j] := min ( d[i-1, j] + 1, // 删除 d[i, j-1] + 1, // 添加 d[i-1, j-1] + cost // 替换 d[i-2, j-2] + 1 // 交换, newly-added) struct Node { uchar distance; uchar lasti; uchar lastj; OpType lasttype; };
抽取结果分析 g => ~ 26144 //应该是模糊音 ~ => g 25504 //应该是模糊音 n => ~ 23987 //右手食指 i => ~ 17087 //右手中指 u => ~ 10987 //右手食指 h => ~ 5615 //右手食指 y => ~ 2295 //右手食指 n => l 1703 i => u 1517 a => ~ 1117 q => j 1080 ~ => u 945 //右手食指 ~ => i 906 //右手中指 ~ => h 729 //右手食指 • 字母增/删/替换模式 • 模糊音模式 • 字母交换模式 • 键盘布局?硬件质量?生理因素? Inadequate data! n~ => ng 25504 in~ => ing 19437 en~ => eng 3572 an~ => ang 2495 ng => n~ 13201 eng => en~ 5774 ing => in~ 4135 ang => an~ 3292 sh => s~ 4921 sha => s~a 3769 shu => s~u 1152 c~a => cha 729 zh => z~ 694 zhe => z~e 694 me => em 43734 ai => ia 20992 ao => oa 15914 ia => ai 8313 en => ne 6733 le => el 700 he => eh 663
Outline • 简述:历史版本及词库制作过程 • 输入法用户数据分析 • 输入法打字比赛 • 用户上传词库 • 用户数据应用 • 输入法评测体系 • 输入法词库/分词/注音 • 输入法外围开发 • 搜索查询校正 • 改进方向 • 结论
搜索查询校正 • Case: 贾平凹 • 输入法错音提示 (专利 from 王坚/赵立洋) • 用到搜索结果页的查询校正(QC)上? (该专利的一个延伸应用) 1) 查询中拼音/错音查询占一定比例 2) 现有QC不支持错音提示 3) Pros: QC彩蛋功能直接支持 4) Cons: 小众需求?
搜索查询校正(contd.) • 查询中拼音/错音查询所占比例 Web/3-4w, music/20w, pic/6w QC 点击统计: baidu=> 百度 5430 xingjiao => 性交 2065 zuoai => 做爱 2041 tangfang => 汤芳 1873 toupai => 偷拍 1641 rentiyishu => 人体艺术 1560 meinv => 美女 1437 siwa => 丝袜 1424 zuo爱 => 做爱 1261 zouguang => 走光 1184 zhangxiaoyu => 张筱雨 1046 renyao => 人妖 1044 renti => 人体 1041 xing爱 => 性爱 898 hushi => 护士 830
搜索查询校正(contd.) • Case1: 张柏芝(正确读音:zhangbaizhi) 查询zhangbaizhi=> 有“张柏芝”QC建议 查询zhangbozhi=> 无“张柏芝”QC建议 原因:目前注音库仅保留正确读音,造成查询分流 • Case2: 张筱雨
搜索查询校正(contd.) • Case3: 贾平凹
Outline • 简述:历史版本及词库制作过程 • 输入法用户数据分析 • 输入法打字比赛 • 用户上传词库 • 用户数据应用 • 输入法评测体系 • 输入法词库/分词/注音 • 输入法外围开发 • 搜索查询校正 • 改进方向 • 结论
改进方向 • 用户个性化,路在何方 击键序列、输入词条、喜好设置、context信息推送 • 用户数据隐私? • 词库大小:安装、更新、推广 Dilemma:输入流畅性 vs. 词库权威性 口语 vs. 基本词汇 (劻勷、束脩、暗室逢灯、爱礼存羊) 色情词/鄙语 与二元的界限: 是以、别管、贼贵、蹭饭、办卡 核心词库 vs. 外围词库 • 如何与搜狗其他服务更紧密结合
尚待解决的问题 • 新形式噪音数据的过滤 艳照门:燕赵门、眼照明、艳照闷、眼罩门 上上签:丄丄签 • 用户词库统计信息的新需求 缺乏原始击键序列信息 => 输入法小白狗版 噪音数据 a) 啊ashia、必bixu、炒buchao等不规范输入 b) 火星文、繁体输入 用户群体的划分(专业、地域、喜好群体)
Outline • 简述:历史版本及词库制作过程 • 输入法用户数据分析 • 输入法打字比赛 • 用户上传词库 • 用户数据应用 • 输入法评测体系 • 输入法词库/分词/注音 • 输入法外围开发 • 搜索查询校正 • 改进方向 • 结论
总结 • 搜狗输入法是第一个问世的互联网输入法 因词库、皮肤、自定义短语等功能为广大网民所喜爱,积累了一定的领先优势 • 面对Google和腾讯的追赶,我们仍不断创新 细胞词库、错音提示 • 搜狗输入法的今后方向是巩固自己的领先优势,苦练内功,同时以用户数据为切入点,在功能个性化、输入贴心化下做出创新,并尽可能为搜索和其他产品吸引更多用户,提升用户黏性 资源整合、信息推送 • 我们能做得更好!
Reference • [ACL00] Brill & Moore, An improved error model for noisy channel spelling correction, 2000 • 陈正 & 李开复,拼写纠正在拼音输入法中的应用,计算机学报,2001 • 王坚/赵立洋,一种互联网关键字符相关信息的发布方法和系统,专利申请书,2007