850 likes | 923 Views
汉语语言模型研究 及其在音字转换中的应用. 计算机科学与技术学院 语言技术研究中心 刘秉权 2003 年 5 月 28 日. 1 绪论. 本文研究的目的和意义 计算语言学概述 相关领域研究与发展综述 统计语言建模技术. 基于统计的计算语言模型. 给定所有可能的句子,统计语言模型就是一个概率分布 : 条件概率形式: N-gram 模型:. 统计语言模型的作用. 信源-信道模型 : I: 语言文本; O: 声音信号、字符图像信号、拼音输入等。 语言模型:. 统计语言模型建模方法. 极大似然方法 语言建模 贝叶斯方法. 统计语言模型的评价标准.
E N D
汉语语言模型研究及其在音字转换中的应用 计算机科学与技术学院 语言技术研究中心 刘秉权 2003年5月28日
1 绪论 • 本文研究的目的和意义 • 计算语言学概述 • 相关领域研究与发展综述 • 统计语言建模技术
基于统计的计算语言模型 • 给定所有可能的句子,统计语言模型就是一个概率分布 : • 条件概率形式: • N-gram模型:
统计语言模型的作用 • 信源-信道模型: • I:语言文本;O:声音信号、字符图像信号、拼音输入等。 • 语言模型:
统计语言模型建模方法 • 极大似然方法语言建模 • 贝叶斯方法
统计语言模型的评价标准 • 熵(Entropy) • 交叉熵(Cross Entropy) • 复杂度(Perplexity)
参数学习和数据平滑 • 参数学习 • 有指导学习--基于完全数据的最大可能性估计 • 无指导学习—(针对不完全数据的)具有隐含变量的参数训练过程—EM算法 • 数据平滑--Good-Turing估计、回退平滑和线性插值技术;变长N-gram模型、网格方法、压缩模型
当前主要语言模型 • N-gram模型 • 决策树模型 • 指数模型(最大熵模型) • 整句模型 • 文法模型 • 概率上下文无关文法 • 链文法 • 概率依存文法 • 自适应模型
统计语言模型存在的不足之处 • 最成功的统计语言建模技术很少使用真实的语言知识 • 跨领域的适应能力差 • 不能有效处理长距离语言约束:为保证可行性,所有现有的语言模型都在文本的不同部分之间作了独立假设。 • 汉语语言模型的独特问题
本文主要工作 • 汉语统计语言模型参数训练的优化 • 基于语言元素的汉语统计模型 • 汉语语言模型的自适应方法 • 面向手机类设备的智能拼音汉字输入方法
问题的分析 • 汉语统计模型的准确构建和优化涉及到以下几个问题 : • 词表的确定(生词识别) • 分词 • 参数估计 • 三者存在因果关系 • 词表←→分词 • 分词←→参数估计(模型) • 参数估计(模型)←→词表优化
分词-生词识别-参数估计迭代算法的提出 • 非迭代过程的缺点:几个过程不能相互作用,相互促进 • 迭代过程的优点: • 对分词的影响:更好地解决分词歧义问题,提高分词精度 • 对生词识别的影响: • 减少不合理的候选生词 • 排除伪生词,生词自动消歧,减少后处理过程 • 对模型的影响:逐步优化词表、提高参数估计精度、提高音字转换正确率
基于N-gram信息的生词获取 • 基本思想:N元对→词频过滤→互信息过滤→校正→生词获取 • 词频 • 互信息(Mutual Information) • 词频与互信息的关系 • 候选生词的校正
基于N-gram信息的生词获取 • 结果分析 • MI因素:准确率随着互信息值的升高而升高,但抽取出的元组的数量也随之减少 ; • WF因素:准确率随着词频值的升高而降低,抽取出的元组数量也随之减少。 • 影响结果的其他因素 • 分词错误:“不容\易”、“和服\务” • 量词:“个百分点”、“集电视连续剧”、“届世乒赛” • 姓氏:“新华社记者刘”、“新华社记者王”
基于统计和规则方法的中文人名识别 • 问题的提出 • 主要方法 • 规则方法:准确;规则库冲突、复杂、庞大 • 统计方法:资源少、效率高;准确率低 • 混合方法:取长补短 • 本文方法:先规则,后统计;充分利用各种资源;采用分词预处理
基于统计和规则方法的中文人名识别 • 中文姓名用字特点(82年人口普查结果) • 729个姓氏用字 • 姓氏分布很不均匀,但相对集中 • 有些姓氏可用作单字词 • 名字用字分布较姓氏要平缓、分散 • 名字用字涉及范围广 • 某些汉字既可用作姓氏,又可用作名字用字
人名识别系统知识库 • 姓氏用字频率库和名字用字频率库:653个单姓氏,15个复姓,1894个名字用字
朝阳 劲松 爱国 建国 立新 黎明 宏伟 朝晖 向阳 海燕 爱民 凤山 雪松 新民 剑峰 建军 红旗 光明 人名识别系统知识库 • 名字常用词表
人名识别系统知识库 • 称谓库 • 三种类型 • 只能用于姓名之前,如:战士、歌星、演员等; • 只能用于姓名之后,如:阁下、之流等; • 姓名前后皆可,如:先生、主席、市长等。 • 称谓前缀表:“副”、“总”、“代”、“代理”、“助理”、“常务”、“名誉”、“荣誉”等
人名识别系统知识库 • 简单上下文 • 指界词表:约110个词 • 动词:说、是、指出、认为、表示、参加等; • 介词:在、之、的、被 、以等; • 正在、今天、本人、先后等。 • 标点符号集 • 人名出现在句首或句尾(包括分句)的机会比较大,标点符号可用来帮助判断人名的边界。 • 顿号一边是人名时,另一边的候选人名的可靠性高。
人名识别系统知识库 • 非名字用词表:有些双字词,如:时间、奖励、纬度等不作名字用词,但因为组成它们的单字可作为名字用字,如果跟在姓氏后面,往往会将其与可作姓氏的字一起误判为姓名。 例: “做\这\件\事\花\了\我们\一\段\时间\。\”
人名识别的具体实现 • →姓氏判别 • →名字识别 • →概率判断 候选字符串为人名的概率为: P = 姓氏部分为姓氏的概率P1 * 余下部分的汉字作名字用字的概率P2*P3(单名时,为P2)
校正(对潜在人名的后处理) • 自动校正:如果两个潜在人名相似,考察它们的权值。一高一低时,将低权的潜在人名清除;都为高权时,两者都认为是人名;都是低权时,则各自通过第三个字作名字用字的概率大小来判断。概率够高,识别为人名。否则将第三个字去掉。 • 人工校正
人名识别结果与分析 • 实验结果:8个测试样本,共22000多字,共有中文人名270个。系统共识别出中文人名330个,其中267个为真正人名。 召回率=267/270*100% =98.89% 准确率=267/330*100% =80.91% 准确率和召回率是互相制约的,可通过概率阈值的调整来调节二者的关系。
人名识别结果与分析 • 产生错误的主要原因 • 被未识别的地名干扰。“湖北\英\山\县\詹\家\河\乡\陶\家\河\村\,\” • 受非中式人名的干扰。“司\马\义\·\艾\买\提\” • 分词结果不理想。“为\迎接\香港\回\归\送\贺\礼\” • 规则不准确。“南\宋\大\诗人\杨\万\里\“\惊\如\汉\殿\三\千\女\,\” • 其他。“全世界\每年\影片\产量\高\达\两\三\千\部\,\”
汉语N-gram模型构建的迭代算法 • 算法描述
3基于语言元素的汉语统计模型 • 已有实验结论:基于词的语言模型性能要明显优于同阶的基于字的模型,高阶模型优于低阶模型 • 提高语言模型描述能力的途径: • 提高模型阶数 • 扩展语言单位 • 目标:在保持模型阶数不变的条件下,有效提高模型的描述能力
当前主要处理方法 • 此方向的探索:基于短语和基于分词模式的语言模型 • 目前短语选取和概率计算方法存在缺陷: • 短语的选取标准只考虑了降低模型复杂度的因素,并没有考虑短语构成的内在语言规律 • 短语集的规模通常十分巨大,导致模型空间增长,同时相对减少了训练数据量 • 训练数据的重新分割使得短语成为不可分割的语言单位,将导致构成短语的单个词的概率估计不准确
当前主要处理方法 • 规则统计相结合的模型 将模型的单位延伸至语言分析的结果,统称为语言元素,元素间概率计算利用已有词模型的参数近似估计(本课题组前人工作) 特点:避免概率模型的大幅度增加,提高语言单位获取的灵活性;能够处理长距离语言关系和递归问题
本文方法:基于语言元素的汉语N-gram语言模型 • 引入元素数量约束 • 根据语言规则层次特点对概率值进行加权 • 利用规则可信度、词可信度加权 • 特点:保持原有特点;进一步提高模型精度;多种语言约束为机器学习提供灵活机制
基于语言元素的汉语N-gram语言模型 当N=2时
基于语言元素的汉语N-gram语言模型 • 基于元素的Bi-gram模型 考虑到概率归一化
词类及其组织方法 • 词类 • 按语法体系划分 • 按语义分类 • 混合方式 • 词类的组织:类似语义网知识表达结构--用很小的时间代价节省大量的存储空间
规则的表示—产生式系统 • 词法规则 <基数>|<序数 >→<数词> <系数>|<系数><位数>|<系数><位数><基数> → <基数> <个>|<十>|<百>|<千>|<万>|…… →<系数> • 短语规则 <副词><动词>|<动词><动态助词> →<动词短语> <着>|<了>|<过>→<动态助词> • 句法规则 <主语><动词>|<主语><状语><动词>|…… →S <动物><吃><食物>→S
规则的组织 • 统一表达形式 • 按索引分类 • 索引选择标准:含词数最少的词类(概率最小的词类) 例: <动物><吃><食物> →S <动物><拿><食物> →S 以<吃>、<拿>作为分类索引更合理
低层推理优先原则 如果存在规则: “X + Y + Z → Y”和 “W ISA Y”, 则首先匹配规则“X + W + Z → W” (“X”和“Z”可以为空)
元素的语言学分析 • 基于最少元素的状态空间化简方法
元素的语言学分析 • 基于最少元素的状态空间化简算法
实验结果 • 词典收录26000个词,采用二千万汉字语料(选自95、96年《人民日报》电子版)作为实验文本,其中80%作为训练语料,其它20%作为测试语料。系统搜集了1000条语法、语义规则 • 单纯统计语言模型正确率为90.5%, • 加入语言规则后正确率提高到91.8%, • 加入最少元素约束后提高到92.3% • 能有效处理长距离语言约束和递归语言现象
4 汉语语言模型的自适应方法 • 当前主要自适应语言模型有两种: • 基于缓存(Cache)的自适应模型 • 主题自适应模型 • 缺点:仍然较粗糙
面向用户语言模型的提出 • 语言模型的应用如汉字键盘输入是面向特定用户的,不同用户使用的文本类型和风格无法准确预测,因而也无法建立准确的模型 • 特定用户使用的文本具有时段特性,即在某一特定时段内,文本类型或风格不变,但超过这一时段则可能变化