250 likes | 502 Views
现代汉语虚词用法知识库( CFKB ) 建设综述. 张坤丽 昝红英 柴玉梅 韩英杰 赵丹 报告人:张坤丽 郑州大学信息工程学院 ieklzhang@zzu.edu.cn 2013年5月12日. CLSW201 3会议报告. 主要内容. CFKB构建基础及过程 现代汉语虚词用法知识库建设 虚词用法词典建设 虚词用法规则库建设 虚词用法标注语料库建设 虚词用法自动识别研究 现代汉语虚词用法知识库应用研究初探及应用前景 总结. 2. 主要内容. CFKB构建基础及过程 现代汉语虚词用法知识库建设 虚词用法词典建设 虚词用法规则库建设
E N D
现代汉语虚词用法知识库(CFKB)建设综述 张坤丽 昝红英 柴玉梅 韩英杰 赵丹 报告人:张坤丽 郑州大学信息工程学院 ieklzhang@zzu.edu.cn 2013年5月12日 CLSW2013会议报告
主要内容 CFKB构建基础及过程 现代汉语虚词用法知识库建设 虚词用法词典建设 虚词用法规则库建设 虚词用法标注语料库建设 虚词用法自动识别研究 现代汉语虚词用法知识库应用研究初探及应用前景 总结 2
主要内容 CFKB构建基础及过程 现代汉语虚词用法知识库建设 虚词用法词典建设 虚词用法规则库建设 虚词用法标注语料库建设 虚词用法自动识别研究 现代汉语虚词用法知识库应用研究初探及应用前景 总结 3
CFKB构建基础及过程 1 3 CFKB CFKB的 应用 用法词典 用法标注语料库 副词 方位词 连词 2 介词 用法 规则库 助词 虚词用法 自动识别 语气词 4
主要内容 CFKB构建基础及过程 现代汉语虚词用法知识库建设 虚词用法词典建设 虚词用法规则库建设 虚词用法标注语料库建设 虚词用法自动识别研究 现代汉语虚词用法知识库应用研究初探及应用前景 总结 5
主要内容 CFKB构建基础及过程 现代汉语虚词用法知识库建设 虚词用法词典建设 虚词用法规则库建设 虚词用法标注语料库建设 虚词用法自动识别研究 现代汉语虚词用法知识库应用研究初探及应用前景 总结 6
虚词用法词典建设(1) 框架设计 标识类:用法编码、词条、全拼、释义、例句等。 句法功能描述类。 范畴类:小类、文体等。 用法描述类:重叠、字段位移、单用、句首、左搭配、左紧邻、右紧邻、右搭配、句末等属性。 标识类对六大类词都相同,句法描述类、范畴类、用法描述类则针对不同的词性有不同的设计。 POS_全拼[_tn] [_m] [x] [y] 的:u_de5_t2_1bc 都:d_dou1_2a 7
虚词用法词典建设(2) • 内容填充依据 • 《现代汉语语法信息词典》 • 吕叔湘《现代汉语八百词》、《现代汉语词典》(第5版)以及张斌《现代汉语虚词词典》 • 《人民日报》分词及词性标注语料 • 结合汉语虚词的实际用法规律,词典内容主要依据面向自然语言处理的需求,分解、辨析各用法描述,抽取可操作的用法特征进行填充。 8
反馈修改 词语增删 如: 这样/rz 既/c 方便/v 广大/b 市民/n 参加/v 活动/vn ,/wd 又/c 能/vu 更/d 好/a 地/ui 维持/v 秩序/n ,/wd 确保/v 安全/an 。/wj (20000101-10-014-006/m) 用法增删、合并 副词“也”,表示递进、选择、转折、假设、让步、条件、因果等关系外,在语料中还发现了单纯的承接关系,如 也就是在那以后不久,我们从南宫进入国统区,向黄河前进。 虚词用法词典建设(3) 9
用 法 词 条 虚词用法词典建设(4) • 词典规模及分布统计 词典中词语总数为2401,用法总数(即词典的记录总数)为4337。 10
主要内容 CFKB构建基础及过程 现代汉语虚词用法知识库建设 虚词用法词典建设 虚词用法规则库建设 虚词用法标注语料库建设 虚词用法自动识别研究 现代汉语虚词用法知识库应用研究初探及应用前景 总结 11
虚词用法规则库建设(1) 确定规则描述形式及规范 针对用法描述类属性:句首(F)、左搭配(M)、左紧邻(L)、右紧邻(R)、右搭配(N)、句末(E)六类属性,确定识别规则的一般描述形式为: @<ID> →[F] [M][ L][ R][ N][ E] ^F→<词1>|<词2>|…|a|v|n|… ^M→<词1>|<词2>|…|a|v|n|… ^L→<词1>|<词2>|…|a|v|n|… ^R→<词1>|<词2>|…|a|v|n|… ^N→<词1>|<词2>|…|a|v|n|… ^E→<词1>|<词2>|…|a|v|n|… 12
虚词用法规则库建设(2) • 在规则中引入框架和语义场 • 有同词或同词性的语境,用“A”和“B”表示 • 前后词有包含关系的,以“T”和“S”表示,用“%”作为特殊标记 • 引入语义场 $不 @<d_bu4_2a>→A~A ^A→a //A表示前后同词,如:“干净不干净” @<d_bu4_2e>→~B~B ^B→f //B表示同词性,如:“不上不下” $不 @<d_bu4_2a>→%S%~%T% //如:“吃饭不吃?”中,词语“吃”(T)是“吃饭”(S)的子集 $十分 @<d_shi2fen1_1b>→R ^R→'xinli_v.txt' //“十分”修饰心理动词,心理动词语义场在文件“xinli_v.txt”中 13
虚词用法规则库建设(3) • 规则库构建 依据词典中用法描述,人工构建规则库。 • 反馈修改 • 人工方式 依据校对语料及自动标注语料,分词错误及无法识别虚词标注,修改规则内容及规则排序。 • 自动方式 以错误驱动的方式,建立转换模板,生成候选规则,对候选规则采用目标函数进行评分,分数最高的规则作为更新后的规则。对规则的不通排序的自动标注正确率分析,自动确定最佳排序。 看都没看 看都没怎么看
虚词用法规则库建设(4) 已完成的规则库的包含4337个用法共计4696条规则: 副 词:2456条规则,用法2356个 方位词: 761条规则,用法641个 介 词: 383条规则,用法331个 连 词: 747条规则,用法696个 助 词: 165条规则,用法144个 语气词: 182条规则,用法169个 存在问题:用法规则的形式化描述 15
主要内容 CFKB构建基础及过程 现代汉语虚词用法知识库建设 虚词用法词典建设 虚词用法规则库建设 虚词用法标注语料库建设 虚词用法自动识别研究 现代汉语虚词用法知识库应用研究初探及应用前景 总结 16
和/c<c_he2_1> 的/ud<u_de5_t2_1a> 在/p<p_zai4_3a> 虚词用法标注语料库建设(1) • 对约有876万余词的分词与词性基本标注语料库(1998年1月和2000年1-6月的《人民日报》语料)在基于规则的对虚词自动标注的基础上,进行了人工校对,共完成约121万次虚词用法的标注工作。 • 标注样例 • 存在问题 • 标注一致性
主要内容 CFKB构建基础及过程 现代汉语虚词用法知识库建设 虚词用法词典建设 虚词用法规则库建设 虚词用法标注语料库建设 虚词用法自动识别研究 现代汉语虚词用法知识库应用研究初探及应用前景 总结 18
虚词用法自动识别研究 基于规则的虚词用法自动识别 准确率 副词84.36%,介词71.71% 连词 83.68%,助词 40.71% 语气词78.85%,方位词88.14% 基于统计的虚词用法自动识别 规则与统计相结合的虚词用法自动识别 19
主要内容 CFKB构建基础及过程 现代汉语虚词用法知识库建设 虚词用法词典建设 虚词用法规则库建设 虚词用法标注语料库建设 虚词用法自动识别研究 现代汉语虚词用法知识库应用研究初探及应用前景 总结与展望 20
现代汉语虚词用法知识库应用研究初探及应用前景现代汉语虚词用法知识库应用研究初探及应用前景 • 知识库应用研究初探 • 利用虚词用法标注结果对依存句法分析结果修正 • 将连词用法识别的结果引入到连词短语结构分析中 • 对外汉语教学 • 应用前景 • 机器翻译 • 信息抽取 • 问答系统 • …… 21
主要内容 CFKB构建基础及过程 现代汉语虚词用法知识库建设 虚词用法词典建设 虚词用法规则库建设 虚词用法标注语料库建设 虚词用法自动识别研究 现代汉语虚词用法知识库应用研究初探及应用前景 总结 22
总结 • 现代汉语虚词用法知识库的构建 • 用法词典 • 规则库 • 语料库 • 用法自动识别 • 应用
项目资助 • 国家自然科学基金项目(60970083) • 河南省科技创新人才杰出青年基金项目(104100510026) • 模式识别国家重点实验室开放课题基金 • 河南省教育厅科学技术研究重点项目(12B520055) • 国家高技术研究发展863计划(2012AA011101)资助
欢迎批评指正! 25