1 / 17

基于规则的 蒙古语依存句法分析模型

基于规则的 蒙古语依存句法分析模型. 斯 · 劳格劳 内蒙古大学蒙古学学院 2013.05.11. 1. 引言.

yardley
Download Presentation

基于规则的 蒙古语依存句法分析模型

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 基于规则的蒙古语依存句法分析模型 斯·劳格劳 内蒙古大学蒙古学学院 2013.05.11

  2. 1.引言 • 内蒙古大学蒙古语文研究所用8年(1984——1991)的时间构建了100万词级现代蒙古语语料库,并通过两次扩充达到了1000万词的规模。在语料库加工方面,已经完成了100万词级语料库的词性标注和复合词处理,也进行了短语标注、句子切分和谓语段自动识别等浅层句法分析。目前,正在进行完全句法分析和语义角色标注方面的研究,并且通过自动分析和人工校对构建了50万词级的蒙古语依存树库MDTB( Mongolian Dependency Tree Bank) ,本文所介绍的基于规则的依存句法分析器正是建设MDTB时采用的句法分析方法。

  3. Parenti Parent1 CAT SUBCAT W Prev Next MORPH 静态特征 Childm-1 Child1 Childm 图1 MCRNDM模型示意图 MRBC 2.规则描述体系(1/2) • 本文参考英语、德语、汉语等语言的基于规则的句法分析算法,针对蒙古语富含形态变化的特点,提出了基于复杂特征和合一运算的蒙古语依存句法分析规则描述体系(如图所示)。 静态和动态特征共同构成了节点W的复杂特征集。

  4. 2.规则描述体系(2/2) • 静态特征可以是词类、子类以及形态变化等信息。其中,词类和子类信息可以通过查词典获得。对于兼类词,本文为两千多个词归纳了相关的识别规则。形态特征可以通过一个基于有限状态自动机的识别算法来获得。动态特征是已完成的局部分析结果中的句法结构特征,包括父节点、子孙节点、兄弟节点以及线性结构上的邻接节点的依存关系类型、关系数目以及线性距离、当前节点所处的句法片段的位置等动态信息,这些信息可以用一组函数来获得。 • 在规则中,节点的约束条件是根据约束需要而加的,不是每条规则均有上下文有关的约束限制。

  5. 3.蒙古语依存关系识别规则 3.1 句子切分规则 (1) 以句号、问号和感叹号为标志来切分句子。 (2) 从已切分的句子中分离出插入句。 (3) 复原错误的切分结果。

  6. 3.蒙古语依存关系识别规则 • 3.2 句法片段识别 • 对蒙古语而言,句子长度对句法分析的准确率同样有着很大的影响,通过下面的分析图我们可以看出这一点。

  7. 3 蒙古语依存关系识别规则 • 3.2句法片段识别 在蒙古语句法片段的切分中,逗号、动词、连接词和语气词是主要标志信息,我们对训练语料进行统计分析后总结了下面的5条切分规则。 (1)如果句中遇到逗号,从逗号后面切分为两个片段; (2)如果句中出现连接形式(包括联系动词),从连接形式前面切分为两个片段; (3)如果遇到“动词+静词”时,则继续判断静词是否为辅助成分,如果是,则从辅助成分后面(包括连续的几个辅助成分)切分为两个片段,如果不是,则从动词后面切分为两个片段; (4)遇到“动词+动词”时,如果后面的动词为助动词,或前面的动词为单纯连接副动词时不能切分,否则从两个动词中间切分为两个片段; (5)语气词后面如果有实义词,则从实义词前面切分为两个片段。

  8. 3.蒙古语依存关系识别规则 • 3.2句法片段识别 • 规则代码中的序号表示优先次序,对句子进行片段切分时先用标号低的规则,然后在局部切分的结果中再次使用标号较高的规则。按规则切分的结果可能是分句、成分句、短语或单词,因为这种切分方法不是为了识别句子层次结构而引入的,只是在分析过程中采用的一种降低难度的处理手段。 • 句法片段的识别规则对并列复合句的处理是合理的,而处理中间位置的成分句时可能把主句的一些成分划入成分句。对于此问题,我们采用了针对性的后处理策略,在形成完整的句法树之后,检查每个句法片段中的主语、前置状语等成分,如果这些成分的结构特征满足后调整算法中的某条规则,则进行剪枝处理。

  9. subj-R01:<Wi CAT>=<N> • <Wi SUBCAT>=<xN||Nx> • <Wi MORPH>=<Fc0> • <Wj CAT>=<V> • <Wj SUBCAT>=<Ve> RelCount(Wj,SUBJ)= 0 Parent(Wj)= NULL; 3.蒙古语依存关系识别规则 • 3.3 蒙古语依存关系识别规则 • 3.3.1 片段内依存关系识别规则 • 蒙古语依存关系识别规则集由体术关系、定体关系、直接宾述关系、间接宾述关系、状述关系、辅助关系和联合关系识别规则等七大类两百余条规则构成。 规则形式: 规则约束条件:

  10. 1 1 3 2 4 3 2 4 SUBJ DOBJ DOBJ ADV ADV (a) 使用规则subj-R01之前 (b) 使用规则subj-R01之后 图3 使用规则subj-R01的例子 3.蒙古语依存关系识别规则 • 规则调用举例: • 下面是对蒙古文句子“[]CIMED NEBTERETEL_E N0R0GSAN-IYAN MARTAJAI .” (其木德忘了自己已被淋透。)分析过程中某一时刻的分析结果,如图所示。

  11. 3.蒙古语依存关系识别规则 • 规则调用举例: • 下一步的分析将在①和②、 ①和③、 ①和④三个词对之间进行。经过分析三个词对的静态特征和动态特征,①和④满足subj-R01的约束条件。其中,①的静态特征为:名词、人名、主格形式;④的静态特征为:普通动词。动态特征为④没有主语,并且没有父节点。

  12. 3.蒙古语依存关系识别规则 • 3.3 蒙古语依存关系识别规则 • 3.3.2 片段之间依存关系识别规则 • 通过上面的片段切分和段内依存关系的识别,为每个句子构造了若干个子树。子树之间可能存在体述、定体、宾述、状述或并列等依存关系。一般情况下句法片段都是通过核心词产生依存关系。只是核心词为形动词时,该片段可能修饰后一个片段的第一个词(在线性距离上离前面的片段最近的词语)或者第一个词的祖先节点,因此这种情况需要特殊处理。 • 片段内体述、定体、宾述、状述等依存关系的识别规则同样适用于片段之间的依存关系。下面重点介绍并列关系的识别。从MDTB的统计数据看,并列关系的依存距离达到了6.06个词,这个值在所有依存关系中位居第一。从自动分析结果看,并列关系的识别率是最低的,在基于规则的分析器中达到了40.09%。在目前情况下用规则解决并列关系还是比较好的选择。

  13. 3.蒙古语依存关系识别规则 • 3.3 蒙古语依存关系识别规则 • 3.3.1 片段之间依存关系识别规则 • 我们根据两棵子树相关节点的词类特征、细分类特征、标点符号以及形态特征编制了并列关系识别算法。算法描述如下: (1)如果位于左侧的子树核心词带有并列连接词,则在两棵子树核心词之间直接建立并列关系; (2)如果不满足(1),则比较两棵子树的相似性。通过比较两棵子树的核心词和最右侧孩子节点的相似性来确定两棵依存树相似度的大小。如果相似度大于预先设置的阀值,则在两棵子树核心词之间建立并列关系。 (3)如果不满足(2),则调用体述、定体、状述、宾述以及辅助等关系的识别规则。

  14. Pm Pm-1 P1 Pm-2 P2 Ck Ci Cj Cl 4.索算法 在该模型中,分析是从位于最右边的两个节点开始的,经过多步分析后一个句子变成如下形式: 下一步的分析将在Pm-1、Ci、… 、Cj和Pm、Ck、… 、Cl之间进行,如同图中的箭头所示。可能产生依存关系的节点组合有:Pm-1→Cl;Pm-1→Ck;Pm-1→Pm;Pm→Ci;Pm→Cj;Pm→Pm-1;那么到底哪两个节点之间产生依存关系,取决于两个节点之间的结合能力。规则优先级别最高的一组建立依存关系,本次分析结束。经过上面的分析,Pm-1和Pm被合并为一棵树,合并后的树再与Pm-2合并。以此类推分析完所有子树为止。

  15. 5.实验分析 • 我们在由MDTB的前1332个句子(初中蒙古语文第一册)和后3653个句子(高中蒙古语文第6册)构成的测试集上,对依存分析器做了句子切分、片段划分和依存关系标注的测试。从实验结果看,句子切分准确率达到了98.6%,错误主要出现在无标志插入句上。句法片段切分对分析器整体性能的提高约为2.56%。依存关系标注中,无标记准确率、有标记准确率分别达到了75.21%、69.39%。

  16. 6.总结 • 形态特征是基于规则的蒙古语依存分析中最具消岐能力的静态信息,本文充分利用格和动词形态特征的基础上,通过词类再分类方法实现了自动句法分析。我们在识别规则和算法中尽量使用了依存距离、从属节点的数量、从属节点的性质以及祖先节点和最右侧孩子节点的相关特征等动态结构信息。 • 从总体性能看,该依存分析器的准确率达到了预期效果,但有些特定关系的自动识别还存在不少问题。例如,并列关系的识别率非常低,这是因为单词、短语、句子成分和子句多个层面上均有并列关系,并且参与并列关系的组成部分在形态和词类上没有明显的可区分特点。

  17. 谢谢!

More Related