1 / 21

汉语句类依存树库构建研究

汉语句类依存树库构建研究. 王慧兰 2012.11.05. 构建句类依存树库的理论探讨. 1. 4. 对汉语显性轻动词句的分析. 汉语句类依存树库构建实践. 汉语树库研究综述. 2. 3. 汉语树库研究综述. 宾州汉语树库 PennCTB 台湾中研院 Sinica 树库 清华大学汉语树库 TCT 哈工大依存树库 HIT-IR-CDT 山西大学汉语框架网络 CFN 应用领域: 机器翻译、信息检索、信息抽取、问答系统 等. 标记集. 词性 : 名词 (N) , 动词 (V) , 形容词 (ADJ ) 等标记 ;

kolina
Download Presentation

汉语句类依存树库构建研究

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 汉语句类依存树库构建研究 王慧兰 2012.11.05

  2. 构建句类依存树库的理论探讨 1 4 对汉语显性轻动词句的分析 汉语句类依存树库构建实践 汉语树库研究综述 2 3

  3. 汉语树库研究综述 • 宾州汉语树库PennCTB • 台湾中研院Sinica树库 • 清华大学汉语树库TCT • 哈工大依存树库HIT-IR-CDT • 山西大学汉语框架网络CFN • 应用领域:机器翻译、信息检索、信息抽取、问答系统等

  4. 标记集 • 词性:名词 (N) , 动词 (V) , 形容词 (ADJ )等标记; • 短语类型:名词短语 (NP) , 动词短语 (VP) , 介词短语 (PP)等标记; • 语法功能(句法关系、依存关系):主语 (SBJ) , 宾语 (OBJ) , 状语 (ADV)等标记; • 语义角色:位置 (LOC) , 方式 (MNR) , 目的 (PRP)等标记。

  5. 汉语树库标注知识对比

  6. 二、构建句类依存树库的理论探讨 树库构建的意义与目标 首先,在理论层面利用句类依存树深化汉语句法语义的形式化分析; 其次,尝试解决汉语多动词句的句法语义分析难点; 最后,在应用层面深化HNC句类理论在机器翻译领域的应用。 “既然我们的普遍共识是,汉语的词性和句法功能是不像英语中那样严格对应的,那么一个以词性为基础,以主谓宾等句法功能为架构的汉语树库,真的能够全面而真实地反映汉语的语言现实吗?” ——董振东2011“下一站在哪里”

  7. 结合与分离 调和 依存与排斥 支持与反对 支持 主宰与从属 反对 使用与舍弃 拥有与失去 中立 适应与干扰 …… 帮助 支持 …… 构建句类依存树库的理论背景 1.HNC三大语义网络 基本概念、基元概念以及逻辑概念语义网络 HNC基元概念语义网络图示

  8. 2.HNC句类分析理论 作用句、过程句、转移句、效应句、关系句、状态句和判断句七大句类共57组基本句类。 TA YB T3C YC 中国今天公布了打击走私的巨大成果。 公布:信息的转移T3J=TA+T3+TB+T3C 效应的显隐Y30J=YB+Y+YC 句类代码:T3Y30*21J=TA+T3Y30+YC

  9. 三、汉语句类依存树库构建实践 1.概念类别标注集 从HNC语义网络中归纳了便于操作的十一大类93小类概念类别:动态概念v、静态概念g、属性概念u、值概念z、效应概念r、人p、物w、基本物pw、基本概念j、语言逻辑概念l以及语习概念f。 例1:中国/pj2 今天/j1 公布/v 了/hv 打击/v 走私/v 的/l42 巨大/u 成果/r 。/pun 例2: 此外/lb ,/pun 委员会/pe 还/uv 相继/uv 派/v 团/pe 赴/v 台/pj2- 访问/v ,/pun 与/l02 台湾/pj2- 工商界/pj01 进行/vv 了/hv 广泛/u 的/l42 接触/v 和/l41 交流/v 。/pun

  10. 2.句类关系标注集 • 两大类六小类:(1)句类核心成分 • v类概念自身的语义类别 • v与相关广义对象语义块之间的关系 中国今天公布了打击走私的巨大成果。 T3Y30*21J=TA+T3Y30+YC

  11. (2)句类非核心成分 C. 特征语义块Ek的复合构成 D. 时间、地点、方式、工具、参照等辅语义块 E. 语义块核心成分的修饰性成分 F. 句子的附加成分

  12. 3.标注工具开发

  13. 4.可视化显示

  14. 四、对汉语显性轻动词句的分析 • light verb • Jesperson, O. (1954):have a rest, take a sneak • Grimshaw & Mester(1988),Chomsky:隐性轻动词 • 汉语中的三类轻动词: • ①有语音形式的轻动词:如“进行”、“加以”、“予以”、“给予”、“作”等,形式动词、泛动类动词、虚化动词、先导动词; • ②没有语音形式的空位动词; • ③事件性谓词(eventuality predicate):如语义算子DO、BECOME、CAUSE等

  15. PennCTB例:该处现正就六宗较严重的山泥倾泻事件进行详细调查。PennCTB例:该处现正就六宗较严重的山泥倾泻事件进行详细调查。

  16. Sinica并要求各主要阿拉伯国家先进行多次磋商以确保高峰会顺利成功。Sinica并要求各主要阿拉伯国家先进行多次磋商以确保高峰会顺利成功。 VP(addition:Cbcb:並|Head:VF2:要求|goal:NP(quantifier:Nes:各|property:VH11:主要|property:Nca:阿拉伯|Head:Nac:國家)|theme:VP(time:Dd:先|Head:VC2:進行|goal:NP(quantifier:DM:多次|Head:Nv1:磋商))|purpose:VP(purpose:Cbca:以|Head:VE2:確保|goal:S(theme:NP(Head:Nac:高峰會)|Head:VH11(Head:VH11:順利|Head:VH11:成功))))

  17. 哈工大依存树库:对已投入市场的,应全部进行检测,对不合国家强制性标准规定的,一律没收销毁;哈工大依存树库:对已投入市场的,应全部进行检测,对不合国家强制性标准规定的,一律没收销毁;

  18. 句类依存树库的分析标注:两岸可先就正式结束敌对状态进行谈判。句类依存树库的分析标注:两岸可先就正式结束敌对状态进行谈判。

  19. 可视化显示

  20. FrameNet的分析佐证 • The senator paid me a compliment on my work. • (The support verb is pay.) • <KDG rdf: ID=“9637615”> • <support>pay</support> • <governor>compliment</governor> • <frame rdf: resource=“Compliment”> • <speaker>senator</speaker> • <addressee>me</addressee> • <reason>on: work</reason> • </frame> • </KDG>

  21. Thank You !

More Related