640 likes | 834 Views
中文树库加工及相关语言学问题. 詹卫东 zwd@pku.edu.cn. 教育部文科基地重大课题 “ 大规模中文树库建设及其应用研究 ” (项目编号: 06JJD740001 ) http://ccl.pku.edu.cn:8080/WebTreebank/. 提纲. 树库( Treebank )概述 树库的构建 在“树”上看语法范畴. 软件:分词 / 词性标注 / 句法分析器 / 树结构编辑器 语言学理论:词类 | 短语类 | 层次结构分析. 从“串分布”到“树分布” 成分省略 与 功能变异. 1 树库( Treebank )概述. 历史发展简介.
E N D
中文树库加工及相关语言学问题 詹卫东 zwd@pku.edu.cn 教育部文科基地重大课题“大规模中文树库建设及其应用研究”(项目编号:06JJD740001) http://ccl.pku.edu.cn:8080/WebTreebank/
提纲 • 树库(Treebank)概述 • 树库的构建 • 在“树”上看语法范畴 软件:分词/词性标注/句法分析器/树结构编辑器 语言学理论:词类 | 短语类 | 层次结构分析 从“串分布”到“树分布” 成分省略 与 功能变异
1 树库(Treebank)概述 • 历史发展简介 时间:1993 —— Marcus(1993) 36 种 语种:英语、德语、中文、阿拉伯语 …… 标注体系:生成语法 —— HPSG ——依存语法 标注深度:树库 ——命题库 ——篇章库 Xue, Nianwen (2005) http://en.wikipedia.org/wiki/Treebank
2 树库的构建 2.1 树库构建方法 2.1.1 流程 2.1.2 辅助工具 2.2 树库加工中面临的语言学问题2.2.1 短语层次分析问题2.2.2 短语功能分类问题
树库加工流程(Workflow) 1,2,3,5:程序自动完成,然后人工校对 4:提供专门的人工校对工具
北大树库词类标记 98 个标记 细化
19 个标记 北大树库短语类标记 结构类 仿照词类确定的短语功能类
北大中文树库规模及语料分布情况 句数: 55,161 词数: 882,326 字数:1,281,169
2.2.1 短语结构层次划分的问题 小王 和 小李 大 眼睛 姑娘 大 钢铁 公司
短语结构层次划分的问题 v q np 是 个 老人 甲 乙 丙 买 本 瞧瞧 你 再 坐 会儿
短语结构层次划分的问题 选择:按 乙 方式分析 “q np”的分布: 1)v 后宾语位置 2)“把、被”后宾语位置 3)联合结构前项位置 × 按 甲 方式 分析: 造成“个”后接复数结构 按 丙 方式 分析: 造成 vp 和 np 并列构造 × 层次分析所得的单位应“分布最大化”
2.2.2 短语结构功能分类的问题 例1:“所”字结构 “所”字短语的功能类别与内部层次构造 他 所 写 的 文章 今天 所 讲 的 内容 …… ? ? ? ? ? X 所 Y X 所 Y X 所 Y
“X+ 所 + Y”的更多例子 • 所 使用 的 案例 还是 很早的 • 所 需 建设费 平均 每瓦 为 二百五十日元 • 所 生 子女 属于 母亲 一 方 • 全 靠了 他 卖血 所 换得 的 钱,才… • 为 使 房间 凉爽 所 使用 的 空调 设备 • 毛泽东 在 这次会议 上 所 作 的 报告 • 即将 由 这 次 停火 所 带 来 的 新 形势 • 前一次大老 亲口所 说 的 话 …… “所 + Y” 前面可以没有成分 例1-3 “所 + Y” 后面可以没有“的”,直接修饰np 例2-3 “所 + Y” 前面可以是vp,pp,dp等成分 例4-8
“所 VP”是弱陈述性VP a. 要求老王所支持的那一方退出竞选 b. 要求老王支持的那一方退出竞选
“的”字短语的功能类别与内部层次构造 例2:“的”字结构 ? ? 丙 甲 乙 丁 ? ? ? ? X 的 Y X 的 Y X 的 Y X 的 Y
地 的 2447(4.44%) 2644(0.30%) (0.21%) 句数: 55,161 25,726(46.64%) 词数: 882,326 43,563(4.94%) 字数:1,281,169 (3.40%) “的”在树库中的频次和分布 乙 丙 甲 丁 ? ? ? “的”(di) X 的 的 X X 的 Y 2 例 37758例 86.67% 5801例 13.32% 2 例
“的”在树库中的频次和分布(续) 丙 • 左邻右舍(的人),都捡了东西。 • 两边的机关枪(的射击声)稍一停歇,大门外面的赤卫队……就冲进了公安局。 丁 • “有的放矢”中的“的”
你一定喜欢的 他肺病死的 我报了名的 慢腾腾的 晕头晕脑的 真够瞧的 红的 成套的 天蓝色的 深更半夜的 不住的 又一次的 俨然的 是的 会着凉的 眨呀眨的 “X 的”短语的功能与分布 ap dp np vp tp dj X 的 X 的 X 的 X 的 X 的 X 的 252 例 390 例 4598 例 274 例 286 例 1例 (79.26%) (4.72%) (4.34%) (6.72%) (4.93%) (0.02%)
你一定喜欢的 他肺病死的 我报了名的 慢腾腾的 晕头晕脑的 真够瞧的 红的 成套的 天蓝色的 深更半夜的 不住的 又一次的 俨然的 是的 会着凉的 眨呀眨的 “X 的”短语的功能与分布 ap dp np vp tp dj X 的 X 的 X 的 X 的 X 的 X 的 252 例 390 例 4598 例 274 例 286 例 1例 (79.26%) (4.72%) (4.34%) (6.72%) (4.93%) (0.02%)
8 :1 1 : 4 “X 的”短语 小结 X β X 的 β 1203例非指称用法中,750 例(62.34%)为陈述表达功能,且“的”位于句尾 “的” • “的”更多的是跟在“非指称性成分”后面 • “X 的”短语整体更多的是用作“指称性表达” • 有些句尾“的”有明显语气词化倾向
“的”表“确认”语气用法的一些实例 • 所以他们才把这项工作委托给改良沙漠土壤方面具有丰富经验的林业部门的吧? • 我还听说施工人员以及车辆经过的路线也都列入了设计规划之中,不可以随意乱来的。 • 历史上没有一个反对人民的势力不被人民毁灭的。 • 酣眠固不可少,小睡也别有风味的。 • 你 什么时候遇见他 的 • 横竖 我 要去 的,不用 请 他 来。 • 这些事情,是无论哪一个“友邦”也都有的,…… • 懒洋洋地问道:“哪村来的?” • 您别又穷疯了,胡说乱道的。
“X 的 Y”短语的功能与分布 • 发达国家的平均水平 • 克服困难的信心 • 张三开车的时候 • 多么美妙的前景 • 我喝的牛奶 2 1 5b 5a 4 3
部分树库语料统计结果 “X 的 Y”不同内部模式的频次 667例 3.84% 93例 0.54% 16358例 94.29% 自己 的 莽撞 经济形势 的 逐步稳定 他 的 不诚实 时间 的 推移 器官 的 生长发育 校长 的 尽力撮合 他 的 情绪 他 的 紧张情绪 紧张 的 情绪 15例 0.09% 71例 0.41% 145例 0.84% 说不出 的 兴奋愉快 改革 的 深入 彻底 的 失败 越来越多 的 重视 有组织 的 游说 可持续 的 增长
“np 的 vp”高频分布示例 宾语 主语 并列项
“np 的 vp”与 “np 的 np”同分布的比例 658/667 5828/6252 [ 98.7% ] 93.2%
“np 的 vp”中的vp的结构类型 × × × × × 结构种数: 25 842 [ 2.97% ] [ 3.30% ] 结构例数: 667 203962
“X 的Y”短语 小结 α X 所有短语类型均可。np占41.57% Y 除 pp外其他短语类型均可。np占绝大多数(89.66%)。 X 的 Y α “的” 短语整体用作“指称性表达”占绝对多数; 有少数“的”用在vp后,np前,整体是“陈述性表达” 有极少量“的”相当于“得”。
“X 的 Y”短语整体为vp、ap的一些实例 • 我是1964年上的大学。 • 女人看出他笑的不像平常。 • 您大概是想我想的梦里到过这儿 • 你混的不错 • 他去的匆匆,…… • 要想住的安稳一些,…… • 他说不出的新鲜而且高兴, …… • 他老的不像样子了。 • 我们先前——比你阔的多了。 • 男社员当中,最数张老五挑剔的欢。
“X 的 (Y)” 短语 小结 基本格式: X 的 Y 省略格式: X 的
3 在“树”上看语法范畴 • 3.1 从“串分布”到“树分布” • 3.2 成分省略 与 功能变异
3.1 从 “串分布” 到 “树分布” • 分布分析是语言分析的主要手段。 • 以往的分布分析(面向人)主要是基于线性串的。或者说主要是基于最小二叉树的 • 基于树结构的分布分析(面向计算机)可以获得粒度更细的语言知识。
A w B …… w ? ? ? w ? w ? 乙 甲 …… 关于语言单位的功能(分布)分类 (1)一个语言单位(w)的组合方向: (2)一个语言单位(w)的组合对象: w在参与序列组合时朝哪个方向组合? a. w要求跟几个成分组合? b. w要求跟什么类型的语言成分组合?
“词类”(词的功能分类)示例 b: 区别词 d:副词 u:助词 v:动词 a :形容词 n:名词 • b,d 是功能(分布)比较确定的词类; • u 是组合方向相对确定,但组合对象不确定的词类; • n,v,a等是组合方向和组合对象都不大确定的词类;
“dp vp 的 vp”的结构歧义 • 原本 抽烟 的 不怕烟味 • 也许 抽烟 的 不怕烟味 • 一直 抽烟 的 不怕烟味 甲 乙
增加一个副词,歧义消失 • 原本 就 抽烟 的 不怕烟味 × √ 乙 甲
副词的内部差异 (1)《现代汉语语法信息词典》中副词有“主前后”的描述: 一个副词能否在“主语”前出现 (2)《现代汉语语法信息词典》中没有“副词 + V”后能不能再加“的”的特征描述 √ 就 抽烟 原本 抽烟 × 就 抽烟 的 原本 抽烟 的 √ √
3.2 成分省略与功能变异 A 体词性成分占据谓词性位置 句法成分与句法位置 谓词性成分占据体词性位置 B 句法约束条件改变 3.2.1 C 中心成分缺省 功能变异 中心成分与从属成分 D 从属成分缺省 E 论元数发生变化 语义约束条件改变 F 论旨角色的约束条件发生变化 3.2.2 功能变异的后果
体词性成分占据谓词性位置 3.2.1 A • 看 你 把 闺女 吓 得 那 个 样子 • 豆子 撒 得 满地
谓词性成分占据体词性位置 B • 一丝发抖的声音,在空气中愈颤愈细,细 到 没有,周围便都是死一般静。 • 他在他父亲的公司里一直 呆 到 他 父亲 去世。 • 他 好 就 好 在 为人 老实。
谓词性成分占据体词性位置 • 连续 工作 三 天 的 极度 紧张 使他几乎到了崩溃的边缘
中心成分缺省 C • 让 河水 冲 着 他 向 前 • 他 那 不时 的 啜泣 变成 持续 不断 的 低声 哭泣 (静止)向前? (运动)向前? 不时 发出/发生…
从属成分缺省 D • 他 是 想 家 想 的,晚上 总 睡 不 着 觉。 • 你 为什么 睡 不 着 ——被 他们 吵 的
V X V de : 的 ? 得? 想家 想 得 的 被他们 吵 得 的
V X V de : 的 ? 得? “的”的困境 “把”“被”结构后面的vp不能是简单动词形式
论元数发生变化 E 找: 二价动词? 三价动词? • 你 找 我 什么 事 他 找 我 打 球 他 找 我 借 了 一 些 钱 你 找 我 干/做 什么事 ? 他 找 你 三 件 事 * 他 找 你 几/多少/哪 件 事 * 他 找 你 那 件 事 他 找 你 就 三 件 事 他 找 你 就 这 件 事