1 / 34

HNC 的语言模型

HNC 的语言模型. 苗 传 江 2006 年 8 月 22 日 北京师范大学. 提纲. 1. HNC 说略 2. HNC 的目标和基本内容 3. HNC 的语义网络 4. HNC 的概念表述模式 5. HNC 的语句表述模式 6. HNC 的知识表示体系 7. HNC 的语言理解技术 8. 小结. 1. HNC 说略. Hierarchical Network of Concepts (概念层次网络) 一个关于 NLU 的新理论 ( Natural Language Understanding, 自然语言理解) 一种表述和处理自然语言的新模式

Download Presentation

HNC 的语言模型

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. HNC的语言模型 苗 传 江 2006年8月22日 北京师范大学

  2. 提纲 • 1. HNC说略 • 2. HNC的目标和基本内容 • 3. HNC的语义网络 • 4. HNC的概念表述模式 • 5. HNC的语句表述模式 • 6. HNC的知识表示体系 • 7. HNC的语言理解技术 • 8. 小结

  3. 1. HNC说略 • Hierarchical Network of Concepts (概念层次网络) • 一个关于NLU的新理论 (Natural Language Understanding, 自然语言理解) • 一种表述和处理自然语言的新模式 • 基于概念和语义的语言理论 • 中国科学院声学研究所黄曾阳先生创立

  4. 发展历程 • 1989~1993 理论创立 • 1994~1996 理论实验 • 1997~2000 技术实现 • 2001~ 技术应用 • 影响和地位 • 业界关注 • 三大流派之一 • 应该带来语言学的一场革命

  5. 黄曾阳先生与HNC • 家学渊源 • 多学科优势 • 闭关面壁 • 学术风格 • 我与HNC

  6. 2. HNC 的目标和基本内容 • 目标: 以概念联想脉络为主线,建立一种模拟大脑语言感知过程的自然语言表述模式和计算机理解处理模式,使计算机获得消解模糊的能力。

  7. 自然语言的五重模糊 • 发音模糊 • 音词转换模糊 • 词的多义模糊 • 语义块构成的分合模糊 • 指代冗缺模糊 • 消解模糊 • 语言理解的首要任务 • 对NLU当前阶段的定位 • 如何获得消解模糊的能力?消解模糊靠什么?

  8. NLU的必由之路 • 模拟大脑语言感知过程 • 建立概念联想脉络 • 大脑感知或理解语言的实质 概念联想脉络激活、扩展、浓缩、转换与存储的全过程运作 • 概念联想脉络与语言概念空间

  9. HNC的两个基本假设 • 第一假设: 所有的自然语言空间对应着同一的语言概念空间。 • 这是对语言本体的认识,也是对“自然语言理解”的理解。 • 语言概念空间的同一性是第一位的,差异性是第二位的。 • 补充1:语言概念空间并非概念空间的全部。 • 补充2:语言概念空间的历时性变化是局部的、缓慢的。

  10. 第二假设: 语言概念空间是一个四层级的结构体。 • 这是关于语言概念空间结构特征的假设。 • 语言概念空间的四个层级: • 基层    概念基元 空间/世界/符号体系 • 第一介层  句类 空间/世界/符号体系 • 第二介层  语境单元 空间/世界/符号体系 • 上层    语境框架 空间/世界/符号体系 • 四层级构成语言思维的载体,简称概念层次网络(HNC),因为语言概念空间的基本特征是它的层次性和网络性。

  11. HNC第二假设隐含着三项“无限与有限”的假设:HNC第二假设隐含着三项“无限与有限”的假设: • 语言概念无限而语言概念基元有限; • 语句无限而语句的概念类型(句类)有限; • 语境无限而语境单元有限。

  12. HNC的具体目标就是为语言概念空间的四个层级设计符号体系,建立表述模式。HNC的具体目标就是为语言概念空间的四个层级设计符号体系,建立表述模式。 • 进展:前两个层级的模式已基本完善,后两个层级的模式取得了一定进展。

  13. 前两个层级的进展可概括为5个方面: • 设计了对语言概念空间进行总体描述的语义网络 • 建立了自然语言概念体系的表述模式 • 建立了自然语言语句的表述模式 • 形成了提纲挈领式的知识表示体系 • 形成了称为句类分析的自然语言理解处理技术

  14. HNC的基本内容 句类分析系统 知 识 库 概念和语句表述模式 语 义 网 络

  15. 3. HNC的语义网络 • 对自然语言概念体系的总体描述 • 语言概念空间的框架结构 • 建立概念联想脉络的基础

  16. HNC语义网络概览 • 抽象概念的三大聚类 • 基元概念 • 基本概念 • 逻辑概念 • 具体概念 • 基本物 • 挂靠近似表达

  17. HNC语义网络的特点 • 概念化 • 基元化 • 层次化 • 网络化 • 不是词义分类系统

  18. HNC语义网络的思想来源 • 国内 • 训诂学 • 汉语“字义基元化、词义组合化”现象 • 国外 • Quillian语义网络(semantic network) • Fillmore格语法(case grammar) • Schank概念从属理论(conceptual dependency)

  19. 4. HNC的概念表述模式 • 词汇层面的概念联想脉络 • 对词汇语义的形式化描述 • HNC符号

  20. HNC符号示例 思考 v80 产生 v311 情感 g713 立法 v9311&ga5 思维 g80 消除 v312 爱 vg7135 违法 vd002|ga5 想法 r80 推动 v361 爱情 gr71359 承担 v901 力 g008 抑制 v362 保护 v3219 责任 rc010 力量 gz00 调节 v360 照顾 v653219 圆满 u30a 力度 z00 年 wj10- 维护 v93219 完成 v30a8 弱 u00c21 月 wj10-0 保卫 vc3219 精力 gz655098 强 u00c22 日 wj10-00 写作 va31 旺盛 zu5098e71 萌芽 gv10ac41 体 j20- 作家 pa31 幸福 gu50a9ae81 成长 v10ac42 面 j20-0 治疗 va82 生活 gv50a9 成熟 vu10ac43 线 j20-00 处方 gwa82 衰亡 v10ac44 点 j20-000 药物 wa82 达成 vc249a$(v308|(jlv001/v810))

  21. 关系即意义 • 消解模糊示例 召开 vc3959+va01 精力 gz655098 会议 gc39e219 旺盛 zu5098e71 回忆 vg6802 经理 pea20/p44e61 会意 v8108 经历 vr65108

  22. 以关联性代替任意性,显现词义之间的概念关联。以关联性代替任意性,显现词义之间的概念关联。 • 首要目的和价值不是给出概念的精确表示,而是给出概念联想脉络的线索。 • 每一个符号基元都具有确定的意义,可以充当概念联想的激活因子。 • 具有语义完备性,能够与自然语言的任何词语建立起语义映射关系。

  23. 5. HNC的语句表述模式 • 句子层面的联想脉络 • 建立了句子的语义结构表示式 • 发现了句子语义的57种基元类型 • 可以描述任何句子的语义结构

  24. 基本句类及其表示式示例 • 主动反应句 X21J = X2A + X21 + XBC 反应者+反应+反应引发者及其表现 张三反对李四的看法。 • 信息转移句 T3J = TA + T3 + TB + T3C 转移发出者+转移+接收者+转移内容 张三告诉李四王五结婚了。 • 基本句类是句子语义的基元类型 老张表扬了小王的工作成绩。 X21T3*^21J = TAX2A + X21T3 + XBC

  25. 句类表示式是 • 句子语义的基本框架 • 语句理解的启发性知识 • 句子的深层结构 • 确定句类表示式是语句理解的基本任务

  26. 句类和语义块是对句子的语义描述 • 与句法结构无关 • 主席团坐在台上。< > 台上坐着主席团。 • 张三打了李四。< > 张三把李四打了。< > 李四被张三打了。 • 张三打了李四。< > 张三讨厌李四。< > 张三支持李四。 • 张先生喜欢李小姐的个性。 < > 张先生喜欢李小姐的妹妹。 • 特征语义块有复合构成 • 胡锦涛将对俄罗斯进行友好访问。 • 很多人对北京的交通状况持悲观态度。 • 语义块可以分离 • 李四被张三打断了腿。 • 中国正在对国有企业进行产业结构调整。 • 句蜕要还原为句子 • 这些话语似乎表示了他对奴隶的同情。

  27. 6. HNC的知识表示体系 • 区分概念、语言、常识及专业三个层面 • 定位于消解语言模糊 • 以概念联想脉络为主线,以句类知识为纲领,把语法、语义、语用和世界知识综合起来进行抽象与提炼 • 概念化、数字化,不是用自然语言描述自然语言

  28. HNC汉语词语知识库示例: 词形: 起诉 概念类别: v;ug HNC符号: va5a 句类代码: T3R011*322 格式: !113;!320 @S: TB:pea56 RB2:pe;p @CA: {ug,Q H:gw|书;状;} T3R011*322J = TA + T3R011 + TB + RB2

  29. 7. HNC的语言理解技术 HNC理解处理系统的基本框架 预处理 基本词库 语义块感知和句类假设 概念知识库 句类检验 语义块构成分析 词语知识库 语境生成 短时记忆 隐知识揭示 要点主题分析

  30. 句类分析三部曲: • 语义块感知和句类假设 • lv感知;v排除排队 • 句类检验 • 预期匹配 • 语义块构成分析 • 同行优先准则 刘嘉玲正式向上海中级人民法院起诉汕头雅丽丝实业公司。

  31. 以语义为主导 • 自上而下和自下而上相结合 • 分析结果及其应用 以搜索“布什访问俄罗斯 ”为例 布什访问俄罗斯 布什出访俄罗斯 布什对俄罗斯进行国事访问 布什抵达俄罗斯开始为期五天的访问 访问俄罗斯的布什总统接见了莫斯科的美商代表

  32. 8. 小结 • HNC建立了基于概念联想脉络的语言模型,揭示出自然语言总体上是well-defined的。 • HNC的语言模型可以使计算机实现对大脑语言感知过程的初步模拟,获得相当强的消解模糊能力,从而迈上自然语言理解的第一个台阶。 • HNC的语言模型提供了观察自然语言的望远镜和显微镜,为语言研究开辟了新天地。

  33. 附:资源 • 黄曾阳. 1998. HNC(概念层次网络)理论. 北京: 清华大学出版社 • 黄曾阳. 2004. 语言概念空间的基本定理和数学物理表示式. 北京: 海洋出版社 • 苗传江. 2005. HNC(概念层次网络)理论导论. 北京: 清华大学出版社 • 晋耀红. 2006. HNC(概念层次网络)语言理解技术及其应用. 北京: 科学出版社 • 苗传江, 杜燕玲(主编). 2004. 第二届HNC与语言学研讨会论文集. 北京: 海洋出版社 • 张全, 萧国政(主编). 2001. HNC与语言学研究. 武汉: 武汉理工大学出版社 • http://www.hncnlp.com/ • http://www.hncit.com/

  34. 敬请批评指正, 谢谢!

More Related