1 / 29

中文信息处理的资源建设

中文信息处理的资源建设. 苗 传 江 2006 年 8 月 25 日 北京师范大学. 提纲. 1. 语言资源的重要性及其类型 2. 语言资源建设是系统工程 3. 关于语料库建设 4. 知识库建设的基本问题 5. 国内外知识库建设项目简介 6. HNC 的知识库建设 7. 语言资源建设的其他若干问题. 1. 语言资源的重要性及其类型. 重要性 各项技术和应用都离不开语言资源 语言资源制约语言信息处理的发展 语言资源对语言信息处理的竞争有决定意义. 语言资源的类型 对言语的记录 对语言的描述 系统是否可直接调用? 基础型还是应用型?

mircea
Download Presentation

中文信息处理的资源建设

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 中文信息处理的资源建设 苗 传 江 2006年8月25日 北京师范大学

  2. 提纲 • 1. 语言资源的重要性及其类型 • 2. 语言资源建设是系统工程 • 3. 关于语料库建设 • 4. 知识库建设的基本问题 • 5. 国内外知识库建设项目简介 • 6. HNC的知识库建设 • 7. 语言资源建设的其他若干问题

  3. 1. 语言资源的重要性及其类型 • 重要性 • 各项技术和应用都离不开语言资源 • 语言资源制约语言信息处理的发展 • 语言资源对语言信息处理的竞争有决定意义

  4. 语言资源的类型 • 对言语的记录 • 对语言的描述 • 系统是否可直接调用? • 基础型还是应用型? • 服务于理解还是生成? • 是否以语义描述为中心?

  5. 2. 语言资源建设是系统工程 • 系统性 • 理论方法不同,资源可能不同。 • 资源建设应与系统实现密切配合。 例如词表建设(收“词”原则和词表的组织) • 输入法软件的大“词”表 • “类推词”:鸡蛋、鸭蛋、鹌鹑蛋、恐龙蛋…… • “异构词”:松花蛋、茶叶蛋、荷包蛋;煎蛋、蒸蛋;鱼蛋、泥蛋、驴粪蛋;笨蛋、坏蛋、蠢蛋 • “临时词”:宇迷、保先 • 专业词:越位、点球、边裁;铲射、吊射、扫射、垫射

  6. 工程性 • 目标明确可行 • 规模达至应用 • 注重实际效用 • “鸡蛋”应收入词表,而“鸭蛋”未必。

  7. 3. 关于语料库建设 • 语料库有什么作用? • 应怎样加工语料库? • 何谓“大规模”? • 语料库怎么平衡? • 现代汉语与语料库建设的当务之急 • 服务于现代汉语语言知识库建设 • 文本属性标注 • 语体、文体、体裁、领域、语域 • 语料库工具的研发 • 查找例句

  8. 4. 知识库建设的基本问题 知识库:语言资源的子类 • 面向NLU • 统计数据是知识库吗? • 系统可直接调用 • 百科全书是知识库吗? • NLU的基本目标是什么? • 语言模糊的消解 • 意义的表示和映射

  9. NLU需要哪些知识? 句法、语义、语用、常识、专业 …… ? • 周杰伦在大陆的演出活动 • 周杰伦将在大陆举办个人演唱会 • 周杰伦个人演唱会将在北京首都体育馆举行 • 巡回演出第一站,周杰伦在广州火爆亮相 • 周杰伦前往西安参加义演活动 • 北京举办扶贫义演,刘德华、周杰伦等港台明星出席

  10. 各类知识分别起什么作用? • 重要性的差别 • 主次之分:谁是统帅? • 各类知识之间的关系:分立还是协同? • 句法 => 语义 => 语用 ? Colorless green ideas sleep furiously. (Chomsky) 所有的石头都死了。(邢公畹) 一树红桃个个青,满天下雨半天星, 三个和尚四面坐,不言不语唱真经。

  11. 知识怎样表示? 针对电脑的需要 • 如何构建知识库系统? • 知识从哪里来? 语言材料和语言能力 • 怎样有效地利用知识?

  12. 5. 国内外知识库建设项目简介 • Cyc http://www.cyc.com/ • Cycorp, Inc.,the leading supplier of formalized common sense, based in Austin, Texas, founded by Douglas Lenat in 1984 • Cyc technology,the world's largest and most complete general knowledge base and commonsense reasoning engine • Cycorp's goal, to break the "software brittleness bottleneck" once and for all by constructing a foundation of basic "common sense" knowledge • What’s common sense? what we normally consider consensus knowledge about the world.For example, Cyc knows that trees are usually outdoors, that once people die they stop buying things, and that glasses of liquid should be carried rightside-up. -- "Cyc" sounds like "psych".

  13. Cyc will enable a variety of knowledge-intensive products and services. For example, • Cyc can find the match between a user's query for "pictures of strong, adventurous people" and an image whose caption reads simply "a man climbing a cliff." • Cyc can notice if an annual salary and an hourly salary are inadvertently being added together in a spreadsheet. • When someone searches for "Bolivia" on the Web, Cyc knows not to offer a follow-up question like "Where can I get free Bolivia online?" • Cyc-like common sense is a prerequisite for human-level NLU. • Fred saw the plane flying over Zurich. • Fred saw the mountains flying over Zurich. It's difficult to see how to resolve this syntactic ambiguity and reject nonsensical interpretations without relying on a large database of common sense.

  14. Cyc Knowledge Base • consists of terms and assertions which relate those terms • CycL, • the Cyc representation language, is a large and extraordinarily flexible knowledge representation language. It is essentially an augmentation of first-order predicate calculus (FOPC). • Example • (#$implies (#$isa ?A #$Animal) (#$thereExists ?M (#$mother ?A ?M))) • Size • At the present time, the Cyc KB contains nearly two hundred thousand terms and several dozen hand-entered assertions about/involving each term.

  15. WordNet http://wordnet.princeton.edu/ • A lexical database for the English language • English nouns, verbs, and adjectives are organized into synonym sets, each representing one underlying lexical concept. Different relations link the synonym sets. • whose design is inspired by current psycholinguistic theories of human lexical memory. • Synonym sets example • {board, plank} and {board, committee} • Which can serve as unambiguous designators of the two meanings of board. • Relations examples • ISA, HASA, • Functions, e.g., instrument(knife, cut) products(hole, dig)

  16. EDR Electronic Dictionary http://www2.nict.go.jp/r/r312/EDR/ • a machine-tractable dictionary that catalogues the lexical knowledge of Japanese and English • developed for advanced processing of natural language by computers • composed of eleven sub-dictionaries, which include a concept dictionary, word dictionaries, bilingual dictionaries, etc.

  17. FrameNet http://framenet.icsi.berkeley.edu/ • The Berkeley FrameNet project is creating an on-line lexical resource for English, based on frame semantics and supported by corpus evidence. • The aim is to document the range of semantic and syntactic combinatory possibilities (valences) of each word in each of its senses, through computer-assisted annotation of example sentences and automatic tabulation and display of the annotation results.

  18. HowNet(知网) http://www.keenage.com/ • 董振东、董强 • 一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。 • 词条举例 • W_C=买主 • G_C=N [mai3 zhu3] • W_E=buyer • G_E=N • DEF={human|人:domain={commerce|商业},{buy|买:agent={~}}}

  19. 6. HNC的知识库建设 • HNC知识库建设的三条根本原则: • (1)把知识划分为概念、语言和常识三个层面,采取不同的知识表示策略和学习方式,并分别建库。 • (2)语言知识库建设应将服务目标首先定位于自然语言五重或三重模糊的消解。 • (3)词语知识库建设应以句类知识为核心。

  20. HNC知识库的构成 配合应用需要 常识及专业 知识库 语料库 词语库、字库、小专家库 语言知识库 概念基元库、句类知识库 概念知识库

  21. 概念知识库 • 概念基元库 • 约3000个概念基元 • 句类知识库 • 57种基本句类及常见混合句类 • 句类知识举例 • 一般反应句 • X20J = X2B + X20 + XBC • X2B: p;pe. • XBC = XBCB + XBCC • => X10J

  22. 语言知识库 • 目前只做了现代汉语知识库 • 词语知识库 • 59988词,64538义项 • 单字知识库 • 3363字,6930义项 • 与词语库相比,主要增加了构词知识

  23. 词语知识库示例 • 加入 加入 • [1] v [1] v • [2] v93919 [2] v6420+v341 • [3] R112Y90*22J=RB2+RY+RB1 [3] T2J=TA+T2+TB+T2C • [4] ^! [4] !114;!113 • [5] RB2:p;pe. RB1:pe. [5] TB:Ph(j2). 知识项: • [1]概念类别 [2]HNC符号 [3]句类代码 [4]格式代码 • [5]JK的知识 [6]E的知识 [7]角色及局部联想知识 • 词语知识库演示

  24. 语料库 • 示例 !0T21R411*22J+Cn ~这天早上,||小学生们||都带着||自己的暑假作业, !31T2bJ+Cn ~{!31T2bY9*11J+Re ~按地区|集合}后,||整队走向||学校。 !2P01J+Cn ~8:30||举行||开学式, !0X20J 校长||希望||{SP10*21J+Ms 他们|~以新的精神状态|开始|新的学习生活}。 !0T2bJ 接着,他们||回到||各自的教室, !0D01J 班主任||不仅要确认||{T2bS*11J 全班同学|是否到齐}, !31T31J 还要询问||{PS041*21J 他们的暑假生活|过得|是否充实愉快}, !31T19J 观察和检查||{X21J 他们|是否做好了|新学期的学习[准备|]}, !31113T31Y30*21J 然后向他们||提出||新的要求。

  25. 标注内容: 句类 句子的语义类型 语义块 句子的下一级语义构成成分 句蜕 语义块中包含的句子 • 特点: • 语义层面 • 句子级 • 自上而下 • 例句: • 李四被张三打断了腿。 • 中国对国有企业进行了产业结构调整。 • 李鹏总理对法国的支持表示衷心的感谢。 • 李小姐的办事能力||得到||张先生的赏识。 • 俄罗斯||反对||{美国|攻打|伊拉克}。 • <生产|信息技术产品|的工厂>||都转移到了||国外。 • <经济危机|造成|的后遗症>||也减轻了。 • 这些话||似乎表示了||<他|对奴隶的生活境况|的同情>。

  26. HNC知识库建设的历程 • 1997 应用起步,面向系统开发的需要 • 1998 初具规模,NLU核心系统的需要 • 2001 横向扩展,面向应用系统的需要 • 2003 纵向扩展,提高一致性和完整性

  27. HNC知识库的特点 • 区分概念、语言、常识及专业三个层面; • 定位于消解语言模糊; • 以概念联想脉络为主线,以句类知识为纲领,把句法、语义、语用和世界知识综合起来进行抽象与提炼; • 概念化、数字化,不是用自然语言描述自然语言; • 知识表示体系具有良好的可扩展性; • 资源建设与系统研发密切配合。

  28. 7. 语言资源建设的其他若干问题 • 质量保证 • 人才培养 • 资源共享 • 合作权益 • 工具研发

  29. 敬请批评指正, 谢谢!

More Related