410 likes | 606 Views
概述 (语言信息处理 && 自然语言理解). 2009-2010 学年 For 对外汉语方向本科生. 昆仑军分区歌舞团长途跋涉来我部慰问演出. 这像是方红画的. 甲 : 听说吴妈打赢了阿 Q 。 乙 : 不错,阿 Q 确实被吴妈打败了。 甲 : 这个结果有些出人意料。 乙 : 阿 Q 是大意失荆州,怪不得别人。. 人用来交际的“语言”具有什么样的性质? 人用来交际的“语言”和机器可以理解的语言有什么样的关系? 人是如何运用“语言”进行交际的? 人运用“语言”进行交际的“过程”是否可以描述为一个“机械的过程”? 什么叫做“理解”一种语言?
E N D
概述(语言信息处理&&自然语言理解) 2009-2010学年 For 对外汉语方向本科生
昆仑军分区歌舞团长途跋涉来我部慰问演出 • 这像是方红画的 • 甲: 听说吴妈打赢了阿Q。 • 乙: 不错,阿Q确实被吴妈打败了。 • 甲: 这个结果有些出人意料。 • 乙: 阿Q是大意失荆州,怪不得别人。 • 人用来交际的“语言”具有什么样的性质? • 人用来交际的“语言”和机器可以理解的语言有什么样的关系? • 人是如何运用“语言”进行交际的? • 人运用“语言”进行交际的“过程”是否可以描述为一个“机械的过程”? • 什么叫做“理解”一种语言? • 如何从“内在的交际意图”到“外显的语言表达”? • …… 对外经贸大学中文学院.对外汉语
释名 • 自然语言(Natural Language ) 一种语言,其规则是根据当前流行的用法而不是用明确的形式规定的。 自然语言是没有经过加工的或人为干预的语言。 • 人造语言(Ruled language) 一种语言,其规则在使用前已经明确地规定了。 是一种由人为某些特定目的而创造的语言。 • 语言信息处理\自然语言理解\自然语言处理\人类语言技术\计算语言学 对外经贸大学中文学院.对外汉语
释名 • 计算语言学(Computational Linguistics) 计算语言学是利用电子数字计算机进行的语言分析。虽然许多其他类型的语言分析也可以运用计算机,计算分析最常用于处理基本的语言数据――例如建立语音、词、词元素的搭配以及统计它们的频率。(《大不列颠百科全书》) 计算语言学指的是这样一门学科,它通过建立形式化的数学模型来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的全部或者部分语言能力的目的。 • 人类语言技术(Human Language Technology,HLT) 所有围绕人类语言(而非动物语言或形式语言)所开展的处理技术的研究。 对外经贸大学中文学院.对外汉语
释名 • 自然语言理解(Natural Language Understanding,NLU) 人工智能的分支学科。研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。 • 自然语言处理(Natural Language Processing,NLP) 是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。 对外经贸大学中文学院.对外汉语
释名 • 语言信息处理(Language Information Processing,LIP) 是指用计算机对自然语言的音、形、义等信息进行处理。即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作与加工。语言信息处理是一门边缘学科,也是一门交叉学科。它综合了语言学、逻辑学、心理语言学、计算机科学、哲学、人工智能、数学和统计学的研究成果,将它们运用于计算机的语言分析和处理。 对外经贸大学中文学院.对外汉语
参考文献 • 《自然语言的计算机处理》 冯志伟 上海外语教育出版社 • 《应用语言学》 刘涌泉 湖南教育出版社 • 《汉语计算语言学》 吴蔚天 罗建林 电子工业出版社 • 《人工智能原理》 石纯一 清华大学出版社 • 《现代汉语语法信息详解词典》 俞士汶 清华大学出版社 • 《自然语言理解》 姚天顺 清华大学出版社 • 《信息处理用现代汉语分词规范及自动分词方法》 刘源等,清华大学出版社 • 《计算语言学概论》 翁富良等 中国社会科学出版社 • 《当代西方语法理论》 俞如珍 上海外语教育出版社 • 《语言文字应用》,1992年至今各期 对外经贸大学中文学院.对外汉语
《中文信息处理》,傅永和,广东教育出版社 • 《应用语言学综论》,冯志伟,广东教育出版社 • 《语料库语言学》,黄昌宁,商务印书馆 • 《计算语言学探索》,冯志伟,黑龙江教育出版社 • 《计算语言学基础》,刘颖,清华大学出版社 • 《计算语言概论》,俞士汶主编,商务印书馆 • 《语言文字的信息处理》,盛炎 • 《中文信息处理若干重要问题》,徐波等,科学出版社 • Natural Language Understanding, James Allen, • Foundations of Statistical Natural Language Processing,Christopher D.Manning,Hinrich Schutze 对外经贸大学中文学院.对外汉语
语言信息处理领域主要学术会议及活动 • ACL(Association for Computational Linguistics) — 美国计算语言学会 • COLING(International Conference on Computational Linguistics) — 国际计算语言学会议 • TREC(Text REtrieval Conference) • CNCCL(全国计算语言学联合学术会议) • 附件:HLTwebs.html 对外经贸大学中文学院.对外汉语
考试方式 • 平时成绩(30%) = 课堂作业 + 课下作业 + 出勤 • 期中考试(20%):课程报告 (研究报告或读书报告) • 期末考试(50%):以填空、名词解释、简答和论述为主 对外经贸大学中文学院.对外汉语
祝大家新学期学习进步、生活快乐! 对外经贸大学中文学院.对外汉语
本章内容 • 语言信息处理的方向 • 语言信息处理的对象 • 语言信息处理的学科定位 • 语言信息处理的目标 • 语言信息的理解处理所需的知识 • 自然语言处理的根本问题 • 语言理解处理系统的评价 • 自然语言处理的研究方法 • 自然语言处理的发展历史 • 自然语言处理系统的总体构成 对外经贸大学中文学院.对外汉语
语言信息处理的方向 • 分析(理解) analyze, understand • 生成(表达) generate or produce, express 实现人机交互意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。后者称为自然语言生成。 “矮墙和低墙 ” 对外经贸大学中文学院.对外汉语
语言信息处理的对象 • 文本(文字流) text • 书面理解 用文字输入,使计算机“看懂”文字符号,也用文字输出应答。 • 将文字输入计算机 • 计算机识别和理解文字、词、短语、句子、段落和篇章 • 按指定的目标作出相应的回答或反映 • 话语(语音流) speech • 语音理解 用口语语音输入,使计算机“听懂”语音信号,用文字或语音合成输出应答。 • 用口语对计算机讲话 • 计算机识别语音输入,把语音流变换为文字流 • 然后按书面语理解 • 最后利用语音合成将回答转换成声音输出 对外经贸大学中文学院.对外汉语
语言信息处理的学科定位 • 交叉学科:语言学、计算机科学、认知科学、数学、哲学和逻辑学 计算机对自然语言的处理一般应经过三个方面: 形式化 编写算法 程序实现 对外经贸大学中文学院.对外汉语
人工智能的分支 AI, Artificial Intelligence NLU是人工智能的重要内容。自然语言的信息处理是跟计算机的诞生几乎同时开始的一个多学科交叉研究领域。来自计算机科学、语言学、数学等不同学科的研究人员构成了目前这一领域的主要研究力量。随着计算机应用的日益普及,其功能也从主要是数值计算发展到以非数值信息处理为主。 因此,语言信息处理处于文科、理科和工科的交叉点上,是建立在语言学、数学和计算机科学这三门学科基础上的边缘性学科。 对外经贸大学中文学院.对外汉语
语言信息处理的目标----理解的定义 • 最终目标:让电脑像人一样理解语言 • “目前学界对于‘理解’的理解、有关‘概念’的概念、赋予‘语义’的语义、界定‘知识’的知识都可能是各不相同甚或互不搭界的。” (张普) 符号学人工智能认为 :“理解”即是表示,理解的过程关注的是表示的构造和使用 Fillmore(格语法)认为:理解一个概念决定于我们拥有的背景环境和这个概念本身的背景框架原型匹配的程度 Schank(概念依存理论)认为:“理解”是在概念空间中,但不仅仅是一个被动的操作过程,而部分的受我们预期的驱使。 对外经贸大学中文学院.对外汉语
关于理解的不同定义 • 关于自然语言理解,至今尚无一致的、各方可以接受的定义 • 自然语言的复杂性 • 多义性、上下文有关性、模糊性、非系统性和环境密切相关性、涉及的知识面广 • 与应用目标相关 • 微观与宏观角度不一 • 从微观上讲,自然语言理解是指从自然语言到机器内部的一个映射 • 从宏观上看,自然语言是指机器能够执行人类所期望的某些语言功能 对外经贸大学中文学院.对外汉语
接收信息 分析特征字 检索数据库 反馈相应信息 语言信息处理的目标----理解的标准 • 聊天机器人是否具有AI? • 图灵测验 让一个正常人和电脑分别回答实验者的问题,如果实验者无法分辨出来哪个是人的回答,哪个是机器的回答,那么这台电脑就具有AI。 对外经贸大学中文学院.对外汉语
语言信息处理的目标----理解的标准 • 对图灵测验的质疑—中国屋试验 美国哲学家约翰塞尔 • 语言理解能力的功能定义 美国认知心理学家G. M. Olson提出语言理解的四条标志: (1)能成功地回答输入语料中的有关问题:答问 (2)在接受一批语料之后,有就此给出摘要的能力:摘要 (3)能用不同的词语复述所输入的语料:复述 (4)有从一种语言转译成另一种语言的能力:翻译 对外经贸大学中文学院.对外汉语
语言信息处理的目标----理解的标准 • 理解能力的判定 让计算机具有针对自然语言的分析理解与生成表达能力,是自然语言理解/处理的目标。 • 判定一个自然语言处理系统是否具有理解能力,主要依据两点 • 是否从意义上去处理自然语言 • 处理结果是否正确无误。 对外经贸大学中文学院.对外汉语
语言信息的理解处理所需的知识 • 要让计算机具有这种能力,就需要从语言学知识角度出发构造关于语言理解和生成的计算模型,并且这些模型还要在特定领域背景下表现良好。 • 语言学知识: • 从语言构成角度:词汇、短语、句子、段落、篇章等 • 从语言特征角度: 对外经贸大学中文学院.对外汉语
语言信息的理解处理所需的知识 • 语音知识(Phonetic and phonological knowledge):研究词语与其发音如何关联。这种知识对于基于语音的系统是至关重要的。 • 词法知识(Morphological knowledge):包括词语形态学知识,研究词语如何由被称为词素的更基本的意义单位构成。 • 句法知识(Syntactic knowledge ):研究词语是如何排列以组成正确的句子,并决定每个单词在句子中所充当的结构角色,以及短语之间的构成关系。 • 语义知识(Semantic knowledge):词义,及其如何组合成句义,不依赖上下文和客观语境。即研究词语的意义以及在句子中词语意义是如何相互结合以形成句子意义的。这是上下文无关的意义研究,即一个句子在不考虑其上下文的情况下所具有的意义。 • 语用知识(Pragmatic knowledge):研究句子如何在不同语境中的使用,以及这种使用如何影响句子的解释。 • 篇章知识(Discourse knowledge):研究在前面句子的影响下,下面的句子该如何解释,即句间意义关联,主要包括代词指代的解释和信息中所包含的时态解释等。 • 世界知识(World knowledge):常识及交流双方的背景知识,这种知识对于语言的理解和使用时必需的。 对外经贸大学中文学院.对外汉语
语言信息的理解处理所需的知识 • 几十年来,自然语言处理研究的重点是分析。自然语言分析的关键就是识别与消解自然语言的歧义。在每个层面的语言表示和解释中都涉及歧义消解,因此,歧义消解是自然语言理解中的一个基本问题。 • 基于句法的分析方法往往对语义不通的句子无能为力。语义不通的句子有两种类型: • 一是内部自相矛盾: • 满脸胡子的张三没长胡子 • 一树红桃个个青,满天下雨半天星,三个和尚四面坐,不言不语唱真经 • 二是不符合概念意义常识知识: • 所有的石头都死了。 (邢公畹) • Colorless green ideas sleep furiously. (Chomsky) • (无色的绿色在猛烈地睡觉) 对外经贸大学中文学院.对外汉语
自然语言处理的根本问题 • 理解语言的关键之一是对意义的表示(Representation),NLU的过程实际上是信息表达方式的转换,之后再输出,效果力求同人一样。 • 为什么不能直接用自然语言来表示?根本问题在于语言的歧义性(ambiguity):同一形式表达不同意义;同一意义用不同形式表达。 We saw him swim across the river. The Seniors were told to stop demonstrating on campus. 对外经贸大学中文学院.对外汉语
自然语言处理的根本问题 • 对意义的“精确”表达要用数学、逻辑及形式语言。一种合用的表达语言(representation language)具备以下两个特征: • (1)区别性:精确、无歧义(precise and unambiguous)。对同一句子的不同意义有不同的表达形式。 • (2)同一性:能表达句子的直观结构。结构类似的句子应具有类似的结构表达,结构不同但意义相同的句子应能紧密关联。 • NLU的根本问题是,如何表达自然语言的意义?如何消解自然语言的歧义? 对外经贸大学中文学院.对外汉语
语言信息处理的应用 • 面向文本(Text-based): • 自动索引(Index) • 智能查询(Querying) • 机器翻译(Machine Translation)和机助翻译 • 文本分类(Text Classification) • 文本校错(Spelling Check ) • 信息检索(Information Retrieval) • 信息提取(Information Extraction) • 自动文摘(automatic summarizing) • 人机接口(Human-Machine Interface) • 故事理解 对外经贸大学中文学院.对外汉语
语言信息处理应用 • 面向语音(Dialogue-based): • 语音识别(Speech Recognition) • 语音合成(Speech Synthesis) • 问答系统(Questioning and Answering) • 人机对话(Human-machine communication) • 电话服务 • 教学辅导系统 • 语言控制机器 对外经贸大学中文学院.对外汉语
应用举例 • 自然语言人机接口 • 请给出来自湖北的学生名单。(祈使句) • 哪些学生来自湖北?(疑问句) • 请问来自湖北的学生有哪些?(祈使疑问句) • 来自湖北的学生名单。(省略句) • 找出所有这样的学生:他们来自湖北。(复合句) 对外经贸大学中文学院.对外汉语
应用举例--自动文摘 • 自动摘录:计算词频和句子的权重,确定权重最高的若干句子作为文摘内容,并按顺序输出。(最简单) • 基于理解的自动文摘:利用语言学知识获取语言结构,利用领域知识进行判断、推理,得到文摘的意义表示,最后从意义表示中生成摘要。(理想情况) • 信息抽取: (1)定义文摘框架,它以空槽的形式提出应从原文中获取的各项内容。 (2)利用特征词从文本中抽取相关的短语或句子填充文摘框架。 信息抽取与基于理解的自动文摘相比只对有用的文本片段进行有限深度的分析,其效率和灵活性显著提高。 对外经贸大学中文学院.对外汉语
应用举例--Web上的智能搜索引擎 对外经贸大学中文学院.对外汉语
语言理解处理系统的评价—ELIZA系统 UserELIZA --Men are all alike. --In what way? --They're always bugging us about --Can you think of a specific example? something or other. --Well, my boyfriend made me come here. --Your boyfriend made you come here. --He says I'm depressed much of the time. --I'm sorry to hear you are depressed. --It's true, I am unhappy. --Do you think coming here will help you not to be unhappy? --I need some help; that much seems certain. --What would it mean to you if you got some help? --Perhaps I could learn to get along with --Tell me more about your family. my mother. --My mother takes care of me. --Who else in your family takes care of you? --My father. --Your father. --You are like my father in some ways. --What resemblance do you see? --Necessity is the mother of invention. --Tell me more about your family. (需求是发明之母) 对外经贸大学中文学院.对外汉语
语言理解处理系统的评价 • 暗箱与明箱 black box && glass box • 暗箱:运行该程序并观察它在完成设定任务时表现如何。 • 明箱:确定一个系统的各个组成部分,然后用合适的测试方法来评价每一个部分 • 表现与潜力 • 用户与专家 对外经贸大学中文学院.对外汉语
自然语言处理的研究方法 • 理性主义与经验主义是自然语言处理研究方法的哲学分野。理性主义的研究方法与经验主义的研究方法是自然语言理解领域两大主流。 • 理性主义认为: • 人的很大一部分语言知识是生来具有,由遗传决定的。 • 理性主义主要研究人的语言知识结构(语言能力,Language Competence),认为实际的语言数据(语言行为,Language Performance)只提供了这种内在知识的间接证据。 • 因此它通过语言所必须遵守的一系列原则来描述语言,通过这些原则来判定一个语句是正确的还是错误的。 • 理性主义通常是通过对一些特殊的语句或语言现象的研究来得到对人的语言能力的认识,而这些语句或现象在语言的实际应用中并一定是常见的。 对外经贸大学中文学院.对外汉语
自然语言处理的研究方法—经验主义 • 经验主义认为: • 人的知识通过感官输入,经过一些简单的联想(association)与通用化的操作而得到的。人并不是与生俱来有一套有关语言的原则和处理方法。 • 经验主义的研究对象是实际出现的语言数据。 • 经验主义的方法通常是基于信息论的思想。表现在NLU中,许多研究将语言事件赋予概率,试图从大量的语言数据中获取语言的结构知识,由此来一个语句是常见的还是罕见的。 • 经验主义偏重于对语料库中人们所实际使用的普通语句的统计表述。 对外经贸大学中文学院.对外汉语
自然语言处理的研究方法—经验主义 • 经验主义研究方法示例: • [噪声信道模型:信号传输中,输入端有一个信号序列I,通过一条信道传输到输出端,成为信号序列O,由于信道有噪声,通常O有一定程度的讹误或失真而不等于I,如何恢复?如词性标注中的应用] • [互信息:是信息论中的一个概念(Fano,1961),它用来度量一个消息中两个信号之间的相互依赖程度。在计算语言学上可以计算两个字或词之间的结合力。可以用来进行词义或词性消歧。如文本中“bank”的消歧:堤岸;银行] • [n元语法:当前符号的条件概率取决于从前面N-1个符号到它的转移概率。如马尔科夫模型,计算相邻的n个字词的同现概率。] 对外经贸大学中文学院.对外汉语
自然语言处理的发展历史—四度风云 • 50年代的机器翻译畅想 • 70年代的专家系统浪花 • 80年代的智能计算机计划 • 90年代的语料库浪潮 这是在NLU的发展过程不同阶段上的重点。 对外经贸大学中文学院.对外汉语
自然语言处理的发展历史—五个阶段 • 第一阶段:1940s—1950s • 自动机的研究 • 概率或信息论模型 • 语音识别技术 • 1957—1970 两个阵营 • 五十年代末六十年代初,自然语言理解处理分成符号的、随机的两种处理方法 • 1970—1983 四个范性 • 随机的方法在这一时期的语音识别方面起了巨大的作用,尤其是隐马尔科夫模型的使用。 • 基于逻辑的方法开始使用。 • 自然语言理解领域开始起飞。基于逻辑的方法和自然语言理解不可分割,LUNAR的问答机综合了两种方法的研究。 • 篇章模型的研究 • 1983—1993 经验主义和有限状态模型的回归 • 1994—1999 • 概率统计和数据驱动模型在自然语言处理领域已经相当权威。算法分析、词性标注、篇章处理等都与概率统计结合。 • 计算机运算速度和内存的增加使许多语音和语言处理可用于商业开发,尤其是语音识别、拼写和语法检查 • 网络的发展对基于语言的信息获取和信息抽取的需要。 对外经贸大学中文学院.对外汉语
自然语言理解处理系统总体构成 • 语料库 • 建立在计算机中的语言资料库的简称,是真实文本的有序集合。可以根据语料库文本的属性和语料库的用途分为生语料库和熟语料库,或共时语料库和历时语料库等。 • 语言自动处理软件系统 • 语言知识库 • 语音、词汇、文字、句法、语义、语用知识 • 语言数据库 • 依据语言知识库中的知识对语言资料库中的资料进行加工处理后所得到的数据库。 • 背景知识库 对外经贸大学中文学院.对外汉语
本章内容参见: • 冯志伟 《自然语言处理的历史与现状》 • James Allen 《Natural Language Understanding》 • 冯志伟,孙乐译 《自然语言处理综论》 • 苗夺谦《中文文本信息处理的原理与应用》 • 翁富良《计算语言学导论》 • 俞士汶《计算语言学概论》 • 百度百科:自然语言理解、自然语言处理、计算语言学 对外经贸大学中文学院.对外汉语
思考题 • 名词解释:自然语言 • 名词解释:人造语言 • 名词解释:计算语言学 • 名词解释:自然语言理解 • 名词解释:自然语言处理 • 名词解释:图灵测验 • 计算语言学、自然语言理解和自然语言处理三个术语有什么区别? • 简介语言信息处理的两个方向。 • 简述语言信息处理的学科定位。 • 语言信息处理需要哪些知识? • 自然语言处理的根本问题是什么? • 简介自然语言处理的应用。 • 简介自然语言处理的研究方法。 • 简介自然语言处理的发展历史。 • 简介自然语言理解处理系统的总体构成。 • 论述:对自然语言理解系统的评价应该注意哪些方面? • 论述:语言信息处理的目标。 • 论述:聊天机器人是否具有智能? 对外经贸大学中文学院.对外汉语