500 likes | 564 Views
现代汉语的分支学科 计算语言学. 一、计算语言学的定义:是利用计算计研究和处理自然语言的学科。. 狭义 :指的是通过建立形式化的计算模型,用计算机分析、处理、理解并生成自然语言的学科。 例: “ 有意见分歧 ” 算一算怎么切分合理 是 “ 有意 见 分歧 ” 还是 : “ 有 意见 分歧 ” ?. 广义 :包括狭义的内容;还包括利用计算机对语言文字进行的各种定量化和精密化的研究。 例1:中国《红楼梦》的作者:前八十回和后四十回是不是一个人。 例2:方言亲属关系的计量:. 二、计算语言学的发展:. 计算语言学的研究首先是从机器翻译开始的。
E N D
一、计算语言学的定义:是利用计算计研究和处理自然语言的学科。一、计算语言学的定义:是利用计算计研究和处理自然语言的学科。 • 狭义:指的是通过建立形式化的计算模型,用计算机分析、处理、理解并生成自然语言的学科。例:“有意见分歧” 算一算怎么切分合理 • 是“有意 见 分歧” 还是 : “有 意见 分歧” ?
广义:包括狭义的内容;还包括利用计算机对语言文字进行的各种定量化和精密化的研究。广义:包括狭义的内容;还包括利用计算机对语言文字进行的各种定量化和精密化的研究。 例1:中国《红楼梦》的作者:前八十回和后四十回是不是一个人。 例2:方言亲属关系的计量:
二、计算语言学的发展: • 计算语言学的研究首先是从机器翻译开始的。 • 1、《圣经@创世纪》中“巴比塔”的传说。 • 2、17世纪中叶展开的“普遍语言”的运动,旨在运用逻辑原则和图形符号的基础上,创造出一种无歧义的语言。 • 3、20世纪30年代,法国工程师提出了用机器进行语言翻译的想法,并在1933年7月获得了一项“翻译机”的专利,叫做“机械脑”。
4、1946年,美国研制出第一台电子计算机,人们开始用计算机进行翻译的尝试,当时采用的是词对词的策略,所以翻译效果不理想。4、1946年,美国研制出第一台电子计算机,人们开始用计算机进行翻译的尝试,当时采用的是词对词的策略,所以翻译效果不理想。 5、在1960年代初期,计算语言学曾因做机器翻译的应用研究,受到各国政府的大力支持而风光一时,然而一直没有满意的成绩。于是美国政府委托国家科学院评估机器翻译的计划。1966年该评估报告指出:当时的研究是没有希望做好机器翻译的。
6、人们在失败中得到启发,认为要搞好自动翻译,必须在语言理论和计算机科学两方面下足功夫,其中尤其语言处理理论的研究,人们认识到,如果计算机无法理解自然语言,机器翻译等只能是空中楼阁。6、人们在失败中得到启发,认为要搞好自动翻译,必须在语言理论和计算机科学两方面下足功夫,其中尤其语言处理理论的研究,人们认识到,如果计算机无法理解自然语言,机器翻译等只能是空中楼阁。 7、计算语言学的进一步发展 音字转换:语音识别、拼音输入 自动文摘:自动给出一篇或多篇文章的摘要 信息检索:在海量的信息准确找到你所需要的信息 信息过滤:从信息流中筛选出特定的的信息(信息安全、突发事件)…………
PDF转换文件 拼音软件
三、计算语言学的学科分类 • 计算语音学 • 计算词汇学 • 计算语法学 • 计算语义学 • 语料库语言学
(一)计算语音学:研究如何用计算机对语音信息进行处理,实现语音的自动识别和合成。(一)计算语音学:研究如何用计算机对语音信息进行处理,实现语音的自动识别和合成。 语音识别:机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
一般来说,完整的语音识别要经历三个步骤: (1)语音特征提取:目的是从语音波形中提取随时间变化的语音特征序列。 (2)声学模型与模式匹配(识别算法):声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。 (3)计算机对识别结果进行语法、语义分析。明白语言的意义以便作出相应的反应。通常是通过语言模型来实现。
语音合成:将可视的文本信息转化为可听的语音信息。语音合成:将可视的文本信息转化为可听的语音信息。 现在语音识别技术还在发展,据说可以哑人手语识别系统借助数据手套,将哑人在会话过程中的手的运动信息提取出来进行识别,提取其中的语义,并通过语音合成,最终将他们的手语信息翻译成语音并输出,便于听力健全人理解。
(二)计算词汇学:研究如何用计算机处理自然语言的词汇,建立语言词汇库,术语数据库等机器可读词典。(二)计算词汇学:研究如何用计算机处理自然语言的词汇,建立语言词汇库,术语数据库等机器可读词典。 (三)计算语法学:研究如何用计算机来分析自然语言的语法。这种研究在计算语言学中叫做自动语法分析。
(四)计算语义学:如何利用计算机来分析自然语言的语义。(四)计算语义学:如何利用计算机来分析自然语言的语义。 (五)语料库语言学:语料库(corpus)亦称语库或素材,是收集并科学地组织起来的一套语言材料,这种材料是某种语言中自然出现的,可以是书面的,也可以是口头的。语料库语言学(corpus linguistics)是以语料库中的语篇(text)语料为基础对语言进行研究的一门学科。
四、计算语言学的特点 • (一)元语言的形式化 • 1、对象语言、元语言:对象语言指的是人们要研究的那种语言,元语言指的是人们描述对象语言的那种语言。 • 从交际的角度来看,对象语言一般是人类正在使用的自然语言,也可以是死语言,元语言一般是人类正在使用的自然语言;从人机交流的角度讲,对象语言一般是类正在使用的自然语言,也可以是死语言,元语言一般是人工语言。
(二)具有可操作性: 语言研究的可操作性:告诉人们怎样从一个现成的句子(这时你并不懂这个句子的具体含义)变出他的句法结构乃至它的意义。其过程是先操作后理解。
(三)具有工程性:表现在其涉及领域的广泛和不能停留在理论和实验阶段,其最终目标是达到实用化。(三)具有工程性:表现在其涉及领域的广泛和不能停留在理论和实验阶段,其最终目标是达到实用化。 (四)注重语言研究的全局性和一般性:计算语言学研究的是带有普遍性和一般性的问题,而传统的语言学家往往喜欢研究的是内在的规律。
五、汉字的信息处理(一)汉字与信息处理 甲、骨、金、木 面 向人阅读笔画书写 汉 字 笔、墨、纸、砚 机械性质的整字书写 泥、木印刷术;铅、打字机 磁、光、电子计算机 人机互动、编码输入、自动识别 约公元1050年 约公元1915年汉字机
(二)汉字输入 汉字键盘输入 联机手写 脱机手写 汉字识别(OCR) 汉字输入 印刷体:单体、多体 语音识别
1、汉字识别 电脑的汉字识别功能,是指用计算机对印刷在纸上和手写在纸上汉字的自动辨识,它是中文信息处理中的一项重要功能。 • 一个实用的汉字识别系统由扫描器,计算机主机,显示器,识别软件和字库等部分组成。 • 工作过程:文稿,书刊等通过扫描器输入计算机,提取识别特征后与字库进行比较,并把识别结果显示出来。 • 大陆和台湾地区的汉字识别研究都已经巧妙地解决了单字印刷体汉字识别,多体印刷体汉字识别和特定手写汉字识别。打印稿识别的准确率一般可达95%。
印刷汉字识别技术主要包括: • (1) 扫描输入文本图象。 • (2) 图象的预处理,包括倾斜校正和滤除干扰噪声等。 • (3) 图象版面分析和理解。区分出文本段落及排版顺序,图象、表格的区域;对于文本区域将进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图象区域进行压缩或简单存储。 • (4)行字切分:图象的行切分和字切分。 • (5)特征提取:提取单字图象统计特征或结构特征。 • (6)文字识别:基于单字图象特征的模式分类。将被分类的模式赋予识别结果。 • (7)后处理:识别结果的编辑修改后处理。利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程。 • 其中(4)、(5)和(6),是印刷汉字识别中最为核心的技术。
2、语音识别 满足通常应用的要求 特定人 5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%。 非特定人 大词汇量 语音识别 中小词汇量非特定人语音识别系统识别精度已经大于98% 小词汇量 孤立发音 清华大学电子工程系,非特定人汉语连续语音识别系统的识别精度,达到94.8%,接近实用水平 连续发音 一些用户交换机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。全球语音识别电话软件年销售收入达上亿美元。
汉字键盘输入 王码五笔字型 郑码 T9笔画输入法 汉字形码输入 全拼,双拼,智能ABC,微软拼音,紫光拼音,智能狂拼 汉字音码输入 汉字键盘输入 极点五笔 五码智拼输入法 大众形音输入法 母字全能码 音形码|形音码输入 字→词、词组→句子;普通话→地方拼音输入(广东拼音)
编码的优缺点(1) 形码的优点 按字型编码,重码率低,最多四码(不超过1万字,理论上讲可以做到一码一字),适合专业录入员录入写好的文本; 无需顾及读音,对讲不好普通话的人适用; 不认识的汉字照“样”可以输入。 形码的缺点 要记忆的东西较多,难学难记 ; 对字形不同人之间都会有不同的认识,易拆错。
编码的优缺点(2) 音码的优点 与人的语音思维一致,边进行文章的构思边用音码输入 音码的码键就在英文键盘上,不需要改造键盘。 1958年以后出生的人,大多数学过汉语拼音,无需专门学音码。 音码的缺点 汉字同音字太多,重码率高,输入速度受限; 不认识的汉字无法输入,甚至读不准也一样输入不了; 比如:ji有109个同音字: 几及急既即机鸡积记级极计挤己季寄纪系基激吉脊际汲肌嫉姬绩缉饥迹棘蓟技冀辑伎祭剂悸济籍寂期其奇忌齐妓继集给革击圾箕讥畸稽疾墼洎鲚屐齑戟鲫嵇矶稷戢虮诘笈暨笄剞叽蒺跻嵴掎跽霁唧畿荠瘠玑羁丌偈芨佶赍楫髻咭蕺觊麂骥殛岌亟犄乩芰哜
3、音形码|形音码的优缺点 以音形码为例: • 七 qz, 动 dg, 才 cf,大 dd, 平 ps。 • 这些字的第一位代码分别是其声母; • 这些字的第一画都是“一”; • 这些字的第二画分别是“折、一、丨、丿、丶”; • 这些笔画的排列分别所对应的字符分别是“z, g, f, d, s ", 这种输入法介于形码和音码之间,有一定优势,与形码比她需要记忆的内容少了,与音码比她的重码率有了一定程度的控制。但与音码比她需要汉字知识,与形码比她需要一定的拼音知识,使用的人有限。
作业: • 1、汉字输入的方法? • 2、计算语言学分为哪几个分支学科? • 3、计算语言学的特点
三、词语的信息处理 • (一)自动分词的必要 • 自动分词:让计算机把以字为单位的书面语流串变为以词为单位的形式就叫做自动分词。 • 英语等西方语言的书面形式以空格作为词与词之间分隔标志,而汉语的书面形式却是连续的汉字串。 • 自动分词是汉语自动分析中的一项基础性工作。中文信息处理的各个领域,无论是在词频统计、情报检索、人机对话、机器翻译等方面,都是在词的基础上进行的。
分词不当的例子: • 在Google上输入“和服”搜索所有中文简体网页,总共结果507,000条,前20条结果中有14条与和服一点关系都没有。在第一页就有以下错误: • “通信信息报:瑞星以技术和服务开拓网络安全市场” • “使用纯HTML的通用数据管理和服务- 开发者- ZDNet ...” • “陈慧琳《心口不一》化妆和服装自己包办” • “外交部:中国境外领事保护和服务指南(2003年版) ...” • “产品和服务” • 备注:现在已经好多了
(二)自动分词的方法: 机械切分、智能切分、统计切分。 1、机械切分:运用简单的模式匹配技术的无条件切分。 (1)、正向最大匹配法:机器中存在一个词表,其中词长的最大值是N;根据从前到后的顺序,首先选取一个连续的文本中的前N个字符作匹配字段,如果词表中有这个词,那么,就把文本中的这前N个字符作为一个词处理,如果没有,那么匹配文本中的前N-1个字符作为匹配字段……如此下去,直到匹配成功。 例子:“我们应该开展计算语言学的研究”。词长是7的切分。
正向最大匹配法的缺点: a、词表设计困难:目前对什么是词还没有一个定论分词系统仍然没有一个统一的具有权威性的分词词表作为分词依据。 b、如果N设计的过大,就会影响效率。 c、如果N设计的过小,就会影响正确性。 d、有些歧义不能解决。 如:有意见分歧:正向最大匹配法的分词结果是:有意/ 见/ 分歧/ e:未登录词无法解决。
(2)逆向最大匹配法: 一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。 逆向最大匹配法的分词结果是:有/ 意见/ 分歧/ 但是还是有些词是两种方法都不能解决: 结合成分子时
2、智能切分:模拟人的思维,采用词法、句法、语义、语用等各种知识的有条件切分。2、智能切分:模拟人的思维,采用词法、句法、语义、语用等各种知识的有条件切分。 它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
3、基于统计的分词方法 :通过对大规模真实文本的统计,让计算机自己判断什么是词,这样就产生了基于统计的分词方法,又称为无词典分词。这类方法分词的依据和主要思想是:词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。 但是也有缺陷,如:了解答题的方法、他想出了解答的办法。
(三)、自动分词的问题: 1、歧义字段 (1)、交集型歧义字段:汉字串AJB被称作交集型切分歧义,如果满足AJ, JB同时为词(A, J, B分别为汉字串)。此时汉字串J被称作交集串。 〔例〕“结合成”:结合/成,结/合成 让位移等于50厘米(让位移:让位/移、让/位移) 这种歧义字段占全部歧义字段的85%以上。
交集型歧义字段的消解: 伪歧义:虽然有歧义的可能,但是在真实的文本中只有一种切分结果,如:挨/批评; 爱/国家。这一种占约92.6%。 准歧义:通常只有一种切分结果:其/实质、解除/了。占5.5%。 真歧义:经常有两种切分结果:应用于; 从小学。占1.9%。 因此可以把伪歧义的切分结果预先放到一张表中,其歧义消解可以通过直接查找实现。
(2)组合型歧义字段:汉字串AB被称作多义组合型切分歧义,如果满足A, B, AB同时为词。 他/站/起/身/来/。 他/明天/起身/去/北京/。 我一看他的/穿着/就知道他不是等闲之辈。 她今天是穿/着/一身礼服出去的。 你们/后天/再来吧 到/家/后/天/就黑了。
2、未登录词的处理: 未登录词:词典中未列入的词汇。包括固有名词、数词、时间词、专业及文化新词等。 吴立德[4]在他的书上讲:"一个经过人工分词的、含有15,000个词的法律语料库,其中竟然有30%的词没有登录在含70,000个词条的词典里,这个比例远远高于各种歧义字段在全文所占的比例1/110。"因此在文本在计算机处理时,把汉语未登录词从文本中摘出来可能比一般的分词问题更重要。
固有名词主要的是人名,地名,单位公司名。对西方语言来说,头一个字母是大写的,比较容易识别,但是对于汉语就不容易。例如:"时间很快就过去了。"。这里的"时间"可以是人名!他姓"时",名为"间"。当然也可以是表示"光阴"的哪个时间,如何区别相当困难。固有名词主要的是人名,地名,单位公司名。对西方语言来说,头一个字母是大写的,比较容易识别,但是对于汉语就不容易。例如:"时间很快就过去了。"。这里的"时间"可以是人名!他姓"时",名为"间"。当然也可以是表示"光阴"的哪个时间,如何区别相当困难。 地名,一般都不会是词典中的词。如沈阳、沟帮子、新民、苏家屯等。也可以出现在词典里,如著名城市北京、上海。至于单位、公司名,那就复杂了,很难识别。我们只能通过局部自动识别方法来处理。例如选取未等录词的特征、前后缀标志、出现的频度、前后搭配的统计。
未登录词的识别:人名 如果不予处理,将导致为数可观的分词错误。 刘清楚楚动人.(例2) 利用从左向右扫描的最大匹配法进行切分: 刘 清楚 楚 动 人.
四、机器翻译 • (一)、机器翻译在国外的发展 • 1、草创时期: • (1)、20世纪30年代的机械翻译 • (2)、20世纪50年代计算机翻译 • (3)、20世纪60年代的ALPAC报告后的萧条
2、恢复期:20世纪70年代:开始注意句法和语义的研究2、恢复期:20世纪70年代:开始注意句法和语义的研究 3、繁荣期:20世纪70年代末至今:开始商业化。 机器翻译的繁荣期是以1976年加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发的实用性机器翻译系统TAUM-METEO正式提供天气预报服务为标志的。这个机器翻译系统投入实用之后,每小时可以翻译6万-30万个词,每天可以翻译1500-2000篇天气预报的资料,并能够通过电视、报纸立即公布。TAUM-METEO系统是机器翻译发展史上一个里程碑,它标志着机器翻译由复苏走向了繁荣。
美国在乔治敦大学机器翻译系统的基础上,进一步开发了大型的机器翻译系统SYSTRAN,已提供试用。例如,提供给美国空军的SYSTRAN系统,词典有16万8千个词干形式和13万6千个词组,可进行俄英机器翻译,每小时可翻译15万词;提供给美国拉特塞克(Latsec)公司的SYSTRAN系统,可进行俄英、英俄、德英、汉法、汉英机器翻译,每小时可译30万-35万个词。SYSTRAN是目前应用最为广泛、所开发的语种最为丰富的一个实用化机器翻译系统。美国在乔治敦大学机器翻译系统的基础上,进一步开发了大型的机器翻译系统SYSTRAN,已提供试用。例如,提供给美国空军的SYSTRAN系统,词典有16万8千个词干形式和13万6千个词组,可进行俄英机器翻译,每小时可翻译15万词;提供给美国拉特塞克(Latsec)公司的SYSTRAN系统,可进行俄英、英俄、德英、汉法、汉英机器翻译,每小时可译30万-35万个词。SYSTRAN是目前应用最为广泛、所开发的语种最为丰富的一个实用化机器翻译系统。
(二)、机器翻译在中国的发展 我国是继美国、苏联、英国、之后第四个开展机器翻译的国家。 我国的机器翻译可以分作四个时期: 1、草创时期:1956-1966:主要是俄汉翻译 2、停滞时期:1966-1975:
3、复苏时期:1975-1987: 1975年11月,在中国科学技术情报研究所设立了一个由情报所、语言所和计算所等单位的工作人员组成的机器翻译协作研究组,以冶金题录5000条为试验材料,制定英汉机器翻译方案并上机试验。1978年5月,在计算所111机上进行抽样试验,抽样20条,达到了预期的效果。 1980~1985年,中国社会科学院语言所与军事科学院合作开发了JFYⅢ翻译系统,这是全国第一套全文翻译系统,主要用于军事科学用语的翻译。 中国科学院和一些大学成立了课题组进行机器翻译的研究
4、繁荣时期:1987-至今 这一时期是以“译星1号”的问世为标志的,它是我国第一个商品化的机器翻译产品。 中科院软件所的“863”成果--智能型英汉机器翻译系统(即快译通)以470万美元的价格卖给了香港权智集团。两次市场运作的成功对于国产软件商品化具有开拓性的意义,它们极大地刺激了整个国内软件市场,也为日后机器翻译形成行业起了很大的推进作用。
(三)、机器翻译存在的问题: 计算机、互联网在国内的逐渐普及,给机器翻译的发展创造了条件。但是由于无法逾越语法、语义障碍这个瓶颈,翻译的准确性离专业翻译用户的需求还相差很远,实用性远远不够,所以专业翻译软件的发展一直处于徘徊不前的状态。
目前机器翻译主要有两种形式,MT和TM。MT(machine translation)就是我们常见的基于规则的机器翻译软件,如金山快译、东方快车等,其主要用途是为了帮助英文不好的用户提供翻译参考,但准确性不高。 研究人员发现MT遇到的瓶颈,便决定在人工智能技术不会有重大突破的前提下,绕过技术上的难题,另辟蹊径,利用其他手段发展机器翻译,这就是TM(Translation Memory,翻译记忆)
TM绕开了语言学的瓶颈,其原理是基于数据库,将翻译过的所有材料以句子为单位存入数据库。翻译时系统会自动对电子文档进行分析,100%匹配的句子可以自动替换,部分匹配的句子可根据匹配度提出翻译建议,新句子则通过系统提供的翻译建议进行人工翻译。而每次翻译又为以后积累句子。对于新用户,系统会给他提供诸多专业词库,并能将以前的翻译作品进行回收存档。TM绕开了语言学的瓶颈,其原理是基于数据库,将翻译过的所有材料以句子为单位存入数据库。翻译时系统会自动对电子文档进行分析,100%匹配的句子可以自动替换,部分匹配的句子可根据匹配度提出翻译建议,新句子则通过系统提供的翻译建议进行人工翻译。而每次翻译又为以后积累句子。对于新用户,系统会给他提供诸多专业词库,并能将以前的翻译作品进行回收存档。
作业: • 1、计算机自动分词的手段有哪几种? • 2、会用正向最大匹配法分词。 • 3、计算机分词中有哪几个难题? • 4、计算机处理上歧义的类型有哪几种,怎样消解? • 5、机器翻译有哪几种类型?