120 likes | 267 Views
第七节 现代汉字的信息处理 @ 学习要点 1. 了解汉字信息处理的输入方式、汉字键盘输入的方法、几类汉字编码的优缺点。 2. 熟悉汉字处理对汉字规范化的要求。. 一、信息处理 语言信息处理:用计算机对自然语言的音形义等信息进行处理。 汉字信息处理:利用计算机对汉字符号系统进行处理的一项科学技术。是中文信息处理的关键和基础部分。 汉字信息处理的过程:汉字的信息输入、汉字的信息处理、汉字信息的输出。. 二、汉字的信息输入 三种方式:键盘输入、字形识别输入、语音识别输入。 ( 一 ) 汉字的键盘输入 1. 整字输入 ( 一字一键 )
E N D
第七节 现代汉字的信息处理 @ 学习要点 1.了解汉字信息处理的输入方式、汉字键盘输入的方法、几类汉字编码的优缺点。 2.熟悉汉字处理对汉字规范化的要求。
一、信息处理 语言信息处理:用计算机对自然语言的音形义等信息进行处理。 汉字信息处理:利用计算机对汉字符号系统进行处理的一项科学技术。是中文信息处理的关键和基础部分。 汉字信息处理的过程:汉字的信息输入、汉字的信息处理、汉字信息的输出。
二、汉字的信息输入 三种方式:键盘输入、字形识别输入、语音识别输入。 (一)汉字的键盘输入 1.整字输入(一字一键) 2.编码输入(一字一码)编码方案逾500种,实现的近百种,推入市场的有几十种,较成功的有十几种。 编码方法:音码、形码、音形码结合。
二、汉字的信息输入 (1)音码 全拼法:每个字母都要击键。 双拼法:声母、韵母分配给每个键。一般一个汉字击键2次,最多4次。例如: 双(shuang→ud)拼(pin→pn)法(fa→fa) 智能拼音法
(2)形码 将汉字形体分解为若干字元(笔画、部件、偏旁、部首),进行编码。 笔形编码:李金铠八笔编码。 部件编码:王永明五笔字型码。 • 部首编码:王安的三角编码。 • 四角编码:王云五的四角编码。
(3)音形结合码 字形为主字音为辅 字音为主字形为辅 (4)汉字编码的标准化 GB码: 是国标编码。就是中华人民共和国信息交换汉字编码标准(GB2312-80),在此标准中制定了每一个汉字及非汉字符号的编码。 B1G5码: 大5码:繁体字符编码。
3.汉语拼音输入法的优越性 (1)不需要编码规则。 (2)体现以词为单位的特点 (3)输入与思维同步进行 (4)有利于学习普通话和汉语拼音 (5)有利于国际间的交流
4.汉字编码字符集 (1)根据汉字位置编制地址码,方便信息处理。 两个字节:区+位 如GB码规定将汉字字符分为87个区,每个区有94个汉字(94位),因此共制定了87x94=8178个汉字、字符。 如中国的“中”字位于54区48位。 (2)国家标准字符集 国际码 大五码 强制性国际标准 国际标准字符集
(二)汉字的字型识别输入 图形匹配法 结构分析法 输入:印刷体 手写体 (三)汉字的语音识别输入 语音传输、语音分析(语音规则、语义规则、语法规则)→转换为汉字
二、汉字信息的处理 拼音文字 输入码→输出码 不用交换 汉字输入 输入码→输出码 需要交换 国家标准: 1981年国家标准局公布的《信息交换用汉字编码字符集·基本集》(GB2312-80) 通用汉字6763个,字符682
三、汉字信息的输出 汉字信息输入:将汉字的外部编码转换成可供计算机处理系统识别的内部编码。 汉字信息输出:将汉字的内部编码还原为外部字形、字音。 信息处理的基础:点阵字库
四、汉字信息处理与汉字研究 (一)汉字属性研究 (二)汉字规范化、标准化研究