1 / 27

信息时代汉字的标准化和共通化

信息时代汉字的标准化和共通化. 冯志伟. 汉字效用递减律. 7000 通用汉字覆盖率和不足率

Download Presentation

信息时代汉字的标准化和共通化

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 信息时代汉字的标准化和共通化 冯志伟

  2. 汉字效用递减律 7000通用汉字覆盖率和不足率 • 汉字数 增加字数 覆盖率 不足率1000 90% 10% 2400 1400 99% 1% 3800 1400 99.9% 0.1% 5200 1400 99.99% 0.01% 6600 1400 99.999% 0.001% • 从中可以看出,1000个汉字的覆盖率为90%,以后每增加1400字,覆盖率百分比的最后一个9字之后便增加一个9字。覆盖率达到99.999%的6600个汉字,就构成了现代通用汉字的主体,覆盖率达到99.9%的3800个汉字,就包含了全部现代常用汉字。 • 随着汉字频度的减少,其效用递减。

  3. 四种汉字代码 • 汉字输入码:为了将汉字输入计算机而编制的代码。 • 汉字内部码:计算机内部处理汉字信息时所采用的代码,其形式取决于机器本身。为了提高机器处理汉字效率,汉字内部码一般采用机器原有的代码结构,码长都尽可能短,而且等长。许多汉字计算机,在输入汉字之后都要进行一次将汉字输入码变成汉字内部码的转换。 • 汉字输出码:计算机将汉字信息处理的结果输出打印或显示时所用的代码,一般也取决于具体的机器或设备。 • 汉字交换码:用于计算机之间汉字信息交换的代码。它处于一台计算机的出口与另一台计算机的入口之间。除了保证一字一码之外,还要与有关的国际标准和国家标准保持一致。 一台具体的计算机的交换码可以和输入码、内部码、输出码一致,也可以不一致,这同样取决于汉字信息处理系统设计与应用的具体情况。但是,在一般情况下,一台计算机的输入码、内部码和输出码是随着计算机的不同而不同的,而交换码就必须整齐统一,才便于与其它的计算机进行信息交换。

  4. 《信息交换用汉字编码字符集-基本集》(GB2312-80)《信息交换用汉字编码字符集-基本集》(GB2312-80) • 汉字标准交换码共分两级。第一级为常用字,有3755字,按汉语拼音字母顺序排列,第二级为次常用字,有3008字,按部首排列。 • 字体以中国文字改革委员会1964年编印的《简化汉字总表》以及中华人民共和国文化部和中国文字改革委员会联合发布的《第一批异体字整理表》为准。 • 字形以中华人民共和国文化部和中国文字改革委员会1965年联合发布的《印刷通用汉字字形表》为准。 • 除汉字之外,该标准还收集了一般符号202个(其中包括间隔、标点符号、运算符号、单位符号、制表符号等),序号60个,数字22个,拉丁字母52个(包括大小写),日文假名169个(包括大小写),汉语拼音符号26个,汉字注音符号37个,连同汉字一起,共有7445个图形符号。这个代码表最多可收8836个图形字符,现在尚留有一些空白位置,供进一步扩充之用。

  5. 繁体字和简体字对应编码 • 六个字符集 • 基本集(GB 2312-80) • 第一辅助集(GB 12345-90) • 第二辅助集(GB 7589-87,收简体字7237个) • 第三辅助集(GB/T 13131-91) • 第四辅助集(GB 7590-87,收简体字7039个) • 第五辅助集(GB/T 13132-91)。 • 基本集和第二、第四辅助集是简体字集,第一、第三、第五辅助集是繁体字集。 • 在这六个字符集中,简体字与繁体字存在着明确的一一对应关系:基本集中的简体字与第一辅助集中的繁体字对应,第二辅助集中的简体字与第三辅助集中的繁体字对应,第四辅助集中的简体字与第五辅助集中的繁体字对应,并且对应的简体字和繁体字在相应的字符集中同码。个别的汉字在简繁体之间存在着一对多的关系,作为特殊情况处理。

  6. 《15×16、24×24、32×32汉字点阵字模集及字模数据集》《15×16、24×24、32×32汉字点阵字模集及字模数据集》 • 所谓点阵字形,就是以点的形式来表现的字符或汉字的形态。 • 15×16点阵字形,可以表示《信息交换用汉字编码字符集·基本集》中的绝大部分汉字。由于15×16的点阵字形只能表示横向笔画和竖向笔画都不超过八笔的汉字。如果一个汉字的横向笔画或者竖向笔画超过了八笔(如“量、酬”等字),在点阵字模就容纳不下。在《基本集》中,这样的汉字共有138个,只好压缩笔画做变通处理。15×16点阵字形适于屏幕显示,作校对之用。 • 24×24点阵字形,可以全部表示《基本集》中的6763个汉字的笔形结构,用不着压缩笔画,而且能够保持横细竖粗的宋体风格,适用于针式打印、喷墨打印,是一种很有使用价值的点阵字形。 • 32×32点阵字形比24×24点阵字形更能体现宋体风格,能完整地表现汉字的笔锋,使撇笔和捺笔自然婉转,舒畅流利,字体质量较高。

  7. 高精度点阵汉字标准 • GB/T 14242-1993 信息交换用汉字64×64点阵黑体字模集及数据集 • GB/T 14243-1993 信息交换用汉字64×64点阵楷体字模集及数据集 • GB/T 14244-1993 信息交换用汉字64×64点阵仿宋体字模集及数据集 • GB/T 14245-1993 信息交换用汉字64×64点阵宋体字模集及数据集 • GB/T 14717-1993 信息交换用汉字128×128点阵宋体字模集及数据集 • GB/T 14718-1993 信息交换用汉字128×128点阵黑体字模集及数据集 • GB/T 13443-1992 信息交换用汉字128×128点阵楷体字模集及数据集 • GB/T 13444-1992 信息交换用汉字128×128点阵仿宋体字模集及数据 • GB/T 14719-1993 信息交换用汉字256×256点阵宋体字模集及数据集 • GB/T 14720-1993 信息交换用汉字256×256点阵黑体字模集及数据集 • GB/T 13445-1992 信息交换用汉字256×256点阵楷体字模集及数据集 • GB/T 13446-1992 信息交换用汉字256×256点阵仿宋体字模集及数据集

  8. 矢量汉字的字模集及数据集 • GB/T 13844-1992图形信息交换用矢量汉字 单线宋体字模集及数据集 • GB/T 13845-1992图形信息交换用矢量汉字 宋体字模集及数据集 • GB/T 13846-1992图形信息交换用矢量汉字 仿宋体字模集及数据集 • GB/T 13847-1992图形信息交换用矢量汉字 楷体字模集及数据集 • GB/T 13848-1992图形信息交换用矢量汉字 黑体字模集及数据集

  9. 汉字的共通化问题 • 在汉字文化圈内,使用汉字的地区和国家还有台湾、韩国、日本、新加坡、马来西亚。除了新加坡和马来西亚同中国大陆一样使用简体字之外,这些地区和国家使用的汉字并不完全相同。在信息化的时代,汉字的差异给信息交流带来不便,这就有必要研究汉字的共通化问题。 • 研究汉字共通化问题,首先要尽快摸清现行汉字差异的程度,分析产生差异的原因,在共识的基础上加强合作,确定整理汉字的统一标准,制定各方都能接受的、符合汉字演变规律的科学方案,首先在信息处理领域内实现汉字的统一编码,然后再逐渐地统一字形,在国际范围内促进汉字的规范化和标准化。

  10. 中国制订的《信息处理 文本通信用编码字符集》(GB 8586) • 该标准的字符集由GB 2312-80(基本集)和一个汉字通信子集组成。 • 汉字通信子集收集的汉字、表示日期和时间的图形字符等共705个,其中有:第二辅助集中的汉字520个,第四辅助集中的汉字92个,表示日期和时间的图形字符69个,《第一批异体字整理表》淘汰的用于人名、地名等的异体字、汉字部件等23个。 • 通信子集只限于在通信网中使用,与其它系统进行数据交换时仍要转换为汉字标准交换码。

  11. 台湾制定的汉字字符集标准 • 《中文资讯交换码CCCII》, • 《通用汉字标准交换码 TCA-CNS 11643》。

  12. CCCII字符集 • 常用字集收4808个常用字,作为CCCII第一册,发布于1980年4月; • 备用字集收6025个次常用字、5364个罕用字、2112个异体字以及3531个其它资讯用字,共17032字,作为CCCII的第二册,发布于1981年2月; • 罕用字集收12924个罕用字、314个次常用字及7345个其它资讯用字,共20583字,作为CCCII第三册,发布于1987年5月; • 异体字集收异体字11517个,发布于1981年2月。 • 全部汉字首先按《康熙字典》部首排序,其次按部首外笔画数排序,最后按笔顺排序。

  13. TCA-CNS 11643 共收汉字13051个,于1986年发布。整个编码空间分16个字面: • 第一字面收常用汉字5401个,包括CCCII中的常用字4808个、中小学课本上的常用字587个以及6个异体字; • 第二字面收次常用汉字7650个; • 第三至十一字面为标准保留区; • 第十二至十六字面为用户定义区,第十四字面已收罕用字6319个。 • 每个字面上的汉字按先笔画后部首的顺序排列。

  14. JIS X 0208-1983和JIS X 0212-1990(日本汉字字符集) • JIS X 0208-1983 是日本国家交换码标准,共收字符6877个,分为84区 • 1至15区是拼音字符及符号区,收一般图形字符、数字、拉丁字母、日本平假名、片假名、希腊字母、西里尔字母、制表符号等共524个字符; • 16至84区是汉字区,收日本汉字6353个,汉字分为两级,一级汉字2965个,按音排列,二级汉字3388个,按形排列。 • 另有1959个空白码位是保留区。 • JIS X 0208-1990 • .JIS X 0212-1990 是日本的第二个汉字编码字符集标准,作为日本汉字交换码辅助集。 • 该字符集共收图形字符6067个,其中非汉字字符266个,日本汉字5801个,按部首排序。另有1829个空白码位作保留区,940个空白码位作用户自定义之用。

  15. 韩国字符集 • 字符集中同时收汉字字符和谚文字符。 • 韩国于1987年制定了韩国标准编码字符集KS C 5601-1987,共有8224个字符 • 1至15区是拼音文字和符号区,收986个字符; • 16至40区是谚文字符区,收谚文字符2350个; • 42至93区是汉字字符区,收汉字4888个,其中有268个多音字分配了一个以上的码位,出现重复编码; • 41区和94区共188个码位,是用户自定义区。 • 韩国于1991年制定了编码字符集的辅助集KS C 5657-1991,增收汉字2856个。

  16. 中日韩汉字字符集比较 • 中国国家语言文字工作委员会曾将GB 2312和JIS 0208中的汉字做过比较。 • GB汉字6763个,JIS汉字6353个,它们之间相同的汉字为1851个,相近的汉字为1393个,相同和相近的汉字总数为3244个。 • 从GB方面看,有48%的一致,从JIS方面看,有51%的一致。 • 有人曾将韩国文教部规定的大中学用汉字1800字与GB 12345中的繁体字做过比较,发现1800字中的1791个汉字均可在GB 12345中找到,占99.5%。 • 这些比较研究说明,中、日、韩的汉字标准,存在着大面积的相互覆盖,它们为中、日、韩汉字的统一编码提供了相当充足的事实根据。

  17. 《信息技术 通用多八位编码字符集(UCS)》 • 国际标准化组织(ISO)于1984年开始研究、制定《信息技术 通用多八位编码字符集(UCS)》国际标准,即ISO/IEC 10646。 • 1993年5月,该标准的第一部分:体系结构与基本多文种平面(即ISO/IEC 10646.1)正式发布。前后经历了九年的时间。 • 它对UCS的总体体系结构和基本多文种平面(Basic Multilingual Plane,简称BMP)做了规定。 • 在BMP内,A区用于字母文字、音节文字和各种符号的编码; • I区用于中、日、韩(CJK)统一的表意文字编码; • O区留作未来标准化之用; • R区作为BMP的限制使用区,用于专用字符、变形显现和兼容字符的编码。

  18. 中日韩汉字统一编码 • I区中的表意文字采用中、日、韩汉字统一编码方式; • 以现有的各标准字符集为源字符集,将其中的汉字按统一的认同原则进行认同和甄别后,生成涵盖各源字符集; • 按东亚著名的四大字典(《康熙字典》、《大汉和字典》、《汉语大字典》、《大字源》)的页码/字位综合排序的CJK汉字统一字汇和字序,构成UCS中的表意文字部; • 共包括20902个汉字字符。

  19. 国际标准字符集编码原则 • 第一,按文字(script)编码,而不是按语言、国度、地域和专业编码:在汉字文化圈内,汉字经历了许多世纪的字形演变和字义漂移,它们原来的形状和含义都已经发生了变化,但是,它们在字形、字音和基本含义方面仍然存在着相似性,它们事实上就是一种超越语言的“广义汉字”,因此,统一编码时不考虑语言、国度、地域和专业的不同。 • 第二,不允许(或尽量避免)重复编码。 • 中、日、韩汉字的统一编码遵循了这两条原则,这是解决表意文字编码时大字量小空间矛盾的最佳方案。

  20. 源字符集的确定 • 统一编码是在中日韩原有的汉字编码字符集的基础之上进行的,为中日韩汉字统一编码所选用的源字符集有十三个,包含六万多个已经编码的汉字。 • 这十三个源字符集是: 类 集号 字符集标准 字符个数G0 GB 2312-80(基本集) 6763 G1 GB 12345-90(辅一) 独立字2352 C G3 GB/T 13131-91(辅三) 7237 G5 GB/T 13132-91(辅五) 7039 G7 现代汉字通用字表(7000字表) 独立字41+1 G8 GB 8565-89(文本通信用) 独立字290 T1 台湾TCA-CNS 11643/第1字面 5401+9 T2 台湾TCA-CNS 11643/第2字面 7650 Te 台湾TCA-CNS 11643/第14字面 6319+239+10 J J0 日本JIS X 0208-90 6353+1 J1 日本JIS X 0212-90 5801 K K0 韩国KS C 5601-87 4888 K1 韩国KS C 5657-91 2856此外,还收纳了少量的香港用字(58个)、韩国文吏读字(92字)和台湾CCCII中的独特字(200多个)。

  21. 汉字认同(1) • 汉字认同要处理横跨几个标准的变体汉字,在认同过程中,要力求保留任一标准之内允许的相同变异误差,当两个字形只具有微小的差异时,只赋以一个代码,否则,就赋以不同的代码。 • 汉字认同规则在相当程度上考虑了中国对通用汉字编码的提议ISO/TC1/WG2/N489和日本JIS的出版规则。 • 汉字认同规则 • 汉字认同指的是表义文字字形(ideograph)的认同,而不是字音、字义的认同,也不是具体造型(font)的强求一律,字形结构相同,只是笔画小有差异的字,就予以认同所谓“笔画小有差异”是指以下的情况 • 笔形变化的差异; • 笔画类型的差异; • 笔画曲率的差异; • 笔画长度的差别; • 断笔与连笔; • 笔画增减一笔。

  22. 汉字认同(2) • 汉字认同规则(续前) • 偏旁部首有细微差别(不包括简化字的偏旁)的字,予以认同; • 因简化造成的字形差异,不认同; • 同一字因结构方式不同而形成的变体,不认同; • 不作垂直认同,在同一集属下(例如,同在G属下,或同在K属下),即使字形非常接近,也不可认同,因为它们在同一集属下,已经分别编码。 • 非同源字(non-cognate)不认同,也就是说,在文字的演变过程中互不相干的汉字不认同。 • 汉字认同中充分考虑到了中国大陆的简体字,对于目前正在开发中的GB标准辅助集具有现代简体字的对应字,分别给予编码,共2000字左右。 • 认同的结果表明,中、日、韩各源字符集之间,的确存在着大面积的相互覆盖。J、 K 与C(G, T)间不同的汉字只有744个。 • “认同”是一种求大同存小异的正确途径,它既未修改也未曾消灭任何文字,因而也未触动任何国家和地区的文字政策,不涉及文化与法律的问题。

  23. 字汇的确定 • 经过认同与甄别,六万多个源字符集中的汉字,可以归纳为28000多个“认同汉字”,其中20902个汉字已经正式收入国际标准,成为UCS的表意文字区(I区)。 • 其余的8000个汉字,是G3、G5、Te中的独特字,现已作为扩充需求之一提交给国际标准化组织。 • 已经收入UCS的20902个CJK汉字,从中国大陆的角度看,有17124个汉字来源于GB;从中国台湾的角度看,有17258个汉字来源于TCA-CNS;从日本的角度看,有12157个汉字来源于JIS;从韩国的角度看,有7476个汉字来源于KSC。 • CJK汉字统一编码完全可以满足中国(包括大陆和台湾)、日本和韩国汉字信息处理的需要。这是国际大协作的重大成果,是国际信息处理中的重要里程碑。

  24. 字符的排序与字码的确定 • 字符的排序 • 如何决定CJK统一编码汉字的字序,曾一度成为一个很大的难题,这是因为: • 第一,在不同的国家和地区,汉字的读音差别很大,即使在同一国家和地区,也存在许多一字多音的汉字,因此,按读音排序是绝对不行的。 • 第二,如果按部首排序,虽然是一种可能的方式,但是,不同国家和地区出版的字典,它们之间的部首集、部首序和汉字的入部规则,甚至笔画的顺序都存在着差异。因此,完全按部首排序也有很大困难。 • 经过各国专家的研究和协商,他们本着求同存异精神,首先追求共识而不是追求完善,最终确定了按东亚著名的四大字典的页码/字位综合排序的方案。 • 字码的确定:CJK统一编码的汉字,在UCS中的表意文字区(I区)中连续编码,码位从4E00到9FA5。

  25. 重大的成果 • 中日韩汉字统一编码结束了长期以来汉字编码标准各自为政的局面,解决了困扰汉字信息处理技术进一步发展的一个重大瓶颈问题,它不仅可以用于中、日、韩汉字的代码表示(representation),而且,还可以用于汉字的传输(transmission)、交换(interchange)、处理(processing)、存储(storage)、输入(input)和显现(presentation)。 • 这个统一编码的国际标准,对于促进汉字信息处理的深入发展,进而推进整个信息产业的进步必然产生深远的影响。

  26. 与CJK有关的中国国家标准 • GB 13000.1-1993 《信息技术 通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面》; • GB 16793-1997 《信息技术 通用多八位编码字符集(I区) 汉字24点阵字型 宋体》; • GB 16791-1997 《信息技术 通用多八位编码字符集(I区) 汉字48点阵字型 第1部分 宋体》,GB 18030-2000 《出版用汉字字符集》(含2.7万汉字)。

  27. 谢谢! • Thank you!

More Related