1 / 63

文字信息国际标准 进展,问题与思考

文字信息国际标准 进展,问题与思考. 张轴材 语言文字应用研究所 客座研究员 ISO/IEC IRG 汉字组 召集人 书同文数字化技术有限公司 CEO Joe.zhang@unihan.com.cn. 2003-11-05 长沙 全国语言文字信息化工作会议. 为什么此处只谈文字信息化?. 对语言信息化标准的进展缺乏了解 个人充其量只有一些“数量文字学”的概念 字词语,字是基础; 文字信息化是语言信息化的基础. 文字信息化的最基本的任务.

jett
Download Presentation

文字信息国际标准 进展,问题与思考

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 文字信息国际标准进展,问题与思考 张轴材 语言文字应用研究所 客座研究员 ISO/IEC IRG 汉字组 召集人 书同文数字化技术有限公司 CEO Joe.zhang@unihan.com.cn 2003-11-05 长沙 全国语言文字信息化工作会议

  2. 为什么此处只谈文字信息化? 对语言信息化标准的进展缺乏了解 个人充其量只有一些“数量文字学”的概念 字词语,字是基础; 文字信息化是语言信息化的基础

  3. 文字信息化的最基本的任务 建立传统的真实世界的文字(古今中外)与计算机世界(虚拟世界)的联系:编码汉字-汉字编码 Character Encoding ≠IME 编码汉字是文字在计算机内最基本的表达形式

  4. 文字编码特点 按文字编码,而不是按语言、国度、地域编码;CJK汉字统一编码。 按抽象字形编码,而不是按字音、字义编码,也不是按具体造型编码。 体系结构与过去ISO 2022迥然不同 在基本多文种平面,16比特全编码

  5. UCS/Unicode 完全不同于 Code Page !!! ISO 2022 vs. UCS 16-Bit Full Encoding 编码结构

  6. 文字信息标准化的集中体现ISO/IEC 10646 & Unicode 80 年代末启动 ISO/IEC 10646-1:1993 = GB 13000 ISO/IEC 10646-1:2000 + CJK_A,蒙, 藏,彝,朝… ISO/IEC 10646-2:2001 + CJK_B, Tai Le, Yijing… ISO/IEC 10646-2003 = Unicode 4.0 Amendment 1 to 10646-2003 开始

  7. Amendment Now ?未出版就开始作补编? Yes ! 好像 IT 的特点。 文字的信息技术标准像软件一样,版本不断更新。(e-Publishing的驱动力) 标志着文字的信息化步伐加快,正向深度和广度进军。对此要有足够的认识。不能拘泥于旧式的老套套、老本本。

  8. 广 度- 文种的扩充 古波斯文 古希腊文 古希腊音乐符 巴斯巴文 西双版纳傣文 国际音标IPA 扩充 古汉字:隶,篆,甲骨,…

  9. 深 度 文字属性(Characteristics)的扩充 SC2 职能的扩大 (SC20 Character Ordering 纳入SC2 ) UCA : Unicode 4.0 Collation Algorithm 理序算法

  10. 深 度 国际基本汉字子集 International Basic CJK Ideograph Subset,结合国家规范汉字表定义之。(IRG#21) WG2 决议:SuperCJK Database 纳入字典指针:康熙字典、汉语大字典、大汉和、大字源。Signifying / Signified 能指/所指明晰化 。例:U+082B8 signifies 艺,芸,藝。指向了最主要的形音义属性。

  11. 深 度 从汉字的“水平认同”走向“垂直关联” 简繁异体汉字的关联(有方向性、耦合强度、时间性、合法性等问题,略) 中文域名的简繁异关联已经提上日程 清华大学= 清華大學= 淸蕐大學

  12. 深 度 Variant Selector 异体字选择符 USI=Unique Sequence Identifier 具有特异性的序列标识符,亟待研究 …

  13. 问 题 全球化步伐加快,我体制跟不上 美国-微软-Unicode形成强势难敌 我缺乏有效参与:Tai Lue, Phags-Pa 与IT界结合不紧密,未形成合力 长“坐而论”,偶“起而行”。

  14. 思 考 一个文字发源于、应用于一个国家,但是它并不只属于这个国家。这个文字信息的标准化步伐并不完全以我们的意志为转移。 只有积极地参与、介入国际标准的开发,才能处于主导的地位。

  15. 思 考 国家信息化,电子政务、电子政务、电子商务、数字图书馆、电子出版、电子教育,语言文字信息化是先行官,文字信息标准化是基础。 紧紧把握文字标准化的要点,做好高层协调、多方协作;掌握文字信息的核心资源、推动文字技术的核心技术开发。

  16. 思 考 高度重视汉字属性-知识库的建设 (Attributes - Characteristics) 发掘汉字的深层内涵,引导语文信息化发展。 文字信息标准化工作从IT界为主应当尽快转向文字工作者为主; 对以藏文为代表的民族文字信息化的走向做出果断的、正确的决策。

  17. 最主要的建议 期望国家语委真正担当起语言文字信息标准化的领导者的角色。 抓大放小,有所不为,保证重点。组织落实、任务落实、项目落实、经费落实。

  18. 谢谢!问题? IRG: www.cse.cukh.edu.hk\~irg UniHan: www.unihan.com.cn Email: joe.zhang@unihan.com.cn

  19. 国家语言文字资源建设—汉字属性数据库 HADB 语 词 字 语 语属性:音频义,同反义 词 词属性:音频义,同反义 n-Gram n-Gram属性 形 CJK汉字 音 义 码 频 序 简 繁 异 CJKA CJK B CJK C CJK D 汉字 属性Characteristics

  20. 汉字属性数据库HADB vs.汉字知识平台HKP HADB 是HKP的基础: Hanzi Knowledge Platform 语言工作的编纂平台 HADB 是链接传统字书、辞书的纽带 HADB是挂接语料库的桥梁

  21. 汉字知识平台HKP-Authoring Tool E-字书集 DictBank 语料库 CorpusSet 例证提取 询经问典 HADB 汉字属性库 Full Text Retrieval Engine OCR Engine Operating System & Data Base Manager

  22. ISO/IEC 10646  GB 13000 • GB 13000 ≠GB 18030 • GB 18030 = GBK 再扩充

  23. 文字定义(Script≠Language) Script : A set of graphic characters used for the written form of one or more languages 用于一种或多种书面形式的语言的图形字符的集合

  24. CJK Unification 中日韩汉字统一编码

  25. CJK Unification 中日韩汉字统一编码

  26. CJK Unification 中日韩汉字统一编码

  27. CJK Unification 中日韩 汉字 统一编码

  28. CJK Unification 中日韩汉字 统一编码

  29. CJK Unification 中日韩汉字 统一编码 简繁不认同

  30. CJK Unification 中日韩 汉字 统一编码 结构不同 不认同

  31. CJK Unification 源字集 分离者 不认同

  32. CJK Unification 源字集分离者不认同

  33. CJK Unification Rule 中日韩汉字认同规则

  34. 汉 字 编码的+未编码的 以CJK + CJK_A为基础 以国际基本汉字子集BIIS ∋国家规范汉字为重点 加入CJK_B 以后加入CJK_C 古汉字 汉字系其他字

  35. 形 – 字形,字种及其代表 典型字样 中日韩、大陆港澳台特征 部首0 +(部首1) 康熙部首 汉语大字典 200部首 部首外笔画数 总笔画数 笔顺序列

  36. 汉语拼音+调 (+n 多音) 注音BoPoMoFo+调 (+n 多音) 反切 CTS : Character To Speech 单字发声引擎 Katakana 日文发音

  37. 现代字义 古代字义 主要/次要字义 在主要字典中的义项 摩登新义:“酷”,“靓” 港台变义 日文字义

  38. ISO/IEC 10646 Code=Unicode GB 2312 GBK Big5 – CNS 11643 ShiftJIS – JIS HKSAR Code 电报码 K,V,……

  39. • 平衡语料中字频 • 古籍语料中字频 • 现代社会生活“当今字频”

  40. 古籍字频书同文公司八亿古籍语料统计

  41. 古籍字频

  42. 古籍字频

  43. 古籍字频

  44. 古籍字频

  45. 古籍字频统计 样张

  46. 古籍字频-中日韩标准对古籍的覆盖率

  47. 古籍字频- 随机查询、关联查询 国家语委十五科技攻关重点项目之一 书同文公司开发辅助软件 古籍字频查询示例

  48. 例:查询前若干个高频字

  49. 例:关联字字频查询

More Related