630 likes | 844 Views
文字信息国际标准 进展,问题与思考. 张轴材 语言文字应用研究所 客座研究员 ISO/IEC IRG 汉字组 召集人 书同文数字化技术有限公司 CEO Joe.zhang@unihan.com.cn. 2003-11-05 长沙 全国语言文字信息化工作会议. 为什么此处只谈文字信息化?. 对语言信息化标准的进展缺乏了解 个人充其量只有一些“数量文字学”的概念 字词语,字是基础; 文字信息化是语言信息化的基础. 文字信息化的最基本的任务.
E N D
文字信息国际标准进展,问题与思考 张轴材 语言文字应用研究所 客座研究员 ISO/IEC IRG 汉字组 召集人 书同文数字化技术有限公司 CEO Joe.zhang@unihan.com.cn 2003-11-05 长沙 全国语言文字信息化工作会议
为什么此处只谈文字信息化? 对语言信息化标准的进展缺乏了解 个人充其量只有一些“数量文字学”的概念 字词语,字是基础; 文字信息化是语言信息化的基础
文字信息化的最基本的任务 建立传统的真实世界的文字(古今中外)与计算机世界(虚拟世界)的联系:编码汉字-汉字编码 Character Encoding ≠IME 编码汉字是文字在计算机内最基本的表达形式
文字编码特点 按文字编码,而不是按语言、国度、地域编码;CJK汉字统一编码。 按抽象字形编码,而不是按字音、字义编码,也不是按具体造型编码。 体系结构与过去ISO 2022迥然不同 在基本多文种平面,16比特全编码
UCS/Unicode 完全不同于 Code Page !!! ISO 2022 vs. UCS 16-Bit Full Encoding 编码结构
文字信息标准化的集中体现ISO/IEC 10646 & Unicode 80 年代末启动 ISO/IEC 10646-1:1993 = GB 13000 ISO/IEC 10646-1:2000 + CJK_A,蒙, 藏,彝,朝… ISO/IEC 10646-2:2001 + CJK_B, Tai Le, Yijing… ISO/IEC 10646-2003 = Unicode 4.0 Amendment 1 to 10646-2003 开始
Amendment Now ?未出版就开始作补编? Yes ! 好像 IT 的特点。 文字的信息技术标准像软件一样,版本不断更新。(e-Publishing的驱动力) 标志着文字的信息化步伐加快,正向深度和广度进军。对此要有足够的认识。不能拘泥于旧式的老套套、老本本。
广 度- 文种的扩充 古波斯文 古希腊文 古希腊音乐符 巴斯巴文 西双版纳傣文 国际音标IPA 扩充 古汉字:隶,篆,甲骨,…
深 度 文字属性(Characteristics)的扩充 SC2 职能的扩大 (SC20 Character Ordering 纳入SC2 ) UCA : Unicode 4.0 Collation Algorithm 理序算法
深 度 国际基本汉字子集 International Basic CJK Ideograph Subset,结合国家规范汉字表定义之。(IRG#21) WG2 决议:SuperCJK Database 纳入字典指针:康熙字典、汉语大字典、大汉和、大字源。Signifying / Signified 能指/所指明晰化 。例:U+082B8 signifies 艺,芸,藝。指向了最主要的形音义属性。
深 度 从汉字的“水平认同”走向“垂直关联” 简繁异体汉字的关联(有方向性、耦合强度、时间性、合法性等问题,略) 中文域名的简繁异关联已经提上日程 清华大学= 清華大學= 淸蕐大學
深 度 Variant Selector 异体字选择符 USI=Unique Sequence Identifier 具有特异性的序列标识符,亟待研究 …
问 题 全球化步伐加快,我体制跟不上 美国-微软-Unicode形成强势难敌 我缺乏有效参与:Tai Lue, Phags-Pa 与IT界结合不紧密,未形成合力 长“坐而论”,偶“起而行”。
思 考 一个文字发源于、应用于一个国家,但是它并不只属于这个国家。这个文字信息的标准化步伐并不完全以我们的意志为转移。 只有积极地参与、介入国际标准的开发,才能处于主导的地位。
思 考 国家信息化,电子政务、电子政务、电子商务、数字图书馆、电子出版、电子教育,语言文字信息化是先行官,文字信息标准化是基础。 紧紧把握文字标准化的要点,做好高层协调、多方协作;掌握文字信息的核心资源、推动文字技术的核心技术开发。
思 考 高度重视汉字属性-知识库的建设 (Attributes - Characteristics) 发掘汉字的深层内涵,引导语文信息化发展。 文字信息标准化工作从IT界为主应当尽快转向文字工作者为主; 对以藏文为代表的民族文字信息化的走向做出果断的、正确的决策。
最主要的建议 期望国家语委真正担当起语言文字信息标准化的领导者的角色。 抓大放小,有所不为,保证重点。组织落实、任务落实、项目落实、经费落实。
谢谢!问题? IRG: www.cse.cukh.edu.hk\~irg UniHan: www.unihan.com.cn Email: joe.zhang@unihan.com.cn
国家语言文字资源建设—汉字属性数据库 HADB 语 词 字 语 语属性:音频义,同反义 词 词属性:音频义,同反义 n-Gram n-Gram属性 形 CJK汉字 音 义 码 频 序 简 繁 异 CJKA CJK B CJK C CJK D 汉字 属性Characteristics
汉字属性数据库HADB vs.汉字知识平台HKP HADB 是HKP的基础: Hanzi Knowledge Platform 语言工作的编纂平台 HADB 是链接传统字书、辞书的纽带 HADB是挂接语料库的桥梁
汉字知识平台HKP-Authoring Tool E-字书集 DictBank 语料库 CorpusSet 例证提取 询经问典 HADB 汉字属性库 Full Text Retrieval Engine OCR Engine Operating System & Data Base Manager
ISO/IEC 10646 GB 13000 • GB 13000 ≠GB 18030 • GB 18030 = GBK 再扩充
文字定义(Script≠Language) Script : A set of graphic characters used for the written form of one or more languages 用于一种或多种书面形式的语言的图形字符的集合
CJK Unification 中日韩汉字统一编码
CJK Unification 中日韩汉字统一编码
CJK Unification 中日韩汉字统一编码
CJK Unification 中日韩 汉字 统一编码
CJK Unification 中日韩汉字 统一编码
CJK Unification 中日韩汉字 统一编码 简繁不认同
CJK Unification 中日韩 汉字 统一编码 结构不同 不认同
CJK Unification 源字集 分离者 不认同
CJK Unification 源字集分离者不认同
CJK Unification Rule 中日韩汉字认同规则
汉 字 编码的+未编码的 以CJK + CJK_A为基础 以国际基本汉字子集BIIS ∋国家规范汉字为重点 加入CJK_B 以后加入CJK_C 古汉字 汉字系其他字
形 – 字形,字种及其代表 典型字样 中日韩、大陆港澳台特征 部首0 +(部首1) 康熙部首 汉语大字典 200部首 部首外笔画数 总笔画数 笔顺序列
音 汉语拼音+调 (+n 多音) 注音BoPoMoFo+调 (+n 多音) 反切 CTS : Character To Speech 单字发声引擎 Katakana 日文发音
义 现代字义 古代字义 主要/次要字义 在主要字典中的义项 摩登新义:“酷”,“靓” 港台变义 日文字义
码 ISO/IEC 10646 Code=Unicode GB 2312 GBK Big5 – CNS 11643 ShiftJIS – JIS HKSAR Code 电报码 K,V,……
频 • 平衡语料中字频 • 古籍语料中字频 • 现代社会生活“当今字频”
古籍字频- 随机查询、关联查询 国家语委十五科技攻关重点项目之一 书同文公司开发辅助软件 古籍字频查询示例