360 likes | 539 Views
香港中文大學圖書館系統 University Library System. The Chinese University of Hong Kong. 何以業. 2004 年11月9日. 香港 Innovative 用户协会重订 《单一码与 CCCII/EACC 对应表》 – 第五届中国 INNOPAC 用户协会年会 , 2004年11月9-10日 – – 上海华东师范大学–. 鸣谢.
E N D
香港中文大學圖書館系統 University Library System The Chinese University of Hong Kong 何以業 2004年11月9日 香港 Innovative 用户协会重订 《单一码与CCCII/EACC对应表》 – 第五届中国INNOPAC用户协会年会, 2004年11月9-10日– – 上海华东师范大学–
鸣谢 • 重订工作由 香港Innovative用户协会 (Hong Kong Innovative Users Group) 下的单一码计划工作小组 (HKIUG Working Group on Unicode Project) 负责。 小组成员馆的代表为: 林纪达先生 (香港科技大学) 黄秉杰先生 (香港城市大学) 陈伟明先生 (香港大学) 何以业 (香港中文大学) • 以下的报告内容取材自黄秉杰先生与我在2003年12月第4届 Hong Kong Innovative Users Group Meeting 中的报告http://hkiug.ln.edu.hk/meetings/am2003/presentations/philip_ho_yee_ip.ppt 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
報告梗概 • 背景 • 难题 • 目标与方法 • 工序 • 对 Innovatives 的要求 • 尚未解决的问题 • 用户注意事项 • 将来 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
1. 背景 汉字编码字符集 多种字符集支援中日韩字(CJK) 资料来源: 林纪达, “Overview of Chinese Character Encoding”, http://www.lib.cuhk.edu.hk/seminar/unicode/kt_lam_files/frame.htm 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
1. 背景 字符集支援范围 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
1. 背景 (代) 码点 (code point) 同一个字形,在不同字符集会使用不同的码点 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
1. 背景 内存代码 (internal code) • Innopac 以 EACC/CCCII 形式存储 CJK 字符 • Innopac 内存代码不是 Unicode 100 1 余秋雨 100 1 {276076}{214f29}{215f51} 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
1. 背景 对应表 (mapping table) • Innopac 用对应表把内存代码在客户端与系统之间往来转换 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
2. 难题 (一)复数对应 难题 1 • UTF-8对应表 (diac.utf8) 中, 有多个内存代码对应同一个客户端编码 • 查询用的代码不一定是所期望的代码 • 对应次序各馆不同,Z39.50查找结果不定 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
2. 难题 (二)EACC 与 CCCII 重叠 难题 2 • EACC 与 CCCII 用码不同, 各馆内存不一,资料交换带来麻烦。 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
2. 难题 (三)错误与缺漏 难题 3 • UTF8 (Release 2002 Phrase 3) 中有小毛病 • 错误 • 27615F <> U+53CB [ 友 ] • 该对应 U+53D1 [ 发 ] • 缺漏 • 缺 213F30 <> U+3007 [ 〇 ] 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
2. 难题 (四)选取不一致 难题 4 • BIG5 和 UTF-8 产生的复数对应不一致,香港 Innovative 用户协会决定进行此单一码计划: • BIG5客户端 对应表选前一个对应码 • UTF8客户端 对应表选后头一个对应码 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
2. 难题 (四)选取不一致 (续) [ 才 ] 的对应 • BIG5 (WebPAC 或 Telnet) 对应表选前一个对应码 内存BIG5 213f7b A47E BIG5选前一个 28736d A47E • UTF-8 (WebPAC 或Millennium) 对应表选后一个对应码 内存UTF-8 213f7b 624D 28736d 624D UTF-8选后一个 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
3. 目标与方法 . • 香港中文大学于2003年7月举行了讨论会: http://www.lib.cuhk.edu.hk/seminar/unicode/ • 单一码计划工作小组 (HKIUG Working Group on Unicode Project) 亦于同年7月成立 • 目标 • 解决 BIG5 和 UTF-8 选取不一致的难题 • 决定对应表中的那些应是 ‘一对一’ 或是 ‘多对一’ • 决定对应表 应否只用 ‘纯粹 EACC’ 或是 ‘EACC+CCCII’ • 清除错误与缺漏 • 为将来‘以单一码为内存的资料库’做好准备 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
3. 目标与方法 (续) 单一码计划工作小组研究后提出如下方案: • 不再修订 BIG5 对应表 (因为: 字符集字量少; 只支援繁体字; 复数对应太多…. 等等) • 建议重订一张新的 UTF-8 对应表 (diac.utf8) • EACC<>Unicode 以美国国会图书馆MARC 21为标准 • 尾4码相同者,容许复数对应;尾4码不同者,需决定优先选取者;例:[ 台 ] (见 2. 难题1) • EACC 与 CCCII 重叠时,删除CCCII • 将馆内以该CCCII为内码的资料转换为对应的 EACC • 对应表需包括 ‘纯粹CCCII’以照顾不常用字 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
4. 工序 建成 diac.utf8.hkiug • 以下部分直接摘用黄秉杰先生在2003年12月第4届 Hong Kong Innovative Users Group Meeting报告内的Procedures 部分 参见: http://hkiug.ln.edu.hk/meetings/am2003/presentations/philip_ho_yee_ip.ppt 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
Procedures created diac.utf8.hkiug LC EACC 15739 EACC merged Subtracted 66 Substitutes for Missing (U+3013) 15673 EACC diac.utf8.hkiug 22717 EACC/CCCII + diac.utf8 7044 pure CCCII • Remapped 287 PUA • Selected preferences in multi-mapping linked and unlinked cases • Corrected LC mappings • prepared list for CCCII to EACC data conversion 7999 CCCII extracted Subtracted 955 with EACC equivalent
Procedures source from LC • Merged tables from LC's EACC to UCS/Unicode Mappings http://www.loc.gov/marc/specifications/specchareacc.html
Procedures source from diac.utf8 • Included pure CCCII from UTF-8 table (Rel 2002 Phase 3)
Procedures re-mapped PUA • Re-mapped 297 Private User Area (PUA) to suggested alternates
Procedures selected preference • Selected preference in multiple mapping EACC
Procedures selected preference (cont) • Selected preference in EACC multiple mapping linked Linked cases: HKIUG preference indicated
Procedures selected preference (cont) • Selected preference in EACC multiple mapping unlinked Unlinked cases: HKIUG preference indicated
Procedures updated LC mapping • Updated LC mappings • Referenced from other sources Unihan OCLC USMARC Character Set for Chinese, Japanese, Korean (printed) • Examples:
Prepared list for data conversion Procedures list for conversion CCCII EACC CCCII with EACC Equivalents - for data conversion
5.对 Innovatives 的要求 . • 交给Innovatives 的 付项 • diac.utf8.hkiug – 是 HKIUG 设定的 EACC/CCCII<>UTF-8 对应表 EACC 15,673 纯粹CCCII 7,044 合共 22,717 • hasEACC.txt – CCCII 重叠 EACC 表 (955) • 单一码计划工作小组的报告 • Innovatives 可做的工作 (IUG CN可参照实行) • 为各馆的 Innopac 安装 diac.utf8.hkiug • 依照 hasEACC.txt 所示, 把图书馆资料库内的 CCCII 转换成对应的 EACC (各馆可自行转换) 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
6.尚未解决的问题LC的错误 • 美国国会图书馆 (LC) MARC 21 标准中有一个错误 : 23355C 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
7. 用户注意事项复数对应选字 • 复数对应 :[ 历 ] U+5386 • 请参考香港科技大学的复数对应选择表: lc-multi-eacc.xls 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
7. 用户注意事项 复数对应选字(续1) • 数据正确性 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
7. 用户注意事项 复数对应选字(续2) • Millenium editor 暂依 UTF-8 对应表在储存目录时修改内码。这会使数据不正确。 • 此为 Millennium 的软件缺点,由于目录从 server 交到 client,在 client 重存时,内存代码会依对应表的优先对应的规定来改码。 • 如果只是修改 item, checkin, order, global update 等,由于不会在 client 重存 bib 目录,内存代码不会改变。 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
7. 用户注意事项 复数对应选字(续3) • Innovatives 打算在 Sliver version 中修正软件缺点。非优先对应的内存代码,会在Millenium editor 以字符显示,而且不会在重存目录时修改内码。 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
7. 用户注意事项 复数对应选字(续4) • 暂时可用 Anzio-Win 作 Telnet client • 设定可参考香港中文大学图书馆网页: http://www.lib.cuhk.edu.hk/cataw/Internet/System_DIY.pdf • 上述网页提到的 CCCII.UNI , 香港中文大学愿意提供。 • 但 ANZIO-Win 有缺点: CCCII.UNI 为 1 EACC <> 1 Unicode.非优先对应者,一概不用 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
7. 用户注意事项 复数对应选字(续5) 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
8. 将来 (一) 提升混合索引能力 • CJK 字符中,繁简体和异体字甚多,不能光靠尾4码相同来连结索引。Innovatives 将以 Tool-database 形式达到混合索引的功能。 • 香港科技大学的林纪达先生已准备向 Innovatives 提供资料,供 Tool-database 作混合索引之用: 213538 台|21542B 臺|27542B 台|21605D 颱|27605D 台|223B7D 檯|283B7D 台|3A3B7D 枱|#U+53F0 • 输入以上任何一个字符,均可把载有以上代码的目录全部找出来。 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
8. 将来 (二)跟EACC/CCCII 为内存的资料库进行交换 • 往后数年,图书馆界 (北美和 OCLC 等) 仍然以 EACC/CCCII 为内存代码及作为交换码。Innopac 用户馆与此等以 EACC/CCCII 为内存的资料库进行交换时,不会出问题。 • 将来如果 Innopac 改为纯以 Unicode为内存代码,与此等EACC/CCCII 为内存代码的资料库进行交换时,会输出错码: 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業
谢谢聆听!敬希指正!何以业hoyeeip@cuhk.edu.hk 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業