1 / 36

香港中文大學圖書館系統 University Library System

香港中文大學圖書館系統 University Library System. The Chinese University of Hong Kong. 何以業. 2004 年11月9日. 香港 Innovative 用户协会重订 《单一码与 CCCII/EACC 对应表》 – 第五届中国 INNOPAC 用户协会年会 , 2004年11月9-10日 – – 上海华东师范大学–. 鸣谢.

feivel
Download Presentation

香港中文大學圖書館系統 University Library System

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 香港中文大學圖書館系統 University Library System The Chinese University of Hong Kong 何以業 2004年11月9日 香港 Innovative 用户协会重订 《单一码与CCCII/EACC对应表》 – 第五届中国INNOPAC用户协会年会, 2004年11月9-10日– – 上海华东师范大学–

  2. 鸣谢 • 重订工作由 香港Innovative用户协会 (Hong Kong Innovative Users Group) 下的单一码计划工作小组 (HKIUG Working Group on Unicode Project) 负责。 小组成员馆的代表为: 林纪达先生 (香港科技大学) 黄秉杰先生 (香港城市大学) 陈伟明先生 (香港大学) 何以业 (香港中文大学) • 以下的报告内容取材自黄秉杰先生与我在2003年12月第4届 Hong Kong Innovative Users Group Meeting 中的报告http://hkiug.ln.edu.hk/meetings/am2003/presentations/philip_ho_yee_ip.ppt 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  3. 報告梗概 • 背景 • 难题 • 目标与方法 • 工序 • 对 Innovatives 的要求 • 尚未解决的问题 • 用户注意事项 • 将来 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  4. 1. 背景 汉字编码字符集 多种字符集支援中日韩字(CJK) 资料来源: 林纪达, “Overview of Chinese Character Encoding”, http://www.lib.cuhk.edu.hk/seminar/unicode/kt_lam_files/frame.htm 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  5. 1. 背景 字符集支援范围 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  6. 1. 背景 (代) 码点 (code point) 同一个字形,在不同字符集会使用不同的码点 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  7. 1. 背景 内存代码 (internal code) • Innopac 以 EACC/CCCII 形式存储 CJK 字符 • Innopac 内存代码不是 Unicode 100 1 余秋雨 100 1 {276076}{214f29}{215f51} 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  8. 1. 背景 对应表 (mapping table) • Innopac 用对应表把内存代码在客户端与系统之间往来转换 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  9. 2. 难题 (一)复数对应 难题 1 • UTF-8对应表 (diac.utf8) 中, 有多个内存代码对应同一个客户端编码 • 查询用的代码不一定是所期望的代码 • 对应次序各馆不同,Z39.50查找结果不定 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  10. 2. 难题 (二)EACC 与 CCCII 重叠 难题 2 • EACC 与 CCCII 用码不同, 各馆内存不一,资料交换带来麻烦。 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  11. 2. 难题 (三)错误与缺漏 难题 3 • UTF8 (Release 2002 Phrase 3) 中有小毛病 • 错误 • 27615F <> U+53CB [ 友 ] • 该对应 U+53D1 [ 发 ] • 缺漏 • 缺 213F30 <> U+3007 [ 〇 ] 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  12. 2. 难题 (四)选取不一致 难题 4 • BIG5 和 UTF-8 产生的复数对应不一致,香港 Innovative 用户协会决定进行此单一码计划: • BIG5客户端  对应表选前一个对应码 • UTF8客户端  对应表选后头一个对应码 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  13. 2. 难题 (四)选取不一致 (续) [ 才 ] 的对应 • BIG5 (WebPAC 或 Telnet) 对应表选前一个对应码 内存BIG5 213f7b A47E BIG5选前一个 28736d A47E • UTF-8 (WebPAC 或Millennium) 对应表选后一个对应码 内存UTF-8 213f7b 624D 28736d 624D  UTF-8选后一个 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  14. 3. 目标与方法 . • 香港中文大学于2003年7月举行了讨论会: http://www.lib.cuhk.edu.hk/seminar/unicode/ • 单一码计划工作小组 (HKIUG Working Group on Unicode Project) 亦于同年7月成立 • 目标 • 解决 BIG5 和 UTF-8 选取不一致的难题 • 决定对应表中的那些应是 ‘一对一’ 或是 ‘多对一’ • 决定对应表 应否只用 ‘纯粹 EACC’ 或是 ‘EACC+CCCII’ • 清除错误与缺漏 • 为将来‘以单一码为内存的资料库’做好准备 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  15. 3. 目标与方法 (续) 单一码计划工作小组研究后提出如下方案: • 不再修订 BIG5 对应表 (因为: 字符集字量少; 只支援繁体字; 复数对应太多…. 等等) • 建议重订一张新的 UTF-8 对应表 (diac.utf8) • EACC<>Unicode 以美国国会图书馆MARC 21为标准 • 尾4码相同者,容许复数对应;尾4码不同者,需决定优先选取者;例:[ 台 ] (见 2. 难题1) • EACC 与 CCCII 重叠时,删除CCCII • 将馆内以该CCCII为内码的资料转换为对应的 EACC • 对应表需包括 ‘纯粹CCCII’以照顾不常用字 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  16. 4. 工序 建成 diac.utf8.hkiug • 以下部分直接摘用黄秉杰先生在2003年12月第4届 Hong Kong Innovative Users Group Meeting报告内的Procedures 部分 参见: http://hkiug.ln.edu.hk/meetings/am2003/presentations/philip_ho_yee_ip.ppt 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  17. Procedures created diac.utf8.hkiug LC EACC 15739 EACC merged Subtracted 66 Substitutes for Missing (U+3013) 15673 EACC diac.utf8.hkiug 22717 EACC/CCCII + diac.utf8 7044 pure CCCII • Remapped 287 PUA • Selected preferences in multi-mapping linked and unlinked cases • Corrected LC mappings • prepared list for CCCII to EACC data conversion 7999 CCCII extracted Subtracted 955 with EACC equivalent

  18. Procedures source from LC • Merged tables from LC's EACC to UCS/Unicode Mappings http://www.loc.gov/marc/specifications/specchareacc.html

  19. Procedures source from diac.utf8 • Included pure CCCII from UTF-8 table (Rel 2002 Phase 3)

  20. Procedures re-mapped PUA • Re-mapped 297 Private User Area (PUA) to suggested alternates

  21. Procedures selected preference • Selected preference in multiple mapping EACC

  22. Procedures selected preference (cont) • Selected preference in EACC multiple mapping linked Linked cases: HKIUG preference indicated

  23. Procedures selected preference (cont) • Selected preference in EACC multiple mapping unlinked Unlinked cases: HKIUG preference indicated

  24. Procedures updated LC mapping • Updated LC mappings • Referenced from other sources Unihan OCLC USMARC Character Set for Chinese, Japanese, Korean (printed) • Examples:

  25. Prepared list for data conversion Procedures list for conversion CCCII EACC CCCII with EACC Equivalents - for data conversion

  26. 5.对 Innovatives 的要求 . • 交给Innovatives 的 付项 • diac.utf8.hkiug – 是 HKIUG 设定的 EACC/CCCII<>UTF-8 对应表 EACC 15,673 纯粹CCCII 7,044 合共 22,717 • hasEACC.txt – CCCII 重叠 EACC 表 (955) • 单一码计划工作小组的报告 • Innovatives 可做的工作 (IUG CN可参照实行) • 为各馆的 Innopac 安装 diac.utf8.hkiug • 依照 hasEACC.txt 所示, 把图书馆资料库内的 CCCII 转换成对应的 EACC (各馆可自行转换) 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  27. 6.尚未解决的问题LC的错误 • 美国国会图书馆 (LC) MARC 21 标准中有一个错误 : 23355C 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  28. 7. 用户注意事项复数对应选字 • 复数对应 :[ 历 ] U+5386 • 请参考香港科技大学的复数对应选择表: lc-multi-eacc.xls 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  29. 7. 用户注意事项 复数对应选字(续1) • 数据正确性 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  30. 7. 用户注意事项 复数对应选字(续2) • Millenium editor 暂依 UTF-8 对应表在储存目录时修改内码。这会使数据不正确。 • 此为 Millennium 的软件缺点,由于目录从 server 交到 client,在 client 重存时,内存代码会依对应表的优先对应的规定来改码。 • 如果只是修改 item, checkin, order, global update 等,由于不会在 client 重存 bib 目录,内存代码不会改变。 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  31. 7. 用户注意事项 复数对应选字(续3) • Innovatives 打算在 Sliver version 中修正软件缺点。非优先对应的内存代码,会在Millenium editor 以字符显示,而且不会在重存目录时修改内码。 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  32. 7. 用户注意事项 复数对应选字(续4) • 暂时可用 Anzio-Win 作 Telnet client • 设定可参考香港中文大学图书馆网页: http://www.lib.cuhk.edu.hk/cataw/Internet/System_DIY.pdf • 上述网页提到的 CCCII.UNI , 香港中文大学愿意提供。 • 但 ANZIO-Win 有缺点: CCCII.UNI 为 1 EACC <> 1 Unicode.非优先对应者,一概不用 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  33. 7. 用户注意事项 复数对应选字(续5) 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  34. 8. 将来 (一) 提升混合索引能力 • CJK 字符中,繁简体和异体字甚多,不能光靠尾4码相同来连结索引。Innovatives 将以 Tool-database 形式达到混合索引的功能。 • 香港科技大学的林纪达先生已准备向 Innovatives 提供资料,供 Tool-database 作混合索引之用: 213538 台|21542B 臺|27542B 台|21605D 颱|27605D 台|223B7D 檯|283B7D 台|3A3B7D 枱|#U+53F0 • 输入以上任何一个字符,均可把载有以上代码的目录全部找出来。 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  35. 8. 将来 (二)跟EACC/CCCII 为内存的资料库进行交换 • 往后数年,图书馆界 (北美和 OCLC 等) 仍然以 EACC/CCCII 为内存代码及作为交换码。Innopac 用户馆与此等以 EACC/CCCII 为内存的资料库进行交换时,不会出问题。 • 将来如果 Innopac 改为纯以 Unicode为内存代码,与此等EACC/CCCII 为内存代码的资料库进行交换时,会输出错码: 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

  36. 谢谢聆听!敬希指正!何以业hoyeeip@cuhk.edu.hk 香港 Innopac 用户协会重订<单一码与 CCCII/EACC 对应表>. 2004年11月9日, 何以業

More Related