1 / 24

转成 Unicode 后存在的字符问题

转成 Unicode 后存在的字符问题. Xidian University 图书馆 · 信息系统部 黄 小 强 200 6 年 10 月 · 西安. 内 容. 我馆字符问题解决方案的确定 转成 Unicode 后进行测试 后续工作 教训和经验. 一、我馆字符问题解决方案的确定. 我馆 INNOPAC 中数据现状 数量不算大 年代回溯不长 基本上无古籍书 繁体书少 日俄文书少. 一、我馆字符问题解决方案的确定. 我馆 2002 年直接上的图形界面 向 INNOPAC 公司做了咨询 确定的解决方案:

juan
Download Presentation

转成 Unicode 后存在的字符问题

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 转成Unicode后存在的字符问题 Xidian University 图书馆·信息系统部 黄 小 强 2006年10月·西安

  2. 内 容 • 我馆字符问题解决方案的确定 • 转成Unicode后进行测试 • 后续工作 • 教训和经验

  3. 一、我馆字符问题解决方案的确定 • 我馆INNOPAC中数据现状 • 数量不算大 • 年代回溯不长 • 基本上无古籍书 • 繁体书少 • 日俄文书少

  4. 一、我馆字符问题解决方案的确定 • 我馆2002年直接上的图形界面 • 向INNOPAC公司做了咨询 • 确定的解决方案: 先转成Unicode再测试, 发现问题让公司去解决。 10月9日实施的。

  5. 二、转成Unicode后进行测试 • 测试1:原来的一些不正确现在如何? • 编目中原不能正常的个别符号如“ 。”现好了;但符号“~”从CALIS导入则在新世纪显示为∟±,若是人工输入则保存不住。 “钟”原显示的是繁体字现正常;“户”字在系统中仍保存不住 。

  6. 二、转成Unicode后进行测试 • 测试1:原来的一些不正确现在如何? • 导入读者数据时,不认的字如: 喆珺昞燚翾璠逸闫靖姗精, 现都没有问题; “旸”字仍不能保存。 • 从Calis导出的俄文和日文书目数据 现能正确导入新世纪中。

  7. 二、转成Unicode后进行测试 • 测试1:原来的一些不正确现在如何? • 在OPAC进行了多个检索,原出现 内码现象现在大为降低。

  8. 二、转成Unicode后进行测试 • 测试2:对GB2312的支持如何? 输入了GB2312全部682个符号和6763个汉字,发现新世纪中存不住的有: 97个符号和13个汉字。 详见 上周提交给了Helpdesk, 其回复两周内解决。

  9. 二、转成Unicode后进行测试 • 测试3:对GBK的支持如何? 注:GBK有 20902个汉字 因时间关系,仅测了“旸”字所在95区, 发现存不住的字有:旸 昘 昷 暭 曱

  10. 二、转成Unicode后进行测试 • 其它问题1:新世纪显示内码 • 流通台:原读者借出和罚款中的中文题名显示内码 • 资料档:原资料档中文名显示内码

  11. 二、转成Unicode后进行测试 • 其它问题2:繁体显示有问题 正确的: 重慶大學一覽 |A Chong Qing Da Xue Yi Lan |f 重慶大學圖書館藏 重慶 |c 重慶大學出版股 |d 民國24 [1935] 1册 |c 图 |d 26cm 版权页题名题: 重慶大學廿三年度一覽 五角 重慶大學廿三年度一覽 |A chong qing da xue nian san nian du yi lan

  12. 二、转成Unicode后进行测试 • 其它问题2:繁体显示有问题 现显示的: 重{145}{99}大{140}{87}一₅{91}|AChong Qing Da Xue Yi Lan|f重{145}{99}大{140}{87}{uE136}{68}{149}̨̧̂藏 重{145}{99}|c重{145}{99}大{140}{87}出版股|d民{135}̨24 [1935] 1冊|c图|d26cm 版权页题名题: 重{145}{99}大{140}{87}廿三年度一₅{91}

  13. 二、转成Unicode后进行测试 • 其它问题3:一些字显示为内码(这种内码很怪) {149}{80} 应为:昉 {149}{78} 应为:昇 {149}{68} 应为:旸 (且该字重新输入后也存不住) {149}{132} 应为:晞 {149}{70} 应为:昱 {145}{99} 应为:慶 {140}{87} 应为:學

  14. 二、转成Unicode后进行测试 上述三个问题上周提交给了Helpdesk, 现没有回复。

  15. 二、转成Unicode后进行测试 • 其它问题4:个别GB2312的字通过导入方式到新世纪后显示成GBK定义的异体字,如: 研 -- 硏 教 -- 敎 概 -- 槪 … 注:但检索没有问题

  16. 二、转成Unicode后进行测试 • 问题小结 • 编程时无论是从/往文件系统以字符流读/写文件,还是往 URL 连接写 HTML 信息,或从 URL 连接读取参数值,都会有字符编码的转换。-----处理过程中需要实现 Unicode 和本地字符集的相互转换

  17. 二、转成Unicode后进行测试 • 问题小结 • 从理论上来说,这些根据字符集设置而进行的字符转换不应该产生太多问题。而事实是由于应用程序的实际运行环境不同及继承性开发,Unicode 和各个本地字符集的补充、完善,以及系统或应用程序实现的不规范,转码就可能出现问题。

  18. 二、转成Unicode后进行测试 • 问题小结 • 现阶段 Windows 和其它一些中文操作系统的缺省中文字符集 ——GBK • INNOPAC/新世纪是个老系统 (EACC/CCCII) ? Unicode <——> GBK 没有完全解决好!

  19. 三、后续工作 • 全面搞清楚Innovative公司的解决方案,以便发现系统中更多的问题。 • 测试完整的GBK编码表 • 再进行各种导入实验,

  20. 四、教训和经验 • 没想到转换成Unicode对流通模块影响很大,在彻底解决我馆流通问题前,建议其他馆不要转Unicode. • 转换得有些急,收集原有字符问题 不够。 • 应该事先模拟各种情况在系统中存相应的记录。

  21. 四、教训和经验 • 每个馆转Unicode方式或流程,可能还要根据各馆实现情况而定

  22. 谢谢!

More Related