240 likes | 407 Views
转成 Unicode 后存在的字符问题. Xidian University 图书馆 · 信息系统部 黄 小 强 200 6 年 10 月 · 西安. 内 容. 我馆字符问题解决方案的确定 转成 Unicode 后进行测试 后续工作 教训和经验. 一、我馆字符问题解决方案的确定. 我馆 INNOPAC 中数据现状 数量不算大 年代回溯不长 基本上无古籍书 繁体书少 日俄文书少. 一、我馆字符问题解决方案的确定. 我馆 2002 年直接上的图形界面 向 INNOPAC 公司做了咨询 确定的解决方案:
E N D
转成Unicode后存在的字符问题 Xidian University 图书馆·信息系统部 黄 小 强 2006年10月·西安
内 容 • 我馆字符问题解决方案的确定 • 转成Unicode后进行测试 • 后续工作 • 教训和经验
一、我馆字符问题解决方案的确定 • 我馆INNOPAC中数据现状 • 数量不算大 • 年代回溯不长 • 基本上无古籍书 • 繁体书少 • 日俄文书少
一、我馆字符问题解决方案的确定 • 我馆2002年直接上的图形界面 • 向INNOPAC公司做了咨询 • 确定的解决方案: 先转成Unicode再测试, 发现问题让公司去解决。 10月9日实施的。
二、转成Unicode后进行测试 • 测试1:原来的一些不正确现在如何? • 编目中原不能正常的个别符号如“ 。”现好了;但符号“~”从CALIS导入则在新世纪显示为∟±,若是人工输入则保存不住。 “钟”原显示的是繁体字现正常;“户”字在系统中仍保存不住 。
二、转成Unicode后进行测试 • 测试1:原来的一些不正确现在如何? • 导入读者数据时,不认的字如: 喆珺昞燚翾璠逸闫靖姗精, 现都没有问题; “旸”字仍不能保存。 • 从Calis导出的俄文和日文书目数据 现能正确导入新世纪中。
二、转成Unicode后进行测试 • 测试1:原来的一些不正确现在如何? • 在OPAC进行了多个检索,原出现 内码现象现在大为降低。
二、转成Unicode后进行测试 • 测试2:对GB2312的支持如何? 输入了GB2312全部682个符号和6763个汉字,发现新世纪中存不住的有: 97个符号和13个汉字。 详见 上周提交给了Helpdesk, 其回复两周内解决。
二、转成Unicode后进行测试 • 测试3:对GBK的支持如何? 注:GBK有 20902个汉字 因时间关系,仅测了“旸”字所在95区, 发现存不住的字有:旸 昘 昷 暭 曱
二、转成Unicode后进行测试 • 其它问题1:新世纪显示内码 • 流通台:原读者借出和罚款中的中文题名显示内码 • 资料档:原资料档中文名显示内码
二、转成Unicode后进行测试 • 其它问题2:繁体显示有问题 正确的: 重慶大學一覽 |A Chong Qing Da Xue Yi Lan |f 重慶大學圖書館藏 重慶 |c 重慶大學出版股 |d 民國24 [1935] 1册 |c 图 |d 26cm 版权页题名题: 重慶大學廿三年度一覽 五角 重慶大學廿三年度一覽 |A chong qing da xue nian san nian du yi lan
二、转成Unicode后进行测试 • 其它问题2:繁体显示有问题 现显示的: 重{145}{99}大{140}{87}一₅{91}|AChong Qing Da Xue Yi Lan|f重{145}{99}大{140}{87}{uE136}{68}{149}̨̧̂藏 重{145}{99}|c重{145}{99}大{140}{87}出版股|d民{135}̨24 [1935] 1冊|c图|d26cm 版权页题名题: 重{145}{99}大{140}{87}廿三年度一₅{91}
二、转成Unicode后进行测试 • 其它问题3:一些字显示为内码(这种内码很怪) {149}{80} 应为:昉 {149}{78} 应为:昇 {149}{68} 应为:旸 (且该字重新输入后也存不住) {149}{132} 应为:晞 {149}{70} 应为:昱 {145}{99} 应为:慶 {140}{87} 应为:學
二、转成Unicode后进行测试 上述三个问题上周提交给了Helpdesk, 现没有回复。
二、转成Unicode后进行测试 • 其它问题4:个别GB2312的字通过导入方式到新世纪后显示成GBK定义的异体字,如: 研 -- 硏 教 -- 敎 概 -- 槪 … 注:但检索没有问题
二、转成Unicode后进行测试 • 问题小结 • 编程时无论是从/往文件系统以字符流读/写文件,还是往 URL 连接写 HTML 信息,或从 URL 连接读取参数值,都会有字符编码的转换。-----处理过程中需要实现 Unicode 和本地字符集的相互转换
二、转成Unicode后进行测试 • 问题小结 • 从理论上来说,这些根据字符集设置而进行的字符转换不应该产生太多问题。而事实是由于应用程序的实际运行环境不同及继承性开发,Unicode 和各个本地字符集的补充、完善,以及系统或应用程序实现的不规范,转码就可能出现问题。
二、转成Unicode后进行测试 • 问题小结 • 现阶段 Windows 和其它一些中文操作系统的缺省中文字符集 ——GBK • INNOPAC/新世纪是个老系统 (EACC/CCCII) ? Unicode <——> GBK 没有完全解决好!
三、后续工作 • 全面搞清楚Innovative公司的解决方案,以便发现系统中更多的问题。 • 测试完整的GBK编码表 • 再进行各种导入实验,
四、教训和经验 • 没想到转换成Unicode对流通模块影响很大,在彻底解决我馆流通问题前,建议其他馆不要转Unicode. • 转换得有些急,收集原有字符问题 不够。 • 应该事先模拟各种情况在系统中存相应的记录。
四、教训和经验 • 每个馆转Unicode方式或流程,可能还要根据各馆实现情况而定