540 likes | 756 Views
古籍目录索引的自动编制 —— 以“中华古籍索引库”为例. 国家图书馆国家古籍保护中心办公室 包菊香 2012 年中国索引学会年会暨学术研讨会 2012 年 9 月 24 日 云南昆明. 一、“中华古籍索引库”背景. “中华古籍保护计划”启动 全国古籍普查登记工作是其基础性工作 普查成果之一: 《 全国古籍普查登记目录 》 丛书 各单位对馆藏古籍进行普查登记 形成 Excel 格式的 《 某单位古籍普查登记表格 》 在表格基础上形成 《 某单位古籍普查登记目录 》 为 《 某单位古籍普查登记目录 》 编制索引 为 《 全国古籍普查登记目录 》 整个丛书 编制索引
E N D
古籍目录索引的自动编制——以“中华古籍索引库”为例古籍目录索引的自动编制——以“中华古籍索引库”为例 国家图书馆国家古籍保护中心办公室 包菊香 2012年中国索引学会年会暨学术研讨会 2012年9月24日 云南昆明
一、“中华古籍索引库”背景 • “中华古籍保护计划”启动 • 全国古籍普查登记工作是其基础性工作 • 普查成果之一:《全国古籍普查登记目录》丛书 • 各单位对馆藏古籍进行普查登记 • 形成Excel格式的《某单位古籍普查登记表格》 • 在表格基础上形成《某单位古籍普查登记目录》 • 为《某单位古籍普查登记目录》编制索引 • 为《全国古籍普查登记目录》整个丛书 编制索引 • 为实现Excel 《古籍普查登记表格 》自动转为统一格式的 《古籍普查登记目录》及自动编制索引,专门开发了“中华古籍索引库” 系统
二、“中华古籍索引库”两大子系统 • (一)工作子系统
二、“中华古籍索引库”两大子系统 • (二)发布子系统
三、“中华古籍索引库”功能简介 • (一)用户管理 索引库支持增加用户、修改用户密码等操作。
每个用户可以拥有自己的工作区。 用户之间可相互查看工作区,但只有只读权限,不具备修改权限(如编辑、插入、删除数据等)。
三、“中华古籍索引库”功能简介 • (二)数据导入 将统一格式的 Excel 《古籍普查登记表格 》导入索引库,导入时可选择数据存放于新工作区或已有工作区末尾。
三、“中华古籍索引库”功能简介 • (三)数据处理 用户可对工作区中的数据进行编辑、删除、排序等操作。 数据编辑
数据删除 数据排序
三、“中华古籍索引库”功能简介 • (四)数据检索 《古籍普查登记表格》导入索引库时,在底层数据库中保存一份,另外复制一份存放在工作区中。用户对工作区数据的修改不影响底层数据库。 索引库支持对底层数据库、当前工作区中的数据进行检索。 检索底层数据库中的数据→
三、“中华古籍索引库”功能简介 • (五)数据导出 用户可以将当前工作区中的数据导出为Pdf、Word格式的《古籍普查登记目录》,并在导出时选择是否附加索引、附加何种索引。 用户在导出前,可以设置导出字段,除了默认导出的字段外,还可以根据需要选择其他字段是否导出。 为了与传统古籍书目统一,在导出过程中,索引库可以将版式、册数、存卷等字段中出现的阿拉伯数字转换成中文数字。
导出为Pdf格式的《古籍普查登记目录》 导出为Word格式的《古籍普查登记目录》 导出字段的设置
Excel《古籍普查登记表格》版式、册数、存卷为阿拉伯数字Excel《古籍普查登记表格》版式、册数、存卷为阿拉伯数字 导出的《古籍普查登记目录》中为中文数字
Pdf格式的《古籍普查登记目录》效果(默认字段导出):Pdf格式的《古籍普查登记目录》效果(默认字段导出): (补充说明:为测试导出效果,第一条数据人为从其他数据复制了相应字段,以便将所有字段填满,所以第一条数据非真实数据,下同)
Pdf格式的《古籍普查登记目录》效果(全部字段导出):Pdf格式的《古籍普查登记目录》效果(全部字段导出):
工作区中的数据有变动时,用户可以将当前工作区中的数据导出为Excel表格。 工作区中的数据有变动时,用户可以将当前工作区中的数据导出为Excel表格。
三、“中华古籍索引库”功能简介 • (六)数据统计 索引库支持对当前工作区中的数据进行统计。 索引库有两种统计方式:一维统计、二维统计。 一维统计是统计一个维度,即从省份、单位、文献类型、文种、版本朝代中只选择一个角度进行统计; 二维统计是统计两个维度,索引库目前实现的是:省份或单位作为一个维度,从文献类型、文种、版本朝代中选一作为第二个维度。 用户可以将统计结果导出为Excel表格。
三、“中华古籍索引库”功能简介 • (七)数据发布 用户可以将工作区中的数据进行发布,发布的数据是发布子系统的数据来源。 索引库目前仅支持发布一个工作区,如果想发布多个工作区中的数据,可以将这些工作区合并成一个新工作区,然后发布这一新工作区。 用户在发布数据前,可以设置发布字段,除了默认发布的字段外,还可以根据需要选择其他字段是否发布。
数据发布 发布字段的设置
三、“中华古籍索引库”功能简介 • (八)其他功能 用户还可以进行工作区的新建、重命名、刷新、删除、合并等操作。 合并工作区
四、“中华古籍索引库” 编制的索引 • 索引库最多可以为一部目录附加六种索引: • 题名拼音索引 • 题名部首笔画索引 • 题名四角号码索引 • 著者拼音索引 • 著者部首笔画索引 • 著者四角号码索引 • 索引类型: • 题名索引 • 著者索引 • 索引编排方式: • 拼音索引 • 部首笔画索引 • 四角号码索引
五、目录索引自动编制两大步骤 • (一)索引条目的自动抽取 “索引条目”是指目录正文中的被索引对象,在这里即为题名、著者。 系统自动从目录正文中抽取题名、著者,同时指明其在目录正文中的页码或款目编号。考虑到古籍普查登记目录在以后排版过程中有可能造成页码的变动,索引库选择了款目编号——“古籍普查登记编号”作为索引条目的指向。 • (二)索引条目的自动编排 系统自动将索引条目按拼音、部首笔画、四角号码等方式编排。
(一)索引条目的自动抽取 要从目录正文中抽取题名、著者,首先需要了解《古籍普查登记表格》的格式。
1、题名的自动抽取 • (1)将第一块题名及后面用&表示的各块题名抽取后拼接起来成为一个完整题名,作为一个索引条目。 例:周易程朱傳義二十四卷 (宋)程頤 (宋)朱熹撰&上下篇義一卷 (宋)程頤撰&朱子圖說一卷周易五贊一卷筮儀一卷 (宋)朱熹撰 完整题名为:周易程朱傳義二十四卷上下篇義一卷朱子圖說一卷周易五贊一卷筮儀一卷
1、题名的自动抽取 • (2)将完整题名按一定规则自动切分为各个小题名,除了第一个小题名外,其他小题名都要作为索引条目,同时括注第一个小题名,即索引条目格式为“该小题名【第一个小题名】”。
例:将上例中的完整题名“周易程朱傳義二十四卷上下篇義一卷朱子圖說一卷周易五贊一卷筮儀一卷”切分为:例:将上例中的完整题名“周易程朱傳義二十四卷上下篇義一卷朱子圖說一卷周易五贊一卷筮儀一卷”切分为: 第1块小题名:周易程朱傳義二十四卷 第2块小题名:上下篇義一卷 第3块小题名:朱子圖說一卷 第4块小题名:周易五贊一卷 第5块小题名:筮儀一卷 第2块小题名到最后一块小题名都要作为索引条目。如: 第2块小题名作为索引条目的格式为“上下篇義一卷【周易程朱傳義二十四卷】”
1、题名的自动抽取 • (3)以方括号( [] )开头的完整题名或小题名,方括号内第一字下要作索引条目,除了方括号后仅仅是卷数的情况外,方括号外第一字下也要作索引条目。 例:“[乾隆]郃陽縣全志四卷”,在“乾”字、“郃”字下都作索引条目: “乾”字下:[~隆]郃陽縣全志四卷 “郃”字下:[乾隆]~陽縣全志四卷
如果方括号外仅仅是卷数,如“一卷”、“二卷”等,那么方括号外第一字下就不作索引条目,因为仅一个卷数作为索引条目毫无意义。如果方括号外仅仅是卷数,如“一卷”、“二卷”等,那么方括号外第一字下就不作索引条目,因为仅一个卷数作为索引条目毫无意义。 例:[浦氏二君詩集]二卷 “浦”字下作索引条目:[~氏二君詩集]二卷 “二”字下就不作索引条目:[浦氏二君詩集] ~卷
1、题名的自动抽取 • 需要说明的是,目前有以下四种情况,索引库未作处理: • (1)子目题名 • (2)简要题名 古籍卷端题名常常带有修饰性的冠词,如“御制”、“钦定”、 “脂砚斋重评”等。简要题名就是不带这些冠词的题名。 • (3)同名异书 即题名相同却不是同一种书。 • (4)同书异名 即同一种书,有多个不同题名。
2、著者的自动抽取 在《古籍普查登记表格》中,一个著者由“(著者朝代/国别)著者姓名著作方式”构成,多个著者以空格间隔。两人合著,若著作方式相同,前者著作方式可省略,如“(宋)程颐 (宋)朱熹撰”。
2、著者的自动抽取 • (1)将每个著者按规则抽取出来,解析为三部分:(著者朝代/国别)、著者姓名、著作方式。解析完毕后,以著者姓名为索引条目,格式为“著者姓名(著者朝代/国别)”。
解析著者时,(著者朝代/国别)解析出来较为容易,而著者姓名、著作方式因为没有特定的格式区分,解析起来较为困难。 解析著者时,(著者朝代/国别)解析出来较为容易,而著者姓名、著作方式因为没有特定的格式区分,解析起来较为困难。 索引库中采用的是著作方式匹配法: 先建立一个著作方式表,存放已知的著作方式,著作方式按字数倒序排列; 在解析著者姓名著作方式时,从其末字开始以著作方式最大字数去匹配著作方式表,若无匹配,则减一字再去匹配,依此进行,直至匹配成功,如“某某编辑”,先匹配“编辑”,后匹配“辑”,以免误将“编”解析进著者姓名中。
2、著者的自动抽取 • (2)两人以上合著之书,如其朝代及著作方式相同,一般省略其他著者,称“某某等撰”。在这种情况下,索引库匹配完著作方式,得到“某某等”后,将再舍弃末字“等”,以某某作为著者姓名,从而形成索引条目。 例:“(清)李光地等撰”,其索引条目为“李光地(清)”。
2、著者的自动抽取 • (3)历代帝王或后妃撰著之书,著者姓名前加庙号或谥号。在这种情况下,索引库将带庙号或谥号的作为索引条目,同时将不带庙号或谥号的著者姓名也作为索引条目。 例:“(宋)高宗趙構撰”,其索引条目有二:“高宗趙構(宋)”、“趙構(宋高宗)”。
2、著者的自动抽取 • (4)正文卷端所题著者姓名未尽可信者,或正文卷端所题字号别称未能查知其真实姓名者,著者项可加“题”字。在这种情况下,索引库在编制索引时,在该著者对应“古籍普查登记编号”前以星号标识。 例如,“古籍普查登记编号”为“330000-1701-0000108”,著者为“題(明)王世貞撰”,其索引条目为“王世貞(明)”,在索引条目指向的“330000-1701-0000108”前以星号标识。
2、著者的自动抽取 • 需要说明的是,目前有以下两种情况,索引库未作处理: • (1)子目著者 • (2)同一朝代的同名异人 同名异人,即著者姓名相同而非一人。 不同朝代的同名异人,因为索引条目中括注著者朝代/国别,所以容易区分。 同一朝代的同名异人,索引库目前尚未加以区别。
(二)索引条目的自动编排 要实现索引条目按拼音、部首笔画、四角号码等方式自动编排,首先需要整理汉字的拼音、部首笔画、四角号码信息。
1、汉字拼音、部首笔画、四角号码信息的获取1、汉字拼音、部首笔画、四角号码信息的获取 汉字的拼音、部首笔画、四角号码信息可以初步从UCD的Unihan.zip文件中抽取。 UCD是Unicode字符数据库(Unicode Character Database)的缩写,由一些描述Unicode字符属性和内部关系的纯文本或html文件组成,可以在Unicode组织的网站获得。 UCD 6.1.0中,Unihan.zip由多个描述汉字属性的txt文件组成。这些txt文件包含了很多有参考价值的索引,如汉字部首、笔划、拼音、使用频度、四角号码等。这些索引都是基于一些比较权威的辞典。 为了更大程度地保证信息的准确性,从Unihan文件中抽取出来的汉字拼音、部首笔画、四角号码信息还需经过人工校对。
2、汉字拼音、部首笔画、四角号码重码字的先后排序2、汉字拼音、部首笔画、四角号码重码字的先后排序 • (1)拼音重码 即拼音相同。Unihan中虽有指明拼音的属性,却没有指明拼音重码先后顺序的属性。因此对于拼音重码问题,索引库中就按笔画顺序排列,笔画少的在前,多的在后。汉字总笔画数可以在Unihan中获取。笔画相同的,按起笔笔形横(一)、竖(丨)、撇(丿)、捺(丶)、折(乙)的顺序排列。 • (2)部首笔画重码 即相同部首下相同笔画。Unihan中有指明部首笔画及其重码先后顺序的属性,所以索引库直接采用了Unihan中的相关属性。
2、汉字拼音、部首笔画、四角号码重码字的先后排序2、汉字拼音、部首笔画、四角号码重码字的先后排序 • (3)四角号码重码 即四角号码相同。Unihan中虽有指明四角号码的属性,却没有指明四角号码重码先后顺序的属性。四角号码取码规则最后一条规定,对于四角同码字,可以取附角,附角仍有同码字时,再照各字所含横笔的数目顺序排列。但这一规则仍然不能完全解决重码问题,而且计算机也不好判断汉字所含横笔数目。因此对于四角号码重码问题,索引库中就按笔画顺序排列,笔画少的在前,多的在后。笔画相同的,按起笔笔形横(一)、竖(丨)、撇(丿)、捺(丶)、折(乙)的顺序排列。