2.6k likes | 3.06k Views
档案数字化加工与电子文件管理. 广东省档案局 科研教育处 卢汉明. 第一部分 档案数字化加工. 数字化相关标准 中华人民共和国行业标准, 《 纸质档案数字化技术规范 》 , DA/T 31-2005 ,国家档案局发布 广州市地方技术规范 ,《 纸质档案数字化数据质量规范 》 ,广州市质量技术监督局发布 中山市归档文件数字化技术规范实施细则(征求意见稿). 一些主要概念. 数字化 digitization 用计算机技术将模拟信号转换为数字信号的处理过程。 包括: —— 纸质档案数字化 —— 照片档案数字化 —— 声音档案数字 化 —— 影像档案数字化.
E N D
档案数字化加工与电子文件管理 广东省档案局 科研教育处 卢汉明
第一部分 档案数字化加工 • 数字化相关标准 • 中华人民共和国行业标准,《纸质档案数字化技术规范》,DA/T 31-2005,国家档案局发布 • 广州市地方技术规范,《纸质档案数字化数据质量规范》,广州市质量技术监督局发布 • 中山市归档文件数字化技术规范实施细则(征求意见稿)
一些主要概念 • 数字化 digitization用计算机技术将模拟信号转换为数字信号的处理过程。 包括: ——纸质档案数字化 ——照片档案数字化 ——声音档案数字化 ——影像档案数字化
分辨率 • 是指单位长度(一英寸,即2.54厘米)内包含的点数或像素数。 • DPI与PPI的区别 • dpi(dots per inch)是指硬件输出分辨率,针对于输出设备而言的,一般的激光打印机的输出分辨率是300dpi-600dpi,印刷的照排机达到1200dpi-2400dpi,常见的冲印一般在150dpi到300dpi之间。 • ppi(pixels per inch)是图像分辨率的单位,图像ppi值越高,画面的细节就越丰富,因为单位面积的像素数量更多。 • 在购买扫描仪的时候要注意“光学分辨率”参数的高低。
灰度值 是指进行灰度扫描时把图像由纯黑到纯白整个色彩区域进行划分的级数,在计算机中一般使用8位二进制来表示级数,即有256(2^8级 ) 灰度。 • 黑白二值图像 是与彩色及灰度相对应的一种模式,黑白图在表示图像时只区分黑白二值,他把其他色彩根据其特性转换为黑白两种,因此形成只有两种颜色的图像,非常适用于文字型的图像。
色彩数 色彩数表示彩色扫描仪所能产生颜色的范围。在计算机中用三基色红、绿、蓝(RGB)按不同比例组配成各种颜色,每基色用8位二进制来表示,可生成16.67M(兆)种颜色,称为24位真彩色。色彩数越多扫描图像越鲜艳真实。
位图(也叫栅图) 位图:是用小方形网格(位图或栅格),即像素来代表图像,每个图像都被分配一个特定位置和颜色值。处理图像,就是对位图各个像素的颜色值进行编辑。
数字图像文件按照图像色彩又分为彩色图像、灰度图像和黑白图像。彩色照片档案、图片等经过数字化加工制作成彩色数字图像文件,黑白照片档案、水墨绘画图片等经过数字化加工制作成灰度数字图像文件,工程图纸、线描图片等经过数字化加工可以制成黑白数字图像文件。数字图像文件按照图像色彩又分为彩色图像、灰度图像和黑白图像。彩色照片档案、图片等经过数字化加工制作成彩色数字图像文件,黑白照片档案、水墨绘画图片等经过数字化加工制作成灰度数字图像文件,工程图纸、线描图片等经过数字化加工可以制成黑白数字图像文件。
档案数字化常用的文件格式 • 图像文件格式:TIFF、JPEG • 版式文件格式:PDF、CEB • 音频文件格式:WAV、MP3 • 视频文件格式:MPEG、AVI
LZW压缩 G4 适用范围 彩色模式 黑白模式 是否有损压缩 无损 无损 常用的TIFF格式压缩算法
档案数字化的前提 • 所有要进行数字化的档案必须先在成熟的档案管理系统软件中著录,编制好档号或资料号。
纸质档案数字化 • 纸质档案数字化 digitization of paper-based records采用扫描仪或数码相机等数码设备对纸质档案进行数字化加工,将其转化为存储在磁带、磁盘、光盘等载体上并能被计算机识别的数字图像或数字文本的处理过程。
一、纸质档案数字化 • 扫描色彩模式选择 • 扫描色彩模式一般有黑白二值、灰度、彩色等 。通过采用黑白模式与灰度模式混合扫描。 • 对于页面清晰、不带图片、只有黑白两种颜色的档案资料,采用黑白模式扫描; • 对于页面有红头、印章、饼图、直方图等,或者清晰度较差的、手写体档案资料采用灰度模式扫描,灰度方式一般采用256灰阶。 • 对于页面有红头、印章或插有彩色照片的档案资料,可视需要采用彩色模式扫描。
纸质档案数字化 • 扫描分辨率选择 • 一般采用200DPI。可根据纸质档案的清晰程度作适当的调整,对于手写的、文字偏小、密集、清晰度较差的可提高到300DPI;对于比较清晰的可降低DPI,增减的多少以扫描后的图像按100%显示后是否清晰为标准。
纸质档案数字化 —文件存储格式、压缩选择 • 存储采用PDF、TIFF、JPEG格式;若存储的文件超过30MB,将文件进行分割存储。 • 存储时的压缩率的选择,应以保证扫描的图像在100%显示时清晰可读的前提下,尽量减小存储容量为准则。
纸质档案数字化 • 文件存储方式及文件命名规则 • 存储时按档号各要素(全宗号、目录号、项目号、年度、案卷号、顺序号等)分级建文件夹存储,电子文件名以档号命名,档号各要素之间用半角“-”符号隔开。 • 若一份文件是分割存储的,电子文件名按“档号_分割流水顺序号”命名,档号与分割流水顺序号之间用下横杆“_”隔开。
纸质档案数字化 • 档案利用 • 文件版权标识 • 为保护档案的产权问题,防止他人重新作商业性质利用,将转存为PDF、TIFF等格式过程中,对档案加上档案来源单位的数字版权标识,数字版权标识的透明度不应超过50% 。
纸质档案数字化 • 拍摄 • 数码相机可直接生成数码照片——电子文件(图像)。数码相机也可以作为档案部门进行档案数字化的设备。与扫描仪相比,500万像素以上的数码相机对实物档案以及特大幅面档案数字化加工时有着很大的优势。
数码相机对特大幅面的档案进行数字化时有着明显优势。数码相机对特大幅面的档案进行数字化时有着明显优势。 • 清光绪二十年(1894年)的大“金榜”
纸质档案数字化 • 不同像素数码相机生产图片文件对应特定大小幅面的分辨率。 计算公式: 分辩率=像素数量/页面长度(单位:英寸)
纸质档案数字化 • 如需要利用图像中的文字信息,可采用OCR技术对图像中的文字进行识别,或者将pdf制作成“图像+文字”的双层pdf格式。
照片档案数字化 • 扫描模式 • 彩色照片以彩色模式扫描,黑白照片以灰度模式扫描;
照片档案数字化 • 扫描分辨率 • 以4R照片大小为标准,采用600DPI进行扫描;对于一些列为单位重要照片的,可在此基础上适当调高;对于其它太大或太小的照片,分辨率可作相应的调整, 如待扫描的照片大小为4R的N分之一,则分辨率为Nx600DPI,相应地,假设待扫描的照片的大小为4R的N倍,则分辨率为(600/N)DPI。
照片档案数字化 • 文件存储格式选择 • 扫描后的照片以TIFF格式存储,采用LZW压缩。 • 文件存储方式 • 按档号各要素(如全宗号、目录号、项目号、年度、案卷号、顺序号等)分级建文件夹,文件名以档号的全称命名,档号各要素之间用半角“-”符号隔开存储在本地计算机或文件服务器上。有照片档案数据库的将其存入照片档案数据库。
照片档案数字化 • 文件利用格式 • 将TIFF格式按压缩“中”转换为JPG或者PDF格式,或者通过扫描仪扫描成JPG或PDF格式,以用100%显示可以看清照片档案内容为标准。 • 文件版权标识 • 为保护档案的产权问题,防止他人重新作商业性质利用,将转存为PDF格式过程中,对档案加上按透明度50%的档案来源单位的标识标签或印章。
声音档案数字化 • 基本概念 • 采样频率和样本大小 • 采样频率和样本大小是反映数字化声音档案的精确度高低的两个最基本的参数。采样频率即每秒钟采集多少个声音样本,用HZ(赫兹)或kHZ表示。样本大小一般指声音卡的二进制位数,有8位、12位、16位等。采样频率越高,样本位数越高,声音波形就表达得越细腻,而需要的存储空间就越大。
声音档案数字化 • 声道 • 声道数是声音处理的重要参数和,早期存储声音的接触式唱片最多有两道声道,后来的录音机、调频广播、录像甚至连数字激光唱盘也都采用两个声道的规格,现在的杜比AC-3采用5+1个声道,即左、中、右3个声道,左后、右后两个环场声道以及一个次低音声道,另外,还有7+1声道等技术。
声音档案数字化 • 采样频率 声音数字化选用44.1kHZ作为声音采样标准。对于DVD中的声音选用48kHZ。注意采集过程中远离强磁场等外部干扰。 • 声音文件存储格式选择 需永久保存的声音文件档案采用WAV存储,非永久的声音文件档案采用MP3格式存储。
声音档案数字化 • 声音文件存储方式 按档号各要素(如全宗号、目录号、项目号、年度、案卷号、顺序号等)分级建文件夹,文件名以档号的全称命名,档号各要素之间用半角“-”符号隔开存储在本地计算机或文件服务器上。 • 声音档案利用技术标准 统一以mp3格式为利用标准。
影像档案数字化 • 视频制式 • 视频制式标准主要有NTSC制式、PAL制式和SECAM制式。中国及欧洲大多数地区使用的是PAL制式,规定每秒25帧,每帧625行,每行240—400个像素点,隔行扫描方式,场频为50HZ,行频为15625HZ。
影像档案数字化 • 存储格式选择 • 对于永久保存的视频文件采用MPEG-2格式存储,非永久保存的视频文件采用MPEG-4格式存储。MPEG-2格式要求是PAL制、分辨率为720*576或720*480,25帧/秒以上,音频须达到5.1声道以上,可采用LPCM编码、Dolby Digital或MPEG Layer 2。MPEG-4格式要求是PAL制、分辨率为320*240,音频支持双声道。
影像档案数字化 • 视频文件存储方式 • 按档号各要素(如全宗号、目录号、保管期限代码、年度、顺序号等)分级建文件夹,文件名以档号的全称命名,档号各要素之间用半角“-”符号隔开存储在本地计算机或光盘上。 • 视频文件利用技术标准 • 统一以MPEG4为利用标准。
第二部分 电子文件管理 • 第一章 相关概念 • 2002年12月国家质量监督检验检疫总局在颁布的《电子文件归档与管理规范》(GB/T 2002-18894)中对电子文件给出了明确的定义。 • 3.1电子文件 (electronic records)指在数字设备及环境中生成,以数码形式存储于磁带、磁盘、光盘等载体,依赖计算机等数字设备阅读、处理,并可在通信网络上传送的文件。
此外,与电子文件相关的重要概念还有: • 3.2 归档电子文件(archival electronic records)指具有参考和利用价值并作为档案保存的电子文件(3.1)。 • 3.3 背景信息(context)指描述生成电子文件(3.1)的职能活动、电子文件的作用,办理过程、结果、上下文关系以及对其产生影响的历史环境等信息。 • 3.4 元数据(metadata)指描述电子文件(3.1)数据属性的数据,包括文件的格式、编排结构、硬件和软件环境、文件处理软件、字处理和图形工具软件、字符集等数据。
电子文件的主要生成方式 • 一、计算机系统生成 • (一)办公系统 • (二)各类业务信息系统
二、数字化加工设备生成 • (一)扫描 • (二)拍摄 • (三)采集
电子文件的特性 • 一、电子文件的非直读性和依赖性 • 与传统的纸质文件不同,电子文件的产生、编辑、修改、还原、利用均离不开计算机的软硬件环境。生成、编辑、存储电子文件首先由应用软件编译成二进制代码文件,然后存储在硬件存储介质上,当打开电子文件时,首先由应用软件读取存储硬件存储介质上二进制代码文件,然后进行反编译,还原成可以识别的电子文件。
二、电子文件信息的游动性和共享性 • 数字信息可以很方便地从一个载体向一个或若干个载体复制或移动,且内容信息不发生任何变化,这是数字信息可以在不同载体之间游动的突出特性 。这一特性给电子文件的管理带来了挑战,存储在计算机系统、存储介质上的电子文件,可以不留任何痕迹地被复制、转移、删除。
同时,电子文件的这一属性也为档案部门带来了机遇,存储在计算机系统中的电子文件,可以跨过时间和空间的约束条件,向网络通达的终端提供电子文件信息利用服务,共享信息资源。
三、电子文件的易操作性 • 电子文件的易操作性表现在多个方面: • (一)电子文件可以很方便地复制,无论是同一存储介质的复制,还是异质、异地的复制都非常容易操作,输入复制命令即可生成与原稿完全一样的文件,而使人们无法区分复制件和原件。
(二)电子文件的易操作性主要体现在电子文件内容信息的易操作性,这是计算机的内存、硬盘等载体的可擦写的特点和应用软件功能所决定的。一份电子文件若不做安全控制,可以被轻易地打开,且可做不留任何痕迹的修改。实际中计算机应用系统中没有设置必要的安全措施的现象比较普遍,也有利用电子文件易操作性非法修改电子文件的案例发生。(二)电子文件的易操作性主要体现在电子文件内容信息的易操作性,这是计算机的内存、硬盘等载体的可擦写的特点和应用软件功能所决定的。一份电子文件若不做安全控制,可以被轻易地打开,且可做不留任何痕迹的修改。实际中计算机应用系统中没有设置必要的安全措施的现象比较普遍,也有利用电子文件易操作性非法修改电子文件的案例发生。
(三)电子文件的易操作性还表现在易制作方面。只需要会操作相应的软件,即可对文件内容、形态等进行修改。如档案数字化加工时,档案字迹不清晰,可通过软件修饰使字迹更加清晰便于利用,若图像不清楚可通过修复使图像清晰可辨。(三)电子文件的易操作性还表现在易制作方面。只需要会操作相应的软件,即可对文件内容、形态等进行修改。如档案数字化加工时,档案字迹不清晰,可通过软件修饰使字迹更加清晰便于利用,若图像不清楚可通过修复使图像清晰可辨。