数字文本处理的基础

数字文本处理的基础 舒明全 Email:mqshu@lib.whu.edu.cn

数字文本的概念 • 文本：通过文字、符号的形式表现、传递信息的方式。读者能通过阅读文本数据中的文字、符号获得信息，文本数据是学习、生活、研究资料的主要成分，主要载体形态为：图书、报刊、政府文献、会议论文、学位论文、单位论文、技术报告、产品说明书、网页等。 • 数字文本：纸质的文本转换成计算机能识别的二进制文件，也称为文本数据资源。

数字文本的特征 • 提供和获取文本，需具备一定的文字和符号的 • 识别、表达能力。 • 文本数据是文档的主要组成部分。 • 文本数据都有一个逻辑结构。 • 文本是人和计算机交互的重要方式。

数字文本的分类 数字文本的三种类型： 1．纯文字文本：使用字处理软件，通过录入、编辑、排版后生成，生成后的文本包含排版信息，显示效果受系统字库和软件平台的影响，在不同机器上显示会出现不同的效果，严重时还会出现乱码等现象。使用文本文字素材占用的字节数比较小，导入后设置字体、大小、颜色比较方便。 2．图像文本：运用绘图工具软件(如Photoshop)生成，使用图像文本可提高多媒体作品的表现力，存储图像文本时可存为JPG、BMP、GIF、TIF等不同的格式，在作品中使用不会出现乱码，但所占的字节数要大于纯文本格式。 3．动态文本：运用动画制作软件(如3DStudioMAX)制作，可根据作品的需要，设置不同的动作，具有很强的动感和三维立体效果，制作片头时使用的比较多，一般存储为动态的GIF和Flash格式，这两种格式所占字节数比较少，也可以存储为视频文件(如AVI、MPEG)，但所占用的字节数较大。

数字文本的格式 文本格式的定义文本格式指用来对数据以及相关信息（包括结构、布局、压缩算法等）进行编码的软件算法。在文本数据的数字化过程中，很多公司和组织机构都根据需要制定了自己的数字文本格式，导致了多种数字文本格式并存的局面。

数字文本的基本格式 数字文本的基本格式：可编辑的文本格式网页文本格式电子资源文本格式数学文本格式

可编辑的文本格式 TXT格式(也称纯文本格式) 使用Windows操作系统的写字板、记事本和Word可查看这种格式的文件。 • 优点：文件体积小；阅读不受限制。 • 缺点：不能插入图片、图表等；不能建立超链接；不支持字体样式编辑。

CSV 格式(纯文本文件) • 特点：它的数据项（对应于表格的列）之间用逗号隔开，各条记录（对应于表格的行）之间用“换行”和“回车”隔开。 • 可以被任何文本编辑器调用，如记事本、写字板。默认打开方式是MS Excel，而MS Excel是和多种数据库相通的，因此，CSV本身也能被一般的数据库调用。 • 优点：可用任何文本编辑软件编辑、修改；文件体积很小、便于携带。

DOC格式 使用Microsoft Word 或WordPerfect for Windows创建和打开的。优点：DOC格式可以在文件中嵌入图表、图片、数学公式，建立超链接等。缺点： • 由于文件中包含了字体信息、段落格式、文字色彩、页眉页脚等信息，文件体积相对纯文本文件较大。 • DOC格式保密，且不开放源代码，因此，其他公司的字处理程序都无法识别微软的文档。 • DOC格式文件版本向下不兼容。新版本的Office用了老版本不支持的新格式，所以Office的用户必须升级(即使你并不需要什么新功能)，从而提高用户成本。

RTF格式 RTF格式是由Microsoft创建的，RTF文件的组成包含控制字、控制符以及表明文档属性的组。使用Microsoft Word打开。优点： • RTF格式文件容易识别。 • RTF格式文件可以在不同程序和同一程序不同版本之间传递数据，且它的格式信息不会丢失或破坏。 • RTF格式文件具有很强的编排功能，可以实现文字和各种插入对象的混排，文字也可以实现各式各样的格式编排。缺点： • 内容繁多。控制字太多，增加了文档编写的难度。 • RTF格式赋予作为控制符的字符特殊含义，使其作为文本出现时容易产生混乱。

WPS格式 • 香港金山公司开发的，也是我国唯一一套成熟的拥有完全自主知识产权的办公系统软件。 • 优点： • 兼容性强。可以与MS Office的兼容，可以插入DOC格式文件的图形、表格和页眉等；WPS Office 2002可以读入和生成DOC格式文件；新老版本之间的上下兼容。 • WPS文档具有图文混排的功能。 • WPS格式技术先进。引入XML数据中间层；文字与代码的唯一对应关系，不会出现乱码现象；WPS格式文件可以适应126种语言；开放的数据接口。 • 缺点：不能被微软公司的Office 2000直接识别。

网页文本格式 HTML格式1989年诞生于欧洲核子研究中心，是Ｗ3Ｃ协会专为World Wide Web而设计的，专用于Web页的开发。可用专门的HTML编辑器或Frontpage、Dreamweaver等网页制作工具进行编辑，通过Navigator、Internet Explorer等浏览器显示文本、图形和其它的任何内容。优点：简单和统一。缺点：①可重用性差；②信息交互的局限性；③扩展性差，无法支持精确查询；④处理能力差，影响效率；⑤固定的标签集合；⑥对特殊字符的支持不够

SGML格式 通用标准标记语言的简称，是一种系统描述各类文献结构和内容以建立通用数字化文献的国际标准(ISO8879)，1986年首次公布。一个SGML文件由三部分组成：SGML声明、文件类型定义、SGML文档。 • 优点： • 可扩展性好，可针对各种类型的文件结构制定出合适的标签集，扩展生成用来处理新数据格式的各种语言。 • 可适应性强，SGML不专属于某一特定平台或特定应用系统，它可以在彼此不相容的系统间进行数据交换，而不会造成数据丢失。 • 可重用性好，使它可应用于Web数据库和电子数据交换。 • 缺点： • 它相当复杂且价格昂贵。 • 不易在网上传送。

可扩展标识语言的简称，W3C于1998年初推出的一种用于标识数据格式的标识语言，是一个基于SMGL上的简单、灵活的文本格式，将SGML的丰富功能与HTML的易用性结合到Web应用中，保留了SGML的可扩展功能。主要有如下要素：Schema(模式)、XQL(基于XML的查询语言)、XSL(可扩展样式语言)和XLL(可扩展链接语言)。可扩展标识语言的简称，W3C于1998年初推出的一种用于标识数据格式的标识语言，是一个基于SMGL上的简单、灵活的文本格式，将SGML的丰富功能与HTML的易用性结合到Web应用中，保留了SGML的可扩展功能。主要有如下要素：Schema(模式)、XQL(基于XML的查询语言)、XSL(可扩展样式语言)和XLL(可扩展链接语言)。 • XML可在任何平台和操作系统上运行，具有以下特点： • 灵活简单，能把显示格式从文档中分离出来，另存放在样式表中。 • 扩展性良好。 • 具有自解释性。 • 良好的共享性。 • 强大的超链接机制。 XML格式

电子资源文本格式 PS格式 Adobe公司于1985年开发成功的专门为打印图形和文字而设计的一种可编程打印控制语言。可用Acrobat Adobe reader打开。优点： (1)输出的多向性 ⑵文件格式的可转换性 ⑶显示的灵活性 ⑷独立于设备 (5)占用磁盘空间小 (6)支持跨平台操作缺点： ⑴使用不太方便。 ⑵只能利用有关浏览软件对PS格式文件进行浏览、查找、拷贝、打印等操作，而无法对已有PS格式文件进行编辑修改。

《中国学术期刊全文数据库》的专用格式，用中国学术期刊电子杂志社开发的专用“CAJ全文浏览器”才能打开阅读。《中国学术期刊全文数据库》的专用格式，用中国学术期刊电子杂志社开发的专用“CAJ全文浏览器”才能打开阅读。优点：可原版原貌显示原文。缺点：与其它的格式互不兼容。 CAJ格式

VIP格式 维普公司系列数据库使用的是vip全文浏览器，它支持vip、tif、wp等格式文件。它可以在线阅读维普数据库原文，也可以阅读下载到本地硬盘的电子数据全文。优点：可原版原貌显示原文。缺点：与其它的格式互不兼容。

IFR格式 • 北京书生公司开发的书生电子图书格式。目前书生电子图书分为基础扫描版、高级扫描版及全息版3种，用书生专用图像格式浏览。 • 优点：具有全文检索功能，比较方便。 • 缺点： • 版面效果一般。 • 需专门浏览器阅读。 • 文件体积偏大。 • 只能联机阅读。

PDG格式 由北京世纪超星公司开发的，是一种扫描的图片格式，它必须用其专用阅读器软件——超星图书阅览器（SSReaser）才能阅读，已成为通用的数字图书格式之一。优点：电子图书数量大，种类齐全；缺点：必需用超星图书阅读器，扫描质量较差，文件体积偏大。

专为中文电子安全文档而设计的文件格式，是一种“文字＋图像”的格式，能保留原有排版文件中有关字符、字体和色彩等的全部信息和原文件的版式、图片、数学公式、化学公式、表格、棋牌以及乐谱等内容能对文字、图片等内容进行很好的压缩，大大减小了对存储空间的需求。专为中文电子安全文档而设计的文件格式，是一种“文字＋图像”的格式，能保留原有排版文件中有关字符、字体和色彩等的全部信息和原文件的版式、图片、数学公式、化学公式、表格、棋牌以及乐谱等内容能对文字、图片等内容进行很好的压缩，大大减小了对存储空间的需求。优点：完善的版权保护和加密控制。 CEB格式

EBK格式 Voyager公司的MAC机（也有PC格式）读书软件格式。目前国内某些站点已经开始使用这种格式了。特点：先下载一个客户端软件，才能在软件指定的站点上登录后，才能下载图书。

LIT格式 美国微软公司开发的软件Microsoft Reader的一种专有的文件格式，只能使用Microsoft Reader来阅读。优点： • 支持全屏阅读。 • 没有滚动条，翻页全部使用点击页码来实现，像看一本真正的纸质书。缺点： • 不支持与HTML相关的各种技术，只是支持图片的浏览。 • 对中文支持得不是很好。

WDL格式 • 北京华康公司开发的一种电子读物格式，需要使用该公司专门的阅读器DynaDoc Free Reader来阅读，可从该公司的网站免费下载。 • 优点： • 较好地保留了原来的版面设计。 • 可将电子读物下载到本地阅读。 • 适当保护了作者和出版商的利益。 • 压缩率都比较高。 • 能与任何软件产生的文档兼容，可以跨平台使用。 • 缺点： • 需要专门的浏览器 • 制作该种格式的电子读物的软件DynaDoc生成器没有共享版本。

数学文本格式 TeX/LaTeX /CteX格式 Stanford大学Donald E.Knuth在1977年5月开始设计的一个排版文件系统。强调数学文本的印刷是程序功能中不可分割的一部分。TeX系统是公认的数学公式排得最好的系统，美国数学学会推荐的非常适合于数学家使用的AMS-TeX以及适合于一般文章、报告、书籍的LaTeX系统。世界上许多出版社利用TeX系统出版书籍和期刊。美国数学学会（AMS）鼓励数学家们使用TeX系统向它的期刊投稿。已有中文版的CHINATeX。优点：⑴高质量的输出。⑵超常的稳定性。⑶TeX是可编程的。⑷高度的灵活性。⑸简单识别。 ⑹良好的通用性。⑺低廉的价格。缺点：⑴学习TeX比较困难。⑵难以调试。 ⑶TeX不是熟悉。

其它文本格式 当然文本数据格式除了以上常用的格式以外，还有其他一些不太常用的格式，如OEB、WRI、TTZ、PPT、KDH、PDB、PRC、RB、SETEXT、CyberBook、Rocket eBook（.RB）、PocketPC等。

文本格式的标准 标准来源：国外：美国Adobe公司开发的电子读物PDF文件格式，由于国外文本主要采用 PDF文件格式，所以PDF文件格式是数字文本的事实标准。国内：我国数字图书馆标准规范建设项目的《数字资源加工标准与操作指南》规定文本采用 PDF文件格式。我国教育部门的CALIS项目建设技术规范项目的《 CALIS文献资源数字加工与发布标准》也规定文本采用 PDF文件格式。

文本的标准格式：PDF 简介： PDF是从页面描述语言PS发展而来，具有与PS几乎相同的页面描述能力和相似的描述方法。与PS不同的是，PDF除了能描述复杂版面外，还具有交互功能（如超链接和交互表单等）、页面随机存取及字体仿真描述等特性。该软件最新的版本是7.0，PDF格式的电子图书可以使用Adobe Acrobat来制作和编辑。PDF文件阅读需要Adobe Acrobat Reader来阅读。

PDF文件结构 • 分四个部分： • 标头：包含PDF文件版本信息。 • 主体：描述所有页面中的各个元素。 • 相互参照表：主体中查找所有页面中的各个元素。 • 标尾：告诉软件或RIP，去哪儿寻找相互参照表。如果没有标尾，PDF格式文件则不能被任何软件或RIP处理。

PDF文件构成 • PDF格式文件由以下三个数据层构成： • 文件底层数据层：包括字体信息、交叉参考表等所有的控制文件的重要底层数据。 • 文本图像数据层：包括文件中显示的所有文本、矢量图形和点阵图像数据。由于PDF文本图像数据层独立存在，用户替换页面内容时，可以只改变文本图像数据层的内容，而不会影响其他数据层内的相应数据，例如，不会改变字体、字号，能保留所有的页面链接，这在文档电子管理中是很重要的，能给电子出版带来很大的方便。 • 附属信息数据层：包括文件书签和文件或页面链接等等所有的功能扩展数据。

PDF文本示例

特点 • PDF是文本、矢量图形和点阵图像数据兼容的文件格式（简称文字＋图像）。 • PDF文件格式可以将文字、字型、格式、颜色独立于设备和分辨力的图形图像等封装在一个文件。 • 可包含超文本链接、声音和动态影像等电子信息。 • PDF将其它格式的文件转变成文件格式时，并保留原文件的所有信息，包括字符、字体、版式和色彩； • PDF是独立于各种平台和应用程序的高兼容性文件格式。

优点 • PDF具有保持原文特性，页面独立性，多媒体链接等。 • 文件的压缩倍率高，文件的尺寸很小，适于网络传输和光盘存储，具有高保真的印刷特性。 • Acrobat还具有密码保护功能，允许使用尽可能高的保密层次来给敏感的文件分配密码，以便控制对这些敏感文档的访问。 • PDF格式文件可以图文并茂地展现原书的原貌，显示大小可任意调节，阅读时给人赏心悦目的感觉，深受大众的青睐，已经成为电子出版领域事实上的工业标准。 • Adobe PDF表单中的数据可以以标准的XML格式提交，将后端系统和PDF表单相集成。 • PDF文件创建了指定的搜索标准，即在Adobe PDF文件中创建和嵌入元数据，这样可扩展文件查找的方式。

数字文本的处理流程 数字文本信息的特点是易于传播、所需存储空间小，使用范围广。现在的公文、文件、信函、报表、各种印刷出版物等绝大多数都使用文字的形式来记录，文本信息处理的应用范围非常广泛，从编辑文稿、建立文件档案资料、排版印刷到行政管理、办公室自动化，凡是需要用文字表达信息的应用场合，都可以利用文字信息处理技术。但是由于世界各国语言文字存在较大差异，交流的群体受到限制，文本信息处理一直在不断的开发和应用，可以利用计算机人工智能，在字、词处理的基础上增添语法和句法处理、书面和自然语言处理等新功能。

文本处理的实质 先把文字信息数字化，即用一个固定的数码代表一个字母或文字。例如，在英文信息中，以26个字母作为文字信息处理的单位，因此要对26个字母逐个地确定代替它的数码。在汉字的情况下，一般是以一个整字作为文字信息处理的单位，因此要对每一个整字惟一地确定代表它的数码。这一数码统称为代码(code)。在计算机内部处理文字信息时，就像处理数据一样对待。处理完毕后，再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能，使文字信息处理也能够分享计算机技术的这一独特优点，从而实现文字信息处理的高效化。

数字文本的处理流程 从总体上看，数字文本处理大致包含如下三个过程： • 文本采集：通常是通过键盘把组成英文词汇的各个英文字母逐个地输入、全文扫描输入等。 • 文本处理：包括编辑、格式转换等多种不同的处理要求。如在文稿的编辑操作中有对文字的增、删、改操作；有对若干个字、整个句子或整段文字的增、删、改操作。在对文字串的处理中，有分类、合并、比较、排序、检索以及对齐等操作。这些种类的操作都可以通过预先编制相应的处理程序来实现。 • 文本输出：文字信息处理完毕后，要把处理结果的代码信息转换成文字的形式输出，输出方式包括显示和打印，在显示时，文本制作人为了保护自己的知识产权，可设置对用户权限的管理。

数字文本处理流程示意图 从信息编码角度看数字文本处理，可抽象为下图所示的五层结构模型：

图示说明 • 外部码输入层：通过键盘、文字识别、语音识别等将文本信息输入计算机。 • 外部码向内部码转换层：将外部码输入层信息转换成一致的内部码，供内部码处理层使用。 • 内部码处理层：包括运算码、存储码、地址码、控制码、语音码等字符处理内部码。 • 内部码向外部码转换层：将内部码处理层的结果，按照需要转换成相应外部码输出，供外部码输出层使用。 • 外部码输出层：包括文字显示输出、文字印刷输出、语音合成输出、交换码输出等输出形式。

数字文本采集 采集途径数字文本的采集途径有输入和下载两种，其中输入又分为人工输入和自动输入。人工输入：键盘输入，即英文直接输入，中文输入采用拼音法、五笔输入法、郑码输入法、智能拼音法等，人工输入速度慢且劳动强度大，不适用于需要处理大量文字资料的办公自动化、文档管理、图书情报管理等场合。

自动输入分为手写板输入法、语音输入法、扫描输入法。自动输入分为手写板输入法、语音输入法、扫描输入法。 • 手写板输入法：利用压敏或磁感应等方法识别文字信号，被计算机接收后再在显示器中显示。 • 语音输入法：利用语音识别手段将人们读书的声音通过麦克风输入计算机，由计算机分析判断整理出人们读出的内容，并用文字形式显示出来。 • 扫描输入法：利用扫描仪、数码相机等外围设备将印刷型或手写体的文字转换为数字信号输入计算机，此方法输入的文字是以图像的形式出现的，再利用识别软件转换为人们常用的文本文字。

文本下载： 下载分为电子资源下载和网页下载两种。 • 电子资源下载：主要是下载数据库和网上的非网页文本，一般是原格式(如doc、pdf、pdg、caj等)文件下载。 • 网上下载：主要是html格式的网页文本，采用复制、粘贴的方法转到Word、写字板、记事本中以便于编辑，采用此方法复制到Word时，可采用“选择性粘贴”—“无格式粘贴”的方式去掉粘贴过来的网页格式。

采集工具 主要有键盘、鼠标、麦克风、图形输入板和笔、Microtek扫描仪等。 • 键盘：把汉字输入计算机的主要工具，目前主要是按汉字的字形或发音特征，或利用汉字的形、音特征相结合的编码方法将汉字输入计算机。 • 麦克风：将人类自然语言转化为计算机能识别的文本信息的主要工具。 • 图形输入板和笔：将人们的手写文本直接输入到计算机的主要工具。只有在微机配上图形输入板才能进行手写文本，以让机器自动识别转换为数字文本信息。 • Microtek扫描仪：目前常用的扫描仪是上海中晶科技有限公司生产的Microtek扫描仪，最新产品是Microtek ArtixScan 2020彩色双平台扫描仪，分辨率为2000dpi×2000dpi、双镜头及恒温冷却系统，最大扫描幅面为A3。

采集软件 数字文本的采集软件主要有： word、Windows附件的记事本：主要用于键盘输入和网上下载的采集过程。识别软件：分为文本识别软件和语音识别软件，文本识别软件有尚书和汉王等，其核心技术是OCR技术；语音识别软件有IBM公司生产的Via Voice9.1和微软公司开发的语音大师3.6等。

文本识别 文本识别是用电子计算机自动辨识印刷在纸上和录写在纸(或介质)上的字形，是一种文本处理中的高速、自动输入方式。文本识别技术可以分为印刷体识别及手写体识别技术，而手写体识别又可以分为联机与脱机两种。

文本识别的原理 根据匹配判别，抽取代表未知汉字模式本质的表达形式(如各种特征)和预先存储在机器中的标准汉字模式表达形式的集合(称为字典)逐一匹配，用一定的准则进行判别，在机器存储的标准汉字模式表达形式的集合中，找出最接近输入字模式表达形式，该表达形式对应的文字就是识别结果。

文本识别的原理图

OCR识别技术 OCR，光学汉字识别的简称，是一种智能化的汉字输入方法，主要是对印刷体汉字进行识别，原稿上的印刷体汉字经光学扫描后，通过二值化处理(即模数转换行字切分等预处理过程)送入计算机，由程序把送入计算机的字模信息和原先存在计算机中的标准字模信息进行比较，判定和识别输入的汉字，这种方法的识别速度较高。对于一般质量的文稿，目前OCR产品的汉字识别准确率已达95％以上，个别系统可达98％以上，并可实现对中文、英文和数字符号的混合识别，基本进入实用阶段，并在不断发展之中。 OCR识别技术主要应用于扫描仪中，目前也有不少数据库公司将它嵌入自己的浏览器中，如：重庆维普、中国期刊网、书生和超星电子图书等。

印刷体文本识别 • 印刷体文本识别的过程如： • 扫描：通过光电扫描仪获得的二维原始图像。 • 预处理：对原始图像的去噪、倾斜校正或各种滤波处理。 • 版面分析：对于文本图像的总体分析，区分出文本段落及排版顺序、图像、表格的区域，对于文本区域将进行识别处理，对于表格区域进行专用的表格分析及识别处理，对于图像区域进行压缩或简单存储。 • 将大幅的图像先切割为行，再从图像行中分离出单个字符的过程 • 特征提取：从单个字符图像上提取统计特征或结构特征的过程，包括细化、归一化等步骤。整个环节中最重要的一环，提取的特征的稳定性及有效性，决定了识别的性能。 • 文字识别：从学习得到的特征库中找到与待识字符相似度最高的字符类的过程。 • 后处理：利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程。

印刷体文本识别的过程图 注：圈内部分是印刷汉字识别中最为核心的技术

手写文本识别是只在微机配上图形输入板就可以进行手写文本，机器自动识别。手写文本是一种很方便的输入手段，不需要进行任何训练，可以随着思路书写，图形输入板方便编辑、修改，缺点是输入速度慢和不适应大量的文本输入。其识别过程如下：手写文本识别是只在微机配上图形输入板就可以进行手写文本，机器自动识别。手写文本是一种很方便的输入手段，不需要进行任何训练，可以随着思路书写，图形输入板方便编辑、修改，缺点是输入速度慢和不适应大量的文本输入。其识别过程如下：手写体文本识别

目前市场上销售的每一款Microtek扫描仪产品，都附赠了“尚书六号”文字识别软件。“尚书六号”突破了 “尚书五号”只能对“黑白二色”图像进行识别的限制，可对彩色、灰度图像文件直接进行识别，同时支持更多的扫描文件格式(如TIFF、BMP和JPG)，完善了表格识别功能，各式各样的表格几乎都可以原封不动的由图片格式转变为可以自由编辑的文字格式，安装“尚书六号”完毕后，程序组图标里面会自动出现“尚书六号说明”，借助这本用户手册，即使是初学者也可以迅速掌握软件的使用。文本识别操作：尚书六号

数字文本处理的基础

数字文本处理的基础

Presentation Transcript