第 5 章数字媒体及应用

第5章数字媒体及应用 5.1文本与文本处理 5.2图像与图形 5.3数字声音及应用 5.4 数字视频及应用

5.1 文本与文本处理 5.1.1 字符的编码 5.1.2 文本准备 5.1.4 文本编辑、排版与处理 5.1.5 文本的展现 5.1.3 文本的分类与表示

文字数值语言音乐图像 ··· 信息的形态有多种文字处理是计算机应用的基础 • 计算机应用＝使用计算机进行信息处理 • 其中，文字信息处理是涉及面最广的一种计算机应用，几乎与任何领域任何人都有关。

写作写作编辑印刷排版发行传统的文字处理过程

（3） 文本处理文本编辑与排版（文本处理软件）（文本编辑器）格式化的电子文本（文字与图表的输入）文本准备文本存储与传输文本展现电子文本（2）（文本阅读器）（1）（4）（5） (存档/通信软件) 计算机文字处理过程 • 文字信息在计算机中称为“文本”（text），文本是计算机中最常用的一种数字媒体 • 文本由一系列 “字符”（character）组成，每个字符均使用二进制编码表示 • 文本在计算机中的处理过程是：

5.1.1.字符在计算机中的表示

字符、字符集及其码表 • 文字的基本元素是字母和符号，统称为“字符” (character)，它包括：字母、数字、标点、符号等 • 字符集：一组特定字符的集合 • 不同的字符集包含的字符数目与内容不同，如：中文字符集、西文字符集、日文字符集等 • 字符的编码： • 字符集中每个字符都使用二进位(code) 表示，称为该字符的编码 • 不同的字符其编码各不相同 • 字符集中所有字符的编码的一览表，称为该字符集的码表

西文字符的编码——ASCII码 • 西文是表音文字(拼音文字)，它由拉丁字母、数字、标点符号以及一些特殊符号所组成 • 美国标准信息交换码(American Standard Code for Information Interchange, 简称ASCII码)： • ASCII字符集包含96个可打印字符和32个控制字符 • 采用7个二进位进行编码 • 计算机中使用1个字节存储1个ASCII 字符 • 存在问题： • 7位代码空间太小（只能对128个字符编码） • 不同国家和地区使用不同的字符集及其编码，互不兼容 • 东亚地区使用的大字符集无法编码

1 0 0 1 1 0 0 1 1 0 1 0 1 1 b3b2b1b0 0 1 2 3 4 5 6 7 8 9 A B C D E F b6b5b4 0 1 2 3 4 5 6 7 b6 b5 b4 b3 b2 b1 b0 标准ASCII字符集及其码表

汉字如何编码？ • 汉字是记录汉语（国语，华语）的文字，属于表意文字，它用符号直接表达词或词素 • 汉字的特点 • 数量大；多个国家和地区使用；字形复杂，同音字多，异体字多 • 如何编码？ • 确定收入多少字、哪些字？ • 汉字在字符集中的排序方式 • 确定使用的代码结构和代码空间

常用的汉字编码字符集 • 国家标准GB2312 • 汉字扩充规范 GBK • 国家标准GB18030 • 台湾地区的标准汉字字符集CNS 11643 (BIG 5，俗称“大五码”) • 日本工业标准汉字字符集JIS X 0208-90 • 韩国国家标准汉字字符集KSC 5601-87

位号 ……………… 1 2 3 94 共6763个汉字和682个符号，每个汉字或符号都有一个确定位置，该位置的区号和位号就是这个汉字的“区位码” 1 一级汉字（3755个）二级汉字（3008个）（扩充使用）字母、数字和各种符号 …… …… 9 16 区号 (按汉语拼音排列) 55 56 (按偏旁部首排列) 87 94 GB2312汉字编码字符集 • 1980年颁布《信息交换用汉字编码字符集·基本集》——GB2312-1980 • GB2312字符集由三个部分构成：拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个（注：区位码仅用于在键盘上输入汉字）

16位的代码空间共有216 ＝65536个码位 第 2字节 00 7E A1 FE 00 81 A1 FE GB2312 图形符号第 1 字节 B0 汉字代码空间（6763个汉字） F7 GB2312汉字的编码 • 每一个GB2312汉字使用16位(2个字节)表示 • 每个字节的最高位均为“1” • 在16位代码空间中的码位分布：

GB2312汉字编码的不足之处 • GB2312汉字字数太少，无法满足一些特殊应用的需要： • 人名、地名； • 古籍整理、古典文献研究。 • 没有繁体字 • 编码效率不高: (6763+682)/65536 • 与ASCII码不兼容

00 FF 00 FF GB2312 6763汉字 00 FF 00 FF GBK 20902汉字 00 FF 00 FF GB18030 27484汉字编码保持向下兼容几种汉字编码的对比

Unicode:UTF-16双字节可变长编码 Unicode:UTF-8 单字节可变长编码单字节：ASCII字符双字节：拉丁、希腊、阿拉伯，··· 三字节：CJK汉字四字节：其他双字节： ASCII字符、拉丁、希腊、阿拉伯，常用CJK汉字，··· 四字节：CJK汉字应用：Linux，Web网页，电子邮件应用：Windows，Mac，Java，··· 背景材料：UCS/Unicode • 解决多文种信息处理方法的发展： • 传统方法（ISO）：扩展ASCII码 • 微软的方法：代码页切换 • UCS/Unicode：所有文字字母和符号集中在同一字符集进行统一编码(目前收集了17x216＝1,114,112 个) • UCS/Unicode的编码方案： • 尽量与已有编码标准兼容 • 先实现部分字符的编码（101,000个） • 允许有若干不同的编码方案, 例如：

背景材料：GB18030 • 无论是Unicode的UTF-8还是UTF-16，其CJK汉字字符集虽然覆盖了我国已使用多年的GB2312和GBK标准中的汉字，但它们的编码并不相同 • 为了既能与UCS/Unicode编码标准接轨，又能保护我国已有的大量汉字信息资源，我国在2000年和2005年两次发布GB18030汉字编码国家标准。 • GB18030实际上是UCS/Unicode字符集的另一种编码方案： • 单字节编码（129个）表示ASCII字符 • 双字节编码（23940个）表示汉字，与GBK（以及GB2312）保持向下兼容 • 四字节编码（约158万个）用于表示 UCS/Unicode中的其他字符 • GB18030目前已在我国信息处理产品中强制贯彻执行。

例: IE浏览网页时文字编码的选择

5.1.2. 文本准备——文稿如何输入计算机

字符信息的输入 自动识别输入人工输入文字符号输入计算机的方法键盘输入 (1)数字编码, 如电报码、区位码等, (2)字音编码, 如智能ABC等 (3)字形编码，如五笔字形和表形码等, (4)形音编码发展趋势：基于统计和学习功能的以词语(短语)或句子作为输入单位的输入方法

字符信息的输入 自动识别输入人工输入键盘输入联机手写输入文字符号输入计算机的方法 • 优点： • 自然，流畅 • 小型化，适合移动计算 • 不足： • 识别速度和正确性还需提高 • 书写要求还要降低

字符信息的输入 自动识别输入人工输入键盘输入联机手写输入语音输入文字符号输入计算机的方法 • 优点： • 自然，方便，适合移动计算 • 不足： • 对说话人、说话方式、说话内容的适应能力要大大增强 • 识别速度和正确性还需大大提高

字符信息的输入 自动识别输入人工输入数字文本文本的映象 (image) 纸介质文本键盘输入印刷体识别联机手写输入语音输入扫描仪 OCR 文字符号输入计算机的方法 • 识别率已达到98% • 功能: • 简、繁体字混合识别 • 中文、西文混合识别 • 文字、表格混合识别 • 智能校对功能

字符信息的输入 自动识别输入人工输入键盘输入印刷体识别手写体识别联机手写输入语音输入文字符号输入计算机的方法 • 技术上非常困难，还无法实用 • 目前准备先突破工整的楷书手写体的识别!

汉字的键盘输入 • 汉字与键盘上的键无法一一对应，因此必须使用几个键来表示一个汉字，这就称为汉字的“键盘输入编码” • 优秀的汉字键盘输入编码应具有的特点： • 易学习、易记忆 • 效率高(平均击键次数较少) • 重码少 • 容量大(可输入的汉字字数多)

汉字键盘输入方法的比较

5.1.4 文本的编辑与排版

复习：使用Word的操作流程 创建新文档或打开老文档输入中西文字、符号和图表文稿输入进行增、删、改操作，保证文本的正确性编辑满足清晰、美观、便于使用等要求排版文档存盘、打印或发送

文本编辑(text editing) • 目的：确保文本内容正确无误 • 操作：对字、词、句和段落进行添加、删除、修改等操作 • MS Word的功能： • 在文本的任何位置都可以插入新的文字 • 从文本的任何位置都可以删除不需要的文字 • 将一段文字从一处移动到另一处 • 将一段文字从一处复制到另一处 • 在文本中自动查找指定的词语 • 用一个词语自动替换文本中指定的词语

文本排版(格式化) • 目的：使文本清晰、美观、便于阅读 • 操作内容：对文本中的字符、段落乃至整篇文章的格式进行设计和调整，分成3个层次： • 对字符格式进行设置 • 对段落格式进行设置 • 对文档页面进行格式设置

设置字符的格式 • 字号(八号 → 初号,5磅→72磅以上) 1磅相当于1/72英寸 • 字体(宋体、楷体、黑体、仿宋、隶书···) • 字符的修饰 • 字符的形状(字形)：正常、加粗、倾斜、加粗倾斜 • 字形的修饰：下划线、着重号、上下标、删除线··· • 字符的颜色 • 字符的宽度 • 字符的间距 • 字符的效果 • 字符的排列方向 Demo1

设置段落的格式 • 什么是段落？用“回车”相互隔开的一组文字 • 段落格式的设置： • 段落的对齐方式(两端对齐、分散对齐、居中对齐、左对齐、右对齐) • 段落的缩进方式(首行缩进、悬挂缩进、左缩进、右缩进) • 段间距和段内行距 • 使用编号和项目符号 • 段落添加边框和底纹 • 首字下沉或悬挂 • 段落与分页的关系 Demo2

悬挂缩进标记 首行缩进标记右缩进标记右缩进左缩进标记首行缩进正文区左边界左缩进正文区右边界控制段落的缩进 • 段落缩进是指段落中的文本到正文区左、右边界的距离，包括段落左缩进、右缩进和首行缩进。其缩进的距离可由水平标尺上对应的三个缩进标记来指示

设置页面的格式 • 页面格式的设置： • 设置纸张大小和页边距 • 设置每页的行、列数目 • 设置分栏数目与格式 • 设置页码 • 设置页眉和页脚

设置页面的分栏

提高操作效率的若干措施 • “所见即所得”（操作效果立即可见，且打印结果与屏幕所见相同） • 撤销(undo)和恢复(redo)操作 • 格式刷 • 多种视图(大纲视图与大纲编辑) • 自动更正、自动套用格式、自动编号、自动图文集 ······ • 自动保存功能和自动备份功能 • 样式、模板和向导(wizard)功能 • 宏操作（Macro）

文本处理初步

什么是文本处理? • 使用计算机对文本中的字、词、短语、句子、篇章进行识别、转换、分析、理解、压缩、加密和检索等有关的处理 • 文本处理内容： • 字数统计，词频统计，简/繁体相互转换，汉字/拼音相互转换 • 词语排序，词语错误检测，文句语法检查 • 自动分词，词性标注，词义辨识，大陆/台湾术语转换 • 关键词提取，文摘自动生成，文本分类 • 文本检索（关键词检索、全文检索），文本过滤 • 文语转换（语音合成），文种转换（机器翻译） • 篇章理解，自动问答，自动写作等 • 文本压缩，文本加密，文本著作权保护

例：Word 2003的文本处理功能 • 英文拼写检查和英语同义词检查 • 字数统计 • 自动编写摘要 • 中文简繁体转换和术语转换 • 中英词语翻译 • 语法和格式检查 • 语音识别（口授命令和听写） • 文档保护(防止打开或修改文档)

③ 标引提问匹配 ② ① ④ ⑤ ⑥ 结果分析、排序文本库索引数据附：关于文本检索 • 将文本按一定的方式进行组织、储存、管理，并根据用户的要求查找到所需要的文本，称为“文本检索” • 文本检索系统的组成和工作流程: 给出查询要求，如标题是什么、作者是谁、属于哪一类、所包含的关键词等提问词可以使用“与”、“或”、“非”等逻辑运算进行组合对每一文本生成索引索引的结构为：索引标识+相应的地址索引标识可以是文本的标题(主题)、作者、分类、关键词等由检索软件将查询要求与索引数据进行匹配，找出与查询要求相关的文本的地址；经过分析后，按照与查询要求的相关程度（从高到低排序）返回给用户系统按地址从文本库中取出对应的一组文本，返回给用户

全部文本 返回文本所有相关文本对文本检索系统的评价 • 效果 • 精度:返回结果中相关的文本占返回总数的百分比 • 召回率: 返回结果中相关的文本占全部相关文本的百分比 • 效率: 检索速度 • 其它: 易用性等

Web信息检索是文本检索的特例 • 也称为搜索引擎,例如Google、Yahoo、Alta Vista、Infoseek、新浪、天网、百度等。 • 系统结构： • 预先使用软件robot遍历Web，将Web上的信息下载到本地文档库 • 用户提出检索请求时，搜索引擎通过检查索引找出匹配的文本（或URL地址）并返回给用户 • 对文本内容进行自动分析并建立索引

5.1.5 文本的展现(输出)

文本的展现(输出) • 目的：阅读、浏览或打印文本 • 使用的软件：文本阅读器/文本浏览器 • 嵌入在文本编辑(处理)软件中，如微软的Word， • 独立的软件：如Adobe公司的Acrobat Reader，微软公司的IE等 • 文本展现的过程： • 对文本的格式描述进行解释 • 生成文字和图表的映像（bitmap） • 传送到显示器或打印机输出

轮廓点 直线轮廓描述点阵描述二次曲线附：输出过程中字形的生成 • 过程： • 先根据字符的字体确定相应的字库（font）， • 再按照该字符的代码从字库中取出该字符的形状描述信息 • 然后按形状描述信息生成字形，并按照字号大小及有关属性（粗体、斜体、下横线）将字形作必要的变换 • 最后将变换得到的字形放置在页面的指定位置处 • 2种不同的字库：

5.1.3 文本的分类与表示

文本在计算机中的表示 • 本书由南京大学出 • B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6 • 版社 ( P u b l i s h i n g • B0 E6 C9 E7 28 50 75 62 6C 69 73 68 69 6E 67 • H o u s e o f N a n j i n • 20 48 6F 75 73 65 20 6F 66 20 4E 61 6E 6A 69 6E • g U n i v e r s i t y ) 出版 • 67 20 55 6E 69 76 65 72 73 69 74 79 29 B3 F6 B0 E6 文本的内容简单文本(纯文本 ) • 没有字体、字号的变化，不能插入图片、表格，也不能建立超链接，其文件后缀名是 .txt • 由一串用于表达正文内容的字符编码所组成，几乎不包含任何其他的格式信息和结构信息 • 举例：

丰富格式文本 本书由南京大学出版社(Publishing House of Nanjing University)出版 • 有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富格式文本” • 丰富格式文本中，除了正文内容之外，还使用了许多“标记”来描述字符的属性和格式的设置。 • 举例：下面标题的格式为：中文用黑体，西文用Arial Black体，居中 • 使用HTML语言描述为： 本书由南京大学出版社(Publishing House of Nanjing University)出版 用一对< >指出的是标记，如 和 等，用于说明排版的格式和文字属性，它们不属于正文内容正文内容

A B C D a1 c1 b1 a2 d1 b2 c2 a3 E F G H h1 e1 g1 f1 超文本 • 若干文本或文本中的各个部分可按照其内容的关系互相链接起来，从而形成 “超文本” 文本块可以是一个网页，一个文档，一段文字，也可以是一张图片，甚至一段声音或视频超链是有向的，起点位置称为链源，它可以是文本块中的一个标题、一句句子、一个关键词、一幅画、一个图标等 “超链”实际上就是一个指针，用于指向其他文本块，也可以指向同一文本块中的其他部分

小结：文本的分类

第 5 章 数字媒体及应用