第 5 章多媒体通信系统中的关键技术

第5章多媒体通信系统中的关键技术

5.1 多媒体信息输入输出技术 • 多媒体计算机所涉及的输入输出技术包括视频图像技术、音频技术、语音技术、图形技术和文本技术等。 • 多媒体系统通过一些具有特定功能的卡来支持媒体数据的输入输出。（如视频卡、声卡、VGA与TV转换卡、图形加速卡、光盘接口卡等） • 多媒体计算机正是通过这些卡，完成与各种外部设备的连接，从而形成一个制作和播放多媒体应用的工作环境。

5.1.1 视频信息输入输出技术 • 视频卡是多媒体计算机用来完成视频信息输入输出功能的主要器件。 • 主要种类： • 电视接收卡 • 视频转换/捕获卡 • 视频编码卡 • MPEG卡实际应用中常把多种功能集成于一块卡中

视频源0 视频源1 视频源2 1. 视频卡的基本工作原理可以完成输入信号的裁剪、比例变化、VGA同步、色键控制、PC总线接口和对帧存储器的操作用于视频信号捕获、播放和显示的专用控制芯片 VRAM 显示器选择视频源视频随机访问存储器录像机 I/O RGB 视频处理芯片 DAC ADC 影碟机多制式数字解码器数模转换 VGA卡摄像机 PC总线

2. 常用视频卡 • 视频接收卡（电视接收卡） • 一般与视频转换/捕获卡组合在一起电视信号高频调谐器模拟视频信号视频数字化接收电视台发送的电视信号帧存储器 VGA RGB 数字信号数字视频信号 VGA卡显示器模拟信号主要功能：接收电视台发送的电视信号；将模拟电视信号数字化后叠加显示在VGA中并完成最后的显示。

视频转换/捕获卡 • 视频转换卡完成计算机视频信号和电视视频信号间的转换 • 完成由计算机的VGA信号到各种标准制式的电视信号的转换并在电视机上播放或进行录像（PC-TV,VGA-TV） • 完成将标准的各种制式电视信号转换成计算机屏幕上显示的VGA信号（TV-VGA）该类卡在电视上的显示质量不能与专业视频卡相比，且有些转换卡不能在VGA和TV上同时输出视频图像。

视频转换/捕获卡 • 视频捕获卡主要功能是从视频图像信息中实时或非实时地捕获静态或短时间的动态视频图像。视频转换/捕获卡的基本原理: VGA输入 A/D 转换解码 YUV 矩阵变换 RGB VGA卡颜色查找表视频信号输入帧存储器 D/A转换器显示器

MPEG卡 • 压缩卡：对静止和动态图像按照相应的标准进行实时和非实时的压缩和还原处理。 • 解压缩卡（影碟卡）：把MPEG文件进行解压缩并恢复播放。它可以播放MPEG-1标准压缩的数字影视片（如VCD）。 • 视频卡发展方向 • 与影视技术的结合：可以在一块高档卡上集成视频输入输出、压缩和解压缩、特技效果及视频编辑功能。 • 与网络通信技术结合：完成多媒体视频会议、可视电话和多媒体通信功能

3. 摄像头 • 针对网络视频应用 • 模拟摄像头：获得的视频信号必须通过计算机的视频卡数字化并压缩才能送进计算机进行处理。 • 数字摄像头：直接捕捉视频图像，然后通过USB或IEEE1394高速接口输入计算机。 • 工作原理：外界景物通过镜头生成光学图像，再投射到图像传感器表明转换为模拟信号，经A/D变换转为数字图像信号，送到数字处理芯片DSP进行加工，在通过与计算机的接口传输到计算机中进行处理，最后通过显示器显示。

主要性能指标 • 摄像器件：CCD（成像质量高）,CMOS • 像素分辨率：30万、130万。。。 • 颜色深度：24真彩、30真彩。。。 • 视频捕获速度：帧率，影响流畅度 • 接口方式：USB速度快，连接简单，即插拔

4. 投影仪 • 多媒体显示设备 • 分类 • CRT：实现最早、应用最广、技术成熟、分辨率高亮度较低、机身体积大、对焦汇聚调整复杂 • LCD：体积小、重量轻、便携、亮度高、色彩丰富 • DLP：画面质量稳定、图像显示细腻

技术指标 • 亮度 • 分辨率 • 灯泡寿命

5.1.2 音频信息输入输出技术 • 实现：音频卡（声卡），安装在PC内部使PC发出各种声音的硬件板卡，是PC进行所有与声音相关处理的硬件设备。 • 音频卡工作原理用软件控制音量扬声器输出话筒输入混音器线性输入线性输出 A D MIDI接口记录播放将数字音频的波形数据和MIDI信息合成为声音数字音频处理芯片音乐合成器 CD接口为各个部分与总线间提供握手信号，缓冲（声卡与总线间指令和数据的传送）总线接口芯片计算机总线

音频卡的主要功能 • 录制和播放声音文件 • 对声音文件进行编辑和合成 • 倒播、增加回音、淡入淡出、循环放音、交换声道等 • 对数字声音文件进行压缩和解压缩 • MIDI音乐录制和合成 • 利用计算机完成对外部电子乐器的操作和控制 • 文语转换和语音识别 • 让计算机朗读文本和让计算机听懂声音信息

声卡的主要作用是对声音信息进行录制和回放 • 可支持的采样频率 • 8kHz,11.025kHz——针对一般语音质量的要求 • 16kHz,22.05kHz,32kHz——针对普通音乐效果 • 44.10kHz,48kHz——针对高保真音乐效果

5.1.3 语音识别和语音合成技术 • 语音识别技术 • 狭义语音识别：排除不同人的发音差异，提取代表语音的共性特征。 • 说话人语音识别：寻求说话者的个性特征以辨别说话人的身份。 • 最早的语音识别系统出现在1955年（Bell）。随着识别技术的发展，一些研究机构相继推出语音识别系统：IBM的Via Vioce系统；剑桥大学的HTK系统；微软的Whisper系统等。

语音识别技术 从原始语音样本中去除冗余信息聚类训练模式库语音输入预处理特征提取模式匹配识别结果按照一定的规则和专家知识计算输入特征与库存模式之间的相似程度，进而判断输入的语意信息语音信息的采样、反混叠带通滤波、去除个体发音差异和去除设备环境引起的噪声完成语音中反映本质特征的声学参数

语音识别系统的分类 • 按可识别词汇量的多少：100以下，100-1000，1000以上 • 按语音的输入方式：孤立词、连接词、连续词 • 按发音者类型：特定人、限定人、非特定人 • 按发音者的声纹：根据语音识别说话人身份

语音合成技术 • 实现的方式 • 录音/重放模式 • 利用数字信号处理技术，采用参数合成的方式来实现语音合成 • 语音合成的三个层次 • 从文本到语音 • 从概念到语音 • 从意向到语音

有限词汇的计算机语音输出 • 语音报时、公共汽车报站、叫号系统 • 基于语音合成技术的文语转化（TTS） • 除了完成文字到语音的映射外，还要完成对书面文字的理解以及对语音韵律的处理

文语转换技术 • 有声电子文档、信息电话查询系统、基于计算机的办公教学娱乐多媒体软件、嵌入式操作系统。。 • 包括文本分析、韵律生成、语音合成 • 文本分析：使计算机认识文字、如何发音、用什么发音 • 韵律生成：生成发声文本的韵律特征（声调、停顿等） • 语音合成：

1. 扫描仪 5.1.4 其他输入输出技术 • 图形、图像等信息的主要输入设备 • 分类 • 手动式、平板式、胶片式、滚筒式 • SCSI接口、EPP增强型并行接口、通用串行总线USB接口 • 基本组件： • 光源、光学透镜 • 感光元件：CCD • 模拟数字转换电路

技术指标 • 扫描精度：光学分辨率，300*600DPI • 色彩深度：色彩精度，24bit/pixel,300DPI • 扫描速度：将一页文稿扫入计算机并完成相应处理总共需要的时间

2. 触摸屏 • 采用坐标定位方式的输入设备 • 使人可以基于自然的方式与计算机进行交互而无需键盘 • 系统组成 • 触摸检测装置：检测用户触摸位置 • 触摸屏控制卡：接收检测装置传来的信息并转换成触点信息送给主机 • 驱动程序

分类 • 红外线触摸屏 • 电阻触摸屏 • 电容式触摸屏 • 表明声波触摸屏 • 近场成像触摸屏

5.1.5 多媒体存储技术 多媒体存储技术主要是指光盘存储技术。大容量的媒体CD-ROM技术标准于1985年发布。 • 单机多媒体存储的最初形式是人们非常熟悉的VCD • VCD标准是图像数据压缩标准。采用MPEG-1压缩技术，可以将74分钟视频音频信息同时压缩记录在轨道上。视频质量比家用录像带略高，音质与CD相当

DVD标准于1995年出台， • 专门用于存放以MPEG-2方式压缩的视频和音频信息。其画质和音质均优于VCD。 • DVD光盘可以容纳133~488分钟的影片内容，可以保存4.7~10GB的多媒体数据。 • 随着多媒体数据内容的不断增加，以单一盘片的形式存储数据远不能满足用户的需求，于是出现了光盘库、冗余磁盘阵列和多媒体数据库的存储方式。

多媒体信息存储的特点 • 多媒体信息存在和表现的形式多样 • 正文：包括文字和数据 • 向量图形：图元组成的图形 • 位图图象 • 数字化声音和高保真音响 • 数字化视频 • 多媒体信息量大

2. 光盘库 • 为实现海量数据的存储，对不同的数据应采用不同的存储策略。 • 光盘库是一种带有自动换盘装置的光盘存储共享设备。一般由光盘架、自动换盘装置、光盘驱动器组成。 • 一套光盘库可有1-12台驱动器，2-12个盘仓，每个盘仓可容50-600片光盘，总容量可达几百GB甚至TGB。

光盘库通过SCSI接口与网络服务器连接，通过自身接口与主机交换数据。光盘库通过SCSI接口与网络服务器连接，通过自身接口与主机交换数据。 • 光盘库的访问过程： • 自动换盘器将驱动器中的光盘取出放至盘架 • 然后将需要的光盘送入驱动器（秒级速度）

DVD光盘库主要特点 • 高容量 • 检索速度快，支持跨盘存取 • 高可靠性，寿命100年 • 与各系统无缝连接 • 安装简便，易于管理 • 应用 • 将DVD光盘库作为在线存储设备直接进行存储 • 将光盘库看作是数据归档的存储设备（数据迁移软件）

客户机 客户机客户机服务器服务器服务器 DVD光盘库主机存储系统光盘库的应用

3. 存储区域网络SAN • 通过单独的高速光纤网络将存储设备和局域网上的服务器群连接起来，数据的存取通过存储区域网在服务器和海量存储设备间进行高速传输。 • SAN以光纤通道为基础实现了存储设备的共享；服务器通过存储网络直接与存储设备交换数据，释放了宝贵的局域网资源。

用户终端 用户终端用户终端以太网服务器服务器服务器光纤通道网络磁带库磁盘阵列光盘库 • 网络结构：

SAN的特点 • 实现大容量存储设备的共享和高速数据传输 • 连接方便和远距离传输 • 实现主机与存储设备分离 • 提供数据的安全性和可靠性

4. 多媒体数据库MMDB • 由若干个多媒体对象所构成的集合，这些对象按某种特定的方式组织起来并为其他的具体应用共享。 • 多媒体数据管理系统MMDBMS(Multimedia Database Management System)是以多媒体数据库MMDB为基础的且能完成对多媒体数据库MMDB的各种操作和管理功能的多媒体应用系统。 • 由于多媒体数据自身的特点，如由多种媒体构成且数据量巨大、媒体数据间的不同约束关系、实时性的要求等，使得多媒体数据库系统有别于传统的数据库系统。

多媒体数据及其数据关系的复杂性，与传统数据相比，多媒体数据对数据模型提出了更严格的要求。多媒体数据及其数据关系的复杂性，与传统数据相比，多媒体数据对数据模型提出了更严格的要求。 • 多媒体数据模型要能够有效抽象及表示多媒体数据库的静态和动态特征，模型的表示要比较简洁灵活，要支持交互性，要能够反映多媒体数据库的一致性约束条件。 • 层次数据库管理系统和网状数据库管理系统的共同缺点是不能支持数据的独立性。不能用于多媒体数据库。

关系模型是目前数据库系统中最常用的数据模型之一。关系模型是建立在关系代数的基础之上的，有较为严密的理论基础，其数据结构简洁明了、直观清晰、易学易用。目前大多数数据库管理系统产品均支持关系模型. 关系模型要想存储多媒体数据，就需要进行扩充。 • 非第一范式NF2(Non First Normal Form)数据模型通过对关系模型的扩展来提高关系模型处理多媒体数据的能力。 • 随着近年来面向对像技术的兴起，面向对像技术在数据库中的应用也日益显现出其强大的生命力。这主要是由于面向对像模型能够很好的描述复杂的事物对像，更好的维护复杂对像的语义信息。

多媒体数据库的体系结构 • 多媒体数据库管理系统MMDBMS的体系结构分为三层，即数据库管理层、多媒体数据合成层和交互层。如下图所示。用户界面多媒体查询媒体编辑数据结构定义超文本导航多媒体数据的各种归纳关系多媒体对象的合成信息成分数据体得特征信息等图像DBMS 音频DBMS 视频DBMS 文本DBMS 图像记录音频记录视频记录文本记录

5.2 超媒体技术 超文本的概念 • 文本 • 逻辑单位：字、词、句子、段落、节、章； • 物理单位：字节、行、页、册、卷； • 线性结构：组织上是线性的、顺序的

超文本的概念 • 人脑的记忆机制 • 联想式的网状结构； • 对联想、记忆的探索形成了人类思维概念化的基础； • 冬天－－结冰－－河－－鱼－－婚礼； • 文本无法管理这种互联的网状信息结构； • 需要探索新的信息存储和检索机制；

超文本的概念 • 超文本（hypertext） • 超越普通的文本； • 采用非线性网状结构组织信息块； • 按照文本内部固有的独立性和相关性划分成不同的信息块，即结点（node，节点）； • 结点之间的自然关联，用链连接成网； • 链的起始结点称为锚结点（anchor node）； • 终止结点称为目的结点。类似人类联想记忆结构

超文本的概念 • 超文本结构示例

超文本的概念 • 超文本的定义：由信息结点和表示信息结点间相关性的链构成的一个具有一定逻辑结构和语音的网络； • 信息结点 • 管理的基本单位； • 信息块（字符文本集合），一定大小的显示区域； • 大小由实际情况决定；

超文本系统 • 超文本系统 • 对超文本进行管理和使用的系统； • 有以下特点： • 用户界面包括展示结点和链的形式； • 给出网络结构的动态总貌图； • 一般使用双向链支持跨越各种网络； • 用户可以动态的改变网络中的结点和链； • 尽可能通用，更多地强调其用户界面的“视觉和感觉”

超文本的发展历史 • 概念产生时期(1945～1965) • 20世纪30年代V.Bush提出Memex存储器扩展设想，预言了文本的一种非线性结构；1939发表“As We May Think”； • 1965年Tel Nelson创造“hypertext”一词，命名非线性网络文本为超文本，并开始计算机实现；

超文本的发展历史 • 概念系统的研究时期(1967～1985) • 1967年，布朗大学Andy van Dam等研制第一个可运行超文本系统The Hypertext Editing System; • 1968年，Doug Engelbart在FJCC上演示NLS联机系统; • 1968年，布朗大学推出FRESS（文件检索与编辑系统）; • 1975年，CMU推出ZOG(现为KMS，知识管理系统); • 1978年，MIT建筑机械组推出第一个超媒体视频盘片系统Aspen Movie Map；

超文本的发展历史 • 成熟与发展时期(1985～) • 1985年，Janet Walker研制的Symbolics Document Examiner； • 1985年，布朗大学推出Intermedia系统（Macintosh）； • 1986年，OWL引入Guide,这，第一个广泛应用的超文本； • 1987年，Xerox公司推出Notecards，苹果公司Bill Atkinson研制Hypercard； • 1991年，美国Asymetrix公司推出ToolBook系统； • 1990年，位于日内瓦的欧洲量子物理实验室CERN开发的运行于Internet的WWW系统，对人类社会产生深远影响；

超文本的发展历史 • 超文本的理论研究 • 1987年，ACM超文本专题讨论会(Hypertext’87)在北卡罗来纳大学召开； • 1989年，第一次超文本公开会议在英国召开； • 1990年，第一届欧洲超文本会议(ECOH)在法国Inria召开； • ISO等国际组织制定了超文本方面的标准，推动其商品化发展。

超文本的主要成份 • 结点 • 大小可变； • 内容：文本、图形、图像、音频、视频、程序… • 表示方法各异； • 基本类型： • 媒体类结点（各种媒体结点） • 动作与操作结点（按钮结点，如传真、后退等按钮） • 组织结点（索引结点、目录结点） • 推理结点（对象结点和规则结点）用于辅助链的推理和计算

第 5 章 多媒体通信系统中的关键技术