主讲：夏洪文

主讲：夏洪文 第四章　音频媒体及应用

本章要点 • 音频信号特征及其指标 • PCM编码原理 • MPEG数字音频压缩编码 • 电子合成音乐—MIDI

第四章音频媒体及应用 • 在多媒体系统中，声音是指人耳能识别的音频信息。计算机音频处理涉及的内容包括：音频媒体传播特征，也即声波的物理特性；音频信息的记录和产生方式；音频数据的编辑处理等。对音频信号的处理方法大致可分为两类：一种是数字音频方式，另一种是分析－合成的方式。本章首先介绍音频信号的特点、分析对音频信号的两种处理方式，然后介绍数字音频的采样与量化，最后介绍音乐合成与MIDI。

4.1 音频媒体概述

4.1.1 音频信号的特征 • 根据声波的特征，可把音频信息分类为规则音频和不规则声音。其中规则音频又可以分为语音、音乐和音效。规则音频是一种连续变化的模拟信号，可用一条连续的曲线来表示，称为声波。声波又可以分解为正弦波的叠加。声音的三个要素是音调、音强和音色。声波或正弦波有三个重要参数：频率ω0、幅度An和相位ψn，这三个参数也就决定了音频信号的特征：基频与音调，谐波与音色，幅度与音强，频带与音宽的关系。

4.1.1 音频信号的特征 • 声音信号f（t0）是一种周期性的复合信号，它的特征就是其中许多单一信号即正弦波信号AnSin（nωot+ψn）的特性，也即幅度An频率ωo和相位ψn的特征决定了音频信号的特性：

4.1.1 音频信号的特征 • 1、基频与音调：频率是指信号每秒钟变化的次数，其中ωO为t0时刻的基频或基音。人对声音频率的感觉表现为音调的高低，在音乐中称为音高。音调正是由频率ω所决定的。音乐中音阶的划分是在频率的对数坐标（20×log）上取等分而得的

4.1.1 音频信号的特征 • 2．谐波与音色 • n×ωO称为ωO的n次谐波分量或高次谐波分量，也称为泛音。音色是由混入基音的泛音所决定的，高次谐波越丰富，音色就越有明亮感和穿透力。不同的谐波还具有不同的幅值An和相位偏移ψn，由此产生千变万化的音色效果。

4.1.1 音频信号的特征 • 3．幅度与音强： • 人耳对于声音细节的分辨只有在强度适中时才最灵敏。人的听觉响应与强度成对数关系。一般的人只能察觉出3分贝的音强变化，再细分则没有太多意义。我们常用音量来描述音强，以分贝（dB=20log）为单位。

4.1.1 音频信号的特征 • 4．音宽与频带： • 频带宽度或称之为带宽，它是描述组成复合信号的频率范围。

4.1.2 音频信号的指标 • 1．频带宽度： • 音频信号的频带越宽，所包含的音频信号分量越丰富，音质越好。按照带宽可以将声音质量分为四级

4.1.2 音频信号的指标 • ① 数字激光唱盘质量，通常称为CD－DA质量，这种质量也就是人们常说的超高保真，即：Super HiFi; • ② 调频无线电广播，简称FM质量； • ③ 调幅无线电广播，简称AM质量； • ④ 电话质量；

4.1.2 音频信号的指标 • 2．动态范围： • 动态范围越大，说明音频信号强度的相对变化范围越大，音响效果越好。

4.1.2 音频信号的指标 • 3．信噪比： • 信噪比SNR（Signal to Noise Ratio）是有用信号与噪声之比的简称。 • 噪音可分为环境噪音和设备噪音。要使信噪比尽可能地大，才能得到尽可能好的声音质量。

4.1.2 音频信号的指标 • 4．主观度量法： • 对声音质量的评价，还有一种是主观质量度量。对噪声的度量，可以说人的感觉机理最有决定意义，因此，感觉上的、主观上的测试应该成为评价声音质量和图像质量不可缺少的部分。当然，可靠的主观度量值是较难获得的。

4.2 音频的数字化 • 由于音频信号是一种连续变化的模拟信号，而计算机只能处理和记录二进制的数字信号，因此，由自然音源而得的音频信号必须经过一定的变化和处理，变成二进制数据后才能送到计算机进行再编辑和存贮。

4.2 音频的数字化 • 在多媒体技术中，信息处理的硬件都是数字硬件或数字计算机，因此音频信息进入系统必须进行数字化处理。数字音频的特点是保真度好，动态范围大。模拟声音在时间上是连续的，而数字音频是一个数据序列，因此当把模拟声音变成数字声音时，需要进行数字化处理，这一过程通常包括采样、量化和编码。

4.2 音频的数字化 • 采样就是使音频信号在时间轴上离散化，每隔一个时间间隔在模拟声音波形上取一个幅度值，采样的时间间隔称之为采样周期。根据采样定理，只要采样频率等于或大于音频信号中最高频率成份的两倍，信息量就不会丢失，也就是说可以由采样后的离散信号不失真地重建原始连续的模拟音频信号，否则就会产生不同程度的失真。因此采样频率的选择是音频信息数字化的关键技术之一。多媒体技术中通常选用三种音频采样频率：11.025kHz，22.05kHz和44.1kHz。一般在允许失真条件下，尽可能将采样频率选低些，以免占用太多的数据量。

4.2 音频的数字化 • 量化是对采样后的离散音频信号幅值样本进行离散化处理，也就是将每一个样本归入预先编排的量化级上，若是量化级等间隔排列称为均匀量化，否则称为非均匀量化。若按样本概率分布进行非均匀量化可使量化均方误差最小，也称其为最佳量化。不难看出，不管采用什么方法，量化等级取多大，信号在量化过程中总是存在误差，称其为量化噪声。量化等级越多，误差越小，但占用的数据量也就越多。也就是说，提高信噪比和占用数据量是相互矛盾的，这就要求系统的设计者或使用者权衡利弊。

4.2 音频的数字化 • 编码就是对量化级以二进制数码按一定数据格式表示的过程，关于数字音频信号的编码技术将是本章专门讨论的重点。

4.2.1 PCM编码原理 • 脉冲编码调制PCM（Pulse Code Modulation）是一种模数转换的最基本编码方法，编码的过程首先用一组脉冲采样时钟信号与输入的模拟音频信号相乘，相乘的结果即输入信号在时间轴上的数字化。然后对采样以后的信号幅值进行量化。

4.2.2 MPEG 数字声音压缩编码 • 一般语音信号的动态范围和频响比较小，采用 8kHz 取样，每样值用 8bit 表示，现在的语音压缩技术可把码率从原来的 64kb/s 压缩到 4kb/s 左右。但多媒体通信中的声音要比语音复杂的多，它的动态范围可达 100dB, 频响范围可达 20Hz～20Khz。

1．MPEG－1 声音标准 • 从1988年开始，ISO/MPEG就在从事视频和相应声音的压缩技术标准的制定。MPEG标准的核心是用于DSM的视频和声音编码。声音小组负责产生具有32、44.1或48KHz抽样频率，输出码率32～192bps，每单声道或64～384bps每立体声双声道的PCM声音信号的编码标准。MPEG小组根据征寻到的声音压缩算法的相似性，将它们分为四组，

（1）听觉声音编码系统的基本结构 • 时间／频率映射（滤波器组）用以将输入的信号转化为亚取样的频谱分量。依所使用的滤波器组，所得结果（频率分量）被称作子带值或频率线。 • 利用滤波器组或并行变换的输出，并根据心理声学模型求出时变的掩蔽门限估值。 • 按照量化噪声不超过掩蔽门限的原则，将子带值（或频率线）量化、编码，以使量化噪声不可闻。这一过程因算法不同而不同，复杂性随分析/综合系统的变化而变化。 • 按帧打包用于组成码流。它一般包括量化和编码映射后的样值以及一些边信息（如：比特分配信息等）。 • 按照是低频率分辨率和高时间分辨率，或者是高频率分辨率和低时间分辨率，系统通常称为子带编码器或变换编码器。

（2）滤波器组 • 下面列出了用于高质量声音信号编码的最常见的滤波器组的简要概述： • QMF-Tree 滤波器组：在不同的频率有不同的频率分辨率。典型的QMF-Tree 滤波器组有4∽24个通带，计算复杂度很高。 • 多相滤波器组：这是一组等间距的滤波器组，结合 QMF-Tree 滤波器组的设计灵活性和低计算复杂度，该原型滤波器既有良好的频率分析力（超过96dB的截止衰减）又能很好的控制时域特性。

（2）滤波器组 • 加正弦锥型窗的DFT、DCT：这是声音信号变换编码中使用的第一个变换算法。它用低计算复杂度实现了128∽512个等间距的滤波器组。它没有提供临界抽样，即时间／频率的变换分量的数目大于一块里的时域样值数；缺点是可能产生块效应。 • 修正离散余弦变换MDCT：该变换结合了临界取样，具有良好频率分辨性（正弦窗）和类FFT快速算法的高效性。通常使用128∽512个等间距通带。

（2）滤波器组 • 混合结构（如多相和MDCT）：使用混合结构既可在不同频率获得不同的频率分辨率，实现时又只有适当的复杂性。第三层就使用了包括多相滤波器与MDCT的混合结构。

（3）通用编码概念 • 考虑到许多不同的应用，可以构造一个通用的编码系统。根据不同的应用需要，选用性能和复杂性不同的系统编码层。一个标准的ISO解码器应能对任何一层编码码流解码。由于使用了比例因子技术，ISO/MPEG/AUDIO技术能处理的动态范围大大超过了现存的CD、DAT，即传统的16位PCM。

2．Layer 1、Layer 2 编解码系统 • （1）、编码系统 • 在这两层中，用有32个等间距子带的滤波器组将输入声音PCM信号子带分离，再由生理声学模型导出动态比特分配，然后进行子带样值的块压缩和比特流打包。

（2）Layer1、Layer2 解码 • 首先从ISO/MPEG/AUDIO Layer I、II 码流中将帧头信息、CRC校验字、边信息（比特分配信息和比例因子）及每子带的12个连续样值分离出来。重建过程用每帧各子带的比特分配信息和比例因子将样值数据扩展，综合滤波器再恢复出完整宽带的声音信号。解码过程要求的计算能力比编码过程少得多。Layer I的这个比例关系大约是1:2，Layer II 是1:3。由于计算能力要求低和算法的直向结构，两层都可以很容易用一块专用ASIC实现。

（3）Layer III 编码系统 • Layer III 使用的滤波器组是多相/MDCT 混合滤波器组，并且使用了心理声学模型来评估掩蔽门限。为了增加编码增益，采用了非均匀量化和 Huffma 编码，并且使用了称为比特池的缓存技术来维持编码效率和使量化噪声保持在掩蔽门限以下

（4）MPEG-2 声音压缩标准 • MPEG-2 声音标准是 MPEG为多声道声音开发的低码率编码方案，它是在 MPEG-1 声音标准基础上发展而来的，和MPEG-1 声音相比，MPEG-2 声音主要增加了三个方面的内容： • · 支持 5.1 路环绕声：它能提供 5 个全带宽声道（左、右、中、和两个环绕声道），外加一个低频效果增强声道，统称为 5.1 声道。 • · 支持多达 7 种语言的评论或解说。 • · 增加了低取样和低码率：在保持 MPEG-1 声音的单声道和立体声的原有取样率的情况下，MPEG-2 又增加了三种取样率，即把 MPEG-1 的取样率降低了一半（16kHz、22.05kHz、24kHz），以便提高码率低于 64kbits/s 时的每个声道的声音质量。

4.2.3 数字音频的技术指标 • 1．采样频率 • 采样频率是指一秒钟内采样的次数。奈奎斯特（Harry Nyquist）采样理论：如果对某一模拟信号进行采样，则采样后可还原的最高信号频率只有采样频率的一半，或者说只要采样频率高于输入信号最高频率的两倍，就能从采样信号系列重构原始信号。

4.2.3 数字音频的技术指标 • 2．量化位数 • 量化位数是对模拟音频信号的幅度轴进行数字化，它决定了模拟信号数字化以后的动态范围。由于计算机按字节运算，一般的量化位数为8位和16位。量化位越高，信号的动态范围越大，数字化后的音频信号就越可能接近原始信号，但所需要的存贮空间也越大。

4.2.3 数字音频的技术指标 • 3．声道数 • 有单声道和双声道之分。双声道又称为立体声，在硬件中要占两条线路，音质、音色好，但立体声数字化后所占空间比单声道多一倍。

4.2.3 数字音频的技术指标 • 4．编码算法 • 　编码的作用一是采用一定的格式来记录数字数据，二是采用一定的算法来压缩数字数据。压缩编码的基本指标之一就是压缩比：

4.2.3 数字音频的技术指标 • 5．数据率及数据文件格式 • 数据率为每秒bit数，它与信息在计算机中的实时传输有直接关系，而其总数据量又与计算机的存储空间有直接关系。因此，数据率是计算机处理时要掌握的基本技术参数，未经压缩的数字音频数据率可按下式计算： • 数据率=采样频率（Hz）×量化位数（bit）×声道数（bit/s）

4.2.3 数字音频的技术指标 • 6、不同的编码，压缩参数及视听效果比较 • 以whitney Houston的歌曲“I will always love you”为例，下表列出了相同内容，相同长度，不同的编码算法生成的不同音频文件的容量：

4.3 电子合成音乐――MIDI • MIDI（Musical Instrument Digital Interface）是乐器数字接口的缩写，泛指数字音乐的国际标准，它是音乐与计算机结合的产物。MIDI不是把音乐的波形进行数字化采样和编码，而是将数字式电子乐器的弹奏过程记录下来，如按了哪一个键、力度多大、时间多长等等。

4.3.1 MIDI术语的定义 • 1、音乐合成器（Musical Synthesizer） • 音乐合成器用来产生并修改正弦波形并叠加，然后通过声音产生器和扬声器发出特定的声音。泛音的合成决定声音音质。

4.3.1 MIDI术语的定义 • 2、复调声音（Polyphony） • 简称为复音，指合成器同时演奏若干音符时发出的声音。它着重于同时演奏的音符数。 • 3、多音色声音（Timbre） • 指同时演奏几种不同乐器时发出的声音。它着重于同时演奏的乐器数。

4.3.2 MIDI标准 • MIDI标准包括下列六个方面： • ① MIDI电子乐器：能产生特定声音的合成器之间的数据传送符合MIDI的通信约定。 • ② MIDI消息（message）或指令：音乐乐谱的一种记录格式，相当于乐谱语言。 • ③ MIDI接口（interface）：MIDI硬件通信协议。 • ④ MIDI通道（channel）：MIDI标准提供了16个通道，每种通道对应一种逻辑的合成器。 • ⑤ MIDI文件：由控制数据和乐谱信息数据构成。 • ⑥音序器（Sequencer）：用来记录、编辑和播放MIDI文件的软件。

4.3.3 计算机上MIDI音乐的产生过程 • MIDI电子乐器通过声卡的MIDI接口与计算机相连。这样，计算机可通过音序器软件来采集MIDI电子乐器发出的一系列指令。这一系列指令可记录到以“.MID”为扩展名的MIDI文件中。在计算机上音序器可对MIDI文件进行编辑和修改。最后，将MIDI指令送往音乐合成器，由合成器将MIDI指令符号进行解释并产生波形，然后通过声音发生器送往扬声器播放出来。

4.3.3 计算机上MIDI音乐的产生过程 • 通过合成器产生MIDI音乐的方式有两种：FM（Frequency Modulation）合成和波形表（Wavetable）合成： • 1、FM频率调制合成 • 通过硬件产生正弦信号，再经处理合成音乐。合成的方式是将波形组合在一起，理论上可以有无限多组波形，但实际上做不到。其泛音的合成与模拟比较困难，实际的质量不高。 • 2、波形表合成 • 其原理是在ROM中已存储各种实际乐器的声音采样，需要时，调用相应的声音采样合成该乐器的乐音。ROM的容量越大，合成效果越好，价格也越贵。

4.4 本章小结 • (1) 音频媒体是多媒体系统中必不可少的一种媒体。音频可分为波形音频、MIDI音频和CD音频三类。 • (2) 声音是一种弹性的具有连续谱的波形，其传播具有方向性。音调、音强和音色是判 • 别声音质量的三个要素，它们分别由声波的频率、振幅和谐波量来决定。

4.4 本章小结 • (3) 声音的数字化是通过采样和量化两个过程完成的。目前常用的采样频率为11．025kHz、22．05kHz和44．1kHz三种，量化精度为8位、12位、16位和32位等二进制位，分别表示28，212，216，232个量化等级。 • (4) 音频的数字化将产生比较大的数据量，其中波形音频的数据量最大。对相同的声波采样和量化，波形文件的存储量大约为MIDI文件存储量的1500倍。

4.4 本章小结 • (5) MIDI音频是乐谱数字化的描述。MID文件记录的不是音乐本身，而是产生音乐的 • 演奏指令，所以MID文件的存储量比较小。 • (6) 常见的声音文件格式有：WAV文件、VOC文件、AU文件和MID文件四种，其中 WAV、VOC、AU三种是波形文件，MID是MIDI文件。

4.4 本章小结 • (7) 在多媒体系统中，声音的获取、处理和播放是通过声音卡来完成的，它的性能的好 • 坏直接影响到多媒体系统中音频的效果。在选择声音卡时必须要根据用途考虑兼容性，主要 • 性能指标，以及是否有压缩功能等因素。

4.4 本章小结 • （8）在多媒体技术中，信息处理的硬件都是数字硬件或数字计算机，因此音频信息进入系统必须进行数字化处理。数字音频的特点是保真度好，动态范围大。模拟声音在时间上是连续的，而数字音频是一个数据序列，因此当把模拟声音变成数字声音时，需要进行数字化处理，这一过程通常包括采样、量化和编码。

主讲：夏洪文

主讲：夏洪文

Presentation Transcript