第三章音频信息处理技术

第三章音频信息处理技术

3.1 基本概念 • 由于人们在接收外界信息以及与他人进行交流的过程中，大约有20%是通过听觉实现的，所以音频（声音）是多媒体计算机技术中一种不可缺少的媒体。也正是由于多媒体计算机具有处理音频媒体的能力，才使得计算机走出无声的世界，向人性化迈进了一步。

声音是由物体振动引发的一种物理现象。例如，讲话时声带的振动、小提琴弦的振动、扬声器纸盆的振动都会造成空气的振动，这种振动会不断地向四周传播，当被人耳接收时，我们就听到了声音。声音是由物体振动引发的一种物理现象。例如，讲话时声带的振动、小提琴弦的振动、扬声器纸盆的振动都会造成空气的振动，这种振动会不断地向四周传播，当被人耳接收时，我们就听到了声音。

声音媒体分为三类 • 语音：人的说话声不仅是一种波形，而且还通过语气、语速、语调携带着比文本更加丰富的信息。这些信息往往可以通过特殊的软件进行抽取。 • 波形声音：实际上已经包含了所有声音形式，这是因为计算机可以将任何声音信号通过采样、量化数字化，在必要的时候，还可以准确地将其恢复。 • 音乐：音乐是一种符号化了的声音，这种符号就是乐谱，乐谱则是转变为符号媒体形式的声音。

声音的量纲 声音的振动是一种正弦波，声音的变化必须确定三件事：频率（变化的速度）、幅度（产生的压力）、相位（何时开始）。另外一方面，人们可以感觉到声音的强弱，可以感觉到歌唱家音调的高低。因此，声音的量纲分为声音的物理量纲和心理量纲。

声音的物理特性 频率声压声强动态范围频谱

声音的心理学特征 音调响度音色掩蔽效应方位感立体感

声音媒体具有三个要素 • 音调：与声音的频率有关，频率越快，音调就越高。

音强：又称为响度，它取决于声音的振幅。振幅越大，声音就越响亮。音强：又称为响度，它取决于声音的振幅。振幅越大，声音就越响亮。 • 音色：音色是由于波形和泛音的不同所带来的一个声音属性。 • 《纯音》一般的声音由几种振动频率的波组成，若该声音只有一种振动频率就叫做纯音； • 《复音》由许多纯音组成，复音的频率用组成这个复音的基音频率表示，一般的乐音都是复音； • 《基音》是复音中频率最低部分的声音； • 《泛音》在一个复音中，除去基音外，所有其余的纯音都是泛音。

物理量纲可以用精确的值来描述，但对某一具体声音得来的心理印象却不容易说明白，因为心理印象要由被测者的经验而定。物理量纲可以用精确的值来描述，但对某一具体声音得来的心理印象却不容易说明白，因为心理印象要由被测者的经验而定。声音的心理属性和物理属性不可等同，首先，这些关系不是线性的；其次这些关系不是孤立的；第三，这些关系不是不变的。

两者之间确有关系：例如声音的响度取决于强度和频率两个因素，如果频率不变，强声显得比弱声要响些。但如果强度不变，过高频率的声音和过低频率的声音似乎比中频的声音听起来都要弱一些。由此可见，响度依赖于频率，原因是人耳能反应的频率范围是有上限和下限的。

心理变量 首要的物理变量次要的物理变量响度声强声波频率音调声波频率声强音色声波复合－音量频率和强度－密度频率和强度－谐和（流畅或粗糙）谐波结构音乐技巧噪声强度频率组合，各种时间参量骚扰声强度频率组合，无意义声音的量纲

听觉特性 • 等响曲线由于响度与频率和强度有关，所以在不同频率上的强度是不同的。先设一个音为标准音，给予固定的频率、强度和持续时间，例如1000Hz、40分贝、持续0.5秒；再给一个音也持续0.5秒，但频率不同，通过调整使其响度听起来一样，得到的这样一组曲线称之为等响曲线。等响曲线描述的是响度与频率和强度的关系。从声音心理学考虑，对同一响度的声音在频率上和强度上可以有很大的差别，这对声音表现有重要意义。

掩蔽（masking） 声音的响度不仅取决于自身的强度和频率，而且也依赖于同时出现的其它声音。各种声音可以互相掩蔽，也就是说一种声音的出现可能使得另一种声音难于听清。由于声音的掩蔽效果，可以欺骗人的听觉。例如，本来是多种频率的声音的复合，但听众以为是另一种声音。所以，声音的掩蔽特性常常用于声音的压缩。

临界频带 在频率的某一临界区里，各种声音是相互作用的，合成声音的响度由这些频率共同决定。如果超出临界区，声音的响度不再相互作用，声音的响度随频率的改变而改变。这个临界区就是临界频带，其宽度视其中心频率而定。对于临界频带的确定，使得对声音响度的处理能够有的放矢。

相位从声音的波形来看，声音的起点和方向也要反映声音的特性，这就是声音的相位。当两个声音相同相位完全相反时，它们将相互抵消；当两个声音相同而且相位也相同时，声音就会得到加强。相位的确定对于多声道声音系统的设计非常重要，其可以应用在回声的消除、会议系统的声音设计上。

自然声音的时变现象 声音的音调分成三个区域：起始区、稳定状态区、延迟区。研究表明，音调的频谱分量随时间改变。在稳定状态区，频谱保持固定。在起始区，振幅频谱随时间变化。因此自然声音的起始部分是非常难识别的。例如刚听了一小节音调后要识别乐器，专家也会觉得较难。时变现象用于数字系统中，说明声音中的某些错误是不太容易发现的，但如果出现停顿就很容易引起人的注意。

听觉空间 人耳可听到来自各个方向的声音，并用不同的因素来判定声源的位置。声源的位置不论对于增进人们的感受还是增进对声音的理解，都是非常重要的。通过声音的精确再现，就可以构造出听觉空间。方位的线索是各种声音到达两耳的精确时间和强度。

听觉的频谱特性 声音是时间函数，通过傅里叶变换可做出其频谱图。人耳对频谱成分的波峰和波谷是非常敏感的。在语言中，元音很少有频谱变速变化的区域。基频改变，人耳是很敏感的。例如：快进的录像，音调会发生变化。音色非常复杂，目前尚在研究中。音色的处理将使我们能识别音源，音色也代表和声音有关的主观质量。

声音的心理模拟 通过人工真实的方法，可以对视觉空间的景物进行再造或虚构，同样也可以对听觉空间的声音进行心理的模拟，这就是所谓的可听化（audiolization）。用声音可以表达出一些声音的效果。

几种常见的声音频宽

音频信号的质量指标 频带宽度动态范围信噪比

3.2 音频信号数字化 • 声音是由物体的振动产生的，这种振动引起了周围空气压力的震荡，我们称这种震荡的函数表现形式为波形。

从人与计算机交互的角度看，音频信号的处理包括下述3点：从人与计算机交互的角度看，音频信号的处理包括下述3点： • 人与计算机通信，也就是计算机接收音频信号。包括音频获取、语音的识别和理解。 • 计算机与人通信，也就是计算机输出音频。包括音乐合成、语音合成、声音的定位以及音频视频的同步。 • 人-计算机-人通信。人通过网络与异地的人进行语音通信，相关的音频处理有语音采集、音频的编码和解码、音频的存储、音频的传输、基于内容的检索等。

1．音频的数字化与再现 在计算机中，所有的信息都以数字来表示。声音信号也是由一系列的数字来表示的，称为数字音频。数字音频的特点就是保真度好，动态范围大。数字声音是一个数据序列。它是由外界声音经过采样、量化和编码后得到的。

在时间轴上，每隔一个固定的时间间隔（虚线表示）对波形曲线的振幅进行一次取值，这被称为采样。由于曲线在振幅方向是连续的，所以必须将无限个可能的取值映射到计算机可表示的一个有限取值范围内（通常是一个整型取值范围），这被称为量化。在时间轴上，每隔一个固定的时间间隔（虚线表示）对波形曲线的振幅进行一次取值，这被称为采样。由于曲线在振幅方向是连续的，所以必须将无限个可能的取值映射到计算机可表示的一个有限取值范围内（通常是一个整型取值范围），这被称为量化。

声音的模拟信号 声音的数字信号采样量化 • 采样量化的结果将用所得到的数值序列表示原始的模拟声音信号，这就是将模拟声音信号数字化的基本过程。

对声音进行采样用奈奎斯特采样定理来决定采样的频率。根据该定理，只要采样频率高于信号中最高频率的两倍，就可以从采样中完全恢复原始信号的波形。因为人耳所能听到的频率范围为20Hz到20KHz，所以实际的采样过程中，为了达到好的效果，就采用44.1KHz作为高质量声音的采样频率。如果达不到这么高的频率，声音恢复的效果就会差一些，例如电话声音的质量等。一般来说，声音恢复和采样频率、信道带宽都有关。对声音进行采样用奈奎斯特采样定理来决定采样的频率。根据该定理，只要采样频率高于信号中最高频率的两倍，就可以从采样中完全恢复原始信号的波形。因为人耳所能听到的频率范围为20Hz到20KHz，所以实际的采样过程中，为了达到好的效果，就采用44.1KHz作为高质量声音的采样频率。如果达不到这么高的频率，声音恢复的效果就会差一些，例如电话声音的质量等。一般来说，声音恢复和采样频率、信道带宽都有关。

声音的采样以及量化图

与数字音频相关的重要特性： • 采样频率采样频率与声音的质量关系最为紧密。采样频率越高，声音质量越接近原始声音，所需的存储量便越多。标准的采样频率有三个：44.1KHz，22.05kHz，和11.025kHz。 • 采样位数存放一个采样点所需的比特数。一般的采样位数为8位或16位，即把声音采集为256等份或65536等分。

(采样频率×每点采样位数×声道数) 数据量＝ (字节/秒) 8 • 声道数有单声道、双声道和多声道。如多种语言音频混存时，需要多声道 • 数据量

音频信号压缩编码

PCM编码原理 PCM编码又称为脉冲代码调制，其工作原理如图。首先对模拟信号采样，经过采样将在时间轴上连续的声音信号变为在时间轴上离散信号，如图a采样可以等间距，也可以不等间距。离散信号应经过量化处理变为数字信号。量化的实质是将离散信号的幅值与量化步幅的幅值进行比较，并对比较的结果以四舍五入的方法变换为整数值。量化后的整数值应以二进制的数代码化，进而用二进制的编码脉冲表示，如图b。由此完成了PCM编码的全过程。

音频信息压缩编码技术主要是向基于波形和基于参数两个方向发展的。音频信息编码技术可以分为三类：音频信息压缩编码技术主要是向基于波形和基于参数两个方向发展的。音频信息编码技术可以分为三类： • 波形编码增量编码（DM）自适应插分脉冲编码（ADPCM）子带编码（SBC）矢量量化（VQ） • 参数编码例：声码器 • 混合编码

增量调制原理 增量调制又称为DM(Delta Modulation)调制，它是声音压缩的一种最简单的编码方式。 PCM调制是以一定的码长直接对声音信号的采样值进行编码的。增量调制是以一位码长对相邻两个采样值间的差值进行调制的编码方式。

设当前的信号为Sn，根据以往信号对前一时刻的预测信号为Sn－1,实际信号与预测信号间的误差信号为：设当前的信号为Sn，根据以往信号对前一时刻的预测信号为Sn－1,实际信号与预测信号间的误差信号为： en=Sn-Sn-1 （1）增量调制中的预测信号为： Sn＝Sn-1+△ （2）式中△为增量，增量的大小在调制过程中是不变的，但符号的正负是变化的，这种变化应使预测信号更好地接近实际信号。

这里为了说明增量调制的过程，设声音信号的采样序列为4、5、1、0、3，增量的幅值△＝2，这种情况下增量调制的过程如表所示。整个调制过程按照(1)、(2)式给定的算法进行。

对应于信号的采样序列4、5、1、0、3、……经增量调制后，相应的码字序列为1、1、0、0、1、……。增量调制的信号波形如图所示。对应于信号的采样序列4、5、1、0、3、……经增量调制后，相应的码字序列为1、1、0、0、1、……。增量调制的信号波形如图所示。

粒状噪声和超载噪声 粒状噪声和超载噪声的波形图

增量噪声是以一种码字表示增量的正负而实现压缩编码的。在声音信号的变化比增量的幅度小时，虽然此时的声音几乎是不变的，但增量调制的码字序列任为1、0相间的变化。当这种1、0反复变化的脉冲序列经解码还原成原信号时，将产生粒状噪声。为了减少粒状噪声，应减小增量的幅值。现在我们再来看看何为超载噪声。增量调制时，增量△的幅值是固定的，当声音信号的变化较大时，预测信号将跟不上这样的变化，从而产生预测信号对声音信号的滞后，由此产生的噪声为超载噪声。为了减少超载噪声，使预测信号能跟上声音信号的变化，应增大增量的幅值，这与减少粒状噪声又是矛盾的。

一般而言，人们对超载噪声不甚敏感，而粒状噪声对音质的影响较大。为此，应减小增量的幅值。但增量的幅值过小必将使超载噪声增加。为了减小超载噪声，可适当提高采样频率；但采样频率的提高又会影响数据压缩的效果。所以增量调制应慎重考虑选择采样频率和增量的幅值。一般而言，人们对超载噪声不甚敏感，而粒状噪声对音质的影响较大。为此，应减小增量的幅值。但增量的幅值过小必将使超载噪声增加。为了减小超载噪声，可适当提高采样频率；但采样频率的提高又会影响数据压缩的效果。所以增量调制应慎重考虑选择采样频率和增量的幅值。

增量调制中增量的幅值是固定的。若幅值选得过大，粒状噪声过大；若选得过小，超载噪声增加，这给增量的幅度选择带来了一定的困难。为了解决这一问题，可让增量的幅值在调制的过程中随着声音信号的变化自动地进行调制、变化，这就是自适应调制ADM(Adaptive Delta Modulation)。

ADM调制的基本原理是：在声音信号变化不大的情况下，取较小的增量幅值以抑制粒状噪声。在声音信号变化较大的情况下，预测信号跟不上声音信号的变化，应采取一定的算法增加增量的幅值，以此抑制超载噪声。调制过程中，增量的幅值随声音信号的变化自适应地变化。ADM调制的基本原理是：在声音信号变化不大的情况下，取较小的增量幅值以抑制粒状噪声。在声音信号变化较大的情况下，预测信号跟不上声音信号的变化，应采取一定的算法增加增量的幅值，以此抑制超载噪声。调制过程中，增量的幅值随声音信号的变化自适应地变化。

ADM调制虽然能较好地克服超载噪声，解决粒状噪声和超载噪声的矛盾，但在声音信号从高速变化转向平坦处时，容易出现由于增量幅值过大而产生的噪声。ADM调制虽然能较好地克服超载噪声，解决粒状噪声和超载噪声的矛盾，但在声音信号从高速变化转向平坦处时，容易出现由于增量幅值过大而产生的噪声。

自适应差分脉冲编码调制（ADPCM） 自适应脉冲编码调制(adaptive pulse code modulation，APCM)是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应，即量化阶的大小每隔几个样本就改变，也可以是音节自适应，即量化阶的大小在较长时间周期里发生变化。

改变量化阶大小的方法有两种：一种称为前向自适应(forward adaptation)，另一种称为后向自适应(backward adaptation)。前者是根据未量化的样本值的均方根值来估算输入信号的电平，以此来确定量化阶的大小，并对其电平进行编码作为边信息(side information)传送到接收端。后者是从量化器刚输出的过去样本中来提取量化阶信息。由于后向自适应能在发收两端自动生成量化阶，所以它不需要传送边信息。前向自适应和后向自适应APCM的基本概念，如图所示。

前向自适应

第三章 音频信息处理技术