第4章多媒体音频信息处理

第4章多媒体音频信息处理 声音是多媒体信息的一个重要组成部分,也是表达思想和情感的一种必不可少的媒体。无论其应用目的是什么，声音的合理使用可以使多媒体应用系统变得更加丰富多彩。在多媒体系统中，音频可被用作输入或输出。输入可以是自然语言或语音命令，输出可以是语音或音乐，这些都涉及到音频处理技术。 STOP

4.1 音频信号及其概念 • 4.1.1 声音处理技术历史回顾语音、音乐和各种自然声是以声波为载体进行传输的。人类很早就开始研究声音，并利用已掌握了的声音的某些规律来制造乐器、进行建筑设计或传声装置设计，使发出的声音传得更远。可是几千年来，人类只能凭耳朵来辨别声音的高低、强弱，不能把声音记录和储存起来。所以与其他研究领域相比，声学的研究相对滞后。直到19世纪爱迪生发明了留声机，人们才能用机械的方法把各种声音记录在唱片上。但机械振动不易传递，也不易放大，机械方法很不方便。随着电学、电子学的发展，人们开始尝试记录真实声音，利用把声的振动转换成电信号的原理，使声音的记录成为可能。电声技术迅速发展。

电声技术是研究可听声频率范围内声音的产生、传播、存储、重放和接收的技术。它依靠“电”来记录并播放声音，其基本原理是通过电压产生模拟声波变化的电流信号，并记录下来，灌录成唱片或磁带，这种电流信号被称为“模拟信号”。传统的声音记录方式就是将模拟信号直接记录下来，例如磁带录音和密纹唱片就是将声音拾取处理后以磁记录或机械刻度的方式记录下来，此时磁带上磁极的变化或密纹唱片音槽内的纹路起伏变化都是与声音信号的变化相对应、成正比的。这里，密纹唱片、盒式磁带等是记录储存这种模拟声音信号的载体，而能够播放、记录这些信号的处理设备，诸如电唱机、磁带录音机等，称为模拟音响设备。

电声技术把声信号转换成电信号，经扩声系统进行扩声；或者将其信号利用磁带、CD或其他存储形式存储，使声音超越时间和空间，通过重放系统将信号放大，由扬声器或耳机转换成声信号，进入最后的终端---人耳，以实现任何时间、任何地点的声音重现。电声转换、音频(Audio)信号存储、重放、加工处理以及数字化音频信号的编码、压缩、传输、存取、纠错等技术，是音频技术的主要对象。电声技术把声信号转换成电信号，经扩声系统进行扩声；或者将其信号利用磁带、CD或其他存储形式存储，使声音超越时间和空间，通过重放系统将信号放大，由扬声器或耳机转换成声信号，进入最后的终端---人耳，以实现任何时间、任何地点的声音重现。电声转换、音频(Audio)信号存储、重放、加工处理以及数字化音频信号的编码、压缩、传输、存取、纠错等技术，是音频技术的主要对象。

随着计算机技术的发展，特别是海量存储设备和大容量内存在计算机上的实现，使音频数字化处理成为可能。数字化处理的核心是对音频信息的采样，通过对采集的样本进行加工，生成各种效果。音频信息在多媒体中的应用极为广泛，计算机配有声卡和音箱后，就能发出各种悦耳声音，尤其是视频图像配以动听的音乐和语音，使得计算机操作成为愉快的过程。静态或动态图像配以解说和背景音乐，可使图像充满生气；立体声音乐可增加空间感，使人如身临其境；语音电子邮件，听声如见其人，游戏中的音响效果对于渲染气氛显得更为重要；此外，在多媒体通信中，可视电话、电视会议等都离不开数字化音频处理技术。

4.1.2 音频信号的形式日常生活中，音频信号可分为两类：语音信号和非语音信号。语音是语言的物质载体，它包含了丰富的语言内涵，是人类进行信息交流的特有形式。非语音信号主要包括音乐和自然界存在的其他声音。非语音信号的特点是不具有复杂的语义和语法信息，信息量低、识别简单。我们能听到的各种声音，是不同频率的声波通过空气产生震动刺激人耳的结果。在物理上，声音可用一条连续曲线表示。这条曲线无论多复杂，都可分解成一系列正弦波的线性叠加。规则音频是一种连续变化的模拟信号,可用一条连续的曲线表示，称为声波。声波是在时间和幅度上都连续变化的量，我们称之为模拟量。

用声音录制软件记录的英文单词“Hello”的语音实际波形如图4-1所示：用声音录制软件记录的英文单词“Hello”的语音实际波形如图4-1所示：图4-1 用声音录制软件记录的英文单词“Hello”的语音实际波形

4.1.3 模拟音频信号的物理特征模拟音频信号有两个重要参数：频率和幅度。频率体现音调的高低，幅度体现声音的强弱。一个声源每秒可产生成百上千个波，我们把每秒波峰所发生的数目称为信号的频率，单位用赫兹(Hz)或千赫兹(kHz)表示。如一个声波信号在一秒内有5000个波峰，可将其频率表示为5000Hz或5kHz。人们说话时语音信号频率范围在300Hz～3000Hz之间。频率小于20 Hz的信号称为亚音(Subsonic)，范围为20Hz～20kHz的信号称为音频(Audio)，高于20kHz的信号称为超音频(Ultrasonic)。

周期幅度限基线与频率相关的另一个参数是信号的周期。它指信号在两个峰点或谷底之间的相对时间。周期和频率互为倒数(如图4-2)。信号的幅度是从信号的基线到当前波峰的距离。幅度决定信号音量的强弱程度。幅度越大，声音越强。音频信号声音的强度用分贝(dB)表示。分贝的幅度称为音量。图4-2 声音的幅度和周期

4.1.4 声音的A/D与D/A转换模拟信号易受电子干扰。随着技术的发展，声音信号逐渐过渡到数字存储阶段，A/D转换和D/A转换技术应运而生。这里，A代表“Analog”(类比、模拟)，D代表“Digital ”(数字、数码)，A/D转换就是把模拟信号转换成数字信号。 A/D转换芯片如图4-3，其好处是：声音存储质量得到加强，数字化的声音信息使计算机能够进行识别和处理。A/D或D/A转换的波形如图4-4，这也是磁带逐渐被淘汰，CD唱片趋于流行的原因。A/D转换关键步骤是声音的采样和量化，得到的数字音频信号是在时间上不连续的离散信号。

图4-3 8位可编程A/D转换芯片 图4-4 借助于A/D或D/A转换器，模拟信号和数字信号可以互相转换

4.1.5 与声音有关的几个术语音高是声波频率的主观属性，它与声波的频率有关。声波的振动频率高，我们听到的声音就高，但它们之间并非线性关系。音色是声波波形的主观属性。不同的发音体所发出的声波都有自己的特性。声波的类型是多种多样的，一般可分为纯音和复合音两大类。语音是特殊的复合音。语音由元音和辅音构成。元音是一种能连续发出的音，辅音主要是不能连续发出的短促的音，元音与辅音合成汉语音节。响度是声波振幅的主观属性，它由声波的振幅引起。振幅越大响度越大，但它们之间也不是线性关系。

4.1.6 声音质量的评价 我们经常会对某一歌手的歌声发表意见，并与其他歌手进行比较，这其实是对声音的质量进行评价。对声音质量的评价实际上很困难，是个值得研究的课题。声音质量的度量一般有客观质量度量和主观质量度量两种基本方法。 • 声音客观质量度量方法声波的测量与分析，传统的方法是先用机电换能器把声波转换为相应的电信号，然后用电子仪表放大到一定的电压级进行测量分析。由于计算机技术的发展，许多计算和测量工作都用计算机实现。这些带计算机处理系统的高级声学测量仪器，能完成下列测量工作：

评价值的测量响度和响度级，噪音级，清晰度指数，噪音评价数。评价值的测量响度和响度级，噪音级，清晰度指数，噪音评价数。 • 声源的测量频谱的时间变化，声功率，指向性，效率，频谱特征，幅值分布等。 • 音质的测量混响时间，隔音量，吸音量。声测量的基本仪器是声级计。声级计是一种能对声音作出类似人耳的反应的仪器，它能进行客观而可重复的声压和声级测量。声压测量能帮助音乐厅提高音响效果；能对烦扰声音进行精密的、科学的分析。声级测量还能明确地告诉我们什么声音会引起听力损害，并提醒人们采用适当的听力保护措施。

音频测试仪如图4-5所示。 图4-5 音频测试仪(AUDIO TEST)

度量声音客观质量的一个主要指标是信噪比SNR(Signal to Noise Ration)，信噪比是有用信号与噪声之比的简称。单位是分贝(dB)。 • 声音主观质量的度量采用客观标准方法评定某种编码器的质量很难，在实际中，主观的质量度量比客观质量的度量更为恰当和合理。通常是对某编码器的输出的声音质量进行评价，例如播放一段音乐，记录一段话，然后重放给实验者听，再由实验者进行综合对比评定。可以说，人的感觉机理最具有决定意义。当然，可靠的主观度量值较难获得。

平均判分MOS(Mean Opinion Score)是召集一批实验者，请每个实验者对某个编解码器的输出进行质量判分，采用类似于考试的五级分制，不同的MOS分对应的质量级别和失真级别见表4.１。表4.1 MOS与音频质量的关系

声音质量分级与带宽声音的质量与它所占用的频带宽度有关，频带越宽，信号强度的相对变化范围就越大，音响效果也就越好。声音质量按带宽可分为4级：声音质量分级与带宽声音的质量与它所占用的频带宽度有关，频带越宽，信号强度的相对变化范围就越大，音响效果也就越好。声音质量按带宽可分为4级： • 数字激光唱盘质量，通常又称CD-DA质量，这种质量就是常说的超高保真，即Super HiFi(High Fidelity)。 • 调频无线电广播，简称FM(Frequency Modulation)质量。 • 调幅无线电广播，简称AM(Amplitude Modulation)质量。 • 电话(Telephone)质量。 4级质量中，CD-DA质量等级最高，其余依次减低。

图4-6所示为这4级声音的频率范围。 图4-6 4级声音质量的频率范围

4.2 模拟音频的数字化过程若用计算机对音频信息进行处理，首先要将模拟音频信号转变成数字信号。现在几乎所有专业化声音录制、编辑器都是数字方式。对模拟音频数字化涉及到音频的采样、量化和编码。其过程如图4-7所示。采样和量化由A/D转换器实现。A/D转换器以固定频率去采样，采样和量化后的声音信号经编码成为数字音频信号，将其以文件形式保存在计算机的存储介质中，称为数字声波文件。图4-7 模拟信号的数字化过程

4.2.1采样早在20世纪40年代，信息论奠基者香农(Shannon)指出：在一定条件下，用离散的序列可以完全代表一个连续函数。这就是采样定理。采样定理是数字化技术的基础。把模拟音频信号波形进行分割，转变成数字信号，这种方法称为采样(Sampling)。4.2.1采样早在20世纪40年代，信息论奠基者香农(Shannon)指出：在一定条件下，用离散的序列可以完全代表一个连续函数。这就是采样定理。采样定理是数字化技术的基础。把模拟音频信号波形进行分割，转变成数字信号，这种方法称为采样(Sampling)。采样是每隔一个时间间隔在模拟声音的波形上取一个幅度值，把时间上的连续信号，变成时间上的离散信号。该时间间隔称为采样周期，其倒数为采样频率。采样频率越高，在单位时间内计算机得到的声音样本数据就越多，对声音波形的表示也越精确。

采样频率与声音频率之间有一定的关系，根据奈奎斯特（Nyquist）理论，只有采样频率高于声音信号最高频率的两倍时，才能把数字信号表示的声音还原成为原来的声音。采样频率与声音频率之间有一定的关系，根据奈奎斯特（Nyquist）理论，只有采样频率高于声音信号最高频率的两倍时，才能把数字信号表示的声音还原成为原来的声音。例如电话和CD唱片。在数字电话系统中，为将人的声音变为数字信号，采用脉冲编码调制PCM方法，每秒钟进行8000次的采样。要想获得CD音质的效果，则要保证采样频率为44.1kHz，也就是能够捕获频率高达22050Hz的信号。

4.2.2 量化采样解决了音频波形信号在时间轴(即横轴)上把一个波形切成若干个等分的数字化问题，但每一等分的长方形的高是多少呢? 即需要用某种数字化的方法来反映某一瞬间声波幅度的电压值的大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称为“量化”。量化是将采样后的信号按整个声波的幅度划分成有限个区段，把落入某个区段内的样值归为一类，赋于相同的量化值。分割采样信号的幅度采取二进制的方式，以８或16位(bit) 划分纵轴。8位记录模式音效中，纵轴被划分为2的8次方个量化等级(quantization levels)以记录其幅度大小。以16位为记录模式的音效中,其纵轴被划分为2的16次方个量化等级。

在相同采样频率下，量化位数愈高，声音质量越好。同理，相同量化位数情况下，采样频率越高，声音效果也越好。表4.2是不同信号类型的采样率和量化精度。在相同采样频率下，量化位数愈高，声音质量越好。同理，相同量化位数情况下，采样频率越高，声音效果也越好。表4.2是不同信号类型的采样率和量化精度。表4.2 不同信号类型的采样率和量化精度

4.2.3 采样与量化过程示例以图4-8所示的原始模拟波形为例进行采样和量化。假设采样频率为1000次/秒，即每1/1000秒A/D转换器采样一次。其幅度被划分成09共10个量化等级，将采样的幅度值取最接近0  9之间的一个数来表示。图4-8 采样频率为1000Hz、量化等级为10的采样量化过程

当D/A转换器用图4-8得到的数值重构原来信号时，得到图4-9中蓝色线所示波形。从图4-9看出，蓝色线与原波形(红色线)相比，波形的细节部分丢失很多。意味着重构后信号波形有较大失真。当D/A转换器用图4-8得到的数值重构原来信号时，得到图4-9中蓝色线所示波形。从图4-9看出，蓝色线与原波形(红色线)相比，波形的细节部分丢失很多。意味着重构后信号波形有较大失真。图4-9 经过D/A转换器得到的信号波形与原波形对照

失真在采样过程中是不可避免的，要减少失真，我们可把波形划分成更细小的区间，即采用更高的采样频率。同时，增加量化精度，以得到更高的量化等级，减少失真的程度。比如采样率和量化等级均提高一倍，分别为2000次/秒和20个量化等级、采样率和量化等级再提高一倍，分别达到4000次/秒和40个量化等级等等。从图4-10和图4-11可看出，当用D/A转换器重构原来信号时(图中的轮廓线)，信号的失真明显减少，信号质量得到提高。失真在采样过程中是不可避免的，要减少失真，我们可把波形划分成更细小的区间，即采用更高的采样频率。同时，增加量化精度，以得到更高的量化等级，减少失真的程度。比如采样率和量化等级均提高一倍，分别为2000次/秒和20个量化等级、采样率和量化等级再提高一倍，分别达到4000次/秒和40个量化等级等等。从图4-10和图4-11可看出，当用D/A转换器重构原来信号时(图中的轮廓线)，信号的失真明显减少，信号质量得到提高。

图4-10 采样率为2000Hz，量化等级为20的采样量化图4-11 采样率为4000Hz，量化等级为40的采样量化

图4-12为采样频率为2000Hz和量化等级为20时经D/A转换后得到的信号与原信号的对照。图4-12 采样频率为2000Hz和量化等级为20时经D/A转换后得到的信号与原信号的对照

4.2.4 编码模拟信号经采样和量化后，形成一系列离散信号—脉冲数字信号。这种脉冲数字信号可以一定方式进行编码，形成计算机内部数据。所谓编码，就是按一定格式把经过采样和量化得到的离散数据记录下来，并加入一些用于纠错、同步和控制的数据。在数据回放时，可根据所记录的纠错数据判别读出的声音数据是否有错，若在一定范围内有错，可加以纠正。脉冲调制(PCM)是常用的编码方式。它是把连续输入的模拟信号变换为在时域和振幅上都离散的量，然后将其转化为代码形式传输或存储。PCM的主要优点是：抗干扰能力强，失真小，传输特性稳定，尤其是远距离信号再生中继时噪声不累积，且可采用压缩编码、纠错编码和保密编码等来提高系统的有效性、可靠性和保密性。

模拟信号经过采样、量化，然后用有限个二进制码去代表量化后的幅度，在编码器中引入的量化误差在解码时无法消除，这一误差等效于引入了噪声、降低了信噪比。在比特率较高的波形编码中可以用客观指标如信噪比来衡量编码的质量，例如现在电话中普遍使用的Ａ律标准（ITU G.711标准），要求信噪比优于35dB。除此之外，还可以规定动态范围和频率响应，在有关的国际标准中都有具体规定。在低比特率情况下，采用了语音特征参数分析和合成语音的编码方法，每个样值仅１或0.5比特。

在ISO红皮书标准中，规定CD-DA每24字节双声道音频数据为一帧，对每一帧数据编码后要形成帧同步码、子码(用于控制和显示)及纠错码，采用差错校验码CIRC，用来检测和纠正因CD表面划伤或灰尘产生的差错。其格式如表4.3所示。在CD-DA中，数据、控制码和纠错码分别记录在不同的光道上。表4.3 CD-DA帧结构

4.3 音频信号的压缩编码与标准 量化后的数字声音信息直接存入计算机会占用大量的存储空间。在多媒体系统中，一般是对数字化声音信息进行压缩和编码后再存入计算机，以减少数据量。 • 4.3.1 音频信号压缩编码概述在多媒体音频信号处理中，先对数字化后的信号进行压缩编码，使其成为具有一定字长的二进制数字序列进行传输和存储。在播放这些声音时，经解码器将编码恢复成原来声音信号播放。

音频信号处理过程如图4-13所示。 图4-13 音频信号处理过程

声音信号能进行压缩编码的基本依据是： • 声音信号中存在很大冗余度，通过识别和去除这些冗余，达到压缩目的； • 音频信息的最终接收者是人，人的听觉器官(包括视觉器官)具有某种不敏感性，舍去人的感官所不敏感的信息对声音质量的影响很小，在有些情况下，甚至可忽略不计。例如，人耳听觉中有一个重要的特点，即听觉的“掩蔽”(一个强音能抑制一个同时存在的弱音的听觉现象)。利用该性质，可以抑制与信号同时存在的量化噪音。

对声音波形取样后，相邻样值间存在很强的相关性。音频数据压缩和编码与图像压缩编码有很大不同。图像数据表达的是二维空间，很难找出固定的模型来形式化地表征它。音频数据表达的是一维随时间变化的函数，因而声音数据的压缩比图像数据压缩要容易得多。对声音波形取样后，相邻样值间存在很强的相关性。音频数据压缩和编码与图像压缩编码有很大不同。图像数据表达的是二维空间，很难找出固定的模型来形式化地表征它。音频数据表达的是一维随时间变化的函数，因而声音数据的压缩比图像数据压缩要容易得多。从方法上看，声音信号的编码方式大致可分为三类：波形编码、参数编码和混合编码。波形编码的编码信息是声音的波形。这种方法要求重构的声音信号尽可能接近于原始声音的采样值，复原的声音质量较高。波形编码技术有脉冲编码调制PCM、自适应差分脉冲编码调制ADPCM和自适应变换编码ATC等。

参数编码是一种对语音参数进行分析合成的方法。语音的基本参数是基音周期、共振峰、语音谱、声强等，如能得到这些基本参数，就可不对语音的波形进行编码，而只记录和传输这些参数以实现声音数据的压缩。这些基本参数可由语音生成机构模型通过实验获得。得到语音参数后，就可对其进行线性预测编码LPC(Linear Predictive Coding)。混合型编码方法是在保留参数编码技术的基础上，引用波型编码准则去优化激励源信号的方案。混合编码充分利用了线性预测技术和综合分析技术，典型算法有：码本激励线性预测CELP、多脉冲线性预测MP-LPC及矢量和激励线性预测VSELP等。波形编码在声音编码方案中应用较广，可以获得很高的声音质量。

4.3.2 PCM编码 1939年法国工程师Alec Reeves发明了将连续的模拟信号变换成时间和幅度都离散的二进制码代表的脉冲编码调制信号PCM(Pulse Code Modulation)，并申请了专利。PCM首先应用于电话系统。到1962年美国Bell实验室为AT＆T研制了国际上第一套商用PCM电话系统(T1系统)，标志着通信开始步入数字化。以后的计算机发展更促进了通信的数字化。 PCM编码是对连续语音信号进行空间采样、幅度值量化及用适当码字将其编码的总称。按量化方式的不同，PCM分为均匀量化PCM、非均匀量化PCM和自适应量化PCM。

采用相等的量化间隔对采样得到的信号量化称为均匀量化。也称为线性量化。如图4-14。均匀量化PCM就是直接对声音信号作A/D转换，在处理过程中没有利用声音信号的任何特性，也没有进行压缩。该方法将输入的声音信号的振幅分成个等份(B为量化位数)，落入同一等份内的采样值都编码成相同的B位二进制码。只要采样频率足够大，量化位数也适当，便能获得较高的声音信号数字化效果。为满足听觉上的效果，均匀量化PCM必须使用较多的量化位数。这样所记录和产生的音乐，可达到最接近原声的效果。当然，这将引起储存数据空间的增大。

图4-14 均匀量化

改进PCM编码技术的一个方法是采用非均匀量化，即让量化级高度随信号振幅而变化。信号振幅小则缩小量化级高度，信号振幅大时则增大量化级高度。这样就可在满足精度要求情况下用较少位数实现编码。在声音数据还原时，采用相同的规则。改进PCM编码技术的一个方法是采用非均匀量化，即让量化级高度随信号振幅而变化。信号振幅小则缩小量化级高度，信号振幅大时则增大量化级高度。这样就可在满足精度要求情况下用较少位数实现编码。在声音数据还原时，采用相同的规则。在非均匀量化中，采样输入信号幅度和量化输出数据之间定义了两种对应关系，一种称为 律(-Law)压(缩)扩(展)算法，一种称为A律(A-Law)压(缩)扩(展)算法。它们主要用于数字电话通信中。  律计算公式为：

其中是信号x(n)的最大幅度，是控制压缩程序的参数，图4-15给出了按律压扩算法的输入输出特性曲线，为确定压缩量的参数，它反映最大量化间隔和最小量化间隔之比。由图可见，值越大，压缩量越大。由于律压扩的输入和输出关系是对数函数关系，所以这种编码又称为对数PCM。与律压扩相比，A律压扩的动态范围略小，小信号振幅时质量比律稍差。无论是A律还是律算法，它们的特性在输入信号振幅小时都呈线性，在输入信号振幅大时呈对数压缩特性。对于采样频率为8kHz，样本精度为16位的输入信号，使用A律压扩或律压扩编码，经过PCM编码器之后每个样本精度为8位，输出的数据率为64kb/s。这个数据就是ITU(国际电话与电报顾问委员会)推荐的G.711标准：话音频率脉冲编码调制。

图4-15 律的压缩特性

4.3.3 音频压缩编码的标准随着多媒体计算机系统及数字通信系统的发展，数字音频编码技术日益受到重视。为了提高信号传输和存储的效率，人们致力于信源编码的研究，力图在保证声音质量前提下，降低信源编码的数据速率，并由此产生了一系列的国际区域标准。国际电报电话咨询委员会CCITT先后提出一系列有关语音压缩编码建议。1972年制定了G.711，采用律或A律的PCM编码技术，数据速率64kb/s。1984年公布G.721标准，采用ADPCM编码技术，数据速率32kb/s。这两个标准均适用于3003400Hz窄带语音信号，也可用于公用电话网。针对宽带语音信号(50Hz7kHz)，CCITT制定了G.722编码标准，其数据速率为64kb/s。用此标准编码，可在综合业务数据网ISDN的B通道上传输音频数据。

在ISDN中，B通道用于传输主要数据(字母B代表bearer)。　　在ISDN中，有两种层次的服务----基本速率接口和主要速率接口。前者适用于家庭与小型企业，后者适用于社区和大型用户。这两种速率接口都包含数条B通道和一条D通道。B通道负责传输数据、声音及提供其它服务，D通道负责传输控制和信号消息。　　基本速率接口包含两条64Kbps的B通道和一条16Kbps的D通道。因此，一个基本速率接口总共可以提供128Kbps的服务。在美国，主要速率接口包含23条B通道和一条64Kbps的D通道；在欧洲，则为30条B通道和一条D通道。

为进一步降低数据速率，CCITT从1989年开始研究16kb/s的短延时高质量的音频编码标准。在AT&T Bell实验室16kb/s短延时码激励(LD-CELP)编码方案的基础上，又公布适合于长途电话网的新标准。另外，欧洲数字移动通信(GSM)制定了数字移动通信网的13kb/s长时预测规则码激励(RPE-LTP)语音编码标准。美国1989年也公布了CTIA标准。它采用长时延自适应CELP方案，适应于更低速率的语音压缩，主要应用在保密话音通信。ISO也制定了一系列的相应标准，运动图象专家组(MPEG)在制定运动图象编码标准的同时，制定了高保真立体声音频压缩标准“MPEG音频”。虽然MPEG声音标准是MPEG标准的一部分，但它也可独立应用。MPEG声音压缩算法是第一个高保真声音数据压缩的国际标准。

MPEG音频根据不同的算法分为三个层次。层次1与层次2具有大致相同的算法,如表4.4所示。输入音频信号的采样频率为48kHz、44.1kHz或32kHz，经过滤波器组分成32个子带。同时编码器利用人耳的屏蔽效应，根据音频信号的性质计算各个频率分量的屏蔽门限，以控制每一个子带的量化参数，达到数据压缩的目的。MPEG音频的层次3进一步引入了辅助子带、非均匀量化和熵编码等技术，可进一步提高压缩率。立体声信号的编码也可在MPEG音频中作为附加功能实现。MPEG音频压缩技术的传输速率为每声道32kb/s448kb/s。

表4.4 MPEG声音的质量 表中，MUSICAM 为自适应声音掩蔽特性的通用子带综合编码和复合技术。ASPEC表示高质量音乐信号自适应谱感知熵编码。

4.3.4 数字音频的文件格式在多媒体技术中，存储音频信息的文件格式主要有：WAV、VOC和MP3文件等。 • WAV文件WAV文件又称波形文件，是微软公司的音频文件格式。自Windows操作系统面世以来，就将WAV文件作为其标准格式使用。用于保存Windows平台的音频信息资源，被Windows平台及其应用程序所广泛支持。WAV文件来源于对声音模拟波形的采样，并以不同的量化位数把这些采样点的值转换成二进制数，然后保存，形成波形文件。

第4章 多媒体音频信息处理