770 likes | 965 Views
第四章 音频媒体及其应用. 学习内容. 一、声音 二、模拟音频与数字音频 三、音频的采样、量化和数字化 (重点) 四、数字音频的格式 五、音频文件的读取 (重点) 六、声音质量的度量. 学习目标. 1 、了解声音相关概念及 要素 2 、掌握音频采样、量化和 数字化 原理 3 、了解数字音频的文件格式 4 、理解 WAV 文件的 文件结构. 一、声音. 声音是通过空气传播的一种连续的波,叫声波。 声音的强弱体现在声波压力的大小上 音调的高低体现在声音的频率上. 一、声音 —— 有关概念. 复合信号 :声音信号由许多频率不同的信号组成.
E N D
学习内容 一、声音 二、模拟音频与数字音频 三、音频的采样、量化和数字化(重点) 四、数字音频的格式 五、音频文件的读取(重点) 六、声音质量的度量
学习目标 1、了解声音相关概念及要素 2、掌握音频采样、量化和数字化原理 3、了解数字音频的文件格式 4、理解WAV文件的文件结构
一、声音 声音是通过空气传播的一种连续的波,叫声波。 声音的强弱体现在声波压力的大小上 音调的高低体现在声音的频率上
一、声音——有关概念 复合信号:声音信号由许多频率不同的信号组成 分量信号:单一频率的信号 带宽:描述组成复合信号的频率范围。如: 高保真声音的频率范围为10 Hz~20K Hz,它的带宽约为20K Hz。
一、声音——三要素 • 音强(volume) • 音调(pitch) • 音色 —> 响度,由振幅决定 —> 由频率决定 —> 指声音频率组成成分
一、声音——分类 • 次音频信号<20HZ(人耳听不到) • 音频信号20HZ~20kHZ(人能听到) • 超音频信号>20kHZ(人听不到,有很强的方向性,可以形成波束)
二、模拟音频与数字音频 模拟信号 数字信号
二、模拟音频与数字音频 模拟音频:在时间和幅度上都是连续变化的 数字音频:在时间和幅度上都是离散、不连续的
三、音频的数字化 模拟音频 数字音频 采样、量化、编码
数字化音频:信号变化过程图示 模拟信号 采样信号 数字信号 多媒体技术基础及应用
数字化音频:离散时间信号图示 多媒体技术基础及应用
数字化音频:离散幅度信号图示 多媒体技术基础及应用
三、音频的数字化(采样) 音频采样:当把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音波形上取一个幅度值。 信号转换示意图
三、音频的数字化(采样) 采样: 将时间上连续的取值变为有限个离散取值的过程
三、音频的数字化(采样) 奈奎斯特采样定理: 设连续信号X(t)的最高频率分量为Fm,以等间隔Ts(Ts称采样间隔,fs=1/Ts称为采样频率)对X(t)进行采样,得到Xs(t)。如果Fs>=2Fm,则Xs(t)保留了X(t )的全部信息(从Xs(t)可以不失真地恢复出X(t))。 只要采样频率高于信号中最高频率的2倍,就可以从采样中完全恢复原始信号的波形。
三、音频的数字化(量化) 音频量化:将经采样后幅度上无限多个连续的样值变为有限个离散值的过程
三、音频的数字化(量化) 量化过程:先将整个幅度划分成为有限个幅度(量化阶距) 的集合,把落入某个阶距内的样值归为一类,并赋予相同的 量化值。 量化等级的划分
均匀量化和非均匀量化 • 如果采用相等的量化间隔对采样所得信号作量化,则这种量化称为均匀量化或线性量化。 • 若量化间隔不相等则为非均匀量化。 • 量化后的样本值Y和原始值X的差E=Y-X称为量化误差或量化噪声。 多媒体技术基础及应用
三、音频的数字化 模拟信号 采样 量化 编码
三、音频的数字化 A/D转换中,影响质量及数据量的主要因素: • 每秒钟需要采集多少个声音样本即采样频率 • 每个声音样本的位数(bps)应该是多少即量化位数 例子:每个声音样本用16位表示,测得声音样本值是在0~65536的范围里,它的精度就是输入信号的1/65536
三、音频的数字化 声音质量与数据率
利用人耳掩蔽效应,设计心理声学模型实现高效音频压缩。(图3.5)利用人耳掩蔽效应,设计心理声学模型实现高效音频压缩。(图3.5) • 它企图从声音波形中提出生成声音的声学参数,利用生成模型重构出声音; • 数据率低(2.4kb/s左右),自然度差,保密性好。 • 基于音频数据的统计特性,目标是使生成的波形尽可能与原始波形保持一致; • 音质高,数据率也很高; • 编译码器的复杂程度较低。 音频编码的分类 • 波形编码 • 音源编码 • 基于人的听觉特性进行编码 多媒体技术基础及应用
脉冲编码调制(PCM) • 脉冲编码调制概念上最简单、理论上最完善,最早研制成功、使用最广,但数据量也最大。 • PCM的原理框图如图所示。 PCM的概念 多媒体技术基础及应用
脉冲编码调制(PCM)—均匀量化和非均匀量化 • 均匀量化、非均匀量化和量化误差 • 非线性量化的基本思想 • 在非线性量化中,采样输入信号幅度和量化输出数据之间定义了两种对应关系,这是基于对语音信号的统计分析后由CCITT建议的: • m律压扩算法和A律压扩算法 多媒体技术基础及应用
PCM示意图 多媒体技术基础及应用
自适应脉码调制概念 • APCM是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。自适应可以是: • 瞬时自适应 • 音节自适应 多媒体技术基础及应用
APCM的量化阶 • 改变量化阶大小的方法有两种: • 前向自适应 • 根据未量化的样本值的均方根值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进行编码作为边信息(side information)传送到接收端。 • 后向自适应 多媒体技术基础及应用
APCM示意图 • 插入林图3-13APCM方块图 多媒体技术基础及应用
差分脉码调制(DPCM) • DPCM的思想: 根据过去的样本去估算下一个样本信号的幅度大小(称为预测值),然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。DPCM原理示意图 多媒体技术基础及应用
DPCM示意图 • 插入林图3-14DPCM方块图 多媒体技术基础及应用
自适应差分脉码调制 ADPCM的核心思想: • 自适应量化:利用自适应的思想改变量化阶的大小; • 自适应预测:使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。ADPCM框图。 多媒体技术基础及应用
ADPCM示意图 • 插入林图3-15ADPCM方块图 多媒体技术基础及应用
ADPCM解码器示意图 • 插入林图3-16b.ADPCM解码器 多媒体技术基础及应用
LD_CELP低延时-码激励线性预测编码 • 是以美国AT&T公司贝尔实验室提出的LD_CELP(低延时码激励线性预测)算法为基础,它充分考虑了听觉特性。其基本思想如下: 多媒体技术基础及应用
DL_CELP编码思想(a) 1. 语音输入每帧5个取样值,并附上10bit的描述激励信号波形与增益的信息; 2. 编码时用事先准备好的激励矢量的所有组合去合成语音; 多媒体技术基础及应用
DL_CELP编码思想(b) 3. 将合成结果与输入信号相比较,选出听觉加权后距离最小的码元作为信息传输; 4. 解码端将发送端制定的激励矢量、3 bit增益码以及自身已经合成过的语音波形一起合成为语音。 多媒体技术基础及应用
MPEG中的音频编码器 多媒体技术基础及应用
MPEG中的音频编码层次 • MPEG声音标准提供三个独立的压缩层次:层1、层2和层3 • 后继层次的压缩比更高,编码解码器也更复杂 • 每层都自含SBC编码器,高层的SBC可以使用低层SBC的声音数据 多媒体技术基础及应用
MPEG中的音频编码层次1 • 层1包括将数字音频变成32个子带的基本映射。将数据格式化成块的固定分段。决定自适应位分配的心理声学模型。利用块压扩合格石化的量化器。 • 编码/解码理论延时最小为19ms,数据传输率384kb/s。 多媒体技术基础及应用
MPEG中的音频编码层次2 • 层2提供了位分配,缩放因子和抽样的附加编码。使用了不同的帧格式。 • 理论上最小编解码延时35ms,数据传输率256kb/s~192kb/s。用于数字广播、CD-I、VCD等。 多媒体技术基础及应用
MPEG中的音频编码层次3 • 层3采用混合带通滤波器以提高频率分辨率。增加了差值量化、自适应分段和量化值的熵编码。 • 理论上最小编解码延时59ms,数据传输率64kb/s。用于ISDN上的声音传播。 多媒体技术基础及应用
层次 压缩率 立体声信号所对应的位率 1 4 : 1 384(kbps) 2 6:1~8:1 256~192(kbps) 3 10:1~12:1 128~112(kbps) MPEG的声音压缩率 多媒体技术基础及应用
MPEG中的音频解码 • 解码器按编码器定义的语法接受压缩的音频数据流,按解码部分的方法解出数据元素,按滤波器的规定用这些数据产生数字音频输出。 多媒体技术基础及应用
MPEG音频解码结构框图 多媒体技术基础及应用
DOLBY AC-3编码和解码 • 由美国DOLBY实验室开发 • 提供5.1声道从20Hz~20KHz的平滑带宽(图) • 将六个声道压缩成一个通道 • 数据率320Kbps 多媒体技术基础及应用
AC-3的应用范围 • 制作影碟、CD、VHS录像带 • 数字广播、有线电视 • 直播卫星 • 美国的HDTV音频标准 多媒体技术基础及应用
AC-3的技术特色 • 充分利用心理声学特性实现噪声掩蔽 • 可用某一声道的声压掩蔽其他声道的噪声 多媒体技术基础及应用
AC-3同步帧的构成(1) • 同步信息(SI) • 同步字:标志帧的开始 • 检验码(CRC1):循环冗余校验 • 采样频率:说明PCM码流的采样率(48,44.1、32KHz) • 帧长度代码: 多媒体技术基础及应用
AC-3同步帧的构成(2) • 比特流标识(BSI) 包括版本、编码模式等信息 • 音频数据块 包含音频数据以及相关的解码控制信息 多媒体技术基础及应用