1 / 77

第四章 音频媒体及其应用

第四章 音频媒体及其应用. 学习内容. 一、声音 二、模拟音频与数字音频 三、音频的采样、量化和数字化 (重点) 四、数字音频的格式 五、音频文件的读取 (重点) 六、声音质量的度量. 学习目标. 1 、了解声音相关概念及 要素 2 、掌握音频采样、量化和 数字化 原理 3 、了解数字音频的文件格式 4 、理解 WAV 文件的 文件结构. 一、声音. 声音是通过空气传播的一种连续的波,叫声波。 声音的强弱体现在声波压力的大小上 音调的高低体现在声音的频率上. 一、声音 —— 有关概念. 复合信号 :声音信号由许多频率不同的信号组成.

merlin
Download Presentation

第四章 音频媒体及其应用

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第四章 音频媒体及其应用

  2. 学习内容 一、声音 二、模拟音频与数字音频 三、音频的采样、量化和数字化(重点) 四、数字音频的格式 五、音频文件的读取(重点) 六、声音质量的度量

  3. 学习目标 1、了解声音相关概念及要素 2、掌握音频采样、量化和数字化原理 3、了解数字音频的文件格式 4、理解WAV文件的文件结构

  4. 一、声音 声音是通过空气传播的一种连续的波,叫声波。 声音的强弱体现在声波压力的大小上 音调的高低体现在声音的频率上

  5. 一、声音——有关概念 复合信号:声音信号由许多频率不同的信号组成 分量信号:单一频率的信号 带宽:描述组成复合信号的频率范围。如: 高保真声音的频率范围为10 Hz~20K Hz,它的带宽约为20K Hz。

  6. 一、声音——三要素 • 音强(volume) • 音调(pitch) • 音色 —> 响度,由振幅决定 —> 由频率决定 —> 指声音频率组成成分

  7. 一、声音——分类 • 次音频信号<20HZ(人耳听不到) • 音频信号20HZ~20kHZ(人能听到) • 超音频信号>20kHZ(人听不到,有很强的方向性,可以形成波束)

  8. 二、模拟音频与数字音频 模拟信号 数字信号

  9. 二、模拟音频与数字音频 模拟音频:在时间和幅度上都是连续变化的 数字音频:在时间和幅度上都是离散、不连续的

  10. 三、音频的数字化 模拟音频 数字音频 采样、量化、编码

  11. 数字化音频:信号变化过程图示 模拟信号 采样信号 数字信号 多媒体技术基础及应用

  12. 数字化音频:离散时间信号图示 多媒体技术基础及应用

  13. 数字化音频:离散幅度信号图示 多媒体技术基础及应用

  14. 三、音频的数字化(采样) 音频采样:当把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音波形上取一个幅度值。 信号转换示意图

  15. 三、音频的数字化(采样) 采样: 将时间上连续的取值变为有限个离散取值的过程

  16. 三、音频的数字化(采样) 奈奎斯特采样定理: 设连续信号X(t)的最高频率分量为Fm,以等间隔Ts(Ts称采样间隔,fs=1/Ts称为采样频率)对X(t)进行采样,得到Xs(t)。如果Fs>=2Fm,则Xs(t)保留了X(t )的全部信息(从Xs(t)可以不失真地恢复出X(t))。 只要采样频率高于信号中最高频率的2倍,就可以从采样中完全恢复原始信号的波形。

  17. 三、音频的数字化(量化) 音频量化:将经采样后幅度上无限多个连续的样值变为有限个离散值的过程

  18. 三、音频的数字化(量化) 量化过程:先将整个幅度划分成为有限个幅度(量化阶距) 的集合,把落入某个阶距内的样值归为一类,并赋予相同的 量化值。 量化等级的划分

  19. 均匀量化和非均匀量化 • 如果采用相等的量化间隔对采样所得信号作量化,则这种量化称为均匀量化或线性量化。 • 若量化间隔不相等则为非均匀量化。 • 量化后的样本值Y和原始值X的差E=Y-X称为量化误差或量化噪声。 多媒体技术基础及应用

  20. 三、音频的数字化 模拟信号 采样 量化 编码

  21. 三、音频的数字化 A/D转换中,影响质量及数据量的主要因素: • 每秒钟需要采集多少个声音样本即采样频率 • 每个声音样本的位数(bps)应该是多少即量化位数 例子:每个声音样本用16位表示,测得声音样本值是在0~65536的范围里,它的精度就是输入信号的1/65536

  22. 三、音频的数字化 声音质量与数据率

  23. 利用人耳掩蔽效应,设计心理声学模型实现高效音频压缩。(图3.5)利用人耳掩蔽效应,设计心理声学模型实现高效音频压缩。(图3.5) • 它企图从声音波形中提出生成声音的声学参数,利用生成模型重构出声音; • 数据率低(2.4kb/s左右),自然度差,保密性好。 • 基于音频数据的统计特性,目标是使生成的波形尽可能与原始波形保持一致; • 音质高,数据率也很高; • 编译码器的复杂程度较低。 音频编码的分类 • 波形编码 • 音源编码 • 基于人的听觉特性进行编码 多媒体技术基础及应用

  24. 脉冲编码调制(PCM) • 脉冲编码调制概念上最简单、理论上最完善,最早研制成功、使用最广,但数据量也最大。 • PCM的原理框图如图所示。 PCM的概念 多媒体技术基础及应用

  25. 脉冲编码调制(PCM)—均匀量化和非均匀量化 • 均匀量化、非均匀量化和量化误差 • 非线性量化的基本思想 • 在非线性量化中,采样输入信号幅度和量化输出数据之间定义了两种对应关系,这是基于对语音信号的统计分析后由CCITT建议的: • m律压扩算法和A律压扩算法 多媒体技术基础及应用

  26. PCM示意图 多媒体技术基础及应用

  27. 自适应脉码调制概念 • APCM是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。自适应可以是: • 瞬时自适应 • 音节自适应 多媒体技术基础及应用

  28. APCM的量化阶 • 改变量化阶大小的方法有两种: • 前向自适应 • 根据未量化的样本值的均方根值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进行编码作为边信息(side information)传送到接收端。 • 后向自适应 多媒体技术基础及应用

  29. APCM示意图 • 插入林图3-13APCM方块图 多媒体技术基础及应用

  30. 差分脉码调制(DPCM) • DPCM的思想: 根据过去的样本去估算下一个样本信号的幅度大小(称为预测值),然后对实际信号值与预测值之差进行量化编码,从而就减少了表示每个样本信号的位数。DPCM原理示意图 多媒体技术基础及应用

  31. DPCM示意图 • 插入林图3-14DPCM方块图 多媒体技术基础及应用

  32. 自适应差分脉码调制 ADPCM的核心思想: • 自适应量化:利用自适应的思想改变量化阶的大小; • 自适应预测:使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。ADPCM框图。 多媒体技术基础及应用

  33. ADPCM示意图 • 插入林图3-15ADPCM方块图 多媒体技术基础及应用

  34. ADPCM解码器示意图 • 插入林图3-16b.ADPCM解码器 多媒体技术基础及应用

  35. LD_CELP低延时-码激励线性预测编码 • 是以美国AT&T公司贝尔实验室提出的LD_CELP(低延时码激励线性预测)算法为基础,它充分考虑了听觉特性。其基本思想如下: 多媒体技术基础及应用

  36. DL_CELP编码思想(a) 1. 语音输入每帧5个取样值,并附上10bit的描述激励信号波形与增益的信息; 2. 编码时用事先准备好的激励矢量的所有组合去合成语音; 多媒体技术基础及应用

  37. DL_CELP编码思想(b) 3. 将合成结果与输入信号相比较,选出听觉加权后距离最小的码元作为信息传输; 4. 解码端将发送端制定的激励矢量、3 bit增益码以及自身已经合成过的语音波形一起合成为语音。 多媒体技术基础及应用

  38. MPEG中的音频编码器 多媒体技术基础及应用

  39. MPEG中的音频编码层次 • MPEG声音标准提供三个独立的压缩层次:层1、层2和层3 • 后继层次的压缩比更高,编码解码器也更复杂 • 每层都自含SBC编码器,高层的SBC可以使用低层SBC的声音数据 多媒体技术基础及应用

  40. MPEG中的音频编码层次1 • 层1包括将数字音频变成32个子带的基本映射。将数据格式化成块的固定分段。决定自适应位分配的心理声学模型。利用块压扩合格石化的量化器。 • 编码/解码理论延时最小为19ms,数据传输率384kb/s。 多媒体技术基础及应用

  41. MPEG中的音频编码层次2 • 层2提供了位分配,缩放因子和抽样的附加编码。使用了不同的帧格式。 • 理论上最小编解码延时35ms,数据传输率256kb/s~192kb/s。用于数字广播、CD-I、VCD等。 多媒体技术基础及应用

  42. MPEG中的音频编码层次3 • 层3采用混合带通滤波器以提高频率分辨率。增加了差值量化、自适应分段和量化值的熵编码。 • 理论上最小编解码延时59ms,数据传输率64kb/s。用于ISDN上的声音传播。 多媒体技术基础及应用

  43. 层次 压缩率 立体声信号所对应的位率 1 4 : 1 384(kbps) 2 6:1~8:1 256~192(kbps) 3 10:1~12:1 128~112(kbps) MPEG的声音压缩率 多媒体技术基础及应用

  44. MPEG中的音频解码 • 解码器按编码器定义的语法接受压缩的音频数据流,按解码部分的方法解出数据元素,按滤波器的规定用这些数据产生数字音频输出。 多媒体技术基础及应用

  45. MPEG音频解码结构框图 多媒体技术基础及应用

  46. DOLBY AC-3编码和解码 • 由美国DOLBY实验室开发 • 提供5.1声道从20Hz~20KHz的平滑带宽(图) • 将六个声道压缩成一个通道 • 数据率320Kbps 多媒体技术基础及应用

  47. AC-3的应用范围 • 制作影碟、CD、VHS录像带 • 数字广播、有线电视 • 直播卫星 • 美国的HDTV音频标准 多媒体技术基础及应用

  48. AC-3的技术特色 • 充分利用心理声学特性实现噪声掩蔽 • 可用某一声道的声压掩蔽其他声道的噪声 多媒体技术基础及应用

  49. AC-3同步帧的构成(1) • 同步信息(SI) • 同步字:标志帧的开始 • 检验码(CRC1):循环冗余校验 • 采样频率:说明PCM码流的采样率(48,44.1、32KHz) • 帧长度代码: 多媒体技术基础及应用

  50. AC-3同步帧的构成(2) • 比特流标识(BSI) 包括版本、编码模式等信息 • 音频数据块 包含音频数据以及相关的解码控制信息 多媒体技术基础及应用

More Related