1 / 18

多媒体技术

多媒体技术. 中南大学信息科学与工程学院 黄东军. 第八章 MPEG 音频. 1 听觉系统的感知特性. 1.1 对响度的感知. 1 听觉系统的感知特性. 1.1 对响度的感知 观察结论: 存在听阈和听觉盲区 存在痛阈 听觉系统对 2kHz~4KHz 的声音最敏感. 1 听觉系统的感知特性. 1.2 对音高的感知. Mel = 1000 log 2 (f + 1). 观察结论: 听觉系统对频率的感知与声音的客观频率成非线性关系。. 1 听觉系统的感知特性. 1.3 掩蔽效应.

xuxa
Download Presentation

多媒体技术

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 多媒体技术 中南大学信息科学与工程学院 黄东军

  2. 第八章 MPEG音频

  3. 1 听觉系统的感知特性 1.1 对响度的感知

  4. 1 听觉系统的感知特性 • 1.1 对响度的感知 • 观察结论: • 存在听阈和听觉盲区 • 存在痛阈 • 听觉系统对2kHz~4KHz的声音最敏感

  5. 1 听觉系统的感知特性 1.2 对音高的感知 Mel = 1000 log 2 (f + 1) 观察结论: 听觉系统对频率的感知与声音的客观频率成非线性关系。

  6. 1 听觉系统的感知特性 1.3 掩蔽效应 当一个强纯音和一个弱纯音的频率接近时,听觉系统就会失去对弱纯音的感知,这种现象称为掩蔽效应。

  7. 1 听觉系统的感知特性 1.3 掩蔽效应 • 观察结论: • 低频音较之高频音有更强的掩蔽作用。 • 存在若干个(通常为24个)所谓掩蔽效应带(频率区间),称为临界频带(critical band)。

  8. 2 MPEG Audio的心理声学模型 • 由于存在听觉阈值,因此当输入信号的电平地低于听觉阈值时,系统就去掉这些信号,从而减少了音频数据量。 • 由于存在掩蔽效应,因此系统可以设法消除被掩蔽的声音信号(电平),这也降低了数据量。 • 由于听觉系统对2kHz~4KHz的声音比较敏感,因此系统可以提高对这一部分信号的编码强度,而降低其他频段信号的编码强度。

  9. 3 MPEG Audio编解码系统 3.1 系统结构 MPEG Audio Codec = Sub-Band Codec + 心理声学模型

  10. 3 MPEG Audio编解码系统 3.2 部件分析 • 多相滤波器组 作用:将输入信号分成32个频率子带。 子带划分方法:线性划分;按临界频带划分

  11. 3 MPEG Audio编解码系统 3.2 部件分析 • 编码器

  12. 3 MPEG Audio编解码系统 3.2 部件分析 • 心理声学模型

  13. 3 MPEG Audio编解码系统 3.2 部件分析 • 心理声学模型如何作用于编码器 核心思想:计算所谓信掩比(Signal-to-Mask Ratio, SMR),通过SMR来调节量化深度。 掩蔽音 SMR = 掩蔽阈值(最小) 例如: 降低量化深度 被掩蔽音(noise) SMR 掩蔽阈值

  14. 3 MPEG Audio编解码系统 3.3 MPEG Audio 的编码分层

  15. 3 MPEG Audio编解码系统 3.3 MPEG Audio 的编码分层 • 层1 • - 每帧数据包含384个样本(32 x 12) • - 采用线性子带划分 • - 使用频域掩蔽特性 • - SMR使用全局掩蔽阈值

  16. 3 MPEG Audio编解码系统 3.3 MPEG Audio 的编码分层 • 层2 • - 每帧数据包含1152个样本(32 x 12 x 3) • - 采用线性子带划分 • - 使用频域掩蔽和时域掩蔽特性 • - SMR使用全局掩蔽阈值

  17. 3 MPEG Audio编解码系统 3.3 MPEG Audio 的编码分层 • 层3(即MP3) • - 每帧数据包含1152个样本(32 x 12 x 3) • - 采用临界频带划分子带 • - 使用频域掩蔽和时域掩蔽特性,还考虑了立体声冗余特性 • - 增加使用Huffman编码进一步压缩数据

  18. Thank you !

More Related