1 / 36

多媒体音频技术

多媒体音频技术. 音频信息处理. 第一节 声音的基本概念 声音是一连续的波,称为声波 声音的强弱体现在其振幅上,声音的音调的高低体现在声音的频率上 声音信号由许多频率不同的信号组成,是复合信号 声音的带宽:复合信号的频率范围 例如 高保真声音的频率范围为 10Hz—20 000Hz ,其带宽约为 20KHz 。 次音信号 0Hz—20Hz ,音频信号 20Hz—20KHz , 话音信号 300Hz—3 000Hz ,超音频信号: 20KHz 以上。. 第二节 声音信号的数字化.

snowy
Download Presentation

多媒体音频技术

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 多媒体音频技术

  2. 音频信息处理 第一节 声音的基本概念 • 声音是一连续的波,称为声波 • 声音的强弱体现在其振幅上,声音的音调的高低体现在声音的频率上 • 声音信号由许多频率不同的信号组成,是复合信号 • 声音的带宽:复合信号的频率范围例如 高保真声音的频率范围为10Hz—20 000Hz,其带宽约为20KHz。 • 次音信号 0Hz—20Hz,音频信号20Hz—20KHz,话音信号 300Hz—3 000Hz,超音频信号:20KHz以上。

  3. 第二节 声音信号的数字化 • 模拟信号与数字信号在时间和幅度上都是连续的信号称为模拟信号在时间和幅度上都是用离散的数字表示的信号称为数字信号 • 对模拟信号的处理比较复杂,难于精确控制,成本高。将模拟信号转换成数字信号,处理简单,精确。 • 声音信号的数字化 • 采样在某特定时刻对模拟信号进行测量叫采样每隔相等的一段时间进行采样,称为均匀采样 • 量化把信号幅度划分成若干小段,若每段都是相等的,称为线性量化,否则称为非线性量化。

  4. 采样频率采样频率即取样频率,指每秒钟取得声音样本的次数。采样频率越高,声音的质量也就越好。人耳的分辨率很有限,所以太高的频率就分辨不出来了;采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级,22.05只能达到FM广播的声音品质,44.1KHz是CD音质,48KHz则是DVD Audio或专业领域才会采用。根据奈奎斯特理论,采样频率不低于声音信号最高频率的两倍。这样就能把数字表达的声音还原成原来的声音,称为无损数字化。采样定律用公式表示为 • fs≥2f 或者 Ts ≤T/2其中f为被采样信号的最高频率。 • 采样(量化)精度样本大小是用每个声音样本的位数bit/s(即bps)表示的,它反映度量声音波形幅度的精度。 既 用样本值的二进制位数来表示。位数越多精度越高,数据也越大。

  5. 第三节 音频编码基础 • 音频编码分类音频编码的目的在于压缩数据。在进行压缩时,要在音频质量、数据量、计算复杂度三方面进行考虑。音频编码的分类如下: • 基于音频数据的统计特性进行编码(波形编译码器) (其目标是使重建语音波形保持原波形的形状。如:PCM(脉冲编码调制)、DPCM(差分脉冲编码调制)、APCM(自适应脉冲编码调制)、ADPCM(自适应差分脉冲编码调制) • 基于音频的声学参数,进行参数编码(音源编译码器)这类编码数据率低,但质量清晰度低。上述两种编码算法结合称为混合编码。 • 基于人的听觉特性进行编码

  6. 音频编码算法的评价 • 数据的压缩必然引起音频质量的降低。评价编码/解码器一般根据以下几个参数:音频质量、数据率、编码/解码延时和算法复杂度。

  7. 声音质量的度量 (用带宽度量) 质量 采样频率 (kHz) 样本精度 (bit/s) 单道声/ 立体声 数据率(kB/s) (未压缩) 频率范围 电话* 8 8 单道声 8 200~3400 Hz AM 11.025 8 单道声 11.0 FM 22.050 16 立体声 88.2 20~15 000Hz CD 44.1 16 立体声 176.4 20~20 000 Hz DAT 48 16 立体声 192.0 20~20 000 Hz 数字音频的质量与采样频率和量化精度有关。数字音频可分以下几个等级 50~7 000Hz 声音质量和数据率 电话质量 AM质量音乐 FM质量 CD质量

  8. 分数 质量级别 失真级别 5 优(Excellent) 无察觉 4 良(Good) (刚)察觉但不讨厌 3 中(Fair) (察觉)有点讨厌 2 差(Poor) 讨厌但不反感 1 劣(Bad) 极讨厌(令人反感) 声音质量的度量另外两种方法(主/客观评价) 对于音频质量的评价分为客观评定和主观评定。客观评定是通过测量一些特性来评价度量,主要用信噪比(signal to niose ratio,SNR)。 广泛使用的是主观评定,以主观意见打分(Mean Opinion Score—MOS)来度量:

  9. 1.概述 MIDI是Musical Instrument Digital Interface的首写字母组合词,可译成“电子乐器数字接口”。用于在音乐合成器(music synthesizers)、乐器(musical instruments)和计算机之间交换音乐信息的一种标准协议. MIDI是乐器和计算机使用的标准语言,是一套指令(即命令的约定),它指示乐器即MIDI设备要做什么,怎么做,如演奏音符、加大音量、生成音响效果等。MIDI不是声音信号,在MIDI电缆上传送的不是声音,而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令。 MIDI标准下列几个优点:生成的文件比较小,因为MIDI文件存储的是命令,而不是声音波形;容易编辑,因为编辑命令比编辑声音波形要容易得多;可以作背景音乐,因为MIDI音乐可以和其它的媒体,如数字电视、图形、动画、话音等一起播放,这样可以加强演示效果。 产生MIDI乐音的方法很多,现在用得较多的方法有两种:一种是(frequency modulation,FM)合成法,另一种是乐音样本合成法,也称为波形表(Wavetable)合成法

  10. 声音的合成 让计算机演奏音乐最简单的方法是采用录音/重放的方式。这种方法数据量大。另一种方法是采取合成的方式产生音乐。1976年,FM(frequency modulation,FM)调频合成法产生,1984年另一种合成技术是乐音样本合成法,也称为波形表(Wavetable)合成法产生。 一、调频音乐合成 音乐包括确定的基频谱和这个基频整数倍的谐波谱。这是与噪声不同的地方。 一个音乐必须有音高、音色、响度和持续时间4个因素。 音高是指声波的基频。基频越低给人的感觉越低沉。 音色是由声音的频谱决定。人们能分辨出相同音高的小提琴和钢琴的声音,是因为它们的音色不同。小号有较强的穿透力是其声音中的高次谐波非常丰富。 响度可通过调节声波的整体幅度来实现。 时值的变化导致旋律的进行,或平缓,或跳跃。 通过对上述参数的控制来合成音乐是FM的基本思想。

  11. FM合成器生成乐音的基本原理如图所示。它由5个基本模块组成:数字载波器、调制器、声音包络发生器、数字运算器和模数转换器。

  12. 声音合成器的波形 各种不同乐音的产生是通过组合各种波形和各种波形参数并采用各种不同的方法实现的。用什么样的波形作为数字载波波形、用什么样的波形作为调制波形、用什么样的波形参数去组合才能产生所希望的乐音,这就是FM合成器的算法。

  13. 通过改变FM合成器参数,可以生成不同的乐音 • 改变数字载波频率可以改变乐音的音调,改变它的幅度可以改变它的音量。 • 改变波形的类型,如用正弦波、半正弦波或其它波形,会影响基本音调的完整性。 • 快速改变调制波形的频率(即音调周期)可以改变颤音的特性。 • 改变反馈量,就会改变正常的音调,产生刺耳的声音。 • 选择的算法不同,载波器和调制器的相互作用也不同,生成的音色也不同。

  14. 二、乐音样本合成声音 使用FM合成法来产生各种逼真的乐音是相当困难的,有些乐音几乎不能产生,因此很自然地就转向乐音样本合成法。这种方法就是把真实乐器发出的声音以数字的形式记录下来,播放时改变播放速度,从而改变音调周期,生成各种音阶的音符。 乐音样本的采集相对比较直观。音乐家在真实乐器上演奏不同的音符,选择44.1 kHz的采样频率、16位的乐音样本,这相当于CD-DA的质量,把不同音符的真实声音记录下来,这就完成了乐音样本的采集。 乐音样本通常放在ROM芯片上,ROM是超大规模集成电路(very large scale integrated,VLSI)芯片。

  15. 3、MIDI消息 MIDI设备使用的一系列MIDI音符,可被认为是告诉音乐合成器如何播放一小段音乐的指令。因为MIDI数据是一套音乐符号的定义,而不是实际的音乐声音,因此MIDI文件的内容被称为MIDI消息(MIDI messages)。一个MIDI消息由1个8位的状态字节并通常跟着2个数据字节组成。在状态字节中,最高有效位设置成“1”,低4位用来表示这个MIDI消息是属于哪个通道,4位可表示16个可能的通道,其余3位的设置表示这个MIDI消息是什么类型的消息。MIDI消息可分成通道消息(Channel Messages)和系统消息(System Messages)两大类,如图所示。

  16. 2.MIDI系统组成 任何电子乐器,只要有处理MIDI信息的处理器和适当的硬件接口都能变成MIDI装置。MIDI间靠这种接口传递消息,消息是乐谱的数据描述。 MIDI乐器上的MIDI接口通常包含3种不同的MIDI连接器,用IN(输入), OUT(输出)和THRU(穿越)。MIDI数据流通常由MIDI控制器(MIDI controller)产生,如乐器键盘(musical instrument keyboard),或者由MIDI音序器(MIDI sequencer)产生。MIDI控制器是当作乐器使用的一种设备,在播放时把演奏转换成实时的MIDI数据流,MIDI音序器是一种装置,允许MIDI数据被捕获、存储、编辑、组合和重奏。来自MIDI控制器或者音序器的MIDI数据输出通过该装置的MIDI OUT连接器传输。 MIDI数据流的接收设备是MIDI声音发生器(MIDI sound generator)或者MIDI声音模块(MIDI sound module),它们在MIDI IN端口接收MIDI信息(MIDI messages),然后播放声音。下图表示的是一个简单的MIDI系统,它由一个MIDI键盘控制器和一个MIDI声音模块组成。许多MIDI键盘乐器在其内部既包含键盘控制器,又包含MIDI声音模块功能。在这些单元中,键盘控制器和声音模块之间已经有内部链接,这个链接可以通过该设备中的控制功能(local control)对链接打开(ON)或者关闭(OFF)。

  17. 简单的MIDI系统 单个物理MIDI通道(MIDI channel)分成16个逻辑通道,每个逻辑通道可指定一种乐器,如下图所示。在MIDI信息(MIDI messages)中,用4个二进制位来表示这16个逻辑通道。音乐键盘可设置在这16个通道之中的任何一个,而MIDI声源或者声音模块可被设置在指定的MIDI通道上接收。

  18. 一个MIDI设备上的MIDI IN连接器接收到的信息可通过MIDI THRU连接器输出到另一个MIDI设备,并可以菊花链的方式连接多个MIDI设备,这样就组成了一个复杂的MIDI系统,如下图所示。在这个例子中,MIDI键盘控制器对MIDI音序器(MIDI sequencer)来说是一个输入设备,而音序器的MIDI OUT端口连接了几个声音模块。作曲家可使用这样的系统来创作几种不同乐音组成的曲子,每次在键盘上演奏单独的曲子。这些单独曲子由音序器记录下来,然后音序器通过几个声音模块一起播放。每一曲子在不同的MIDI通道上播放,而声音模块可分别设置成接收不同的曲子。例如,声音模块#1可设置成播放钢琴声并在通道1接收信息,模块2设置成播放低音并在通道5接收信息,而模块2设置成播放鼓乐器并在通道10上接收消息等。在下图中使用了多个声音模块同时分别播放不同的声音信息。这些模块也可以做在一起构成一个叫做多音色(multitimbral)的声音模块,它同样可以起到同时接收和播放多种声音的作用。

  19. PC机构造的MIDI系统使用的声音模块就是这样一种单独的多音色声音模块。在这种系统中,PC机使用内置的MIDI接口卡,用来把MIDI数据发送到外部的多音色MIDI合成器模块。像多媒体演示程序、教育软件或者游戏等应用软件,它们把信息通过PC总线发送到MIDI接口卡。MIDI接口卡把信息转换成MIDI消息(MIDI messages),然后送到多音色声音模块同时播放出许多不同的乐音,例如钢琴声、低音和鼓声。使用安装在PC机上的高级的MIDI音序器软件,用户可把MIDI键盘控制器(MIDI keyboard controller)连接到MIDI接口卡的MIDI IN端口,也可以有相同的音乐创作功能。

  20. 使用PC机构造MIDI系统可以有不同的方案。例如,可把MIDI接口和MIDI声音模块组合在PC添加卡上。多媒体个人计算机MPC(Multimedia PC)规范就要求PC添加卡上必须有这样的声音模块,称为合成器(synthesizer)。通过已有的电子波形来产生声音的合成器称为FM合成器(FM synthesis),而通过存储的乐音样本来产生声音的合成器称为波表合成器(wave table synthesis)。

  21. 常用音频文件格式 • *.wav • *.mp3 *.rm *.wma • Midi *.mid • *.ape • ………… • …………

  22. 作业 • 什么叫做采样?什么叫做量化?什么叫做线性量化?什么叫做非线性量化? • 采样频率根据什么原则来确定? • 什么叫做MIDI?它有什么特点? • 说明FM合成声音和乐音样本合成声音的原理 • 常用的声音文件格式有哪些?各有什么特点?在你身边的数字设备中你还知道有哪些音频格式在使用,它们的特点是什么? • APE是什么文件格式?特点是什么?

  23. 声音处理 1、声音的获取 录音 从CD碟中获取(用“解霸”、NERO) 从VCD中获取 从其他格式文件中获取:例如RM

  24. 声音处理 2、声音的编辑 用“录音机”软件进行简单的处理 用“GOLDWAVE”进行音频处理 用视频处理软件中的音频编辑功能进行音频处理

  25. GOLDWAVE ●音频编辑器 ●播放控制器 编辑工具 左声道 右声道

  26. 用cool edit pro 编辑声音

  27. 声音处理 音频文件的转换 • Wav转Mp3 • Mp3转Wav • Wav等文件转Midi(不现实) • Mp3、Wav 转Wma、Rm

  28. 课件中对声音文件的要求 • 一般情况为了使课件文件尽量的小,适合较低配置的电脑运行,声音在满足听觉要求的情况下尽量使用较低的声音品质和较高压缩率的文件. • 但是在运行环境非常好的情况下,为了更好的视听效果可以采用高保真的声音品质

  29. 不同场合对音频质量的要求 • 课件中语音可以采用11.025KHz的采样频率\单声道,但是音乐文件至少应采用22.05KHz,否则声音听起来不好 • 在影视里的配音应选用44.1KHz采样的声音,如果这段文件最终是用在课件里的就可以按照课件里的要求. • 选用素材时尽量选音质好的来用,最后在根据需要来转换格式. • 如果初始素材音质不好,后面转成高一级别的格式就没有意义了,特别是一些低码率的MP3文件转成高码率来用

More Related