940 likes | 1.1k Views
内容提要. 第 2 章 多媒体技术基础. 2.1 数据压缩技术 2.2 数据压缩标准 2.3 数字音频技术 2.4 图形与图像处理 2.5 计算机动画技术基础 2.6 多媒体视频处理技术基础. 2.1 数据压缩技术 2.1.1 数据压缩的基本原理. 1. 多媒体的数据量、信息量和冗余量 数据压缩的对象是数据,数据是信息的载体,用来记录和传送信息。真正有用的不是数据本身,而是数据所携带的信息。 冗余是指信息存在的各种性质的多余度。 信息量与数据量的关系可以表示为 :
E N D
内容提要 第2章 多媒体技术基础 • 2.1 数据压缩技术 • 2.2 数据压缩标准 • 2.3 数字音频技术 • 2.4 图形与图像处理 • 2.5 计算机动画技术基础 • 2.6多媒体视频处理技术基础 广西医科大学信息中心
2.1 数据压缩技术 2.1.1数据压缩的基本原理 • 1.多媒体的数据量、信息量和冗余量 数据压缩的对象是数据,数据是信息的载体,用来记录和传送信息。真正有用的不是数据本身,而是数据所携带的信息。 冗余是指信息存在的各种性质的多余度。 信息量与数据量的关系可以表示为 : 数据量 = 信息量 + 数据冗余 数据压缩的目的——尽量减小数据冗余量,尽量保留主要信息量。 广西医科大学信息中心
2.1.1数据压缩的基本原理 • 多媒体数据表示中存在着大量的冗余,多媒体数据压缩技术就是利用多媒体数据的冗余性来减少多媒体数据量的方法。常见多媒体数据冗余类型如下: 4.视觉冗余 1. 空间冗余 2. 时间冗余 5.结构冗余 6.知识冗余 3.信息熵冗余 广西医科大学信息中心
2.1.2 数据压缩方法的分类 压缩处理一般是由两个过程组成:一是编码过程,即将原始数据经过编码进行压缩,以便存储与传输;二是解码过程,此过程对编码数据进行解码,还原为可以使用的数据。 数据压缩可分为两种类型:一种叫 做无损压缩,另一种叫做有损压缩。 广西医科大学信息中心
2.1.2 数据压缩方法的分类 • 无损压缩(冗余压缩、熵编码)法:无损压缩法去掉或减少了数据中的冗余量,但这些冗余量是可以重新恢复的,因此,无损压缩是可逆的过程。 例如:压缩软件WinRAR应用。 注意:无损压缩特点是压缩比小。 • 无损压缩法不会产生失真,在多媒体技术中一般用于文本数据的压缩。常见的例子是磁盘压缩。 广西医科大学信息中心
2.1.2 数据压缩方法的分类 • 有损压缩(熵压缩)法:有损压缩减少了信息量,而这些损失信息量是不能再恢复的,因此,有损压缩法是不可逆的。 例如:视/听觉等冗余,由于人的感觉对某些失真不易觉察的生理特征,决定了在某些场合可以减少信息量。 注意:有损压缩特点是压缩比大,但不可逆。 • 有损压缩法可用于对图像、声音、动态视频等数据的压缩,压缩比将达到几十倍甚至上百倍。 广西医科大学信息中心
2.1.3 数据压缩算法的综合评价指标 衡量一种数据压缩技术好坏的指标综合起来就是: • 压缩比要大; • 实现压缩的算法要简单,压缩、解压速度快; • 恢复效果要好。 广西医科大学信息中心
2.2 数据压缩标准 2.2.1 静态图像压缩标准 • JPEG JPEG是Joint Photographic Experts Group(联合图像专家组)的缩写,文件后辍名为“.jpg”或“.jpeg”,这个名称代表Joint Photographic Experts Group(联合图像专家小组)。是一种支持8位和24位色彩的压缩位图格式,适合在网络(Internet)上传输,是非常流行的图形文件格式对。对于照片等连续变化的灰度或彩色图像, JPEG 在保证图像质量的前提下,一般可以将图像压缩到原大小的十分之一到二十分之一。如果不考虑图像质量, JPEG 甚至可以将图像压缩到“无限小”。 广西医科大学信息中心
2.2.1 静态图像压缩标准 • JPEG2000 JPEG2000作为JPEG的升级版,其压缩率比JPEG高约30%左右,同时支持有损和无损压缩。JPEG2000格式有一个极其重要的特征在于它能实现渐进传输,即先传输图像的轮廓,然后逐步传输数据,不断提高图像质量,让图像由朦胧到清晰显示。此外,JPEG2000还支持所谓的"感兴趣区域" 特性,可以任意指定影像上感兴趣区域的压缩质量,还可以选择指定的部分先解压缩。 广西医科大学信息中心
2.2.2 动态图像压缩技术标准MPEG MPEG标准主要有以下五个,MPEG-1、MPEG-2、MPEG-4、MPEG-7及MPEG-21等。 • 数字声像压缩标准MPEG-1 MPEG-1制定于1992年,为工业级标准而设计, MPEG-1是为CD光碟介质定制的的视频和音频压缩格式。 MPEG-1广泛应用于CD-ROM、VCD等领域。 广西医科大学信息中心
2.2.2 动态图像压缩技术标准MPEG • 通用视频图像压缩编码标准MPEG-2 MPEG-2标准于1994年公布, MPEG-2编码标准希望囊括数字电视、图像通信各领域的编码标准。 MPEG-2广泛应用于数字电视、HDTV、DVD、视频采集压缩卡等领域。 广西医科大学信息中心
2.2.2 动态图像压缩技术标准MPEG • 低比特率/音视频压缩编码标准MPEG-4 MPEG-4标准于1998年公布,它不仅针对一定比特率下的视频、音频编码,更加注重多媒体系统的交互性和灵活性。 MPEG-4追求的不是高品质而是高压缩率以及适用于网络的交互能力。 MPEG-4标准主要应用于视像电话、视像电子邮件等领域。 广西医科大学信息中心
2.2.2 动态图像压缩技术标准MPEG • 多媒体内容描述接口MPEG-7 MPEG-7并不是一种压缩编码方法,其正规的名字叫做’多媒体内容描述接口,其目的是生成一种用来描述多媒体内容的标准。 MPEG-7可应用于数字图书馆,例如图象编目、音乐词典等;多媒体查询服务,如电话号码簿等;广播媒体选择,如广播与电视频道选取;多媒体编辑,如个性化的电子新闻服务、媒体创作等。 广西医科大学信息中心
2.2.2 动态图像压缩技术标准MPEG • 多媒体框架MPEG-21 MPEG-21的正式名称是“多媒体框架”或“数字视听框架”,它以将标准集成起来支持协调的技术以管理多媒体商务为目标,目的就是理解如何将不同的技术和标准结合在一起需要什么新的标准以及完成不同标准的结合工作。 广西医科大学信息中心
2.2.3 视频会议压缩编码标准H.26x • H.261 H.261是1990年ITU-T制定的一个视频编码标准,属于视频编解码器。其设计的目的是能够在带宽为64kbps的倍数的综合业务数字网(ISDN for Integrated Services Digital Network)上传输质量可接受的视频信号。 广西医科大学信息中心
2.2.3 视频会议压缩编码标准H.26x • H.263 H.263是国际电联ITU-T的一个标准草案,是为低码流通信而设计的。但实际上这个标准可用在很宽的码流范围,而非只用于低码流应用,它在许多应用中可以认为被用于取代H.261。H.263的编码算法与H.261一样,但做了一些改善和改变,以提高性能和纠错能力。 广西医科大学信息中心
2.2.3 视频会议压缩编码标准H.26x • H.264 H.264,是由ITU-T视频编码专家组(VCEG)和ISO/IEC动态图像专家组(MPEG)联合组成的联合视频组(JVT,Joint Video Team)提出的高度压缩数字视频编解码器标准。H.264最大的优势是具有很高的数据压缩比率,在同等图像质量的条件下,H.264的压缩比是MPEG-2的2倍以上,是MPEG-4的1.5~2倍。 广西医科大学信息中心
2.3.2 声音的基本特点 • 声音的传播与可听域 正常人能够听见20Hz到20000Hz的声音,而老年人的高频声音减少到10000Hz(或可以低到6000Hz)左右。人们把频率高于20000Hz的声音称为超声波,低于20Hz的称为次声波。超声波(高于20000Hz)和正常声波(20Hz - 20000Hz)遇到障碍物后会向原传播方向的反方向传播,而部分次声波(低于20Hz)可以穿透障碍物,俄罗斯在北冰洋进行的核试验产生的次声波曾经环绕地球6圈。 广西医科大学信息中心
2.3.2 声音的基本特点 • 声音的三要素 (一)音调(pitch):声音的高低(高音、低音),由“频率”(frequency)决定,频率越高音调越高。 (二)音色(Timbre):又称音品,波形决定了声音的音色。 (三)响度(loudness):人主观上感觉声音的大小(俗称音量),由“振幅”(amplitude)和人离声源的距离决定,振幅越大响度越大,人和声源的距离越小,响度越大。(单位:分贝dB) 广西医科大学信息中心
2.3.3 声音的数字化 声音卡以一定的采样频率和量化级对输入声音进行数字化采样,将其对模拟声音信号进行量化(模/数转换),然后以波形音频文件的格式存在硬盘上。声音重放时,声音卡将文件中的数字信号还原成模拟信号(数/模转换),经混音器混合后由扬声器放出来。 广西医科大学信息中心
2.3.3 声音的数字化 • 采样频频 标准的采样频率有3个:44.1khz、22.05khz、11.025khz。人耳能听到的声音范围是从20hz到20khz,因此,采用大于40khz的采样频率就可以达到高保真的效果。 • 量化位数 波形垂直方向被等分的细度是由采样点的测量精度所决定的。采样精度用二进制字节数来描述,它决定了振幅分割的疏密。标准的采样精度通常有4位,8位或16位。 • 声道数 单声道 双声道(立体声) 广西医科大学信息中心
2.3.3 声音的数字化 广西医科大学信息中心
2.3.4 数字音频的质量和数据量 • 声音数字化计算公式 数据量(bit/s)=采样频率(Hz)×量化位数(bit)×声道数 • 例如,用44.10 kHz的采样频率,16位的精度存储,则录制1秒钟的立体声节目,其WAV文件所需的存储量为: 44 100×16×2/8=176 400(字节) 广西医科大学信息中心
2.3.5 数字音频文件的保存格式 • Wave格式(. Wav), WAV是Microsoft/IBM共同开发的PC波形文件。因未经压缩,文件数据量很大。 特点:声音层次丰富,还原音质好 • MP3(.MP3),是一种按MPEG标准的音频压缩技术制作的音频文件。必须经过解压缩,数据量小。 特点:高压缩比(11:1),优美音质 广西医科大学信息中心
2.3.5 数字音频文件的保存格式 • WMA 格式(.WMA), WMA(Windows Media Audio)是Windows Media格式中的一个子集(音频格式)。 特点:压缩到MP3一半 • MIDI格式(.MID),用于合成、游戏,记录音符时值、频率、音色特征,数据量小。MIDI是由一组声音或乐器符号的集合。 特点:数据量很小,缺乏重现自然音 广西医科大学信息中心
2.3.5 数字音频文件的保存格式 • RA 格式(.RM ), RA采用音频/视频流和同步回放技术来实现在互联网上提供优质的多媒体信息。压缩比可达96:1,在网上普遍使用。 特点:可使用流媒体形式实现网上的实时播放,客户端通过Real Player播放器进行播放。(流媒体) 广西医科大学信息中心
2.3.5 数字音频文件的保存格式 • CD格式(.CDA),标准CD格式也就是44.1K的采样频率,速率88K/秒,16位量化位数,因为CD音轨可以说是近似无损的,因此它的声音基本上是忠于原声的,因此如果你如果是一个音响发烧友的话,CD是你的首选。 一个CD音频文件是一个*.cda文件,这只是一个索引信息,并不是真正的包含声音信息,所以不论CD音乐的长短,在电脑上看到的“*.cda文件”都是44字节长。 广西医科大学信息中心
2.3.6 合成音乐和MIDI • MIDI(Musical Instrument Digital Interface)乐器数字接口 ,是20 世纪80 年代初为解决电声乐器之间的通信问题而提出的。MIDI 传输的不是声音信号, 而是音符、控制参数等指令, 它指示MIDI 设备要做什么,怎么做,如演奏哪个音符、多大音量等。 广西医科大学信息中心
2.3.6 合成音乐和MIDI • 两种音频文件的比较 广西医科大学信息中心
2.3.7 声卡 • 声卡的工作原理 声卡 (Sound Card)也叫音频卡(港台称之为声效卡):声卡是多媒体技术中最基本的组成部分,是实现声波/数字信号相互转换的一种硬件。声卡的基本功能是把来自话筒、磁带、光盘的原始声音信号加以转换,输出到耳机、扬声器、扩音机、录音机等声响设备,或通过音乐设备数字接口(MIDI)使乐器发出美妙的声音。 广西医科大学信息中心
2.3.7 声卡 声卡的端口(输入端口和输出端口) 广西医科大学信息中心
2.3.7 声卡 广西医科大学信息中心
2.3.7 声卡 • 声卡的主要功能 声卡是负责录音、播音和声音合成的一种多媒体板卡。其功能包括: • 进行模数转换 • 音频的编辑与合成 • 音频的输入和输出 • MIDI音乐的录制和合成 • CD音乐的播放 广西医科大学信息中心
2.3.7 声卡 • 声卡的主要技术指标 • 采样频率 • 采样精度 • 声道数 • SNR 信噪比 广西医科大学信息中心
2.3.7 声卡 广西医科大学信息中心
2.4 图形与图像处理 2.4.1 图形与图像处理概述 • 色彩空间表示 色彩是人类视觉对可见光的感知结果,在可见光谱内不同波长的光会引起不同颜色感觉。 光的波长与颜色对照(单位:纳米) 广西医科大学信息中心
2.4.1 图形与图像处理概述 • 色彩三要素:色调、饱和度、亮度 • 色调(色相):就是色彩的相貌,表示颜色的种类,由可见光谱中各分量的波长来确定,如红、橙、黄、绿、青、蓝、紫等色彩 • 饱和度表示颜色的纯净程度 • 亮度指色彩所引起的人眼对明暗程度的感觉。 广西医科大学信息中心
2.4.1 图形与图像处理概述 • 三基色原理:将红、绿、蓝三种颜色按照不同的比例进行组合,就可以引起人眼对自然界的全部颜色感觉。当三色都为最大值时将产生白色,也称为加色法原理。 广西医科大学信息中心
2.4.1 图形与图像处理概述 R与Cyan(青) G与Magenta(洋红) B与Yellow(黄) 互补色:如果两种色光相混合而成白光,这两种色光互为补色 广西医科大学信息中心
2.4.1 图形与图像处理概述 • 色彩空间模型 • RGB模型(加色模式): 自然界中绝大部分的可见光谱可以用红、绿和蓝三色光按不同比例和强度的混合来表示。RGB分别代表着3种颜色:R代表红色,G代表绿色、B代表蓝色。 广西医科大学信息中心
2.4.1 图形与图像处理概述 • 为图像中每一个像素的RGB分量分配一个0~255范围内的强度值。 • 例如:纯红色R值为255,G值为0,B值为0;灰色的R、G、B三个值相等(除了0和255);白色的R、G、B都为255;黑色的R、G、B都为0。 • RGB图像只使用三种颜色,就可以使它们按照不同的比例混合,在屏幕上重现16581375种颜色。 • RGB模型通常用于光照、视频和屏幕图像编辑。 广西医科大学信息中心
2.4.1 图形与图像处理概述 红+绿=黄色 红+蓝=紫色 绿+蓝=青色 红+绿+蓝=白色 三种基色光全无=黑色 广西医科大学信息中心
2.4.1 图形与图像处理概述 • 色彩空间模型 • HSI模型:是从人的视觉系统出发,用色调、饱和度和亮度来描述色彩。适合从事艺术绘画的人描述色彩的方法。 广西医科大学信息中心
2.4.1 图形与图像处理概述 • 色彩空间模型 • CMYK模型: CMYK也称作印刷色彩模式,是一种依靠反光的色彩模式,和RGB类似,CMY是3种印刷油墨名称的首字母:青色Cyan、品红色Magenta、黄色Yellow。而K取的是black最后一个字母。 广西医科大学信息中心
2.4.1 图形与图像处理概述 以红、绿、蓝的补色青(cyan)、品红(magenta)、黄(yellow)为原色构成的CMY颜色系统,常用于从白光中滤去某种颜色,故称为减性原色系统。 K表示Black黑色 每种颜色用百分数0-100%来表示。 C=M=Y=K=0% 白色 C=M=Y=K=100% 黑色 广西医科大学信息中心
2.4.1 图形与图像处理概述 • 色彩空间模型 • YUV模型:YUV是被欧洲电视系统所采用的一种颜色编码方法(属于PAL),是PAL和SECAM模拟彩色电视制式采用的颜色空间。 广西医科大学信息中心
2.4.1 图形与图像处理概述 • 色彩空间模型 • RGB模式:适用于显示器、投影仪、扫描仪、数码相机等。 • CMYK模式:适用于打印机、印刷机等。 广西医科大学信息中心
2.4.1 图形与图像处理概述 图形与图像 数字图片文件分为位图图像和矢量图形两大类。 • 位图:位图图像(bitmap), 亦称为点阵图像或绘制图像,是由称作像素(图片元素)的单个点组成的。这些点可以进行不同的排列和染色以构成图样。当放大位图时,可以看见赖以构成整个图像的无数单个方块。 广西医科大学信息中心
2.4.1 图形与图像处理概述 图形与图像 • 矢量图:矢量图是根据几何特性来绘制图形,矢量可以是一个点或一条线,矢量图只能靠软件生成,文件占用内在空间较小,因为这种类型的图像文件包含独立的分离图像,可以自由无限制的重新组合。它的特点是放大后图像不会失真,和分辨率无关,文件占用空间较小,适用于图形设计、文字设计和一些标志设计、版式设计等。 广西医科大学信息中心
2.4.1 图形与图像处理概述 图形与图像 位图与矢量图比较: 广西医科大学信息中心