770 likes | 976 Views
多媒体技术基础. 第三章 多媒体数据压缩技术 多媒体数据压缩的基本原理和方法; 声音压缩标准; 图像压缩标准; 视频压缩标准;. 一、冗余的类型 1.空间冗余 同一幅图像中,规则物体和规则背景的表面物体特性具有相关性,例如:很多像素点完全一样活十分接近,这些都可以压缩。. 2.时间冗余 时间冗余反映在视频帧序列中,相邻帧图像之间有较大的相关性。. 3 .信息熵冗余 所携带的信息量少于数据本身而反映出来的冗余。. 4 .视觉冗余
E N D
第三章 多媒体数据压缩技术 多媒体数据压缩的基本原理和方法; 声音压缩标准; 图像压缩标准; 视频压缩标准;
一、冗余的类型 1.空间冗余 同一幅图像中,规则物体和规则背景的表面物体特性具有相关性,例如:很多像素点完全一样活十分接近,这些都可以压缩。
2.时间冗余 时间冗余反映在视频帧序列中,相邻帧图像之间有较大的相关性。
3.信息熵冗余 所携带的信息量少于数据本身而反映出来的冗余。
4.视觉冗余 人类的视觉系统由于受生理特性的限制,对于图像场的注意是非均匀的。一般只能分辨26灰度等级,而一般都采用28灰度等级。
5.听觉冗余 人耳对不同频率的声音的敏感性是不同的,不能察觉所有频率的变化,对某些频率不必特别关注,因此存在听觉冗余。
6.结构冗余 数字化图像中物体表面纹理等结构往往存在着数据冗余。称结构冗余。
7.知识冗余 由图像的记录方式与人对图像的知识之间的差别所产生的冗余称为知识冗余。例如:人脸的图像有固定的结构,鼻子位于脸的中线上,上方是眼睛,下方是嘴等。人具有这些规律性的知识,但计算机还是把图像一个一个像素的存起来。这就形成了知识冗余。
二、数据压缩编码方法的分类 编码压缩方法有许多种,从不同的角度出发有不同的分类方法。 1.按照压缩方法是否产生失真分类 压缩方法可被分为有失真编码和无失真编码两大类。 无失真编码压缩比较低,一般大都在2:1~5:1之间,如LZW编码、行程编码、霍夫曼编码。
1.按照压缩方法的原理分类 预测编码、变换编码、统计编码、分析合成编码、混合编码等。
预测编码利用像素的相关性,可进一步减小差值。 从前面的分析可以看出,如果差值编码中小幅度出现的机会增加,由于其对应的码长较短, 总数码率会进一步减小。如果能猜出下一个样值,那么差值就会是零,当然这种情况是没有 意义的,因为若预先知道下一样值,就不需要进行通信了。但可以肯定,如果我们不仅利用 前后样值的相关性,同时也利用其它行、其它帧的像素的相关性,用更接近当前样值的预测 值与当前样值相减,小幅度差值就会增加,总数码率就会减小,这就是预测编码的方法。
变换编码也是针对空间冗余和时间冗余的压缩方法。其基本思想是将图像的光强矩阵变换到系数空间上,然后对系数进行编码压缩。变换编码也是针对空间冗余和时间冗余的压缩方法。其基本思想是将图像的光强矩阵变换到系数空间上,然后对系数进行编码压缩。
分析合成编码是指都是通过对源数据的分析,将其分解成一系列更适合于表示的“基元”或从中提取若干更为本质意义的参数,编码仅对这些基本单元或特征参数进行。译码时则借助于一定的规则或模型,按一定的算法将这些基元或参数综合成源数据的一个逼近。这种压缩方法可能得到极高的压缩比。分析合成编码是指都是通过对源数据的分析,将其分解成一系列更适合于表示的“基元”或从中提取若干更为本质意义的参数,编码仅对这些基本单元或特征参数进行。译码时则借助于一定的规则或模型,按一定的算法将这些基元或参数综合成源数据的一个逼近。这种压缩方法可能得到极高的压缩比。
统计编码属于无失真编码。他是根据信息出现的概率进行压缩编码。编码时某种比特或字节模式的出现概率大,用较短码字表示;概率小用较长的码字表示。统计编码属于无失真编码。他是根据信息出现的概率进行压缩编码。编码时某种比特或字节模式的出现概率大,用较短码字表示;概率小用较长的码字表示。
衡量一个压缩编码方法优劣的重要指标是: (1)压缩比要高,有几倍、几十倍,也有几百乃至几千倍;一般用每个像素的比特数,既bpp表示,例如:2bpp
(2)解压缩的图像质量要好。 主观评测:非常好、好、一般、差和非常差。 客观尺度通常有以下三种:均方误差、信噪比和峰值信噪比
(3)压缩与解压缩要快,算法要简单,硬件实现容易;(3)压缩与解压缩要快,算法要简单,硬件实现容易; 全动态视频要求达到25帧或30帧。 最少5帧以上
霍夫曼编码 霍夫曼编码是可变字长编码(VLC)的一种。 Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长 度最短的码字,有时称之为最佳编码,一般就叫作Huffman编码。下面引证一个定理,该定 理保证了按字符出现概率分配码长,可使平均码长最短。
大小顺序排列为 : U: (a b c d e f g) 50 30 12 8 6 3 1 0 10 110 1110 11110 111110 111111 50*1+30*2+12*3+8*4+6*5+3+6+1*7=223 100*3=300 例如:011100001010110000101
3.2预测编码 预测编码利用像素的相关性,可进一步减小差值。DPCM编码 ADPCM编码
3.3变换编码 离散傅里叶变换DFT、离散余弦变换等。 3.4统计编码 行程编码,LZW编码,哈夫曼编码,算术编码 3.5分析合成编码
3.6音频压缩标准 3.6.1音频压缩的基本方法 波形编码、参数编码和同时利用两种技术的混合编码 对音频的评价:主观、客观
3.6.2电话质量的语音压缩标准 频率范围是300Hz~3.4kHz,用标准的PCM。 典型的算法有:ADPCM,码本激励线性预测编码(CELP)等
3.6.3调幅广播质量的音频压缩标准 50Hz~7kHz,
滤波器组 比特或噪声分配 位流格式化 心理学模型 3.6.4高保真立体声音频压缩标准 50Hz~20kHz 数字音频输入 编好码的位流 信号掩模比 MPEG音频编码器的原理框图
3.7图像和视频压缩标准 3.7.1图像和视频压缩编码的基本方法 有失真编码的主要方法有:预测编码、变换编码、模型编码、基于重要性的编码以及混合编码等 R,G,B彩色空间,H,S,I彩色空间(H色调、S饱和度、I亮度) 不同的电视制式采用不同的彩色空间的表示,如Y,I,Q方式和Y,U,V方式(Y亮度)
3.7.2静止图形压缩标准 已有多个国际标准,如ISO制定的JPEG标准,JBIG标准,ITU-T的G3与G4标准等。 1.JPEG压缩标准 20:1或25:1 2:1 1)JPEG的无损预测编码算法 三邻域
原图像数据 预测器 熵编码器 压缩的图像数据 表说明
2)JPEG的基于DCT的有损编码算法 基本系统和增强系统 顺序工作方式和累进工作方式 基本系统只采用顺序工作方式熵编码时只能采用Huffman编码,且只能存储两套码表
原图像数据 块准备 JPEG 8*8DCT正变换 编码器 量化器 (表说明) 熵编码器 (表说明) 压缩后的图像数据
(1)块准备 4:1:1 4800 1200 1200
(2)DCT变换 DCT正变换为: 逆变换为: 当u,v=0 其他 DCT有相应的快速变换
(3)量化 JPEG采用均匀量化器,量化公式为: CQ(u,v)=Integer Round(C(u,v)/Q(u,v)) 其中 Q(u,v) 为量化器的步长
(4)DCT系数的编码 (5)熵编码 Huffman编码和自适应二进制算术编码
3)基于DCT的增强系统 (1)按频段累进 (2)按位逼近 4)基于DCT得分层操作方式
1.JPEG2000简介 其主要内容包括六个部分 JPEG2000图像编码系统(核心部分) 应用扩展(在核心上扩展更多特性) 运动JPEG2000 兼容性 参考软件 复合图像文件格式 放弃了离散余弦变换算法,改用以离散小波变换算法为主的多解析编码方式
3.7.3视频压缩标准 MPEG(Motion Picture Experts Group) 1.MPEG-I压缩标准
1)时间冗余量的减少 I帧:内码帧 P帧:预测帧 B帧:双向帧或插补帧 IBBPBBPBBI IBBPBBPBBPBBI (1)运动补偿预测法
2)空间冗余量的减少 3)MPEG的分层结构和位流
3.MPEG-IV压缩标准 基于内容的视频编码过程可由三步完成: (1)VO(视频对象)的形成 (2)编码 (3)复合
4.MPEG-VII简介 5.MPEG-21简介
第4章多媒体硬件基础 数字音频处理接口 数字视频处理接口 多媒体输入/输出设备 多媒体存储技术 多媒体计算机
4.1数字音频处理接口 4.1.1音频卡的工作原理 处理音频信号的PC插卡是音频卡(Audio Card) 1.音频卡的功能和分类 功能:音频的录制与播放,编辑与合成,MIDI接口,文-语转换,CD-ROM接口及游戏接口等。
1)录制、编辑和回放数字声音文件 2)编辑与合成 3)MIDI接口和音乐合成 4)文-语转换和语音识别
5)游戏接口 6)CD-ROM驱动器接口 7)支持全双工功能
2.音频卡的体系结构 1)数字化声音处理 2)混音器 3)合成器
4.1.2音乐合成和MIDI接口规范 1.音乐合成与MIDI 2.MIDI术语(P83) 3.MIDI接口 4.MIDI技术规范
4.2数字视频处理接口 4.2.1视频图像显示 1.显示系统技术 1)VGA混合 2)可伸缩的VGA混合 3)双缓冲VGA混合/伸缩