250 likes | 495 Views
第 6 章 多媒体数据的压缩. 6.1 数据压缩概述 数据压缩的必要性 数据冗余 6.2 数据压缩的基本原理 信息编码基础 数据压缩方法 6.3 数据压缩的编码算法 统计编码( 行程编码 哈夫曼编码 算术编码) 预测编码 变换编码 6.4 常用多媒体数据压缩标准 音频压缩编码标准 静态图像压缩标准 动态图像压缩标准视频压缩编码标准. 6.1 数据压缩概述. 1 、 压缩的必要性 声音、图像、视频和动画的数据量太大 声音 1 分钟立体声音乐采样频率为 44.1KHZ , 16 位量化精度的数据量为
E N D
第6章 多媒体数据的压缩 6.1 数据压缩概述 • 数据压缩的必要性 • 数据冗余 6.2 数据压缩的基本原理 • 信息编码基础 • 数据压缩方法 6.3 数据压缩的编码算法 • 统计编码(行程编码 哈夫曼编码 算术编码) • 预测编码 • 变换编码 6.4 常用多媒体数据压缩标准 • 音频压缩编码标准 • 静态图像压缩标准 • 动态图像压缩标准视频压缩编码标准
6.1 数据压缩概述 1、压缩的必要性 声音、图像、视频和动画的数据量太大 • 声音 1分钟立体声音乐采样频率为44.1KHZ,16位量化精度的数据量为 44.1 * 1000 * 16 * 2 *60 / 8 =10.09MB 存储一首4分钟的歌曲约需40MB • 图像 1副640*480的RGB彩色图像的存储容量为 640*480 * 24 / 8 = 900KB • 视频 1秒钟(25帧/秒)的视频数据量为 25*900KB = 21.97 MB 1张650MB的CD ROM光盘只能存储约 650 / 21.97 = 29.59 秒的视频
2 数据冗余 • 空间冗余:图像内部相邻像素之间的相关性 • 时间冗余:视频序列中前后帧之间的相关性 • 视觉或听觉冗余(人眼或人耳具有一定的掩蔽效应) • 知识冗余(具有规律性的结构,用于图像理解上,如人脸) • 统计冗余(出现的频率具有一定的规律性,如元音多,有些辅音很少出现) • 结构冗余(具有纹理结构的图像区域) • 信息熵冗余(又叫编码冗余,用相同位数进行编码产生的冗余)
编码器 (压缩) 存储器 或网络 解码器 (解压缩) 输入数据 输出数据 6.2 数据压缩的基本原理 1、信息编码基础 压缩的实质:根据数据的内在联系将数据从一种编码映射为另一种编码,又叫压缩编码。 数据压缩过程 • 数据压缩方法的衡量指标 • 压缩率:越大越好 • 压缩质量:数据失真越小越好 • 压缩与解压缩的速度:速度越快越好
无损压缩 有损压缩 PCM编码 预测编码 变换编码 混合编码 统计编码 行程编码 哈夫曼编码 香农编码 算术编码 LZW编码 DPCM编码 离散余弦变换 JPEG ADPCM编码 MPEG K-L变换 帧间预测编码 H.261 小波变换 2、数据压缩方法
6.3 数据压缩的编码算法 一、无损压缩:减少或去除数据中的冗余,可以无失真地还原成原来的数据,一般适合压缩数据或程序,但是压缩比较小,一般在2:1到5:1之间。
1. 行程编码(游程编码) • 原理:将连续相同的数据序列用重复次数和单个数据来表示。 • 应用:用于图像文件的压缩(尤其适合于由计算机生成的图像)如bmp和tiff等图像格式。 (1)多值信息的编码 编码格式:信息重复次数+被重复的信息 例: 字符串为:atttefppppppddddss 行程编码为:a3tef6p4d2s (2)二值信息的编码 编码格式:0或1重复的次数 例如二进制数据流为 000111111000001111 假设行程约定以0开始,则编码为:3654 若约定以1开始,则编码为:03654
P(ACEBD)=1 1 0 P(BD)=0.62 P(ACE)=0.38 0 1 0 1 P(A)=0.15 P(CE)=0.23 P(B)=0.25 P(D)=0.37 0 1 P(C)=0.1 P(E)=0.13 2. 哈夫曼(Huffman)编码 • 算法步骤: (1)按照符号出现的概率大小进行排序 (2)把最小的两个概率值相加,得到一个新的概率序列 (3)重复上述两个步骤,直到概率值为1 (4)从后往前进行编码,概率大的赋予1,概率小的赋予0。 (反过来也可以) (5)写出每个符号的码字 例1:字母A B C D E出现的概率分别为0.15、0.25、0.1、0.37和0.13, 其哈夫曼编码为: A: 00 B: 10 C: 010 D: 11 E: 011 假设共有100个字符,若采用等长编码,每个字符至少需要3位二进制,100个字母需要300位,采用哈夫曼编码则只需要15*2+25*2+10*3+37*2+13*3=223位。 压缩比为 300:223 = 1.34:1
P(EDCBA)=1 0 1 P(EDCB)=0.47 P(A)=0.53 0 1 P(EDC)=0.22 P(B)=0.25 0 1 P(E)=0.1 P(DC)=0.12 0 1 P(D)=0.05 P(C)=0.07 0 A: 1 B: 01 C: 0011 D: 0010 E: 000 例2:字母A B C D E出现的概率分别为0.53、0.25、0.07、0.05和0.1, 其哈夫曼编码为: 若采用等长编码,至少需要3位二进制,100个字母需要300位,采用哈夫曼编码则需要: 53*1+25*2+7*4+5*4+10*3=181位 压缩比为 300:181 = 1.65:1
3、算术编码 • 编码原理:将被编码信源表示为[0,1)区间的一个实数,根据各符号出现的概率构造其所在区间,随着信息字符的不断出现,其所在区间越来越小,对应表示的实数也越来越小,那么表示这一消息所需的二进制位数就越多。 例:假设一个4个符号的信源A={a1,a2,a3,a4 } ,各符号出现的概率及起始编码区间如下表。
编码区间 信源符号 0.2 0.12 0.104 0.0976 1 a4 0.8 a3 0.6 a2 输出区间内任一数 0.2 a1 0 0 0.04 0.088 0.0912 信息: a1 a2 a3 a2 如果要传送的消息为a1a2a3a2,算术编码过程为: • 区间计算方法: 新区间起始位置:前面区间起始位置 + 当前区间左端 * 前面区间长度 新区间长度:当前符号的概率 * 前面区间长度 ① a1,取值区间为[0, 0.2) ② a2,起点:0+0.2*0.2=0.04,长度0.4*0.2=0.08,新区间为 [0.04, 0.12) ③ a3,起点:0.04+0.6*0.08=0.088,长度0.2*0.08=0.016,新区间为 [0.088 ,0.104) ④ a2,起点:0.088+0.2*0.016=0.0912,长度0.4*0.016=0.0064,新区间为 [0.0912 0.0976)
二、有损压缩:压缩时会丢失部分数据,且丢失的数据无法恢复。是不可逆的压缩,即解压缩以后的数据与原始数据不完全一致。二、有损压缩:压缩时会丢失部分数据,且丢失的数据无法恢复。是不可逆的压缩,即解压缩以后的数据与原始数据不完全一致。
1. PCM(Pulse Code Modulation,脉冲编码调制) • 采样:按固定时间间隔获取一个样本值 • 量化:按允许的误差将样本对应到近似的数值(幅度上的离散化) 。有均匀量化和非均匀量化。 • 编码:用二进制代码表示采样量化后的样本值。
编码器 s + e 量化器 e’ 编码器 输入 信道 - + + s” 预测器 s’ 解码器 + 输出 s’ e’ 编码器 信道 + 预测器 s” • 原始信号为:s,预测器产生的预测值为:s” • 预测误差:e=s-s” • 发送端:发送经过量化的误差e’ • 接收端:用相同的预测器获得预测值s”, 输出s’=s”+e’ • 最终误差为: • s’-s = s”+e’-s = • e’– (s-s”) = e’-e • (即量化器产生的量化误差) 2.预测编码 (1)DPCM(差分脉冲编码调制)
(2)ADPCM(自适应脉冲编码调制) • 自适应量化:当信号分布不均匀时,能随输入信号的变化改变量化区间的大小。 • 自适应预测:采用过去的样本值估算下一个输入样本的预测值,得到最小的实际样本值与预测值之间的差值。 (3)帧间预测编码 利用视频图像各帧之间的时间相关性,减少帧内图像信号的冗余,即不直接传送当前帧的像素值,而是传送x和其前一帧或后一帧对应像素x’之间的差值。 • 运动补偿的帧间预测 • 帧间内插法 (4) 线性预测编码(Linear Predictive Coding,LPC) 采用过去的样本值,以一种前向反馈的方式预测当前采样值,预测值可以用过去p个样本值的线性组合来表示。该方法被广泛应用于语音处理。
例:有两个相邻的数据样本x1和x2,每个样本采用3bit编码,各自都有8个幅度等级,两个样本的联合事件共有64 种可能, 用64个点表示。对一般的像来说,两个相邻的数据样本很有可能出现近似的幅度,即很可能出现在x1=x2直线附近。 3. 变换编码 将图像信号从一个域(如时间域)变换到另外一个域(如频率域),然后对变换后的信号进行量化与编码。 对该数据进行正交变换,将坐标系逆时针 旋转45度,在新坐标系中y1对应到x1=x2这条 直线,那么变换后的数据样本集中在y1轴上, 对这部分数据进行量化、编码和传输,其他 数据不做处理,这样就达到了压缩数据的目的。 常用的变换编码方法有: 1、K-L变换 2、傅立叶变换 3、离散余弦变换等 正交变换前两个样本的联合事件 正交变换后两个样本的联合事件
6.4 常用多媒体数据压缩标准6.4.1 音频压缩标准 1.电话语音压缩标准 数据:带宽为200Hz~3.4kHz ,采样频率为8kHz, 8位量化,传输速率为64kb/s 语音压缩标准:G.722(64kb/s)、G.721(32kb/s)、G.728(16kb/s)和G.729(8kb/s) 应用:数字电话通信。
2. 调幅广播语音压缩标准 数据:带宽为50hz ~7khz的调幅广播语音,使用16kHz采样频率和14位量化位数时,所对应的速率为224kb/s。 语音压缩标准:G.722 应用:优质语音、音乐、音频会议和视频会议等。
3.高保真立体声的宽带音频压缩标准 数据:采样频率44.1kHz,用16位量化,速率为每声道705 kb/s 。 语音压缩标准:MPEG音频 MPEG-1音频: 层Ⅰ(简化的ASPEC) 层Ⅱ(即MUSICAM,又称MP2) 层Ⅲ(又称MP3)。 MPEG-2音频:多声道,5.1声道形式及7.1声道形式 应用:影剧院、家庭影院系统,及将来的高清晰度电视(HDTV)。
6.4.2 静态图像压缩标准 JPEG (joint photographic experts group)联合照片专家组 1.JPEG标准 适应于彩色和单色多灰度或连续色调的静止数字图像。支持很高的图像分辨率和量化精度,具有较高的压缩比和图像质量。包含了基于DCT的有损压缩方法和基于预测方法的无损压缩方法。 2.JPEG2000标准 特征:支持低比特率传输,支持无损和有损压缩,象素精度和分辨率的渐进式传输,感兴趣域编码,随机码流访问和处理。 经典算法:包含三个部分:小波变换、画布坐标系统、嵌入式优化截断编码(EBCOT)。
6.4.3 运动图像和视频压缩编码标准 MPEG:运动图像专家组(Moving Picture Experts Group) MPEG标准和HDTV标准
视频压缩标准 1.H.261和H.263标准 国际电信联盟电信标准组织ITU-T制定 • H.261:主要用来支持在ISDN上进行可视电话、视频会议和其它视听服务。 • H.263:主要用于公共电话交换网络(PSTN)上的视频会议和其它可视化服务,旨在以尽可能低的码率(64kpbs以下)进行通信。 2.H.26L标准 在所有码率下都能持续提供较高的视频质量。 • 支持的图像格式常用的有CIF和QCIF。 • 更高的压缩效率,更灵活的网络适应性,增强对于差错的鲁棒性。
3.AVS标准 • 2002.6 国家信息产业部科学技术司批准成立数字音视频编解码技术标准工作组,简称AVS工作组。 • 2006.3 成为中国音视频编解码技术标准。 • 2007.5 成为国际上四个可选视频编码标准之一。