440 likes | 593 Views
主讲:夏洪文. 第五章 图像与视频媒体及其应用. 本章要点. 位图图像与矢量图形 图形图像数字化 视频与视频数字化 静止图像数据压缩及其标准- JPEG 活动图像数据压缩及其标准 --MPEG. 5.1 图像与图像的数字化过程.
E N D
主讲:夏洪文 第五章 图像与视频媒体及其应用
本章要点 • 位图图像与矢量图形 • 图形图像数字化 • 视频与视频数字化 • 静止图像数据压缩及其标准-JPEG • 活动图像数据压缩及其标准--MPEG
5.1 图像与图像的数字化过程 • 在日常生活中当人们从某点观察某一景象时,物体所发出的光线(发光物的辐射光或物体受光源照射后反射或透射的光)进人人眼,在人眼的视网膜上成像,这就是人眼所看到的客观世界,可将它称之为景象。这个“象”反映了客观景物的亮度和颜色随空间位置和方向的变化特征,因此“象”是空间坐标的函数。视网膜成象是一种自然生理现象,人类文明发展到一定时期才意识到它的存在,并设法用各种手段将其记录下来,这种记录下来的各种各样的“象”则称之为图像。
5.1.1 图像彩色空间表示 1.色彩的基本概念 人们对颜色感觉的形成有四个要素;即光源、物体、眼睛、大脑。这四个要素不仅使人产生颜色的感觉,而且也是人能正确判断色彩的条件。 人眼对颜色的感知通常用三个量来度量,即色调、饱和度和亮度。它们共同决定了视觉的总效果。
5.1.1 图像彩色空间表示 2.色彩模型 所谓色彩模型就是定量颜色的方法。在不同的领域,人们采用的色彩模型往往不同,比如,从事艺术绘画的画家们习惯用HSB(色调、饱和度和亮度)模型;显示器这类发光物体用RGB模型;打印机这类吸光物体的CMYK模型;电视系统用YUV模型等。这只是几种经常使用的色彩模型,它们均有各自的特点。
5.1.2 位图图像与矢量图形 1.位图图像与矢量图形特点 图像是通过扫描仪、数字像机、摄像机等输入设备导入到计算机的。将原始图像分成许许多多的点阵,我们将其称为像素。每个像素用若干个二进制位记录色彩、亮度等反映该像素属性的信息,并将每个像素的内容按一定的规则排列起来组成文件的内容,我们将这种形式表示的图像称为位图图像。在对位图图像编辑处理时,以像素为单位,可以实施调整亮度、对比度等操作,并可以进行特殊效果的处理。图像的显示通常按像素点从上到下,从左到右顺序显示。
5.1.2 位图图像与矢量图形 矢量图形与位图图像相互比较具有下列区别: (1)如果绘制的图形简单,用矢量图形快、文件的数据量较图像小很多 (2)在矢量图形中,颜色作为绘制图元的参数在命令中给出,所以图形的颜色数目与文件的大小无关 (3)矢量图形在进行放大、缩小、旋转等操作后不会产生失真。而图像有可能出现失真现象,特别是放大若干倍后可能会出现严重的颗粒状,缩小后会吃掉部分像素点内容。
5.1.2 位图图像与矢量图形 2.图像的主要属性 图像主要包含分辨率、颜色深度两个主要属性。 • (1)分辨率 • 我们平时遇到的分辨率主要有两种:显示分辨率和图像分辨率。 • 显示分辨率是指屏幕上能够显示的像素数目。图像分辨率表示组成一幅图像所拥有的像素数目。
5.1.2 位图图像与矢量图形 2.图像的主要属性 (2)颜色深度 颜色深度是指记录每个像素所使用的二进制位数。对于彩色图像来说,颜色深度决定了该图像可以使用的最多颜色数目;对于灰度图像来说,颜色深度决定了该图像可以使用的亮度级别数目。颜色深度越高,显示的图像色彩越丰富,画面越自然、逼真,但数据量也随之猛增。
5.1.3 图形图像的文件格式 • 1.PCX格式 • PCX格式最初是由Z-Soft公司为其图像处理软件PC Paintbrush设计的文件格式。它是目前使用最广泛的图像文件格式之一。 • 2.BMP格式 • BMP图像文件格式是微软公司为其Windows环境设置的标准图像格式。而且Windows系统软件中还同时内含了一系列支持BMP图像处理的API函数,随着Windows的不断普及,BMP文件格式无疑也已经成为PC机上的流行图像文件格式。
5.1.3 图形图像的文件格式 • 3.TIF格式 • TIF格式由Aldus和Microsoft公司合作开发,最初用于扫描仪和桌面出版业,是工业标准格式,支持所有的图形类型,同时被许多图形应用软件支持。 • 4.TGA格式 • TGA文件格式是Tmevision公司为支持图像的捕获而设计的一种图像文件格式,其全称为Targa文件格式。由于Tmevision公司的Targa图形板可以直接显示16M种不同的彩色,而不必借助于调色板,因此它是一流的微机显示设备,而TGA图像文件格式则是一种适合于Targa板的图像显示文件格式。
5.1.3 图形图像的文件格式 • 5.GIF格式 • GIF格式,译为图像交换格式,由CompuServe公司设计开发。其最初的目的是为了方便网络用户传送图像数据而设计的一种文件格式。 • 6. JPG格式 • JPG是用JPEG压缩标准压缩的文件格式,现在非常流行。其特点是文件小,可以调整压缩比,失真率较小。 • 7.PNG格式 • PNG格式是为了适应网络数据传输而设计的一种图像文件格式,用于取代GIF图像文件格式,甚至还有望取代TIF图像文件格式。
5.1.4 图形图像的数字化 • 计算机存储和处理的图形与图像信息都是数字化的,亦即是用二进制数代码序列来表示或存储图像信息的,这是由计算机的工作方式决定的。 1.图像采样 图像采样就是将二维空间上模拟的连续亮度(即灰度)或色彩信息,转化为一系列有限的离散数值来表示。由于图像是一种二维分布的信息,所以具体的做法就是对图像在水平方向和垂直方向上等间隔地分割成矩形网状结构,所形成的矩形微小区域,称之为像素点。
5.1.4 图形图像的数字化 • 2.图像量化 • 采样后得到的亮度值(或色彩值)在取值空间上仍然是连续值。把采样后所得到的这些连续量表示的像素值离散化为整数值的操作叫量化。图像量化实际就是将图像采样后的样本值的范围分为有限多个区域,把落入某区域中的所有样本值用同一值表示,是用有限的离散数值量来代替无限的连续模拟量的一种映射操作。
5.1.4 图形图像的数字化 • 3.图像的编码与压缩 • 数字化后得到的图像数据量十分巨大,必须采用编码技术来压缩信息。在一定意义上讲,编码压缩技术是实现图像传输与存储的关键。 • 图像的预测编码是将图像数据的空间变化规律和序列变化规律用一个预测公式表示,如果知道了某一像素的前面各相邻像素值之后,可以用公式预测该像素值。采用预测编码,一般只需传输图像数据的起始值和预测误差。
5.2 视频与视频信号的数字化过程 • 5.2.1 视频基础知识 • 5.2.1 视频基础知识 • 5.2.1 视频基础知识
5.2.1 视频基础知识 • 视觉是人类感知外部世界的一个最重要的途径,而计算机视频技术是把人们带到近于真实世界的最强大的工具。在多媒体技术中,视频信息的获取及处理无疑占有举足轻重的地位,视频处理技术在目前以至将来都是多媒体应用的一个核心技术。 • (1)视频的定义 • 人类接受的信息70%来自视觉,其中活动图像是信息量最丰富、直观、生动、具体的一种承载信息的媒体。视频(Video)就其本质而言,实际上就是其内容随时间变化的一组动态图像(25帧/秒或30帧/秒),所以视频又叫作运动图像或活动图像。
5.2.1 视频基础知识 • (2)视频的分类 • 按照处理方式的不同,视频分为模拟视频和数字视频。 • ① 模拟视频(Analog Video) • 模拟视频是一种用于传输图像和声音的并且随时间连续变化的电信号。 • ② 数字视频(Digital Video—DV) • 要使计算机能够对视频进行处理,必须把视频源,即来自于电视机、模拟摄像机、录像机、影碟机等设备的模拟视频信号,转换成计算机要求的数字视频形式,并存放在磁盘上, 这个过程称为视频的数字化过程.(包括采样、量化和编码)。
5.2.1 视频基础知识 • (3)数字化视频的优点 • 视频信号数字化后,就能做模拟视频信号所无法实现的事情。它的主要优点有: • ① 适合于网络应用 • ② 再现性好 • ③ 便于计算机编辑处理
5.2.1 视频基础知识 • (4)视频的应用领域 • ① 广播电视 • · 地面、卫星电视广播; • · 有线电视(Community Antenna TV,CATV); • · 数字视频广播(Digital Video Broadcast); • ② 通信 • · 可视电话(Videophone); • · 视频会议(Video conferencing); • · 视频点播(Vide0 0n Demand,VOD); • ③ 个人娱乐 • · 录像节目; • · VCD (Video Compact Disk); • · DVD (Digital Versatile Disk);
5.2.2 电视制式 • 1.NTSC制式 • NTSC是Notional Television System Committee的缩写,译为国家电视制式委员会。它是1953年美国研制成功的一种兼容的彩色电视制式。它规定每秒30帧,每帧526行,水平分辨率为240-400个像素点,隔行扫描,扫描频率60Hz,宽高比例4:3。北美、日本等一些国家使用这种制式。 • 2.PAL制式 • PAL是phase Alternate Line的缩写,译为相位逐行交换。它是前联邦德国1962年制定的一种电视制式。它规定每秒25帧,每帧625行,水平分辨率为240-400个像素点,隔行扫描,扫描频率50Hz,宽高比例4:3。我国和西欧大部分国家都使用这种制式。
5.2.2 电视制式 • 3.SECAM制式式 • SECAM是Sequential Color Memory System的缩写,译为顺序传送彩色存储。它是法国于1965年提出的一种标准。它规定每秒25帧,每帧625行,隔行扫描,扫描频率为50Hz宽高比例4:3。上述指标均与PAL制式相同,不同点主要在于色度信号的处理上。法国、俄罗斯、非洲地区使用这种制式。 • 4. HDTV • HDTV是High Definition TV的缩写,译为高清晰度电视。它是目前正在蓬勃发展的电视标准,尚未完全统计,但一般认为:宽高比例16:9,每帧扫描在1000行以上,采用逐行扫描方式,有较高扫描频率,传送信号全部数字化。
5.2.3 视频的数字化过程 • 要让计算机处理视频信息,首先要解决的是视频数字化的问题。视频数字化是将模拟视频信号经模数转换和彩色空间变换为计算机可处理的数字信号,与音频信号数字化类似,计算机也要对输入的模拟视频信息进行采样与量化,并经编码使其变成数字化图像。 • 1.视频信号的采样 • 2.视频信号的量化 • 3.视频信号的压缩与编码 • 4.数字视频DV格式
5.3静止图像数据压缩及其标准-JPEG • 静像数据压缩标准JPEG(Joint Photo—graphic Expert sGroup),直译为联合摄影术专家组,其中联合是指几个国际组织的联合。它是从1986年正式开始制订的。当时由两个国际组织联合支持,其一是国际标准组织ISO,其二是国际电报电话咨询委员会CCITT。 JPEG是第一个数字图像压缩的国际标准。它用于连续变化的静止图像,这里包括灰度等级和颜色两方面的连续变化。
5.3.1 基于DCT的编码器和解码器方框图 基于DCT的编解码方案
5.3.2 NTSC、PAL、SECAM制解码器 • 输入的复合视频信号可以来自摄像机,录像机,光盘等信号源。在静像处理时只能输入一帧图像,因此要有帧同步开关,供选取一帧图像用。方框5-13中输入一帧图像信号后,经过解码器,输出红、绿、蓝三幅图像信号。此解码器的总增益为0dB,在测量时可以输入标准彩条信号,信号幅度为1V峰峰值,其中行同步信号占0.3V,视频信号占0.7V。输出红、绿、蓝三路视频信号时,其幅度仍然各为1V峰峰值,其中0,3V为行同步信号,0.7V为视频信号。
5.3.3 数模转换器 • 通常一帧模拟图像是由从左到右,从上到下的扫描行构成的。当前扫描方式有两种,一种式广播电视中常用的隔行扫描,另一种是计算机监视器中常用的顺序扫描。不管那一种扫描方式。都可以对扫描行中的视频信号取样,从而得到各像素的电压数据。 在其它图像处理中也可以不采用方格子像素,这时像素的纵横比可以由图像尺寸纵横比和纵横方向像素数来决定。例如一帧高清晰度图像,其图像尺寸纵横比为9:16,纵向像素为960,横向像素为1440,则像素的纵横比可以由下式决定。
5.3.4 JPEG标准的亮度和色度信号 • 一帧彩色图像信号可以由R、G、B基色光的三幅图像信号相加而成。一幅彩色图像可以由一幅黑白图像绘上彩色而成。类似的彩色图像信号可以用亮度信号(即黑白图像信号)和色度信号叠加而成。由于人眼对图像的亮度敏感,对图像的色度不敏感,所以在传输亮度信号时要保证其清晰度,在传输色度信号时可以降低清晰度。利用人眼的这种特性(心理视觉冗余度),在传输彩色视频信号时可以对色度信号进行更多的压缩,从而达到对整体图像数据压缩更多的目的。
5.3.5 最小编码单元MCU • 按JPEG标准,源图像以帧为单位,每帧图像最多由4个分量图像组成。分量图像用符号Ci表示,i=1,2,3,4,例如一帧彩色图像由三个分量组成,C1=Y,C2=Cr,C3=Cb。由于人眼对色度不敏感,所以色度分量C2和C3的像素可以减少。HiHmax • 若在一帧图像的各分量图像中,最大水平方向像素数为X,最大垂直方向像素数为Y,则第i个分量Ci的像素数由取样因子Hi(水平方向)和Vi(垂直方向) 决定
5.4 活动图像数据压缩及其标准--MPEG • MPEG是运动图像专家组(Moving Picture Experts Group)的简称,其实质上的名称为国际标准化组织(ISO)和国际电工委员会(IEC)联合技术委员会(JTC)的第29 分委员会的第11工作组,即ISO/IEC JTC1/SC29/WG11,成立于1988年。其任务是制定世界通用的视音频编码标准。
5.4.1 MPEG-1标准 • 1. MPEG-1视频 • (1) MPEG-1视频压缩的特点 • ① 随机存取。 • ② 快速正向/逆向搜索。 • ③ 逆向重播。 • ④ 视听同步。 • ⑤ 容错性。 • ⑥ 编码/解码延迟。
5.4.1 MPEG-1标准 • (2) MPEG-1视频压缩策略 • MPEG-1视频压缩技术是针对运动图像的数据压缩技术。为了提高压缩比,帧内图像数据压缩和帧间图像数据压缩技术必须同时使用。帧内压缩算法与JPEG压缩算法大致相同,采用基于DCT的变换编码技术,用以减少空域冗余信息。帧间压缩算法采用预测法和插补法,预测法有因果预测器(纯粹的预测编码)和非因果预测,即插补编码。预测误差可再通过DCT变换编码处理,进一步压缩。帧间编码技术可减少时间轴方向的冗余信息。
5.4.1 MPEG-1标准 • (3) MPEG-1视频的分层结构 • MPEG-1视频图像数据流是一个分层结构,目的是把比特流中逻辑上独立的实体分开,防止语意模糊,并减轻解码过程的负担。对分层的要求是支持通用性、灵活性和有效性。MPEG 标准的通用性可以用MPEG比特流来更好地说明。通用性的含义是使MPEG标准的语法规定可满足不同的应用要求。
5.4.2 MPEG-2标准 • 1.MPEG-2标准要点 • 与MPEG—1标准相同,MPEG—2标准分为3部分,即系统部分(1S013818—1)、 视频部分(1S013818—2)和音频部分(1S013818—3)。 • 2.MPEG-2编码 • 编码是MPEG-2标准的核心内容之一,其涉及到MPEG-2视频流层结构、MPEG-2帧间编码结构、MPEG-2的类与级、MPEG-2运动估值等技术。
5.4.3 MPEG-4标准 • MPEG - 4 提供了对音频对象、视频对象、情景描述以及与发送系统的接口进行编码的标准方法。 • 1.发送的多媒体综合框架(DMIF) • 2 数据平面 • 3 缓存器的管理和定时信息的识别 • 4 音频编码 • 5.可视信息的编码 • 6 情景描述 • 7 MPEG- 4 的版本安排
5.4.4 MPEG-7标准概要 • 继MPEG-4之后,要解决的矛盾就是对日渐庞大的图像、声音信息的管理和迅速搜索。针对这个矛盾,MPEG提出了解决方案――MPEG-7。MPEG-7力求能快速有效地搜索出用户所需的不同类型的多媒体资料。 • 1.制定MPEG-7标准的目标 • 2 MPEG—7标准的内容 • 3 MPEG-7所涉及的主要技术和目前的进展
5.4.5 MPEC-21:多媒体框架标准 • MPEG—21是由MPEG—7发展而来的,它将提供 一个多媒体框架,供不同用户之间进行以数字信息为目标的交互作用,交互作用所涉及的各方均为MPEG--21的用户。 • 1. MPEG—2l的技术构成 • MPEG—2l是一个结构化的多媒体框架,其主要规定数字节目的网上实时交换协议,它其实可以描述成一些关键技术的集成。从结构上看,其基本框架包括数字项说明、多媒体内容表示、数字项标识和描述、内容瞥理与使用、知识产权管理和保护、终端和网络,事件报告等7大技术要素。
2. MPEG—21的关键任务 • MPEG—21标准目前尚处于前期开发阶段,它所面临的问题仍有很多。从以上7项要素可以总结出MPEG—21将要规范的内容,毛伊岛会议确定了这一多媒体框架理论上必须解决的、用户进行交互作用时可能面临的12项“关键事务(key issues)”:网络传送方面 、服务质量和灵活性方面 、内容再现的质量方面 、内容艺术性的质量方面、服务和设备的易用性(在线和离线)方面 、付费与订购模型(在线和离线)方面 、消费者隐私保护方面
5.4.5 MPEC-21:多媒体框架标准 • 3.MPEG—21的应用范畴 • 2001年9月公布的MPEG—21的技术报告向人们描绘了一幅未来的多媒体环境场景,这个环境能够支持各种不同的应用领域,并能使不同用户可以使用和传送所有类型的数字内容。也可以说,MPEG—21是一个针对实现具有知识产权管理和保护能力的数字多媒体内容的技术标准,当然,MPEG—21的最终目标是要为多媒体信息的用户提供透明的和扩充的电子交易和使用环境,其主要应用之一为多媒体商品的电子商务(如网上音乐、电影等)。
5.4.6 MPEC系列标准之间的关系与应用范围 • ISO的MPEG系列标准的颁布对信息产业产生了深刻的影响。目前,ISO已公布并产业化的MPEG系列标准有MPEG-1,MPEG-2和MPEG-4,它们均有特定的应用背景。 • MPEG-1,2和4着重研究音频视频的高效压缩编码问题,MPEG-7对多媒体对象的存储、编码不作专门讨论,而是将研究重点放在多媒体对象的特征提取、数据库的类层次划分、不同数据类型(如人物动作、背景、配音、主题思想)之间有机联系等方面,它所处理的数据信号甚至包括模拟信号。
5.5本章小结 • (1) 图像是一种信息丰富且人类最容易接收的信息媒体。视频与图像在本质上同一种生物的两种不同的表现形式,通常图像是静态的,视频是动态的。 • (2) 在计算机上处理的数字图像的最基本形式为位图图像。位图图像适合表现比较细致、层次和色彩比较丰富,包含有大量细节的图像。 • (3)分辨率和图像深度是位图图像的两个最主要的技术参数。一幅位图图像的数据量与这两个参数密切相关。 • (4)由于数字化图像产生大量的数值信息,这对于在计算机内存储和图像数据的传输带来困难。因此编码压缩是图像和视频处理中必不可少的一种方法。
5.5本章小结 • (5)PCX、BMP、GIF、TIF、JPG、PCD等是当前微机上最常用的几种图像文件格式,我们必须掌握它们的各自特点,以及它们之间相互转换的方法。 • (6)活动的图像序列称为视频。在视频中每一幅图像称为一帧,帧是构成视频信息的最基本单位。每秒钟播放的帧数称为帧率fps,典型的帧率为25fps~30fps,分别对应于视频的标准制式PAL和NTSC。 • (7)普通的视频,例如电视或录像,都是模拟量,而计算机只能处理和显示数字信号,所以在计算机处理视频前必须把模拟视频数字化,这必须经过捕获、采集、量化的过程。 • (8)在多媒体数据压缩中,常用的有损压缩方法有预测编码、变换编码等。
5.5本章小结 • (9) JPEG是由ISO和CCITT颁布用于静止图像压缩的国际标准。它的基本系统是使用有失真的变换变码DCT和无失真的熵编码RLC相结合的混合编码方法。其数据信息的压缩比率约为10:1~80:1。 • (10) MPEG是由ISO和CCITT颁布用于动态活动图像压缩的国际标准。它是基于DPCM预测编码和DCT变换编码相结合的混合编码,并且采用帧间和帧内相结合的双重压缩,因此,其压缩率比较高,约为50:1~200:1。 • (11) MPEG具有五个标准,MPEGI标准用于VHS录像级的运动图像及其伴音的编码。是以CD—ROM、DAT等应用为目标。