550 likes | 733 Views
电视非线性编辑系统. 余胜泉 ysq@elec.bnu.edu.cn 2000/11/10 北京师范大学现代教育技术研究所. 编辑系统的发展历史 非线性编辑概要 数字视频技术基础 非线性编辑系统的基本构成 如何选购非线性产品 非线性编辑的发展趋势 典型的非线性编辑系统简介. 目录. 编辑系统的发展历史. 概要.
E N D
电视非线性编辑系统 余胜泉 ysq@elec.bnu.edu.cn 2000/11/10 北京师范大学现代教育技术研究所
编辑系统的发展历史 • 非线性编辑概要 • 数字视频技术基础 • 非线性编辑系统的基本构成 • 如何选购非线性产品 • 非线性编辑的发展趋势 • 典型的非线性编辑系统简介 目录
概要 • 非线性编辑系统(Noliner Editing System ,简称NLE),是使用数字存储媒体进行数字视频编辑的数字化后期制作系统。它是在高档多媒体电脑的基础上构造的专用数字视频后期制作设备,它不但能完成一台多媒体计算机的大部分工作,还具备了在高画质情况下完成线性编辑系统的所有功能,集成了电视台后期机房中多种传统设备的功能,而且具备了传统线性电视编辑系统所无法比拟的功能。 • 非线性编辑技术是一门新的综合性技术,它覆盖了电视技术和计算机技术的主要领域,包括音频技术、视频技术、数字存储技术、数字图象处理技术、计算机图形技术和网络技术等相关技术,把数字化、多媒体、交互性和网络化带人编辑工作中,它解决了线性编辑存在的缺点,简化了节目编辑流程,提高了编辑效率,特别是方便的剪切和编辑和灵活多变的数字特效处理功能,把制作人员从繁杂的搜寻镜头和修改工作中解脱出来,并给制作者以无限的艺术创造空间。非线性编辑给电视后期制作带来重大的变革。
基本功能 在电视节目制作过程中,典型的非线性编辑系统可以实现以下传统电视编辑设备的功能: • 硬盘数字录像机:即使是最简单的非线性编辑系统,也能充当一台硬盘录像机进行视频信号的记录和重放。存储节目的最长时间根据硬盘容量和对图像质量的不同要求而定。 • (非线性)编辑控制器:在硬盘上快速实时的寻找编辑点,设定入点、出点及其它标记,这是非线性编辑系统优于传统编辑控制器的一个重要特点。 • 切换台:在传统的磁带式编辑中,进行对编和A/B卷编辑分别需要一台放机、一台录机或两台放机、一台录机。在非线性编辑系统中,采用了时间线和视频、音频轨的概念,一般来说一条视频轨可以看作一台放像机,因此能用多条轨模拟多通道切换台。 • 特技机:非线性编辑系统可以使用内置软件或用硬件实现特技的功能。软件特技成本低廉,并可不断升级;硬件支持的特技速度较快。 • 字幕和图形创作:在非线性编辑系统中,一般有专门的软件用于制作字幕和图形,并通过软件或硬件方法实现与视频信号的叠加。 • 动画制作:所有动画制作都是由助电脑完成的,尤其是三维动画。在非线性编辑系统中生成的动画采用标准图像文件格式,可以包含透明及抠像信息,便于和视频画面进行合成。 • 数字录音机、音源和调音台:非线性编辑系统中都包含音频输入/输出单元、软件波表或(和)硬件波表及硬件混音器,可以录制高质量的声音,可以用数百种乐器的原始音色演奏MIDI(音乐仪器数字接口)乐曲,也可以配合软件完成多路音频信号电平的调节。 除了后期制作,非线性系统开始插足前期制作,有些厂商推出硬盘摄录一体机,如日本池上公司生产的Editcam全数字摄录一体机,即以硬盘作为记录载体。同磁带摄录一体机相比,它能即时记录瞬间即逝的镜头,放像过程中也能立即进入记录状态,不丢失画面,还可以直接通过摄录机磁盘进行简单的节目编辑。
技术优势与特点 与线性系统相比,非线性编辑系统具有高度集成化、功能齐全、操作方便等特性,只需外加一台录像机,非线性编辑系统就能完成一套线性编辑系统所能完成的编辑工作。具体有: • (1)数字非线性编辑系统全部的工作过程均以32BIT数字量化压缩算法完成。因此视频信号处理链路基本不受外界噪波干扰,没有传统模拟线性编辑过程中的噪声干扰现象产生,图像质量高。 • (2)由于是数字信号的编辑,图像质量不会因设备的新旧而出现大的差别。 • (3)制作节目快捷,高效。 • (4)节省机时,设备使用寿命长。传统的视频磁头寿命为500~1 000小时,计算机硬盘为300 000小时。 • (5)硬件接口标准化,适应多种编辑软件,可随意制作多种数字特技,增加节目的艺术性。 • (6)具备多代拷贝而图像质量不会急剧下降的特点。 • (7)由于编辑系统基于计算机技术,易于构建大型甚至全球视频网络,从而使节目的交换及素材资料资源共享成为可能。 • (8)由于视频和音频均可以被采集和量化,因而还可以应用静帧冻结技术,制作出多彩多姿的图像电子邮件或软件封面,在多媒体制作领域中加以应用。 • (9)设备体积小,便携性能好,易于挂接计算机互联网络,编辑、传输工作可以随时随地进行。
线性与非线性 磁盘上信息组织方式 磁盘与磁带对比图
脱机(Offline)与联机(Online) 第一步是“初编”,有人称为“原始编辑”,后来又称其为“草稿编辑(Draft Editing)”,那就是先以大压缩比,如100:1,决定编辑点、特技效果的编辑决定表(EDL),这就是草稿编辑。节目制作者在编辑过程中,不断选择各种有用的场景片段,这些片段都有一个地址,这就需要将这些地址存储在一个表中,如果需要的话可以直接返回到以前选择的某一个过程,这种存储场景选择信息的表称为编辑决策表(EDL)或编辑判决表。利用EDL控制硬盘的快速旋转,在重放过程中只选取EDL中所规定的视频和音频片段,在软件的高速执行过程中,重放无间隙,编辑点处无停顿或闪烁,视频、音频、图形均可随机迭加。显然,草稿编辑目的在于得到EDL。这种原始的草稿编辑过程,称为“脱机”编辑。脱机编辑是非线性的,图像质量达不到广播级水平。 第二步,以小压缩比,如2:1,将存有EDL的软盘插入编辑控制器内,控制广播级录像机按照EDL进行广播级成品带的编辑,这种生产节目成品带的过程,称为“联机”编辑。
非线性编辑系统结构 • 信号输入接口单元 • 多媒体素材存储单元 • 中央处理单元 • 信号输出接口单元 典型的非性编辑系统 非线性编辑系统组成
基本的编辑过程 • 素材采集 模拟视频信号源及其设备:模拟视频信号源及其设备:录像机(VCR)、摄像机(VideoCamera或Camcorder),激光视盘机(Laser Disc Player)电视机; 模拟设备与非线性主机的连接:VideoOut:VideoIn;AudioOut:LineIn;RFOut:RFIn;SpeakerOut:音箱; 数字接口:QSDI接口、CSDI接口、SDI接口和DV接口; 设置采集参数:对同一种压缩方法来说,压缩比越小,图像质量越高,相应地占用的存储空间越大。采用不同压缩方式的非线性编辑系统,录制视频素材时的压缩比可能不同,但也可能获得同样的图像质量。 • 素材分类: 素材箱(BIN)
基本的编辑过程 • 编辑制作 素材处理 时间线编辑 数字特技处理 字幕制作 音效处理 • 合成输出 时间线编辑 特技制作
视频的基本概念 • 人的视觉特性 人眼依靠视网膜上光敏细胞一杆状细胞和锥状细胞获得了彩色视觉 人眼仅对电磁波谱中的可见光区(波长从380nm到780nm)敏感 人眼对亮度的敏感程度比对颜色的敏感程度高 • 电视信号及其分类 为兼容黑白电视机,因此把彩色信号分成亮度信号和两上色差信号分别传送 Y=0.30R+0.59G+0.11B 色差信号分别为R-Y、G-Y和B-Y 亮度信号带宽为6MHZ,色度信号的带宽为1.3MHZ 电视制式:PAL制、NTSC制和SECAM制 • 视频信号的产生、处理和传送过程 摄像机拍摄、后期编辑、发送与接收 • 视频信号的描述 像素、扫描行数、帧频和场频、宽高比
视频信号的数字化 • 视频序列的SMPTE表示单位 SMPTE(Society of Motion Picture and Television Engineers)使用的时间码标准,其格式是: 小时:分钟:秒:帧,或hours:minutes:seconds:frames 一段长度为00:02:31:15的视频片段的播放时间为2分钟31秒15帧 • 数字视频的采样步骤 滤波、采样、量化 ITU-R BT.601标准规定对YCbCr信号的采样方案为4:2:2,即亮度信号采样频率约为副载波频率的4倍,为13.5MHZ。色度信号的采样频率是亮度信号采样频率的一半,为6.75MHZ。 • 数字视频的采样格式 Y:U:V=4:1:1,这种方式是在每4个连续的采样点上,取4个亮度Y的样本值,而色差U、V分别取其第一点的样本值,共6个样本。显然这种方式的采样比例与全电视信号中的亮度、色度的带宽比例相同,数据量较小。 Y:U:V=4:2:2,这种方式是在每4个连续的采样点上,取4个亮度Y的样本值,而色差U、V分别取其第一点和第三点的样本值,共8个样本。这种方式能给信号的转换留有一定余量,效果更好一些。这是通常所用的方式。 Y:U:V=4:4:4,在这种方式中,对每个采样点,亮度Y、色差U、V各取一个样本。显然这种方式对于原本就是较高质量分量信号的信号源(如S-Video源),可以保证其色彩质量,但信息量大。
数字演播室标准:ITUR601(CCIR601) ITU-601中,包含了如何将模拟视频变为数字形式的技术问题,但是它没有发布物理上的实行方法,对采样频率;采样结构;色彩空间转换等也都作了严格的规定,主要包括: • 分量视频:ITU-601公布的数字编码应基于使用一个亮度信号和两个不同的色度信号,也就是通常所说的YCrCb色彩空间。对电视行业,这些信号直接与如何将整个电视信号编码、与通过基带同轴电缆或是地面广播频率传送、和与在电视监视器或是在磁带录像机上解码有关。 • 2.滤波:ITU-601描述了为了获得最高的数字质量,在进行YCrCb采样之前,必须进行滤波。 • 3.采样率:ITU-601规定了对PAL和NTSC视频图像的采样率,实现了世界范围的可互操作性。为了保证信号的同步,采样频率必须是电视信号行频的倍数。ITU为NTSC、PAL和SECAM制式制定的共同的电视图像采样标准:f s=13.5MHZ 这个采样频率正好是PAL、SECAM制行频的864倍;NTSC制行频的858倍,可以保证采样时采样时钟与行同步信号同步。对于4:2:2的采样格式,亮度信号用fs频率采样;两个色差信号分别用fs/2=6.75MHZ的频率采样。由此可推出色度分量的最小采样率是3.375MHZ。 • 亮度和色度采样方法:ITU-601推荐对色度的采样频率是亮度的一半,这就是所谓的4:2:2采样方法。 • 分辨率:根据采样频率,可算出对于PAL和SECAM制式,每一扫描行采样864个样本点;对于NTSC制则是858个样本点。由于电视信号中每一行都包括一定的同步信号和回扫信号,故有效的图像信号样本点并没有那么多,ITU 601规定对所有的制式,其每一行的有效样本点数为720点。由于不同的制式其每帧的有效行数不同(PAL和SECAM制为576行,NTSC制为484行),ITU 定义720×484为高清晰度电视HDTV(High Definition TV)的基本标准。 • 量化:ITU-601提供了一种编码方法,是关于如何将亮度和色度信号从模拟电压转换为数字形式。对亮度通道,黑色是16,白色是235。在16以下和在235以上的数值是用于尖峰值和特殊控制目的的。(一个8位的采样系统允许总共256个数值)。对色度,有很细微的差异。 • 数据量:ITU601规定,每个样本点都按8位数字化,也即有256个等级。但实际上亮度信号占220级;色度信号占225级,其它位作同步、编码等控制用。如果按f s 的采样率、4:2:2的格式采样,则数字视频的数据量为:13.5(MHZ)×8(BIT)+2×6.75(MHZ)×8(BIT) = 27Mbyte / s (黑场空白信号) 同样可以算出,如果按4:4:4的方式采样,数字视频的数据量为每秒40兆字节!按每秒27兆字节的数据率计算,一段10秒钟的数字视频要占用270兆字节的存储空间,编辑数字视频的关键问题是数字视频的压缩技术。
数字视频编码 • 视频压缩编码的基本概念 有损(Lossy)和无损(Lossless)压缩 帧内(Intraframe)和帧间(Interframe)压缩 对称(symmetric)和不对称(asymmetric)编码 • 常用视频压缩技术 预测编码:也称为差分脉冲编码调制(DPCM),是根据原始信号的统计特性进行预测,通过相差除去视频图像信号的相关性,达到压缩的目的 离散余弦变换(DCT)编码:在变换域里描述视频图像比空间域里简单,利用变换编码,视频图像的相关性明显下降,信号能量集中在几个变换系数上,可有效的压缩数据,具有较强的抗干扰能力, 分形图像压缩:分形编码实际就是把图像分割成若干个子图像,子图像通过迭代函数反复迭代而成,这些迭代函数只需几个参数即可确定,因此得到较高的压缩比。 小波压缩:采用局部函数在频域和时域同时分析法,将图像信号分解成不同频率区域,然后根据图像统计特性和人眼生理特性,在不同的频域采用不同的压缩方法,是视频数据量减少。 • 非线性编辑系统的常用几种压缩方式 目前应用于非线性编辑系统的几种压缩方式包括:Motion JPEG、MPEG、SONY的BETACAM SX、DVCAM,松下公司的DVCPRO,JVC的Digital S,小波压缩格式等。
Motion-JPEG Motion-JPEG可以理解为活动图像的JPEG压缩,M-JPEG基于静态图像压缩格式JPEG,对活动图像进行实时的帧内压缩,帧内压缩有一个好处就是可以精确的定位每一帧图像,这一点非常适合非线性编辑,在编辑过程中,可以随机存取任意一帧图像,对于帧编辑十分理想。M-JPEG采用DCT编码技术。 JPEG(Joint Photographic Experts Group)即联合图片专家组,是一个联合ISO/ITU-T技术委员会,成立于1986年低,主要工作是为连续色调(灰度或彩色)静止图像压缩制定通用的国际标准,通过用电视测试图像(720×576,Y:U:V=4:2:2;每像素16比特;宽高比4:3)进行不同的方案测试,经过多次筛选,于1988年1月完成最终测试和评选,结果选出自适应8×8DCT方案为最佳方案,1991年正式提交了ISO CD10918号建议草案。JPEG提供了3种压缩算法:基本系统(Baseline System)、扩展系统(Extended System)和无失真压缩(Lossless)。所有的JPEG编码器和解码器必须支持基本系统,另外两种压缩算法适用于特定环境。基本系统基于DCT和可变长编码(VLC)压缩技术,能提供高达100:1的压缩比,且能保证可接受的重建图像质量,由于DCT编码有失真,故重建图像不能精确地再现原始图像,其图像的失真程度与压缩比密切相关。JPEG最初虽然是为静止图像设计的,但实际上,只要硬件处理速度足够快,完全可以应用与视频压缩,因此,许多非线性编辑系统生产厂家在JPEG的基础上开发了M-JPEG压缩技术。
M-JPEG的压缩过程 • 色抽样:在视频处理器中处理的是分量信号(YUV),因此输入的信号不是分量信号,需要进行转换,亮度信号(Y)、色度信号(UV)各用8比特表示,每个采样共用24比特。信号转换后,亮度信号直接进入DCT编码器中,而色度信号需要进行再抽样、同步,然后进入DCT编码器,这个过程是个有损失的过程,有些信息丢失后无法还原。色度抽样时,处理U分量的同时,丢失V分量;处理V分量时,丢失U分量,这样减少了数据量,本来需要24比特来表示一个抽样,现在只用16比特(8比特的亮度信号,8比特的色度信号),这就是常说的4:2:2(Y:U:V)。不同的厂家可能有不同的处理方法,有的会提高压缩比,有的可能不做处理,而采用24比特的无损信号。色度抽样完成后,色度信号与亮度信号输入到DCT变换器中,DCT变换器的作用主要是用频率变换来表示图像。 • DCT:分量信号的图像进入DCT变换器中,每帧被分割成许多8´8(像素)的正方形,一幅图像可以分割成几千个这样的正方形,DCT变换器对这些正方形进行分析,计算出其灰度变化,然后用频率表示其灰度值,比如大块图形或轮廓变化不大的部分用低频表示,对边缘或细节这样变化大的部分用高频表示,DCT变换器对所有正方形分析完后,在对下一幅图像进行分析。从DCT变换器输出的亮色信号使用频率来表示的,进入下一个过程-量化。 • 量化:量化过程决定了整个压缩过程的压缩程度,可以采用有损压缩或无损压缩,一旦进行有损压缩,丢失的信息无法还原。M-JPEG一般采用2:1的压缩比,在回放时,可以达到无压缩时的视觉效果。根据对人类视觉系统的分析,人眼对亮度和色度的敏感程度不同,在辨别一幅图形时,亮度信号对人眼的刺激更为重要,而色度信号在损失90%的情况下,人眼仍然可以分辨出图形。数字视频压缩技术参考了人眼的这个特点,对色度信号进行压缩,来得到较高的压缩比。量化级数是量化的重要参数,其范围从0到255,级数越大,图像信息丢失越多,图像质量越差,可以得到较高的压缩比。量化级数与每帧的数据量成反比,级数大,每帧图像的数据量小,反之亦然。通过量化,把图像的频率数据根据量化转换成一系列的数,记录了图像的信息。 • 零记数:量化过程产生一个数组,通过计算数组中的零的个数,来帮助在传输过程中判断数组的尾端。这个过程多采用RLE(run-length encoding)算法。 • 霍夫曼编码:霍夫曼编码是DCT编码的最后一步,对数据进行冗余计算,把多余的信息去掉,传递更少的数据。霍夫曼编码得到的结果,就是存储到计算机磁盘上的数据。如果要看视频影象,将这些数据解码,然后通过数字/模拟转换,得到模拟的视频信号,又可以在监视器上浏览或记录在录像带上了。
压缩比 码速率MB/S 记录时间(每GB) 图像质量 1 19.78 52秒 D1、D5 1.6 12.36 1分2秒 D2、D3 2 9.89 1分43秒 DVW 3 6.59 2分35秒 Batacam SP、M2 4 4.95 3分26秒 Batacam M 5 3.96 4分19秒 U-matic SP 8 2.47 6分54秒 SVHS、Hi8 10 1.98 8分37秒 U-matic VO 20 0.99 17分23秒 VHS 压缩比与码速率、记录时间和图像质量比较
MPEG编码 MPEG(Moving Pictures Experts Group)即活动图像专家组,建立于1988年,MPEG的主要任务是为了把计算机系统和广播电视系统结合起来,建立统一的信息网络。在制定MPEG-1标准前,确定出标准建立的要求,规定质量和当前录像机所达到的水平相当,压缩图像和伴音总码率为1.5Mbps,数字存储适合当前应用的几种媒体。MPEG压缩标准于1990年制订,是一种既可以通过软件实现,也可以同过硬件实现的标准。M-JPEG是基于静态图像的压缩技术,MPEG却是基于动态图像的压缩标准。MPEG也采用8´8DCT压缩编码技术,编码过程和前面介绍的类似,但在分析运动部分时,会采用更大面积的分块。MPEG压缩技术有广泛的应用领域,如VCD、非线性编辑、电视会议、VOD等。 MPEG有好几个版本,各有不同的特点和应用: (1)MPEG-1:MPEG-1以4:2:0采样压缩,每秒1.2MBITS的传输码率,图像大小352´240,扫描频率30场/秒。MPEG-1采用帧间编码技术,帧间编码比帧内编码可达到的压缩比高,而且能够自适应帧内/帧间编码,图像活动剧烈时,视频信号的帧间相关性下降,帧内相关性增强,图像活动缓慢或静止时,帧间相关性增强,因此自适应帧内/帧间编码使帧间预测误差减小,提高编码效率。MPEG-1标准提供的图像质量比电视略强,适合于非专业视频领域,如VCD等,但用于广播电视方面,其视频质量是远远不够的。 (2)MPEG-2:MPEG-2是一种高质量视频的压缩标准,也有人称它为用于广播电视的视频压缩标准。MPEG-2标准的视频图像格式采用720×480像素,这与ITU.601标准规定的演播室用数字电视像素相同,是MPEG-1标准所定像素的4倍,同时规定传输码率为4~10Mbps,差不多是MPEG-1传输码率的4倍,MPEG-2采用10比特量化方式,MPEG-2与MPEG-1完全兼容。MPEG-2的专业版本(Professional Profile @ main level)采用4:2:2采样压缩,传输码率可达50-60Mbps。MPEG-2视频体系包括5类(简单类、主类、SNR可分级类、空间可分级类、高类)、4个等级(低级、主级、高1440级、高级),适应广播、通信、计算机和家电视听工业的不同需求。在同等视频质量下,MPEG-2所占空间为M-JPEG的10%~15%,同时MPEG-2已经成为DVD和DVB的标准,因此,有些非线性编辑系统也采用MPEG-2这种压缩方式,目前基于MPEG-2标准的数字压缩格式有SONY的BETACOM SX(4:2:2P@ML)和松下的DVCPRO(4:2:0)等。 (3)MPEG-4: MPEG-4正在制订中,是一种广域传输标准,传输码率在10kbps到1Mbps之间。
交换格式 在产品的后期处理过程中,我们经常强烈需要将数字视频数据从一个应用程序平滑地传送到另一个应用程序。为此,不同应用程序之间为了相互交换数据而共同遵守某一共同的交换文件格式是非常重要的,常用有两种视频交换文件格式。 1.OMF OMF就是开放媒体格式(Open Media Format)的缩写。OMF交换是为方便各种不同的系统协作处理数字媒体数据而设计的一种交换格式。目前OMF是异质平台上交换数字媒体的文件标准。当使用OMF存储数字媒体时,视频数据从一个应用程序传递到另一个时就不需要重新采样:只需将其输出成OMF文件格式,再在另一个程序中从OMF格式文件中导入即可。 OMF在专业质量级别上定义了一个交换数字媒体的标准方法。它被设计成可扩展的并且随着数字媒体使用的广泛性和复杂性的增长而演化。 创建、编辑和播放数字媒体所需要的所有信息都可以在某个OMF交换文件中封装;尽管OMF主要是被设计用来交换的但它的结构同样适于直接播放。 最初是AVID公司开始研制OMF的,但现在有400多家生产厂商和终端公司一起在参与OMF标准的制定。 但根据我们目前所了解的情况和市场前景(从不同的制造商获取的信息),主要的非线形编辑系统的制造商都不愿意遵守OMF。他们中的一些人认为OMF是AVID公司所专有的格式没有成为标准的潜在可能。 2 . Open DML Open DML最初由Microsoft、D-vision、Dynatech EML、JVC、Montage、Pinnacle Systems、C-Cube、Truvision和Adobe等大公司一起制定。 Open DML是一个通用的数字媒体文件格式。它允许用户直接读取任何公司产品中的同一块视频数据。Open DML是一个在Windows平台上运行的程序,这就意味着所有基于Mac的的产品将被排除在这个标准之外。 OMF方法与Open DML方法有着本质上的区别:它们并不是对立的,而是一种互补的关系。OMF是一种在两个不同的非兼容格式下的交换格式,Open DML是一种通用文件格式。 AVID正在准备与Open DML靠拢,但其它公司如Panasonic、Sony、Quantel等却都没有丝毫靠拢的迹象。
数字音频技术 • 声音的本质:通过空气、水或物体中分子的震动传播的一种纵向波。 • 声音描述:振幅与频率,听觉频率范围稍有差异,但一般认为是在20HZ到20000HZ • 声音的记录原理:物理存储(电流信号)、磁存储和光存储 • 声音的数字化:采样、量化
声音类型 采样频率 量化位数 声道数 存储量(每分钟) 电话质量的语音 11.025 KHZ 8 单声道 662 KB 高质量的语音 11.025 KHZ 16 单声道 1.32MB 音乐 22.05 KHZ 16 单声道 2.65MB 音乐 22.95 KHZ 16 立体声 5.3MB CD质量的音频 44.1 KHZ 16 立体声 10.6MB 音频采样类型
音频卡中声音信号的处理过程 输入的模拟音频信号经过前置放大器放大后,由程序可控增益放大器进一步对输入信号的幅度进行控制。抗混滤波器根据采样频率滤除可能引起噪声的频率。经过模数转换(A/D)和采样保持(S/H)电路,得到8位或16位数字化声音数据。DSP芯片对声音数据进行ADPCM压缩,以DMA传送方式,通过PC总线将数据存储在硬盘上。声音重放输出的过程正好相反,从硬盘读出的编码声音数据,被系统以DMA方式传道到DSP处理器,经DSP解码和数模转换(D/A),变成模拟信号,再由重建滤波器进行低通平滑(sinx/x)滤波。声音信号的输出电平在软件的控制下,经过功率放大器输出。
数字音频的压缩编码及文件存储 • 编码和压缩 ADPCM:高质、高数据率的无损音频压缩算法,可用于任何类型声音的编码。 MPEG Layer3低数据率、高质量的复合音频压缩方法,对混合类型的声音比对纯语压缩的效果要好,在Internet网上应用比较普遍。 DSP Group TrueSpeech:一种中低速码率的、面向语音的压缩编码方法。 (CCITT)G 711 A-Law and u-Law:电话质量的语音压缩标准,数据率比较低。 • “指令”格式又称“创作”格式,一般由音乐作曲和创作人员设计完成,其典型的文件类型是MIDI文件。在这种文件中记录了一系列的发声指令,其中包含音色、音调和声音的延续长度等信息。MIDI文件只占用很小的硬盘存储空间,但需要比较复杂的硬件和软件(例如波表音源)相配合才能使用,而且在不同的音源上演奏的效果相差非常远;“数据”格式又称“记录”格式,这种类型的音频文件一般用来保存真实世界中发生的语音、音乐和音响。 • 常用的音频文件几种: *.aif:苹果Macintosh多媒体计算机中标准音频文件格式; *.asf:微软所定义的流式音频格式,支持多种压缩编码方案,适用于14.4KBPS和28.8KBPS的低速网络应用,该种格式的文件中除了保存原始音频信号之外,还能记录附加的数据信息。 *.avi:一种常见的视频文件格式,也可用于记录采用多种压缩算法的多轨音频信号; *.ra:一种网络流式音频格式,适用于14.4KBPS和28.8KBPS的低速连接; *.voc:用于多媒体PC计算机的音频数据格式,支持8比特和16比特数字采样,由创通公司定义; *.wav:标准的Windows音频数据格式,支持多种压缩算法、8比特和16比特数字采样和单声道与立体声通道。 *.mov:苹果Macintosh多媒体计算机中视音频文件记录格式,可以不包括视频画面只包含音频信号。
非线性编辑系统的基本构成 一套完整的非线性编辑系统主要包括:计算机主机及显示器、视音频处理卡、硬盘阵列箱、接线盒、录像机、监视器、音箱、网络接口、软件,另外还有许多扩展设备如特技卡等。 录像机在非线性编辑系统中起着播放素材带和录制母带的做用,不参与节目的制作工作,录像机是视音频信号源,其质量决定了信号的质量。监视器是监视视频信号的设备,由于现在电视制作基本都采用分量信号,因此,监视器应该具备监视分量信号的功能。音箱是用来监听音频信号的设备,在音频编辑的过程中,要监听制作的音响效果,因此音箱的质量不能太差,一般使用木制有源音箱。
计算机平台 非线性编辑系统中,视音频信号的处理编辑都是在计算机中完成的,计算机可以说是非线性编辑系统的最基本的部分,提供给整个系统各种软硬件资源。一般非线性编辑系统采用的计算机平台主要是苹果计算机和高档PC机,也有一些厂商采用价格不菲的SGI工作站。 • 1991年SGI推出了真正完整的非线性编辑工作站——Indigo2。其中央处理器采用的分别是33、50和75MHz的R3000、R4000和R4400RISC芯片,这些处理器的速度独立于系统总线速度。主板上除了CPU、FPU以及两级高速缓存Cache外,还在总线上设置了专用集成电路芯片,这些特别设计的ASIC芯片可以在不需要CPU参与的情况下,执行内存和处理器的中断、I/O处理、总线控制、像素填充、图形绘制等操作。CPU总线与用于连接处理器核心、主内存、I/O系统、扩展槽以及图形板的GIO总线分别以不同的速度运行,拥有不同的时钟,使二者的能力得到最大限度的发挥,因而可以快速高效地传送大量的数据。SGI工作站的图形和动画功能很强,但其昂贵的价格常令用户望而却步。 • 苹果计算机在视频领域里发展时间长,技术先进,操作系统稳定,特别是其64位PCI总线技术,为数据的高速传输奠定了基础,苹果机一开始就具有多媒体功能,使用PCI总线和SCSI外设,速度比PC机具有明显优势。最早进行非线性编辑系统开发的也采用苹果机器,如美国AVID公司的MC系列,其核心部件都集中在Mac主机里,包括Nuvista图像板(将视频信号数字化并负责控制编辑显示器上的显示)、JPEG板(用来实时压缩和解压缩信号)、音频板(进行音频信号的数字化和处理)和硬盘加速卡(能以16BIT位长传输字节,保证视频采集和重放时需要的硬盘性能)。Mac机虽然在印刷、平面设计领域有着较稳固的地位,但是基于Windows/Intel体系结构的PC机与苹果机相比,硬件配件的可选范围和软件种类更多,数据格式通用性更强,而且有较多的开发工具可供编程,因此生产和开发厂家越来越将目光转移到PC机平台。 • 比起苹果计算机来,PC机虽然占有计算机市场的主要份额,但在图像方面上,还是稍逊一筹,不过PC机也在视频方面不断的发展,与苹果机竞争视频行业的市场,特别近几年PC机的CPU主频飞速提高,而且伴随的总线技术也有较大进步,因此基于Windows NT平台的非线性系统大量涌现,同时工作站的价格也在不断下降,由于其优越的图形处理功能,使工作站在非线性编辑中占有一席之地。
存储介质 • 非线性系统采用的外部存储器主要是磁盘和光盘,判断存储器的性能考虑三个因素:容量、数据传输速率和访问时间。 • 磁盘以“0”、“1”这样的数字信号记录数据,准确、无损失的记录、复制、传输各种数据,而且可以迅速访问磁盘上任意位置的数据。磁盘目前朝着高容量、高速度的方向发展,磁盘容量从几十MB发展到上百GB,更大的磁盘还在不断出现。由于计算机的CPU主频迅速提高,处理数据速度已经非常快了,在计算机系统里的瓶颈主要在于数据传输,因此对磁盘的性能和接口速度的要求也在不断的提高。磁盘可以分为软盘和硬盘两种。 • 磁盘阵列:RAID的本意是为了容错。容错系统是标准化的,RAID结构称为级(Level),不同级有各自的特点,并不是级序越高、性能全面的就好,应该根据不同的应用选择不同的级别,才能达到最佳使用状态。RAID共分为0、1、3、5、10、30和50七个级别,0、1、3、5级已标准化,10、30、50仍在讨论中。在非线性编辑系统中,硬盘中的数据是从录像带上上载的,容错起码在目前是不重要的,而传输速度才是最迫切需要解决的问题。因而,RAID的第0级,即带区集是非线性编辑系统中最受欢迎的方式。带区集虽不提供任何容错,但能使组成带区的逻辑盘读写速度提高数倍。用3—10只8MB/S的廉价SCSI硬盘组成带区集速度能达到16—40MB/S,基本上能与UltraWideSCSI总线的速度相匹配,使无损压缩和无压缩的单路视频采集不丢帧,并能实现视频压缩数据的多路采集和回放。 • 光盘存储器作为大容量的存储介质,以其体积小、密度高、容量大、数据保存寿命长、介质可换、工作安全可靠、抗灰尘能力强、单位价格低廉以及应用多样化的特点,已成为一种重要的外设。光盘大致分为两类:WORM(write once, read many 一次写盘,多次读盘)和WMRM(write many, read many 多次读写),WORM只能进行一次写盘,数据一旦写到盘上,就不能删去重写,写盘后只供读取数据用,和CD-ROM的区别在于CD-ROM上已经由生产厂家写好数据供用户读取使用,WORM需用户自己往盘上写数据。WMRM是可擦写光盘,就象磁盘一样,数据写到盘上还可以删除,写入新的数据。
RAID 0级 1级 5级 3级
接口类型 时钟速度 数据宽度 传输率 SCSI-1 5MHz 1字节 5MB/秒 高速窄口(Fast,Narrow)SCSI 10MHz 1字节 10MB/秒 高速宽口(Fast,Wide)SCSI(SCSI-2) 10MHz 2字节 20MB/秒 超高速宽口(Ultra,Wide)SCSI 20MHz 2字节 40MB/秒 SCSI、SSA、FC、IEEE1394接口 SCSI(Small computer system interface 小型计算机系统接口)作为磁盘接口。SCSI接口标准最早在大型机里流行,后来苹果公司在其产品中引入SCSI接口,SCSI接口才在台式机中出现,而后进入工作站、PC机领域。SCSI接口一般应用在要求数据传输量大的系统中,SCSI存储设备的性能也比一般的设备好,对于数字视频系统来说,这可能是最佳选择。 SCSI控制卡是连接CPU和存储器的接口,由于它提供DMA(direct memory access)通道功能,大大提高了SCSI设备的传输速率,比如只使用SCSI-1型接口的硬盘,可提供1.5MB/秒的传输率,如果配置一块相应的SCSI控制卡,传输率可达到5MB/秒。 另外SCSI技术受到距离的限制,最大支持3米的连接距离,超高速宽口SCSI只支持1.5米距离和4个SCSI设备。但使用控制卡模式可以增大有效距离,如单端控制卡(Single-end controllers)可以支持6米,多端控制卡(Differential controllers)可支持72米(超高速宽口SCSI除外,只能到1.5米)。 SSA(Serial storage architecture)是IBM开发的一种CPU与存储器之间的高速接口技术,一般SSA可以提供和SCSI相当的传输速率(20MB/秒,40MB/秒),高速SSA可以达到100到160MB/秒的传输率,利用SSA可以轻松的传输无压缩的ITU-601标准视频数据。但是由于SSA接口没有被大多磁盘、控制卡制造商采用,这种技术没能在非线性系统中流行起来。 FC(Fibre Channel)是一种采用光通道的高速传输技术,它利用光纤取代了铜芯,传输速率可达250MB/秒,FC-AL(Fibre Channel Arbitrated Loop)提供125MB/秒的CPU-存储器传输速率。许多厂商开始支持这种光通道技术,在不久的将来,也许会在非线性系统领域里展露头角。 IEEE1394是苹果公司针对串并行接口(RS232,SCSI等)提出的,1995年底得到认可,并且成立商业联盟,这种接口技术具有实时数据传输能力,并且可以热插拔和网络连接,支持的传输速率可达400MBITS/秒,将来可以达到1GBITS/秒,甚至更高。目前IEEE1394得到了广泛支持,相应的产品也不断的出现,如数字摄录机、数字相机等,为非线性编辑的前后期一体化提供了支持。
备份存储 • 8mm 25-40美元 25GB • DAT 15-20美元 25GB • DLT 99美元20-35GB • 8mm 一代 2GB 1.5MB/秒(写速率) • 8mm 二代 4GB 1.5MB/秒(写速率) • 8mm 三代 15GB1.5MB/秒(写速率) • 8mm 四代 20GB3MB/秒(写速率) • 8mm 五代 30GB5MB/秒(写速率) 目前最常用的大数据量备份设备是磁带,磁带不仅能够记录模拟的视音频信号,而且还可以记录数字信号。市面上有多种格式的磁带,如:4mm磁带,8mm磁带,DAT(digital audio tape数字音频磁带),DLT(digital linear tape数字线性磁带),不同的磁带需要不同的磁带驱动器。磁带的磁密度高,单位面积记录的数据量大,而且造价低廉,其传输速度相对较慢,但能满足备份数据的速率要求。下面的列表显示了磁带的造价和传输速度的相关数据。 • DLT 一代 10GB1.25MB/秒(写速率) • DLT 二代 15GB1.25MB/秒(写速率) • DLT 三代 20GB1.5MB/秒(写速率) • DLT 四代 35GB5MB/秒(写速率) • DAT 一代 1GB 250KB/秒(写速率) • DAT 二代 4GB 500KB/秒(写速率) • DAT 三代 12GB1.25MB/秒(写速率)
视音频处理卡 • 从硬件构成的角度看,视音频处理卡可分为单通道和双通道两种。这里通道的意思是指在内部视频混合器之前的独立的视频回放通道。目前绝大多数的非线性编辑系统使用的都是M-JPEG算法,因此可分为只有一个M-JPEG Codec(编解码器)的单通道系统和有两个M-JPEG Codec的双通道系统。单通道系统只能对一路视频信号进行压缩记录和解压回放,这就意味着系统肯定无法完成多层画面的实时处理。双通道系统由于可以完成两路视频信号的解压回放,再与系统内部其它处理单元相配合,就可以完成两路活动画面的实时混合处理。 • 目前市场上主流板卡有:Pinnacle公司的Targa系列,它属于音视频合一卡,是最早进入国内的板卡,突出特点是采集质量好、信号稳定,不过支持它的软件不多,在与三维动画软件搭配方面有良好的发挥,至今仍是许多广告公司手中的利器。DPS公司PRT系列,使用Videoaction软件,Matrax公司的Digisuite系列,与PRT一样,是较新的板卡,支持多层实时。此外还有Nitro,Reeltime等板卡。支持它们的软件国外有Premiere,Speedrazor,Videoaction等。 • Avid产品与上述产品不同,它自成体系,属于系统集成商,自己开发软、硬件。Avid开发第一款非线编到今天,经过了十年的时间,推出九代非线编产品,和其他几十种数字视频设备。
单通道系统 单通道系统(只有一个压缩/解压缩通道)通常在硬件上无数字特技、数字混合和字幕叠加部分。它只是完成视音频信息的采集、压缩解压缩和编码输出。 单通道系统其核心部件就是M-JPEG图像系统,它需要完成视频信号的解码,压缩解压缩和显示(在计算机CRT上显示)以及信号的编码输出。由于单通道系统的回放通道只有一个,因此无法实时地完成电视节目制作中常用的特技混合和切换处理。视音频的处理只能通过软件来生成。采用软件生成素材有两大缺陷:一是由于生成需要不断对同一素材进行压缩和解压缩,造成视频质量的损失;二是通过软件生成的文件还需再存到硬盘上去,又占据了硬盘空间。 单通道系统的设计主要是为了降低成本,其着眼点只是具备基本的“采集—压缩—存储—解压—回放”功能。
双通道系统 双通道系统有两路视音频的采集和回放通道,其视音频子系统的硬件包括:外部视音频输入模块,压缩采集解压缩回放模块,图文产生模块,二维数字特技模块,三维数字特技模块,多层叠加模块,预览输出及主输出模块。 视频信号输入后先进入数字混合器,这样设计的目的是可有一路活动的背景信号在数字混合器中与其它已存在硬盘中的视频文件作混合。要压缩保存的视频信号经混合器旁路后进入压缩/解压缩通道进行压缩后变为标准的视频文件存放在硬盘中。音频信号经A/D变换后存入硬盘。在使用应用程序进行编辑时,视音频文件从硬盘中调出,可有两路视频信号通过解压缩后进入视频混合器,这时由视频效果DSP控制对进入混合器的视频信号进行二维和三维特技变换。在混合器中还完成扫换、叠化、键控等效果。由32BITR.G.B-Alpha图文帧缓存产生的字幕在回放过程中在混合器中实时混合输出,完成图像和图文字幕的叠加。音频信号经数字音频处理后输出。 在这种双通道系统中,复杂的功能由各个功能模块组成。压缩解压缩是两个完全独立的通道,因此要求组件尽量小型化和低功耗。由于内部实时数字视频通道对回放画面不产生损失,因此最大限度地保证了经过特技合成画面的质量。同时这样的系统不需要制作人员等待,系统仅存储视音频素材及其合成信息,节省了硬盘资源。 双通道系统通常由两块以上的套卡组成。每块板卡各司其职。
视频信号的采集和压缩 JPEG算法的好处在于帧内压缩,系统构成的灵活性比较大,既可以做到无损压缩,也可以做到质量尚可的有损压缩。完成JPEG算法的信号处理器从90年以来发展很快,可以达到以实时的速度(PAL制为25帧/秒,NTSC制为30帧/秒)完成运动视频图像的压缩。因此这时的压缩性能被称为Motion-JPEG。由于专业视频编辑常常需要对场进行处理,因此压缩必须对场进行,而不是帧。这样在数字解码后需经过一个两场存储器FRAM才能进行后续压缩处理。这也是Motion-JPEG与JPEG的最大区别。此外,由于需要以25帧/秒的速度实时地压缩电视图像,一般在硬件中是把一场分区同时压缩,以减少一幅图像的压缩时间。 在双通道系统中视频信号压缩解压缩部分及其接口处理框图如右图所示。视频信号经过输入解码后送入压缩解压缩Codec,Codec有两个接口:与系统其他信号处理部分的接口通过高速宽带总线相连;与存储介质相连,通过第二条PCI总线接口,使主PCI总线彻底地解放出来。
多层画面的实现 • 多画面合成在过去主要应用于平面设计中,为了增强艺术效果,常把几层至几十层画面合成一层。在平面设计中,由于是单幅静止图像,处理比较容易。而要把多路活动图像合成一层就要困难得多。传统的特技发生器一次只能合成二层图像。一个n层画面则需合成n-1次,因此需采用多代复制才能实现多层合成。而如果使用的是模拟分量录像机,在多代复制后图像质量会严重下降。切换台虽能一次合成多层画面,但只能实现简单的功能,不能满足广告和片头制作的要求。 • 目前非线性编辑系统中的多画面合成有硬件和软件两种类型。软件合成多用于简单的单通道非线性编辑系统中,它是用程序算法一帧帧生成的。生成时间视合成的层数和复杂程度而异,通常生成一分钟的多层画面需要很长时间。除了最底层的画面外,其余层的画面都是通过α通道来合成的。每一层α通道的来源都可以不同,比如说色键或是一幅在图像处理软件中作出的黑白图像(α通道图像)等等。 • 在高档双通道非线性编辑系统中都采用硬件合成技术。硬件合成方式有多次合成和一次合成两种方法。
多次合成硬件结构 多次合成硬件结构比较简单,只要有1—2个DVE发生器和一个数字混合器就可实现。采用的方法是把两路编辑轨上的画面分别赋予特技,先经过数字混合器合成一个文件保存在硬盘中,再调出后与第三层画面用同样的方法进行合成。这种合成方式与录像机多代复制原理一样,但混合是在数字级上进行的,质量损失很小。它的特点是硬件成本较低,但操作时效率不高,需要等待,等待时间要比纯粹用软件生成要快,而且硬盘利用率低。
一次合成硬件结构 图中示出的是由三层图像,三个DVE,两个数字混合器,一个扫换波形发生器,一个色键发生器和一个亮键发生器构成的多层画面合成的硬件结构。 一次合成的硬件结构非常复杂。一次合成几层画面,就得动用几个DVE发生器,并且需要多路划像器、多路色键、亮键和多轨DAT。这种方式是最理想的。图像质量最好,制作效率最高。这种合成方式以Digisuite为代表。它内部包含两个5层数字视频混合器,5个板上2DDVE,用DSP控制的扫换发生器,两个亮度键,两个色度键和七个背景发生器。可以同时合成五层画面:A路视频、B路视频、录像机直通信号、一层图文字幕和背景图案。这五层画面的合成是下载过程中实时实现的,所保存的为编辑链表文件(容量很小,只有几十K)。合成时不需要中间存储介质,硬盘利用率很高,可修改性极好。这种方式硬件成本较高。
数字视频特技单元 数字特技又称数字视频效果(Digital Video Effect,DVE),是对视频图像的尺寸、位置、色彩、方向等运用数学模型经过数学运算完成变换的技术。数学运算必须依靠一定的数学模型,而这些数学模型就是数字特技算法。 一幅图像对应的是一个二维空间的矩形点阵,设(x,y)为变换前原图像函数f(x,y)任意点坐标,(x',y')为变换后图像函数f(x',y')任意点坐标。二维变换的数学模型为: x'=ax+by+c y'=dx+ey+f 当a,b,c,d,e,f为常系数值时就是二维线性特技变换,通过调整各系数值可得到各种方式的二维特技。当a,b,c,d,e,f为非常数值,即是(x,y)的函数时,则属于二维非线性变换,通常的二维特技有画面平移、镜头变焦、平面畸变、平面旋转等。 三维变换的数学模型为: x'=ax+by+c/gx+hy+I y'=dx+ey+f/gx+hy+i 三维特技是通过对二维画面的变换形成一种三维空间形体,即由大到小,由远到近的三维空间运动的透视效果。常用的如卷页、翻滚、水波纹等。 DVE算法所需的计算量很大,一般只有靠专用的高速硬件处理芯片做成强大硬件支持才能完成真正的实时三维特技运算。它最基本的形式是将视频以一定的时钟和地址写入存储器,然后再用与特技算法相关的时钟和地址从存储器中读出数据,如下图所示。
图文字幕的叠加 • 硬件字幕需要专门的电路支持。其硬件构成通常由一个图形加速器和一个图文帧缓存构成。图形加速器的效率和功能将直接影响图文字幕的速度和效果。一层字幕必须有对应的一页R.G.B-Alpha32BIT全PAL分辨率(720*576)帧缓存。一般4MWRAM图文帧缓存可实现两页图文。叠加字幕的工作过程是将汉字从硬盘字库中调到计算机内存中,从线性地址写入图文帧缓存,经属性描述后输出到图像混合器的下游键中,与图像合成后输出。一层字幕的硬件开销比一层图像要复杂。图像帧缓存是Y.Cr.Cb 4:2:2结构,一个像素用16BIT描述;图文帧缓存是R.G.B-Alpha 4:4:4结构,一个像素用32BIT描述,帧缓存规模比图像大1倍。Alpha是线性键是一层8BIT的黑白图像,用作键信号,能使图文具有256阶渐进半透明。它不仅可以改善图文与背景视频叠加的效果,而且经过软件运算还可以实现字幕边缘的抗混叠(Anti-aliase)处理。即通过对像素突变处插入不同透明度的像素来平滑字幕的边缘,消除斜线锯齿效应和单线闪烁现象,极大地提高字幕边缘的质量。一个图文帧缓存只具备了一层静态字幕的功能。要使字幕实时运动,还需2个DVE专门为字幕作特技,一个赋予24BIT的R.G.B帧缓存;另一个赋予8BIT的Alpha帧缓存。2个DVE还必须同步工作,才能实时完成字幕的二维和三维运动。依次类推n层字幕就需n个32BIT的图文帧缓存和2n个DVE。可见硬件字幕的造价是很高的,因而一般非线性编辑系统中只有一层实时字幕。字幕播出可铺在视频编辑轨上或是按照传统的方式眼观图像手敲键盘上字幕。 • 软件字幕是利用作图软件的原理,把字幕作为图形键处理,生成带Alpha键的位图文件。将其调入编辑轨对某一层图像进行抠像贴图,完成字幕功能。软件贴图需逐个像素生成,字幕功能简单,成本较低,不需要硬件开销。国内一些非线性编辑生产厂家专门开发了非线性编辑用字幕软件,可以插入到图像编辑软件中使用,没有这些软件时也可用专用的作图软件,如Photoshop制作贴图字幕,作临时凑合之用,当然功能比专用字幕软件要差一些。
视音频信号的连接 专业非线性编辑系统的结构非常复杂,必须用多块板卡组合起来才能实现非线性编辑系统的基本功能。这些板卡都插在计算机主板的总线槽上。主板上的总线并没有足够的富裕带宽来传输视音频数据,于是人们设计了在板卡之间传输连续高速数据流的介质流总线(Media Stream Bus)。介质流总线是各种媒体传输总线的总称,直至目前仍在发展之中。 Movie-2总线是符合ITU-R601标准的介质流总线,可容纳14路视频数据和4路串行数字音频数据,总线速率超过242MB/S。总线有两个高密度接口CON1和CON2。CON1是一个90芯接口,提供板卡的双向I/O,基准和同步。CON2是一个70芯接口,传送往返DVE信号和键信号,与CON1有相同的基准和同步。连接在Movie总线上的多块板卡中,任一板都可以是主板或从板。但在某一段时间里,只能有一块是主板,其它是从板。 Movie-2总线可同时传输下列信号: 8路独立的ITU-R601标准8BIT或10BIT不压缩数字视频数据(并行D1) 6路独立的ITU-R601标准的8BIT键信号 4路串行数字音频数据(AES/EBU和S/PDIF兼容) IIC总线协议控制信号或其它控制信号 视频和音频定时基准 Movie-2总线上的数据是高速连续传输的,不需要FIFO缓冲器。视频采样时钟是13.5MHz,音频采样时钟是12.288MHz,都是由27MHz的主基准分频得到的,保证了视音频的准确同步。Movie-2总线是目前最先进的视频总线,受到全世界主要视频厂家的认可,已成功应用在DigiSuite、Genie、ReelTime和PerceptionRT等板卡中。
视频信号的输出和显示 如果在计算机屏幕的GUI窗口中看到正在采集或回放视频可以免去在视频监视器和计算机显示器之间来回转动脑袋之苦,这在技术上要解决逐行扫描的VGA图形与隔行扫描的电视图像迭显的问题。视频和计算机的迭显一般有两种实现方式:硬件实现和软件实现。 软件迭显是指系统的视频迭显机制是由软件实现的。它通过建立对应于计算机图形子系统的图形显示存储区的显示映射区,对相应的控制寄存器进行控制,将变换过大小和彩色空间的视频像素传送至图形显示存储区,在图形子系统中完成视频迭显。这种迭显方式由于需要逐点计算,因而占用了CPU大量时间。由于视频和压缩数据都由CPU和总线技术来管理,因此容易出现计算机显示器上显示的视频图像不连续的现象。有的非线性编辑系统因此不用这种软件迭显的方式,而是直接将视频信号编码输出,从TV监视器上观看。软件迭显常用在廉价非线性系统中。 硬件迭显的核心部件是图形加速器。随着芯片集成度的日益提高,原先的VGA控制器被高性能的图形加速器所代替。这些图形加速器虽然没有超出VGA的原理框架,但它的硬件具有了刷新缓冲区的基本管理机制。这种管理机制主要是对于单个像素、专用像素和像素组等图形单元和图形部件的管理,增加了对绘制线段、圆弧和显示模块等高层次图形功能。因而明显减轻了由于众多的图形管理给CPU带来的压力。围绕高集成度的图形加速器的视频迭显方案可使显示系统无须再单独为视频数据增加一块帧缓存,使系统设计大大简单。高性能的图形加速器,如Trident的9685和Matrox的MGA2964W都支持不同的数据格式输入,视频数据可以送入常规的图形帧缓存中,和图形数据分开存放,两种显示方式互不影响。图形加速器可通过其本身的视频显示机制,将视频信号转换为VGA格式的信号,迭显在计算机显示屏上。用这种图形加速器构成的高档显示卡可接收不同格式的视频数据,由软件配合在计算机显示器上开不同大小的视频窗口,因而可以单独地完成视频输入和显示的功能。
板卡 指标 Perception RT Targa2000RTX/SDX ReelTime DigiSuit LE DigiSuit 实时项目 划像 划像、色键、亮键 划像、色键、亮键 划像、2层色键、2层亮键、2层二维 划像、2层色键、2层亮键、3层二维 图象层数 2层 2层 3层 5层 5层 最小压缩比 2:1 1.5:1 1.6:1 1.3:1 可关闭DCT SDI接口 有 SDX有 可选 可选 有 IEEE1394接口 无 无 可选 无 无 声音平衡支持 无 有 有 有 有 声音I/O通道数 2 2 2 4 4 数字AES/EBU 无 SDX有 无 可选 有 数字S/PDIF 无 无 无 有 有 专业DAT质量 无 无 无 有 有 划像种类 200 200 130 >200 >200 2D DVE 无 1个 无 2个 5个 色/亮键层数 0 1 1 2 2 典型的视音频卡介绍 常见的双通道图像处理卡
板卡 一般 PCI接口 功能 12.1“*4.2”,2PCI槽,遵循V2.1 DigiMix 遵循的规则 图像处理卡 FCCA类,CE Mark A类 视频特点 DigiMotion 同步锁定 双通道压缩/解压缩卡 黑场输入 DigiDesktop 输入 带Trimedia通道双屏四电视窗口X、Y定标显示卡 3个复合,3Y/C或2个模拟分量 串行数字可选 Marvel Millenium 输出 单屏单电视窗口显示卡 复合、模拟分量,串行数字可 可选 预预监:复合Y/C线形键 DigiLink 数字视频接口卡 视频格式 ITU-R60 YUV 4:2:2 NTSC720*486 PAL 720*576 音频特性 与视频同步锁定 遵循SMPTE-272M和AES11-1991 模拟音频I/O 4in/4 out,平衡(XLR)或平衡(RCA)和立体声预监输出 采样方法 16位48KHZ128X过采样 听音室 17db 视频codecs 基线M-JPEG 遵循ISO10918-1和Microsoft PEG DIB 无损压缩质量 Haffmom和运行长度平均信息量编码 内置SICI控制器 Adaptec AIC7880p,40MB/S Ultra Wide SICI,支持15个设备 内置处理器 视频特技控制器 T1TM320BC52 100MHz 音频控制器 Amlog Deviusz1062 32位 33MHZ 图形控制器 MatroxMGA-2064W 2D DVD处理器 MatroxFiesta-1(5位) 视频混合器 MatroxSiestea-1110位YUV 4:2:2处理 DigiSuite DigiSuite是Matrox公司的一组套卡,5块板卡组成。这是一组用Movie-2总线连接在一起的双通道板卡,卡上的硬件资源较丰富,有五个二维DVE、两个五路数字混合器、两个划像器、两个数字色键、两个数字亮键、七个电子背景发生器、一个图文帧缓存、五个特技帧缓存。四路八轨DAT处理器。卡上自带UltraWideSCSI接口,能直接以RAID带区方式管理多达14个素材硬盘。可关闭DCT,只做熵编码,实现无损压缩。能实时处理放机图像、两路硬盘回放图像、电子背景和字幕共五层画面,软件底层支持开放的DirectShow。这套板卡中缺少三维特技处理功能,应用中须配一块Pinnacle公司的三维特技卡Genie。
采样频率(kHz) 最大比特数 存储量(kB/分钟) 声音质量 11.025 8 11 广播讲话,一般语言 22.05 8 22 调频广播音乐 44.1 16 88.2 CD光盘音乐 48 16 96 数字磁带录音(录像)机音乐 音频处理 和视频处理卡一样,音频处理卡对音频信号的处理也是一个编解码的过程。音频信号由模拟信号转变为数字信号,使用压缩技术通过编码量化,记录在磁盘上。音频压缩系统是将音频信号的表示从时域转换到频域,以实现基于心理声学的音频压缩,所得的频域系数即是接下来要编码的内容,频域系数可数字量化,因为产生的量化噪声将与音频信号在同一频率上,由于心理声学掩蔽效应,对低的信噪比是可接受的,基于人类听觉的心理声学模型,对于每个单独的频率系数,比特分配操作决定了什么样的SNR(信噪比)可以接受,最后,频域系数数字量化到所需精度,并格式化音频的基本码流。基本码流包括了使音频解码器实现相同(对编码器)比特分配的必要信息,这样,解码器将基本码流频率系数进行分组拆装和反量化,从而重建频率系数。合成滤波器组是分组滤波器组的逆过程,它将重建的频率系数还原为时域信号。 在质量较好的非线性编辑系统中,音频处理卡与视频处理卡往往是集成在一块卡上的,称之为视音频处理卡,完成视音频处理工作,如采集、合成、输出等。某些非线性编辑系统由于主处理卡没有音频处理功能,是通过外插音频处理卡来解决音频处理问题,如果使用普通的多媒体音频卡,其音频通道的频响、信噪比、接口形式及是否平衡输出都满足不了广播电视的要求,而且,这种低档的音频卡,处理速度缓慢,在采集和回放时,跟不上视频卡处理的速度,出现视音频信号不同步现象,为了保持视音频同步,就会出现丢帧现象。虽然使用外插卡往往造成不同步现象,并不是说使用外插卡就一定不能满足要求,有些高档的专业音频处理卡,性能优越,可以保持视音频信号的同步,提供专业音频接口,只不过价格相当高昂。所以音视频处理集成在一块卡上是比较合理的设计,既能保证音视频信号的同步,又降低了成本,在非线性编辑系统中普遍使用。
编辑软件 • 视频效果:After Effects、Primier、Boris Effects、Transjammer、Media Paint、Elastic Reality、Debabelizer、MovieFlow、Morphy、Final effects。 • 绘画/合成:Photoshop、Corel Draw、KPT Bryce、Xres、Collage、Painter、Texturescape。 • 三维动画:3D Max、Electric Image、Infini-D、Extreme 3-D、Ray Dream、Macromodel、3D Studio、Typestry、LogoMotion、Stratavision 3-D。 • 数字音频:Deck II、CyberSound、Digitrax、SoundEdit 16、SoundDesigner II、Digital Performer。 基本功能:硬件设置、软件设置、素材采集、素材管理、视频编辑、音频编辑、输出
视频网络 • 调制解调器 14.4kBITS/秒、33.6kBITS/秒、56kBITS/秒 • 租用专线56kBITS/秒 • ISDN 64kBITS/秒(每通道) • AppleTalk:230kBITS/秒 • 以太网:10MBITS/秒、 100MBITS/秒、1000MBIT/秒 • T1:1.5MBITS/秒 • T3:45MBITS/秒 • FDDI:100MBITS/秒、200MBITS/秒 • ATM:155MBITS/秒、622MBITS/秒(OC1=51.8MBITS/秒,OC2=155MBITS/秒,OC3=622MBITS/秒,OC48=2.4GBITS/秒) • Fibre Channel(光通道):133MBITS/秒、1GBITS/秒、 4GBITS/秒 • FireWire :400MBITS/秒、 1GBITS/秒、 • HiPPI(high performance parallel interface,高性能并行接口) : 800MBITS/秒、 1600MBITS/秒
压缩比 相应的模拟视频指标 每个GB存储的录像时间 1:1 无压缩DI 49秒 2:1 数字Batacam SP 1分37秒 5~8:1 Batacam SP,MII 4~4分30秒 10~15:1 U-matic Hi-8mm 8~12分 20:1 专业VHS 16分 30~40:1 普通S_VHS或VHS 24~32分 60:1 脱机 48分 90:1 脱机 48分 120:1 脱机 48分 非线性编辑系统的选购 • 计算机平台 • 视音频处理卡 • 系统的处理速度 • 编辑功能 • 软件功能 • 素材管理 • 集成性的写作和效果 • 兼容性 • 开放的解决方案 • 系统的可靠性和售后服务
选购指标 • 总体硬件配置:主机、内存、内置硬盘、外置硬盘、彩显、外部特征、视音频处理卡、信号调整功能、图像质量、建议选件 • 接口:复合、Y/C、YUV、RGB、数字、单双通道、系统兼容 • 软件:主软件、附属软件及扩展功能、压缩比、操作便捷程度、图像制作范围、实时程度、特技范围、素材采集、素材管理、简单剪辑、简单特技(叠化、划像) • 二维特技:快慢动作滤色镜效果、抠像、油画马赛克、多层移动溶像、5层以上多分格、局部多层复制运动画面、单线动画 • 三维特技:卷页、画面缩放翻转、水波纹、局部变形、立体包裹、图形扭曲卷简、画面浮雕、运动追踪图像、画面局部修改、其他 • 字幕:字幕系统、字体种类、编辑排版、字幕实时程度、合成播出、字幕运动、字幕特技 • 音频:采音便捷程度、音频编辑、音频制作范围 • 性价比:综合评价
非线性编辑的发展趋势 • 计算机平台 主流产品采用64位CPU Windows NT将统治中低档产品线 GUI的人性化 • 存储技术 DVD有上千兆的存储容量,与新一代的视音频处理技术相结合,包括MPEG2(4:2:2)的压缩格式,杜比AC-3环绕立体声,HDTV的画质,多达8种语言的同步配音和32种语言的同步字幕。DVD 标准包括DVD-video、DVD-audio、DVD-R、DVD-ROM、DVD-RAM,DVD-RAM是一种可擦写技术,单面容量可达5.2GB,是目前非线性系统存储媒体的有力竞争对手,随着技术的不断发展,基于DVD-RAM的摄录机、制作机、编辑机及播出系统会逐渐出现,构成DVD的全数字前后期编辑及播出系统。 • 压缩技术及视频格式 MPEG格式的出现,给视频压缩带来了同一的标准,MPEG在视频压缩领域起着重要的作用。他们公布详细说明书以规定音/视频压缩、媒体传播和传输的标准。MPEG-1适用于家用和非广播级的应用。MPEG-2是为了制作、媒体传播和传输而制订的广播级的压缩标准,于1996年被广泛采纳。MPEG-2是在97年的NAB大会上获得公认的,一些DVD厂商、广播电视服务商和非线性系统的制造商纷纷推出MPEG-2产品。MPEG-2压缩的压缩效率大大优于M-JEPG压缩,可以节省存储空间,而且还能保证极高的图像质量,MPEG-2与DV和DVCPRO使用相同的编码结构,因此在转换过程中,噪音会比M-JEPG要大大降低,另外BetacamSX也是基于MPEG-2标准的,MPEG-2的4:2:2的采样率比起M-JEPG的4:2:0的采样率来说,更是提高了色度等级。MPEG-2克服了M-JEPG本身存在的缺点,特别是标准的统一性,在今后的发展中,会逐步取代M-JEPG,在视频领域里大展宏图。