视频场景的结构恢复与增强处理

视频场景的结构恢复与增强处理 鲍虎军浙江大学

无处不在的“视频” • 数字化设备的飞速发展 • 视频采集“随心所欲” • 海量的视频数据一个崭新的高清晰时代即将到来数码摄像机普及化

新的挑战 • 如何重用这些海量的图象/视频? • 快速查找 • 新的图象/视频 • 如: Image Completion from Millions of Images Walkthrough with Many Many Images Very Big Images High Range Images and Videos

图形与视觉计算 • 计算机图形学和计算机视觉均与人类的视觉感知密切相关，总体上相对独立地向前发展，但在不断相互影响与融合。 • 呈现为互补的正、逆向问题： • 图形技术通过信息建模，模拟客观世界，绘制输出能被人类感知的信息，为认识和理解客观世界提供有效的模拟手段； • 视觉技术通过对人类视觉感知系统的模拟，对获取的视觉信息进行处理、识别与理解，使得计算机系统具有一定的视觉感知和理解能力。

图形计算面临的挑战 • 传统交互图形技术直接借助理想数学物理模型来模拟各种视觉效果 • 主要集中在几何、表面反射属性、运动、光源、光能辐射传递过程的逼真、高效的表示和再现。 • 确定性问题，建模过程复杂，画面具超现实感。 • 面临的主要挑战： • 模拟的真实性 • 计算的高效性 • 交互的自然性

视觉计算面临的挑战 • 视觉技术从图像/视频中提取视觉信息特征，构造感知计算模型 • 主要集中在视觉信息处理、摄象机标定、场景重建、目标跟踪/识别/理解等方面。 • 不确定性问题，精度、稳定性、自动化程度较低，算法普适性差，依赖获取的信息。 • 面临的主要挑战： • 分析处理的自动性 • 识别理解的准确性 • 计算的鲁棒性和实时性

视觉与图形计算的结合 • 视觉与图形融合的核心问题 • 能否借助视觉技术从获取的视觉信息中高效、稳定地提取并重用相关特征及其变化规律，增强图形处理的真实性和高效性； • 引入图形交互、先验知识、模型匹配和机器学习等方法，提高视觉计算的稳定性和精度。

海量视频数据的拼接与整合 视频序列与虚拟场景的无缝融合视频场景的几何、运动和属性重建基于视频信号的自然交互技术视频信号分析解决虚拟场景真实感知的问题特征提取与匹配视频信号的修复与编辑目标对象的自动跟踪与识别人与虚拟环境自然交互的问题场景分割与理解视频与图形的融合

最新研究进展 • 表面细节的真实感增强 • 纹理映射与合成 • 复杂光源的表示 • 高动态图象 • 复杂动作、运动的合成 • 运动数据 • 场景的紧致表示与高效再现 • 基于图象/视频的场景表示、重建、重光照 • 人机交互 • 动作识别和理解

最新研究进展 • 视频处理 • 滤波、运动平滑、去模糊、超分辨率 • 特征提取与匹配 • 视频信号的修复 • 目标对象的识别与自动跟踪 • 场景分割/Matting • 场景结构恢复与理解 • 视频合成 • 视频与图形的融合 • 视频交互

特征提取与匹配 • SIFT 大视角变化下的特征提取与匹配 [Baumberg2000] Video Matching [Sand2004]

目标对象识别 基于颜色与光流的目标识别[Georgescu2004] 可处理一定光照和视点变化，未考虑时序性基于尺度不变的特征提取与匹配 [Lowe2004]（实时、难以处理匹配漂移、遮挡等

目标对象的跟踪 基于统计学习的跟踪方法 [Poggio1999] 基于Mean Shift的目标识别Comaniciu 2000 (非刚性、基于颜色分布的概率模型）

目标对象的自动跟踪 利用Kernel-Based概率模型和改进的 Kalman滤波方法的目标跟踪 [Comaniciu 2003] 基于统计模型的目标跟踪 [Toch 2003] （摄象机固定、人与车）

场景分割与matting • 基于dominant motion的方法 • 统一的运动模型，精确度不高[Ayer1994,Irani1994, Csurka1999] • 同时决定场景中所有的运动，再作分割 • 基于概率统计的方法[Ayer1995] • 基于先分割、再合并的方法[Wang1993] • 层次式的场景分割方法 • 基于图像边缘[Smith 2004] • ……

视频合成 • 原理 • 利用原始视频信号所具有的特征直接生成新的视频序列 Video Texture [Schödl 2000]

Panoramic Video Textures [Agarwala 2005]

高精度的同步视频插值算法[Zitnick 2004] （分层表示场景，立体深度恢复，多角度视频序列的插值与合成）

视频与图形的融合 • 意义 • 将摄像机拍摄的视频与虚拟物体的无缝合成，可以达到真假难分的视觉效果，不仅“虚拟现实”，更是“增强现实”。 • 分类 • 实时合成：常见于电视节目直播和增强现实。合成质量比较粗糙，依赖于硬件设备（如visual set等）。 • 非实时合成：常见于影视制作。合成质量精细，但大量依赖于艺术家的手工处理，极费人力和时间。

视频虚实融合需要解决的问题 三个一致性 • 几何一致性 • 虚拟场景与视频场景共享同一个空间 • 光照一致性 • 虚拟场景与视频场景共享同一个光照环境 • 合成一致性 • 虚拟场景与视频场景之间的相互影响：如遮挡、阴影和相互反射

几何一致性 • 视频与图形融合的关键与基础,技术要求：恢复摄像机的内参和外参（运动参数） • 相关研究工作： [Kansy1995] 提出了在室内放置已知坐标的参考点，实现了虚拟物体与视频序列的实时合成 [Qin2002] 提出了相机位置固定的定标方法 [Pollefeys1998]提出了相机自定标算法和自由运动相机参数求解模型，但基于场景可划分为若干平面的假设。 [Cornelis2001]通过准确求解相机运动参数，做增强现实的视频合成 [zhang2007]大变焦、长序列摄象机的标定与运动参数的恢复目前该技术的研究逐渐趋于成熟，相关的商业软件：2d3 boujou, RealViz Matchmover

光照一致性 • 包括以下几个方面的研究 • 摄像机的CCD采样时的Γ曲线反求、光照环境的获取、虚拟图形绘制与融合时的Γ矫正。光照环境的获取与虚拟图形绘制是其中的关键。从照片上恢复HDR [Debevec1997、1998] 基于时间方位计算的光照重建 [Preetham1997]

合成一致性 • 包括以下几个方面的研究 • 处理虚拟场景和视频场景之间的相互遮挡、相互投射阴影和相互反射等关系，保证虚实景合成的真实性。属于虚实融合的高级合成效果。 • 技术要求： • 恢复视频场景中模型的相对关系或者精确几何以及场景中物体的材质 • 相关研究现状： Matting技术分离前后背景是粗略恢复场景中模型相对关系的常用方法 Blue matting [Smith 1996, 2003］

基于video matting的视频融合 [Chuang2002，Wang2005，Li2005，……]:

基于物理测量的方法实现虚实景融合与阴影的迁移基于物理测量的方法实现虚实景融合与阴影的迁移 Chuang[Chuang2003] 基于视频序列的三维建模及合成 [Koch1998，Pollefeys2003、2004]

视频信号驱动的三维运动 • 意义 • 直接从视频中获取运动信息，将运动信息应用于新的模拟与生成中，可以确保运动的真实性。 • 与昂贵的motion capture设备比较，由视频信号中提取运动信息要求更简单，更方便。 • 解决 • 运动信息的获取 • 运动信息到三维物体的映射

Video-Driven Animation [SIGGRAPH05]

利用侧影轮廓线驱动三维模型的运动 [Liu 2004]

Camera-based Interaction • 问题的提出 • 随着CPU计算能力的不断提高和计算机的日益普及，人机用户界面就逐渐成为了计算机应用发展的瓶颈问题之一， • 如何使得用户能够以实际的客观物理世界进行交流和交互的自然方式控制操作电脑成为研究的目标 • 解决方案 • 利用计算机视觉中对信息的感知和处理方法来实现人与计算机的自然交互 • 视频信号是计算机视觉中重要的信息处理来源

Camera-based Interaction 姿态/手势交互与Multi-Touch 跟踪与识别游戏 “Magic Carpet” 游戏 “Nights”

形状的识别 Rock, scissors paper game Freeman 1999

动作的识别 Kirishima 2005

Musical Gestures Project 2004

视频场景的结构恢复 与增强处理