第八讲、人体语言识别技术

第八讲、人体语言识别技术 ——江萍

触觉与力学反馈装置 在VR系统中，能否让用户产生“沉浸”效果的关键因素之一是用户能否用他/她的手或身体的其他能动部分去操作虚拟物体，并在操作的同时能够感觉到虚拟物体的反作用力。数据手套可以帮助计算机测试人手的位置与指向，从而可以实时的生成手与物体接近或远离的图象。但目前的数据手套不能提供力觉反馈作用，这就很难让用户有手真的抓到物体和推动物体的感觉。没有力觉反馈作用的系统至少有两个缺点：首先是缺乏真实感；其次是给视觉计算带来麻烦；为了避免不现实的图象出现，就不得不在视景计算中加上某些物理约束条件。人们一直期待着有力学反馈装置的虚拟环境设备尽快商品化。为了提供真实的感觉。必须提供触觉反馈。以使用户感觉到仿佛真的摸到了物体。然而研制力学反馈装置是相当困难的，因为人的触觉是如此的敏感，以至于一般性精度的装置根本无法满足要求，而高精度的机械装置的高成本和大重量又是无法避免的。安全性是另一个需要认真对待的问题。

力学反馈手套 力学反馈装置的研究是从机器人领域开始的，人们致力于让使用遥操作伺服手的操作员有更好的人工现实感。此类系统通常有很高的带宽，问题构造复杂，成本昂贵，难于管理。后来人们在低成本方面进行了努力，将力学反馈做到操纵杆上。但力学反馈操纵杆将手的运动范围限制在一个较小的范围内，且无法对每一个单独的手指施加力学反馈。触觉是一个复杂的、与视听觉等其他刺激有关的过程。因此，正确的触觉反馈研究应该同时考虑与其他刺激的相互关系。如果你要设计一个能传递远程触觉感受的仪器，你一定要弄清感受物以及实验者对某种刺激的适应能力。如果你不需要考虑人的感受特性，那么系统的设计就会很简单。力学反馈手套是在计算机的控制下，通过对手指的运动产生阻尼而使用户的手产生受力感。阻尼的大小由被抓物体的物理属性决定。力学反馈手套技术提供给用户一种虚拟手控制系统，使用户可以选择或操纵机器系统并能自然感觉到触觉和力量模拟反馈。传感器能测出手的位置方向以及手指的位置，根据被输入到虚拟环境生成器，在头盔显示器上重建出手。通过显示，用户可以与环境进行交互，用户还可以抓取和操纵虚拟环境中的物体。

ARRC遥控力学反馈手套 英国Salford智能机器人研究中心开发了一个使用手控制器的触觉反馈系统，并将这个手套和机器人相连。遥控力学反馈手套的原理十分简单。它在初始系统中使用了两个手套。第一个手套在手套下部装有20个压敏元件，当戴上手套时，用户感觉到压敏元件随着手的用力产生阻力。压敏元件的输出经模数转换后，传送给主机处理。第二个手套有20个空气室，这些空气室能够由20个空气泵控制来膨胀和收缩，从而对用户施加力感。这些泵由主计算机轮流(串行)控制。空气泵与空气室的连接是通过一种在医疗器械工业中使用的微管技术。其中，遥控力学反馈手套的工作原理见下图。

最初的遥控力学反馈手套是一个分辨率极低的设备，其20个反馈不足以传递真正的感受。它的另一个弱点是不能感受力量反馈。例如有一个按钮，我们用手来按它，这看上去没什么，但没有力量反馈，人会感觉很不自然。最初的遥控力学反馈手套是一个分辨率极低的设备，其20个反馈不足以传递真正的感受。它的另一个弱点是不能感受力量反馈。例如有一个按钮，我们用手来按它，这看上去没什么，但没有力量反馈，人会感觉很不自然。第二代TeletactII装有更高分辨率的指尖空气室，其余部分的空气室更大，并提供手掌反馈系统。很大的手掌空气室允许用户使劲握物体，然后接收刺激。 TeletactII与TeletactI使用相似，只是空气室由20增加到30个。空气室的排列如右图所示。在中指尖、食指尖和拇指区域空气室密度较大，空气室也被放在手的背部，以产生手接触物体的感觉。

力反馈手套RMII RM II是一种新颖的、结构严密的、具有力反馈的手控制装置。RM II是在一个没有使用感应手套的独立的结构中，使多个手指都集成了位置感应和力的反馈装置。 RMII的构成 RM II像一付手套似的戴在用户的手上，主要结构包括一个小平台，上面架着四个特制的汽缸。平台是由环氧化碳的混合物组成，在维持结构强度的同时减小重量。每个汽缸轴的顶端都和相应的指尖相连接，轴和指尖的连接通过“Y”形的连接物。这个平台通过一条软带与手套相连，手套允许不同的用户做相应的调整。每个汽缸都通过有两个自由度的底座与平台相连。自由度即是与平台相关的汽缸的侧滑角Øy和坡度角Øp，这些角是由安在底座上的角度位置霍尔效应传感器测量的。汽缸轴的线性位移的测量是通过一种新颖的、非接触的、使用了IR-LED光电晶体管对的位置传感器。安放在汽缸中的这个传感器对是共轴的。光电晶体管固定在缸底，而LED安在活塞上。 LED由恒定的电流控制，保持恒定的强度。光电晶体管测定的光强是随活塞运动的LED的距离函数，这样，角度和长度位移就都非接触的传感器测定了。

压力反馈系统 当一个虚拟物被抓取时，一些虚拟环境系统要求真正的压力反馈。触觉反馈系统有局限性，它不能反馈固体感受。当一个物体被触摸时，应该有视、听、触觉等刺激感受。尽管用户能知道固体被触摸了，但由于没有感受，因此会使手穿过物体，这是非常不自然的事情，明显会影响人机交互的性能。解决问题的方法是使用一种正的压力反馈系统来防止手穿过固体。感受系统是主要用于飞行模拟及机器人系统的，因此在提供模拟感觉上发展很快，而在实物反馈感觉上有缺陷。 • 压力反馈操纵杆压力反馈操纵杆，原本是研究病理学的手的抖动，但和虚拟环境中运动物的压力反馈接口相关。该系统是一个二自由度的操纵器。该操纵器的目的是把压力加到操纵者手上，从而使人能够根据运动及压力的感受情况进行控制。该系统可编程用来模拟很大范围的从动和主动的机械压力。此系统可以产生较高质量的压力反馈。研究表明,当手动和物体运动频率相匹配时，则会产生很大的能量。尽管这项研究偏向抖动学，但它与运动系统的相关性很大。自由度的数目明显影响力量的感受。一些研究者已开发出具有六自由度的设备。

笔式力量感知装置 设想一名外科医生用非常锋利的手术刀进行精密的手术，如果他不用手术刀作为控制杆，刀尖与被割皮肤间的力量作用是在一个3DOF的笛卡尔空间。由于接触面可以被无穷小点逼近，因此可以考虑设计一个3个DOF的力量感知装置，用类似于实际手术刀或其他点状工具作为操作者与控制器间相互作用的工具，其主要目的是为了使控制器有较小的惯性和摩擦力。用这种方法，当手术刀自由运动时，操作者并没有负担的感觉，而反可以感觉到手术刀在不同皮肤上操作产生的高频力量成分。由于成本和实时性的考虑，一般采样数据带宽选择的比较窄，所以控制器与物体间在表现空间上拟合一般不太好，具有高频成分的力量信息往往不能得到满意的再现。另外，由于反作用和摩擦现象经常出现，直接驱动控制器有较高的质量与转力矩的比率，因此使用能够折衷带宽和各种精度要求的表现模型至关重要。有人使用并行结构模型，该模型在水平面提供2个DOF的运动。

表面压力反馈装置 • 点阵式表面压力反馈装置力反馈可以被看成曾是接触现象而引出的一个概念。人们曾努力去描述在相交面中的交叉部分和根据交叉部分的不同来实现力的反馈。基于这一讨论，有人曾提出过表面显示的概念，并指出了这一概念实现的技术问题。表面显示的概念是把虚拟物体本身的表面提供给用户的一个思想，而不是力的感知或与虚拟物体的接触而产生的触觉。 • 表面显示的概念力反馈可以认为是接触现象而引出的一个概念。在虚拟环境的实现中，当用户存在于现实世界中时，虚拟的物体是在计算机中定义的。因此，现实的用户和虚拟的物体之间的交互作用不得不通过一个力反馈设备调解。设备所需要的结构随着我们谈论的界面的交接部分的不同而变化。现实世界中接触的界面可以分成两类：使用工具的间接接触界面和使用手或身体其他部分的直接接触界面。在这两种情况中，有三种典型的交叉界面：工具的表面；用户的表面；物体的表面。

(a)间接操作 (b)直接操作接触界面典型的交叉部分

触觉接口SHCE 触觉接口的设计使我们可以通过手操作与虚拟环境交互。一般情况下，相同的接口硬件不仅可以从操作者边缘接收运动信息，而且可以从虚拟物体产生一个反作用力作用于操作者边缘。通过触觉接口，操作者可以有触模的感觉；好像他正在直接触摸虚拟物体。一般触觉接口被当成一个产生机械阻抗的设备；触模一个硬质表面被描述为从低阻抗区域到一高阻抗区域的突然变化，因而触觉接口应该具有较宽的阻抗动力区域。然而在系统稳定条件下很难达到很高的阻抗，产生这种限制的原因有很多种，阻抗控制的采样率是一个主要因素。常规的触觉接口的信息流由如下三部分组成(右图所示)：对操作者边缘的状态跟踪；对虚拟物体的碰撞探测；产生触觉接口的机械阻抗；

SPICE的机械结构

人脸图象的认知 为了创造一个能够让用户沉浸在其中的虚拟环境，光靠生成具有真实感的景物图象还不够，还必须将人的活动也加进去。在人员出入很频繁的虚拟环境中，检测、跟踪和识别特定用户的人脸图象，使系统了解是谁在操作和将要为谁服务，他／她的情绪如何，他／她有什么意图等等是非常重要的。另一方面，当你用图形学的方法生成了人的动画之后，当动画人说话时要像真人一样有表情，嘴唇要动的完全符合发音的规则，这些，都要求将来的虚拟环境提供相当强的人脸图象认知功能。可以肯定的说，人脸图象的认知在虚拟环境的研究中占有很重要的地位，可以考虑如下的应用例子：在高龄化社会中，老人们特别希望和人交谈，尤其是希望同年轻时的朋友甚至恋人交谈。如果虚拟交谈系统能够得到一张老人朋友的图象，那么该系统应该能让老人同他/她的朋友自由交谈。另外，如网络的圆桌会议，如果摄象机能够自动把讲话人的脸总是放在屏幕的中心位置，如果能把人说话时的脸部动作和表情编码，那么不论是现场效果还是对网络的压力，都会令人满意。而所有这些功能都是基于对人脸图象的检测、跟踪、识别，以及合成的深入研究结果。

面部图象的合成 许多关于人脸图象的认知研究是从图象识别开始入手的。实际上对于由运动、时间、表情和佩带物等造成的参数变化范围很大的人脸图象，认知的关键是人脸模型的建立，没有一个可靠的模型是很难取得大的进展的。利用建立的模型首先在生成图象方面进行验证，然后再经过一定的修改后应用到图象识别中去。为得到模型，必须了解脸的生理学结构和运动学特点，通过分析给出假说和模型，然后用模拟生成的方法代替实验验证，这个过程称为分析与合成。分析与合成人看着对方的脸谈话和不看脸谈话的理解效果是不一样的，特别是噪音很大的环境中。当人们看到说话者面部动作时，其理解效果相当于提高信噪比8~10dB，这表明语音效果与表情及其脸部动作的关系密切。在语音合成上采用基于波形的合成，对应面部图象是通过在真实人脸图象基础上，采用基于参数的方法驱动人脸图象的动作。

一般二维模型的建立 脸的二维模型是根据头的形状以及脸的特征结构抽象出的二维结构，这个二维结构由若干三角形组成，表情就是由这些三角形位置及大小的变化合成的，应用某种规则使某些区域的三角形发生变形，便能在脸部结构的相应区域产生表情。由于在人的表情变化中，眼睛和嘴巴的变化起着决定性的作用，为使二维模型更准确地表征人脸结构，反映面部表情细节，在建立模型时，把眼睛和嘴巴的区域单独进行模型化。在建立二维模型时，坐标系以两眼内眼角连线为x轴，其中点为原点。眼睛模型眼睛的变化主要是由眼睛形状的改变及眼球位置的移动引起的。外形采用四个特征点作为形状的基准点，即：左右眼角点；外形最高点；最低点。上、下两个抛物线。眼球的描述是以圆心和半径为基准点进行的。为进一步细致地刻画出近似眼睛的形状变化，可以再增加表示眼睛形状的另外四个点。

面部动作(表情)的合成 面部动作(或表情)的变化，在二维模型中体现为三角形顶点的改变，它来源于表情分析中的参数；在图象中表情的变化主要体现在某些区域象素灰度的改变。因此表情合成的任务是根据表情参数修改二维模型并应用纹理映射技术重新分配图象中变化部分的象素灰度的处理过程。模型的变形脸部表情的变化主要由眼睛和嘴巴的变形体现的，例如：嘴巴是以上唇两个抛物线和下唇一个抛物线近似其外形的，若以头的中心点O为坐标原点，那么上唇抛物线满足的形式，下唇抛物线满足由变形后特征点的位置即可确定参数a，b值，进而可以确定外形上其他三角形顶点位置。纹理映射由于二维模型中三角形形状的改变导致三角形内象素的位置也发生了变化，这种改变也可以认为只是象素位置移动，其象素值保持不变。这里的位置变换关系要求保持对应点到三边的距离的比例关系不变。对所有变形三角形中的每一个点重复执行象素值的重新分配过程，最后合成具有表情的面部图象。

唇动合成 语音合成不仅与信号处理有关而且与语言的分析有关，要合成高质量的语音，语气、语调以及语速都必须考虑，因此必须解决以下关键技术问题：语音库的构造、语音基元的操作以及自然语言的理解。在文本驱动的合成系统中还必须解决两个问题：即口型参数的选择、确定，以及声音与面部动作的同步。语音库的形式依赖于所选的合成方法。存在的语音合成方法有：基于参数的合成，适于波形的合成，基于编辑的合成，以及它们的混合方法。假定选用波形编辑的方式合成语音。在汉语中，每个字只有一个音节，按照“现代汉语词典”的统计，有大约五万五千多字。但实际上按使用频度，前十个常用字就占所有字使用的17.68％，而一、二级字库中的6763个汉字几乎覆盖了所有的常用字。尽管汉字数以万计，相比之下发音却少得多，按照“现代汉语词典”的统计，有412个无调音节， 1302个有调音节。根据这一统计，实验语音库中共有1302个有调音节，并通过索引与6763个汉字相联系，语音库的总数据量大约7MB。汉语的音节分为声母、韵头、韵腹以及韵尾四部分，后三者构成韵母。由于声母只占很少的一部分，因而只能对韵母部分进行裁剪，裁剪是按帧进行的。

面部图象的检测、跟踪与识别 人脸检测、跟踪与识别（FDTR）是人机交互技术中极为重要的通道，它应完成以下任务： • 对任意输入图象，确定是否存在人脸。若有，定位各个人脸并测定尺寸。 • 对某一人脸图象进行识别，输出识别结果。 • 描述每个人脸的面部表情(微笑、哭泣、惊奇等)，或根据某种描述找到对应人脸。 • 若输入为连续变化的图象序列，根据指令跟踪指定人脸的运动。有关面部的检测、跟踪与识别的关系如下图单幅图象检测信息识别结果图象序列检测信息跟踪状态检测识别检测跟踪

面部图象检测 FDTR系统中首要解决的是人脸图象检测问题。人脸检测实际上是一个模式识别问题，即从属于背景的模式中识别出人脸模式。从一个实际复杂背景中发现并定位未知尺寸的人脸图象是十分困难的，原因包括：人脸的变化比较复杂，面部器官的形状、大小、纹理、表情等都是影响人脸“表现”的因素，很难用一致的模式表达；人脸表面存在某些附属特征，且本身又有很大变化；无法预测的成象环境，如光照等，使图象的质量相差较大；背景千变万化。预处理窗口化此窗口以行优先或列优先沿输入图象逐点移动。窗口内的图象称为测试图象或测试样本；屏蔽窗口中靠近边缘的象素往往是属于背景或受背景干扰严重的，对其进行屏蔽既提高了图象质量，又压缩了图象。色度规正从窗口图象中减去一合适的灰度值，以减小由于光源角度过偏所产生的阴影的影响。直方图均衡的是消除光照条件变化及成象设备感应曲线的不同所带来的影响。

特征提取 人脸检测中，常利用面部不同区域的灰度信息形成特征向量。因为人的眼睛、鼻子、嘴、面颊等器官的位置是大致固定的，且灰度分布服从一定的规律，所以这种方法简单、实用。 • 检测方法实现人脸检测的方法分为两类。一类是需要反例的方法，即训练样本中必须包括大量背景图象，主要有人工神经网络(ANN)和机器学习(ML)；另一类是不需要反例的方法，即训练集中只包含人脸图象，完全从分析人脸特征出发，这类方法有规则系统、特征脸等。 • 人工神经网络神经网络的训练需要大量正例样本和反例样本，以使其收敛于最佳状态，运算量很大。它的优点是具有记忆功能，可重学习，即对误识样本可在原神经元权值的基础上继续训练，直到分类正确为止。 • 机器学习机器学习是人工智能领域的核心技术之一，它是从某一概念的已给正例集合和反例集合中，归纳产生出描述所有正例并排除所有反例的该概念的一般规则。 • 规则系统规则系统是一个小规模的模拟专家系统，由对人脸特征进行描述的一系列规则组成。

面部表情及唇动的识别 • 面部表情的识别人类语言分为自然语言和人体语言两类，构造一个可以研究和开发包括视觉、听觉等人类语言理解的软件和硬件平台是高级VR系统的要求。其中人体语言的认知与理解包括：手势、表情、头部运动的身体动作和会话过程中的肯定、否定以及其他人体语气、语言的识别。表情的识别对实现人体语言与自然语言的融合；以及语言、表情的连接模型的建立与实现都有一定的意义。视觉自然语言听觉人类语言手势头势人体语言体势面部表情面部表情与人的情绪之间存在着千丝万缕的联系。情绪心理至少由情绪体验、情绪表现和情绪生理这三种因素所组成。情绪表现是由面部表情、声调表情或身体姿态三方面来体现的。面部表情存在着共性。由于情绪是认知的、生理的和环境的三种因素的构成物，至少在两方面会随民族和文化背景的改变而改变：引起或导致情绪产生的原因会不同。在特定的社会环境中，人们对面部表情的控制能力会不一样。

面部表情的分析与分类 通过人脸面部图象的分桥，建立人脸部件的组合模型，提取子目标图象；根据部件的形状分析，建立部件的可变形的模板；根据匹配分析，采用能量优化的方法，经过模板匹配提取目标特征，得到人脸表情的表征向量，与中性的表情向量进行比较，达到识别表情的目的。在表情的识别命名工作中，得到两类显著的结果。一类是对情绪的维量分析，第二类是对情绪的分类。多数的维量分析把情绪确定为三维。例如，可以将情绪的三维度量划分为：愉快—不愉快，激动—平静，紧张—轻松。愉快—不愉快，注意—拒绝，唤醒水平这三个维量等。强度、相似性和极性三种复合维模式。通过研究，汤姆金列出八种基本情绪：兴趣、快乐、惊奇、痛苦、恐惧、愤怒、羞怯和轻蔑。伊扎德在此基础上又增加了厌恶和内疚两种情绪。艾克曼所进行的面部表情的识别工作不仅在方法上超过了前人、而且在理论上做了极为广阔和深远的表述和发展。他定义了六种最基本的表情：惊奇、恐惧、厌恶、愤怒、高兴和悲伤，以及33种不同的表情倾向。

1 2 3 面部表情的功能模型通过特定的肌肉产生的动作，分别对在脸部能够独立活动的区域：眉毛、额头，眼睛和鼻子根部，下半脑包括脸颊、嘴、鼻子的大部分和下领进行拍照。这三个部位独立或组合的动作可以表现不同的表情。面部表情的功能模型如右下图所示 • 面部表情的特点与特征由于表情产生的原因、表情表现的程度、人们对表情控制能力和表情的倾向等诸多方面的因素，使表情的变化细微而复杂，对表情特点的概括也显得复杂。例如，恐惧的情绪可能同时伴随着悲伤、生气、厌恶的产生。一种混和的情绪包括恐惧和这些情绪之一的表情能够被表现出来，而且恐惧也可能被高兴的部分遮盖，产生出混和表情。最为经常的是恐惧和惊奇的混和表现即惊恐的表情，它是由一部分脸表现出惊奇，而另一部分脸表现出恐惧构成，而主要是恐惧的流露。

特征提取 对输入的可识别图象，要求：免冠的、标准正面人脸面部器官，无外形缺陷，不戴眼镜，无胡须，不过于倾斜；要求有一幅中性的表情做比较。表情识别中的特征提取是基于组成部件的识别，确定组成部件的位置和大小信息。采用参数化的可变形模板来匹配和用一个能量方程来度量匹配程度。最近人们开始采用先系统级后特征级的自动特征提取操作器，它包括三个模型：部件组合模型；眼模型；嘴部模型。表情是情绪的外在表现。由于情绪是历史的、现在的、社会的和个体的等等诸多方面的综合产物，而使得表情的变化细致人微，扑朔迷离。为了能使计算机在毫无经验的状态下完成对表情的分析和识别；基于以下的基本原则：以简单、单纯的表情为基础，只考虑单一特点的表情。忽略复杂的表象，抓住、抽取表情最本质的特点极共性，把复杂问题简单化处理。提取计算机图象处理最可能识别的特征作为识别的依据。

手势的合成与识别 手势合成手势识别与手势合成是手势理解问题的正反两个方面，分属于模式识别和计算加图形学两个范畴。然而，这两个方面又是相互联系的，因为手势识别将为合成手势的准确性修正提供帮助，而手势合成的动力模型又可以为手势识别提供参考。 CAD手势模型基于CAD的手模型及其抽象结构如右下图所示。手可以看作是由手指段和关节组成的，手势的变化是可以用这些段和关节的状态空间上的变化来描述的。在基本抽象结构中，状态空间的维数为23。设每种状态的平均变化数为P，则该状态空间所描述的孤立状态总数为P23。对于该状态空间我们可以用一组矩阵来描述。

手势的检测与识别 在日常生活中人们通过许多方式彼此间进行交流，如利用说／写等自然语言或采用诸如手势、头势、体势以及面部表情在内的人体语言进行交流，在各种交流方式中，人最易于通过语言(自然语言)和手势(人体语言)进行交流。对于数据处理，已有一些凭借语言作为计算机输入媒体的系统，用手势与计算机交流由于其难度较大而一直进展较小，但由于它在人机交互方面所固有的优点，对它的研究及应用一直受到人们的重视，以人手直接作为输入手段与其他输人方法比较有以下特点：自然性手势是人类交流的自然形式，是易于学习的交互手段；简洁性和丰富性单一的手势可以简单地表示为一种命令或一种参数；而连续的手势中，手和手指的姿态以及运动状况又为更高层的手势理解提供了丰富的信息。直接性以人手直接作为计算机的输入设备，人机间的通讯将不再需要中间的媒体。因此说用计算机来识别手势提供了一个更自然的人机接口。人们只需伸伸手指或旋转一下手掌就能控制CAD模型，或者为游戏爱好音提供一个更自然的娱乐途径，甚至于可以发展到整个家电领域之中，那时人们将不必为到处寻找电视遥控器而烦恼，只需躺在床上伸伸手就可以了。

手势识别方法的发展 最初的研究主要集中在做一种专用硬件设备来进行输入。如数据手套，即人可以戴上一个类似手套的传感器，计算机通过它可以获取手的位置、手指的伸展状况等丰富信息。之后人们又致力于标记手势的研究，即通过在手上作标记，例如在手腕和手指处贴上或画上特殊颜色的圆点，用来识别手势。这虽然给识别带来了方便，但同样给实验者带来了麻烦。最后人们终于把注意力集中到自然手上。通过使用专用加速硬件和脱机训练，一些研究者成功地研制了手势识别系统。 • 手势识别助技术难点手势可分为两大类，一类是静态手势，一类是动态手势。静态手势是一种特殊的手的形状或姿势，它由一幅图象表示；动态手势是运动的手势，它由一组图象序列组成。现在大多数的研究重点都在静态手势的识别，其技术难点有以下几点：手势目标检测的困难；手势目标识别的困难。

手势目标的检测是指在任意复杂的背景条件下从图象流中截取出目标来，这是机器视觉主要研究的课题之一。目前已有许多针对专用自动视学系统的较为成熟且易于实现的技术，例如，利用目标窗与背景窗的直方图分割目标的方法，基于多图象信息的目标分割方法以及二维熵的阈值分割法等。手势目标的检测是指在任意复杂的背景条件下从图象流中截取出目标来，这是机器视觉主要研究的课题之一。目前已有许多针对专用自动视学系统的较为成熟且易于实现的技术，例如，利用目标窗与背景窗的直方图分割目标的方法，基于多图象信息的目标分割方法以及二维熵的阈值分割法等。手势目标的识别则是根据人手的姿态以及变化过程来解释其高层次的含义，提取出具有几何不变性的特征是其关键技术。手势具有以下特点： • 手是弹性物体，故同一种手势之间差别很大。 • 手有大量冗余信息，由于人识别字势关键是识别手指特征，故手掌特征是冗余的信息。 • 手的位置是在三维空间，因此难以定位，并且计算机获取的图象是三维向二维的投影，因此投影方向很关键。 • 由于手的表面是非平滑的，因此易产生阴影。

手势识别方法 • 静态复杂背景中手势目标的捕获与特征提取在目标捕捉部分，利用序列图象的相关性，使用了基于差分二值图象的比例判别规则来实时、可靠、稳定地截取目标的方法。在识别部分主要利用目标的边缘信息识别手势，利用多通道、多阈值的滤波的概念来提取手势的边缘特征，该特征具有几何不变性以及对噪音不敏感等优点；同时基于此特征，利用多层次分析技术以及神经元网络技术对目标进行识别。目标的捕捉是实时地用摄象机对视区进行监视，检测目标的存在性、稳定性以及完整性。本方法对目标背景的复杂程度、手势伸入视区的角度以及摄象机的焦距等没作具体的要求。不失一性，设定以下限制条件：手势必须以正对着摄象机的方向伸入且左右手不限；背景图象与目标图象在灰度级上有明显的差异；背景图象已知(或短时内背景图象不变)。

目标识别 由于不同通道及阈值的滤波得到在不同程度上反映边缘曲率变化的情况，所以可以基于对这些特征码的分析，对目标进行由粗到细的分类。多层次分析法就是对不同通道、不同阈值滤波所得到的结果进行分析的方法。多层次即对应多通道、多阈值。根据此思想可以建立判别树。判别树的建立步骤为：判别树的结构是具有共同叶结点的超树。判别树中各结点的特征选择原则为根结点所使用的是宽通道、大阈值滤波所得到的特征；子结点使用的是窄通道、小阈值滤波所得到的特征，随着结点深度的增加，滤波通道及域值也会逐渐减小。判别原则的选择通过滤波得到的特征量有峰值个数、谷值个数、…等。基于以上各项，进行分类的特征有：峰及谷的个数及其相间分布性；各峰／谷在总链码中所处的位置；峰／谷的面积即峰谷的积分值、它能大体反应曲率变化程度；利用局部信息的局部分析法，即利用两个类别在某一个局部具有较大差别的性质而仅对该局部进行分析的方法。

谢谢

第八讲、人体语言识别技术

第八讲、人体语言识别技术

Presentation Transcript