680 likes | 833 Views
基于信息融合的面部表情分析与识别. 研 究 生:刘 松 指导老师:应自炉 学科专业:信号与信息处理. 论文选题来源. 广东自然科学基金项目: ( 032356 ). 研究现状.
E N D
基于信息融合的面部表情分析与识别 研 究 生:刘 松 指导老师:应自炉 学科专业:信号与信息处理
论文选题来源 • 广东自然科学基金项目: (032356)
研究现状 • 国际上对人脸面部表情识别的研究现在逐渐成为科研热点。国内外很多机构都在进行这方面的研究,尤其美国、日本。进入90 年代,对人脸表情识别的研究变得非常活跃,吸引了大量的研究人员和基金支持,EI 可检索到的相关文献就多达数千篇。美国、日本、英国、德国、荷兰、法国等经济发达国家和发展中国家如印度、新加坡都有专门的研究组进行这方面的研究。其中MIT、CMU、Maryland 大学、Standford 大学、日本城蹊大学、东京大学、ATR 研究所的贡献尤为突出 。 • 国内国内的清华大学、哈尔滨工业大学、中科院、中国科技大学、南京理工大学、北方交通大学等都有人员从事人脸表情识别的研究
目前面部表情识别的主要方法: • 基于模板匹配的面部表情识别方法 • 基于神经网络的面部表情识别方法 • 基于规则的人脸面部表情识别方法 • 基于随机序列模型的面部表情识别方法 • 其他方法,比如支持向量机,小波分析等
论文主要工作 • 介绍了信息融合在面部表情识别应用的三个层次模型 • 探索了基于单特征单分类器的面部表情识别 • 将支持向量机理论和信息融合理论结合在一起,提出基于基于SVM的多特征多分类器融合的面部表情识别 • 将径向基函数神经网络用于面部表情特征的融合上,提出基于RBF网络的多特征融合的面部表情识别
面部表情识别:一般可描述为给定一个静止人脸图像或者动态的人脸图像序列,利用已有的人脸表情数据库确定图像中的一个人或者多个人的面部表情,研究内容包括以下三方面:面部表情识别:一般可描述为给定一个静止人脸图像或者动态的人脸图像序列,利用已有的人脸表情数据库确定图像中的一个人或者多个人的面部表情,研究内容包括以下三方面: 人脸检测:即从各种不同的场景中检测出人脸的存在并确定其位置. 面部表情特征提取:即确定表示检测出的人脸表情和数据库中的已有的人脸面部表情的描述方式。通常的表示方式包括几何特征、代数特征、固定特征模板、云纹图、3D网格等。 面部表情识别:就是将待识别的人脸面部表情和数据库中的已知人脸面部表情比较,得出相关信息。这一过程是选择适当的人脸面部表情表示方式与匹配策略
论文主要工作 • 介绍了信息融合在面部表情识别应用的三个层次模型 • 探索了基于单特征单分类器的面部表情识别 • 将支持向量机理论和信息融合理论结合在一起,提出基于基于SVM的多特征多分类器融合的面部表情识别 • 将径向基函数神经网络用于面部表情特征的融合上,提出基于RBF网络的多特征融合的面部表情识别
信息融合与面部表情分析 • 信息融合就是把来自多个信息源的目标信息合并归纳为一个具有同意表示形式输出的推理过程, 其基本的出发点是通过对这些信息源所提供的信息的合理支配和使用, 利用多个信源在时间或空间上的冗余性和互补性对这些信息进行综合处理, 以获得对被测对象具有一致性的解释和描述, 使得该信息系统获得比它得各个组成部分更优越的性能。 • 人脸面部表情识别包含大量的变量, 反映待识别目标各要素的非度量形式允许许多类型的表示技术, 每一种技术又可以采用不同的方法进行计算。
基于信息融合面部表情识别的三个模型 • 基于像素层融合的面部表情识别 • 基于特征层融合的面部表情识别 • 基于决策层融合的面部表情识别
基于像素层融合的面部表情识别 • 这种方法对每幅图像预处理之前进行像素层融合后, 得到一个融合的人脸图像数据,并在此基础上再进行特征提取和面部表情识别。
基于特征层融合的面部表情识别 • 这种方法对每个传感器的观测数据进行特征的抽取以得到一个特征向量, 然后把这些特征向量融合起来并根据融合后得到的特征向量进行面部表情识别及判定。
基于决策层融合的面部表情识别 • 这种方法对每个传感器都执行面部表情特征提取和面部表情识别,然后对多个识别结果进行信息融合从而得出一个面部表情判决结果,再融合来自每个传感器的面部表情判决。
论文主要工作 • 介绍了信息融合在面部表情识别应用的三个层次模型 • 探索了基于单特征单分类器的面部表情识别 • 将支持向量机理论和信息融合理论结合在一起,提出基于基于SVM的多特征多分类器融合的面部表情识别 • 将径向基函数神经网络用于面部表情特征的融合上,提出基于RBF网络的多特征融合的面部表情识别
基于单特征单分类器的面部表情识别 • 基于神经网络级联的面部表情识别 • 基于几何特征的面部表情识别 • 基于均值主元分析的面部表情识别 • 基于Fisher线性判别的面部表情识别
基于神经网络级联的面部表情识别 • 网络级联的面部表情识别结构 • BP网络的算法流程 • 网络级联的面部表情识别的实验结果
网络级联的面部表情识别的实验结果 在两个数据库上进行实验,从耶鲁大学的Yale Face 数据库中选取60幅人脸图像,共15个人,4幅/人,其中训练样本56幅,14个人,4幅/人,测试样本为剩下的4幅图像,1个人,4/人,通过随机变换训练样本和测试样本,我们重复15次这样的实验。从日本女性表情数据库中(JAFFE)选取120幅图像,共10个人,12幅/人,其中84幅图像作为训练样本,7个人,12幅/人,测试样本为36幅图像,3个人,12幅/人。通过随机变换训练样本和测试样本,我们重复10次这样的实验。
表情类型 识别结果 Happy 76.7% Normal 73.3% Sad 70% Surprise 80% 日本女性表情数据库上的实验 • SOFM权值向量图 BP网络性能图
表情类型 实验结果 Happy 66.7% Normal 73.3% Sad 60% Surprise 80% Yale Face 数据库上的实验 • SOFM权值向量图 BP网络性能图
基于单特征单分类器的面部表情识别 • 基于神经网络级联的面部表情识别 • 基于几何特征的面部表情识别 • 基于均值主元分析的面部表情识别 • 基于Fisher线性判别的面部表情识别
基于几何特征的面包表情识别 • 面部特征点 • 几何特征向量的形成 • 识别流程 • 实验结果
基于几何特征的面部表情识别流程 • 1.在人脸图像上标记24个面部特征点. • 2.按照上表得到12个测量距离,对测量距离按上面的公式进行归一化处理得到12维局部特征 • 3.读入人脸库。读入每一个人脸图像几何特征数据并转化为一维的向量 ,对于一个表情的人脸图像,选择一定数量的图像构成训练集,其余的构成测试集。 • 4.把所有测试图像和训练图像进行比较,确定待识别的样本 的所属类别。本文采用最近距离分类器进行识别
表情类型 表情类型 实验结果 识别结果 Happy Happy 73.3% 76.7% Normal Normal 66.7% 70% Sad Sad 60% 73.3% Surprised Surprised 73.3% 80% 两个数据库上的实验结果 Yale Face 数据库 日本女性表情数据库
基于单特征单分类器的面部表情识别 • 基于神经网络级联的面部表情识别 • 基于几何特征的面部表情识别 • 基于均值主元分析的面部表情识别 • 基于Fisher线性判别的面部表情识别
基于均值主元分析的面部表情识别 • 主元分析 • 主元分析的改进:均值主元分析 • 面部表情识别流程 • 实验结果
主元分析 考虑 维图像空间的 个人脸图像 , 每个样本属于 类 中的一类, 考虑将 维特征空间投影到 维特征空间的线性变换。用表示列向量正交的矩阵。变换后的新的向量 ,由下式线性变换定义: 总离散度矩阵 : 其中 是所有样本的平均值,经过线性变换得到的新的特征向量 的离散度是 。PCA 选择最优的投影变换 : 是按照降序排列的前 个特征值对应的特征向量,这种变换变化就称为主元分析。由所组成的空间就是面部表情特征空间。
主元分析的改进:均值主元分析 传统的主元分析的产生矩阵是协方差矩阵,也叫总体离散布矩阵, 总体离散布矩阵是有两部分组成: 类间离散布矩阵和类内离散布矩阵,而改进算法只考虑类间离散度矩阵。 设训练样本集共有N 个训练样本 ,分为c 类 , 为第i样本的数目, 其中 是表示第个人脸图像的列向量。 每一类的均值为: 总均值为: 类间离散度矩阵 : 相对于传统的主元分析, 其基本区别是以每一类的平均值代替类内的具体图像, 我们称为MPCA 。由于每一类平均值是类内图像的一个线性叠加,因此每一类的平均值必然保留了相当的各具体图像的变化特征,换句话说,对各图像的变化特征进行了一定程度的压缩处理,而且保留的特征更有利于表情模式的识别。关于这一点我们将在后面的实验中加以说明,用每一类的平均值代替类内的具体图像的另一个明显的好处就是训练时间明显降低。
面部表情识别流程 • 1.人脸图像预处理。主要包括几何归一化和灰度归一化。 • 2.读入人脸库。读入每一个二维的人脸图像数据并转化为一维的向量,对于一个表情的人脸图像,选择一定数量的图像构成训练集,其余的构成测试集,假定图像的大小是w*h(w和h分别维图像的宽度和高度),用于训练的人脸个数是n1,测试的图像个数是n2,令m=w*h,则训练集m*n1是一个的矩阵,测试集是m*n2的矩阵。第幅人脸可以表示为: • 3.计算每一类的均值 、总均值 和类间离散度矩阵 。 • 4.取类间离散度矩阵 为KL变换生成矩阵 ,进行KL变换。 • 5.计算生成矩阵 的特征值和特征向量,构造特征子空间。首先把特征值从大到小进行排序,同时,其对应的特征向量的顺序也作相应的调整。然后选取其中一 部分构造特征子空间。特征向量具体选取多少,本文采取实验的方法进行确定。 • 6.把训练图像和测试图像投影到上一步骤构造的特征子空间中。每一幅人脸图像投影到特征子空间以后,就对应于子空间中的一个点。同样,子空间中的任一点也对应 于一幅图像。 • 7.把投影到子空间中的所有测试图像和训练图像进行比较,确定待识别的样本 的所属类别。本文采用最近邻距离分类器进行识别。
表情类型 表情类型 比较项目 PCA识别结果 PCA识别结果 MPCA PCA MPCA识别结果 MPCA识别结果 Happy Happy 主元数目 76.7% 66.7% 38 42 73.3% 80% Normal Normal 训练时间 73.3% 73.3% 0.09 0.25 76.7% 73.3% Sad Sad 70% 60% 73.3% 66.7% Surprised Surprised 73.3% 80% 83.3% 80% 实验结果 Yale Face数据库 MPCA和PCA比较 日本女性表情数据库
基于单特征单分类器的面部表情识别 • 基于神经网络级联的面部表情识别 • 基于几何特征的面部表情识别 • 基于均值主元分析的面部表情识别 • 基于Fisher线性判别的面部表情识别
基于Fisher线性判别的面部表情识别 • Fisher 线性判别 • Fisher线性判别的改进:T+PCA+FLD • 基于Fisher线性判别的面部表情识别流程 • 实验结果
Fisher 线性判别 Fisher 线性判别 ( Fisher’s Linear Discriminant : FLD )是基于样本的类别进行整体特征提取的有效方法,FLD则在PCA基础上的改进,目标在于,试图建立一个更小的维数的、只包含最基本元素的空间,它试图最大化类间分布,而最小化类内分布, 换句话说 , 对于人脸面部表情识别 FLD 移动同一类的人脸图像更近, 而不同类的人脸图像移的越远 。 设训练样本集共有N 个训练样本 ,分为c类 , 每一类的均值为: 总均值为: 第i 类样本的离散度矩阵为:
总类内离散度矩阵: 类间离散度矩阵: 离散度矩阵: 求下列两两正交的矩阵: 是SB与SW的广义特征值相对应的广义特征向量,即: 由于最多只有c-1个非零广义特征值,因此m的最大值为c-1
Fisher线性判别的改进:T+PCA+FLD T:指的是离散度矩阵的替换。利用矩阵分块技术,令 在矩阵 是对称矩阵的条件下,分别用 和 来代替 和 后并不影响Fisher准则函数的取值,然而 和 均为分块对角矩阵, 这样替换后, 计算量将大幅度下降。
PCA+FLD策略,将训练样本的人脸图像向量投影到一个较低维的空间以至于类内分布矩阵为非奇异的。可以通过PCA将特征空间降为N-c维,然后通过标准的FLD将维数降为c-1。通过PCA将人脸图像投影到N-c维特征空间:PCA+FLD策略,将训练样本的人脸图像向量投影到一个较低维的空间以至于类内分布矩阵为非奇异的。可以通过PCA将特征空间降为N-c维,然后通过标准的FLD将维数降为c-1。通过PCA将人脸图像投影到N-c维特征空间: 通过标准的FLD将维数降为c-1:
基于Fisher线性判别的面部表情识别流程 • 1.人脸图像预处理。主要包括几何归一化和灰度归一化。 • 2.读入人脸库。读入每一个二维的人脸图像数据并转化为一维的向量,对于一个表情的人脸图像,选择一定数量的图像构成训练集,其余的构成测试集,假定图像的大小是w*h • (w和h分别维图像的宽度和高度),用于训练的人脸个数是,n1测试的图像个数是n2,令m=w*h,则训练集是一个m*n1的矩阵,测试集是m*n2的矩阵。第i幅人脸可以表示为: • 3.计算每一类的均值、总均值和类间离散度矩阵,同时求类内离散度矩阵 和总离散度矩阵。 • 4.利用矩阵分块技术,得到 和 的替换矩阵 和 。 • 5.取类间离散度矩阵 为KL变换生成矩阵 ,进行KL变换。
6.计算生成矩阵 的特征值和特征向量,构造特征子空间。首先把特征值从大到小进行排序,同时,其对应的特征向量的顺序也作相应的调整。然后选取其中一部分构造特征子空间。在耶鲁大学Yale face数据库上我们用m=N-c=52维特征向量构造特征子空间。在JAFFE上我们用m-N-c=76维特征向量构造特征子空间,其中N为训练样本数目,c为类别数。 7.把训练图像和测试图像投影到上一步骤构造的特征子空间中。每一幅人脸图像投影到特征子空间以后,就对应于子空间中的一个点。同样,子空间中的任一点也对应于一幅图像。 8.用替换矩阵 和 替换 和 进行FLD。得到表征面部表情的特征向量。 9.对于新的测试图像用最大相关分类器进行分类.
表情类型 表情类型 实验结果 识别结果 Happy Happy 80% 83.3% Normal Normal 80% 80% Sad Sad 66.7% 76.7% Surprised Surprised 86.7% 86.7% 实验结果 Yale Face 数据库 日本女性表情数据库
论文主要工作 • 介绍了信息融合在面部表情识别应用的三个层次模型 • 探索了基于单特征单分类器的面部表情识别 • 将支持向量机理论和信息融合理论结合在一起,提出基于基于SVM的多特征多分类器融合的面部表情识别 • 将径向基函数神经网络用于面部表情特征的融合上,提出基于RBF网络的多特征融合的面部表情识别
基于基于SVM的多特征多分类器融合的面部表情识别基于基于SVM的多特征多分类器融合的面部表情识别 • 基于SVM信息融合的面部表情识别结构 • 支持向量机和最优超平面 • SVM融合原理 • SVM融合函数以及融合模型 • 几种常用的核函数 • 基于SVM信息融合的面部表情识别流程 • 实验结果
基于SVM信息融合的面部表情识别结构 本文结合整体特征建模、局部特征建模和多分类器信息融合的优势,提出一种基于支持向量机(SVM)的信息融合方法进行人脸表情识别。为了提高识别系统的识别率和识别系统的鲁棒性,充分的利用人脸的图像的各种信息,我们对预前处理后的人脸图像提取局部表情特征和整体表情特征,然后对不同的类型的特征采用不同的分类器对人脸表情进行初步的分类,最后构造一个3阶多项式的支持向量机来对多个分类器的输出进行信息融合,以便到达人脸表情识别的目的。识别结构如下:
基于基于SVM的多特征多分类器融合的面部表情识别基于基于SVM的多特征多分类器融合的面部表情识别 • 基于SVM信息融合的面部表情识别结构 • 支持向量机和最优超平面 • SVM融合原理 • SVM融合函数以及融合模型 • 几种常用的核函数 • 基于SVM信息融合的面部表情识别流程 • 实验结果
支持向量机和最优超平面 支持向量机(SVM) 是一种基于结构风险最小化原则的学习方法,它可以用来解决三大问题:模式识别、 函数的回归估计及分布密度函数的估计。本课题应用支持向量机来探索多特征多分类器融合的面情识别问题,即从有限的训练样本中提取融合规则,使得该规则对于独立的测试样本具有较小的误差。 假定训练数据 , , 可以被一个超平面分开, 该平面的方程为: 如果训练集没有被错误地划分,而且离超平面最近的向量与超平面之间的距离最大, 则称该超平面为最优超平面,如下图 5所示。
先对参数和施加约束条件: 对于全体训练样本,则下列不等式成立 最优超平面使得下式取得最小的超平面 通过对上式的优化问题求解,可得一组解 , 并且该解满足 下列各式: 只有支持向量的系数才可能为非零值, 所以可以表示为: 并且,对于任意的支持向量,都有:
基于基于SVM的多特征多分类器融合的面部表情识别基于基于SVM的多特征多分类器融合的面部表情识别 • 基于SVM信息融合的面部表情识别结构 • 支持向量机和最优超平面 • SVM融合原理 • SVM融合函数以及融合模型 • 几种常用的核函数 • 基于SVM信息融合的面部表情识别流程 • 实验结果
SVM融合原理 假设有个分类器,若已经取得个决策样本值以及实际的决策值: 其中 表示对于第i个输入样本图像,这n个分类器作出的决策矢量, 是对应第输入样本图像的标签.要求能根据这组样本值,找到一个适当的融合函数 ,使得对于确定的损失函数 具有最小的期望风险,从信息变换的角度来看,多分类器起到把输入的人脸图像映射到决策空间的作用。为了很好的识别人脸表情,基于支持向量机的决策融合应作如下处理:首先,将多种分类器的决策通过非线性映射 映射到一个高维空间中去,然后,在高维空间中进行线性回归。综合上述两个过程,得到融合后的决策为: • 5.12 • 其中,为普通的向量内积运算。