基于离线签名识别的身份认证技术研究

基于离线签名识别的身份认证技术研究 作者姓名：郜艳导师姓名：董兰芳王洵学科专业：计算机应用技术研究方向：图象处理

内容提要 • 研究背景 • 隐马尔可夫模型技术 • 基于隐马尔可夫模型的签名认证算法 • 适合于隐马尔可夫模型应用的离线签名特征提取 • 一个基于二维隐马尔可夫模型的中文离线签名认证系统 • 总结和下一步的工作

研究背景 • 身份认证的应用和意义。 • 传统的个人身份认证和基于生物特征识别的身份认证。 • 基于离线签名识别的身份认证。 • 离线签名鉴别的主要问题和难点 • 本文的目标 • 隐马尔可夫模型技术 • 基于隐马尔可夫模型的签名认证算法 • 适合于隐马尔可夫模型应用的离线签名特征提取 • 一个基于二维隐马尔可夫模型的中文离线签名认证系统 • 总结和下一步的工作

研究背景1 • 身份认证技术的应用和意义 • 在日常生活中，身份认证存在于很多方面：出入单位、去银行取款、登陆计算机系统或者进行网上交易时，都被要求证明自己的身份。 • 在信息安全领域，身份鉴定则是保证系统安全的必要前提。随着计算机和网络技术的高速发展，信息安全越来越显示出前所未有的重要性。在金融、国家安全、司法、电子商务、电子政务等应用领域，都需要进行准确的身份鉴定。比如某人是否有权进入安全系统、是否有权进行特定交易、是否是合法居民，为部门的计算机网络设置口令和密钥进行保护，等等。

研究背景2 • 传统身份认证与基于生物特征识别的身份认证 • 传统的身份认证方式：把身份认证问题转化为鉴定标识个人身份的事物来实现的。“认物不认人” 。不方便。 • 基于生物特征识别的身份认证方式：通过计算机利用人体所固有的生理特征或行为特征进行个人身份认证。良好的防伪性能。“随身携带” 。安全、可靠、有效的新一代身份鉴定技术。 • 基于离线手写签名的身份认证 • 也属于生物特征识别的范畴，不同的是，离线手写签名作为一种公认的身份标志已经有很长的历史了，就像在我国广泛使用的印章一样。 • 这种身份鉴别方式如今在社会生活中仍然扮演着重要的角色，比如在商务、司法、金融、保险等众多领域中都大量使用到离线手写签名。在今后一段时间内，离线手写签名鉴别仍然会作为一种重要的身份鉴别手段在这些领域继续使用。因此对离线手写签名自动鉴别技术的研究具有很大的实用价值。

研究背景3 • 离线签名识别要解决的问题和技术难点 • 三类伪造签名：随机伪造签名，即其他书写者的真实签名；简单伪造签名，即没有刻意模仿的签名或粗劣的模仿品；熟练的伪造签名，这一类伪造品在字形上与真实签名非常接近。 • 要解决的问题：识别出三类伪造签名首先是采集样本，然后是特征提取，根据样本所具有的独特和唯一的特征，用一种算法为其分配一个特征代码，并把这一代码存入数据库，最后当需要鉴定某个签名的真伪时，再用某种特征匹配算法将存入数据库的特征代码与被识别签名的特征相匹配，得出结论。 • 难点1：缺乏建立在签名内在特征和合理的形状描述之上的有效的签名表示方法。 • 难点2：缺乏足够的参考（训练）样本

研究背景4 • 本文的研究目标针对离线手写签名中简单伪造签名的自动鉴别，尤其是中文签名。 • 需要采用尽可能简单有效的特征和简洁高效的判别方法。 • 应用HMM技术进行离线签名鉴别

研究背景 • 隐马尔可夫模型技术 • HMM的结构 • 三大问题 • 解决打分问题的前、后向算法 • 解决训练问题的Baum Welch算法 • 基于隐马尔可夫模型的签名认证算法 • 适合于隐马尔可夫模型应用的离线签名特征提取 • 一个基于二维隐马尔可夫模型的中文离线签名认证系统 • 总结和下一步的工作

Markov链（pi, A） 随机过程（B）状态序列观察值序列隐马尔可夫模型技术1 • HMM的结构：双重随机过程。观察值与状态不是一一对应的。站在观察者的角度，只能看到观察值，不能直接看到状态。“隐”。标准N状态HMM可以用三元组表示： • A，状态转移概率矩阵 • B，观察概率矩阵，表示每个状态输出相应观察值的概率 • ，为初始化概率分布。 • 三大问题 • 打分：在给定模型参数的情况下，计算模型输出观察序列的概率。评估一个模型和给定观察输出序列的匹配程度。前后向算法 • 解释：给定观察序列，求在某种有意义的情况下最优的相关状态序列。寻求输出观察的最佳“解释”，它试图揭示模型的隐藏部分。Viterbi算法 • 训练：给定观察序列，寻找一组最优模型参数，使得模型对观察序列的输出概率最大。 Baum Welch算法

隐马尔可夫模型技术2 • 前向算法：前向变量给定模型的情况下，到时间t时输出观察序列为，并且时刻t的状态是的概率。初始化：递推：终止：

隐马尔可夫模型技术3 • 后向算法后向变量当时刻t的状态是的时候，从时刻t＋1到序列结束的输出观察序列为的概率初始化：递推：终止：

隐马尔可夫模型技术4 • Baum Welch算法使用统计意义上用频率近似概率的方法时刻1时系统处在状态的频率（次数）反复进行上面的过程，逐步改进模型参数，直到收敛，即不再明显增大，此时的就是HMM的最大相似性评估

研究背景 • 隐马尔可夫模型技术 • 基于隐马尔可夫模型的签名认证算法 • 原理与工作流程 • HMM输入数据准备 • HMM建模* • 认证过程 • 解决缺乏训练样本和系统识别率随时间下降的问题* • 适合于隐马尔可夫模型应用的离线签名特征提取 • 一个基于二维隐马尔可夫模型的中文离线签名认证系统 • 总结和下一步的工作

训练 HMM模型预处理特征提取观察序列签名样本打分判决基于HMM的离线签名认证算法1 • 使用HMM进行签名认证包含两大步骤： • 训练，用由真实签名样本得到的观察序列训练模型参数，每一个模型对应一个人的签名。 • 识别，计算由要识别的签名得到的输入观察序列在特定模型下出现的概率，由概率值判断待识别签名是否属于该模型所表示的签名者。

基于HMM的离线签名认证算法2 • 输入数据准备阶段 • 预处理： • 水平方向压缩。中文签名大都包含两个以上的汉字，汉字和汉字之间、水平的部首与部首之间往往都有空白。虽然这种空白在某种程度上能反映作者的书写风格，但也很不稳定。 • 统一质心位置。以压缩的签名图像的质心为中心，将签名统一正放在400*200象素的矩形区域内。 • 特征提取： • 对于一个使用离散HMM的签名认证系统而言，模型的输入信号必须是取自签名图像中的离散特征序列。我们把签名图像划分成若干列，从每一列中提取签名的局部特征，得到一个特征向量，然后把这些特征向量连在一起得到特征序列。 • 获得观察序列： • 将连续的浮点型矢量离散化，成为离散HMM需要的特征矢量类，每一类用一个符号表示。即向量量化。 • 每人一个码书。平方失真测度；LBG算法；分裂法初始码书。

基于HMM的离线签名认证算法3 • HMM建模* • 模型选择 • Markov链的形状： • 从左到右；无跨越、两转移 • 状态数，n通常在2到4之间 • 观察符号 • 多维观察符号：多种特征结合使用时，这些特征之间在意义和度量上不可。HMM的每个状态就对应多个观察符号。 • 多维离散HMM的概念：它具有和普通HMM相同的状态转移概率矩阵，不同的是，它使用多个观察概率矩阵，每个观察概率矩阵描述了一类观察符号的概率分布情况。比如一个二维离散HMM，就可以用四元组表示。

基于HMM的离线签名认证算法4 • HMM建模* • 模型训练 • 必须修改原先的HMM基本算法以处理多维观察符号的情况。假定每一类特征相互独立的情况下，多维HMM的输出概率可以用每一维信号的输出概率的乘积来计算，那么：这里表示状态j下出现第个观察值中符号k的次数的期望

基于HMM的离线签名认证算法5 • 认证过程 • 输出概率的归一化 • 决策方法

基于HMM的离线签名认证算法6 • 解决缺乏训练样本和系统识别率随时间下降的问题* • 问题的提出： • 一个HMM含有多个待估计参数，因此要得到满意的模型，必须有很多的训练数据。当训练数据集比较小时，一些出现次数较少的观察值没有包含在整个训练数据中，这就会导致训练出的HMM参数中有一些为0的概率。 • 实际应用中，一个签名者注册时往往只采集几个签名样本。 • 人的字体会随时间改变，因此随着时间的推移，模型将逐渐不适应字体的变化，识别率会越来越低。 • 动态训练方法： • 将在模型使用中鉴定为真的签名作为新的训练数据，用它对以前的模型进行修正，使新模型能同时反映原训练数据和新训练数据的特性 • 由Baum Welch算法的重估公式可知：在迭代中，L个训练序列的信息是由这些训练序列分别计算出的转移次数、矢量数、状态数通过分子分母分别相加反映在迭代后的新模型参数中的。那么把和作为L个训练序列分成的两部分的话，对新训练数据集，用BW算法产生相应的模型，并保留各参数重估公式中的分子、分母值，与原模型训练过程中相应的分子分母分别相加，就可以得到同时反映新旧数据集特性的模型参数。

研究背景 • 隐马尔可夫模型技术 • 基于隐马尔可夫模型的签名认证算法 • 适合于隐马尔可夫模型应用的离线签名特征提取 • 签名特征提取策略 • 图像划分方法 • 特征提取 • 特征分类能力评估 • 一个基于二维隐马尔可夫模型的中文离线签名认证系统 • 总结和下一步的工作

适合于隐马尔可夫模型应用的离线签名特征提取1适合于隐马尔可夫模型应用的离线签名特征提取1 • 签名特征提取策略 • 有两种思路可以建立HMM的输入离散特征序列： • “元笔划”，通过适当的签名切分算法将签名划分成元笔划序列，作为HMM的输入特征序列； • 不按语义切分，只简单的把签名所在的图像区域划分成如干部分，把从每一部分提取的特征合在一起组成HMM的输入特征序列。 • 选择： • 签名书写的任意性使得“元笔划”的划分非常复杂，因此很难找到合适的定义和切分算法。另一方面，针对简单伪造签名的鉴别不需要使用复杂的结构化签名表示法，通过对所有签名建立一种统一的全局或局部的形状描述就可以获得较好的性能。因此我们选择基于签名图像区域划分的特征提取方式建立HMM的输入特征序列。

适合于隐马尔可夫模型应用的离线签名特征提取2适合于隐马尔可夫模型应用的离线签名特征提取2 • 图像划分方法 • 竖直划分竖直划分间隔定为平均笔划宽度的2到3倍 • 水平化分水平方向也平均划分：最密的情况下下划分间隔取书写线宽度的2-3倍。 • 划分解析度不同特征可能需要不同的解析度。同一特征也可以使用多种解析度，这需要根据实际情况选择最佳划分方案，或者用多分类器。

适合于隐马尔可夫模型应用的离线签名特征提取3适合于隐马尔可夫模型应用的离线签名特征提取3 • 特征提取 • 一些全局度量 • 宽、高以及二者的比例 • 整体倾斜度 • 各部分的比例

适合于隐马尔可夫模型应用的离线签名特征提取4适合于隐马尔可夫模型应用的离线签名特征提取4 • 特征提取 • 局部度量人类专家通常使用书写轨迹的局部特性鉴别签名。从局部特征考虑，我们可以对每个网格内部的特征加以描述，再把每一列所有格子的特征组合在一起，构成一个特征向量，作为HMM的输入。 • 象素强度特征把签名上的象素点作为一种信号，这样在二值化的签名图像中，每一小格内签名象素点的个数就可以看作该格子内的信号强度

适合于隐马尔可夫模型应用的离线签名特征提取5适合于隐马尔可夫模型应用的离线签名特征提取5 • 特征提取 • 局部倾斜方向特征 • 对中文签名而言，在局部区域内，撇、捺、竖的组合，以及横笔划的不完全水平，造成了签名在局部竖直方向上的变化非常复杂。 • 对于签名骨架上的非边界点S(x,y)，按下面的规则分类： • 如果非零，则S为负方向倾斜点； • 如果非零，则S为正方向倾斜点； • 如果非零，则S为竖直方向点； • 如果非零，则S为水平方向点；这些点通称为倾斜点。计算每一格内四类倾斜点的数目NS ,PS, VS, HS，则局部倾斜方向特征为[NS ,PS, VS, HS]。一列内所有格子的倾斜方向特征合在一起就构成该列的局部倾斜方向特征向量。

适合于隐马尔可夫模型应用的离线签名特征提取6适合于隐马尔可夫模型应用的离线签名特征提取6 • 特征提取 • 局部纹理特征 • 假设一幅二值签名图像是某种小的基元构成的随机过程，那么，可以利用这一基元的颗粒分析方法对象素进行分类。 • 数学形态学开运算：用结构元素(structure element)对二值图像做开运算的结果就是所有可以填入图像内部的结构元素的并集，这可以看成是删除了图像中所有比结构元素小的细节。 • 二值图像的模式谱：假设有一列递增的结构元素，用它们对二值图像X连续做开运算，直到图像中的象素被完全删除，就可以得到图像的模式谱(pattern spectrum)： • 模式谱具有旋转、平移不变性。由于签名图像过程的随机性，模式谱实际上是一个随机过程，签名图像的每一次实现都对应于一个特殊的模式谱，该模式谱有其特殊的矩。因此可以将模式谱的矩作为一种图像特征。这里我们使用其均值、方差和扭曲度作为签名特征。

适合于隐马尔可夫模型应用的离线签名特征提取7适合于隐马尔可夫模型应用的离线签名特征提取7 • 特征分类能力评估 • 实验方案 • 局部倾斜方向特征：每一列不做水平方向划分 • 象素强度特征：划分间隔为25象素、划分数为8 • 局部纹理特征：水平划分间隔设定为50象素，划分数为4。以{ / }为基本结构元素，对划分后的图像的每一格求其模式谱 • 相邻列重叠50%，以取得不同次签名之间较好的相容性。 • 把从每一列得到的特征向量都组合在一起，成为一个大的特征向量，把测试签名和训练签名的距离与一个决策阈值相比较来确定测试签名的真伪。 • 实验结果

研究背景 • 隐马尔可夫模型技术 • 基于隐马尔可夫模型的签名认证算法 • 适合于隐马尔可夫模型应用的离线签名特征提取 • 一个基于二维隐马尔可夫模型的中文离线签名认证系统 • 实现问题 • 实验评估 • 总结和下一步的工作

一个基于二维隐马尔可夫模型的中文离线签名认证系统1一个基于二维隐马尔可夫模型的中文离线签名认证系统1 • 实现问题 • 使用两种特征：象素强度特征和局部方向特征 • 关于向量量化： • 要获得较好的聚类效果，每一个码字所代表的胞腔必须在训练集中拥有足够数目的特征向量。因此小的训练集就需要小的码书。每个签名图像获得的特征矢量序列的长度通常在15到40之间。如果对每个签名者用10个签名来建模，那么在向量量化阶段所使用的训练集的大小就在150到400之间。对于这种规模的训练集，我们将码书的大小设定为8个码字。 • 离散无跨越、两转移、二维HMM

一个基于二维隐马尔可夫模型的中文离线签名认证系统2一个基于二维隐马尔可夫模型的中文离线签名认证系统2 • 实验评估 • 实验分两部分进行实验一的目的是评估前面所建立的基于二维HMM的中文离线签名认证系统的性能，主要是对简单伪造签名的鉴别能力。实验二则是评估模型的自适应性和学习能力。 • 实验数据集： 10组样本，每组对应一个人的签名，包括20个真实样本，10个简单伪造样本。采集策略：每个签名者每天书写3到4个样本，一周内采集20个样本，这样可以使数据库尽可能反映不同时间的字体变化。系统评估使用以下两个参数：误接受率FAR和误拒绝率FRR。

一个基于二维隐马尔可夫模型的中文离线签名认证系统3一个基于二维隐马尔可夫模型的中文离线签名认证系统3 • 实验评估 • 实验一： • 对每组数据，在假定一个决策控制参数的值的情况下，10个真实签名样本被用来训练模型参数，用另外10个真实样本测试所建立模型的误拒绝率FRR，10个伪造样本测试模型的误接受率FAR。变化控制参数的取值并重复上述实验，选出一个较合适的值，作为系统最终的决策控制参数。 • 从图中可以看出，在1.3附近时FAR和FRR有较好的折中。我们在本系统中就使用1.3作为决策控制参数。这时FAR和FRR分别约为4%和5%。

一个基于二维隐马尔可夫模型的中文离线签名认证系统4一个基于二维隐马尔可夫模型的中文离线签名认证系统4 • 实验评估 • 实验二： • 新数据集：每个签名者的20个真实样本。这200个新签名被分成两组，A组包含每个签名者的10个新样本，共100个签名，B组包含剩下的签名。 • 首先在上面训练所得的模型（决策参数取1.3）下分别测试模型对A、B两个新样本集的误拒绝率。结果分别为10%和9%，平均FRR为9.5%，这同原先5%的FRR相比增加了近5个百分点。造成这种情况的原因有两个：一是模型的训练样本数较少，不足以反映整体样本的特征；二是由于字体随时间的变化，使得原来训练的模型不再适应新的签名状态。 • 随后我们将B中验证为真的样本作为新的训练集，对原模型加以修正。在新的模型参数下，A中原先被误识为赝品的签名多数被判别为真，此时模型对数据集A的FRR变为4%。同时新模型对伪造样本的误接受率并没有增加。

研究背景 • 隐马尔可夫模型技术 • 基于隐马尔可夫模型的签名认证算法 • 适合于隐马尔可夫模型应用的离线签名特征提取 • 一个基于二维隐马尔可夫模型的中文离线签名认证系统 • 结束语 • 本文工作总结 • 不足之处

结束语1 • 本文工作总结 • 首先分析了离线签名鉴别要解决的问题和技术难点，总结了已有的离线签名鉴别技术，从签名表示和分类判决两个方面对这些技术进行分类总结，分析不同方法的优点和缺点，并将我们的工作定位在简单伪造签名的鉴别上。 • 本文讨论了隐马尔可夫模型在离线签名鉴别中的应用。在介绍使用HMM进行签名鉴别的原理和流程的基础上，依次介绍了在建立HMM离线签名认证系统的各阶段遇到的问题及其解决方案。 • 研究了适合HMM应用的签名特征提取，尤其是中文签名特征提取。在此基础上选择了两种分类能力较好且简单易用的特征，开发了基于二维HMM的中文离线签名认证系统，并通过实验对本文的思想进行了验证。

结束语2 • 不足之处： • 在系统工作流程的各个阶段都作了一定的简化，对系统性能都有一定的影响 • 采用的是为每个签名者建立一个码书的方法，所建立的码书具有很少的码字，这可能会出现上述码书区分能力不强的问题。在进一步的工作中，可以考虑在大量签名者的签名样本集上设计向量量化码书，以解决训练样本集过小的问题。 • 深入研究签名特征提取也是下面工作的一个重点。

谢谢各位老师！

基于离线签名识别的身份认证技术研究

基于离线签名识别的身份认证技术研究

Presentation Transcript