手写体签名的特征提取.docx

上传人:b****4 文档编号:24133070 上传时间:2023-05-24 格式:DOCX 页数:16 大小:96.32KB
下载 相关 举报
手写体签名的特征提取.docx_第1页
第1页 / 共16页
手写体签名的特征提取.docx_第2页
第2页 / 共16页
手写体签名的特征提取.docx_第3页
第3页 / 共16页
手写体签名的特征提取.docx_第4页
第4页 / 共16页
手写体签名的特征提取.docx_第5页
第5页 / 共16页
点击查看更多>>
下载资源
资源描述

手写体签名的特征提取.docx

《手写体签名的特征提取.docx》由会员分享,可在线阅读,更多相关《手写体签名的特征提取.docx(16页珍藏版)》请在冰豆网上搜索。

手写体签名的特征提取.docx

手写体签名的特征提取

不同特征提取的手写签名识别方法研究

摘要

引言

在当今社会的各种经济活动中,人们越来越多的用手写签名来代替印章,尤其是在办公自动化、邮政系统等诸多方面的信息处理中。

例如:

各种文书、合同、协议、支票等文件通常要求当事人亲笔签名;各国政府之间的协议和备忘录的签订,官方文件以及法令和法规的颁布,银行支票的签署和汇兑,都需要当事人亲笔签名才能生效。

签名鉴定在国外,尤其是在北美和西欧,是普遍接受的身份辨识方法之一。

在计算机安全领域中,基于人的行为特征的手写签名识别技术具有方便、实用、低成本并符合人的生活习惯等特点,理所当然地受到了广泛的关注。

手写签名识别系统利用计算机自动识别手写签名样本是某个特定人亲自签署的“真签名”还是别人模仿的“伪签名”。

在办公自动化和公共安全方面,签名识别的重要性日益明显,在大多数企业,尤其是经常需要颁布或签署文件的行政部门来说,通过辨识签名的真伪来确定身份的方式易于被人们所接受。

由于签

名识别具有良好的应用前景和巨大的商业价值,世界各国许多学者和研究机构都已表现出极大兴趣,国内近几年也逐步开始了对中文签名认证的研究工作。

1绪论

1.1研究计算机识别签名的目的及意义

手写签名识别系统利用计算机自动识别手写签名样本是某个特定人亲自签

署的“真签名”还是别人模仿的“伪签名”。

在办公自动化和公共安全方面,签名识别的重要性日益明显,在大多数企业,尤其是经常需要颁布或签署文件的行政部门来说,通过辨识签名的真伪来确定身份的方式易于被人们所接受。

由于签

名识别具有良好的应用前景和巨大的商业价值,世界各国许多学者和研究机构都已表现出极大兴趣,国内近几年也逐步开始了对中文签名认证的研究工作。

手写字符识别涉及模式识别、图像处理、数字信号处理、自然语言理解、人丁智能、模糊数学、信息论、计算机、中文信息处理等学科,是一门综合性技术,它在中文信息处理、办公室自动化、人工智能等高技术领域,都有着重要的实用价值和理论意义D1。

手写文本、信封、票据表格和签名等的计算机自动阅读都具有十分诱人的应用背景,因此吸引了许多研究者的关注。

手写字符和数字识别技术一旦研究成功并投入应用,将产生巨大的社会和经济效益。

目前,人们在汉字识别领域己经取得了相当的成就,但是由于汉字识别的复杂性,其具体实现一直难以做到速度与效率的完美组合。

日前在国内外,多字体

印刷体字符的识别系统已达到相当高的识别率,不少OCR系统已成为成熟的软件产品。

研究手写体字符识别就是为了使识别系统能够实用化,并可以推广应用

到其他的字符识别领域中去。

由于手写体汉字的随意性和不同汉字间相似性很大,所以识别的难度很大,在整个字符识别领域中,最为困难的就是脱机手写字符的识别。

无约束手写体汉字识别一直是模式识别中的一个热点和难点,到目前

为止,尽管人们在脱机手写英文、汉字识别的研究中已取得很多可喜成就,但距

实用还有一定距离。

手写数字识别这个方向上,经过多年研究,研究工作者己经开始把它向各种实际应用推广。

然而,对于自由手写体汉字识别而言,任重道远,仍需要科研人员不懈的努力,但是不应该就此悲观,随着计算机技术的突飞猛进和人脑功能的进一步揭示,可望在不远的将来发现人脑的识字机理,建立在此基础上手写汉字识别的理论和方法将会有质的飞跃。

1.2签名识别的系统描述

一般情况下,签名识别系统构成如下图。

其中任何一个环节的处理效果的好坏,都会影响到最终的识别结果。

最关键的换就是签名特征提取的设计。

1.3特征提取的基本思路

特征提取是指在原始数据集的基础上,通过变换或组合创建新的特征。

它是对提供的数据集进行变换和组合的操作,它产生的特征较原始数据集对模式具有更明显的区别作用。

在离线签名识别系统中,通过对签名的二维图像进行一定的处理和变换以提取代表该签名的特征,这就是特征提取过程。

在签名识别中,特征的分类方式众多,常用的分类方式把提取的特征分为全局特征、统计特征和形状几何结构特征三类。

具体情况见下表。

表1-1脱机签名特征提取的主要方法

特征类型

具体特征

简要说明

全局特征

签名重心

求签名重心坐标

签名的倾斜特征

签名与水平方向的整体倾斜特征

该特征具有尺度、平

移和旋转不变性

数学变换后得到的系数

利用一些数学变换对签名进行分析,提取特征

统计特征

基于分割的统计特征

签名进行分割后,对得到的每个区域或基元提取统计特征

投影

中心投影,水平或垂直投影

纹理特征

纹理提供了对线性、方向性和周期性等属性的度量,最通用的方法灰度共生矩阵

形状几何结构特征

形状描述子

利用描述子描述签名的轮廓

几何结构特征

通过对签名的几何结构进行量化来反映签名形状结构及笔段的变化

全局特征及整个签名作为特征提取单元,把从整个签名中得到的表征整体特征的参数作为特征。

此类特征具有较强的抗干扰能力,匹配分类方便,速度也较快,但由于对签名细节区分能力弱,对签名的变形敏感,所以一般用于随机和简单伪签名的检测。

统计特征用签名的像素值、特殊点、笔划或笔段的方向及位置分布等统计信息作为特征。

盖雷特征受签名的整体形变影响相对较小,在许多文献中经常使用。

形状几何结构特征既包括签名的全局特征,又包括签名的局部特征,主要表征签名的全局或局部的形状结构特征及相关笔段间的结构关系。

此类特征对签名形变的容忍度最好,而且部分形状几何结构特征还有尺度不变性、平移不变性。

论文就基于MATLAB软件对手写体签名中特征提取进行了分析。

获得的签名数据一般是含有背景或噪音的灰度图像。

预处理阶段主要进行签名定位、去掉签名的背景和签名归一化、去噪等操作。

之后进行特征提取,尽量达到不仅能表达出不同签名者的书写风格,又能容忍来自同一个书写着每次书写时产生的自然差异,即尽可能加大类间距,减小类间距。

特征提取后,签名图像则有一组特征向量来表征。

1.4MATLAB的基本介绍

MATLAB是矩阵实验室(MatrixLaboratory)之意。

除具备卓越的数值计算能力外,它还提供了专业水平的符号计算,文字处理,可视化建模仿真和实时控制等功能。

MATLAB的基本数据单位是矩阵,它的指令表达式与数学,工程中常用的形式十分相似,故用MATLAB来解算问题要比用C,FORTRAN等语言完成相同的事情简捷得多。

当前流行的MATLAB7.0包括拥有数百个内部函数的主包和三十几种工具包(Toolbox)工具包又可以分为功能性工具包和学科工具包。

功能工具包用来扩充MATLAB的符号计算,可视化建模仿真,文字处理及实时控制等功能。

学科工具包是专业性比较强的工具包,控制工具包,信号处理工具包,通信工具包等都

属于此类。

开放性使MATLAB广受用户欢迎.除内部函数外,所有MATLAB主包文件和各种工具包都是可读可修改的文件,用户通过对源程序的修改或加入自己编写程序构造新的专用工具包。

数据获取与预处理

手写签名的随意性较大,又受环境、心情等因素影响,不可避免地出现签名大小、方向等存在一定的差异,而这些差异会影响后续的识别结果。

本文中的预处理就是对签名图像进行位置调整和大小归一,为后面的特征提取与识别奠定基

础。

2.1数据获取

数据采集是指利用某种装置将签名样本的信息转化为离散的数字信息输入计算机。

所采用的数据采集装置根据在识别过程中所采用的信号而定,采集到的

签名样本的质量对于后面的处理过程和识别性能具有重要的影响。

实验所用的样本是用普通钢笔自由书写在打印纸上的。

我们使用的图像输入

设备是microtek扫描仪。

图像扫描仪的扫描精度和所能获取签名信息的大小直接

相关。

签名识别时就是从预处理过的签名中提取特征,对待识别样本进行识别真

伪。

因此签名图像的清晰度是影响签名识别系统性能的重要因素,也是离线签名

识别系统中的一个很重要的参数。

常用的图像扫描精度有200dpi,300dpi,600dpi

种。

扫描精度越高,签像的清晰度就越高,包信息量就越大,这对签识别应该有利。

随着清晰度的增

高,数据量也不断增大,同时所需内存和处理时间也增加,识别速度受到明显的

影响,但是分辨率太低就会使我们得不到足够的识别信息、。

综合各方面的因素,我们选择了300dpi的扫描精度,以256级灰度方式输入计算机,存为bmp文件。

每个原始签名图像经过手工分割去除,并按照一定的命名规则单独存为bmp文

件。

之后,签名系统针对这种bmp图进行签名识别。

2.2二值化

得到的原始签名图像都是灰度图像,其灰度信息会对签名形状的比较造成干扰,所以需要对签名图像进行二值化,将背景与文字部分分割开。

观察采集到的签名图像,如图2-1所示,其直方图都具有比较明显的双峰性,所以本文采用最大类内类间方差比法对图像进行二值化。

考虑到,当对象物和背景的灰度分布具有双峰分布的特性时,最大方差比确定阈值方法是很有效的。

这种方法利用DiscriminantAnalysis的原理对灰度图像进行二值分割。

定义如下分离度仃)为最大值的T即为最佳阈值。

(2.1)

其中,、;(T)是类间方差(interclassvarianee)}、W(T)是类内方差(intraclassvarianee),它们可由以下的公式计算得到

类内方差:

(2.2)

类间方差:

弗=①(A-旳F+5(角-Ar)

(2,3)

 

这里4■4=昇(为全局方差),和分别是Ci和C2的发生概率(标准化后的像素数),和以及和分别属于累Ci和类C2的像素灰度平均值和灰度的方差。

用该方法二值化后的效果图如图2-1的图(C)所示。

2.3去噪

观察签名图像二值化后的图像可知,如图2-4(a)所示,签名图像的噪声点是由于纸张粗糙程度不同或书写时不小心留下的墨水斑点。

为此本实验采用中值滤波的方法进行去噪。

另外许多签名的区域会有一条竖线(如图2-_5所示的签名的侧边),这些都

会对签

名识别带来影响,必

需消除

这些噪声。

对于扫描

(或成像)

过程中引入的噪声

可以使

用空间域滤波、频率

域滤波

技术或者开闭操作

予以消

/、,、r——1~•-

除。

对于竖线,因为

i=r-r.r.丄rt“口一1—-—r~-

它并不是一种随机噪声,而

是印刷时为了标明签名区域加入的,对于这种竖线的消除为了尽量减小对于原始签名图像的改变,不使用滤波技术,而是采用下面这种方法。

通过观察,这样的竖线通常只有一个像素的宽度,即位于竖线上的像素其八领域的像素点分布如图2-6所示:

因此,只需要消除签名图像中,其八领域满足图2-6所示的分布的像素。

引值,如图2-7

所示。

那么对应于一个3x3的二值像素区域,其共有的29=512种像素分布方式

都可以由表示。

一个确定的和值

10I

0I0

J0I

图2-8种3x3的像索分布的索引值

Ind(x,y),1

如图2-8所示的像素分布其不索引值为:

1*1+0*2+1*4+0*8+1*16+0*32+1*64+0*128+1*256=341。

而对应于图2-6所示的竖线的像素分布其索引值分别为:

1*2+1*16+1*128=146、1*2+1*16=18、1*16+1*128=144。

对应签名边界上的像素点,它可能没有左邻域、右邻域、上邻域或下邻域,对十这种情况只需将缺少的邻域补零即可。

消除竖线的具体步骤为

Step1从签名的左上角开始以从左到右,从上到下的顺序进行扫描,计算以该点为中心的3x3像素区域的索引值。

如果索引值为集合{18,144,146}中的某个值,则将该点加入集合CP中。

Step2将集合C,P中的点赋值为0。

图2-9所示即为图2-1除去竖线之后的结果图像

因,经

划上有许多的断笔,需要经过处理尽量消除这些断笔

平滑

这里的平指许多的签名所用笔的原因

书写的力度太轻等原扫描及二值化之后,笔这些断笔的消除可以在构

造合适的结构元素后应用膨胀、腐蚀操作来实现。

签名在应用膨胀之后再应用腐蚀操作后原签名中的多处断笔都可以连接起来

2.5归一化

采集得到的签名图像中,签名的位置以及尺寸都会存在一定的差异,这些差异会对后续处理造成一定的干扰。

所以为了对签名进行有效的真伪鉴别,就需要将签名的位置和尺寸调整为一致的,也就是对签名图像进行归一化处理。

3形状特征提取

3.1签名特征的分类

不同人书写的字体,其形态之间是有差异的,而由于长期的书写习惯,同一个人书写的字体形态以及字与字之间的走笔是相对稳定的。

所以笔划的长短、粗细、走笔的方向以及笔划的曲度等反应个人书写习惯的属性称为签名的特征。

签名特征依据不同的特性可以有不同的分类方法。

比如可以将签名特征分为

形状特征和力度特征,全局特征和局部特征,还可以分为集合特征、统计特征、几何拓扑特征等。

这些按不同方法分类的特征之间并不是截然分开的,而是互相关联的,如全局特征中也能包含几何特征或力度特征。

所以签名特征的分类并不是绝对的,在课题中要依据实际需要进行分类。

从全局特征与局部特征的角度来看,全局特征对于基础分类有较好的效果,对于不是精心模仿的、具有形状差异的伪造签名,全局特征能较好地反映它与真签名之间的差别。

局部特征适合细分类,能较好地反映两个签名之间的细微差别,对模仿签名有较好的分类效果。

3.2常用的形状特征

3.2.1签名图像的高宽比

所谓的高宽比就是签名外边框的高度与宽度之比。

一个人的签名的高度与宽度之比是相对稳定的。

但是选取这种两种特征将签名其它信息大量丢失,将特征

归为一个数据,虽然对于同一个人的签名较为稳定,但对于不同人签名的敏感度却不高,在往后的分类中不易将签名准确区分。

3.2.2签名点面积与总面积比

该特征指的是二值化签名图像中黑点数量(签名对象点)与总像素数的比。

它可以在一定程度上反映出一个签名中笔划的特征。

但这一特征对于不同的签名可能有相似的值,所以只能作为一个参考的特征值。

3.2.3连通域个数和网孔个数

签名笔迹的连通域个数值指的是经过二值化后的签名图像中一个黑色像素

点所联通的区域,换句话说,统计连通域的个数就是统计笔迹中相互连接在一起的部分区域的数目。

签名笔迹的网孔数是由笔迹所围成的闭合的空白区域的数目。

由于每个人的习惯特点每次签名很难都会有相似的连通域的数目和网孔数,此特征在书写时会有很大的变化,所以稳定性不行,会对识别的准确性带来影响。

3.2.4字体轮廓的倾斜方向

字体的轮廓的特征也就是二值化后的签名图像的轮廓倾斜方向的向量特征,反映了笔画的方向上的变化。

对于轮廓上某一点p(x,y),如果p'=(x-1,y+1)非零,则p'为负方向倾斜点;

如果p'=(x+1,y)非零,则称p'为垂直方向倾斜点;如果p'=(x+1,y+1)非零,则称

p'为正方向倾斜点。

对签名轮廓的倾斜方向向量进行累加,得到三维向量V

(d1,d2,d3)然后将这个向量归一化即可得到笔迹方向的特征。

计算公式如下:

2-10)

(2-11)

Vi(d1,d2,d3)=V(d1/D,d2/D,d3/D)

D二did2d3

4伪动态特征提取

4.1笔锋特征

笔锋信息体现在笔道的宽度上,呈由窄到宽趋势,称为锐笔锋,或者呈现由宽到窄趋势,称为钝笔锋。

为了提取笔锋特征,首先必须计算笔道的宽度。

根据预处理后得到的细化图像和边缘提取的图像,运用符号欧氏距离变换

(SignedEuclideanDistaneeTransform,SEDT算法,可以认为,笔道中线即细化后图像中的细线上的像素,经过符号欧氏距离变换映射后,所计算出来的离最近背景点的距离,约是该位置的笔道宽度的一半。

在估计出笔道宽度后,就可以进行笔锋特征的提取。

对笔道中线进行线条跟踪,就可以获知笔道宽度呈窄到宽趋势的锐笔锋,或者是笔道呈宽到窄的钝笔锋。

算法描述如下:

设D(x°,yo)为骨架上一点,F(x,y)为该点在二值化签名图像上的对应点,如

果存在坐标值A,B,L和R同时满足下列条件:

计算时采用水平和垂直两个方向同时扫描,在满足条件a)和b)的前提下,

只要再满足c)和d)中任一个即结束计算。

在得到签名骨架上每一点对应的笔划宽度以后,便可计算出整个签名笔划分布的概率直方图。

4.2签名骨架方向灰度特征

签名骨架灰度特征(DGF)是将笔划方向和灰度结合起来的一种特征。

提取方法是首先对二值签名图像细化骨架上的点进行灰度还原,成为灰度骨架,并对其

上各点在水平、垂直、正倾斜和负倾斜四个方向上累计灰度,由此形成一个四维

向量(G1,G2,G3,G4)。

最后将G1,G2,G3,G4规范化到0,1之间,便得到骨架方向的灰度特征。

4.3低灰度区特征

签名中灰度较低的区域称为低灰度区,如果在白纸上涌深色的笔签名,则低灰度特征代表签名中用力较大的区域⑹,如重笔,顿笔,笔划交叉重叠的地方等。

由于人的书写用力习惯不同,对应得低灰度信息也有所不同。

因此,低灰度信息对于签名的特征提取是一个比较有效的特征。

低灰度图像时通过一定的阈值从灰度图像中筛选出来的。

本文中低灰度的阈值按如下方式定义:

小££必盂R.川百%WR(4.1)

b)(4.2)

ajr

O=肪口』“20(4.3)

d)flF(£7HF(R+1』)=0(4.4)

则点DgyJ对应的笔划宽度按f4.5)公式得到.

w=niin(?

?

-£+-4+1)(4,5)

(4.6)

LPR=Smin+0.25*(Smax—Smin)

式中Smin,Smax分别表示图像中最大和最小的像素值。

通过以上所说的阈值可以得到如下算法来确定不同图像的低灰度信息。

设原图像的像素表示为F(x,

y)低灰度图像的像素表示为R(x,y)则:

(4.7)

4.4灰度分布特征

统计直方图显示了图像的灰度分布情况,对于签名图像,则在一定程度上反映了一个人的书写特性。

由于在签名图像中,背景所占比例一般在80%以上,而这部分信息与识别无关,在进行统计时,将背景部分的灰度分布去掉。

这样不仅减少了背景的干扰,还进一步减少了直方图的特征维数。

在获得字体的灰度分布特性之后,将其灰度分布变换为N级,一方面可以

减小数据量,另一方正可以起到灰度平滑的作用。

设灰度级用i表示,某灰度级出现的频率用fi表示,则灰度直方图特征gi可表示为:

n_1

gi二f/'fji=0,1,….,N-1(4.8)

j-0

由此便得到一组N维的特征向量,该特征向量与前面所叙述的低灰度区特征一起组成伪动态特征向量。

本文所提取的伪动态特征,由于不反映签名的形状信息,所以在鉴别的时候不能单独使用,必须与形状特征相结合使用。

5欧式距离分类器

5.1模式识别及分类器概述

在特征提取向量后,签名识别是典型的模式识别。

模式识别研究是利用计算机技术实现模拟人的模式识别能力。

从广义上说,存在于时间和空间中可观察的事物,如果它们是可以被区分为是否相同或者是否相似,就都可以称为模式。

模式所指的不是事物本身,而是我们从事物获得的信息,模式往往表现为具有时间或空间分布的信息。

模式识别的作用和目的就在于对某一具体事物将其正确的归入某一类别。

通常,我们把通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息称为模式,而把模式所属的类别称为模式类(简称为类),个别具体的模式称为样本。

在模式识别中,存在两种基本的识别方法,一种是统计模式识别方法,另一种是结构(句法)模式识别方法。

模式识别的过程实际上都是由两个过程所组成的,即设计与实现。

设计是指用一定数量的样本(称作训练样本集或学习样本集)进行分类器的设计,实现是指用所设计的分类器对待识别的样本进行类别归属的决策。

在这里我们主要使用统计模式识别方法。

在模式识别中有很多经典分类器,如贝叶斯分类器等需要进行后验概率验算的分类器,在像签名鉴别这样的实际问题中,由于样本特征空间的类条件概率密

度的形式常常很难确定。

而利用Parzen窗等非参数方法估计概率分布往往又需要大量样本,而且随着特征空间维数的增加,所需样本数也急剧增加。

因此,在实际问题中,我们往往不去恢复类条件概率密度,而是利用样本集直接设计分类器。

这时,具体的问题可以描述为,首先给定某个判别函数,然后利用样本集确定出判别函数的未知参数。

传统的统计模式识别方法都是在样本数目足够多的前提下进行研究的,所提出的各种方法只有在样本数趋向无穷大时其性能才有理论上的保证。

而在实际应用中,样本数目通常是有限的,这时采用如线性判别函数等方法都很难取得理想

u~Jt(s(o-soa)y(5,1)

量机从本质上来说,是对线性不可分样本进行升维,使得其在一个高维空间中线性可分。

本实验采用了欧式距离分类器,为了便于后面对欧式距离分类器和支持向量机在签名鉴别中的应用进行阐述和理解,在这里,首先对欧式距离分类器和支持向量机的基本原理进行简单的说明。

5.2欧式距离分类器原理

欧式距离分类器是指采用欧式距离作为进行识别的度量。

取得特征向量后,

签名识别问题是一个典型的模式识别问题,欧氏距离分类器进行识别,是把把未

知样本签名的特征向量与已知样本签名的特征向量相比较。

首先通过一定数量的

训练样本得到一组n维特征向量S作为标准特征向量,其中So={So(i)|i=1,2,...,n},然后计算由待测图像得到的向量S与S0的欧式距离U。

其中T为阈值,R=0表示待测签名识别为假,反之则为匹配。

采用欧式距离的最小分类器因为不必计算属性的方差和协方差,速度最快。

5.3阈值的确定

该分类器中涉及到分类阈值T的确定。

本实验中,为了提高手写体签名识别

寻找到使识别准

的准确率,采用了搜索寻优的方法。

也就是给定一组训练样本,确率最高的阈值T并以此作为该签名分类判别的阈值。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 总结汇报 > 学习总结

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1