40年代电子计算机发明以后逐渐发展起来的.docx

资源描述

40年代电子计算机发明以后逐渐发展起来的.docx

《40年代电子计算机发明以后逐渐发展起来的.docx》由会员分享，可在线阅读，更多相关《40年代电子计算机发明以后逐渐发展起来的.docx（23页珍藏版）》请在冰豆网上搜索。

40年代电子计算机发明以后逐渐发展起来的.docx

40年代电子计算机发明以后逐渐发展起来的

现代模式识别是在20世纪40年代电子计算机发明以后逐渐发展起来的。

在更早的时候，已有用光学和机械手段实现模式识别的例子，如在1929年GustavTauschek就在德国获得了光学字符识别专利。

作为统计模式识别基础的多元统计分析和鉴别分析也在电子计算机出现之前提出来了。

1957年IBM的C.K.Chow将统计决策方法用于字符识别。

然而，“模式识别”这个词被广泛使用并形成一个领域是在20世纪60年代以后。

模式识别问题指的是对一系列过程或事件的分类与描述，具有某些相类似的性质的过程或事件就分为一类。

目前模式识别问题一般可以应用以下4种方法进行分析处理：

统计模式识别方法、句法模式识别、人工神经网络模式识别、模糊模式识别。

模式识别已经在天气预报、卫星航空图片解释、工业产品检测、字符识别、语音识别、指纹识别、医学图像分析等许多方面得到了成功的应用。

所有这些应用都是和问题的性质密切不可分的，至今还没有发展成统一的、有效的可应用于所有的模式识别的理论。

当前的一种普遍看法是不存在对所有的模式识别问题都使用的单一模型和解决识别问题的单一技术，我们现在拥有的是一个工具袋，我们所要做的是结合具体问题把统计的和句法（结构）的识别方法结合起来，把统计模式识别或句法模式识别与人工智能中的启发式搜索结合起来，把人工神经元网络与各种以有技术以及人工智能中的专家系统，不确定方法结合起来，深入掌握各种工具的效能和应用的可能性，互相取长补短，开创模式识别应用的新局面。

2.3图像模式识别

2.3.1图像模式识别的基本概念

图像在人类的感知中扮演着非常重要的角色，人类随时随处都要接触图像。

据统计，在人类接受的信息中，视觉信息占了70%以上，也就是常说的“百闻不如一见”。

在许多场合，图像所传递的信息比其他任何形式的信息更加丰富和真切。

随着数字图像技术的发展和实际应用的需要，出现了另一类问题，就是不要求其结果输出是一幅完整的图像，而是将经过图像处理后的图像，再经过分割和描述提取有效的特征，进而加以判决分类，这就是近20年来发展起来的一门新兴技术科学——图像识别。

它以研究某些对象或过程的分类与描述为主要内容，以研制能够自动处理某些信息的机器视觉系统，代替传统的人工完成分类和辨识的任务为目的。

例如要从遥感图像中分割出各种农作物、森林资源和矿产资源等；根据医学图片分析发生病变的细胞形状和颜色判断是否发生癌变；从气象观测数据或气象卫星照片准确预报天气；交通管理系统中应用车牌自动识别技术管理车辆等。

因此，在当今社会，图像识别技术已经在各个领域发挥着极其重要的作用。

图像识别，简单地说，就是要把一种研究对象，根据其某些特征进行识别并

分类。

例如要识别写在卡片上的数字，判断它是0，1，2，…，9中的哪个数字，

就是将数字图像分成10类的问题，因此可以认为，对数字图像进行区别分类其实质就是对图像进行模式识别。

这种识别早已存在人们的生活实践中。

然而，随着实践活动的扩大、深入和社会化的需要，人们不仅需要识别分类数很多的事物，

而且被识别的对象内容也越来越复杂。

特别是由于科学技术水平的提高，使得各

种不同的研究对象“图像化”或“数字化”，可采用某种技术把考察的对象转换成图片、波形图以及若干数据，这些数据就可以代表所研究的对象。

但是对于模式识别来说，无论是数据、信号还是平面图像或立体景物都是除掉它们的物理内容而找出它们的共性，把具有同一共性的归为一类，而具有另一种共性者归为另一类。

图像模式识别是用机器对文字、图像、图片和景物等模式信息加以处理和识别，用以解决计算机与外部环境直接通信这一重要问题。

其目的就是研制采用某种仪器或设备，自动处理某些信息，代替人完成分类和辨识的任务，并且能够快速而准确地进行图形识别。

一般来说，一个图像识别由图像预处理、图像特征提取和图像模式分类三个主要部分组成。

前期处理一般是指把图像进行平滑、增强、恢复、边缘检测和分割等操作，其目的是把输入图像简化为分段模式。

特征提取是指在满足分类识别正确率要求的条件下，提取图像的主要特征，并按某种准则尽量选用对正确分类识别作用大得特征，使得用较少的特征就能完成分类识别任务。

图像模式分类是最重要的一部分，它是依据所提取的特征，将前一部分的特征向量空间映射到类型空间，把相应图像归属已知的一类模式。

2.3.2图像模式识别的基本方法

一个图像识别系统主要由三个环节组成：

图像数据获取，数据加工和处理、抽取特征，判断分类等，如图2-2所示。

图2-2图像识别系统框图

下面简单对这几个环节作以说明：

1、数据获取来自现实的模拟数据，如图片、照片、图像和景物等由一个传感器（如扫描仪、传真机、数字摄像机、数码相机）传入，然后被转换成适合计算机处理的形式，即将物理量变成一组测量值。

2、数据处理数据处理包括预处理、特征抽象和特征选择。

预处理技术包括各种图像处理技术，其目的是改善图像质量，清楚图像中的噪声，减轻或消除因传感器与传输介质本身不完善而引起的退化现象，便于机器分析处理等。

特征抽取就是从图像中提取一组反映图像特性的基本元素或数字值。

特征选择则是从已经抽取的特征中选择能够更好地完成分类识别任务的特征来表示原图像。

3、判别分类判别分类就是采用一定的准则或机制建立分类规则，并用它们对未知图像模式进行分类识别。

用于解决图像识别的方法概括起来可分为统计模式识别、结构模式识别、模糊图像识别和智能模式识别（主要是人工神经网络模式识别）4类，前两类方法有久远的历史，发展较为成熟，对解决相应领域中的模式识别问题均有明显的效果，是模式识别分类的经典与基础性技术。

20世纪80年代新兴的人工神经网络，作以一种广义的智能模式识别法，更以崭新的姿态，以其全局相关的特色，在模式识别领域取得了许多传统方法所难达到的成就，下面分别作以介绍：

1、统计图像识别：

统计图像识别是以概率理论为基础的，模式用特征向量描述，找出决策函数进行模式决策分类。

其基本思想是：

无论输入的对象是什么，它都表示为一个数组。

这数组不是任意的，而是适当选择的、对原始数据进行各种测量的结果。

统计图像识别的大致过程如图2-3所示。

图2-3统计图像识别系统结构图

图中的上半部分是识别部分，即对未知类别的图像进行分类；下半部分是分析部分，即由已知类别的训练样本求出判别函数及判别规则，进而用来对未知类别的图像进行分类。

框图右下角部分是自适应处理部分，当用训练样本根据某些规则求出一些判别规则后，再对这些训练样本逐个进行检测，观察是否有误差。

这样不断改进判别规则，直到满足条件为止。

2、结构图像识别：

结构模式识别是按模式本身的结构和结构关系对物体进行识别的方法。

由于它是将现代自然语言分析的形式语言理论（句子分解为各种词类，如名词、动词、副词等）用于模式识别，所以又称为句法模式识别。

其基本思想是：

一个复杂的模式可以由一个简单的模式递归地描述。

换言之，对于每个复杂的模式，可以用一些较简单的子模式来描述，而每一个比较简单的子模式再用一些更为简单的子模式来描述，最后用一些最简单的模式基元来表示。

句法模式识别框图如图2-4所示。

图中的上半部分是识别阶段，即对未知类别的样本进行句法分析并输出分类结果，同时输出待识别样本的结构描述；下半部分是分析阶段，用一些已知结构信息的模式样本构造出一些文法规则，以便用这些文法对描述未知模式的句子进行句法分析。

图2-4句法模式识别系统结构图

3、模糊模式识别：

模糊模式识别是模糊集理论在模式识别中的应用。

人对客观事物的认识带有模糊性，如通常所说的高矮、胖瘦，青年、老年，温和和剧烈等都带有模糊性的语言，人类利用这些模糊语言进行交流，并通过大脑分析和决策。

模糊数学就是研究如何利用模糊信息对确定事物进行定量分析。

因此，将模糊集理论用于模式识别系统，利用模糊信息进行模式决策分析，使计算机带有接近人类的智能，这是非常重要的研究课题。

模糊识别的主要方法有最大隶属原则识别法、接近原则识别法和模糊聚类分析法。

4、人工神经网络图像模式识别：

人工神经网络的研究起源于对生物神经系统的研究。

人工神经网络区别于其他识别方法的最大特点是它对待识别的对象不要求有太多的分析与了解，具有一定的智能化处理的特点。

神经网络分类器是一种智能化模式识别系统，虽然神经网络的设计和实现依赖与经验，泛化性能不能确保最优，但是它可以增强系统的学习能力、自适应能力和容错性，具有很强的发展应用前景。

神经网络在图像识别中的应用按处理数据类型大致可以分为两类：

一类是基于图像像素数据的神经网络算法；另一类是基于图像特征数据的神经网络算法即特征空间的聚类识别算法。

基于图像像素数据的神经网络识别技术，是用高维的原始图像数据作为神经网络的训练样本。

目前很多神经网络算法是基于像素进行图像识别的，其图像识别的流程图如图2-5所示。

图2-5基于图像特征数据的神经网络图像识别流程图

基于图像特征数据的神经网络的图像识别技术是用图像的特征数据作为神经网络的训练样本。

此类技术中，神经网络作为特征聚类器，有很多的神经网络别研究人员运用，如BP神经网络、模糊神经网络、Hopfield神经网络、RAM自适应神经网络、SOFM神经网络、细胞神经网络等。

其图像识别的流程图如图2-6所示。

此类技术实际上是传统方法与神经网络技术的结合，它利用人的经验来获

取模式特征以及神经网络分类能力来识别目标函数。

其图像识别的关键是图像的特征提取必须反映整个图像的特征。

图2-6基于图像特征数据的神经网络图像识别流程图

第三章各类算法的比较

3.1基于模板匹配的模式识别分类算法

3.1.1模板匹配的基本概念

模板就是一幅已知的小图像。

模板匹配就是在一幅大图像中搜寻目标，已知该图中有要找的目标，且该目标同模板有相同的尺寸、方向和图像，通过一定的算法可以在图中找到目标，确定其坐标位置。

以8位图像（其1个像素由1个字节描述）为例，模板T（H×W个像素）叠放在被搜索图S（m×n个像素）上平移，模板覆盖被搜索图的那块区域叫子图Sij。

i，j为子图左上角在被搜索图S上的坐标。

搜索范围是：

1≤i≤W–M

1≤j≤H–N

通过比较T和Sij的相似性，完成模板匹配过程。

注意：

图像的数据是从下到上、从左到右排列的。

已知原始图像S（H,W）和模板T（m,n）如下图所示:

被搜索图模板

可以用下式衡量T和Sij相似性：

当模板和子图完全一样时，相关系数R（i,j）=1。

在被搜索图S中完成全部搜索后，找出R的最大值Rmax（im,jm），其对应的子图Simjm即为匹配目标。

显然，用这种公式做图像匹配计算量大、速度较慢。

另一种算法是衡量T和Sij的误差，其公式为：

E（i,j）为最小值处即为匹配目标。

为提高计算速度，取一个误差阈值E0，当E（i,j）>E0时就停止该点的计算，继续下一点计算。

3.1.2模板匹配算法的matlab实现

用matlab实现模版匹配的源程序如下：

clearall;

closeall;

clc;

img=imread（'lena.jpg'）;

imshow（img）;

img=double（img）;

mask=double（imcrop（））;

[mn]=size（img）;

[HW]=size（mask）;

ifmod（H,2）~=1

H=H+1;

end

ifmod（W,2）~=1

W=W+1;

end

mask=imresize（mask,[HW]）;

HH=floor（H/2）;

WW=floor（W/2）;

imgn=zeros（m+2*HH+1,n+2*WW+1）;

imgn（HH+1:

m+HH,WW+1:

n+WW）=img;

imgn（1:

HH,WW+1:

n+WW）=img（1:

HH,1:

n）;

imgn（1:

m+HH,n+WW+1:

n+2*WW+1）=imgn（1:

m+HH,n:

n+WW）;

imgn（m+HH+1:

m+2*HH+1,WW+1:

n+2*WW+1）=imgn（m:

m+HH,WW+1:

n+2*WW+1）;

imgn（1:

m+2*HH+1,1:

WW）=imgn（1:

m+2*HH+1,WW+1:

2*WW）;

re=imgn;

fori=HH+1:

m+HH

forj=WW+1:

n+WW

tmp=imgn（i-HH:

i+HH,j-WW:

j+WW）;

re（i,j）=sum（sum（（tmp-mask）.^2））;%最小平方差

end

figure;

re=mat2gray（re（HH+1:

m+HH,WW+1:

n+WW））;

imshow（1-re）;

结果如下：

图中高亮部分为眼睛所在不部位

：

3.2基于贝叶斯算法的图像模式识别分类设计

3.2.1贝叶斯算法简介

模式识别分类问题是对待识别的对象提取观测值，然后根据观测值进行分类。

首先建立识别对象的训练集，其中每点的类别已知，根据这些条件，建立判别函数，通过现有的样品估计判别函数中的参数，然后用此判别函数去对类别未知的样品进行判定。

3.2.1.1贝叶斯法则

贝叶斯法则是对主观判断的一种修正方法，是指当样本足够多时，样本概率与总体概率近似。

一般情况下，事件A在事件B的条件下的概率，与事件B在事件A条件下的概率不相等，然而，这两者是有确定关系的，贝叶斯法则就是这种关系的描述。

3.2.1.2贝叶斯决策

贝叶斯法则只是一种方法，是从大的方向上讲，要将它细化又可以分为许多的具体实施的决策。

如果统计知识完整，贝叶斯决策理论是一种最优分类器。

贝叶斯分类器是分类错误概率最小或者是平均风险最小的分类器。

其设计方法属于一种基本的统计分类方法。

3.2.1.3基于最小错误概率的贝叶斯决策

若每个样品属于w1,w2类中的一类，已知两类的先验概率分别p（w1）,P（w2）,两类的类别密度函数为P（X∣w1）,P（X∣w2）。

则任给一x，判断x的类别。

由贝叶斯公式可知

由全概率公式可知：

其中M为类别数。

对于两类问题，

，所以用后验概率来判别

3.2.2图像分类识别系统实现

3.2.2.1HSV颜色空间

HSV颜色空间比较其它的颜色空间更适合人的视觉特性。

其中包含色调H（Hue）、饱和度S（Saturation）和亮度V（Value）。

色调H表示表示光的颜色，饱和度S表示光的浓度，亮度v表示光的明暗程度。

在基于内容的图像检索中，应用这种颜色空间模型会更适合用户的视觉判断。

3.2.2.2颜色空间的量化

根据人的视觉分辨能力的分析，颜色大致划分为如下9种：

红、黄、绿、青、蓝、紫、黑、灰和白，依据这九种颜色就可以大致描述一幅图像。

因此，可以根据这九种颜色来大致确定图像的主颜色特征。

3.2.2.3分块主色的实现

本文对图像二维空间进行4*4的划分。

对其中每一个分块，统计出像素最多的那种颜色作为主色，建立图像的颜色特征向量。

分块主色法是统计图像每个分块主色来突出颜色的空间关系，适用于主题位置相对固定的分类问题，对于变化较大的图像效果会明显减弱。

3.2.2.4主要MATLAB程序

函数名:

bayesleasterror（）

参数:

sample:

待识别图像特征

返回值:

待识别图像所属类别

函数功能：

最小错误概率的贝叶斯分类器

functiony=bayesleasterror（sample）

clc；loadtempletpattern；

％对图像库和待测图像进行主成分分析

[pcapat,pcasamp]=pcaprO（sample）；

temp=0；

fori=1:

pattern（i）.feature=pcapat（:

temp+1:

temp+pattern（i）.num）；

temp=temp+pattern（i）.num；

end

s_cov=[]；s_inv=[]；s_det=[]；

fori=l:

s_cov（i）．dat=cov（pattern（i）.feature'）；％求个类别的协方差矩阵

s_inv（i）.dat=inv（s_cov（i）.dat）；％求协方差矩阵的逆矩阵一

s_det（i）=det（s_cov（i）.dat）；％求协方差矩阵的行列式

end

suml=0;p=[]；

fori=1:

sum1=sum1+pattern（i）.num；％求图像库样品总数

end

fori=1:

p（i）=pattern（i）.num／sum1；％求类别的先验概率

end

h=[]；mean_sap=[]；

fori=1:

mean_sap（i）.dat=mean（pattern（i）.feature'）；％求每类图像的特征值

end

％计算最大的判别函数

fori=1:

h（i）=（pcasamp-mean_sap（i）.dat）’*S_inv（i）.dat*（pcasamp-mean_sap（i）.dat）*（-0.5）+log（p（i）+log（abs（s_det（i）））*（-0.5）;

end

[maxvalmaxpos]=max（h）;y=maxpos;

基于神经网络的图像模式识别分类算法：

神经网络的基本概念

传统的图像识别技术是基于文本的检索技术，它依靠人工对图像进行手工注解，然后根据关键字对图像进行识别。

人工神经网络（ArtificialNeuralNetworks,ANN）是在现代神经生物学研究基础上提出的模拟生物过程以反映人脑某些特性的计算结构。

它不是人脑神经系统的真实描写，而只是它的某种抽象、简化和模拟。

神经元及其突触是神经网络的基本器件。

因此，模拟生物神经网络应首先模拟生物神经元。

在人工神经网络中，神经元常被称为“处理单元”。

有时从网络的观点出发常把它称为“节点”。

人工神经元是对生物神经元的一种形式化描述，它对生物神经元的信息处理过程进行抽象，并用数学语言予以描述；对生物神经元的结构和功能进行模拟，并用模型予以表达。

为了模拟生物神经元，一个简化的人工神经元如图3-1所示。

该神经元是一个多输入单输出的非线性元件，其输入输出关系可描述为：

图3-1人工神经元模型

人工神经元模型可以看成是由三个基本要素组成：

1、一组连接权（对应于生物神经元的突触），连接强度由各连接上的权值表示，权值为正表示激励，为负值表示抑制。

2、一个求和单元，用于求取各输入信息的加权和（线性组合）。

3、一个非线性激励函数，起非线性映射作用并限制神经元输出幅度在一定的范围之内。

此外还有一个阈值。

阈值也被看作是一个输入分量，也就是阈值也是一个权值。

在网络的设计中，偏差起着重要的作用，它使得激活函数的图形可以左右移动而增加了解决问题的可能性。

通常所说的人工神经网络结构，主要指它的连接方式。

人工神经网络模型主要考虑网络连接的拓扑结构、神经元的特征、学习规则等。

目前，已有近40种神经网络模型，其中有反传网络、感知器、自组织映射、Hopfield网络、波耳兹曼机、适应谐振理论等。

根据连接的拓扑结构，神经网络模型可以分为：

前馈型神经网络和反馈型网络。

其中典型的前馈型神经网络如BP（BackPropagation）神经网络，RBF（RadicalBasisFunction）神经网络。

下面举例说明基于BP神经网络的图像模式识别。

基于BP神经网络的图像模式识别实现

BP神经网络是一种典型的前馈神经网络，其神经元的传递函数是S型函数，输出量为0到1之间的连续量，它可以实现从输入到输出的任意非线性映射。

由于权值的调整采用反向传播（BackPropagation）学习算法，因此也常称其为BP网络。

BP网络结构图如下：

其算法步骤描述如下:

（1）设置变量和参数,其中包括训练样本,权值矩阵,学习速率。

（2）初始化,输入样本,提供训练模式,训练网络,直到满足学习要求。

（3）前向传播过程:

对给定训练模式输入,计算网络的输出模式,并与期望模式比较,若有误差,则执行（4）;否则,返回

（2）。

（4）后向传播过程:

a.计算同一层单元的误差;b.修正权值和阈值;c.返回

（2）。

下例为基于BP神经网络的英文字母识别方法能实现对26个英文字母的识别，其matlab程序如下：

clear;closeall;

clc;

[alphabet,targets]=prprob;

[R,Q]=size（alphabet）;

[S2,Q]=size（targets）;

S1=10;

P=alphabet;

net=newff（minmax（P）,[S1,S2],{'logsig''logsig'},'traingdx'）;

net.LW{2,1}=net.LW{2,1}*0.01;

net.b{2}=net.b{2}*0.01;

T=targets;

net.performFcn='sse';

net.trainParam.goal=0.1;

net.trainParam.show=20;

net.trainParam.epochs=5000;

net.trainParam.mc=0.95;

[net,tr]=train（net,P,T）;

netn=net;

netn.trainParam.goal=0.6;

netn.trainParam.epochs=300;

T=[targetstargetstargetstargets];

forpass=1:

10;

P=[alphabet,alphabet,...

（alphabet+randn（R,Q）*0.1）,...

（alphabet+randn（R,Q）*0.2）];

[netn,tr]=train（netn,P,T）;

end

netn.trainParam.goal=0.1;

netn.trainParam.epochs=500;

netn.trainParam.show=5;

P=alphabet;

T=targets;

[netn,tr]=train（netn,P,T）;

noise_percent=0.2;

fork=1:

noisyChar=alphabet（:

k）+randn（35,1）*noise_percent;

subplot（6,9,k+floor（k/9.5）*9）;

plotchar（noisyChar）;

de_noisyChar=sim（net,noisyChar）;

de_noisyChar=compet（de_noisyChar）;

answer=find（de_noisyChar==1）;

subplot（6,9,k+floor（k/9.5）*9+9）;

plotchar（alphabet（:

answer））;

end

set（gcf,'Position',[10,60,900,700],'color','w'）

运算结果如下：

实验结果表明，基于BP神经网络的英文字母识别方法能实现对26个英文字母的准确、快速识别，并具有较强的抗干扰能力。

2基于贝叶斯

展开阅读全文