机器学习在模式识别中的应用研究doc.docx

上传人:b****2 文档编号:12635875 上传时间:2023-04-21 格式:DOCX 页数:12 大小:159.28KB
下载 相关 举报
机器学习在模式识别中的应用研究doc.docx_第1页
第1页 / 共12页
机器学习在模式识别中的应用研究doc.docx_第2页
第2页 / 共12页
机器学习在模式识别中的应用研究doc.docx_第3页
第3页 / 共12页
机器学习在模式识别中的应用研究doc.docx_第4页
第4页 / 共12页
机器学习在模式识别中的应用研究doc.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

机器学习在模式识别中的应用研究doc.docx

《机器学习在模式识别中的应用研究doc.docx》由会员分享,可在线阅读,更多相关《机器学习在模式识别中的应用研究doc.docx(12页珍藏版)》请在冰豆网上搜索。

机器学习在模式识别中的应用研究doc.docx

机器学习在模式识别中的应用研究doc

机器学习在模式识别中的应用研究

杜明1周而重2

(1.沈阳化工学院计算中心辽宁沈阳110142;2.北京工业大学计算机学院中国北京100124)

【摘要】近年来,机器学习已成功应用于模式识别领域,并且随着研究的深入,机器学习的相关算法和理论又得到了完善和扩展。

本文将阐述机器学习的基本概念,分析应用在模式识别领域的若干机器学习算法。

【关键词】机器学习;遗传算法;人工神经网络;支持向量机;k-近邻法

机器学习是人工智能研究领域的核心问题之一。

它的应用已遍及

人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。

机器学习顾名思义就是让计算机通过某种方法进行学习来提高其性能。

模式识别可以看成是让计算机将不同的事物划分为不同的类别。

人类通过不断学习加深对事物的认识,同样模拟人类智能的模式识别系统也需要通过机器学习算法的改进来提高其分类性能,因此机器学习和模式识别间的联系非常紧密。

本文将阐述机器学习的基本概念,分析应用在模式识别领域的若干机器学习算法。

1.机器学习

1.1机器学习的定义

机器学习目前的准确定义是:

对于某类任务T和性能度量P,如

果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,

那么称这个计算机程序在从经验E中学习[1]。

1.2机器学习系统的工作机制

参看图1的机器学习模型[2],环境向系统的学习部件提供某些信息,学习部件利用这些信息修改知识库,以增进系统执行部件的性能;执行部件根据知识库完成任务,同时把获得的信息反馈给学习部件,这个过程可以看成是机器学习系统通过内部和外部环境提供的信息(经验)来自动获取知识的过程。

图1机器学习的简单模型

1.3机器学习系统的设计

一个机器学习系统的建立主要考虑两部分:

模型的选择和建立;

学习算法的设计和选择。

不同的模型决定了不同的目标函数,也决定

了不同的学习机制。

算法的能力和复杂性决定了学习系统的学习能力

和效率。

同时训练样本集大小和特征选择问题也是制约机器学习系统

性能的关键因素。

2.机器学习算法在模式识别中的应用

模式识别(PatternRecognition)是指对感知信号进行分析,对其中的物体现象或行为进行判别和解释的过程。

模式识别过程如图2所示。

机器学习的核心问题是搜索问题。

针对不同的应用模型,研究者们设计了不同的搜索算法。

目前在模式识别领域,采用得比较多的有遗传算法、神经网络、支持向量机、k-近邻法等机器学习算法。

图2模式识别过程

2.1遗传算法

特征维数是困扰机器学习的一大难题,因为从一种模式中提出的

特征,反映事物本质的权重是不一样的,有些对分类结果无重大贡献,

甚至是冗余的,所以特征的选择过程是非常关键的。

遗传算法作为一

种寻优算法可以在很大程度上解决特征选择问题。

遗传算法可以选择

出那些既能反映原模式信息,又对分类结果有重大影响,且彼此间关

联性非常小的特征。

遗传算法是根据达尔文的自然界生物进化思想,将其灵活运用到

优化运算领域而产生的一种寻优算法。

它是由美国Michigan大学的

Holland教授于1975年提出的[3]。

遗传算法的基本方法是以种群中的个体为对象,对其进行选择、交叉和变异等遗传操作。

通过遗传操作使群体一代又一代地不断进化,最终得到最优的个体。

群体的进化首先从初始群体开始进行,在进化过程中,依据个体对环境的适应度从当前群体中选出优良的个体,使它们有机会作为父代繁衍子孙。

遗传算法的程序实现步骤如下:

1)选择编码策略,确定适应度函数和遗传策略。

遗传策略包括选

择种群大小和选择、交叉、变异方法,以及交叉概率、变异概率等遗传参数。

2)根据编码策略,把特征集转换成位串结构。

3)初始化群体。

4)计算群体中个体的适应度值。

5)按照遗传策略,运用选择、交叉和变异算子作用于群体,形成下一代群体。

6)判断群体性能是否满足某一指标,或已完成预定迭代次数,不

满足则返回步骤5或修改遗传策略后再返回步骤5。

遗传算法从提出至今,其4个基本要素:

编码策略;初始群体的设定;适应度函数的设计;遗传操作算子的设计,即选择算子、交叉算子、变异算子,一直是遗传算法研究者研究和改进的重点。

2.2人工神经网络

人工神经网络(ANN)是人脑及其活动的一个理论化的数学模型,它由大量的处理单元通过适当的方式互连而成,是一个大规模的非线性自适应系统[4]。

人们根据不同的应用,研究出了许多不同的神经网络。

迄今为止已有50余种神经网络模型,它们的区别主要在于网络的拓扑结构不同,神经元特性,学习和训练规则不同。

例如BP神经网络是应用最普遍的神经网络模型之一,它基于成熟并得到广泛应用的BP算法。

BP网络学习是典型的有导师学习,其学习算法采用Delta规则,BP网络实现了多层网络学习设想,其学习过程包括正向传播和反向传播两部分。

在正向传播过程中,给定网络的一个输入后,输入信息从输入层经隐含层逐层处理,并传向输出层,每一层神经元的状态只影响下一层神经元的状态,由输出层单元产生一个输出,这是一个逐层的状态更新过程,称为正向传播。

如果实际输出与期望输出的误差值不满足要求,那么就转入误差反向传播,将误差值沿原连接通路逐层反向传送并修正各层连接权值。

对于给定的一组样本,不断用一个个训练样本进行学习,重复正向传播和误差反向传播过程,当各个训练样本都满足要求时,BP网络训练完毕。

在模式识别应用中,用神经网络设计的分类器是由相对少量的神

经元按一定规律连接而成的网络体系,网络中的每个神经元均具有相

同的结构。

神经元一般表现为一个多输入、单输出的非线性单元,通用的结构模型如图3所示。

其中xi为输入信号;wi表示与神经元连接的权值,权值为正表示激活,为负表示抑制;Σ表示一个求和单元,用于求各输入信号的加权和(线性组合);f表示一个非线性激活函数,起非线性映射作用,用于将神经元输出值限制在一定范围内,一般限制在[0,1]或[-1,1]之间。

图3人工神经元

在神经网络分类器中输入量一般选择那些对输出影响大且能够

检测或提取的特征变量,此外还要求各输入变量之间互不相关或相关

性很小。

输出量代表系统要实现的功能目标。

如系统的性能指标,分类问题的类别等。

作为一种联结学习算法,神经网络的特点是:

信息的并行处理、分布存储及较强的容错性;自学习、自组织与自适用性。

通过训练,神经网络可以自动地调节它的网络结构参数,来模拟输入输出间的非线性关系,以适应外界环境的变化;一个三层的神经网络可以做任意函数的逼近器。

同时神经网络也存在一些缺陷,如网络结构需要事先指定或应用启发算法在训练过程中加以修正,而这些启发算法却难以保证网络结构的最优化;网络权系数的调整方法存在局限性;尽管采用梯度下降法,但有些神经网络还是易陷入局部最优,有些甚至无法得到最优解;训练样本集对分类性能影响非常大,样本集太小则训练不够,太大则会出现“过学习”现象。

目前研究者们多利用遗传算法优化人工神经网络的拓扑结构和学习参数,而且大量实践证明网络训练所需的样本数取决于输入输出非线性映射关系的复杂程度,映射关系越复杂,样本中含的噪声越大,为保证一定映射精度,所需要的样本数就越多,网络的规模也就越大。

训练样本集规模的经验规则是:

训练样本数是网络连接权总数的5~10倍;同时样本要有一定的代表性,并尽量使每个类别的样本数量大致相等,即使是同一类样本也要照顾样本的均匀性和多样性。

这样可以避免网络对样本数量多的类别印象深,出现次数少的类别印象浅。

2.3支持向量机

机器学习系统的训练样本集大小,对学习系统的泛化能力有很大

的制约。

如果样本集太小,训练的结果往往会产生“盲人摸象”的效果。

Vapnik于1992至1995年提出的支持向量机(SVM)理论很好地解决了这一问题。

与传统的特征空间降维策略不同,支持向量机通过引用核函数,将特征空间中的非线性问题映射到高维特征空间中,在高维空间中构造线性函数进行判别。

该方法是建立在统计学习理论基础上的机器学习方法。

通过学习算法,SVM可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器使类与类的间隔最大化,因而有较好的适应能力和较高的识别率[5]。

该方法由各样本类所在区域的边界样本的类别来决定最后的分类结果。

支持向量机是从线性可分情况下的最优分类面发展而来的,其基

本思想可用图4的两维情况说明。

图4中实心点和空心点代表两类样

本,H为分类线,H1,H2分别为过各类中离分类线H最近的样本且平

行于分类线H的直线,它们之间的距离叫做分类间隔。

所谓最优分类

线就是要求分类线不但能将两类样本正确分开(训练错误率为0),而

且使分类间隔最大。

对分类线方程进行归一化,使得对线性可分的样

本集(xi,yi),i=1,…,n,y∈{+1,-1},满足i=1,…,n条件下:

yi[(w·xi+b)-1]≥0

(1)

满足条件

(1)且使║w║2/2最小的分类面就叫做最优分类面,H1

和H2上的训练样本点就称作支持向量。

图4线性可分情况下的最优分类面示意图

支持向量机算法的本质是寻找一个最优超平面。

最优超平面不但

能将两类样本正确分开,而且使分类间隔最大,使分类间隔最大实际

上就是对模型推广能力的控制,这也正是支持向量机的核心思想所

在。

由于传统SVM是针对两类问题进行分类,而现实生活中需要解

决的多是多类别问题,所以很多学者对SVM进行了改进和推广。

目前

SVM多值分类算法主要有两种构造方法:

第一种方法是将多值分类

看作二值分类的组合,最终将多分类问题转化为二值分类问题;第二

种方法是通过修改目标函数从根本上解决SVM多值分类问题。

由于后者代价过高,只适用于小规模问题,所以目前多采用第一类方法。

另一方面,计算量大、训练速度慢、模型选择和参数的确定还没有成熟的理论方法已成为SVM不可回避的问题。

针对上述问题,各种改进的SVM分类方法正在不断提出。

例如为提高训练速度,有的训练算法结合块算法和分解算法的思想,让每次生成的训练样本集由违反KKT条件的样本和原训练样本集中的支持向量组成,同时限制训练样本集的规模,如果样本数超过限制数,则从样本集中删去部分边界支持向量,因为这些边界支持向量的值已被固定在边界处,从而不必参加训练过程。

训练结束的标准不仅看测试结果,还要看SVM的间隔值,即║w║值是否最小,从而保证最优分类面接近真正意义上的最优。

2.4k-近邻法

k-近邻法(k-nearestneighbor)是一种应用广泛的基于实例的、无指导的学习方法,可用于线性不可分的多类别样本识别。

它的优点是事先并不要求知道待分样本的分布函数。

目前广泛使用的k-近邻法

是以待分类样本为中心做超球体,逐渐扩大超球半径直至超球内包含

k个已知模式样本为止,判断这k个近邻样本中多数属于哪一类,就把待分类样本归为哪一类。

分类算法描述如下[6]:

假设有c个类别w1,w2,…,wc,i=1,2,…,c。

测试样本x和与其最近的样本之间的距离为

gi(x)=mink‖x-xki‖

(2)

k=1,2,…,ni,其中xki的下标i表示wi类,上标k表示wi类ni个样本中第k个样本。

在超球半径r≥mingi(x)的前提下,求

L=argimaxki(3)

ki(0

上述方法的弱点就是,半径r的选取十分困难。

r值过大,超球体的覆盖面积广,会导致其它类样本被错误的覆盖,从而加大样本的误识率。

反之若r值过小,则不能完全覆盖该类别中可能的样本点。

并且近邻点具有相似的预测值,所以该方法易受噪声影响,尤其是样本点中孤立点的影响。

同时k值的选取也会影响到分类结果。

因为k值的选取是根据每类样本的数目和分散程度选取的,对不同的应用选取的k值也不同[7]。

一种改进的设计思想是在k值选定的情况下,对近邻点的搜索区

域进行合理的定位,即全局到局部,同时还要保障分类结果的准确性。

方法是首先将样本空间的样本点进行小规模有目的性的聚类,聚类后

样本空间中样本分布的区域被划分成,若干个半径一定的小超球体。

如果能保证超球体内主体类样本数远远大于杂质类样本数,那么搜索

时就可根据其条件将搜索范围缩小到某些超球体内,(下转第60页)

centerbgcolor=#f2f2f2>

tr>

3.2目录条件收放本系统设计了一个具有分模块动态展开和分

用户权限显隐的超链目录,如图3所示,其对应的主要ASP脚本如下:

农户信息管理

<%ifsession("quanxian")="1"orsession("

quanxian")="2"then%>

="mainFrame">农户基本信息(增加)

="mainFrame">新年度农户信息生成

<%endif%>

="mainFrame">农户基本信息(浏览)

<%ifsession("quanxian")="2"then%>

="mainFrame">农户基本信息(编辑)

<%endif%>

地区信息管理

系统管理

修改密码

退出系统

3.3动态统计图设计

统计图有多种类型,如:

柱型图、条型图、折线图、饼图、以及面积图等。

实际应用中可根据统计参数的数量及其之间的对应关系,同时兼顾同类信息密集度,选择一种最直观、清晰显式效果。

本系统中设计了一种折线统计图,如图4所示。

该图能够根据实际年份的多少动态排列横坐标,并且动态调整水平参考刻度的刻度值。

图4折线统计图

该统计图的主要ASP脚本及HTML标记是:

<%'趋势画线,分数标注

Recordset1.movefirst

dowhilenotRecordset1.eof

line=line+1

'趋势画线

x1=116+(850-116)/Recordset1_total*r

y1=490-CInt(Recordset1.Fields.Item("gggj").Value)*350/CInt

(Recordset1A.Fields.Item("Maxgggj").Value)

ifline>1then

lx=x1-x0

ly=y1-y0

l=sqr(lx*lx+ly*ly)

forI=0tolstep2

p=I/l

px=x0+lx*p

py=y0+ly*p

response.write"

1;position:

absolute;left:

"&px&"px;top:

"&py&"px;

border='0'cellpadding='0'cellspacing='0'

width=2>

"

next

endif

'方块

response.write"

2;position:

absolute;left:

"&x1-20&"px;top:

"&478-CInt(Recordset1.Fields.

Item("gj").Value)*350/CInt(Recordset1A.Fields.Item("Maxgj").Value)&"

px;border='1'width=50bordercolor='#FF0000'>

'center'>"&Recordset1.Fields.

Item("gj").Value&""

Recordset1.movenext

r=r+1

loop%>

(上接第38页)在这些超球体内寻找待分样本点的k个近邻点。

3.结论

机器学习在某种程度上可以理解成,对应于任何一种模型所定义

的假设空间,核心技术就是如何用其学习算法在对应的假设空间中进行搜索,搜索的过程也就是学习过程。

在模式识别应用中,由神经网络或支持向量机、k-近邻法构造的分类器就是在假设空间中的假设与样本集有相同性质的前提下,将样本集映射到假设空间中,寻找一个定义在这个假设空间上的决策面,使得不同类别的样本尽量分布在不相交的区域。

4.结语

农产品成本分析对于领导制定相关农业政策具有重要的指导意

义,本文开发的基于B/S和C/S结构农产品成本分析系统,充分利用

ASP动态网页技术和数据库开发技术,较好实现了农产品的多元化成

本分析,为领导制定相关政策提供重要保障。

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1