原创数据挖掘课程论文支持向量机算法及其在个人信用评估中的应用研究附数据代码文档格式.docx

资源描述

原创数据挖掘课程论文支持向量机算法及其在个人信用评估中的应用研究附数据代码文档格式.docx

《原创数据挖掘课程论文支持向量机算法及其在个人信用评估中的应用研究附数据代码文档格式.docx》由会员分享，可在线阅读，更多相关《原创数据挖掘课程论文支持向量机算法及其在个人信用评估中的应用研究附数据代码文档格式.docx（16页珍藏版）》请在冰豆网上搜索。

原创数据挖掘课程论文支持向量机算法及其在个人信用评估中的应用研究附数据代码文档格式.docx

选题的难易程度；

清楚了解专业背景

12345

知识水平

对课程所讲授的理论知识熟练掌握，正确运用；

理论掌握的深入程度

论文表述

主题突出，观点明确，论据充分，结构合理，层次清楚，语言通顺，文字简练，无错别字

结论与创新

结论表述清晰，推导合理，意义明确，有理论或应用上的指导性价值；

研究方法有创新，或改进了现有成果（建议在论文中直接提及）

参考文献

格式排版

文献引用合理充分；

参考文献格式正确；

严格遵守论文格式及排版要求

是否达到本课程小论文要求：

是（）否（）

论文成绩：

任课教师：

评阅日期：

2014年6月

支持向量机算法及其在个人信用评估中的应用研究

摘要：

建立完善的个人信用评估体系是当今社会经济发展的重要环节，而个人信用评估技术又是个人信用评估体系的关键问题。

支持向量机算法作为数据挖掘的十大算法，其在各领域的研究均占有一席之地。

在此背景下，本文首先介绍统计学习算法，然后阐述支持向量机的理论发展过程。

最后将支持向量机算法引入到个人信用评估中，建立了基于支持向量机的个人信用评估模型。

在MATLAB平台下，运用经典的信用数据集对算法进行了实验。

关键字：

支持向量机;

算法;

个人信用;

评估

1引言

随着商业银行个人信贷业务的不断开展，个人信用评估的重要性日益加强。

个人信用评估是商业银行个人金融业务开展及信贷审批的关键环节，是个人信用风险管理的核心[]。

以主观判断和定性分析为主的个人信用评估模式存在着效率低、成本高、准确性低等缺点，已不能满足商业银行个人零售业务快速、多样化发展的需要，引入定量化、自动化的个人信用评估系统，是商业银行加快业务发展，提高整体竞争力以及经营效益的迫切需要。

相比于企业信用的评级，商业银行对个人信用评估方面要明显薄弱，评估的方法存在着不同程度的缺点。

对个人信用进行科学量化，建立起完善的个人信用评估体系，是商业银行当前的主要工作之一。

商业银行通过对个人信用的科学评估，可以准确了解个人的信用状况，从而正确识别信用风险，提高交易效率，促进信用资源的优化配置[]。

个人信用评估是指通过使用科学严谨的分析方法，综合考察影响个人及家庭的内在和外在的主客观环境，并对其履行各种经济承诺的能力进行全面的判断和评估[]。

传统的信用评估采用经验判别法，主要由信用分析师或者信贷员通过审查借款人的信用信息，根据个人的经验来判别借款人的还款意愿和还款能力。

随着信用行业的发展以及贷款组合种类的不断增加，探索出现代的基于计算机、统计学、人工智能等的评估方法，通过运用样本数据库中的客户的特征、信用历史、交易行为等基本信息进行分析，进而挖掘出个人信用风险的特征，构建出数学模型来预测贷款人未来的行为，并综合评价客户的信用状况。

信用评估问题可看做是判别问题或是分类问题，不同的学者运用统计学方法、非统计学方法、人工智能等对信用进行评估，统计学方法包括线性回归、非线性回归、近邻估计等，非统计学方法包括线性规划、神经网络、遗传算法、专家系统等。

朱应德（2003）[]等提出基于遗传算法神经网络的个人信用评估模型，主要思想是在标准遗传算法和Solis&

Wets算法的混合算法的基础上，优化神经网络的结构和权重或是阈值系数，针对模型实际应用问题，进行仿真实验，提出解决方案。

毛军权（2008）[]提出应用模糊综合评价法对个人信用进行评估，并通过实例分析，对该模型进行了说明。

姜明辉（2004）等[]提出将k-近邻判别分析法的方法运用于个人信用评估中，并确定了相应的评估指标体系，建立了数学模型，对模型进行了验证。

数据挖掘是目前人工智能和数据库领域的研究热点问题，所谓数据挖掘是指从数据库的大量数据中解释出隐含的、未知的并有潜在价值的信息的过程。

数据挖掘主要基于的是人工智能、机器学习、模式、统计、数据库、可视化技术等，高度主动分析数据，作出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，降低风险，从而做出正确决策。

数据挖掘是一种决策支持的过程，而支持向量机被国际上数据挖掘领域的十大算法，足见其在数据挖掘领域的地位。

实际上，支持向量机是在统计学习理论的基础上发展起来的一种算法，近年来对其的研究主要是从本身的性质出发，进行研究和完善，从横向和纵向两个角度进行延展。

本文主要研究将支持向量机应用于个人信用评估中，基于此，将对支持向量机的基本理论进行详细阐述，了解支持向量机的内涵，并采用实验对该算法进行实现。

2支持向量机（SVM）算法概述

2.1统计学习理论

统计学习理论是一种专门研究小样本情况下及其学习规律的理论。

该理论针对小样本统计问题建立了一套新的理论体系，在该体系下的统计推理规则不仅考虑了对渐近性能的要求，而且追求在现有有限信息的条件下得到最优结果。

与处理大样本的经典方法不同，对有限样本的学习，过去基本是基于经验风险最小化原则在训练数据上最小化训练错误，即最小化经验风险。

统计学习理论建立于上世纪60至80年代，它提出及其学习的问题时依据经验收选取所期望的依赖关系，也就是通过小样本的统计学问题寻找未知依赖关系所属的函数集[]。

统计学习理论中的核心概念是VC维，主要刻画了给定的函数可以打散的类别的数目，简而言之，它描述组成学习模型的函数集合的容量，刻画了此函数集合的学习能力[]。

根据VC维的内涵，VC维越大，意味着学习机器越复杂，即学习能力越强。

然而，当实际样本趋于无穷大时，训练阶段仅考虑有限个样本数的经验风险最小化的方法往往存在一定的片面性，用来必经期望风险是不可行的[2]。

因此，统计学习理论系统研究了各类函数集的经验风险（即训练误差）和实际风险之间的关系，提出推广误差边界，从而克服了经验最小化的缺点。

关于两类分类问题，统计学习理论有以下结论：

对指示函数集中的所有函数，经验风险和实际风险之间至少以概率1-

，满足如下关系：

（1）

其中，

（2）

表示经验风险；

称为置信风险；

l是样本个数；

参数h称为一个函数集合的VC维。

从式

（1）可以看出，在有限训练样本下，学习机器的VC维越高，则置信范围越大，导致真实风险与经验风险之间可能的差别越大，即产生“过学习”现象。

基于此，统计学习理论提出解决该问题的方法。

首先，将函数集合{f（x,a）,a

}结构化，分解为一个函数子集序列：

（3）

其中，Sk={f（x,a）:

}

各子集能够按照

的大小排列，即按照VC维的大小排列：

（4）

如果给定一组样本，结构风险最小化原理在函数子集

中选择一个函数f（x,

）来最小化经验风险。

结构风险最小归纳原理是统计学习理论提出的一种运用于小样本学习问题的归纳原理，它包括了学习过程的一致性、边界的理论和结构风险最小化原理等部分。

结构风险最小化，即SRM准则的实现由两种思路，一是在每个子集中求最小经验风险，然后选择最小经验风险和置信范围之和最小的子集[]，但当子集数目较大，此方法较费时，甚至是不可行的。

二是构造函数集合对的某种结构，使得在其中的个函数子集均可以取得最小的经验风险，然后，在这些子集中选择适当的子集使置信范围最小，则这个子集中经验风险最小的函数就是最优函数。

而这就是支持向量机的所采用的方法。

2.2支持向量机（SVM）理论

支持向量机是由Vapnik等人提出的一种新的机器学习理论，集成了最大间隔超平面、Mercer核、凸二次规划、稀疏解和松弛变量等多项技术，其主要借助于最优化方法来解决机器学习问题。

支持向量机是建立在统计学习理论VC维理论和结构风险最小化原理基础上的机器学习方法，它在解决小样本、非线性和高维模式识别问题中表现出许多特有的优势，并在很大程度上克服了“维数灾难”和“过学习”等问题[5]。

支持向量机可看作一种广义的线性分类器，其基本思想是：

通过非线性变化将输入空间变换到一个高维的特征空间，并在新空间中寻找最优的线性分界面[2]。

通过定义最优线性超平面，并把寻找最优线性超平面的算法归结为求解一个凸规划问题，进而基于Mercer核展开定理，通过非线性映射，把样本空间映射到一个高维乃至于无穷维的特征空间，使其在特征空间中可以应用线性学习机的方法解决样本空间中的高度非线性分类和回归等问题[]。

由于该理论具有全局最优、结构简单、推广能力强等优点，近些年得到了广泛地研究并被应用于数据分类、模式识别等领域。

由于大多数的多类分类问题最终都可以转化为两类分类问题，因此支持向量机的原始问题也只涉及两类分类问题。

支持向量机通过对待分类数据进行用核函数定义的非线性特征映射

，将其将其映射到某一更高维特征空间D中，从而能够线性可分，然后在新特征空间$中构造（广义）最优分类面，形成样本分类的决策规则[]。

支持向量机最初是在模式分类中提出的，通过核函数K（x,y）巧妙地解决了由于特征空间的维数非常高导致的计算复杂问题。

支持向量机理论是从线性可分的情况下的最优类面提出的，其基本思想可由两类线性可分的情况来说明（见图1）。

图1：

最优分类面示意图[]

图1中实心点和空心点分别表示两类训练样本，H1、H2分别为过各类样本中离分类线最近的点且平行于分类线的直线，H1和H2之间的距离叫做分类间隔。

推广到高维空间，最优分类线就成为最优分类面。

由统计学习理论知,如果训练样本集没有被超平面错误分开，并且距超平面最近的样本数据与超平面之间的距离最大,则该超平面为最优超平面。

以两类数据分类为例，给定训练样本集

，存在超平面

为使分类面对所有样本正确分类并且具备分类间隔，就要求它满足如下约束：

，

。

最优超平面的求解需要最大化

，即最小化

，转变为二次规划问题：

在约束下的求解。

采用拉格朗日乘子求解这个具有线性约束的二次规划问题，即

（5）

为拉格朗日乘子，最终得到对偶优化问题：

（6）

最优化求解得到的

中，可能是等于0或是在0到C之间或是等于C。

而后两种

情况所对应的

为支持向量。

实际上只有支持向量对

有贡献，也就是对最优超平面、决策函数有贡献。

根据KKT条件，在最优点，拉格朗日乘子与约束的积为0。

最优分类函数为：

（7）

对于线性不可分的情况，支持向量机主要是将输入向量映射到一个高维的特征向量空间，并在该特征空间中构造最优分类面[5]。

在非线性的情况下，分类超平面为：

，决策函数为

，最优超平面问题为：

（8）

从而得到对偶优化问题，以特征向量

代替输入向量x，则可以得到最优分类函数：

（9）

3支持向量机算法的研究进展

3.1支持向量机算法的提高

支持向量机自提出后，由于其完整的理论框架，在机器学习领域受到广泛的重视，其理论和应用在横向和纵向上都有一定的发展。

目前，大量关于支持向量机的研究主要集中在设计快速的算法解决大规模数据分析问题、新模型探索以改进支持向量理论和技术、核函数的设计和选择、多分类器组合技术以及新知识探索与发现等领域。

从支持向量机原理可知，在分析和处理大规模数据集时，影响其算法效率的主因素是核函数矩阵、对偶问题求解和特征维度较高等问题，因此大量研究集中于这几个方面寻求效率的提升。

在算法的提高方面，Vapnik（1992）[]于1992年提出一种称为“chunking”的块算法，它的出发点是删除矩阵中对应的Lagrange乘数为零的行和列将不会影响最

展开阅读全文