结合支持向量机的特征选择方法在信用评估中的应用外文翻译.docx
《结合支持向量机的特征选择方法在信用评估中的应用外文翻译.docx》由会员分享,可在线阅读,更多相关《结合支持向量机的特征选择方法在信用评估中的应用外文翻译.docx(12页珍藏版)》请在冰豆网上搜索。
结合支持向量机的特征选择方法在信用评估中的应用外文翻译
外文翻译之一
CombinationoffeatureselectionapproacheswithSVMincreditscoring
作者:
Fei-LongChen,Feng-ChiaLi
国籍:
Taiwan,ROC
出处:
ExpertSystemsWithApplications
原文正文:
结合支持向量机的特征选择方法在信用评估中的应用
作者:
Fei-LongChen,Feng-ChiaLi
国籍:
Taiwan,ROC
出处:
ExpertSystemswithApplications
中文译文:
摘要
信用评级已成为一个重要课题,相关部门都在努力收集大量的数据以避免做出错误的决定。
一种有效的分类模型可代替直觉的经验客观地帮助管理者进行决策。
本研究在保留足够的特征信息条件下,提出了四种与支持向量机相结合的特征选择方法。
利用这四种方法进行属性选择可以构建各种不同的模型。
两个UCI(美国加州大学尔湾分校)的数据集被用来评估各种混合SVM模型的精度,并利用支持向量机分类器与传统的统计LDA、决策树、粗糙集、F-score相结合,进行特征数据的预处理,删除不相关和冗余的信息以优化特征空间。
在本文里,我们将会对所提出的方法步骤加以描述,并通过他们的分类性能进行评估。
最后我们将对结合支持向量机的各种模型的分类结果进行比较,利用非参数Wilcoxon符号秩检验显示这些模型之间是否具有显著性差异。
本研究结果表明,混合的信用评估方法是一种寻找最优特征子集的最为稳健的方法,也是数据挖掘领域中很有前途的方法。
关键字:
支持向量机、线性判别分析、决策树、粗糙集理论、F-度量
1、简介
消费信贷预测在信贷行业里是一个非常重要的问题。
信用评级模型在这个领域里快速增长,被广泛应用于信贷准入评估。
信用评级模型的开发是根据以往客户的记录,即他们的相关属性诸如收入、婚姻状况、年龄或其他属性来区分哪些是优质客户(接受贷款)或者是不良客户(拒绝给予贷款)。
在过去的几年里,大多数信用评级模型常通过减少冗余的特征,以改进信用评级的准确性。
DashandLiu(1997)对当前存在的基于特征选择的方法进行了综述,并认为特征选择过程由四部分组成,包括特征生成、特征评价、停止准则和测试。
常用的评价指标诸如准确度,信息含量,距离和相关性等常被用来去除无关的特征。
人工智能与机器学习技术可用来解决这些决策问题,现代数据挖掘技术已经用于建立信用评分模型(Huang,Chen,&Wang,2007)。
研究人员已发展各种各样的传统统计方法,其中涉及线性判别方法(Bellotti&Crook,2008;Lee&Chen,2005;Thomas,2000)、决策树方法(Huang,Tzeng,&Ong,2006)、粗糙集理论方法(Caballero,Alvarez,Bel,&Garcia,2007)、F-score方法(Chen&Lin,2005)和遗传规划方法(Ong,Huang,&Tzeng,2005)。
最近,研究人员又提出了混合的数据挖掘方法对有效的信用评级模型进行设计。
Lee和他的同事们(Lee,Chiu,Lu,&Chen,2002)整合神经网络与传统的判别分析法,以及Chou(Chou,Lin,Liu,&Chang,2006)应用机器学习方法(如ANN、DT和支持向量机)来解决决策问题。
一般来说,信用评级可视为将观察数据分类到预先定义组的二元分类问题。
以前的研究主要集中在增加信用评级模型的准确率上。
然而,即使一点点的改善也会引起显著的成本节约。
根据先前的研究,机器学习方法在处理信用评级问题上均优于传统方法,特别是非线性模式分类。
对传统的统计分类,都存在假设一个潜在的概率模型。
而最近发展起来的数据挖掘技术不存在这样的限制条件,可以实取得优于传统统计分析方法更好的预测性能(Huangetal.,2007)。
特征子集选择算法可以分为两类:
过滤式方法和封装式方法(Liu,1998)。
过滤式方法首先是选择重要的特征子集。
过滤式方法的特点是独立于任何学习算法,仅依赖于训练数据总体特性的各种度量,如距离、信息含量、相关性和一致性。
封装式模型通常使用预先确定的学习算法,根据预测精度来确定所选择的特征子集。
但当这些学习算法用来计算大量的特征数据时,所需要的成本是非常昂贵的(John,Kohavi,&Pfleger.,1994)。
一般来说,过滤方法速度快,可以用来作为减少特征空间维数和过度拟合的预处理步骤。
另一方面,封装方法在寻找相关有用的变量子集上可以表现的更好(Guyon&Elisseeff,2003)。
然而,众所周知的是这个问题非常困难(Amaldi&Kann,1998),快速搜索难以计算。
在本研究中,过滤方法和封装方法将都被使用。
与SVM分类相结合的特征选择方法可以进行更好的分类。
在设计混合的支持向量机分类器之前,必须先选择一个核函数。
寻找最佳的惩罚参数C和核函数参数γ,格点搜索算法是一种合适的程序。
为了比较不同的信用评级模型,本文试图将整体研究分成基本的支持向量分类器和四个基于SVM的特征选择方法,即
(1)利用格点搜索优化模型参数,但不进行特征选择;
(2)利用LDA,RST,DT和F-score方法进行特征选择,然后用格点搜索优化选择模型参数。
本文组织如下:
第二部分和第三部分分别叙述结合支持向量机的特征选择算法这四个策略和基本支持向量机的概念,第四部分根据两个实际数据集给出实验结果,第五部分给出评论并提供相应的结论。
2、特征选择方法的基本概念
线性判别分析(LDA)最初是由Fisher提出的一个著名分类技术(Fisher,1936).LDA一直被视为处理分类问题的数据挖掘技术,可降低变量的维数从而减少特征的数量。
但LDA仅仅通过原始数据的线性变换组合成新的变量子集,而不是从原始特征空间中直接消除不相关或冗余的变量。
因此,线性判别分析方法提供了一种理解数据的新方式,但不能够减少原有特征的数量(Li,2006)。
LDA可以表示如下:
其中y代表区别分数,
为截距,
(i=1,...,n)为与解释变量
x
(i=1,2,…,n)对应的
系数。
LDA是一种传统的统计方法,在信用评级上的准确率被视为是其他现代分类方法的基准。
这个简单的参数化模型是历史上第一个出现的信用评级模型。
然而,优质和不良客户类的协方差矩阵关于真实的信贷数据可能是不平等的。
研究人员正在研究混合模型以克服LDA模型的缺陷,其中一个好的例子就是基于支持向量机的信用评级模型。
……
支持向量机(SVM)是由Vapnik等人首先提出的一个功能强大的分类工具(1995年)。
最近,它也被用来解决现实世界中的一些问题,如信用评级(Huangetal.,2007;Martens,Baesens,VanGestel,&Vanthienen,2007;Schebesch&Stecking,2005),、手写字符识别(Camastra,2007;Chouetal.,2006;Sun,Wang,Lim,&DeJong,2007)、疾病分类诊断(Choetal.,2008;Huang,Liao,&Chen,2008;Su&Yang,2008)等。
支持向量机基于结构风险最小化(SRM)的原则,力求最大限度地降低泛化误差的上界。
支持向量机的独特优势在于它可以从理论上分析计算学习理论的概念,并同时实现良好的性能。
一般地,利用训练数据估计出分类问题的判决函数。
函数描述如下:
f:
R
{1,-1},表示
个N维模式X
与类标签Y
之间的一种映射,其中
根据公式(5),支持向量机分类器应该满足以下条件:
这等价于如下方程。
其中非线性函数
将原始空间映射到高维特征空间,超平面可由下面的等式构建起来。
如图2所示,问题的两类将通过最优超平面区别。
图2是二维空间中一个线性可分问题的例子。
为避免大的数值范围控制了小的数值范围,对数据尺度变换进行预处理是必要的。
而且数据预处理还可以避免数值计算过程中的困难,提高准确性。
可以通过归一化方程(10)将每个变量值以线性的方式缩放在[0,1]的范围内,其中
是原始值,
是缩放值,
是最大值,
是最小值。
……
5、结论
特征选择过程涉及确定特征子集的最高预测精确度,或者寻求可接受精度的最小特征子集。
本研究基于一定数量的特征前提下,在精度和特征数量之间达成了平衡。
在本研究中,数据降维的预处理步骤是先于改善整体分类性能的分类过程的。
我们还描述了四种特征选择方法,揭示出关键的特征以及这些特征如何影响信用评级模型。
更少的特征意味着相关部门只需集中精力关注相关的和重要的变量因素,这样可以减少信用评级人员的工作量,因为他们在评估过程中不需要考虑大量的特征,降低了计算强度。
特征选择在分类领域中是一项重要的任务。
本文给出了基于支持向量机的特征选择的混合方法的比较,选取出大部分相关的有用特征而删除那些不相关的特征。
与此同时,这不仅能减少变量的数目,还能消除噪声的输入。
研究结果表明,混合特征选择方法的预测命中率都高于那些单一的方法,尤其是当两部分实例相当的时候(澳大利亚数据集)。
另一方面,实验结果主要由数字决定。
在将来的研究中,不同类型的数据集可分成不同的比例(1:
1、1:
2,2:
1)以获得更高的准确率。
此外,本文提出的方法中所选择的最相关的变量也许不是最优的,对于构造一个好方法来说可能是多余的。
虽然封装式方法在计算大量的数据时所花费的成本是昂贵的,但是它可能更好地找到有关变量的子集。
在这个领域未来的工作里,还可发展信用评估的启发式算法。
很多有效的封装式特征选择方法,如遗传算法(GA)、模拟退火(SA)、蚁群优化(ACO)和粒子群优化(PSO)的开发也是值得尝试的。
外文翻译之二
Comprehensiblecreditscoringmodelsusingruleextractionfromsupportvectormachines
作者:
DavidMartens,BartBaesens,TonyVanGestel,JanVanthienen
国籍:
Belgium,UnitedKingdom,Belgium,Belgium
出处:
EuropeanJournalofOperationalResearch
原文正文:
可理解的使用规则提取支持向量机的信用评分模型
作者:
DavidMartens,BartBaesens,TonyVanGestel,JanVanthienen
国籍:
Belgium,UnitedKingdom,Belgium,Belgium
出处:
EuropeanJournalofOperationalResearch
中文译文:
摘要
近年来,支持向量机应用广泛。
然而,分类器通常描述为一个复杂的数学函数,难以让人理解。
当既要求准确度又有可理解性的时候,这种不透明度阻碍了他们在许多现实生活中的应用,如医疗诊断和信用风险评估。
为了克服这种限制,人们认为支持向量机的规则提取可以保持尽可能多的准确性。
在本文中,我们将简单地描述近日提出的支持向量机规则提取技术,并介绍两个面向人工神经网络的提取技术,Trepan和G-REX。
利用公开的现有数据集对这些技术进行对比,如Ripley数据集、多类的iris数据集等。
我们也考虑医学诊断和信用评估中可理解的一个关键问题,甚至提出建议。
我们的实验结果表明,支持向量机规则提取技术与支持向量机本身相比在性能上仅仅损失了一个很小的比例,因此,在可理解的分类技术上的排名处于领先地位。
关键字:
信用评估、分类、支持向量机、规则提取
1、简介
支持向量机是一种广泛应用于众多领域[8]的新兴的数据挖掘技术,如信用评估[2]、金融时间序列预测[14]、垃圾邮件分类[9]、脑部肿瘤分类[19]等。
这种技术的优势在于其复杂的数学模型的非线性能力,而这种优势又恰恰是他的主要缺点:
该模型拥有比其他数据挖掘技术更高的准确率,但是他们的可理解性是有限的。
在某些领域中,如信用评估,缺乏这种理解性是一个很大的缺点,有些人甚至不愿使用这种模型[10]。
更深入一步来说:
《美国公平信贷机会》法案要求金融机构提供详细的拒绝客户信贷的理由,不明确的拒绝是非法的。
在医疗诊断领域,清晰性和诠释性是关键的制约因素。
为保准支持向量机的精度,又可挽救生命和节约资本,可从黑盒的SVM模型中中提取规则。
这些规则是可解释的,并尽可能保持和黑盒模型一样高的准确度。
有两种规则提取的方法:
分解法和教学法。
分解法与SVM的内部结构紧密相联,而教学法则是与模型的输入和输出直接相关的规则提取。
虽然人们已经
广泛地研究过神经网络的规则提取(a.o.[1,3]),但是却很少研究支持向量机的规则提取。
由于教学技术通常将训练模型作为标准对训练样本进行标注,教学神经网络规则提取为支持向量机的规则提取提供了支持,与人工神经网络不同的是,他不受局部最优的权重空间影响,而且模型的选择只局限于惩罚参数和核参数的选取。
简化复杂的SVM模型还有其他的方法,如灵敏度分析[17]和逆分类[20],但是没有和规则抽取技术相同的诠释性。
……
3、规则提取技术
在实验模型中提取出符号规则可以增加理解性,规则提取技术试图打开支持向量机的黑盒,并产生与模型本身大致相同的带符号与可理解的描述。
从支持向量机出发提取规则的优点是支持向量机把输入的分类作为一个群体,而决策树算法如则每次度量一个输入的分类贡献。
Andrews等人[1]在神经网络规则提取技术的基础上,提出一个容易扩展到支持向量机并满足下列条件的分类计划:
(1)、基于神经网络的提取算法的半透明。
(2)、提取规则或树的表达能力。
(3)、神经网络的特定训练体系。
(4)、提取规则的质量。
(5)、提取算法的复杂性。
半透明准则考虑支持向量机的技术的感知度。
分解法与支持向量机的内部运作密切相关,因此要特别利用支持向量或决策树。
另一方面,教学法把实验模型看做黑盒,这些算法不需要关注内部结构,也就不需要利用支持向量或决策树,而是使用支持向量机模型定义的输入输出直接进行规则提取。
这些技术一般都采用训练出来的SVM模型标注或分类(人工生成)训练样本。
这些技术的前提是假设实验模型比原始数据集更能体现数据。
也就是说,这些数据更加清晰,更能避免冲突。
因为模型被视为黑盒子,大部分教学算法支持其他的机器学习算法的规则提取。
我们可以推断基于神经网络的规则提取会影响基于支持向量机的规则提取。
分解法和教学法的区别如图Fig.2.所示。
规则提取的表达能力取决于规则所用的语言的表达能力,目前已经提出了很多类型的规则。
最具代表性的规则类型主要有命题规则(simpleIf...Then...expressions),M-of-N规则(IfatleastMofNconditions(C1,C2,...,CN)Then...)和具有更多灵活性的模糊规则。
表格Table1简单描述了各种SVM规则提取技术的半透明性和规则的表现力。
我们将从准确性、保真度和提取规则这三个方面评价规则提取技术。
准确度可以衡量正确预测得到的样本的比例,也反映预测以往案例的准确度。
保真度决定了分类器和提取规则达成一致的类标签的比例。
……
为了评估与比较之前描述的规则提取技术,我们用数据集来测试一下。
我们测试了Ripley的数据集[26]有两个变量,因此可以进行模型可视化和规则提取。
以可理解性为主要条件的领域中,我们还对常用UCI数据仓库数据集[15]中的虹膜数据集、乳腺癌、澳大利亚的信用评级数据集和现实生活中破产的数据集进行测试。
我们还使用了传统分类技术为基准所产生的规则,包括算法(实际数据)和logit回归模型。
为了得到一个公平的结果,我们利用以下设置对每个数据集都运行了20次。
首先,随机地排列数据,每个测试集都以2:
1的比例筛选。
其次,用RBF内核和支持向量机模型的格点搜索方法来确定参数r和c。
提取规则时用实际试验数据和实验支持向量机模型做预测。
在修改过的实验数据上进行训练,即将类标签改为支持向量机预测的标签。
同样地,G-REX也是运行修改后的数据集。
然后实际和修改的测试被用来确定所生成规则的准确性和保真度。
……
我们的实验包括了两个信用评级数据集。
第一个是澳大利亚的信贷数据集[15],涉及信用卡申请。
基于保密,所有属性的名称和变量已改为无意义的符号。
第二个信用评级数据集来自比荷卢经济联盟(比利时、荷兰、卢森堡)[12]破产的中等市值公司(中型公司)。
中型公司的定义如下:
他们不是股票上市的,。
如图Fig.6所示,Bene-C数据集的Trepan树的准确率为87.9%,保真度为90.5%。
……
4.5医疗诊断
WisconsinDiagnostic乳腺癌的数据集,这个任务包括乳腺肿块归类为良性或恶性。
为此,列出了9个相关的属性。
我们的实验表明,支持向量机的的性能更高(平均精度达到96.3%),但是他们缺乏明确性,对医生来说谁需要诊断不够明确。
另一方面。
规则提取可以提供可理解的指导方针并保证较高的性能。
对于Fung等人提出的技术,所用的规则[11]如下:
if(CellSize63)&(BareNuclei61)&(NormalNucleoli67)thenbenign,判断为为良性肿瘤准确度达到95.2%。
SVM+Prototype也被应用于诊断乳腺癌的数据集[22],这个方程式规则的准确度为96.6%,保真度为98.5%。
……
5、结论
规则提取技术生成的分类模型拥有明显的优势。
首先,他们是可理解的,因此很容易应用于现实生活中的各个分类场合。
其次,黑盒模型规则提取只失去很小比例的准确度。
由于支持向量机在分类器中名列前茅,支持向量机规则提取的精确性往往已经超过了传统的方法,例如和logit。
利用支持向量机模型取代原始数据点消除了明显的冲突,并创建了一个更清晰的数据集。
在我们的实验中,基于支持向量机的规则算法所预测的标签数据甚至优于一般的规则算法所生成的实际类标签数据集。
这些优势使他在同时需要准确性和可理解性的领域中可以适当地补充支持向量机,是一个不满足于传统的理解,但不太精确的分类方法。
众所周知,支持向量机能够在具有较少样本的高维数据集上表现很好。
我们实验所用的数据来自于零售业和企业,可获得的数据相对于输入维数是足够大的,因此,信用评估问题并不是一个高维问题。
支持向量机规则提取的研究在高维信用评估环境下,将会很有意思。