代价敏感决策树DOCWord文档格式.docx

资源描述

代价敏感决策树DOCWord文档格式.docx

《代价敏感决策树DOCWord文档格式.docx》由会员分享，可在线阅读，更多相关《代价敏感决策树DOCWord文档格式.docx（15页珍藏版）》请在冰豆网上搜索。

代价敏感决策树DOCWord文档格式.docx

在这个领域中，最常用的欺诈检测方法有规则归纳技术，决策树，人工神经网络（ANN），支持向量机（SVM），逻辑回归以及诸如遗传算法的启发式算法。

这些技术可以单独使用，也可以通过集成以及元学习技术协同使用来构建分类器。

大多数信用卡欺诈检测系统在使用监督算法，比如神经网络（Brause,Langsdorf,&

Hepp,1999;

Dorronsoro,Ginel,Sanchez,&

Cruz,1997;

Juszczak,Adams,Hand,Whitrow,&

Weston,2008;

Quah&

Sriganesh,2008;

Schindeler,2006;

Shen,Tong,&

Deng,2007;

Stolfo,Fan,Lee,Prodromidis,&

Chan,1997;

Chan,1999;

Syeda,Zhang,&

Pan,2002;

Prodromidis,Chan,&

Stolfo,2000），ID3、C4.5和C&

RT一类的决策树技术（Chen,Chiu,Huang,&

Chen,2004;

Chen,Luo,Liang,&

Lee,2005;

Mena,2003;

Wheeler&

Aitken,2000）以及支持向量机（GartnerReports,2010;

Leonard,1993）。

信用卡欺诈检测是一个非常困难，但也很受欢迎的亟待解决的问题。

总是仅有有限数量有关犯罪交易的数据。

同时，也有可能存在诈骗者进行符合正常（合法）行为模式（Aleskerov,Freisleben,&

Rao,1997）的交易通过的情况。

此外，该问题还有很多限制。

首先，正常和诈骗行为的表现不断地改变。

其次，新欺诈检测方法的发展变得更加困难是由在欺诈检测中交换思想的事实造成的，尤其是信用卡欺诈检测因为安全和隐私问题被严格限制。

第三，数据集不一定是可用的，其结果往往是截尾的，这使得它们难以评估。

甚至，一些研究使用合成产生的数据进行（Brause等,1999;

Dorronsoro等,1997）。

第四，信用卡欺诈数据集是高度倾斜集。

最后，该数据集正在不断发展，使得正常和诈骗行为的表现总是在变化（Bolton&

Hand,2002;

Kou等,2004;

Phuaetal.,2005;

Sahin&

Duman,2010）。

因此，信用卡欺诈检测仍然是一个流行的，具有挑战性以及困难的研究课题。

Visa关于欧洲国家的信用卡欺诈报告指出在2008年，大约50%的信用卡欺诈损失是由于在线欺诈（Ghosh&

Reilly,1994）。

许多文献报道了大量不同国家的损失（Bolton&

Dahl,2006;

Schindeler,2006）。

因此，新方法提高了在这一领域的分类器性能兼有经济意义与研究贡献。

基于这个领域的特性，定义一个新的代价敏感方法是改善的最佳途径之一。

虽然传统的机器学习技术在许多分类问题上一般是成功的，但是具有高准确度或最小化误分类误差并不总是开发分类器的目标。

在现实世界的机器学习问题领域的应用中，有各种类型的代价参与，Turney定义了其中的九种主要类型（Turney,2000）。

然而，大多数机器学习文献并不采取任何这些代价的考虑，仅仅剩下的一小部分考虑了误分类代价。

Turney还指出误分类误差的代价在分类中具有独特的地位（Turney,2000）。

而根据ML-netll项目（EuropeanNetworkofExcellenceinMachineLearning）的技术路线图，代价敏感学习据称是在机器学习研究的未来中一个非常流行的课题（Saitta,2000;

Zhou&

Liu,2006）。

因此，通过构建代价敏感分类器来改善分类器在欺诈检测系统中的性能是一个使大量经济损失恢复的最好办法。

此外，客户的忠诚度和信任度也将有所增加。

并且代价敏感分类器已经被证明能够有效处理类不平衡问题（Thai-Nghe,Gantner,&

Schmidt-Thieme,2010;

大量过去的研究是在恒定的误分类代价矩阵或者由一些恒定的合成误分类代价组成的代价矩阵上进行的；

然而，每个假阴性（FN）具有它固有的独特的误分类代价。

因此，每个假阴性（FN）应当以某种方式排列来显示误分类代价的差异。

例如，具有较大交易量的或者更大可用额度的欺诈交易应该比具有较小数量或可用额度的更需要被检测。

恒定代价矩阵或者不变代价矩阵的组合不能描述这个场景。

所以，本研究是在可变误分类代价的分类问题工作中，将这样的情况纳入考虑的开拓者之一。

这项研究的目的是填补信用欺诈检测文献的一项空白。

在此研究中，开发了一个新的代价敏感决策树归纳算法，它将在树的每个非叶节点选择分裂属性时最小化误分类代价之和，并且分类性能可以与那些无论是代价不敏感还是代价敏感的具有固定误分类代价率的传统分类方法相比较，比如传统决策树算法，人工神经网络和支持向量机。

结果表明，就诈骗交易的辨别和防止可能的损失量而言，这个代价敏感决策树算法在我们现实世界数据集上的表现优于现有公知的方法。

在信用卡欺诈检测中，误分类代价以及欺诈的优先序基于个人记录来区别不同。

其结果是，常见的性能指标，如准确率，真阳性率（TPR）或者甚至曲线下面积（AUC）并不适合评估模型的性能，因为它们接受每个欺诈是具有相同优先级，不管欺诈交易量或者当时交易中用卡的可用信用额度是多少。

应该使用一个使用有意义的方式按序排列欺诈交易以及检查模型在最小化总经济损失时性能的全新性能指标。

一旦诈骗者得到使用信用卡进行诈骗交易的机会，他们通常消耗完一张信用卡的可用信用额度。

因此，一个欺诈交易的经济损失可以假定为交易前卡的可用信用额度，而不是交易的数量。

这样，模型在测试集上的性能比较可以使用新定义的代价敏感性能指标挽回损失率（SLR），也就是从欺诈交易中信用卡可用额度之和的潜在经济损失中挽回的百分比。

为了显示我们观点的正确性，在模型性能的比较中，代表模型性能的真阳性率（TPR）的值也会给出。

本文的其余部分安排如下：

第二章节给出机器学习中代价敏感方法的回顾；

第三章节给出对于信用卡数据的结构的一些见解；

第四章节给出新开发的代价敏感决策树算法的细节；

第五章节给出结果以及对结果的简短讨论；

第六章节总结本研究。

2.机器学习中的代价敏感方法

有不同方法用于构建将代价敏感性考虑在内的分类模型。

第一个通过改变过采样或欠采样的训练数据分布来建立代价敏感分类模型，使得该集合中数据的代价可以表现出例子的形态。

一些研究试图通过分层来克服误分类代价问题；

以及当数据集不平衡时复制或丢弃样本（Japkowicz,2000;

Kubat&

Matwin,1997）。

然而，这些研究人员假设代价矩阵的内容是固定的数字，而不是依赖记录的值。

研究人员如Domingos试图建立像MetaCost的机制去将代价不敏感分类器转换为代价敏感分类器（Domingos,1999;

Elkan,2001）。

根据一些研究报告，过采样对于不平衡数据集的学习是有效的（Japkowicz&

Stephen,2002;

Japkowiczetal.,2000;

Maloof,2003）。

但是，过采样增加了训练的时间，并且因为它创建了不少较小类样本的拷贝，所以可能会导致过拟合问题（Chawla,Bowyer,&

Kegelmeyer,2002;

Drummond&

Holte,2003）。

不同于过采样，欠采样试图减少较多类的样本数量，以便于实现训练集数据关于类分布的平衡。

一些研究表明欠采样善于处理不平衡数据问题（Drummond&

Holte,2003;

Japkowicz&

第二种方法是当建立分类模型时将代价敏感性考虑在内，调整廉价类的阈值使得昂贵类样本的误分类更加困难以此最小化误分类代价（Langford&

Beygelzimer,2005;

Maloof,2003;

Sheng&

Ling,2006;

过采样，欠采样和调整阈值不会更改算法，因此可以被用于几乎所有的算法（Ma,Song,Hung,Su,&

Huang,2012）。

然而，前两者会改变模型算法的输入，而后者会改变由该算法构建的模型的输出（Zhou&

就如调整阈值，在学习算法中对昂贵类增加学习速率，如果这样，可以使模型更多地学习高代价的样本，而不是低代价的（Kukar&

Kononenko,1998;

Wan,Wang,&

Ting,1999）。

最后一种考虑代价敏感性的方法是修改代价不敏感学习算法或定义一个新的代价敏感算法。

如果该算法是一个基于决策树的，这可以通过要么使用代价敏感方式分裂或用代价敏感方法剪枝或提供额外的代价调整函数来完成。

虽然许多研究人员使用不同的启发式方法来建立代价敏感决策树（Breiman,Friedman,Olshen,&

Stone,1984;

Brodley,1995;

Draper,Brodley,&

Utgoff,1994），有些人使用不同的技术来剪枝使用误分类代价按传统方法建立的决策树（Bradford,Kunz,Kohavi,Brunk,&

Brodley,1998;

Knoll,Nakhaeizadeh,&

Tausend,1994）。

3.信用卡数据的结构

在这项研究中使用的信用卡数据是从一个银行的信用卡数据仓库中使用所需的权限获取的。

信用卡数据仓库中的以往数据被用来形成表示客户卡使用情况的数据集市。

数据集市中的数据被用于形成在建模阶段使用的训练集和测试训练模型阶段使用的测试集。

原始数据的时间区间共有12个月，用于形成具有大约22万条信用卡交易的训练集。

这个数据关于正常和欺诈交易的分布是高度倾斜的。

这12个月期间，用于建立我们样本数据包括978条诈骗记录以及大约22万条正常记录，这个比例大概是1:

22500。

所以，为使模型能够学习这两类样本，我们使用分层抽样去下采样合法记录到一个有意义的数字。

我们试着采样到不同的合法/欺诈比值。

此外，所有属于过去6个月时间段的数据，包括含有484条欺诈交易的大约11344000条交易记录直接包含在测试集中。

测试集中的所有交易都通过分类方法得分。

训练和测试集的数据分布在表1中给出。

每一张信用卡的交易数量都与其它的不同，但是每条交易记录都是相同的固定长度，并且包含相同的字段。

Hand和Blunt给出了一个信用卡数据特点的描述（Hand&

Blunt,2001）。

虽然一些客户可能拥有超过一张的信用卡，但是每张卡被视为一个独特的配置文件，因为拥有超过一张卡的客户出于不同的目的，通常在不同的客户配置文件中使用每张卡。

每张卡的配置文件中包含了能够透露用卡行为特征的变量。

这些变量可以表示针对位置，时间或者交易发生地点类型的信用卡交易模式。

欺诈检测系统使用分类模型通过鉴别与给出卡使用的配置文件的显著偏差去检测诈骗活动。

这些变量不仅从交易本身，而且还从卡过往的交易历史中派生。

我们的内容将提及使用的变量类型，但是出于对隐私，保密性和安全性的担忧，我们是不被允许谈论变量的完整列表。

这些变量是五个主要变量类型中的一个：

所有的交易统计，地区统计，商户类型统计，基于时间交易额的统计以及基于时间的交易数量统计。

一些变量可以表述为交易类型，商户类别码，POS输入模式，PIN输入能力，卡类型，卡域以及卡使用国家。

所有交易统计类型中的变量大体上透露了持卡人使用卡的一般信息。

区域统计类型的变量给出有关地理区域的持卡人消费习惯。

属于商户类型统计的变量显示持卡人在不同商户类别使用卡的情况。

基于时间的统计类型变量鉴别出卡关于使用额度或使用频率与时间范围关系的使用信息。

当评估信用卡的一个新交易时，通过这些变量可以鉴别出其与卡正常使用信息的偏差，从而给出欺诈使用的信号。

所以，对于每一张卡的每一笔交易，这些变量每一个都需要计算，并且包含在测试集中。

4.代价敏感决策树方法

对现实世界分类问题进行建模的最大问题之一是数据分布不平衡，而且在信用卡欺诈检测的情况下，识别属于较少类的记录比识别属于较多类的记录更为重要。

解决该问题的一个有效方法是代价敏感建模，使得误分类较少类记录的代价比误分类较多类的记录更大。

在本文中，给出了开发一个代价敏感决策树算法去识别信用卡欺诈交易的细节。

在公知的决策树算法中，分裂条件要不是对代价和类分布不敏感，就是代价固定为恒定比率，如此使得将欺诈交易分类为正常（假阴性，FN）的代价是将正常交易分类为欺诈（假阳性，FP）的N倍。

此外，在这些算法中，误分类的代价仅在剪枝过程中纳入考虑，而归纳过程并不考虑。

这里有一些以前针对代价敏感树归纳做的研究，其中误分类的代价仅仅依赖于类（Drummond&

Holte,2000a;

Holte,2000b;

Ling,Sheng,&

Yang,2006;

Liu,2009），或者是个别样本自身（Duman&

zç

elik,2011;

Ling,Yang,Wang,&

Zhang,2004）。

就我们所知，这是在信用卡欺诈检测中使用不同的误分类代价来探索代价敏感决策树归纳算法特定应用组合的第一项工作。

表1关于类别的数据分布

集合

记录

实际记录数量

集合中记录数量

训练集

正常

≈22000000

8802

欺诈

978

测试集

13644000

484

在信用卡交易中，每次欺诈交易会产生一个不同的代价，所以对每一笔欺诈交易使用一个固定的误分类代价并不适合我们的问题。

从而，我们对每笔交易使用一个不同的代价，这是它们自身固有的。

除非诈骗者提交的第一笔欺诈交易没有被检测到，否则他们在获得使用卡进行交易的可能后，通常在随后的交易中花完信用卡里所有可用的信用额度。

他们一般设法用平均四到五次交易来实现这个目标（Duman&

elik,2011）。

因此，将欺诈交易鉴定为合法的实际代价就和交易中信用卡使用的可用信用额度一样大。

故而，一笔欺诈记录的误分类代价被定义为交易中信用卡使用的可用信用额度，而不是交易量和预先定义的固定的代价值。

另外，这个假设在代价和每笔欺诈交易之间做出了区分。

换句话说，检测出使用有高额可用信用额度的卡进行的欺诈交易比使用有低额可用信用额度的卡进行的欺诈交易能挽救更多的损失。

如此，检测到的第一笔欺诈交易的优先级比第二笔高。

因此，每个假阴性都有不同的误分类代价，同时，对于模型性能的，应该使用代价敏感指标评价而不是基于检测到欺诈数量的指标，如式

（1）中给出的新定义的能够反映挽回的所有可用信用额度所占百分比的指标SLR。

，

其中k表示被检测到的欺诈数，

f表示欺诈的总数，

（CFN）j表示FNj的误分类代价

（1）

经典的决策树模型并不适用于依据个别交易确定可变误分类代价的情况。

因此，我们开发了一种新的代价敏感决策树算法，其决策树学习算法中的分裂条件受各个误分类代价改变的影响。

我们算法使用的代价指标在表2中给出。

对于正常交易的误分类代价（CFP），我们的算法假定一个固定的误分类代价是由一些特定的程序和采访银行工作人员与领域专家找到的。

该算法取交易中所用卡在交易前的可用信用额度作为欺诈交易的误分类代价（CFN）。

这里新定义的代价敏感决策树学习算法选择一个节点分裂变量的方法是如果一个分裂是可能的，那么一定是基于总误分类代价的减少，而不是杂质的减少。

我们假设FP是实际上是正常的交易被错误分类为欺诈的，而FN是实际上是欺诈的交易被错误分类为合法的。

开始时，训练集中所有的交易都被分配给树的根节点。

首先，计算该节点的代价。

在决策树中，一个节点上的所有交易都可以被分类为要不是欺诈的，那么就是合法的。

因此，无论是将节点上的交易标记为欺诈（CP）的总误分类代价，还是将交易标记为正常的（CN）总误分类代价，都需要计算。

为了计算法CP和CN，我们使用四种不同的方法：

CS—直接代价（CS–DirectCost），CS—类概率（CS–ClassProbability），CS-基尼（CS–Gini）和CS-信息增益（CS–InformationGain）。

在CS—直接代价方法中，我们在代价计算函数中不整合任何不纯性度量，并且仅通过使用独立降低总期望分类代价的方法来寻找最佳分裂。

这种代价方法是从Ling等（2004）,ZubekandDietterich（2002）,Greiner,Grove,andRoth（2002）处受到的启发。

这种方法选择能够最大程度上减少总误分类代价的变量来替代使用不纯性度量寻找分裂变量。

在将交易标记为正常（CN）的情况下，总误分类代价是该节点每个欺诈

表2使用的代价指标

实际值

预测值

阳性（欺诈）

阴性（合法）

阳性

（欺诈）

真阳性（TP）

（误分类代价=0）

假阴性（FN）

（误分类代价=CFN）

阴性

（合法）

假阳性（FP）

（误分类代价=CFP）

真阴性（TN）

记录的可用信用额度（（CFN）i）之和。

将合法交易标记为欺诈只会造成一个对于每个合法交易相同的观测代价（CFP）。

因此，在该方法中，只有误分类代价在树归纳和分类中使用。

假设有“f”个欺诈记录和“n”个正常（合法）记录，它们落在一个节点上，那么“N”（N=f+n）给出该节点记录总数，CP和CN的计算在下面的式

（2）和式（3）中给出：

（2）

（3）

不同于CS—直接代价方法不管数据的类分布以及节点的不纯性，仅仅使用期望的总误分类代价去寻找当前节点的最佳分裂的情况，传统的决策树归纳技术使用类分布或者在某些方面使用不纯性度量来寻找下一层的分裂。

因此，使用下面的方法在代价敏感分裂机制的节点上添加类分布以及不纯性的影响，我们使用从著名的传统决策树算法ID3，C5.0和C&

RT中得到的启发，修改寻找分裂的误分类代价计算。

这些传统的决策树方法使用不纯性度量去选择分裂属性和分裂值。

ID3（Prodromidis等,2000）使用熵和信息增益，而之后的C5.0使用增益比，C&

RT（Wheeler&

Aitken,2000）则使用基尼用于不纯性度量。

对于二类问题，期望信息（熵）与基尼的计算方法在下面的式（4）中给出：

其中pi表示类i的相对频率（4）

在CS—类概率方法中，类的相对频率（类概率）被集成到代价计算函数中，用于增加类分布对该节点代价的影响。

由于该节点上某类的相对频率增大，那么在该节点就会有更多的记录属于这个类。

因此，若使用如ID3和C5.0决策树方法中的相应不纯性度量，该节点上的记录将会被分配给此类。

又因为我们决定根据误分类代价标签该节点，所以我们应该将该类的代价与它类的相对频率相乘，这样使得我们将更多的降低拥有更高相对频率类的代价。

故而，我们将减少选择有较高频率类的代价。

顺便说一下，我们倾向于在节点上用更高频率的类。

在CS-类概率方法中，CP和CN的计算方法由下面的式（5）和式（6）给出：

（5）

（6）

在CS—基尼方法中，受到C&

RT中使用的基尼不纯性度量的启发，类概率的平方被集成到代价计算函数中，以另外一种方法来增加类分布对于节点代价的影响。

我们将一个类的代价与它类相对频率的平方相乘，从而比CS—类概率方法能更多的降低高相对频率类的代价。

在CS—基尼方法中，CP和CN的计算方法由下面的式（7）和式（8）给出：

（7）

（8）

在CS—信息增益方法中，受到ID3使用的信息增益不纯性度量的启发，相对类概率的负对数被集成在代价计算函数中，以另外一种方式来增加类分布对于节点代价的影响。

因为相对频率的对数是非正值，所以我们乘以负1使其变为非负。

在CS—信息增益方法中，CP和CN的计算方法由下面的式（9）和式（10）给出：

（9）

（10）

在每一种情况下计算误分类代价之后，如式（11）所示，选择具有最小代价的情况作为该节点误分类代价。

节点上的交易被分配给具有最小总期望误分类代价的类（N=正常，F=欺诈）。

由于

展开阅读全文