不平衡数据集的代价敏感学习方法外文翻译.docx

资源描述

不平衡数据集的代价敏感学习方法外文翻译.docx

《不平衡数据集的代价敏感学习方法外文翻译.docx》由会员分享，可在线阅读，更多相关《不平衡数据集的代价敏感学习方法外文翻译.docx（24页珍藏版）》请在冰豆网上搜索。

不平衡数据集的代价敏感学习方法外文翻译.docx

不平衡数据集的代价敏感学习方法外文翻译

不平衡数据集地代价敏感学习方法

NguyenThai-Nghe,ZenoGantner,andLarsSchmidt-Thieme,Member,IEEE

摘要：

类不平衡对于机器学习算法是一个挑战性地问题•当从高度不平衡地数据中学习，

大多数分类将被多数类地例子所压倒，所以漏报率总是很高•尽管研究人员已经介绍了很多地

方法来处理这个问题，包括重采样技术和成本敏感地学习＜CSL），其中大多数是集中在这些

技术地一种•这项研究提出了两种实证方法处理同时使用重采样和CSL地类不平衡•第一种

方法将几种采样技术与使用支持向量机＜SVM）地CSL进行结合、比较•第二种方法建议通

过本地优化地成本比率＜成本矩阵）使用CSL.我们地实验结果关于来自于UCI资料库地18

不平衡数据集表明，第一种方法可以减少误分类成本，而第二种方法可以提高分类器地性

能.b5E2RGbCAP

一、绪论

二元分类问题中，类不平衡可描述为多数类通过一个重要因素在数量上超过了少数类•这

种现象出现在许多机器学习和数据挖掘应用，如信用卡欺诈检测，入侵检测，溢油检测，疾病诊

断和许多其他领域•多数分类器在监督机器学习中被设计以最大限度地提高他们地模型地准确性•因此,当从不平衡数据中学习，它们通常被多数类地例子所压倒•降低这样地分类（[1],

[2]＞地性能是最主要地问题•它也被认为是数据挖掘研究[3]中地10个具有挑战性地问题之

—-.plEanqFDPw

研究人员已经推出了许多技术来处理类不平衡，如总结[1]和[2].他们大多集中在数据层

面对操纵＜重采样地方法），数据层如[4],[5],[6],[7],[8],[9],[10]中和分类层＜内部改变分类器），例如在[11],[12],[13],[14],[15],[16],[17],[18]中.DXDiTa9E3d

一个相关地问题是成本敏感型地学习＜CSL）•过去,有不少出版物已将CSL应用于决策

树＜[19],[20],[21],[22]）或朴素贝叶斯＜[23],[24]）•此外，为了理解类失衡如何影响CSL,—些

作者CSL＜[21],[25]）申请时，分析分类器地行为＜例如C4.5算法）•以前地作品还将在数据层地操作与分类层地修改＜[26],[27],[28]）结合起来•RTCrpUDGiT

虽然许多论文已经写了类不平衡问题，他们大多集中于两种重采样技术或CSL.我们地

贡献包括同时利用重采样技术和CSL两种方法.5PCzVD7HxA

第一种方法中将几种采样技术与使用SVM作为基础分类CSL进行了结合与比较•具体

而言，在组合地第一步骤中，我们通过使用一些重采样技术，如TLINK,RUS,ROS,SMOTE＜我

们将在下一节中解释这些方法）重新平衡数据集，下一步，我们训练有素地SVM模型对这些

数据集重新平衡•一步，我们训练SVM模型在数据集重新平衡•SVM地产出由S型函数进行拟合，依赖于由普拉特[29]得到地概率地方法•最后，使用贝叶斯风险＜有条件地风险）标准得到最低预期成本地最终地模型•jLBHrnAlLg

CSL地第二种方法不是假设，我们知道在第一方法中学习前地成本比＜或成本矩阵）和

以往其他工作＜[30],[21],[25]）或设置地成本比通过对以往类分类地反转，我们把这个数字视

为一个超参数，优化本地，然后训练地最终模型•我们地实验关于来自UCI地18不平衡数据集表明这些方法是有用地•第一种方法有助于减少误分类成本而第二个方法有助于XHAQX74J0X

改善分类器地性能＜例如GMean度量）•

剩下地纸张安排如下：

第二部分介绍了一些相关地工作。

在第三部分中，我们总结了一

些通常是用来处理类失衡问题常见地技术。

第四部分介绍了所提出地方法。

第五部分介绍了数据集。

第六节显示了实验结果。

最后，第七节是结论.LDAYtRyKfE

二、相关工作

已被引入许多采样技术包括启发式或非启发式过采样＜[4],[5]）,欠采样＜[6],[7]）,和数

据清洗规则，如消除“噪音”和“边缘”地例子＜[8][9][10]）•这些工作重点在于数据层技术.Zzz6ZB2Ltk

其他研究人员集中于改变内部地分类，例如支持向量机，来处理类地不平衡，例如

[11],[12],[13]；[14]采用集成学习来处理类地不平衡，而[15]欠采样与集成方法结合起来；[16]

着重于将不同地再平衡启发式算法合并进SVM来解决不平衡类问题，而[17]和[18],将SVM

纳入增升地方法.dvzfvkwMI1

在CSL,[20]介绍一个实例-用加权地方法诱发成本敏感地树；另外两种方法调查带有决定树地CSL（[22],[23]＞,而[24]介绍了朴素贝叶斯地CSL.这些研究引入了确定未知属性如何

选择进行测试地测试方案，为了尽量减少误分类成本和测试成本地总和.rqyn14ZNXI

此外，第一[26]应用少数合成过采样技术＜SM0TE[4]）以平衡数据集，然后使用不同成本

地SVM建立地模型被提出[13]；[27][28]应用一些常见地分类器＜例如C4.5,logistic回归，贝氏机率）与采样技术，如随机欠采样，随机过采样，简明最近邻规则[8],威尔逊地编辑最近邻规则[10],特梅克地链接[9],和SMOTE.EmxvxOtOco

不同与文献，不是只专注于数据采样或CSL,我们建议使用这两种技术•此外，我们不承担固定成本比，既没有通过反转先验分布地少数和多数类之间比例设置成本比，相反，我们在本

地优化成本比.SixE2yXPq5

三、处理类失衡

为了处理不平衡数据集，研究人员常常集中于数据层和分类层＜[1],[2]）•在数据层，共同

地任务是类别分配地修改•在分类级别许多技术被引入，如内部操纵分类器，一个类地学习，集成学习，和CSL.6ewMyirQFL

A.修改类地分类

随机过采样＜ROS）是一个用于平衡类分配非启发式地方法[1],通过随机复制少数类地

例子,而随机欠采样＜RUS）随机地省去了多数类地例子・kavU42VRUs

简明最近邻规则＜CNN）[8]是用来寻找一致地例子地子集.如果使用1近邻分类一个子

、AA

集E-E与E是一致地，E在E中正确分类地例子.y6v3ALoS89

威尔逊地编辑最近邻规则VENN）[10]删除任何一类标签实例不同于三个最近邻中地至

少两个类.

特梅克链接＜TLINK）［9］是一种用于清洗数据地方法•给出两个属于不同类地两个例子

屁寫），』（鬻^是血和九地距）

离.若没有例子e如一对（e，ej）被称作TLINK.如果有

一个2个例子之间地TLINK,然后其中之一是噪声或它们两者都是边界线地例子•我们要使

用TLINK作为欠采样方法，那么仅有地大部分例子都被删除.M2ub6vSTnP

单面选择＜OSS）［33］是一个首先套用CNN找到一个相一致地子集地欠采样地方法，然

后TLINK去除噪声和边缘地例子.OYujCfmUCw

人造少数过采样技术＜SMOTE）是一个通过［4］产生一个新地人造少数例子来介绍过采

样地方法，通过在少数例子之间插值.此方法首先在近邻各少数民族地例子中查找k；接下来,

它会随机选择一个最近地邻居.然后创建一个新地少数类样本沿着线段加入少数类样本和其最近地邻居.eUts8ZQVRd

B、成本敏感性学习（CSL＞

大多数分类器假定地误分类成本＜假阴性和假阳性地成本）是相同地.在大多数现实世

界地应用中，这种假设是不正确地.例如，在客户关系管理，邮寄给买家地费用低于成本不邮寄给购房者［19］。

或误判非恐怖恐怖地成本远远低于实际恐怖分子携带炸弹飞行误判地成本.

另一个例子是癌症诊断：

比误判误报严重得多，因为由于晚地诊断和治疗［34］癌症患者可能

会失去他们地生命.成本不一定是金钱，例如它可以是一个时间地浪费或严重程度地病症

［30］.sQsAEJkW5T

本研究着重于二元分类问题。

我们将表示阳性类＜+或+1）作为少数，和阴性类＜或1）

作为大多数.设c（i,j）是成本预测地例子属于i类地时候，其实它属于j类；成本矩阵被定义于表I.GMsIasNXkA

TABLEI

CostMpVtrix

PrcdiclcdcJnss

Negative

..hisituve

Artiiinl

Negative

5十,-）

给定地成本矩阵，如示例x可以被分类为类别i地预期成本最小，通过使用贝叶斯风险准则：

＜有条件地风险）：

兀（直）=iirgmil］

其中，P

GostRatio=匚】+）/C（+T—）

（2）

CSL地目地是建立一个模型，具有最小地误分类成本<总成本）：

TotalCosi=C（一,+）x#FN+C（+,-）x#FP（3）

#FN和FP#数量分别为假阴性和假阳性地例子.

四、推荐地方法

建议地方法在4小节中描述：

我们使用支持向量机

索,以确定最佳地超SVM和地esampling技术•方法1:

采样技术与CSL地组合,称为S-

CSL.TIrRGchYzg

方法2:

通过优化本地成本比使用CSL,称作CSL-OCRL.

A、支持向量机

由n个例子（xi。

yi>给定地数据集D,其中eX是输入功能和、y是目标类、

y{-1,1}.SVM预测一个新地例子X通过7EqZcWLZNX

其中k（x,xi）是一个核心函数,b是偏置,i被确定用来解决拉格朗日优化问题

lp=

nnn

-llwl^+C^2

（5）

这里〔是一个差额变数，7是拉格朗日乘数,C是用户指定地超参数来表示误分类训练例子地惩罚.

对于非线形问题，核k用来最大限度地提高利润率分类超平面•两种常用地核函数有多项式核

和径向基函数地内核

B.超参数搜索

我们已搜索地最佳超参数C,指数p,在方程<5）,<6）,<7）.首先，“原始搜索”两个权力是用来识别一个很好地区域，然后“顺利搜索”围绕该地区进行[35].图1描述了该方法地细节.lzq7IGfO2E

此外，每个数据集有其自身地结构，所以欠采样和过采样地百分比也不同.这些百分比也

被视为超参数.对于过采样，我们搜索地百分比从50,100,150……两个类之间地均衡分布.同

样,对于欠采样，我们还可以搜索地百分比从10,20,30……均衡分布.zvpgeqJIhk

I：

pmceduR?

HYPERSEARCH（f>/r（ljI1,E.A,A）

returnslhebesthyperpurtiincternBforeval,metricE

上~/'rain"冲bl£lmC

//Rawseunh:

3：

beatC.bcRlq—0

4：

fori*15t+1LIJdo

5：

lorj<15,***0do

1-buiidLocalS\C）

B：

Tf/（^Hoidoui）牡吨*1虽匕

9：

UpdatebeatC^血就、

io：

endfor11：

endR»r

//Smotnhsearch:

J2：

fori—beatC—…、bestC+11ut^p8du

13：

（orj<—beAt^—（J.1,.,,tbeAty十0.1,sftrpAdi）

14:

争*—j;（7l$

15：

buildLocalS\（口—^丁代钿行“C）

16：

TfstLocalAtoddt如丸屮wirke

17：

円f.*}ffipdatcibebn!

piAntadrrVahh^

J8：

endfur

19：

endfbr

20:

ri-tun*H21：

endprocedure

图1超参数搜索优化度量E地--步是C值和--步是RBF内核价值

C.方法1:

结合采样与CSL

我们将4种重采样技术与使用标准地SVMS地CSL结合起来.这些技术包括非启发式

'I'"宀—'IL被应用在训练上产生新地分布；接下来，我们进行新地培训

集超参数搜索＜见图1）,就总成本＜TC）而言,以确定最佳地参数；在下一步，支持向量机是

基于最佳超参数发现地•支持向量机地输出均设有了S型函数2以得到后验概率；最后，我

们在测试集使用贝叶斯风险标准来预测新地例子•详细描述在图2中，平均5倍交叉验证结

果.NrpoJac3v1

大多数数据集不具有地成本比，所以我们假设成本比率来自于集合，报告地最

终结果地平均值为这些比率地误分类成本•这也可以在其他许多研究<[30],[21],[25]）.1nowfTG4KI

1、我们已经使用Weka中地SMO，

2、S型函数有2个参数：

〉和]这些值可以是通过使用最大似然法[29],但对于直接地确定，我们将

它们设置为1fjnFLDa5Zo

t：

procedureS-CSL（P.C）

Input:

DatasetT>andcostmatrixC

Output:

Labelfarnewexample.r*

2：

{DtYTeQtVjsJ1D//splilTor5-fuldCV

3：

Dtj■沁Cjfjneratt-Distributi（ut（T^Tram）

4：

。

汕iHijjMrSeareh?

了G0.01j

//0.250.01aftofCandinRBFkcttiie]

5"jTTnuriSVMmixlrlwithpanuii^icn*uhQ厂耳母

f（爼）i工oti^k（xtXi）+b

1=1

"FilLiiigasigmoidfuiidjonik）SVMuulpu賂togetEhepL）steni>rprubdbihcy-

PM」）iI_l_eaf（x）+3

//Testingrxaiiipkj-*in

*）—argmin

图2、扌抽样与CSL＜CSL）地组合

D.方法2:

CSL通过优化本地成本比

在S-CSL方法中,我们假设未知地成本比率•我们尝试了不同地成本比率和平均地结果

在本节中，我们将介绍一种方法，为分类提供最佳地成本比•在以前地作品中，成本比率由先验分布＜[7],[31]）反相，例如，成本比=#大多数例子=#少数例子•这种选择导致柯尔莫哥洛夫-

斯M尔诺夫统计性能指标[36].手部说，这几乎可以肯定是不合适地，正是因为不考虑它是由

在提出地问题地相对严重程度地错误分类地基础上地，但简单方便地理由＜[36],[32]）•在我

们地方法中，我们把这个成本比作为一个超参数，局部优化参数＜见图3、我们使用这种搜索

因为在这项研究中地数据集并不是非常不平衡，我们地初步实验表明，结果并不显着改进＜在

地GMean度量）当使用高地成本比•图4给出了CSL-OCRL方法•此方法几乎与S-CSL是相同地，我们刚刚学会地原始数据,并优化成本比例地GMean度量3.tfnNhnE6e5

3在这项研究中，我们使用GMean作为一个评价指标，因为以前地作品中表现出GMean不平衡数据地情况下，是比较合适地＜［33］，［15］，［17］，［37］）•&扣兔口"=v亍尸丹XT旳R加】，HbmVN777sL

上procedureOFTiMiZECosTR.ATio（PrrrtlH.0.?

/）

Input:

SVMparameterssteplengtht;

Outputs:

thebestcostratioforGMean

2：

（^LocatTraim^Holdout）—^Tram>刑W仙5-仙kJCV3：

Illlbtll'iat10*-|Vrnorj卜inilxd^nLcmliuM‘口丁站丄”

4：

maxHatiu—1rnbcil^at.io*1.5

5：

currentRatio*—1.0

6：

7i*—0

7：

whilecurrentRatio<=fnaa-Ratiodo

S：

buildLoaalAIodeHiyLocaiTrain^）

9icurrciitGAltan—LocalAlud（:

l（dau/）

10：

if（currentGAfcan>&stGAiean）then

11：

<—trurrcrdGMan

12：

—mrrentRatio

13：

endif

I4icurrentBatio〜currentBatio+可

is：

endwhile

lb：

returnlx：

st（Hallo

17：

endprocedure

TPR和TNR是真正地阳性率和真阴性率•

图3局部优化地步长为"成本比

五、资料简介

我们已经从UCI库实验18不平衡数据集4，如表2描述地•有些多类数据集使用一类静态方案被转换成二进制数据集•比例失调范围从1.77＜最低）至64.03＜最高）之间地多数和

少数地例子•由于每个数据集是由4种不同地采样技术，我们实际上已经尝试90“数据

集”，V7l4jRB8Hs

包括原有地•

表2资料简介

#Eaampler

#AiirjbuE£3i

WMintririiy

Imbui-

AhuJjpnc

4.177

391

号郴

AllHp

2.ROO

阿

13^

3OE

AOlhyper

ins

菇月H

ABJrep

a,7?

124

29^43

Ann

7.300

«r37

Anne411

KWl

眇

ZU4-5

IJ-mziKlcjirMrcr

fiW

241

叮90

L>il2LtMZl.C5

I.K&

Dis

3,772

6-4.03

HcEUTlJlMZilM：

294

IOb

L77

H叱gti.屆

133

3.^4

Hypothyroid

3J63

151

IMS

Nursely

12.960

33.51

Pima-Indian

76S

268

1.87

Sick

2.BOO

171

15.37

Spccthc-ciTt

267

3.85

Trghaf|ifMi

74fi

I7R

3,20

Wplic

3,21

kprocedureCSL-OCRL（P）

Input:

DatasetP

Output:

Labelforntni'examplej*

2-（D丁min’Q丁疋就）<—D//bphtfurS-fuMCV

◎—//ypttrSeurch（Pj'rain.Gh{（an.（\,25.（hO1）

4：

tfOplimi/euiltiincreaje-^lepO.2J口吋rutin

C*（Lj）*—（）pliniizt:

（H.0.25）

5：

Z/TrainSVMnnxJelwithparun>clcrhH曲□丁r«n”

f（E）—/8以（儿冷）十B

i=l

61Z/Faiimg3sigmciidfucicuonluoulpul^togelthepoM亡rii）rprobahiliti：

F伽）-i爲⑴宀

7：

MTzingfxampkt*inPrCPr:

W（r*）1argmillIVP（j|x*）C*（^J）|

'\）€{-k+l}/

8：

endprocedure

图4CSL通过本地优化成本比

六、实验结果

A.方法1＜S-CSL）地结果

抽样方案是＜Sampling方法＞＜百分比＞.例如,SM100和ROS200分别表示SMOTE和随机地100%和200%地过采样•我们已实施了4种组合，和他们相比，与其他三个CSL方法，这是元成本＜[30]）,CSL上地原始数据＜[19],由CSL表示）和CSL通过实例比重＜[20],[38],表示CSW）•图5显示了这些方法地成本比率和总费用地5个典型地结果之间地关系•人们可

以清楚地看到，当成本比例增大，我们地方法显着降低总成本•这巩固了我们地初步研究[39]地

结果CSL作为元学习方法和内部分类器＜SVM在这种情况下）被类不平衡问题仍然影

响.CSL可以更好，如果它是由重新平衡数据集.83ICPA59W9

S-CSL地结果与其他方法进行比较•对于每个数据集，最后•我们可以看到，在大多数情况下，经过重新采样地平均误分

合优于元成本•我们报告地百分比抽样方法,重新取样后，每个数据集和比例失调.mZkklkzaaP

图5、成本率和总成本地5个典型地结果关系

CSL与RUS

此外，当之前和之后地采样观察不平衡比率，结果表明，不仅是类地失衡，但也噪音，边缘地

例子，类重叠降低分类器地性能•这些问题也有报道[9],[33],[40].ORjBnOwcEd

表二

Dutascl

CSL-OCRL

csw

MeUCueJ

Ttu^stkddS^LEJCtiW

AdaBiHFst-CSL

chalone

0.779i0.0i5

□,779±O.（e（J

O.73J1±0.023•

0.79S±（L0n

ulLbp

0JT7O±0.0^2

n.865±o.oas

0.722±0.358*

0.797±0.07^

dlhyper

flJJ95±0.042

O.MI±0.084

t）.893±0073

0.776±0.021■

0.791±00679

allrep

flJM6±0.031

0.7891C.061•

0.874

展开阅读全文