个人信用评分模型构建以及个人欺诈评分模型构建Word格式文档下载.docx

资源描述

个人信用评分模型构建以及个人欺诈评分模型构建Word格式文档下载.docx

《个人信用评分模型构建以及个人欺诈评分模型构建Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《个人信用评分模型构建以及个人欺诈评分模型构建Word格式文档下载.docx（9页珍藏版）》请在冰豆网上搜索。

个人信用评分模型构建以及个人欺诈评分模型构建Word格式文档下载.docx

通常，建立信用评分模型的过程一般包括以下几个部分：

1.明确模型的使用目的

建立个人信用评分模型的第一步是明确模型的使用目的。

建立信用评分模型的目的是预测消费者违约的概率，也可以是预测消费者拖欠的概率，或者是贷款的逾期损失以及拖欠、违约及损失的组合。

由于建立模型的目的不同，所研究的对象也不同，在使用开发方法、检验手段和处理原则方面也会存在差异。

正是由于上述差异的存在,当一个授信机构使用其他机构的信用审批系统时就需要格外谨慎。

2.数据收集与样本设计

在模型开发过程中，能够收集到用于建立个人信用评分模型的数据是最重要的技术处理环节之一。

通常，可供使用的数据越多，模型的预测结果就会越精确。

因此，在建117

第四节个人信用评分□

I_i

-fr

118

立个人信用评分模型之前，需要确定有哪些可以使用的数据。

通常技术人员没有必要也不可能将所有数据都用于建模工作，而是按照一定的方法从中抽取部分合格的样本,利用数据质量优秀样本建立起个人信用评分模型，这样可以达到精确预测的目的。

建模工作的这一过程被称为“样本设计”。

3.选择建立信用评分模型的工具

建立个人信用评分模型的统计及数学工具很多，通常使用的方法有判别分析法、逻辑回归、分类树法和神经网络方法等。

对于技术人员来说，在选择合适的方法时既要考虑到与建立个人信用评分模型的目的有关，也要考虑到与建模所使用的样本有关。

在实际建立个人信用评分模型时，往往将多种方法交叉使用。

例如，可以使用“分类树方法”选择变量，以确定变量之间的相互关系，构造出新的变量。

再将这些新变量和原始变量一起使用，通过回归的方法构建出预测模型。

然后，把预测模型产生的结果与神经网络模型产生的结果进行比较，以确定模型的有效性，并对模型进行改进。

4.模型的验证与检验

建立了个人信用评分模型（或信用评分卡）后，技术人员面临的一个重要的问题是这一模型的应用效果究竟如何。

当然，一个个人信用评分模型的有效程度如何，最终需要通过模型在实际应用中的效果来评价。

但是，在模型投入实际使用之前，必须对模型的预测能力进行评估，即对模型进行验证和检验。

在对模型进行检验时，经常采用的方法是“保留样本法”，也就是在建立个人信用评分模型时，将样本随机地分成两部分：

一部分用于建立模型，另一部分（称为所谓“保留样本”）用来对模型进行检验。

如果模型对建模样本和保留样本的预测结果都较好，说明模型总体来说是稳定的，有一定的应用价值。

对个人信用评分模型进行检验的统计方法很多，常用的统计量包括Gini系统、Kolo-mogorov-Smirnov统计量（简称K-S统计量）、和谐度等。

对模型进行评价的总体想法是个人信用评分模型必须尽可能地将高风险授信和低风险授信区别开来。

另外，针对某个总体建立起来的个人信用评分模型对该总体的一个子集的预测能力，也是检验模型有效性的一个重要方面。

5.选择临界分值及人工修正

在个人信用评分模型开始运行之前，还需要考虑授信机构所能承受的信用风险的大小。

模型本身可以预测某个信用申请人违约的可能性大小，但是并不能确定模型使用者所能承受的总体信用风险的大小。

信用申请人的这种承受信用风险的能力取决于授信机构对可能的申请人数量的市场分析、充足资本率要求以及定价、收益目标等因素。

确定授信机构所能承受的信用风险即需要确定信用评分卡的临界值，若申请人的信用评分分值在这一临界值之下，则授信机构可以拒绝其申请；

若申请人的信用评分分值高于这一临界值，则建议批准其信用申请。

通常，临界分值的确定应该使得信用申请批准比率基本与当前的批准比率保持一致,□第四章个人征信业务

或“坏账率”与当前的“坏账率”相等。

在个人信用评分模型运行之前，还需要确定“人工修正”原则。

“人工修正”是指授信部门作出的决策与个人信用评分模型所建议的不一致时所采取的人工修正规则。

6.个人信用评分模型的监测

由于个人信用评分的基本假设之一是未来与现在是相似的，因此一旦信用评分模型投人运行，技术人员就应与先前的系统相比较，评价新模型的运行效果。

这样就需要对模型进行监测，通过监测，能够回答如下的一些重要问题：

（1）信用评分卡的使用是如所预期的那样吗？

对信用评分卡的人工修正是否保持在一个尽可能低的水平？

人工修正有确实的理由吗？

最普遍的理由是哪些？

（2）信用评分卡对贷款风险的排序是否与所期望的一致，或者信用评分卡的表现是否出现退化？

好、坏客户发生比（或坏客户比率）与我们运行信用评分卡时的预期是否一致？

（3）信用申请人的特征是否发生了变化？

是否有更多分值低的消费者申请贷款但是被拒绝了?

他们的特征是什么？

（4）账户的信用分值的分布是否发生了变化？

三、个人欺诈评分模型构建

欺诈是信用卡公司面临的一个严峻的问题，包括申请欺诈、信用卡丢失、信用卡被盗、信用卡伪造、信用卡机密信息被盗、账户被窃取等。

不管何种欺诈类型，归根结底，都是通过欺诈性的申请或欺诈性的使用信用卡交易来实现的。

欺诈风险评分模型包括申请欺诈风险评分模型可交易欺诈风险评分模型。

申请欺诈风险评分模型可预测信用卡申请为欺诈的概率，为银行发现和拒绝欺诈性申请提供科学依据；

交易欺诈风险评分模型是运用先进的数据挖掘和模型技术来预测信用卡交易为欺诈的概率，为银行发现和拒绝欺诈性交易提供科学依据①。

（一）申请欺诈风险评分模型

申请欺诈是欺诈分子盗取、仿冒他人身份信息，如姓名、性别、出生日期、身份证号码、家庭地址等申请信用卡，给银行带来巨大损失，给被冒名的消费者带来纠纷。

在欧美国家，信用卡的申请可以通过电话、信件、互联网等渠道进行，由于无法面对面地核对申请人身份和证件，只要欺诈分子盗取了他人身份信息，就可能成功地得到信用卡。

即使有面对面的审核，如果证件是伪造的，也可以进行欺诈性的申请。

申请欺诈风险评①陈建.信用评分模型技术与应用北京：

中国财政经济出版社，2007。

第四节个人信用评分口

120

分模型，是利用信用局关于消费者身份的某些信息来预测申请为欺诈的概率。

申请欺诈风险评分模型常用的预测信息有：

★申请表填写的地址与信用局档案地址不符；

★申请表填写的地址在信用局档案里第一次存档时间少于90天;

★申请表填写的地址在信用局档案里仅为新信用账户所用；

★申请表填写的地址在信用局档案里不存在；

★申请表填写的地址被信用局记录认定为高风险地址；

★申请表填写的地址被信用局记录认定为非住宅性地址；

★申请表填写的地址在信用局曾有欺诈活动的记录；

★信用局档案中地址为高风险地址；

★信用局档案中地址为非住宅性地址；

★信用局档案中地址曾有欺诈活动的记录；

★信用局记录显示该申请人（姓名或身份证号码）曾被仿冒；

★信用记录最早确立的时间在该身份证号码发行之前。

从上述信息可以看到，对申请欺诈的预测主要依赖于信用局的记录，特别是关于地址的记录，这是因为在美国信用卡主要靠信件邮寄到申请表所填写的地址上，一般不存在面对面核对身份的机会。

在信用局不存在或不发达的国家，发展这种形式的申请欺诈风险评分模型的数据基础可能不存在或很不充分，对欺诈的发现主要靠人工核对申请表填写的身份信息，如面对面地核对身份证、电话核对身份信息等。

申请欺诈风险评分把申请者按照欺诈风险概率从高到低排列，预测力强的评分模型应该能够做到评分最差的一小部分申请者集中了绝大多数的欺诈申请者，这样，依欺诈风险评分进行决策的成效才比较好，达到通过拒绝尽可能少的申请者来拒绝尽可能多的欺诈申请者的决策目标。

如图4-1所示，依评分拒绝2%的最高风险申请者可以拒绝90%的欺诈性申请。

（二）交易欺诈风险评分模型的开发

交易欺诈风险评分模型是利用信用卡当前交易信息和历史交易行为模式对比来预测当前交易为欺诈的概率的模型，为智能反交易欺诈授权策略（intelligentanti-fraudauthorizationstrategy）提供科学依据，对欺诈风险高的交易可以拒绝授权和展开调查。

交易欺诈风险评分模型的表现变量是“交易为欺诈与否”的二元性显示变量（binaryindicatorvariable）。

对于样本中属于欺诈的历史交易，表现变量值为1，非欺诈的交易表现变量值为0。

在理想的状态下，银行应该对每一个怀疑性或争议性的信用卡交易进行调查核实欺诈与否，然后把核实为欺诈的交易一一记录在欺诈档案（数据库）里。

在实践中，由于数据记录、整理、加工等复杂性，银行往往把核实的第一次欺诈日（confirmeddateoffirstfraud）记录在案，然后模型把第一次欺诈日之后的交易均定义为欺诈。

这里面会有误差：

如果卡被伪造，欺诈人使用伪造卡，而真实的持卡人也在继续使用该信用卡，那么第一次欺诈日之后的交易就会有一部分是欺诈交易而另一部分是真实交易，这部分真实的交易会被误判为欺诈。

为了减少这种误差，也为了提高模型发现欺诈的速度（speedofdetection），一般来说样本仅保留第一次欺诈日之后若干天或若干次交易并定义为欺诈，而把其他后来的交易排除在外。

在这种定义下，银行准确地记录第一次欺诈日就非常关键。

当然，如果银行的数据库系统能翔实地记录每一次核实的欺诈交易，就会提供更准确的表现变量信息。

由于交易欺诈“大海捞针”的特点，即大量的交易中只有极少部分是欺诈性交易，所以交易欺诈风险评分模型往往使用极精细极复杂的模型技术,主要利用机器学习和神经网络模型技术，这需要极大的样本量，样本个数往往达数百万个交易。

为了最大限度地提炼交易欺诈的行为特征和模式，在美国和英国，各个银行往往形成一个数据共享团体，把各自分散的数据集中在一起，特别是把欺诈的记录集中在一起，让样本的丰富程度最大化，由专业化公司发展出能充分抓住行业欺诈性交易特征的预测模型，由各银行付费使用。

个别超大型银行和信用卡公司自己的样本量也比较丰富，所以能够由内部科研力量或聘请专业化模型公司发展量身定做的客户化交易欺诈风险评分模型。

交易欺诈风险评分模型所用的预测信息主要是来自实时交易授权的信息和历史交易授权的信息，也在一定程度上使用交易登记信息、付款信息和非货币问询信息。

交易授权和交易登记的区别在于，交易授权是实时地把相关交易信息和授权要求传送到银行授权系统并实时地接受银行的授权决策，而交易登记时对一定金额以下的交易无须经过银行授权，只需每日汇总后提交银行登记。

在美国，所有信用卡交易都是实时授权，而在英国，底线限额以下信用卡交易为交易登记。

常用的预测信息的原始数据元素包括：

（1）信用卡账号；

（2）账户持有人的国家号码和邮政编码；

第四节个人信用评分□

122

（3）商户号码；

（4）商户的国家号码、货币代码和邮政编码；

（5）交易的日期和时间；

（6）交易数额；

（7）交易种类；

（8）商户种类；

（9）密码核对结果；

（10）CVV核对结果；

（11）信用卡过期日；

（12）信用额度和可支配剩余额度；

（13）信用卡使用途径。

信用卡用户每一次用卡交易，都会产生上述数据。

通过对信用卡用户交易历史的跟踪，可以提炼和发现信用卡用户的行为模式。

如果当前的交易与信用卡用户的历史行为模式差别较大，则欺诈的可能性也较大。

因为欺诈者可以盗取信用卡、盗窃信用卡信息、伪造信用卡，但不能完全模仿真实用户的用卡行为模式。

而且，欺诈者本身的欺诈用卡行为也往往会表现出一些特征，如密集使用、大额交易、光顾特殊商店等。

所以，通过对当前交易信息和历史交易信息的对比，可以提炼出几百个能够在一定程度上区别欺诈性交易与真实性交易的预测变量，然后利用复杂的神经网络模型，通过机器学习把预测信息以函数形式综合在一起，预测每一个交易为欺诈的概率。

交易欺诈风险评分模型预测变量的提炼技术比较复杂，因为它把当前交易和历史上不同时期许多交易的方方面面的信息进行对比，从而判断当前交易是否与历史交易模式一致。

简单的预测变量只运用当前交易的信息。

（1）一维性的变量，例如：

①交易金额；

②商户种类；

③交易发生地离卡用户家庭住址的距离远近；

④交易发生时间。

（2）二维性的变量，把两种数据元素结合在一起，例如：

①把商户种类和交易金额组合在一起；

②把交易发生的时间与距离远近组合在一起等。

复杂的预测变量把当前信息与历史信息相联系、对比。

（1）以时间为基础的变量，例如：

①过去30分钟交易的次数或平均金额；

②过去1小时、2小时、3小时、半天、1天、2天、1周等时间段交易的次数或平均□第四章个人征信业务

金额；

③当前交易金额与过去若干时间段的交易金额的均值和标准差的对比等。

（2）以事件为基础的变量，例如：

①过去2次、3次、4次、N次交易的平均金额；

②过去2次、3次、4次、N次交易的最大金额；

③当前交易与过去若干次交易金额的均值、标准差以及最大值的对比等。

不仅对金额可以提炼以时间为基础或以事件为基础的变量，对于商户种类、交易距离、交易时间、交易种类、交易方式、交易国家、交易货币等信息均可以提炼类似的变量，如过去1天光临珠宝店的次数以及过去N次交易地点离家庭住址距离的均值、最大值、最小值、标准差等。

通过这些复杂的变量，可以捕捉到每个信用卡用户的历史行为模式、当前交易行为与历史行为模式的差距、交易发生的速率和动态。

把这些错综复杂的信息以神经网络模型或其他模型技术综合起来，能够有效地预测欺诈的概率大小。

需要指出的是，由于交易欺诈风险评分模型的变量提炼需要相当长的交易历史，涉及的交易量极其庞大，每一次交易的数据量又很大，所以，如何有效地保存、清理、加工这些数据成为一个极大的技术挑战。

特别是欺诈风险评分往往是在授权系统里实时贯彻的，数据处理的速度和效率可以对授权系统的表现产生一定的影响。

一般来说，变量的提炼涉及的数据存储有两种方式：

一种是把相关的整个交易历史的数据保存起来，精确地按定义来计算变量值。

比如，过去10次交易的平均金额。

如果把过去10次交易的信息都保留在数据表里，则计算均值是很简单的。

这种方式的好处是直观、精确，但它要求相当高的数据存储空间和计算能力，设想一下，如果要计算过去3年的平均交易额，则意味着需要保存每个账户3年里所有的交易信息并实时计算'

从实践上讲，是十分困难的。

折中的办法是保留一定的交易历史（如3个月），这样可以在一定程度上缓和对数据存储和计算能力的挑战，但代价是历史信息不完全。

当然，随着数据存储技术的不断进步和计算机计算能力的不断增强，数据存储空间和计算能力的限制将不断减少。

另一种方式是把过去的交易信息总结起来，只保留相关的总结性信息，而不保留具体的历史交易信息。

比如，为了计算近10次交易的平均金额，我们并不保留最近10次交易的具体记录，而是把上次的该项均值保留起来，与当前交易的金额进行加权平均。

以数学公式来表达如下：

X=aX,_l+bV,.

Z,为当前需要计算的均值，*代表当前，*-1代表上一次，尤“为上一次计算并保留下来的变量值，F,为当前交易的金额，^和6分别为加权比重，6的值越大，则当前交易金额对变量值的影响越大。

类似地，可以用这种方式来保存必要的总结性信息，而避免了保存完整交易历史信息的技术困难。

这种方式的优点是显然的：

对数据存储空间和计算能力的挑战性较低，而且总结性信息以特殊的方式反映了交易历史。

这种方式的挑战性123

134

在于，如何确定a和6的加权比重，显然，如果权重不合理，则变量值的精确程度可能会成为较大的问题。

不管以何种方式，在提炼出大量的、具备一定预测力的变量以后，可以通过一定的统计手段来选择合适的变量，组建模型，常用的手段如回归分析、神经网络模型、线性规划等。

|四、FICO评分技术介绍

目前应用最广泛的个人信用评分是美国的FICO信用评分。

它于20世纪50年代由工程师比尔?

费尔（BillFair）和数学家法尔?

艾萨克（FarlIsaac）发明，目前美国三大信用局Experian、Equifax和TransUnion都使用它对个人信用质量和风险进行量化。

FICO评分主要用于贷款方快速、客观的度量客户的信用风险，缩短授信过程。

FICO信用评分技术的基本思路是将借款人过去的信用历史资料与数据库中全体借款人的信用习惯相比较，检查借款人的发展趋势与经常违约、随意透支、申请申请破产等各种陷入财务困境的借款人发展趋势是否相似。

该模型利用多达100万的大样本数据，首先确定决定消费者信用的指标，再把各个指标分成若干档次以及各个档次的分值，然后计算每个指标的加权，最后得到消费者的总分。

FICO信用评分的打分范围是325~850，得分越高，其信用度也越高。

一般来说，如果借款人的信用分达到680分以上,金融机构就可以认为借款人的信用卓著，可以毫不迟疑地同意发放贷款。

如果借款人的信用分低于620分，金融机构或者要求借款人增加担保，或者干脆寻找各种理由拒绝贷款。

如果借款人的信用分介于620-680分之间，金融机构就要作进一步的调查核实，采用其他的信用分析工具，作个案处理①。

美国各种信用分的计算方法中，FICO信用评分的正确性最高。

据一项统计显示，信用分低于600分，借款人违约的比例是1/8，信用分介于700~800分，违约率为1/123，信用分高于800分，违约率为1/1292。

因此美国商务部要求在半官方的抵押住房业务审查中使用FICO信用评分。

FICO评分考虑的主要因素包括：

（1）过去的还款历史

①各种不同账户（如信用卡、零售贷款账户、分期付款账户、住房抵押贷款等）的还款信息；

②负面的公共记录信息（如破产、诉讼判决等）；

③拖欠的严重程度；

.①姜琳.美国FIC0评分系统述评.商业研究，2006（20）。

□第四章个人征信业务

④到期拖欠或催收账户的数量；

⑤最近的拖欠、负面公共记录或催收至现在的时间；

⑥按期还款的账户数量。

（2）未偿还信贷的数量

①各类账户中未偿还贷款的数量；

②某些特别类型的账户中未偿还贷款的数量；

③有贷款余额的账户数；

④信用额度使用的比例（某类循环账户的贷款余额占信贷额度的比例）;

⑤分期付款贷款中未偿还的比例。

（3）建立信用的时间

①开设信用账户的时间；

②某类特定账户开设的时间；

③账户活动的时间。

（4）新贷款的查询与获取

①近期开设账户的数量，近期开设的各种不同类型账户的比例；

②近期信用查询的数量；

③近期不同类型账户开设的时间；

④近期信用查询的时间。

（5）已建立信用的类型

不同类型账户（信用卡、零售货款账户、分期付款、抵押贷款、消费贷款等）的数量。

展开阅读全文