信用建模PPT格式课件下载.ppt
《信用建模PPT格式课件下载.ppt》由会员分享,可在线阅读,更多相关《信用建模PPT格式课件下载.ppt(15页珍藏版)》请在冰豆网上搜索。
,2006InforSenseLtd.,5,均衡的样本,由于违约概率小于3%,目标变量值的分布非常不均衡有两种方法可以解决这类问题:
过度抽样:
对目标变量取值占少数的这类样本重复抽样,使得在新的数据集中这类样本的数量与其它类的样本数量相当;
缩减抽样:
对目标变量取值占多数的这类样本只抽取其中一部分,使得在新的数据集中这类样本的数量与其它类的样本数量相当;
如何证明哪种抽样方法更为有效?
将数据集分成两部份:
训练集和测试集对训练集进行过度/缩减抽样,并在新的数据集上训练模型利用模型对测试集(未进行抽样操作)预测选择预测效果较好的那种抽样方法对永隆银行的信用数据集而言,过度抽样可以获得更高的提升值InforSenseKDE的oversamplingnode可以完成过度抽样的操作,samplingnode可以用来完成缩减抽样的操作,2006InforSenseLtd.,6,模型验证,在对训练集进行过度抽样之后,InforSense的DecisionTreeNode可以用于生成决策树模型;
在模型训练完成之后,利用该模型对测试集(没有过度抽样)进行预测;
预测效果可以通过提升图、ROC图等方法来验证;
验证结果表明,决策树模型在永隆银行的信用数据集上表现令人满意。
2006InforSenseLtd.,7,后处理消除过度抽样引起的偏差,当模型验证通过之后,使用该模型对信用数据集进行预测,并给出每个客户违约概率的预测值由于过度抽样改变了目标变量取值的分布,因此需要对违约概率的预测值进行调整,以消除存在的偏差假设训练数据集中违约类客户重复抽样了r,P_D和P_N分别是决策树预测的客户违约和不违约的概率则调整后的PD的值=(P_D/r)/(P_D/r+P_N),2006InforSenseLtd.,8,后处理:
信用等级映射与模型校对,永隆银行的信用等级总共有14个级别(由普华永道规定),其中1是最高级别,14是最低级别InforSense的DeriveNode可以根据普华永道制定的规则将违约概率映射到相应的信用等级上基于这些等级,可以给出每个模型在各个等级的客户数量及违约个数一个好的模型应该评级结果应该和外部评级(普华永道)的结果相符等级较高的客户群中违约概率较低,-RatingWLBDT#WLBDTDefault#InforSenseDT#InforSenseDTDefault#15000540001230005025004533000150200010050010060080.,2006InforSenseLtd.,9,1.数据集,2.数据分割,3.过度抽样,4.构建模型,5.模型验证,决策树信用风险模型工作流,2006InforSenseLtd.,10,决策树信用风险模型后处理工作流,1.模型应用,2.计算违约概率,3.消除过度抽样偏差,4.等级映射,5.计算各等级分布情况、模型校对,2006InforSenseLtd.,11,逻辑回归,逻辑回归是业内构建信用风险模型的标准方法逻辑回归建模步骤步骤1:
使用InforSenseStandardizationNode将分类变量转换成为数值变量(也可以将分类变量转化为多个二元指示变量,但在分类变量取值较多时这种方法并不可取)步骤2:
人工筛选变量进行变量之间的相关性分析,并结合专家领域知识,删除强相关的属性和无关属性(虽然InforSense提供的逻辑回归可以自动筛选变量,但人工方法可以有效剔除无用甚至有害的属性,并减少了模型的训练时间)步骤3:
使用InforSense的logisticregression结点进行建模,采用后向逐步回归自动筛选出有用的属性(我们设置的保留属性的p值水平为95%,最后总共有15个变量保留在模型中)步骤4:
应用逻辑回归模型基本方法与决策树方法类似,但是有两点区别在训练集上采用的standardization模型需要应用到新数据集上无需向决策树模型那样消除过度抽样所产生的偏差,2006InforSenseLtd.,12,逻辑回归,永隆银行风险管理部门对逻辑回归模型的预测结果表示满意该模型所预测的违约概率的取值比决策树更为平滑所预测的各个信用等级上违约客户的分布也与普华永道给出的外部评级结果相容,2006InforSenseLtd.,13,变量转换注释,逻辑回归要求所有的输入变量必须是数值类型InforSense提供了两种方法可以将分类变量转换成为数值变量数据分解方法:
将分类变量转换为多个二元指示变量,每一个二元变量对应给分类变量的一个取值,并在分类变量等于该值时取值为1,否则为0。
使用这种分解方法,用户比较容易解释该分类变量各个取值在模型中重要性,但是当取值较多时,该方法生成的变量也会大大增加类别评分方法:
首先进行单变量分析,测量该分类变量各个取值对违约概率的影响程度(用后验概率或Odds表示),随后对它们进行标准化操作(用户可以设定标准差的大小),最终结果作为各个取值的得分作为模型的输入。
该方法可以将一个分类变量转换成一个数值变量,并在实际情况中取得了较好的结果,但是对于结果的解释不如数据分解方法直观(我们仍需要更多的资料证明这种方法的合理性)我们建议用户先采用类别评分方法进行变量类型转换,然后利用模型进行变量自动筛选,最终用户可以采用数据分解方法转换变量类型作为模型的输入,2006InforSenseLtd.,14,属性重要性注释,有三种方法可以用来进行属性选择,它们主要用来衡量各个变量对目标变量的预测能力方法一:
使用每个变量和目标变量构建线性回归模型,观察回归模型的系数。
如果该变量与目标变量的相关性较小,与专家商量确认后可舍弃该变量方法二:
使用逻辑回归方法中的前向/后项逐步回归方法选择最有利于预测目标变量的变量集合方法三:
使用Oracle的属性重要性算法来判断每个变量的相对重要程度。
该算法应用了信息论中的最小描述长度的概念衡量变量对预测类别的重要程度。
这种方法较为复杂,对结果的解释也不如前两种方法直观,因此我们建议将它作为筛选变量的一种辅助方法。
2006InforSenseLtd.,15,TherearetwopartstocalculatetheMDLThefirstparttransmitsthemodel.Foragivenpredictor,withacountofninagivenbinandmuniquetargetvalues,thedescriptionlengthofthebinislog2(n+m-1)!
/(m)!
)where(n+m-1)!
isthenumberofcombinationsoflengthnfromasetofm(distincttarget)values,the(target)valuescanberepeatedormissing.Thesecondpartofthedescriptionlengthisnegativelog2entropy.Whencomputingtheentropy,theprobabilitiesarebasedonsmoothedcounts,addingonetothecountofeachtargetvalue.Togetthedescriptionlengthofapredictor,wesumthedescriptionlengthacrossallbins:
DL(bin)=sumbins=jin1.blog2(nj+m-1)!
)-sumtargetvalues=kin1.tcntkj*log2(cntkj+1)/(cnt.j+t)AIreturnsthevalueofDLforeachpredictor.(Note:
theaboveformulaisprovidedbyOracleODMteam.Welldiscusswiththemtogetmoreintuitiveexplanations.),MDLCalculation,