信贷风控模型架构.docx-资源下载

信贷风控模型架构.docx

1、信贷风控模型架构风控业隽背景互联网金融相对于传统金融出现更多机遇和挑战。如何将机器学习、深度学习等前沿人工智能技术赋能于金融风控领域，打造金融科技(FINTECH ),已经成为大家关注的焦点。高性能、高可靠、易维护的风控模型是支持风控策略迭代的基础。本文主要探讨一种适用于大数据风控的建模框架，并尝试分析功能模块设计、优势与不足、解决方案。Part 1.大数据风控的特点和挑战Part 2.传统评分卡的优势和不足Part 3.机器学习的优势和不足Part 4.大数据信贷风控模型架构Part 5.总结1Parti.大数据风控的特点和挑战互联网金融相对于传统金融在业务模式上具有诸多不同点：传

2、统金融的订单数少、订单金额高、贷款期限长、客群资质好、风控预算高。互联网金融订单数多、订单金额低、贷款期限短、客群资质差、风控预算低。互联网金融相对于传统金融在风控上具有更多挑战，这包括：长尾劣质客群更加不稳定，这容易导致样本波动，加大风控建模难度。互金市场波动剧烈,需加快模型迭代更新周期。例如，2018年6、7月份的“P2P暴雷潮”。数据源采集上种类更多，弱相关数据更多，处理难度更大。这就需要人工智能技术。政策合规要求，数据采集和使用更加规范化。例如，近期国家对数据非法爬取的集中整治。随着监管趋严和行业愈加规范化,大数据风控,尤其是基于弱数据的风控正成为线上信用贷业务最重要的核心竞

3、争力。数据是风控的基础，只有对借款人全方位的理解，我们才能做好风控。一般可将风控数据分为四部分：资质类数据：包括真实的身份信息、学历（大专、本科、研究生等）、收入、职业（白领、蓝领等）、人脉信息等。信贷类数据：包括央行征信报告、内部信贷历史（申请、还款、催收）、第三方征信数据、第三方多头借贷数据等。消费类数据：包括电商消费记录、信用卡账单、借记卡流水等。行为类数据:包括埋点行为（前端、后端）、设备App、活动轨迹、内容偏好（浏览商品、新闻）等。自上而下，这些数据与逾期信用风险的相关性逐渐降低。通常，我们也称为强金融属性和弱金融属性数据。2Part 2.传统评分卡的优势和不足传统评分卡一直

4、在银行信贷业务中成功实践了几十年，禁得起时间的检验。因此，我们必然要取其精华。传统评分卡的优势在于：泛化性强：简单模型泛化性能相对复杂模型更强。稳定性好：通过WOE分箱技术提高了变量的鲁棒性。可解释性强：线性模型，变量系数可以判断对最终结果的影响。小样本学习：信贷样本相对更少，利用较少样本就可以训练模型。其劣势在于：特征要求强相关，这就强依赖建模人员的业务经验。线性特征对于挖掘的信息价值相对有限。通常需要分群建模，这将带来很多额外工作量。（可参考：利用样本分群提升风控模型性能）3Part 3.机器学习的优势和不足随着大数据的出现，机器学习慢慢焕发出其生命力。其优势在于：引入了非线性因素，模

5、型拟合能力更强，能从海量的、贫瘠的数据中挖掘出数据价值。通过集成学习可将弱模型打造出强模型，如随机森林、GBDT、 XGBoost、LightGBM 等。支持更多弱特征入模，而不必像评分卡模型需要花大量时间筛选特征。其劣势在于：由于引入了大量的非线性因素，模型可解释性降低。样本量较少的情况下容易产生过拟合现象。复杂模型参数过多，调参依赖于人工经验。4Part 4.大数据信贷风控模型架构我们认识到了传统评分卡和现代机器学习各自的优势和不足，自然会萌生一种朴素的想法：能不能将两者取长补短，有机结合起来？目前业内主要有三个探索方向：方向一：利用数据挖掘算法构建特征，再使用评分卡模型。方向二:

6、保持传统风控特征筛选的严格标准，但使用机器学习模型。方向三：大规模样本结合机器学习，保证模型的稳定和泛化。本文借鉴了以上思路，提出一种大数据信贷风控模型架构，如图1 所示。自底向上可分为六个层次：1 原始数据域：主要包括运营商、通讯录、电商、公积金、设备、短信、自填信息、外部数据等数据域（domain ）。2.数据挖掘层:结合各类数据源的特点，利用相应的数据挖掘算法提取信息。例如，利用NLP处理文本类数据;利用图算法处理社交类数据。3.结构化特征:最终可用的特征往往是结构化的。同时，需做好特征数据集市管理，线上线下一致性比对等工作。4.模型算法库:在掌握模型机理的前提下，选择多种合适的

7、机器学习算法来建模。5.机器学习子模型分数据域选择合适的算法，建立多个子模型。6.评分卡主模型F各子模型分数作为新的特征输入评分卡模型。ffifg运豪商地址通讯录I第三方征（8isa电商1埋点行为图1大数据风控模型架构该框架在大数据风控上具有核心优势，可归纳为以下几个亮点：1可解释性：在数据域粒度上具有一定的可解釋性。传统评分卡具有良好的可解释性，变量权重系数代表了自变量对因变量的贡献强弱。分数据源建立子模型的框架，虽然牺牲了单变量粒度的可解释性，但保留了数据试粒度上的解释性。根据如下所示的评分卡Reason Code , 我们可以迅速定位到用户在哪个数据域上得分过低、过高、缺失，

8、进一步回溯至数据域上定位到具体变量。也就是顺藤摸瓜，定位原因。 Attribute partialScore=M6.0 reasonCode=l,device_submodel_score 分数过高 Attribute partialScore=ll-10.0 reasonCode=Hdevice_submodel_score 数据缺失 2.集成学习：利用机器学习提取弱信息降低人工构造特征门槛。传统评分卡是线性模型，虽然可以通过WOE变换能解决部分的非线性问题，但人工构造强业务特征的门槛仍然很高。该模型架构属于集成学习，底层机器学习子模型能帮助自动合成深度特征（子模型分数）。因此，在业务经

9、验相对不足的情况下，我们可批量构造RFM特征（可参考风控特征一时间滑窗统计特征体系）。当然这并不是教你偷懒，基于对业务和数据的理解去构造特征仍然是最重要的。3.缺失处理：利用WOE变换解决数据缺失问题。在学习WOE变换时，我们提到过一个重要的知识点：WOE变换可以处理缺失值。（可参考WOE与IV指标的深入理解应用）由于不同数据域的样本覆盖率存在差异，当我们完成分数据域建模，在关联至全量放贷样本上生成特征宽表时，就会出现部分样本的子模型分缺失问题。此时，可通过对子模型分数进行WOE变换。如图2所示，该数据域子模型分数的覆盖率约为50%，但通过WOE变换,是保证了鲁棒性，二是解决了缺失问题。图2

10、机器学习子模型分数WOE变换4多样性：保证多个数据域特征入模r丰富变量的维度。如果我们将所有数据域的特征直接输入机器学习模型，再根据特征重要性粗筛，将会发现一个常见的问题：某些金融属性相对较强的数据域变量将牢牢占据Top N的位置，导致某些数据域变量根本无法入模。而分数据域建模，可保证各数据域中相对较强的变量都能强制入模，从而引入了维度的多样性。多维度的数据帮助我们从不同角度衡量借贷人的风险。5.模块化：子模型支持“搭积木”式灵活组装提高复用性。实际项目中，我们很可能会遇到这样的难题：最近国家对爬虫数据、第三方征信数据集中整治，导致很多依赖外部数据的平台纷纷忙着调整策略。考

11、虑到某块数据源未来可能无法采集的风险，我们一般都会采取模型降级方案。按传统建模方法，我们通常需输入所有的变量重新训练模型。这是一个非常繁琐的工作，因为需要再次开展特征筛选、致性比对、上线部署等工作。模块化意味着具有良好的可扩展性。此时，我们就只需剔除相应的子模型，利用剩下的子模型重新组装评分卡即可。这能很好适应风云变幻的互联网金融市场。才是汪在銘上图3 模块化自由组装6并行化：在大型风控建模项目中易于分工协作。在大型风控建模项目中，往往需要团队多人协作。由于各数据域之间相互独立，可以分发给多个建模同学并行化作业，更加专注于某块数据域的数据清洗、特征工程、子模型构建等，从而保证项目进度，实现快速迭代。专注的人才能做好专业的事。这种方式更能保证对弱数据的挖掘更加深入，也更能提升效率。图4分数据域协作建模当然，该模型架构同样存在一些不足之处, 但我们可以有针对性地去改善。1牺牲了部分的可解释性。底层机器学习子模型仍然是黑盒模型，或者一些特征变量（如embedding 特征）并不具备可解释性。如果风控策略和模型用到相同的变量，策略调整变量阈值后，对结果的影响难以预估。解决方案:

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？