根据SAS的贷款分析研究.docx
《根据SAS的贷款分析研究.docx》由会员分享,可在线阅读,更多相关《根据SAS的贷款分析研究.docx(80页珍藏版)》请在冰豆网上搜索。
根据SAS的贷款分析研究
基于SAS的贷款用户审批率的预测模型研究
北京理工大学珠海学院陈雪雪、田然、胡晓清
摘要.....................................................................................................................................................3
一、问题重述...................................................................................................................................1
1.1问题背景.............................................................................................................................1
1.2问题提出.............................................................................................................................1
二、问题分析...................................................................................................................................2
2.1对于问题一..........................................................................................................................2
2.2对于问题二..........................................................................................................................2
2.3对于问题三..........................................................................................................................2
三、模型假设...................................................................................................................................2
四、符号说明...................................................................................................................................3
五、模型的建立与求解...................................................................................................................3
5.1问题一模型的建立与求解.................................................................................................3
5.2问题二模型的建立与求解.................................................................................................7
5.2.1数据准备..................................................................................................................8
5.2.2变量压缩与筛选......................................................................................................8
(1)离差平方和ward聚类分析法................................................................................9
(2)对经典聚类分析的进一步改进——斜交主成分聚类分析....................................13
5.2.3对连续自变量进行线性化变换...........................................................................18
5.2.4审批率Logistic回归模型建立.........................................................................22
(1)模型对比.................................................................................................................22
5.3审批率的的优化和预测....................................................................................................24
5.3.1审批率预测模型的优化.......................................................................................24
5.3.1roc曲线概述........................................................................................................27
六、结论...........................................................................................................................................28
七、模型评价...................................................................................................................................29
7.1模型的优点.......................................................................................................................29
7.2模型的缺点.......................................................................................................................29
参考书目...........................................................................................................................................29
附录...................................................................................................................................................29
表格和插图清单.................................................................................................................................2
表格和插图清单
图1总点击率的分布..............................................................................................................................4
图2样本数据中各点击率对总点击率的影响大小..............................................................................5
图3各项子点击率汇总比例图..............................................................................................................6
图4总点击率频数比例..........................................................................................................................7
图5审批率预测模型流程图..................................................................................................................8
图6合并数据集示意图..........................................................................................................................8
表1九个聚类数的协方差矩阵..............................................................................................................9
表2九个聚类数的聚类历史................................................................................................................10
图7九个聚类数的logitp-value图......................................................................................................10
图8连续变量的分箱logit图...............................................................................................................10
表3七个聚类数的协方差矩阵............................................................................................................11
表4七个聚类数的聚类历史................................................................................................................11
图9七个聚类数logitp-value图..........................................................................................................12
图10分箱logit图.................................................................................................................................12
表5取阀值............................................................................................................................................13
表6一个聚类的结果分析....................................................................................................................13
表7两个聚类的结果分析....................................................................................................................14
表8三个聚类的结果分析....................................................................................错误!
未定义书签。
表9十八个聚类的结果分析................................................................................错误!
未定义书签。
表11最终筛选变量结果.......................................................................................错误!
未定义书签。
表12-表14Spearman系数...................................................................................................................17
表15-表17Hoffeding系数....................................................................................................................18
图11limit变量与logit值的线图..........................................................................................................19
图12limit变量的均值与logit值的线图..............................................................................................19
图13application_limit变量与logit值的线图.....................................................................................20
图14application_limit变量的均值与logit值的线图.........................................................................20
图15date变量与logit值的线图.........................................................................................................21
图16date变量的均值与logit值的线图............................................................................................21
表19信息测量指标..............................................................................................................................24
表20模型卡方估计..............................................................................................................................24
表21优比估计值..................................................................................................................................24
表22最大似然估计值分析..................................................................................................................26
表23预测概率与观测响应的关联......................................................................................................27
图17roc曲线.........................................................................................................................................27
摘要
贷款审批率预测模型是金融机构处理贷款业务中的一个典型应用.本文将利
用用户相关信息和贷款产品相关信息对审批率进行预测.
针对问题一,本文通过对user数据集提取用户的访问平台信息,并用jmp
作图,对数据进行处理分析,将巨大的数据集用图像的方式把问题转变的更加清
晰直观化.并分析出用户访问平台的特点:
用户访问平台时,更多的注重贷款产
品类型,几乎关注贷款的利率和贷款偿还.
针对问题二,本文先使用sas对数据集进行合并,利用用户id相同特点将
数据集合并成text数据集,然后统计出数据集中的缺失变量的数量,进而对变
量进行预处理.并利用离差平方和聚类分析法以及斜交主成分聚类分析法对变量
进行压缩,对连续变量进行线性化变换,将整理好的数据集进行变量压缩和变量
筛选,最后做logistic回归,得到的审批率预测模型.
针对问题三,利用最大似然估计方法得出贷款用户审批率的logistic模型,
并结合最小SBC信息量准则选取最优模型,得到最优审批率预测logistic回归
模型,可得最优logistic回归方程为:
Logit(p')0.90.004x1.17x0.005x0.003x0.73x0.0009x
123456
0.006x0.48x0.85x0.5x0.009x0.36x0.72x
7810111213
9
最终我们对响应变量进行预测,匹配产生因拼接精度较高,预测响应为1
的概率小于响应为0的概率的配对数占总配对数的比为34.1%.说明预测值与观
测值在现有水平上有较强的关联性,回归模型有很强的预测能力.通过计算我们
可知,模型的预测精度达到83%左右.
关键词:
贷款审批率Logistic模型极大似然估计法聚类分析法可视化SAS
一、问题重述
1.1问题背景
贷款是指金融机构给定利率和还款条件的出借资金的信用活动形式.在贷款业
务中金融机构需要平衡利润和风险,所以需对客户基本资料进行管理和系统的分析,构建以客户为中心的贷款审批模型尤为重要.
贷款审批率预测模型是根据客户申请信息为依据,通过大量的客户信息进行
分析,找出客户申请的行为规律,及时响应客户的需求和提供客户满意的贷款产
品,同时又能防范不良贷款的风险.
融360是中国最大的网络贷款平台,通过平台搜索和推荐服务为借款用户和贷款金融机构搭建交易.借款客户进入平台后,会通过贷款平台的搜索和推荐服
务找到合适的贷款产品,填写自己的个人基本资料,最终提交贷款订单,金融机
构通过贷款平台收到订单后,对用户资质进行风控审核,最终决定是否通过用户的订单.
本文对下单用户群进行统计分析以及建立模型来预测审批通过率,因此,本
文采用平台上的部分数据进行分析建模,以此帮助贷款用户、平台和金融机构实现共赢.
1.2问题提出
贷款审批率的预测在金融机构办理贷款,用户提供优质服务和防范不良贷款
等方面起到很重要的应用作用,简单的说,良好的建立信贷关系有利于贷款用户、
融360平台和金融机构的共赢,融360平台为我们的课题研究提供大量的用户信
息,在数据量巨大的数据集中,本文将数据集分为用户相关数据和订单相关数据,
需要提取在数据集中对信贷关系有较大影响的因素.
目前根据根据数据集庞大,影响变量众多的特点,将问题主要集中在大数据
的挖掘和处理上,本文需要对用户及产品信息进行基本的简单统计分析,并且利
用用户及产品的信息建立预测审批结果的统计模型,和利用用户及产品的信息建
立预测审批结果的统计模型.
传统上,对数据的挖掘和处理工作准确