ImageVerifierCode 换一换
格式:DOCX , 页数:10 ,大小:157.50KB ,
资源ID:10635847      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/10635847.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(大数据分析报告的应用模拟的题目二附问题详解.docx)为本站会员(b****7)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

大数据分析报告的应用模拟的题目二附问题详解.docx

1、大数据分析报告的应用模拟的题目二附问题详解1(50.0分)某金融机构为了研究其信用卡发放风险,收集整理了一些客户的数据,包括他们的基本信息,经济情况,以及是否拖欠还款等,具体如附表所示(已经将客户分为了训练集和测试集)。数据分析应用1训练数据.xlsx数据分析应用1测试数据.xlsx进行数据预处理,并用不同的算法模型(逻辑回归、神经网络等)分析信用卡拖欠还款情况,结合测试数据对比模型的拟合优度,要求写出具体的思路过程。答案:1、由题意,可以确定本题中年龄、教育水平、当前工作年限、当前居住年限、家庭收入、债务占收入比例、信用卡负债、其他负债等为自变量,还款拖欠情况为因变量。2、对数据进行预处理:

2、本案例数据均为数值型,符合模型建设要求;本案例数据不存在缺失值,故此项不用处理;通过datahoop平台箱形图可知,家庭年收入一项异常值较多,但是结合实际情况认为可能是有特殊人群存在,故此处不做处理。观察训练集数据可知,本案例样本均衡,可以进行模型建设。下边分别用逻辑回归、神经网络、SVM进行模型测试。3、(1)逻辑回归:首先进行变量的相关性检查,将训练集导入平台,通过datahoop平台相关系数矩阵分析得出如下相关系数矩阵由相关系数矩阵得知变量之间虽有相关性但相关性不高,可以直接进行逻辑回归分析.打开datahoop平台预测分析,将训练数据放入训练表,测试数据放入测试表,选择相应的自变量和因

3、变量,选择逻辑回归。结果如下:由模型训练结果可知Accuracy,AUC值,准确率召回率F1值都比较高,模型拟合效果较好,训练误差不大。将模型预测结果中的预测数据和测试集中的实际数据对比,得到混淆矩阵并计算出相应的准确率和召回率如下:由混淆矩阵计算得出的准确率和召回率都比较高,模型泛化误差不大,模型整体预测效果较好。(2)神经网络:具体描述同逻辑回归,模型训练结果如下:将测试结果和测试集中的实际分类对比,得到的混淆矩阵及准确率、召回率、预测率,F1值结果如下:由训练结果可以看到Accuracy、AUC、准确率召回率等都较大,模型拟合效果较好,训练误差不大;由测试结果可知Accuracy、AUC

4、、准确率召回率等都较大,模型测试效果较好,泛化误差不大。(3)SVM:导入datehoop平台得到如下训练结果:将测试结果和测试集中的实际分类对比,得到混淆矩阵如下:SVM模型训练结果可知Accuracy、AUC值均较高,准确率和召回率都较大,模型拟合效果较好,训练误差不大;由预测结果和测试集中的实际结果对比,模型ACCURACY值不高,预测为1召回率和F1值较小,模型预测效果不好,泛化误差较大。4、通过对比以上3种分类模型的比较,逻辑回归整体精确度最高,SVM模型最差,在此案例中,我们更关注客户是不是会拖欠贷款这一点,即我们更关注分类结果为欠款(即为1)的召回率的大小,对比三个模型可知,神经

5、网络这一模型1的召回率最大,因此三个模型中神经网络的预测效果最好。2(50.0分)为了研究手机好评率与品牌、价格的关系,某公司收集如附表所示数据,数据收集的信息包含手机的评论得分和评论内容以及手机品牌和价格等信息。手机数据.xlsx对数据进行预处理,选择合适的模型分析手机好评率与品牌、价格的关系,要求写出详细的思路和过程。答案:1、首先对数据进行预处理:观察数据可知不存在缺失值,故此项不用处理。因为手机品牌中存在非数值型数据,因此对手机品牌数据进行数值化,编码如下:品牌编号360121KE2HTC3LG4OPPO5vivo6ZUK7锤子(smartisan)8飞利浦(PHILIPS)9华为(H

6、UAWEI)10金立(Gionee)11酷派(Coolpad)12手机价格属于连续型变量,因此需要离散化,离散结果如下:价格编号500-1000onej1000-1500twoj1500-2000threej2000-2500fourj2500-3000fivej3000-3500sixj3500-4000sevenj5000-6000eightj6000以上ninej由题意可知分析手机好评率同价格和品牌、价格等的关系,因此根据已知数据构建新的变量好评率(好评率=好评数/总评论数*100%),计算出的好评率依旧是连续型数据,进行离散化处理如下:好评率编号0.82-0.93hp10.94-0.9

7、5hp20.96-0.97hp30.98-1hp4将数据导入datehoop平台进行异常值处理,通过箱线图可以看到虽然有异常值,但是属于温和异常值,此项不做处理。2、对应分析将手机品牌和好评率进行对应分析,交叉图及因子贡献率如下 从因子贡献率可以看到提取两个因子的贡献率就达到了80%以上,因此提取两个因子即可。根据对应分析的图表可以看到处于hp1也就是低好评度的品牌主要有品牌3、9。接着较低好评度品牌有1、2、8、11。较高好评度品牌包括5、10、12。高好评度品牌有6、7、4。因此品牌好评率分布为:好评率等级品牌低级HTC飞利浦较低360,21KE、锤子、金立较高oppo、华为、酷派高级VI

8、VO、LG、ZUK然后对价格等级和好评率等级进行对应分析,可以看到提取了3个因子,前两个因子贡献率达到将近80%,因此这里选取两个因子就可以。通过对应分析图表可以看到不同价位的手机的好评情况: 好评等级价位:低级第一区间价位(500-1000),第二区间价位(1000-1500)第八区间(5000-6000);较低第三区间价位(1500-2000);较高第四区间价位(2000-2500)第六区间(3000-3500)第九区间价位(6000-7000);高级第五区间(2500-3000)第七区间(3500-4000);从表中可以看到用户评论中500-1500价格区间的手机好评率最低,500-60

9、00价位的手机好评率也最低。1500-2000价位的手机好评率较低;2000-2500价位/3000-3500价位和6000-7000价位手机好评率较高,好评率最高的是价位2500-3000价位手机和3500-4000价位。【以下为平台答案解析】1答案解析:本案例数据均为数值型且不存在缺失值,且样本均衡。接下来分别用逻辑回归、神经网络和SVM算法进行分析,根据泛化误差来选择最合适的模型。逻辑回归:逻辑回归要考虑异常值的影响,以及变量是否存在共线性,因此我们进行异常值分析和相关性分析。异常值分析发现异常值较多,猜测可能是分类的影响,因此不做处理。由相关矩阵可看出变量之间虽然也有相关,但不是很强,

10、因此可以进行逻辑回归。由训练结果可以看到Accuracy、AUC、准确率召回率等都较大,模型拟合效果较好,训练误差不大。用训练数据和测试数据进行预测,对比测试数据的预测结果和实际分类,可以得到混淆矩阵,并求得Accuracy、准确率召回率等。神经网络:用神经网络算法分析,由训练结果可以看到Accuracy、AUC、准确率召回率等都较大,模型拟合效果较好,训练误差不大。用训练数据和测试数据进行预测,对比测试数据的预测结果和实际分类,可以得到混淆矩阵,并求得Accuracy、准确率召回率等.SVM算法:用SVM算法分析,由训练结果可以看到Accuracy、AUC、准确率召回率等都较大,模型拟合效果

11、较好,训练误差不大。用训练数据和测试数据进行预测,对比测试数据的预测结果和实际分类,可以得到混淆矩阵,并求得Accuracy、准确率召回率等.想要预测信贷客户是否有可能拖欠债款,我们比较关心“欠款”这个分类结果的召回率,因此选择三个模型中1的召回率最大的模型,即神经网络算法来进行预测。2答案解析:本案例想要通过对应分析分析不同手机品牌和不同价格区间的手机的好评情况。对应分析是研究由定性变量构成的交互汇总表来揭示变量间的联系。交互表的信息以图形的方式展示。主要适用于有多个类别的定类变量,可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。适用于两个或多个定类变量。因此本案

12、例需要对要研究的定量变量进行定性处理。本案例中品牌属于类别数据,但是其中包含汉字,因子需要进行重新编码;价格属于连续型变量,因此需要进行离散化处理。好评数不能直接代表手机的好评情况,因此为了更好地表示手机的好评情况,这里采用好评率进行分析。由于好评率计算出来仍然是一个0到1之间的连续变量,因此需要进行离散化处理。数据分析:本次分析采用datahoop1.2版本进行分析,首先对品牌和好评率进行对应分析。从分析结果可以看到数据的交叉表,以及提取的3个公因子的贡献率和因子得分。从因子贡献率可以看到提取两个因子的贡献率就达到了80%以上,因此提取两个因子即可。根据对应分析的图表可以看到处于hp1也就是

13、低好评度的品牌主要有品牌7,9,11,12。接着较低好评度品牌有3,4。较高好评度品牌包括1,5。高好评度品牌有8,10。因此品牌好评率分布为:好评率等级品牌低级ZUK,飞利浦,金立,酷派较低HTC, LG较高360,oppo高级锤子,华为这样就可以清晰地看出不同品牌的好评情况。然后对价格等级和好评率等级进行对应分析,可以看到用户评论中500-1500价格区间的手机好评率最低,500-6000价位的手机好评率也最低。1500-2000价位的手机好评率较低;2000-2500价位/3000-3500价位和6000-7000价位手机好评率较高,好评率最高的是价位2500-3000价位手机和3500-4000价位。

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1