1、CPDA考试应用模拟一、 计算题(题数:4,共 分)1.影响中国人口自然增长率的因素有很多,据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。暂不考虑文化
2、程度及人口分布的影响。 从中国统计年鉴收集到以下数据(见表1): 设定的线性回归模型为:算法1多元线性回归.xlsx(1)求出模型中的各个参数,试从多个角度评价此线性回归模型,并检验模型的经济意义;(2)检验模型中是否存在多重共线性问题(逐步回归),若有,试消除多重共线性。答案解析:(1)直接进行线性回归即可得到各个参数(用excel)。多元线性回归模型评价可以从拟合优度、T检验、F检验等多个方面出发。(2)求变量的相关系数矩阵或采用逐步回归法(也可以用datahoop平台做线性回归,会自动删除共线的变量)。2.对近期上映的10部电影进行调查研究,抽取290人对这10部电影的评分(分值010分
3、),结果如下表所示。(1)根据表中数据对这10部电影的评分进行因子分析,并解析各个因子的含义;(2)可否利用电影的评分数据对这290名观影者进行聚类分析给出你的理由。算法2因子分析.xlsx答案解析:(1)因子分析选择隐含因子数为3,分别代表动作片、爱情片、动画片的影响评分因子。(2)可以,这290人对电影的偏好有区别,可以进行聚类,相关性分析后排除共线性的影响再进行聚类。3.某超市为了优化商品摆放结构,对近期顾客购买的商品类型进行了统计,如附表所示。(1)写出所有有效强关联规则(minsupport=10%,minconfidence=50%);(2)结合实际情况分析顾客喜欢的商品搭配,并对
4、该超市提出合理的建议。算法3关联分析.xlsx答案解析:关联规则分析中设置参数(minsupport=10%,minconfidence=50%),结果中强关联规则通过调整显示条目全部写出(重复的删除)。结合实际情况分析要写详细。4.某市为调查驾驶员视力情况(“1”表示视力正常,“0”表示有视力缺陷)、年龄、是否有驾驶教育经历(“1”表示有,“0”表示没有),这三个因素对是否曾引起交通事故(“1”表示发生过,“0”表示未发生过)的影响,随机抽样调查了45名驾驶员,得到数据如下:(1)建立模型分析驾驶员视力情况、年龄、是否有驾驶教育经历对是否曾引起交通事故的影响,写出详细的思路过程。(2)若要应
5、用此模型预测某批驾驶员中可能会引起过交通事故的人都有哪些,则还需要进行的研究步骤有哪些请说明。算法4逻辑回归.xlsx答案解析:逻辑回归,数据预处理包括分析共线性和异常值等,数据分为训练数据和测试数据,综合训练误差和测试误差评价模型。第二问要收集数据、处理数据、应用模型直接预测。-一、 计算题(题数:4,共 分)年相关经济数据如附表所示。设定国内生产总值为x1,地产投资总额为x2,全国居民消费水平为x3、全社会固定资产投资房屋竣工面积为x4,作为自变量;全国房屋销售均价设为Y,作为因变量。建立如下的多元线性回归模型:y=b0+b1*x1+b2*x2+b3*x3+b4*x4+b0,b1,b2,b
6、3,b4是未知参数,是剩余残差,且E()=0,与四个自变量无关。(1)求出参数b0,b1,b2,b3,b4,并评判模型拟合优度和实际意义,写出详细的分析依据和思路过程;(2)根据(1)对模型进行修正。多元线性回归.xlsx答案解析:(1)直接做线性回归,可得各个参数。通过R2,F、T检验,p值等分别分析模型。系数在经济意义上存在不合理性,可能是共线性的影响。(datahoop平台会删除共线的变量,所以这里用excel或spss等做回归。)(2)相关性分析和解释,去掉一些变量,重新做线性回归(在Datahoop平台上直接做也可以,平台会自动删除共线的变量)。2.为了解电影票房的影响因素有哪些,某
7、出品人搜集了2010年至2013年间中国电影发放放映协会统计的过千万票房的国产电影相关统计指标,共涉及275部影片。具体数据如附表所示。Datahoop上传测试集:电影票房数据(2010-2013).xlsxDatahoop上传训练集:电影票房数据(2010-2013).xlsx对数据进行预处理(包括缺失值、数据类型、离散化等),选择决策树模型进行拟合,并检验和分析模型。要求写出详细的思路和过程。答案解析:1.影片票房:影片票房是本次模型建模的因变量。通过对选取数据的统计分析,将票房数据进行分类,一共分为8个层次,分类情况如表所示:等级 1 2 3 4 5 6 7 8范围 1000万 2000
8、万 3000万 6000万 1亿万 1亿9000万 3亿 20亿 2000万 3000万 6000万 1亿万 1亿9000万 3亿 乘客IDSurvived = 是否生还Pclass = 乘客等级(1/2/3等舱位)Name = 乘客姓名Sex = 性别Age = 年龄SibSp = 堂兄弟/妹个数Parch = 父母与小孩个数Ticket = 船票信息Fare = 票价Cabin = 客舱Embarked = 登船港口对收集进行预处理,选择适当的算法进行分析,并评价和解释模型,要求写出具体的思路过程。答案解析:本次分析选取变量包括:Survived = 是否生还、Pclass = 乘客等级(
9、1/2/3等舱位)、Sex = 性别、Age = 年龄、SibSp = 堂兄弟/妹个数、Parch = 父母与小孩个数、Fare = 票价。理把性别进行0和1处理,female(女)转换成0,male(男)转换成1。年龄Age存在缺失值,因此对于年龄的缺失值需要进行处理,本次对年龄的缺失值用所有年龄数据的平均值进行填充。采用方法:逻辑回归,根据模型的预测结果可以看出模型的准确度还是比较好的,模型的AUC值也是比较高的。因此可以根据这些变量预测乘客生还与否。-一、 计算题1.电信公司为分析客户流失状况,为客户是否流失提供参考依据,随机选取了600名客户进行研究,得到了如附表所示一系列数据,收集到
10、的数据包含下列字段:在网月数截止数据收集时间为止的在网月数年龄客户实际年龄婚姻状况客户婚姻状况,0代表未婚,1代表已婚现地址居住时间现在地址的居住月份教育程度1:专科以下;2:本科;3:硕士;4:研究生;5:博士工作状态0:待业;1:在职性别0:女;1:男租设备0:不租;1:租IP电话0:无;1:有无线电话0:有;1:无本月话费话费具体金额语音信箱0:无;1:有网络0:无;1:有来电显示0:无;1:有呼叫等待0:无;1:有呼叫转移0:无;1:有流失状态0:未流失;1:流失 根据这些客户数据,进行数据预处理,之后分别用逻辑回归和SVM算法进行分析,对比两种算法的拟合优度,从而选择两者中更加适合的
11、算法模型。写出分析思路和过程,并为电信公司提供客户运营的相关建议。数据分析应用1电信客户流失数据.xlsx答案解析:根据逻辑回归和SVM算法对数据的不同要求,预处理要分析数据的共线性和异常值,之后分别进行逻辑回归和SVM算法分析,发现SVM的召回率、准确率、准确度等指标均较好,因此选择SVM算法。相关建议包括引入此模型分析客户,从而针对性运营等。2.选取7项经济指标作为决定经济类型的影响因素,对全国31个省、直辖市、自治区(浙江、湖南、甘肃除外)进行聚类分析(各项数据均来自2010年国家统计年鉴)。数据分析应用2省市分类.xlsx对数据进行预处理(创建新的变量等),比较说明聚成几类时聚类效果最
12、好,写出分析思路和过程,并分析每一类的实际意义。答案解析:若用k-means进行聚类,预处理要考虑共线性和异常值(数据比较少不能轻易删除异常值),且分别分析聚成2、3、4等类的效果(由平均轮廓系数判定)。-一、 计算题1.某金融机构为了研究其信用卡发放风险,收集整理了一些客户的数据,包括他们的基本信息,经济情况,以及是否拖欠还款等,具体如附表所示(已经将客户分为了训练集和测试集)。数据分析应用1测试数据.xlsx数据分析应用1训练数据.xlsx进行数据预处理,并用不同的算法模型(逻辑回归、神经网络等)分析信用卡拖欠还款情况,结合测试数据对比模型的拟合优度,要求写出具体的思路过程。答案解析:分析
13、数据有没有缺失值异常值等,数据预处理(逻辑回归考虑共线性、神经网络不考虑),分别用逻辑回归和神经网络对训练集进行拟合,由召回率、准确率等分析训练误差,接着对测试集进行预测分析得到预测值与实际值对比,求召回率、准确率等分析泛化误差。对比决定用哪个模型。2.为了研究手机好评率与品牌、价格的关系,某公司收集如附表所示数据,数据收集的信息包含手机的评论得分和评论内容以及手机品牌和价格等信息。手机数据.xlsx对数据进行预处理,选择合适的模型分析手机好评率与品牌、价格的关系,要求写出详细的思路和过程。答案解析:本案例想要通过对应分析分析不同手机品牌和不同价格区间的手机的好评情况。对应分析是研究由定性变量
14、构成的交互汇总表来揭示变量间的联系。交互表的信息以图形的方式展示。主要适用于有多个类别的定类变量,可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。适用于两个或多个定类变量。因此本案例需要对要研究的定量变量进行定性处理。本案例中品牌属于类别数据,但是其中包含汉字,因子需要进行重新编码;价格属于连续型变量,因此需要进行离散化处理。好评数不能直接代表手机的好评情况,因此为了更好地表示手机的好评情况,这里采用好评率进行分析。由于好评率计算出来仍然是一个0到1之间的连续变量,因此需要进行离散化处理。数据分析:本次分析采用版本进行分析,首先对品牌和好评率进行对应分析。从分析结果
15、可以看到数据的交叉表,以及提取的3个公因子的贡献率和因子得分。从因子贡献率可以看到提取两个因子的贡献率就达到了80%以上,因此提取两个因子即可。根据对应分析的图表可以看到处于hp1也就是低好评度的品牌主要有品牌7,9,11,12。接着较低好评度品牌有3,4。较高好评度品牌包括1,5。高好评度品牌有8,10。因此品牌好评率分布为:好评率等级品牌低级ZUK,飞利浦,金立,酷派较低HTC, LG较高360,oppo高级锤子,华为这样就可以清晰地看出不同品牌的好评情况。然后对价格等级和好评率等级进行对应分析,可以看到用户评论中500-1500价格区间的手机好评率最低,500-6000价位的手机好评率也
16、最低。1500-2000价位的手机好评率较低;2000-2500价位/3000-3500价位和6000-7000价位手机好评率较高,好评率最高的是价位2500-3000价位手机和3500-4000价位。-1.下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据: 要求:(1)绘制散点图,并计算相关系数,说明二者之间的关系;(2)人均GDP作自变量,人均消费水平作因变量,利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义;(3)计算判定系数,并解释其意义;(4)检验回归方程线性关系的显着性(a=);(5)如果某地区的人均GDP为5000元,预测其人均消费水平;(6
17、)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。(所有结果均保留三位小数)(分)窗体顶端我的答案窗体底端答案解析:提示:(1)使用Datahoop或Excel作出散点图、相关系数,作出相关描述;(2)注意自变量与因变量的确定,利用Datahoop或Excel写出回归方程,作出回归系数实际意义的描述;(3)写出判定系数,并描述意义;(4)在a=的前提下,检验方程的显着性,并做描述;(5)使用Datahoop预测功能做出结果;(6)写出置信区间和预测区间。-2. 根据以下给出的数据进行分析,本次给出鸢尾花数据,其中包含萼片长、萼片宽、花瓣长、花瓣宽、以及花的类型数据,请根据以
18、下问题进行回答。(本题数据提供在excel里面,数据分析为三份,一份训练数据,一份测试数据,一份预测数据)(1)根据训练数据,用类型_num作为因变量Y,其他变量作为自变量X,做逻辑回归,写出逻辑回归的方程。(2)根据测试数据得到的结果,写出逻辑回归的混淆矩阵,以及准确率和召回率,Accuracy和F1的值(可根据测试数据结果计算表格得到测试数据集的相应的结果)。(3)给出一组预测数据,根据训练模型结果预测,写出预测结果。(分)窗体顶端我的答案窗体底端答案解析:提示: -3. 下表为购物篮事物数据: (1)设minsupport=40%,利用Apriori算法写出所有的频繁项目集,并指出其中支
19、持度最大的二项频繁项目集。(2)在第一问基础上设minconfidence=60%,找出所有的有效强关联规则。(分)窗体顶端我的答案窗体底端答案解析:提示:使用Datahoo进行Apriori分析,注意参数调整- 4. 某厨卫公司要开发一款燃气灶产品,列举出5个可作为卖点的功能属性:防风、定时、防干烧、不沾油、快速而准确地打火。该公司的产品设计人员不知道该主要开发哪项功能,分析师小李向公司提出了使用KANO模型对上述五个功能进行调研分类的想法。并得到了公司的支持。假设你是小李1.请你绘制KANO模型图来介绍对功能属性分类的思路2.请你对燃气灶的防干烧功能属性设计调查问题3.针对燃气灶的防干烧功能,受访者有多少种可能的回答组合,请写出每一种回答组合所对应的属性类别符号(符号见最后一行题注)4.假设基于对240名受访者的调研,得到下表,请算出这5种功能各自的worse系数和bett
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1