CPDA考试应用模拟.docx
《CPDA考试应用模拟.docx》由会员分享,可在线阅读,更多相关《CPDA考试应用模拟.docx(24页珍藏版)》请在冰豆网上搜索。
CPDA考试应用模拟
一、计算题(题数:
4,共分)
1.影响中国人口自然增长率的因素有很多,据分析主要因素可能有:
(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;
(2)居民消费水平,它的高低可能会间接影响人口增长率。
(3)文化程度,由于
教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。
为了全面反映中国“人口自然增长率”的全貌,选择人口增长率
作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。
暂不考虑文化程度及人口分布的影响。
从《中国统计年鉴》收集到以下数据(见表1):
设定的线性回归模型为:
算法1多元线性回归.xlsx
(1)求出模型中的各个参数,试从多个角度评价此线性回归模型,并检验模型的经济意义;
(2)检验模型中是否存在多重共线性问题(逐步回归),若有,试消除多重共线性。
答案解析:
(1)直接进行线性回归即可得到各个参数(用excel)。
多元线性回归模型评价可以从拟合优度、T检验、F检验等多个方面出发。
(2)求变量的相关系数矩阵或采用逐步回归法(也可以用datahoop平台做线性回归,会自动删除共线的变量)。
2.对近期上映的10部电影进行调查研究,抽取290人对这10部电影的评分(分值0~10分),结果如下表所示。
(1)根据表中数据对这10部电影的评分进行因子分析,并解析各个因子的含义;
(2)可否利用电影的评分数据对这290名观影者进行聚类分析给出你的理由。
算法2因子分析.xlsx
答案解析:
(1)因子分析选择隐含因子数为3,分别代表动作片、爱情片、动画片的影响评分因子。
(2)可以,这290人对电影的偏好有区别,可以进行聚类,相关性分析后排除共线性的影响再进行聚类。
3.某超市为了优化商品摆放结构,对近期顾客购买的商品类型进行了统计,如附表所示。
(1)写出所有有效强关联规则(minsupport=10%,minconfidence=50%);
(2)结合实际情况分析顾客喜欢的商品搭配,并对该超市提出合理的建议。
算法3关联分析.xlsx
答案解析:
关联规则分析中设置参数(minsupport=10%,minconfidence=50%),结果中强关联规则通过调整显示条目全部写出(重复的删除)。
结合实际情况分析要写详细。
4.某市为调查驾驶员视力情况(“1”表示视力正常,“0”表示有视力缺陷)、年龄、是否有驾驶教育经历(“1”表示有,“0”表示没有),这三个因素对是否曾引起交通事故(“1”表示发生过,“0”表示未发生过)的影响
,随机抽样调查了45名驾驶员,得到数据如下:
(1)建立模型分析驾驶员视力情况、年龄、是否有驾驶教育经历对是否曾引起交通事故的影响,写出详细的思路过程。
(2)若要应用此模型预测某批驾驶员中可能会引起过交通事故的人都有哪些,则还需要进行的研究步骤有哪些请说明。
算法4逻辑回归.xlsx
答案解析:
逻辑回归,数据预处理包括分析共线性和异常值等,数据分为训练数据和测试数据,综合训练误差和测试误差评价模型。
第二问要收集数据、处理数据、应用模型直接预测。
-------------------------------------------------------------------------------------------------------------------------------------------
一、计算题(题数:
4,共分)
年相关经济数据如附表所示。
设定国内生产总值为x1,地产投资总额为x2,全国居民消费水平为x3、全社会固定资产投资房屋竣工面积为x4,作为自变量;全国房屋销售均价设为Y,作为因变量。
建立如下
的多元线性回归模型:
y=b0+b1*x1+b2*x2+b3*x3+b4*x4+ε
b0,b1,b2,b3,b4是未知参数,ε是剩余残差,且E(ε)=0,与四个自变量无关。
(1)求出参数b0,b1,b2,b3,b4,并评判模型拟合优度和实际意义,写出详细的分析依据和思路过程;
(2)根据
(1)对模型进行修正。
多元线性回归.xlsx
答案解析:
(1)直接做线性回归,可得各个参数。
通过R^2,F、T检验,p值等分别分析模型。
系数在经济意义上存在不合理性,可能是共线性的影响。
(datahoop平台会删除共线的变量,所以这里用excel或spss等做回归。
)
(2)相关性分析和解释,去掉一些变量,重新做线性回归(在Datahoop平台上直接做也可以,平台会自动删除共线的变量)。
2.为了解电影票房的影响因素有哪些,某出品人搜集了2010年至2013年间中国电影发放放映协会统计的过千万票房的国产电影相关统计指标,共涉及275部影片。
具体数据如附表所示。
Datahoop上传测试集:
电影票房数据(2010-2013).xlsx
Datahoop上传训练集:
电影票房数据(2010-2013).xlsx
对数据进行预处理(包括缺失值、数据类型、离散化等),选择决策树模型进行拟合,并检验和分析模型。
要求写出详细的思路和过程。
答案解析:
1.影片票房:
影片票房是本次模型建模的因变量。
通过对选取数据的统计分析,将票房数据进行分类,一共分为8个层次,,分类情况如表所示:
等级12345678
范围≥1000万≥2000万≥3000万≥6000万≥1亿万≥1亿9000万≥3亿≥20亿
<2000万<3000万<6000万<1亿万<1亿9000万<3亿<9亿万
2.影片属性:
影片类型分为爱情、喜剧等14种,分类依据是根据豆瓣和mtime里面对该部影片的标签分类。
时长单位为分钟,取值范围75-156分钟。
3.影片档期:
影片上映年份,含5月1日在内的5、6月归为黄金1档;含10月1日的10、11月归为黄金2档;12、1、2月归为贺岁档(不同于网上贺岁档时间分类);7、8、9月归为暑期档,剩下三四月归为普通档。
4.品牌属性:
宣发方:
明星私企=S,国有宣发公司=G,小私营公司=L,联合发行=C。
电影属性:
是否改编,是否真实,是否翻拍,是否有续集
6.导演、演员影响度:
导演年代、导演第几部作品、导演是否得奖、导演是否转型、演员XX指数1,演员XX指数2
数据预处理:
处理缺失值
方法:
决策树
【案例分析】
第一步:
用训练集数据训练模型,准确度超过70%,预测效果还可以
第二步:
用测试集数据测试,发现准确度很低
这也是真实数据和真实场景经常会面临的问题。
注意这个题的结论是模型不可以应用于实际。
个顾客编号为(T1,T2,T3,T4,T5,T6,T7,T8,T9)
每一顾客购买的商品记录{{I1,I2,I5},{I2,I4},{I2,I3},{I1,I2,I4},{I1,I3},{I2,I3},{I1,I3},{I1,I2,I3,I5},{I1,I2,I3}}
设最小支持度为22%,利用Apriori算法进行关联分析,写出所有频繁项集和强关联规则。
(分)
我的答案
答案解析:
C1
项数集支持度计数
{I1}6
{I2}7
{I3}6
{I4}2
{I5}2
最小支持度=2/9=22%,即最小支持度频度为2,则
1—L1
频繁项集支持度计数
{I1}6
{I2}7
{I3}6
{I4}2
{I5}2
C2
项数集支持度计数
{I1,I2}4
{I1,I3}4
{I1,I4}1
{I1,I5}2
{I2,I3}4
{I2,I4}2
{I2,I5}2
{I3,I4}0
{I3,I5}1
{I4,I5}0
去掉小于最小支持的频度,得到2相频繁集
2—L2
频繁项集支持度计数
{I1,I2}4
{I1,I3}4
{I1,I5}2
{I2,I3}4
{I2,I4}2
{I2,I5}2
C3
项数集支持度计数
{I1,I2,I3},2
{I1,I2,I5}2
{I1,I3,I5}1
{I2,I3,I4}0
{I2,I3,I5}1
{I2,I4,I5}0
去掉小于最小支持的频度,得到3相频繁集
3—L3
频繁项集支持度计数
{I1,I2,I3},2
{I1,I2,I5}2
C4
项数集支持度计数
{I1,I2,I3,I5}1
去掉小于最小支持的频度,得到4相频繁集为空集。
则再不可能发现新的频集,算法结束。
最终得到的频繁项集为
{I1}
{I2}
{I3}
{I4}
{I5}
{I1,I2}
{I1,I3}
{I1,I5}
{I2,I3}
{I2,I4}
{I2,I5}
{I1,I2,I3}
{I1,I2,I5}
强关联规则将商品记录TF化导入平台设置参数即可得到,不过多展示。
4.对各地区农村居民家庭平均每人生活消费支出进行聚类,即从综合角度来看哪些地区的消费水平类似,并结合实际情况分析模型效果;再对不同的消费项目进行聚类,即对变量进行聚类,来看哪些变量属于一类。
其数据如附表所示。
聚类.xlsx
注:
数据来源—
对数据进行预处理,选择合适的算法模型进行聚类,要求写出具体思路。
答案解析:
分析数据是否有缺失值、异常值,用k-means聚类要考虑共线性(相关系数大于的一定要处理),进行因子分析或处理强相关变量后再进行聚类。
(分别选取2、3、4等类,选择轮廓系数大且易于解释的分类结果)
---------------------------------------------------------------------------------------------------------------------------
一、计算题
1.通过分析关于二手车的相关变量,研究这些变量怎么影响二手车的交易价格。
二手车抽样-预处理.csv
收集的数据包含:
变量名
代表含义
数据类型
备注
yuanjia
原价
连续变量
汽车原价
baojia
报价
连续变量
汽车报价
licheng
里程
连续变量
累计里程数(单位:
万公里)
pailiang
排量.L.
连续变量
发动机单位时间内释放的能量
mali
最大马力.Ps.
连续变量
最大动力输出
changshang
厂商
离散变量
十一分类——排名前十的厂商分别用1-10表示,以及前十以外的其他水平
cheshen_type
车身结构-车类型
离散变量
四分类——“SUV”、“两厢”、“三厢”、“MPV”
pengzhuang
排除重大碰撞
离散变量
排除重大碰撞(0)&存在重大碰撞
(1)
waiguan_xiufu
外观修复检查
离散变量
排除外观修复(0)&存在外观修复
(1)
waiguan_quexian
外观缺陷检查
离散变量
排除外观缺陷(0)&存在外观缺陷
(1)
neishi_quexian
内饰缺陷检查
离散变量
排除内饰缺陷(0)&存在内饰缺陷
(1)
shangpaishijian
上牌时间
连续变量
与2017年2月之间的时间差(单位:
月)
对数据进行预处理,分析应采用的模型,写出详细的思路和数据分析过程,用多种方法检验和解释模型,说明模型的实际意义。
答案解析:
因变量是报价,连续变量,所以用线性回归,直接导入Datahoop做线性回归,会自动删除共线的变量,F检验T检验都通过(有p值超过的,分析实际情况是会不够理想,但是也在可接受范围)。
实际意义:
分析每
个变量对二手车交易价的影响,哪个最大哪个最小,哪个可调,从而提出一些自己的见解。
2.利用Apriori算法,写出下列购物篮数据的频繁项集和强关联规则(设定支持度为2,置信度为)
若此购物篮数据为某超市随机选取的7位顾客的交易数据,请结合之前得到的结果为该超市提一些建议。
答案解析:
频繁项集不过多说明。
支持度次数化为2,实际为2/7,将数据TF化导入平台关联分析设置参数,即可得强关联规则。
3.以下数据是31个省市各行业的工资情况,各行业工资难免相关,因此,请先进行降维处理再进行聚类分析。
降维、聚类.xls
答案解析:
分析数据没有缺失值、异常值不作处理。
做相关性分析后,发现变量之间相关性很高,用主成分分析或因子分析(取2或3个因子)降维,降维后导出再进行聚类分析。
4.为了研究影响泰坦尼克号生还与否的影响因素有哪些,收集如下数据:
train-原始.csv
收集变量包括:
PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId=>乘客ID
Survived=>是否生还
Pclass=>乘客等级(1/2/3等舱位)
Name=>乘客姓名
Sex=>性别
Age=>年龄
SibSp=>堂兄弟/妹个数
Parch=>父母与小孩个数
Ticket=>船票信息
Fare=>票价
Cabin=>客舱
Embarked=>登船港口
对收集进行预处理,选择适当的算法进行分析,并评价和解释模型,要求写出具体的思路过程。
答案解析:
本次分析选取变量包括:
Survived=>是否生还、Pclass=>乘客等级(1/2/3等舱位)、Sex=>性别、Age=>年龄、SibSp=>堂兄弟/妹个数、Parch=>父母与小孩个数、Fare=>票价。
理把性别进行0和1处理,
female(女)转换成0,male(男)转换成1。
年龄Age存在缺失值,因此对于年龄的缺失值需要进行处理,本次对年龄的缺失值用所有年龄数据的平均值进行填充。
采用方法:
逻辑回归,根据模型的预测结果可以看出模型的准确度还是比较好的,模型的AUC值也是比较高的。
因此可以根据这些变量预测乘客生还与否。
---------------------------------------------------------------------------------------------------------------
一、计算题
1.电信公司为分析客户流失状况,为客户是否流失提供参考依据,随机选取了600名客户进行研究,得到了如附表所示一系列数据,收集到的数据包含下列字段:
在网月数
截止数据收集时间为止的在网月数
年龄
客户实际年龄
婚姻状况
客户婚姻状况,0代表未婚,1代表已婚
现地址居住时间
现在地址的居住月份
教育程度
1:
专科以下;2:
本科;3:
硕士;4:
研究生;5:
博士
工作状态
0:
待业;1:
在职
性别
0:
女;1:
男
租设备
0:
不租;1:
租
IP电话
0:
无;1:
有
无线电话
0:
有;1:
无
本月话费
话费具体金额
语音信箱
0:
无;1:
有
网络
0:
无;1:
有
来电显示
0:
无;1:
有
呼叫等待
0:
无;1:
有
呼叫转移
0:
无;1:
有
流失状态
0:
未流失;1:
流失
根据这些客户数据,进行数据预处理,之后分别用逻辑回归和SVM算法进行分析,对比两种算法的拟合优度,从而选择两者中更加适合的算法模型。
写出分析思路和过程,并为电信公司提供客户运营的相关建议。
数据分析应用1电信客户流失数据.xlsx
答案解析:
根据逻辑回归和SVM算法对数据的不同要求,预处理要分析数据的共线性和异常值,之后分别进行逻辑回归和SVM算法分析,发现SVM的召回率、准确率、准确度等指标均较好,因此选择SVM算法。
相关建议包括引入此
模型分析客户,从而针对性运营等。
2.选取7项经济指标作为决定经济类型的影响因素,对全国31个省、直辖市、自治区(浙江、湖南、甘肃除外)进行聚类分析(各项数据均来自2010年国家统计年鉴)。
数据分析应用2省市分类.xlsx
对数据进行预处理(创建新的变量等),比较说明聚成几类时聚类效果最好,写出分析思路和过程,并分析每一类的实际意义。
答案解析:
若用k-means进行聚类,预处理要考虑共线性和异常值(数据比较少不能轻易删除异常值),且分别分析聚成2、3、4等类的效果(由平均轮廓系数判定)。
---------------------------------------------------------------------------------------------
一、计算题
1.某金融机构为了研究其信用卡发放风险,收集整理了一些客户的数据,包括他们的基本信息,经济情况,以及是否拖欠还款等,具体如附表所示(已经将客户分为了训练集和测试集)。
数据分析应用1测试数据.xlsx
数据分析应用1训练数据.xlsx
进行数据预处理,并用不同的算法模型(逻辑回归、神经网络等)分析信用卡拖欠还款情况,结合测试数据对比模型的拟合优度,要求写出具体的思路过程。
答案解析:
分析数据有没有缺失值异常值等,数据预处理(逻辑回归考虑共线性、神经网络不考虑),分别用逻辑回归和神经网络对训练集进行拟合,由召回率、准确率等分析训练误差,接着对测试集进行预测分析得到预测值
与实际值对比,求召回率、准确率等分析泛化误差。
对比决定用哪个模型。
2.为了研究手机好评率与品牌、价格的关系,某公司收集如附表所示数据,数据收集的信息包含手机的评论得分和评论内容以及手机品牌和价格等信息。
手机数据.xlsx
对数据进行预处理,选择合适的模型分析手机好评率与品牌、价格的关系,要求写出详细的思路和过程。
答案解析:
本案例想要通过对应分析分析不同手机品牌和不同价格区间的手机的好评情况。
对应分析是研究由定性变量构成的交互汇总表来揭示变量间的联系。
交互表的信息以图形的方式展示。
主要适用于有多个类别的定类变量,可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的
对应关系。
适用于两个或多个定类变量。
因此本案例需要对要研究的定量变量进行定性处理。
本案例中品牌属于类别数据,但是其中包含汉字,因子需要进行重新编码;价格属于连续型变量,因此需要进行离散化处理。
好评数不能直接代表手机的好评情况,因此为了更好地表示手机的好评情况,这里采用好
评率进行分析。
由于好评率计算出来仍然是一个0到1之间的连续变量,因此需要进行离散化处理。
数据分析:
本次分析采用版本进行分析,首先对品牌和好评率进行对应分析。
从分析结果可以看到数据的交叉表,以及提取的3个公因子的贡献率和因子得分。
从因子贡献率可以看到提取两个因子的贡献率就达到了80%以上,因此提取两个因子即可。
根据对应分析的图表可以看到处于hp1也就是低好评度的品牌主要有品牌7,9,11,12。
接着较低好评度品牌有3,4。
较高好评度品牌包括1,5。
高好评度品牌有8,10。
因此品牌好评率分布为:
好评率等级品牌
低级ZUK,飞利浦,金立,酷派
较低HTC,LG
较高360,oppo
高级锤子,华为
这样就可以清晰地看出不同品牌的好评情况。
然后对价格等级和好评率等级进行对应分析,可以看到用户评论中500-1500价格区间的手机好评率最低,500-6000价位的手机好评率也最低。
1500-2000价位的手机好评率较低;2000-2500价位/3000-3500价位和6000
-7000价位手机好评率较高,好评率最高的是价位2500-3000价位手机和3500-4000价位。
-----------------------------------------------------------------------------
---
1.下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据:
要求:
(1)绘制散点图,并计算相关系数,说明二者之间的关系;
(2)人均GDP作自变量,人均消费水平作因变量,利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义;
(3)计算判定系数,并解释其意义;
(4)检验回归方程线性关系的显着性(a=);
(5)如果某地区的人均GDP为5000元,预测其人均消费水平;
(6)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。
(所有结果均保留三位小数)
(分)
窗体顶端
我的答案
窗体底端
答案解析:
提示:
(1)使用Datahoop或Excel作出散点图、相关系数,作出相关描述;
(2)注意自变量与因变量的确定,利用Datahoop或Excel写出回归方程,作出回归系数实际意义的描述;
(3)写出判定系数,并描述意义;
(4)在a=的前提下,检验方程的显着性,并做描述;
(5)使用Datahoop预测功能做出结果;
(6)写出置信区间和预测区间。
--------------------------------------------------------------------------------------------
2.根据以下给出的数据进行分析,本次给出鸢尾花数据,其中包含萼片长、萼片宽、花瓣长、花瓣宽、以及花的类型数据,请根据以下问题进行回答。
(本题数据提供在excel里面,数据分析为三份,一份训练数据,一份测试数据,一份预测数据)
(1)根据训练数据,用类型_num作为因变量Y,其他变量作为自变量X,做逻辑回归,写出逻辑回归的方程。
(2)根据测试数据得到的结果,写出逻辑回归的混淆矩阵,以及准确率和召回率,Accuracy和F1的值(可根据测试数据结果计算表格得到测试数据集的相应的结果)。
(3)给出一组预测数据,根据训练模型结果预测,写出预测结果。
(分)
窗体顶端
我的答案
窗体底端
答案解析:
提示:
----------------------------------------------------------------------------------------------
3.下表为购物篮事物数据:
(1)设minsupport=40%,利用Apriori算法写出所有的频繁项目集,并指出其中支持度最大的二项频繁项目集。
(2)在第一问基础上设minconfidence=60%,找出所有的有效强关联规则。
(分)
窗体顶端
我的答案
窗体底端
答案解析:
提示:
使用Datahoo进行Apriori分析,注意参数调整
--------------------------------------------------------------------------------------
4.某厨卫公司要开发一款燃气灶产品,列举出5个可作为卖点的功能属性:
防风、定时、防干烧、不沾油、快速而准确地打火。
该公司的产品设计人员不知道该主要开发哪项功能,分析师小李向公司提出了使用KANO模型对上述五个功能进行调研分类的想法。
并得到了公司的支持。
假设你是小李
1.请你绘制KANO模型图来介绍对功能属性分类的思路
2.请你对燃气灶的防干烧功能属性设计调查问题
3.针对燃气灶的防干烧功能,受访者有多少种可能的回答组合,请写出每一种回答组合所对应的属性类别符号(符号见最后一行题注)
4.假设基于对240名受访者的调研,得到下表,请算出这5种功能各自的worse系数和bett