CPDA考试应用模拟.docx

资源描述

CPDA考试应用模拟.docx

《CPDA考试应用模拟.docx》由会员分享，可在线阅读，更多相关《CPDA考试应用模拟.docx（24页珍藏版）》请在冰豆网上搜索。

CPDA考试应用模拟.docx

CPDA考试应用模拟

一、计算题（题数：

4，共分）

1.影响中国人口自然增长率的因素有很多，据分析主要因素可能有：

（1）从宏观经济上看，经济整体增长是人口自然增长的基本源泉；

（2）居民消费水平，它的高低可能会间接影响人口增长率。

（3）文化程度，由于

教育年限的高低，相应会转变人的传统观念，可能会间接影响人口自然增长率（4）人口分布，非农业与农业人口的比率也会对人口增长率有相应的影响。

为了全面反映中国“人口自然增长率”的全貌，选择人口增长率

作为被解释变量，以反映中国人口的增长；选择“国名收入”及“人均GDP”作为经济整体增长的代表；选择“居民消费价格指数增长率”作为居民消费水平的代表。

暂不考虑文化程度及人口分布的影响。

从《中国统计年鉴》收集到以下数据（见表1）：

设定的线性回归模型为：

算法1多元线性回归.xlsx

（1）求出模型中的各个参数，试从多个角度评价此线性回归模型，并检验模型的经济意义；

（2）检验模型中是否存在多重共线性问题（逐步回归），若有，试消除多重共线性。

答案解析：

（1）直接进行线性回归即可得到各个参数（用excel）。

多元线性回归模型评价可以从拟合优度、T检验、F检验等多个方面出发。

（2）求变量的相关系数矩阵或采用逐步回归法（也可以用datahoop平台做线性回归，会自动删除共线的变量）。

2.对近期上映的10部电影进行调查研究，抽取290人对这10部电影的评分（分值0~10分），结果如下表所示。

（1）根据表中数据对这10部电影的评分进行因子分析，并解析各个因子的含义；

（2）可否利用电影的评分数据对这290名观影者进行聚类分析给出你的理由。

算法2因子分析.xlsx

答案解析：

（1）因子分析选择隐含因子数为3，分别代表动作片、爱情片、动画片的影响评分因子。

（2）可以，这290人对电影的偏好有区别，可以进行聚类，相关性分析后排除共线性的影响再进行聚类。

3.某超市为了优化商品摆放结构，对近期顾客购买的商品类型进行了统计，如附表所示。

（1）写出所有有效强关联规则（minsupport=10%，minconfidence=50%）；

（2）结合实际情况分析顾客喜欢的商品搭配，并对该超市提出合理的建议。

算法3关联分析.xlsx

答案解析：

关联规则分析中设置参数（minsupport=10%，minconfidence=50%），结果中强关联规则通过调整显示条目全部写出（重复的删除）。

结合实际情况分析要写详细。

4.某市为调查驾驶员视力情况（“1”表示视力正常，“0”表示有视力缺陷）、年龄、是否有驾驶教育经历（“1”表示有，“0”表示没有），这三个因素对是否曾引起交通事故（“1”表示发生过，“0”表示未发生过）的影响

，随机抽样调查了45名驾驶员，得到数据如下：

（1）建立模型分析驾驶员视力情况、年龄、是否有驾驶教育经历对是否曾引起交通事故的影响，写出详细的思路过程。

（2）若要应用此模型预测某批驾驶员中可能会引起过交通事故的人都有哪些，则还需要进行的研究步骤有哪些请说明。

算法4逻辑回归.xlsx

答案解析：

逻辑回归，数据预处理包括分析共线性和异常值等，数据分为训练数据和测试数据，综合训练误差和测试误差评价模型。

第二问要收集数据、处理数据、应用模型直接预测。

-------------------------------------------------------------------------------------------------------------------------------------------

一、计算题（题数：

4，共分）

年相关经济数据如附表所示。

设定国内生产总值为x1,地产投资总额为x2,全国居民消费水平为x3、全社会固定资产投资房屋竣工面积为x4，作为自变量；全国房屋销售均价设为Y，作为因变量。

建立如下

的多元线性回归模型:

y=b0+b1*x1+b2*x2+b3*x3+b4*x4+ε

b0,b1,b2,b3,b4是未知参数，ε是剩余残差，且E（ε）=0，与四个自变量无关。

（1）求出参数b0,b1,b2,b3,b4，并评判模型拟合优度和实际意义，写出详细的分析依据和思路过程；

（2）根据

（1）对模型进行修正。

多元线性回归.xlsx

答案解析：

（1）直接做线性回归，可得各个参数。

通过R^2，F、T检验，p值等分别分析模型。

系数在经济意义上存在不合理性，可能是共线性的影响。

（datahoop平台会删除共线的变量，所以这里用excel或spss等做回归。

）

（2）相关性分析和解释，去掉一些变量，重新做线性回归（在Datahoop平台上直接做也可以，平台会自动删除共线的变量）。

2.为了解电影票房的影响因素有哪些，某出品人搜集了2010年至2013年间中国电影发放放映协会统计的过千万票房的国产电影相关统计指标，共涉及275部影片。

具体数据如附表所示。

Datahoop上传测试集：

电影票房数据（2010-2013）.xlsx

Datahoop上传训练集：

电影票房数据（2010-2013）.xlsx

对数据进行预处理（包括缺失值、数据类型、离散化等），选择决策树模型进行拟合，并检验和分析模型。

要求写出详细的思路和过程。

答案解析：

1.影片票房：

影片票房是本次模型建模的因变量。

通过对选取数据的统计分析，将票房数据进行分类，一共分为8个层次，，分类情况如表所示：

等级12345678

范围≥1000万≥2000万≥3000万≥6000万≥1亿万≥1亿9000万≥3亿≥20亿

<2000万<3000万<6000万<1亿万<1亿9000万<3亿<9亿万

2.影片属性：

影片类型分为爱情、喜剧等14种，分类依据是根据豆瓣和mtime里面对该部影片的标签分类。

时长单位为分钟，取值范围75-156分钟。

3.影片档期：

影片上映年份，含5月1日在内的5、6月归为黄金1档；含10月1日的10、11月归为黄金2档；12、1、2月归为贺岁档（不同于网上贺岁档时间分类）；7、8、9月归为暑期档，剩下三四月归为普通档。

4.品牌属性：

宣发方：

明星私企=S，国有宣发公司=G，小私营公司=L，联合发行=C。

电影属性：

是否改编，是否真实，是否翻拍，是否有续集

6.导演、演员影响度：

导演年代、导演第几部作品、导演是否得奖、导演是否转型、演员XX指数1，演员XX指数2

数据预处理：

处理缺失值

方法：

决策树

【案例分析】

第一步：

用训练集数据训练模型，准确度超过70%，预测效果还可以

第二步：

用测试集数据测试，发现准确度很低

这也是真实数据和真实场景经常会面临的问题。

注意这个题的结论是模型不可以应用于实际。

个顾客编号为（T1，T2，T3，T4，T5，T6，T7，T8，T9）

每一顾客购买的商品记录{{I1，I2，I5},{I2，I4},{I2，I3},{I1，I2，I4},{I1，I3},{I2，I3},{I1，I3},{I1，I2，I3，I5},{I1，I2，I3}}

设最小支持度为22%，利用Apriori算法进行关联分析，写出所有频繁项集和强关联规则。

（分）

我的答案

答案解析：

项数集支持度计数

{I1}6

{I2}7

{I3}6

{I4}2

{I5}2

最小支持度=2/9=22%，即最小支持度频度为2，则

1—L1

频繁项集支持度计数

{I1}6

{I2}7

{I3}6

{I4}2

{I5}2

项数集支持度计数

{I1，I2}4

{I1，I3}4

{I1，I4}1

{I1，I5}2

{I2，I3}4

{I2，I4}2

{I2，I5}2

{I3，I4}0

{I3，I5}1

{I4，I5}0

去掉小于最小支持的频度，得到2相频繁集

2—L2

频繁项集支持度计数

{I1，I2}4

{I1，I3}4

{I1，I5}2

{I2，I3}4

{I2，I4}2

{I2，I5}2

项数集支持度计数

{I1，I2，I3},2

{I1，I2，I5}2

{I1，I3，I5}1

{I2，I3，I4}0

{I2，I3，I5}1

{I2，I4，I5}0

去掉小于最小支持的频度，得到3相频繁集

3—L3

频繁项集支持度计数

{I1，I2，I3},2

{I1，I2，I5}2

项数集支持度计数

{I1，I2，I3，I5}1

去掉小于最小支持的频度，得到4相频繁集为空集。

则再不可能发现新的频集，算法结束。

最终得到的频繁项集为

{I1}

{I2}

{I3}

{I4}

{I5}

{I1，I2}

{I1，I3}

{I1，I5}

{I2，I3}

{I2，I4}

{I2，I5}

{I1，I2，I3}

{I1，I2，I5}

强关联规则将商品记录TF化导入平台设置参数即可得到，不过多展示。

4.对各地区农村居民家庭平均每人生活消费支出进行聚类，即从综合角度来看哪些地区的消费水平类似，并结合实际情况分析模型效果；再对不同的消费项目进行聚类，即对变量进行聚类，来看哪些变量属于一类。

其数据如附表所示。

聚类.xlsx

注：

数据来源—

对数据进行预处理，选择合适的算法模型进行聚类，要求写出具体思路。

答案解析：

分析数据是否有缺失值、异常值，用k-means聚类要考虑共线性（相关系数大于的一定要处理），进行因子分析或处理强相关变量后再进行聚类。

（分别选取2、3、4等类，选择轮廓系数大且易于解释的分类结果）

---------------------------------------------------------------------------------------------------------------------------

一、计算题

1.通过分析关于二手车的相关变量，研究这些变量怎么影响二手车的交易价格。

二手车抽样-预处理.csv

收集的数据包含：

变量名

代表含义

数据类型

备注

yuanjia

原价

连续变量

汽车原价

baojia

报价

连续变量

汽车报价

licheng

里程

连续变量

累计里程数（单位：

万公里）

pailiang

排量.L.

连续变量

发动机单位时间内释放的能量

mali

最大马力.Ps.

连续变量

最大动力输出

changshang

厂商

离散变量

十一分类——排名前十的厂商分别用1-10表示，以及前十以外的其他水平

cheshen_type

车身结构-车类型

离散变量

四分类——“SUV”、“两厢”、“三厢”、“MPV”

pengzhuang

排除重大碰撞

离散变量

排除重大碰撞（0）&存在重大碰撞

（1）

waiguan_xiufu

外观修复检查

离散变量

排除外观修复（0）&存在外观修复

（1）

waiguan_quexian

外观缺陷检查

离散变量

排除外观缺陷（0）&存在外观缺陷

（1）

neishi_quexian

内饰缺陷检查

离散变量

排除内饰缺陷（0）&存在内饰缺陷

（1）

shangpaishijian

上牌时间

连续变量

与2017年2月之间的时间差（单位：

月）

对数据进行预处理，分析应采用的模型，写出详细的思路和数据分析过程，用多种方法检验和解释模型，说明模型的实际意义。

答案解析：

因变量是报价，连续变量，所以用线性回归，直接导入Datahoop做线性回归，会自动删除共线的变量，F检验T检验都通过（有p值超过的，分析实际情况是会不够理想，但是也在可接受范围）。

实际意义：

分析每

个变量对二手车交易价的影响，哪个最大哪个最小，哪个可调，从而提出一些自己的见解。

2.利用Apriori算法，写出下列购物篮数据的频繁项集和强关联规则（设定支持度为2，置信度为）

若此购物篮数据为某超市随机选取的7位顾客的交易数据，请结合之前得到的结果为该超市提一些建议。

答案解析：

频繁项集不过多说明。

支持度次数化为2，实际为2/7，将数据TF化导入平台关联分析设置参数，即可得强关联规则。

3.以下数据是31个省市各行业的工资情况，各行业工资难免相关，因此，请先进行降维处理再进行聚类分析。

降维、聚类.xls

答案解析：

分析数据没有缺失值、异常值不作处理。

做相关性分析后，发现变量之间相关性很高，用主成分分析或因子分析（取2或3个因子）降维，降维后导出再进行聚类分析。

4.为了研究影响泰坦尼克号生还与否的影响因素有哪些，收集如下数据：

train-原始.csv

收集变量包括：

PassengerId，Survived，Pclass，Sex，Age，SibSp，Parch，Ticket，Fare，Cabin，Embarked

PassengerId=>乘客ID

Survived=>是否生还

Pclass=>乘客等级（1/2/3等舱位）

Name=>乘客姓名

Sex=>性别

Age=>年龄

SibSp=>堂兄弟/妹个数

Parch=>父母与小孩个数

Ticket=>船票信息

Fare=>票价

Cabin=>客舱

Embarked=>登船港口

对收集进行预处理，选择适当的算法进行分析，并评价和解释模型，要求写出具体的思路过程。

答案解析：

本次分析选取变量包括：

Survived=>是否生还、Pclass=>乘客等级（1/2/3等舱位）、Sex=>性别、Age=>年龄、SibSp=>堂兄弟/妹个数、Parch=>父母与小孩个数、Fare=>票价。

理把性别进行0和1处理，

female（女）转换成0，male（男）转换成1。

年龄Age存在缺失值，因此对于年龄的缺失值需要进行处理，本次对年龄的缺失值用所有年龄数据的平均值进行填充。

采用方法：

逻辑回归，根据模型的预测结果可以看出模型的准确度还是比较好的，模型的AUC值也是比较高的。

因此可以根据这些变量预测乘客生还与否。

---------------------------------------------------------------------------------------------------------------

一、计算题

1.电信公司为分析客户流失状况，为客户是否流失提供参考依据，随机选取了600名客户进行研究，得到了如附表所示一系列数据，收集到的数据包含下列字段：

在网月数

截止数据收集时间为止的在网月数

年龄

客户实际年龄

婚姻状况

客户婚姻状况，0代表未婚，1代表已婚

现地址居住时间

现在地址的居住月份

教育程度

1：

专科以下；2：

本科；3：

硕士；4：

研究生；5：

博士

工作状态

0：

待业；1：

在职

性别

0：

女；1：

男

租设备

0：

不租；1：

租

IP电话

0：

无；1：

有

无线电话

0：

有；1：

无

本月话费

话费具体金额

语音信箱

0：

无；1：

有

网络

0：

无；1：

有

来电显示

0：

无；1：

有

呼叫等待

0：

无；1：

有

呼叫转移

0：

无；1：

有

流失状态

0：

未流失；1：

流失

根据这些客户数据，进行数据预处理，之后分别用逻辑回归和SVM算法进行分析，对比两种算法的拟合优度，从而选择两者中更加适合的算法模型。

写出分析思路和过程，并为电信公司提供客户运营的相关建议。

数据分析应用1电信客户流失数据.xlsx

答案解析：

根据逻辑回归和SVM算法对数据的不同要求，预处理要分析数据的共线性和异常值，之后分别进行逻辑回归和SVM算法分析，发现SVM的召回率、准确率、准确度等指标均较好，因此选择SVM算法。