考试模拟样题数据分析应用附答案.docx

资源描述

考试模拟样题数据分析应用附答案.docx

《考试模拟样题数据分析应用附答案.docx》由会员分享，可在线阅读，更多相关《考试模拟样题数据分析应用附答案.docx（9页珍藏版）》请在冰豆网上搜索。

考试模拟样题数据分析应用附答案.docx

考试模拟样题数据分析应用附答案

1（50.0分）

移动公司想结合用户通话行为，推荐相应套餐，或者结合用户现有套餐优化用户套餐，提供个性化套餐，从而对客户进行精准营销，增加客户粘性。

为此，移动公司收集了下列数据，移动公司收集到的数据包含下列字段：

变量名称

变量标签

Customer_ID

用户编号

Peak_mins

工作日上班时间电话时长

OffPeak_mins

工作日下班时间电话时长

Weekend_mins

周末电话时长

International_mins

国际电话时长

Total_mins

总通话时长

average_mins

平均每次通话时长

data-移动用户细分聚类.xlsx

请你根据这些客户数据，进行数据的预处理（数据预处理过程中可以根据现有变量构造新变量进行分析），预处理之后选择合适变量进行分析，分析算法自行选择，写出分析思路和过程，通过数据分析对客户进行细分，将客户分为5类。

并为移动公司提供客户精准营销的相关建议。

（请写出分析的流程并刻画最后细分之后的客户的特点和相应的营销建议）

答案解析：

根据题意解读本题可以选用聚类方式对客户进行类别划分，此处采用Kmeans聚类进行模型假设。

1、对数据进行预处理，数据均为数值型，此项不用处理；

检验数据可知没有缺失值，故此项不用处理；

将数据导入datehoop平台进行异常值处理可以看到虽然异常值较多但考虑到可能是特殊人群，故此项不做处理。

聚类对变量相关性影响较为敏感，因此将数据通过datehoop平台进行相关性分析结果如下：

从相关矩阵可以看出Peak_mins和Total_mins相关性显著。

此处利用比值法构建新的变量peak_mins/total_mins，因为变量之间取值范围差异较大，因此进行聚类时需要进行标准化（datehoop平台可以自动标准化，此处不单独处理）。

2、对变量进行聚类，选择变量peak_mins/total_mins，offpeak_mins，weekend_mins，international_mins，total_mins，average_mins；根据题目要求，聚类个数选择5，聚类结果如下：

平均轮廓系数为0.2485，虽然轮廓系数并没有接近1，但也是合理的。

在实际聚类过程中并不是每次聚类都会达到较高的轮廓系数，轮廓系数不高说明类之间区分性不是特别明显，但并不代表类之间没有区分

3、针对聚类结果分析每一类客户在现有变量上的特征，这里选取平均值作为参考依据，每一类针对每一个变量的类中心点如下：

0类：

工作日通话时长、国际通话时长、总通话时长都最长，周末通话时长也较长，可以定义为高端商务客户；

1类：

平均每次通话时长最长，其他通话时长处于中等水平，可以定义为长聊客户；

2类：

所有通话时长都最低，命名为不常使用客户；

3类：

下班班时间通话时长最长，总通话时长和上班时间通话时长较长，可以命名为中端日常客户；

4类：

周末通话时长最长，上班时间通话时长仅次于高端商务客户，国际通话时长和总通话时长都较长，可以命名为中端商务客户；

4、根据以上客户细分的结果和特征分析，移动产品开发部门有针对性的开发设计套餐品类，满足不同类型客户的实际需求，增加客户黏性，提高客户满意度，最终提高客户的生命周期价值。

针对不同的类别客户给出相应的营销建议。

按照老师课堂讲解，可以发挥想象力针对每一类客户设置不同的营销策略，

（1）对于0类高端商务客户,移动公司可以推出较为优惠的电话资费以保证客户可以长期使用。

在保证国内通话时长的前提下,可以推出优惠的国际漫游资费。

（2）对于1类长聊客户,移动公司可以推出相应的畅聊套餐或者开设亲情号以吸引客户的眼光。

（3）对于4类中端商务客户可以推出和高端商务客户相似的套餐,以吸引顾客的目光。

（4）对于2类不常使用客户可以开设包月低价套餐，以增加客户使用率和客户粘性。

2（50.0分）

通过游戏用户相关行为数据预测用户是否会付费

某游戏公司，根据收集的2016年上半年的用户行为数据对用户是否会付费进行预测，根据预测结果对可能付费用户进行精准营销。

该公司一共收集了用户的编号，以及用户的注册时间和最后一次登录时间，以及用户退出时的等级还有用户是否付费等数据。

user_id

install_date

last_login_date

level_end

is_payer

active_days

avg_session_cnt

用户编号

游戏安装时间

最后一次登录游戏时间

用户退出时的游戏等级

登录手机系统

是否付费

活跃天数

每天登录频次

数据及数据类型解释

user_id

install_date

last_login_date

level_end

is_payer

active_days

avg_session_cnt

字符型

日期型

如：

2015/5/4

日期型

数值型

字符型，取值为：

Android

和iOS

是否付费

1代表付费，0代表未付费

数值型

游戏训练数据.xlsx

游戏测试数据.xlsx

游戏预测数据.xlsx

请根据原始数据，对数据进行预处理（包括对类别型变量进行数值化处理、重新构造新的变量），然后根据原始数据，自行选择变量和分析算法进行分析（数据提供包含训练数据、测试数据、预测数据、其中测试数据的模型检验结果的计算提供了相应的excel表格，表名为：

测试数据结果计算，只需把测试结果拷贝到第二类数下面，相应的指标即可计算出来），写出分析过程和思路，并且根据模型进行预测。

答案：

1、由题意可知本题是分析用户是否会付费这一问题，可以考虑用逻辑回归建立模型进行预测。

本题中level_end、os、active_days、avg_session_cnt、duration、为自变量，iis_payer为因变量

2、对数据进行预处理，

因为登录手机系统OS为字符型数据，故进行数值化编码如下：

os编码

Android

iOS

经检验数据可知无缺失值，故此项不用处理；

数据样本均衡，符合建模要求；

异常值分析：

将所有变量导入datahoop平台进行异常值分析，由箱型图可知虽然存在异常数据，但是考虑到可能是分类所致，故此项不做处理。

逻辑回归对多种共线性敏感，因此需要进行共线性分析，将所有变量导入datahoop平台进行相关系数分析，得到相关系数矩阵如下：