考试模拟样题数据分析应用含答案解析.docx
《考试模拟样题数据分析应用含答案解析.docx》由会员分享,可在线阅读,更多相关《考试模拟样题数据分析应用含答案解析.docx(9页珍藏版)》请在冰豆网上搜索。
考试模拟样题数据分析应用含答案解析
1(50.0分)
移动公司想结合用户通话行为,推荐相应套餐,或者结合用户现有套餐优化用户套餐,提供个性化套餐,从而对客户进行精准营销,增加客户粘性。
为此,移动公司收集了下列数据,移动公司收集到的数据包含下列字段:
变量名称
变量标签
Customer_ID
用户编号
Peak_mins
工作日上班时间电话时长
OffPeak_mins
工作日下班时间电话时长
Weekend_mins
周末电话时长
International_mins
国际电话时长
Total_mins
总通话时长
average_mins
平均每次通话时长
data-移动用户细分聚类.xlsx
请你根据这些客户数据,进行数据的预处理(数据预处理过程中可以根据现有变量构造新变量进行分析),预处理之后选择合适变量进行分析,分析算法自行选择,写出分析思路和过程,通过数据分析对客户进行细分,将客户分为5类。
并为移动公司提供客户精准营销的相关建议。
(请写出分析的流程并刻画最后细分之后的客户的特点和相应的营销建议)
答案解析:
根据题意解读本题可以选用聚类方式对客户进行类别划分,此处采用Kmeans聚类进行模型假设。
1、对数据进行预处理,数据均为数值型,此项不用处理;
检验数据可知没有缺失值,故此项不用处理;
将数据导入datehoop平台进行异常值处理可以看到虽然异常值较多但考虑到可能是特殊人群,故此项不做处理。
聚类对变量相关性影响较为敏感,因此将数据通过datehoop平台进行相关性分析结果如下:
从相关矩阵可以看出Peak_mins和Total_mins相关性显著。
此处利用比值法构建新的变量peak_mins/total_mins,因为变量之间取值范围差异较大,因此进行聚类时需要进行标准化(datehoop平台可以自动标准化,此处不单独处理)。
2、对变量进行聚类,选择变量peak_mins/total_mins,offpeak_mins,weekend_mins,international_mins,total_mins,average_mins;根据题目要求,聚类个数选择5,聚类结果如下:
平均轮廓系数为0.2485,虽然轮廓系数并没有接近1,但也是合理的。
在实际聚类过程中并不是每次聚类都会达到较高的轮廓系数,轮廓系数不高说明类之间区分性不是特别明显,但并不代表类之间没有区分
3、针对聚类结果分析每一类客户在现有变量上的特征,这里选取平均值作为参考依据,每一类针对每一个变量的类中心点如下:
0类:
工作日通话时长、国际通话时长、总通话时长都最长,周末通话时长也较长,可以定义为高端商务客户;
1类:
平均每次通话时长最长,其他通话时长处于中等水平,可以定义为长聊客户;
2类:
所有通话时长都最低,命名为不常使用客户;
3类:
下班班时间通话时长最长,总通话时长和上班时间通话时长较长,可以命名为中端日常客户;
4类:
周末通话时长最长,上班时间通话时长仅次于高端商务客户,国际通话时长和总通话时长都较长,可以命名为中端商务客户;
4、根据以上客户细分的结果和特征分析,移动产品开发部门有针对性的开发设计套餐品类,满足不同类型客户的实际需求,增加客户黏性,提高客户满意度,最终提高客户的生命周期价值。
针对不同的类别客户给出相应的营销建议。
按照老师课堂讲解,可以发挥想象力针对每一类客户设置不同的营销策略,
(1)对于0类高端商务客户,移动公司可以推出较为优惠的电话资费以保证客户可以长期使用。
在保证国内通话时长的前提下,可以推出优惠的国际漫游资费。
(2)对于1类长聊客户,移动公司可以推出相应的畅聊套餐或者开设亲情号以吸引客户的眼光。
(3)对于4类中端商务客户可以推出和高端商务客户相似的套餐,以吸引顾客的目光。
(4)对于2类不常使用客户可以开设包月低价套餐,以增加客户使用率和客户粘性。
2(50.0分)
通过游戏用户相关行为数据预测用户是否会付费
某游戏公司,根据收集的2016年上半年的用户行为数据对用户是否会付费进行预测,根据预测结果对可能付费用户进行精准营销。
该公司一共收集了用户的编号,以及用户的注册时间和最后一次登录时间,以及用户退出时的等级还有用户是否付费等数据。
user_id
install_date
last_login_date
level_end
os
is_payer
active_days
avg_session_cnt
用户编号
游戏安装时间
最后一次登录游戏时间
用户退出时的游戏等级
登录手机系统
是否付费
活跃天数
每天登录频次
数据及数据类型解释
user_id
install_date
last_login_date
level_end
os
is_payer
active_days
avg_session_cnt
字符型
日期型
如:
2015/5/4
日期型
数值型
字符型,取值为:
Android
和iOS
是否付费
1代表付费,0代表未付费
数值型
数值型
游戏训练数据.xlsx
游戏测试数据.xlsx
游戏预测数据.xlsx
请根据原始数据,对数据进行预处理(包括对类别型变量进行数值化处理、重新构造新的变量),然后根据原始数据,自行选择变量和分析算法进行分析(数据提供包含训练数据、测试数据、预测数据、其中测试数据的模型检验结果的计算提供了相应的excel表格,表名为:
测试数据结果计算,只需把测试结果拷贝到第二类数下面,相应的指标即可计算出来),写出分析过程和思路,并且根据模型进行预测。
答案:
1、由题意可知本题是分析用户是否会付费这一问题,可以考虑用逻辑回归建立模型进行预测。
本题中level_end、os、active_days、avg_session_cnt、duration、为自变量,iis_payer为因变量
2、对数据进行预处理,
因为登录手机系统OS为字符型数据,故进行数值化编码如下:
os
os编码
Android
1
iOS
2
经检验数据可知无缺失值,故此项不用处理;
数据样本均衡,符合建模要求;
异常值分析:
将所有变量导入datahoop平台进行异常值分析,由箱型图可知虽然存在异常数据,但是考虑到可能是分类所致,故此项不做处理。
逻辑回归对多种共线性敏感,因此需要进行共线性分析,将所有变量导入datahoop平台进行相关系数分析,得到相关系数矩阵如下:
相关系数矩阵
level_end
os数值化
active_days
avg_session_cnt
duration
is_payer
level_end
1
0.0835
0.8886
0.7053
0.7279
0.6825
os数值化
0.0835
1
0.0628
0.0044
0.0684
0.1237
active_days
0.8886
0.0628
1
0.5281
0.7672
0.5323
avg_session_cnt
0.7053
0.0044
0.5281
1
0.3806
0.5184
duration
0.7279
0.0684
0.7672
0.3806
1
0.4497
is_payer
0.6825
0.1237
0.5323
0.5184
0.4497
1
由矩阵可以看出变量之间虽然具有相关性,但是相关性不强,可以进行逻辑回归分析。
3、设定自变量level_end、os、active_days、avg_session_cnt、duration分别为x1,x2,x3,x4,x5,因变量is_payer为y,假设回归方程ln=a1x1+a2x2+a3x3+a4x4+a5x5+b
将训练集和测试集的数据分别导入datahoop平台,选择相应的自变量和因变量,进行逻辑回归分析(迭代次数1000次)模型结果及检验情况如下:
Accuracy和AUC值,准确率和召回率都比较高,模型拟合效果较好,训练误差不大。
回归方程为ln=0.1207x1+0.5375x2-0.0009x3+0.117x4-0.0016x5-3.6267
将测试结果和原测试集中的实际分类进行对比,得到如下混淆矩阵和计算出相应的准确率召回率,结果如下:
由混淆矩阵可知Accuracy和准确率召回率都比较大,模型预测效果较好,泛化误差不大。
可以用该模型进行预测。
《平台答案解析》
答案解析:
提示:
根据题目可以选取聚类方法对客户进行细分,这里选取k-means聚类方法进行分析。
k-means聚类要求,纳入的聚类变量一般为数值型变量,而且聚类变量之间不应该有较强的线性相关关系,如果变量间存在较高的线性关系且能够相互替代,那么计算距离时,这些变量会对距离重复贡献,一定程度上影响到聚类结果。
对数据进行预处理,数据无缺失值,异常值分析显示异常值较多,结合实际情况认为有可能是特殊人群,所以在此不作处理。
通过查看相关系数矩阵看到peak_mins和total_mins相关性很高,所以只选取其中一个,然后构造一个新的变量peak_mins/total_mins,由于新构造的变量取值与其他变量取值范围相差较大,因此,在聚类分析时,选择标准化处理之后的数据进行聚类(datahoop可以在分析时默认进行标准化处理);
对数据进行聚类分析,选取变量为:
peak_mins/total_mins,offpeak_mins,weekend_mins,international_mins,total_mins,average_mins,聚类个数为5。
平均轮廓系数为0.246左右,虽然轮廓系数并没有接近1,但也是合理的。
在实际聚类过程中并不是每次聚类都会达到较高的轮廓系数,轮廓系数不高说明类之间区分性不是特别明显,但并不代表类之间没有区分。
根据聚类结果分析每一类客户在现有变量上的特征,这里选取平均值作为参考依据。
对类进行特征分析:
1类:
总通话时间(Total_mins)最长,上班通话通话时间(Peak_mins)最长,国际通话(International_mins)最长,命名为高端商用客户;
0类:
下班通话时间(OffPeak_mins)最长,周末通话时间(Weekend_mins)最长,上班和国际通话时间居中,命名为中端日常客户;
2类:
上班通话通话时间(Peak_mins)和国际通话(International_mins)仅次于第1类,周末通话时间(Weekend_mins)居中,总通话时间(Total_mins)较长,命名为中端商用客户;
4类:
平均每次通话(average_mins)时长最长,命名为长聊客户;
3类:
各项通话时间均很低,命名不常使用客户。
综上,根据以上客户细分的结果和特征分析,移动产品开发部门有针对性的开发设计套餐品类,满足不同类型客户的实际需求。
比如:
高端用户推荐各项指标偏高,套餐费用也偏高的套餐;中端用户和中高端用户可以较高端用户偏低一点进行套餐推荐,常聊用户可以推荐符合常聊特点的套餐,比如通话次数优惠类套餐,低端用户可以推荐资费便宜的套餐。
从而增加客户黏性,提高客户满意度,最终提高客户的生命周期价值。
答案解析:
分析不同特点的用户是否会付费,属于分类问题,这里选取逻辑回归算法来进行分析。
逻辑回归算法需要考虑是否存在异常值和共线性,因此进行异常值分析和相关系数矩阵分析。
由分析结果可以看出异常值所占比例太多,可能是分类的某种趋势导致,因此不做处理。
自变量之间存在相关性,但不是特别强,所以可以直接进行逻辑回归分析。
以is_payer为因变量,level_end、os、active_days、avg_session_cnt和duration为自变量进行逻辑回归分析。
写出逻辑回归方程和各个指标,说明训练误差不大。
接下来用测试数据进行检验,说明泛化误差不大,因此可以用来预测。
最后预测分析。