某电信经营分析与决策支持系统数据挖掘分析学习资料Word文件下载.docx

资源描述

某电信经营分析与决策支持系统数据挖掘分析学习资料Word文件下载.docx

《某电信经营分析与决策支持系统数据挖掘分析学习资料Word文件下载.docx》由会员分享，可在线阅读，更多相关《某电信经营分析与决策支持系统数据挖掘分析学习资料Word文件下载.docx（10页珍藏版）》请在冰豆网上搜索。

某电信经营分析与决策支持系统数据挖掘分析学习资料Word文件下载.docx

本挖掘分析的目标确定为：

针对目前在网的后付费小灵通数据进行离网概率的预测。

该目标涉及后付费小灵通用户和离网两个概念。

其中，后付费小灵通在业务系统中已有标识；

离网的用户定义为主动及被动拆机用户。

2.2数据理解

数据理解的任务是对原始数据进行收集和熟悉，检查数据质量，对数据进行初步探索，并发现可能存在的、有分析价值的数据特征，以形成对隐藏信息的假设。

2.1.1研究对象选取

以全省2007年1月离网的后付费小灵通用户为研究对象，同时选取同期在网的后付费小灵通用户作为对照研究对象。

确定离网时间点为2007年1月，因此对后付费小灵通用户从2006年7月至12月共6个月的相关变量进行研究。

离网用户的选取：

选取2006年7月前入网，2007年1月内拆机的用户，共选出满足条件的用户31862名。

在网客户的选取：

2006年7月前入网，2007年1月31日状态为正常的后付费小灵通用户共1805006名。

同时，为避免一些偏差数据的影响，在用户的选择中屏蔽了公免后付费小灵通用户。

2.1.2变量选取

基本假设：

后付费小灵通用户的行为在年度上不存在强的季节性，即后付费小灵通用户的行为特征和离网影响变量不会因为处于一年中的不同月份（季度）而发生较大变化。

根据对业务的理解，选定以下3方面的变量进行数据理解：

1.后付费小灵通用户产品订购数据：

主要反映用户与服务商关系的数据，如产品类型、在网时长、订购增值业务信息、是否加入套餐等。

2.用户消费行为特征数据：

主要通过用户每月帐务数据反映，且这类数据可以从平均水平和变动情况2个方面来反映。

本挖掘分析采用离网时间前6个月，用户的帐务数据变化情况来反映用户消费行为的变动。

主要数据包括：

用户6个月的收入、平均月租费、市话费、传统长话费、IP长话费，以及用户平均月租费占总费用的比例、6个月总收入波动率（（最大收入-最小收入）/平均收入）等

3.用户其他行为特征数据：

如欠费时长、累计欠费金额等。

2.2数据准备

数据准备阶段初步完成变量的选择和导出变量的生成，同时对一些存在数据质量问题的字段进行相应的处理。

首先按照选取的数据范围和变量生成数据，如下图结构：

在Clementine中对数据进行实例化分析，数据结果如下所示

此部分数据来自于97系统用户资料，经检测，除入网时长外，这些数据准确度较高，无缺失值和偏差值。

从上图可看出，入网时长取值范围为6个月到24071个月，很明显，存在错误数据。

故将超过入网时长在180个月（15年）以上的用户（共3314个），定义为入网时长180个月。

因总数据量大，此操作直接在数据库中进行。

主要包括：

用户6个月的收入、平均月租费、市话费、传统长话费、IP长话费，以及用户平均月租费占总费用的比例、6个月总收入波动率（（最大收入-最小收入）/平均收入）等。

经数据质量核查，发现有部分用户6个月收入都为0。

这些数据（共88322条记录）中，绝大部分是由于97、计费系统资料不统一造成，少量是由于用户长期欠费，造成停机，不产生费用。

这些数据由于特征值相同，对模型会造成偏差影响，故直接删除这些数据。

如欠费时长、累计欠费金额等，经核查，数据较准确，不进行任何处理。

进行上述处理后，数据质量报告如下：

2.3建立模型

在建立模型过程中，将根据实际模型的效果对变量做进一步的筛选和处理，既保证模型准确率，又尽量减少最终模型输入的变量，便于业务解释。

离网预测模型的准确率，在技术上主要包含预测命中率和预测覆盖率2个指标。

其中，预测命中率表示在被预测出离网的客户当中，实际离网所占的比率，它是描述模型精确性的指标；

预测覆盖率表示在实际离网客户中，被预测出为离网的客户所占的比率，它是描述模型普适性的指标。

从业务的角度来说，对离网用户的预测是尽可能地将存在离网倾向的后付费小灵通用户预测出来，以便能及时采取措施进行挽留。

因此，要求在控制预测命中率的前提下尽量提高模型的预测覆盖率。

2.3.1变量筛选

首先选择除主体产品实例标识、业务接入号、本地网代码、拆机标志外的所有字段作为模型的输入变量，拆机标志作为输出变量，类型节点定义如图：

分别生成神经元网络、C5.0、Logistic回归模型，如图：

对生成的模型进行实际值和预测值比较，得出结果如下（图中纵坐标表示实际离网情况，横坐标表示预测离网情况）：

以上三个模型，命中率和覆盖率分别是：

神经元网络模型：

命中率：

79.01%，覆盖率：

74.36%；

C5.0模型：

90.25%，覆盖率：

84.02%；

Logistic回归模型：

79.36%，覆盖率：

72.61%。

从以上分析可以看出，这3种模型均达到较理想的状态，尤其是C5.0模型，命中率超过90%。

但是模型中用到了所有的变量，不利于业务理解和解释，对这三种模型进行详细分析，进行变量筛选：

神经元网络变量关联度图：

Logistic回归关联图：

C5.0模型树：

对三种模型中，变量关联度与重要性进行筛选，最终确定以下变量作为最终模型变量：

“碧芝”隶属于加拿大的ｂｅａｄｗｏｒｋｓ公司。

这家公司原先从事首饰加工业，自助首饰的风行也自西方，随着人工饰品的欣欣向荣，自制饰品越来越受到了人们的认同。

１９９６年'

碧芝自制饰品店'

在迪美购物中心开张，这里地理位置十分优越，交通四八达，由于是市中心，汇集了来自各地的游客和时尚人群，不用担心客流量问题。

迪美有３００多家商铺，不包括柜台，现在这个商铺的位置还是比较合适的，位于中心地带，左边出口的自动扶梯直接通向地面，从正对着的旋转式楼拾阶而上就是人民广场中央，周边４、５条地下通道都交汇于此，从自家店铺门口经过的９０％的顾客会因为好奇而进看一下。

入网时长、定购增值业务个数、是否加入套餐、平均月租费、平均月租费占比、平均市话费、平均长话费、平均IP长话费、总收入波动率。

2.3.2建立模型和模型参数调整过程

以筛选后的变量作为输入，分别建立神经网络模型、C5．0模型和Logistic回归模型。

类型节点定义如下：

（二）大学生对DIY手工艺品消费态度分析

神经网络模型评估：

关于DIY手工艺制品的消费调查命中率：

70.62%；

覆盖率：

80.19%

C5.0模型评估：

86.33%；

84.60%

据上述部分的分析可见，我校学生就达4000多人。

附近还有两所学校，和一些居民楼。

随着生活水平的逐渐提高，家长给孩子的零用钱也越来越多，人们对美的要求也越来越高，特别是大学生。

他们总希望自己的无论是衣服还是首饰都希望与众不同，能穿出自己的个性。

但在我们美丽的校园里缺少自己的个性和琳琅满目的饰品，所以我们的小饰品店存在的竞争力主要是南桥或是市区的。

这给我们小组的创业项目提供了一个很好的市场机会。

Logistic回归模型评估：

70.18%；

87.02%

1．www。

cer。

net/artide/2004021313098897。

shtml。

从以上建立模型的过程中发现，不同的模型达到的准确率（命中率和覆盖率）都比较高，能够达到业务上的要求。

实际应用中，可以根据具体需要选择使用不同的模型。

2.4

2.5图1-1大学生月生活费分布模型评估

加拿大ｂｅａｄｗｏｒｋｓ公司就是根据年轻女性要充分展现自己个性的需求，将世界各地的珠类饰品汇集于“碧芝自制饰品店”内，由消费者自选、自组、自制，这样就能在每个消费者亲手制作、充分发挥她们的艺术想像力的基础上，创作出作品，达到展现个性的效果。

从技术角度来看，建立的神经网络模型、C5．0模型和Logistic回归模型中，C5.0模型的综合准确率最高，但是与其它模型的准确率相比并无大的差异。

从业务角度来看，由于目前竞争激烈，小灵通用户是企业利润的关键，业务人员最关注的是能够尽可能多地获取可能离网的小灵通用户的信息，即要求预测模型的覆盖率尽可能高，其次的要求才是保证模型的命中率。

2、你大部分的零用钱用于何处？

因此，在实际应用过程中，可以将利用神经网络、C5．0、Logistic回归模型预测出的离网用户，都作为可能离网的用户，以尽量提高模型的覆盖率。

从模型评估结果来看，模型的覆盖率达到了87.02％，而模型的命中率也达到了86.33％。

2.6结果发布

4．WWW。

google。

com。

cn。

大学生政策2004年3月23日结果部署的目标是将预测模型生成的结果以一定的形式展现给业务人员使用。

因此，应当从业务的角度来关注模型发布的形式。

2、消费者分析后付费小灵通用户离网预测模型的预测结果主要包括：

给出具体的离网用户的名单；

针对预测出可能离网的用户，给出其离网可能性的量化指标，即离网概率。

这些结果是针对单个用户的，可以以列表的形式提供给业务人员，采取一对一的服务。

如果是采用决策树（C5．0）算法建立模型，还可以得到离网用户的特征描述。

但由于其中特征描述是以规则的形式表现的，过于技术化，很难从业务角度加以理解和解释，也不适合业务人员获取真正的离网用户的特征信息。

因此，在分析离网用户特征时，考虑以预测出的离网用户为研究对象，将输入模型的变量作为分析角度，利用多维联机分析处理（MOLAP）技术辅助业务人员获取离网用户的群体特征，得出定性的结论，从而采取有针对性的挽留措施。

2.7总结

本文遵循数据挖掘标准流程（CRISP．DM），介绍了后付费小灵通离网预测模型的建立过程。

建立的预测模型的准确率能够满足业务人员的需求，但是仍存在一定的局限性。

一方面，在数据准备过程中，将满足条件的数据随机地拆分成了训练集和检验集。

训练集用于模型的训练，而检验集用来判断模型效果的好坏。

但是在模型评估中并未对模型进行脱离本次抽取数据的预测。

另一方面，模型建立的基本假设不考虑季节性、竞争对手营销措施等外部因素对模型稳健性的影响，这也是一个局限。

因此，未来的工作应主要关注以下几个方面：

一是在数据准备过程中，除了训练集和检验集的数据外，还应准备专门的独立评估数据，以便对模型效果进行更全面的评估；

二是由于用户的通话行为可能存在季节性的波动，因此，考虑增加外部因素作为模型的输入变量，以增强模型的稳健性。

展开阅读全文