商务智能论文范文.docx

资源描述

商务智能论文范文.docx

《商务智能论文范文.docx》由会员分享，可在线阅读，更多相关《商务智能论文范文.docx（20页珍藏版）》请在冰豆网上搜索。

商务智能论文范文.docx

商务智能论文范文

电信客户流失影响因素与预测分析

一、引言

随着世界经济的全球化、市场的国际化和我国加入WTO步伐的加速，国际化的市场环境要求国内的公众电信运营企业在经营管理上向国际化竞争。

同时随着国家改革的深化，国内电信业的市场环境已渐趋合理且竞争将日益加剧。

国内、国际电信业的如此态势，对公众电信运营企业的服务内容、服务方式、服务质量、经营管理以及服务意识，已提出了严峻的挑战。

企业的经营模式和服务体系正以客户的价值取向和消费心理为导向，真正体现“创造需求”、“引导消费”的现代客户服务意识与理念。

目前电信运营商面临着激烈的市场竞争。

对电信运营商来说，客户即生命，如何保持现有客户是企业客户管理的重中之重。

因此，电信运营商拥有的客户越多，作为主要成本的前期投资就会越大，企业的利润也就越大。

客户资源对于电信运营商来说其意义不言而喻，电信运营商之间的竞争实际上就是对客户资源的竞争。

可以说，未来的电信行业，得客户者得天下。

当今电信市场竞争激烈,运营商每月客户流失率在1%～3%,挽留将要流失客户,降低客户流失率是近年来热门的研究领域。

而数据挖掘技术是解决这一问题的有效途径,本文使用IBMSpssClementine（IBNSPSSModeler）进行数据挖掘与分析，深入了解电信客户流失的关键，以对该类客户的行为特性进行预警分析，采取针对性的措施改善客户关系，避免客户流失或者挽留客户，达到亡羊补牢的效果。

客户流失会给电信企业的利益带来多方面的损害，使企业在竞争中处于不利地位。

电信企业在争取新客户的同时，必须采取有效措施预防老客户的流失，挽留一个老客户能够带来很大的收益，可是这个客户挽留活动毕竟只是公司众多市场活动中的一个，预算也有限。

因此分析流失客户的特征是很关键的，现要求对数据库中的数据进行分析，看看哪些客户可能会流失？

这些客户都有哪些特征？

根据流失客户的特征组织一个市场营销活动来遏制这种趋势。

二、问题分析

根据已有的结果——流失客户（在数据中直接有判别数据有没有流失的字段churn），寻找他们流失的原因，即流失客户的特征。

通过数据处理，统合数据，根据以前拥有的客户流失数据建立基本属性、服务属性和客户消费数据与客户流失可能性的数据模型，找出其潜在的关系，分析出客户流失的因素，计算出客户流失的可能性，预测客户是否流失的可能性。

对于客户的基本数据、客户行为数据及消费数据，进行数据挖掘，研究已流失客户数据，从中找出先前未知的、对企业决策有潜在价值的知识和规则，发掘潜在流失客户，让企业适时把握住市场及客户动态，掌握客户流失的规律。

三、算法简介

分类分析

分类就是找出一个类别的概念描述，它代表了这类数据的整体信息，即该类的内涵描述，并用这种描述来构建模型，一般用规则或决策树模式表示。

分类是数据挖掘的主要方法，分类模型能很好地拟合训练样本集中属性集与类别之间的关系，也可以预测一个新样本属于哪一类。

分类技术已经在很多领域得到成功应用，如医疗诊断，客户流失预测，信用度分析，客户分群和诈骗侦测。

常见的分类方法有贝叶斯分类（Bayesian），神经网络（neuralnetworks），遗传算法（geneticalgorithms）和决策树分类器（decisiontrees）。

在这些分类方法中，决策树分类器在大规模的数据挖掘环境中已经获得了最为广泛的应用。

决策树演算法

决策树演算法是在进行数据挖掘时经常使用的分类和预测方法。

一个决策树的架构，是由三个部分所组成：

叶节点（LeafNode）、决策节点（Decisionnodes）以及分支。

决策树演算法的基本原理为：

通过演算法中所规定的分类条件对于整体数据进行分类，产生一个决策节点，并持续依照演算法规则分类，直到数据无法再分类为止。

决策树演算法的比较

决策树演算法依据其演算原理以及可适用分析数据类型的不同延伸出多种决策树演算法。

在IBMSPSSModeler中，主要提供了四种常用的决策树演算法供使用者选择，分别为：

C5.0、CHAID、QUEST以及C&RTree四种。

使用者可依据数据类型以及分析需求的不同，选择适当的决策树演算法进行分析。

虽然不同的决策树演算法有各自适用的数据类型以及演算架构等差异，但概括来说，决策树的主要原理均为通过演算法所定义的规则，对数据进行分类，以建立决策树。

鉴于篇幅所限，以下部分将会针对这四类决策树演算法进行简单的介绍和比较，而详细演算法原理将不会在本文中详述。

1.C5.0

由C4.5演化而来。

此演算法的分类原理主要是利用资讯衡量标准（InformationMeasure）来构建决策树，并对每一个节点产生不同数目的分支来分割数据，直到数据无法分割为止。

C5.0的目标字段（Target）测量级别，不适用于连续类型（Continuous）的测量级别。

而输入字段的数据型态则适用连续类型（Continuous）的测量级别。

2.CHAID（Chi-SquareAutomaticInteractionDetector）

此演算法和前述的C5.0概念很像，均可以在每一个节点产生不同数目的分支来分割数据，用来建立决策树。

但是在背后分类的原理则利用卡方分析检定（Chi-squareFtest）来进行分支，通过卡方检定来计算节点中的P-value，来决定数据是否仍须进行分支。

另外，CHAID的目标字段（Target）的测量级别可适用于连续类型（Continuous）的测量级别，但在输入字段则只适用分类类型（Categorical）的测量级别。

3.QUEST（QuickUnbiasedEfficientStatisticalTree）

此演算法是利用统计方法分割数据，即以判定决策树是否仍需进行分支，以建立二元的决策树。

QUEST在变数的数据型态限制上，跟C5.0一样，目标字段（Target）测量级别，不适用于连续类型（Continuous）的测量级别。

但在输入字段的测量级别则适用连续类型（Continuous）的测量级别。

4.C&RTree（ClassificationandRegressionTree）

又称为CART，构建决策树的原理是使用GiniRatio作为判定决策树是否仍须进行分支的依据，并建立二元的决策树。

此演算法不管是在目标变数（Target）以及输入字段的测量级别均适用连续类型（Continuous）的测量级别做分析。

决策树演算法的选择

决策树的几大优点“

第一，与神经网络和贝叶斯分类器相比，决策树提供非常直观的描述，这种描述易于被吸收，转化为标准的数据库查询

第二，训练神经网络模型时要花费大量的时间，要进行大量的重复操作，与之相比决策树效率要高很多，适合于大的训练集。

第三，决策树生成算法除了训练集中包含的信息外不需要附加的信息（即领域知识或类标签以前的分布情况）。

第四，决策树有着可比的或更高的准确率。

在使用决策树演算法进行分析之前，首要工作就是选择适当的演算法。

一般来说，会根据所要分析数据的特性以及数据型态等选择初步的演算法。

接下来再通过比较初步筛选的决策树分析出来的结果，选择最适合的决策树演算法。

四、实验与分析

4.1数据准备

数据来源：

电信客户流失数据.sav（共有8个字段，1000个记录）

数据有8个字段，其中包含一些客户个人信息，例如年龄、教育程度、退休、性别和客户类别，还包含一些客户使用电信服务信息（有附加服务、基本服务、上网服务和所有服务）以及客户的上网月数，（这里老师我不会把sav格式转换成xlsx格式的，所以用的还是原来的那个1000个记录的，（但是我把样本抽样选择了前200了，由于我用前200的样本数据进行数据挖掘，发现挖掘出来的结果完全失去了真实性，与现实不符合，所以我还是将数据样本量改成了1000了，为了保证我做出数据挖掘预测结果的真实性）因为我不能将数据修改，所以下面我使用了分区将数据分为训练，测试以及验证，为了展示预测数据的结果）

以下为部分数据的截图：

4.2参数设置

目标变量表示了数据挖掘的目标,在客户流失分析中目标变量通常为客户流失状态（churn）。

输入变量用于在建模时作为自变量寻找与目标变量之间的关联。

我们主要从客户种类信息，客户在网月数信息，客户基本信息（年龄，性别，教育水平，家庭人数等），客户的工作年限信息，客户的退休信息这几方面选取输入变量。

4.3挖掘过程

1.读取数据

SPSSModeler中需要根据数据档案格式，来选择不同的源节点读取数据。

本篇文章中我们使用的数据档案格式为.sav档，因此我们将使用Statistics文件节点。

在节点设定方面，文件标签下我们先读入数据“电信客户流失数据.sav”，接着勾选读取名称和标签以及读取数据和标签。

（以下为读取数据截图）

2.数据类型定义

为了产生决策树模型，我需要在数据建模前就定义好各栏位的角色，也就是加入字段选项下的「类型」节点。

将类型节点拉入串流后，我会先点选读取值按钮，接着设定角色。

是否流失（churn）是我最后预测的目标，因此先将其角色设定为“目标”，余下的栏位则是要设定为“输入”。

3.数据分区

为了在训练出模型后能够分析模型准确度，在此我加入字段选项下的分区节点，将数据分为50%训练数据、40%测试数据以及10%验证数据。

在分区节点的编辑页中，点选预览可发现每笔数据已经多出了一个栏位「分区」，栏位中的值被随机归类为「1_训练」、「2_测试」以及「3_验证」，让决策树节点可判别是否要使用此资料做为训练数据，测试数据以及验证数据。

在完成资料分区后，我已经完成数据准备，可以套用决策树模型节点了。

4.决策树节点设定

SPSSModeler共提供四种决策树节点建模，包括C5.0、C&R树、Quest和CHAID。

考量到数据特性以及我希望提供的决策树具有多元分类法，因此我将建立C5.0和CHAID两种分类模型。

（1）C5.0节点设定

将C5.0节点与类型节点连结后，我将于此节点编辑页面中的模型标签下设定相关的变数。

以下为各变数的详细介绍，此定义来自SPSSModeler15ModelingNodes文件。

使用分区数据：

如果定义了分区字段，则此选项可确保仅训练分区的数据用于构建模型。

为每个分割构建模型：

给指定为分割字段的输入字段的每个可能值构建一个单独模型。

输出类型：

在此指定希望结果模型块是决策树还是规则集。

组符号：

如果选中此选项，C5.0将试图组合输出字段中具有相似样式的符号值。

如果未选中此选项，C5.0将为用于分割父节点的符号字段的每个值创建一个子节点。

使用boosting：

C5.0算法有一个特殊的方法用于提高其准确率，称为boosting。

它的工作原理是在序列中构建多个模型。

第一个模型按常规方式进行构建。

构建第二个模型时，将焦点集中于由第一个模型误分类的记录。

构建第三个模型时，将焦点集中于第二个模型的错误，依此类推。

最后，通过将整个模型集应用到观测值，并使用加权投票过程将单独的预测组合为一个总预测来分类观测值。

推进可以显着提高C5.0模型的准确性，但也需要更长的训练时间。

通过试验次数选项可以控制在推进模型过程中使用的模型数目。

交互验证：

如果选中此选项，C5.0将使用一组模型（根据训练数据的子集构建）来估计某个模型（根据全部数据集构建）的准确性。

专家模式-修剪严重性:

确定对决策树或规则集的修剪程度。

增加该值可获得一个更简洁的小型树。

减小该值可获得一个更精确的树。

专家模式-每个子分支的最小记录数：

可使用子组的大小限制树的任何分支中的分割数。

仅当两个或多个生成的子分支中至少包含从训练集合得到的这一最小记录数时，才可分割树的分支。

默认值为2。

（以下为创建C5.0节点的截图）

（2）CHAID节点设定

将CHAID节点与分区节点连结后，我将于此节点编辑页面中的模型标签下设定相关的变数。

由于CHAID节点设定较多，介绍一些变数。

此定义来自“SPSSModeler15ModelingNodes文件”。

最大树深度：

指定根节点以下的最大级数（递归分割样本的次数）。

修剪树以防止过拟合：

修剪包括删除对于树的精确性没有显着贡献的底层分割。

修剪有助于简化树，使树更容易被理解，在某些情况下还可提高广义性。

停止规则：

设置最小分支大小可阻止通过分割创建非常小的子组。

如果节点（父）中要分割的记录数小于指定值，则父分支中的最小记录数将阻止进行分割。

如果由分割创建的任意分支（子）中的记录数小于指定值，则子分支中的最小记录数将阻止进行分割。

（以下为创建CHAID节点的截图）

（3）C&R树节点设定

将C&R树节点与分区节点连结后，我将于此节点编辑页面中的模型标签下设定相关的变数。

由于C&R树节点设定较多，介绍一些变数。

此定义来自“SPSSModeler15ModelingNodes文件”。

修剪树以防止过拟合：

修剪包括删除对于树的精确性没有显著贡献的底层分割。

修剪有助于简化树，使树更容易被理解，在某些情况下还可提高广义性。

如果需要完整的未经修剪的树，请保持此项处于未选中状态。

大风险差值（标准误）：

通过此选项可指定更自由的修剪规则。

标准误规则使算法能够选择简单的树，该树的风险评估接近于（但也可能大于）风险小的子树的风险评估。

此值表示在风险评估中已修剪树和风险小的树之间所允许的风险评估差异大小。

例如，如果指定2，则将选择其风险评估（2×标准误）大于完整树的风险评估的树。

大代用项：

代用项是用于处理缺失值的方法。

对于树中的每个分割，算法都会对与选定的分割字段相似的输入字段进行识别。

这些被识别的字段就是该分割的代用项。

当必须对某个记录进行分类，但此记录中的分割字段中具有缺失值时，可以使用代用项字段的值填补此分割。

增加此设置将可以更加灵活地处理缺失值，但也会导致内存使用量和训练时间增加。

（以下为创建C&R树节点的截图）

4.4结果展示

生成决策树模型

决策树节点设定完成后，点击主工具列的运行当前流前即可看到三个决策树模型的产生。

双击决策树模型则可看到模型结果，而我们最主要要观察的是模型标签及查看器标签下的内容。

模型标签内容如图所示，左栏位使用文字树状展开，表现每一阶层的分类状况及目标变数的模式；右栏位则是整体模型预测变量的重要性比较。

我也将会根据变量重要性调整模型设定、变数选择，持续的训练出较佳的模型。

查看器标签则是将一样的决策树结果用树状图的方式展现。

（1）C5.0法

（2）CHAID法

（3）C&R树法

决策树流示意图：

（如下截图）

五、结果分析

1.比较决策树模型分析结果

正确率

C5.0法

由于各决策树的演算法不同，最后的分枝结果以及预测的准确性亦不同，本文使用C5.0、CHAID及C&R树三种决策树节点（C&R树图省略，因为CHAID图相近），其预测正确率如下图所示。

从结果来看，C5.0的正确率都高于CHAID及C&R树，因此接下来我们会使用C5.0结果为主。

进一步观察实际值与预测值的重合矩阵，可发现模型预测正确的准确性远高于预测错误的准确性，以C5.0测试数据来看，「1_训练」正确的预测准确性为84.8%，远大于错误的15.2%、「2_测试」正确的预测准确性为71.43%，远大于错误的28.57%、「3_验证」正确的预测准确性为73%，远大于错误的27%。

。

CHAID法

变量重要性

C5.0与CHAID模型的变量重要性如图下所示（C&R树图省略，因为与CHAID图相近）。

比较左边与右边的图可发现，尽管变量重要性的排序两个模型相差不是特别大，前三个一样，不过在重要性的大小上不一样，但是最重要的三个分析变量在网月数（tenure）、教育水平（ed）和当前工作年限（employ）相同，且都比其他变量相对重要许多，而客户种类（custcat）和家庭人数（reside）则不一样。

C5.0法

CHAID法

2.解读预测结果

预测规则

C5.0决策树模型产生许多预测规则，而大部分的预测结果如同实际数据一样，都是顾客流失了。

为了降低顾客的流失率率，电信的员工可由这些规则来筛选目标。

SPSSModeler提供的决策树结果，包括了分类结果、实例数字和置信度，当分类的实例置信度较高，则可导出预测规则。

（1是流失，0是没有流失）以下图为例，其中之一的规则为「employ（当前工作年限<=3），[“模式0”]，其预测结果是没有流失，实例数字为11笔数据符合，其中72.7%被正确预测。

同样，「edin[45]（教育水平为学士和硕士），[“模式1”]，其预测结果是流失，实例数字为23笔数据符合，其中78.3%被正确预测。

六、方案与对策

当今，随着国内电信业的改革，客户资源成为了企业竞争的焦点。

激烈的竞争必然导然客户处于不稳定状态，各运营商都面临严重的客户流失问题。

大量而平凡的客户流失延长了企业利润回收的周期，给企业造成了巨大的损失。

在这种形势下，如何更具客户户的特性和客户行为预测客户的流失，并结合竞争环境的变化制定有效的客户挽留和赢回策略以实现企业利益的最大化，已成为电信运营商关注的焦点之一，也是电信客户户研究咨询领域的一个重要课题。

客户流失直接影响公司的效益,因此,客户流失问题在电信企业中占有重要的地位。

本文在数据挖掘的基础上,通过分析各种流失用户之间的关系,流失用户和正常用户在工作年限、教育水平、客户种类、家庭人数和在网时长几个方面的客户特征分析，构建客户流失的预测模型。

减少客户流失的具体措施

电信业岛的竞争重点集中在对大客户市场的争夺，这一竞争态势迫切要求各大电信运营商将更多的精力投入到大客户市场，做好大客户的培育、巩固和回流工作、这三个方面的工作是相互促进、相互补充的，讲究大客户的回流工作而言，可采取以下措施以尽可能地是大客户的流失率降低。

1.开展品牌工程建设

实施品牌经营，向客户宣传推广产品、品牌服务，培养品牌消费者。

品牌工程建设是一项长期性、战略性的工作，电信运营商要本着立足长远、着眼未来的原则，将企业业务经营的各方面纳入到品牌建设这一局限性的发展方向上来。

开展品牌工程建设的目的是为了培养企业的忠诚客户，因此品牌工程建设要面向客户，突出对市场需求的开发和引导，品牌建设要有系统性、科学性、整体性和灵活性。

系统性要求电信企业突出企业个性化的经营理念，紧紧围绕企业市场定位、价值定位、客户定位和产品定位的目标，使企业各项经营管理工作服从于品牌建设的大局。

科学性要求企业树立品牌时以科学的经营管理理念为指导，做到品牌建设内容正确、方法独特。

整体性要求电信企业在进行业务推广时应整体推进，业务包装组合整体划一、协调一致。

电信业务从产品名称到营销战略，从价格到服务质量总体上的一致不但有助于电信企业在大区经营范围内降低营销成本，而且有利于业务推广实现集中出击，提高企业整体竞争力。

灵活性要求企业在运用品牌时不能拘泥于书本，应征对市场变化及时加以调整。

2.开展个性化服务

现阶段企业服务水平的差异不是体现在大众化服务上，而是体现在个性化服务上。

目前电信消费群体对个性化消费的要求越老越高，电信企业如何适应消费群体定制化服务的要求，将特色服务作为企业新的竞争力和业务增长点，是电信企业迫切需要解决的问题。

电信企业在新的市场格局基本确定，大客户领域竞争态势日趋严峻的情况下，弱项提高服务水平就要从个性化服务入手。

要针对大客户的业务需求情况，做好个性化解决方案的设计、认证及施工等工作。

要针对大客户业务需求量大，使用业务种类繁多的特点，提供一篮子解决方案

要正对大哭对通信质量的不同要求，提供有针对性的维护保障方案

总之，做好大客户服务要从个案入手，力争做到各具特色。

3.做好客户关系的开发和维持工作

良好的客户关系对于项目的成功有着不可低估的作用。

在客户企业内部培养自己的支持者，可以及时掌握客户的通信需求，搜集竞争对手的情报，帮助企业在竞争中树立信息优势，并可以在此落实到人与人之间的情感交流与思想沟通等方面，企业间的合作最终是人与人之间的合作，而在合作中培养伙伴时或朋友式的关系是需要时间的。

在客户关系的开发商要重点做好运营企业自身与客户企业内部各层次人员间一一对应的关系，确保运营商与客户的沟通在各个层次上市丰富的、连续的。

4.积极参与建立公平的市场秩序

电信业竞争的惨烈在很大程度上与恶性价格战和重复投资建设有关。

在电信业向国外投资者开放的情况下，各大电信运营商如何约束相互间的行为已十分重要。

在电信运营商的服务水平相差不是很大的情况下，价格上的微妙差别对客户的影响较大。

电信业若想通过竞争实先提高与进步，首先要把各大运营商从价格竞争中释放出来，使其从中国电信业发展的长远利益出发，积极参与建立公平、规范的市场秩序。

虽然政府在规范市场秩序方面的作用和力量更为强大，但运营商的作用也不容忽视。

具体而言，运营商要在服务尤其是特色服务、细节服务上下更多的功夫，把个把更多的精力放在如何通过竞争实现共同繁荣和发展上。

提供互联互通服务的基础运营是要从社会和客户的角度出发，做好互联互通工作，而不能把互联互通服务作为要挟竞争对手的工具，更不能接互联互通的便利制造认为的通行故障。

5.完善自身业务能力

电信运营商要对现有的业务做好进一步的宣传工作，以加快市场消化吸收的速度。

对客户需要而企业暂时不能开放提供的业务则要加大内部研发工作，不能让需求在等待中消失，更不能因能力不足而失去收入增长的机会。

此外还要认真研究市场，做好业务的预测工作。

6.做好营销队伍建设

要建立一支精干、忠诚的营销队伍，不但要从生活和工作上关心营销人员，还要帮助营销人员完善个人职业生涯设计，并未他们提供必要的培训机会。

此外，积极探索和时间行之有效的业绩考核办法对营销队伍的建设同样重要。

（以上减少客户流失的具体措施来自于丁旭的期刊论文《电信大客户流失原因分析及对策》）

展开阅读全文