数据挖掘实验报告Word文档格式.docx

上传人:b****6 文档编号:20011553 上传时间:2023-01-15 格式:DOCX 页数:43 大小:1.94MB
下载 相关 举报
数据挖掘实验报告Word文档格式.docx_第1页
第1页 / 共43页
数据挖掘实验报告Word文档格式.docx_第2页
第2页 / 共43页
数据挖掘实验报告Word文档格式.docx_第3页
第3页 / 共43页
数据挖掘实验报告Word文档格式.docx_第4页
第4页 / 共43页
数据挖掘实验报告Word文档格式.docx_第5页
第5页 / 共43页
点击查看更多>>
下载资源
资源描述

数据挖掘实验报告Word文档格式.docx

《数据挖掘实验报告Word文档格式.docx》由会员分享,可在线阅读,更多相关《数据挖掘实验报告Word文档格式.docx(43页珍藏版)》请在冰豆网上搜索。

数据挖掘实验报告Word文档格式.docx

112障碍管理系统、缴费销账系统等,并产生了大量的业务处理数据。

如果针对客户关系管

理相关决策分析的需求,对这些数据进行重组整合,就能充分利用这些宝贵的数据,体现信

息的真正价值。

(二)国内数据挖掘应用中存在的问题

1.数据质量和完备性

国内电信运营商现有的、面向事务的数据在质量、完整性和一致性上存在许多问题,必

须投入大量的精力去进行数据的抽取、净化和处理。

此外,业务问题的相关数据有时难以全

面收集。

例如客户信用是客户价值评估中的关键因素,但由于国内未建立完善的信用体系,

无法根据现有客户数据建立优质的信用评价模型,从而导致客户价值模型有效性的降低。

2.相应的人员素质

在数据挖掘应用过程的多个环节中,人的主观辨识和控制是应用成败的关键,这就对系

统使用人员提出了很高的要求。

如果没有具备相应素质的使用和维护人员,必将导致分析系

统与现实脱钩,无法达到预期效果。

二、数据挖掘技术在电信行业客户管理的应用领域

1.客户流失

随电信市场竞争的发展,客户选择电信产品及电信企业的余地越来越大,电信企业之间对客户的争夺也越来越激烈。

面对日益激烈的市场竞争环境,电信企业传统的、被动式服务体系已无法满足客户需要,应对对手挑战。

为了留住最有价值的客户,您需要开展有效的保留活动。

SPSS作为全球著名的分析软件提供商,对电信企业的客户流失问题十分关注,并有多年的研究经验。

SPSS核心产品之一Clementine的CRISP-DM标准可以帮助电信行业用户规范数据挖掘流程减少客户流失。

2.营销响应

为了发展新客户和推广新产品,企业通常会针对潜在客户推出各种直接营销活动。

然而,

如果目标客户的选择不明确,营销活动往往花费巨大而取得的实际效益不佳。

有效的促销活动,不在于涉及客户的数量多少,而在于针对的都是具有高响应概率的目标人群。

这不仅可

以提升客户的满意度,增强客户对公司的忠诚度,而且可以降低客户获取费用,增加营销活

动投资回报率,直接带来企业效益的增加。

SPSS采用探索性数据挖掘方法,如建立营销响应模型,通过对客户及其行为的各种属性进行分析,预测哪些客户会对某种产品或服务的营销活动进行响应,帮助企业在合适的时间,通过合适的渠道,以一种合适的接触频率,对合适的客户开展活动,从而提高营销活动的响应率和投资回报率。

3.市场细分

市场细分就是指按照消费者欲望与需求把一个总体市场划分成若干具有共同特征的子

市场的过程。

分属于同一细分市场的消费者,他们的需要和欲望极为相似;

分属于不同细分

市场的消费者对同一产品的需要和欲望存在着明显的差别。

市场细分的目的就是从各个细分

的消费者群当中,辨认和确定目标市场,然后针对客户的特点采取独特的产品或市场营销战

略,以求获得最佳收益。

SPSS的客户细分帮助您实现客户价值的最大化和风险最小化。

客户细分也是进行深入分析的基础。

利用聚类和分类等技术,SPSS预测分析技术能够发现特定群体客户的行为规律,确定客户价值,从而进一步预测客户消费行为,使营销活动更具有针对性,提高营销活动的市场回应率,使营销费用优化配置。

4.满意度分析

客户满意是指客户通过对一个产品或服务的可感知效果或结果与其期望值相比较后,所

形成的愉悦或失望的感觉状态。

客户满意度就是对客户满意水平的量化。

客户的高度满意和

愉悦创造了一种对产品品牌在情绪上的共鸣,而不仅仅是一种理性偏好,正是这种由于满意

而产生的共鸣创造了客户对产品品牌的高度忠诚。

客户满意度研究能帮助企业把其有限的资

源集中到客户最看重的特性方面,从而达到建立和提升客户忠诚并保留客户的效果。

SPSS客户满意度研究应用解决方案分析客户与市场、体验客户感受,提升客户满意度运用分析模型,通过综合分析潜在客户、现有客户、员工及合作伙伴等多个群体,了解客户满意度,对满意度优劣因素进行规类,获得满意度因果关系,构建科学的满意度评价指标体系,切实提高客户满意度水平。

5.销售提升解决方案

电信公司希望可以向现有客户销售新的产品和服务,提高现金收入并提升每个客户的收

益率。

例如,移动公司能够利用数据挖掘建立使用GPRS服务的客户个人属性和行为特征概述来理解客户行为,进而利用这一模型来预测针对这些客户还可以制定或推荐什么样的产品或者服务组合,然后我们就可以成功地对这些客户设定有效的销售战略。

SPSS功能强大的分析产品能够帮助电信用户发现现有和潜在的客户需求,基于对客户的行为描述来制定提供有针对性的策略来获得最佳的新客户。

利用购买行为模型向现有客户推荐产品和服务。

例如,可以根据新用户的行为特征档案来制定适合提供他们的服务,吸引更多的新客户。

另外,分析客户的购买偏好可以找到适合提供给现有客户的产品和服务。

6.客户市场推广分析

客户市场推广分析利用数据挖掘技术实现新的推广策略的仿真,根据数据挖掘模型进行

模拟计费和模拟出账,其仿真结果可以揭示新策略中存在的问题,并进行相应的调整优化,

以达到市场推广活动的收益最大化。

在电信行业中,优惠是市场营销中十分重要的一部分,优惠策略的不恰当,常常会得到适得其反的市场效果。

利用SPSS可以通过已建立的客户行为模型,仿真客户对优惠策略的

反应,从而预测优惠策略实施的效果。

通过对优惠策略的仿真,可以预测优惠策略的成功与

否,从而进行相应的调整和优化。

7.客户欠费分析和动态防欺诈

随着国内电信市场的不断扩大,中国电信业中的欺诈现象也越来越严重。

目前,国内电

信商在应对恶意欠费上,基本还处于一种事后的、被动的、依赖人力的阶段。

如果利用数据

挖掘和统计分析技术,对欠费行为进行事前预测,在恶意欠费发生前就采取防范措施,就可

以大幅减少欠费行为给运营商带来的巨额损失。

在对客户欠费进行准确定义之后,SPSS系列产品和领先技术能够帮助您预测各客户可

能欠费额、可能欠费级别并采取相应对策。

首先,利用数据描述技术,可以对已知的欺诈性

客户和非欺诈性客户进行有关的数据分析,发现可能影响客户欠费的因素。

然后,我们可以

根据对以上因素的分析和统计,构建预测模型,并应用到当前客户数据库中,利用上述预测

结果,适时地对大客户进行重点跟踪,并在必要时采取措施,以减少损失。

8.简化管理

呼叫中心的运营管理被人们提到前所未有的高度,因为一个中心即使建得很好,技术也

很先进,但如果管理不好,优势仍然发挥不出来。

然而,管理对于很多呼叫中心来说,却是

很难过的门槛。

在呼叫中心中,话务量是个重要的指标,企业要根据话务量的大小,以及业

务种类的不同,安排座席人员的数量和排班,但话务量是个变化的指标,以往比较难以预测。

使用SPSS数据挖掘可以帮助简化管理。

使用时间序列分析可以对话务量的情况进行一定程度的预测,就可以更合理地安排座席人员的数量,从而降低企业的运营成本。

另外,对业务进行相关性分析,分析出哪几种业务具有比较强的关联性。

这样,在安排座席人员时,就可以将相关业务的人员进行一定程度的合并,减少人员数量,降低呼叫中心的经营成本。

9.竞争对手分析

成熟的市场必然是一个竞争比较充分的市场。

不同运营商客户之间的互联互通是最基本的前提,因此通过对客户与竞争对手客户之间通话的行为分析,可以建立有关竞争对手经营和客户服务的模型,比如竞争对手客户发展模型,通过对这些模型的使用,可以制定有效的市场应对策略。

SPSS可以由相互通话的记录中,掌握对手的客户量、业务量、客户增长情况等。

推断对手的大客户,掌握其行为特征。

预测对手下一步的市场策略,未雨绸缪,先发制人。

准确评估己方市场策略对对手的影响。

准确评估对方市场策略的效果及对己方的影响。

分析其他竞争对手之间的竞争策略,评估其对各方影响。

三.、解决方案

随着电信体制的改革和不断深化,国内电信行业内部各大运营商之间的竞争日趋激烈。

电信运营商为了获取更多的客户资源和占有更大的市场份额,往往采取名目繁多的促销活动和层出不穷的广告宣传来吸引新客户。

然而,统计发现,发展一个新客户比保持一个老客户

的费用要高7倍,而如果"

用户保持率"

增加5%,将有望为运营商带来85%的利润增长。

因此,

对老客户的保留直接关系到运营商的利益,无论是客户流失还是话务量流失都将对运营商的

经营产生深远的影响。

针对这一问题,目前国外电信界应用最为广泛的解决方案之一,是应

用数据挖掘技术,研究流失客户的特征,从而对流失进行预测、并对流失的后果进行评估,

采取客户保留措施,防止因客户流失而引发的经营危机,提升公司的竞争力。

具体说来,客户流失是指客户终止与企业的服务合同或转向其它公司提供的服务。

客户

流失分析是以客户的历史通话行为数据、客户的基础信息、客户拥有的产品信息为基础,通

过适当的数据挖掘手段,综合考虑流失的特点和与之相关的多种因素,从中发现与流失密切

相关的特征,在此基础上建立可以在一定时间范围内预测用户流失倾向的预测模型,为相关

业务部门提供有流失倾向的用户名单和这些用户的行为特征,以便相关部门制定恰当的营销

策略,采取针对性措施,开展客户挽留工作。

1.客户流失需要解决的问题

1.哪些现有客户可能流失?

客户流失的可能性预测。

主要对每一个客户流失倾向性的大小进行预测。

2.现有客户可能在何时流失?

如果某一客户可能流失,他会在多长时间内流失。

3.客户为什么流失?

哪些因素造成了客户的流失,客户流失的重要原因是什么。

主要对引起客户流失的诸因

素进行预测和分析

4.客户流失对客户自身会造成什么影响?

客户流失对电信公司的影响如何?

对可能流失客户进行价值评估,该客户的价值影响了

运营商将要付出多大的成本去保留该客户。

5.客户保留措施?

针对电信公司需要保留的客户,制定客户和执行保留措施。

2.电信客户流失的类型

为了避免由客户流失造成的损失,必须找出那些有流失危险和最有价值的客户,并开展

客户保留活动。

电信行业的客户流失现象可以分为以下三种情况:

1.公司内客户转移:

客户转移至本电信公司的不同网络或不同业务。

主要是电信公司增加

新业务,或者资费调整引发的业务转移,例如从普通的固定电话转至IP电话。

这种情

况下,虽然就某个业务单独统计来看存在客户流失,并且会影响到公司的收入,但对公

司整体而言客户没有流失。

2.客户被动流失:

表现为电信运营商由于客户欺诈或恶意欠费等行为而主动终止客户使用网络和业务。

这是由于电信运营商在客户开发的过程中忽视了客户质量造成的。

3.客户主动流失:

客户主动流失可分为两种情况。

一种是客户不再使用任何一家电信运营

商的电信业务;

另一种是客户选择了另一家运营商,即所谓的"

客户跳网"

"

客户跳

网"

的原因主要是客户认为公司不能提供他所期待的价值,即公司为客户提供的服务价

值低于另一家电信运营商。

这可能是客户对电信公司的业务和服务不满意,也可能是客户仅仅想尝试一下别家公司提供而本公司未提供的新业务。

这种客户流失形式是研究的

主要内容。

3.如何进行客户流失分析?

对于客户流失行为预测来说,需要针对客户流失的不同种类分别定义预测目标,即明确

定义何为流失,进而区别处理。

预测目标的准确定义对于预测模型的建立是非常重要的,它

是建立在对运营商的商业规则和业务流程的准确把握的基础之上。

在客户流失分析中有两个

核心变量:

财务原因/非财务原因,主动流失/被动流失。

对不同的流失客户按该原则加以

区分,进而制定不同的流失标准。

例如,非财务原因主动流失的客户往往是高价值的客户,

他们会正常支付服务费用并容易对市场活动有所响应,这种客户是电信企业真正需要保留的

客户。

而对于非财务原因被动流失的客户,对于预测其行为的意义不大。

研究哪些客户即将流失时,是一个分类问题。

将现有客户分为流失和不流失两类,选择

适量的历史上流失客户和未流失客户的属性数据组成训练数据集,包括:

客户的历史通话行

为数据、客户的基础信息、客户拥有的产品信息等。

Clementine提供人工神经网络,决策树,logistic回归等模型用于建立客户流失的分类模型。

关于流失用户特征的分析,是一个属性约减和规则发现问题。

Clementine提供关联分析方法,可以发现怎样的规则导致客户流失。

也可以利用Clementine的决策树方法,发现与目标变量——是否流失——关系最为紧密的用户属性。

由于不同类型的客户可能具有不同的流失特征,因此,在进行深入的客户流失分析时,需要先进行客户细分,再对细分之后的客户群分别进行挖掘。

在预测客户流失时一个很重要的问题是流失的时间问题,即一个客户即将要流失,那么

它可能什么时候会流失。

生存分析可可以解决这类问题。

生存分析不仅可以告诉分析人员在

某种情况下,客户可能流失,而且还可以告诉分析人员,在这种情况下,客户在何时会流失。

生存分析以客户流失的时间为响应变量进行建模,以客户的人口统计学特征和行为特征为自

变量,对每个客户计算出初始生存率,随着时间和客户行为的变化,客户的生存率也发生变

化,当生存率达到一定的阈值后,客户就可能流失。

分析客户流失对客户自身的影响时,主要可以考虑客户的流失成本和客户流失的受益分

析。

客户流失成本可以考虑流失带来的人际关系损失等因素,通过归纳客户的通话特征来表

征。

减少客户流失的一个手段就是增加客户的流失成本。

客户流失的受益分析就是判断客户

流失的动机,是价格因素还是为了追求更好的服务等。

这方面内容丰富,需作具体分析。

分析客户流失对电信公司的影响时,不仅要着眼与对收入的影响,而且要考虑其他方面

的影响。

单个的客户流失对电信公司的影响可能是微不足道的,此时需要研究流失客户群对

电信公司收入或业务的影响。

这时候可能需要对流失客户进行聚类分析和关联分析,归纳客

户流失的原因,有针对性的制定防止客户流失的措施。

在预测出有较大流失可能性的客户后,分析该客户流失对电信公司的影响。

评估保留客

户后的收益和保留客户的成本。

如果收益大于成本,客户是高价值客户,则采取措施对其进

行保留。

至于低价值客户,不妨任其流失甚至劝其流失。

总之在利用数据挖掘研究客户流失问题时,需要明确并深入理解业务目标,在明确的业

务目标的基础上准备数据、建模,模型评估,最后将模型部署到企业中。

四、数据分析

(一)客户流失分析

设想为一个虚构的电信公司的客户流失建模。

其原本是市场的领先者,但目前正受到来自其它电信公司日益激烈的竞争。

由于竞争对手接连推出了一系列新产品,并进行了大量的促销活动。

最近半年来,某电信公司的客户流失较为严重。

为了保持其战略性市场主导地位,电信公司计划开展客户保留活动。

在活动进行之前,为了尽可能提高活动收益,电信公司需要对现有的客户的数据进行分析,从众多客户中找出流失可能性高的优质客户并针对其开展活动。

而对于流失可能性低或者保留成本大于收益的客户,则可以不展开活动。

此外,客户流失预测也能帮助电信公司发现那些申请服务后不久就欠费停机的客户,从而减少这类客户带来的损失。

1.商业理解

预测现有客户在未来六个月内流失的概率并分析保留客户活动的成本和收益,针对收益

大于成本的客户开展客户保留活动,以减少公司优质客户的流失。

2.数据理解

(1)数据说明

选取一定数量的客户信息(包括流失的和未流失的),选择相关的客户属性(包括客户

资料、通话行为特征、消费属性、客服信息等)。

利用直方图、分布图等数据分析工具初步

确定哪些因素可能影响客户流失。

所选取的数据说明如下:

1)用户编号

2)长途通话时间

3)国际通话时间

4)本地通话

5)掉线次数

6)付款方式

7)本地话单类型

8)长途话单类型

9)年龄

10)性别

11)婚姻状态

12)孩子数目

13)估计收入

14)是否有车

15)是否流失

其中客户流失状态有三种属性:

a)被动流失

b)主动流失,这是分析中特别关注的一类客户

c)未流失,仍然是电信公司的客户

在分析中,我们主要关注的是主动流失的客户。

被动流失对电信公司来说是意义最小的,

因为被动流失通常是客户发生欺诈,欠费等行为后不再继续使用该公司服务。

主动流失指的

是客户停止在电信公司的业务,转向了其竞争对手,这通常是因为别的公司能够提供更切

合客户需求的产品服务,是该行关注的焦点。

在具体的应用之前,电信公司将所有现有的

客户归到上述的三个类别中。

同时,所有的人口统计信息(也就是从年龄到是否有车)每六

个月更新一次,而交易信息(从长途通话时间到长途话单类型)则是每个月实时更新的。

了让预测模型能预先进行指示以便采取补救措施,在目标变量(因变量)和输入变量(自变

量)之间设定了6个月的延迟。

比如,人口统计信息和交易信息都是2007年1月收集的,而是否流失则是2007年7月的数据。

也就是说,输入变量采集六个月后再将客户流失状态分类;

因此该模型提早6个月预测客户流失。

(2)数据描述和图形

Clementine提供了一系列数据描述和可视化的工具,可以帮助分析人员对数据分布以及数据之间的关系进行基本探索。

这些工具包括:

数据审核,统计分析,网络图,直方图,散点图,两步聚类等等。

图3.1.1描述了客户的性别分布。

可见,主动流失的客户以女性为主。

而被动流失的客

户男女比例基本持平。

在三种客户状态中,被动流失的比例是最小的。

图3.1.1:

用户流失与性别的关系

3.数据准备

在数据准备阶段,分析人员根据数据理解的结果准备建模用的数据,包括数据选择、新

属性的派生,数据合并等。

在本例中,由于长途通话时间,国际通话时间和本地通话时间都是反映用户的对电话的

使用情况,因此,将三者合并,得到新的通话总时间变量:

通话总时间=长途通话时间+国际通话时间+本地通话时间

由于用户编号是一个系统自动生成的属性,不具有实际意义,因此,在分析中将用户编

号排除到模型之外。

4.建立模型

将准备的数据划分为训练集和检验集,首先利用C5.0决策树模型进行属性约减,然后以约减后的属性为自变量,以是否流失为因变量,训练神经网络模型,得到相应的客户流失预测模型。

对检验集应用该模型,并根据预测结果的准确性评价模型。

下图是模型建立和评估的数据流图。

图3.1.2:

Clementine中对客户流失建模的数据流图

执行数据流,C5.0算法得到的规则集如下图所示。

可见其中年龄,收入,国际通话时间,本地通话时间和性别是最重要的五个变量。

C5.0得到的规则集里,有三类客户很容易主动流失。

但是这只是一个初始的分析结果,还需要使用神经网络对这五个变量进行进一步建模。

图3.1.3:

Clementine中对客户流失进行属性约减得到的结果

由于我们的关心是客户主动流失,因此派生一个新变量流失概率,如果是否流失属性为

主动流失,则取值为1,否则取值为0。

采用年龄,收入,国际通话时间,本地通话时间和性别为输入变量,流失概率为目标变量,根据数据集训练得到一个5-1-1结构的神经网络模型信息如下。

图3.1.4:

Clementine中采用神经网络对客户流失建模得到的结果

5.模型评估和部署

对训练集应用神经网络模型,可以对每个客户流失的可能性打分。

将客户按照流失概率

由大到小排序,然后根据公式:

价值=长途通话时间*2+国际通话时间*5+本地通话时间*1派生出每个客户的价值大小。

分析客户价值和流失概率之间的关系,对高价值高流失概率的客户进行采取措施,如给与一定的优惠,进行挽留,对低价值的客户可以任其流失。

图3.1.5:

模型评估和部署的数据流图

图3.1.6:

评分和价值的散点图

对高价值高流失概率的客户采取营销活动进行挽留的成本和收益如下图所示。

可见,通

过及时地发现要流失的客户并根据客户价值及时采取挽留措施,可以避免因客户流失而带来

的损失。

在验证模型后,可以利用ClementinePublisher发布模型,使得模型可以在多种环境中使用。

图3.1.7:

营销活动的成本和收益

(二)营销响应

1.营销响应的意义

为了发展新客户和推广新产品,电信公司通常会针对潜在客户推出各种直接营销活动。

然而,如果目标客户的选择不明确,营销活动往往花费巨大而取得的实际效益不佳,甚至可

能遭遇由于活动响应率太低而无法收回成本的境况。

事实上,一方面,在当今竞争激烈的电

信市场上,客户每天通过短信,电话,邮件,电子邮件,网站广告等方式会接触到大量的电

信业务广告。

缺乏针对性和足够吸引力的营销活动往往会被客户直接忽略。

另一方面,电信

用户越来越看重个性化服务,对新的电信业务具有较大的需求。

为了更好的满足客户需求,许多公司采用了促销活动管理系统来帮助执行促销活动。

些管理系统帮助增加了公司采取的促销活动的数量,却并不一定能改善促销活动的效率。

实上,不合适的促销活动和过多的促销活动只会导致用户对公司的不满意度增加。

所以,有效促销活动不在于数量的多少,而在于要在恰当的时机,通过恰当的方式,向

恰当的用户推销恰当的产品。

也就是说,有效的促销活动,不在于涉及客户的数量多少,而

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 考试认证 > 其它考试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1