客户数据分类方法研究Word文档格式.docx

资源描述

客户数据分类方法研究Word文档格式.docx

《客户数据分类方法研究Word文档格式.docx》由会员分享，可在线阅读，更多相关《客户数据分类方法研究Word文档格式.docx（32页珍藏版）》请在冰豆网上搜索。

客户数据分类方法研究Word文档格式.docx

AbstractII

第一章研究概况1

1.1研究背景1

1.2研究目的和意义1

1.3国内外研究状况1

第二章数据挖掘综述3

2.1什么是数据挖掘3

2.2数据挖掘的主要步骤3

2.3数据挖掘的主要任务4

2.4数据挖掘的主要应用5

2.5数据挖掘的主要工具6

2.6数据挖掘的发展6

第三章分类挖掘的介绍8

3.1什么是分类8

3.2分类分析的步骤8

3.3主要分类方法8

第四章电信客户价值10

4.1客户价值含义10

4.2电信行业特点10

4.3电信客户价值的特点10

4.4电信客户当前价值和潜在价值11

第五章指标体系权重的设定12

5.1层次分析法介绍12

5.2层次分析法的步骤12

5.3成对比较矩阵的建立13

5.4一致性检验14

5.5评价体系指标权重的确定15

第六章KNN分类算法17

6.1KNN算法简介17

6.2KNN算法的弊端17

6.3属性加权对KNN算法的改进18

第七章结果和展望19

第八章结束语20

第九章参考文献21

致谢22

附录123

1.求权值时对特征向量矩阵的单位化：

2.加权KNN算法的实现23

附录224

基于欧氏距离的最近邻改进算法24

引言：

1改进的最近邻算法25

2改进算法的实例验证27

3结束语28

ImprovedKNNAlgorithmBasedonEuclideanDistance29

Preface:

1.Improvednearestneighboralgorithm30

2.Theimprovedalgorithmoftypicalexamples33

3.closing34

摘要

客户是企业的一项重要战略资产，在电信产业结构和竞争环境发生重大变革的今天，对于电信企业而言，如何有效的管理好这个重要资源已经保持和获取新的竞争优势的重要要求。

在学术研究上，深刻认识客户的价值特征，有效的评价客户的价值也成为一个热点问题。

很多学者都在不同的领域对它进行了研究。

因此，研究客户价值，找到有效的评价方法，合理的应用到营销之中，指导企业的资源分配，这一系列问题吧仅有学术意义，也有很大的现实意义，围绕着对这些问题的思考，本论文在客户价值的评价和运用客户价值进行分类方面进行了研究。

论文探讨了价值评价的技术方法,且在研究客户价值的影响因素的基础上，建立价值评价的模型，并以江西电信所提供的数据为研究对象，进行实证分析，同时利用获得的结果和数据聚类分析的方法，运用MATLAB编程技术，对新客户的价值进行模糊评价。

关键字：

电信客户关系；

客户价值；

客户分类

Abstract

Customersareoneofthestrategicassetsoftelecomcompany.Thestructureoftelecomindustryandcompetitiveenvironmenthaschangedalot.Itissignificantfortelecomcompanytohavetheircustomersmanagedeffectivelytoachievecompetitiveadvantageinsuchsituation.Inacademicfield,torecognizethecharacterofcustomervalueandtoevaluationthecustomervalueeffectivelyhavebeenanissuediscussed.Lotsofscholarshasinvestigateditintheirways.Soinvestigatingcustomervalueandfindingoutthemethodtomeasureitareacademicandusefultooperation.Weneedtotakeadvantageofittoguidethedistributionofenterpriseresourceandactivitiesofmarketing.Withconsideringthesequestions,thepaperhasmadearesearchinevaluationofcustomervalueandmethodofsegmentbasedonvalueevaluation.Thispaperdiscussesthevalueevaluationtechniques,andestablishvalueevaluationmodelbasedontheinfluencefactorsofcustomervalue,andusethedataprovidedjiangxitelecomastheresearchobjecttodosomeempiricalanalysis.Meanwhilewecanusetheresultsobtainedanddataclusteringanalysismethods,usingMATLABprogrammingtechniquestoevaluatethevalueofnewcustomersfuzzily.

KEYWORDS：

Telecomcustomerrelationship；

Customervalue；

Customerclassification

第一章研究概况

1.1研究背景

如果问一个企业的核心资产是什么，回答可能会有很多，设备、技术、资本等等，不一而同。

这个问题也是好多学者和企业一直探索的问题，随着竞争的加剧和市场营销科学的不断发展，有一点得到越来越多的学者和企业实践人员的认同和重视，就是客户是企业一项重要的战略资产。

客户的流失直接导致的是收入的下降和利润的流失，而保持和维系客户将成为企业为了利润增长和企业发展成长的基本点。

而电信企业客户的一个战略性群体就是大客户，根据2/8法则，他们自身的特点，收入和利润对电信企业都具有战略性的意义，对业务和发展和会群体都有重大的影响。

深刻了解客户，明确他们的细分特征，以之为基础针对性营销，对于保持与激励这个群体是有效的。

而管理好他们，才能更好保障企业的发展，提高运营效益。

因此，将他们作为研究电信客户的细分管理的着眼点。

综合上面所述，研究电信客户的特征和细分，对电信企业有效的进行客户识别，进行精确化营销，从而提高和完善客户管理的能力，在新的竞争环境中获取优势是极具研究和现实意义的。

1.2研究目的和意义

由于电信行业中客户因素越来越重要，客户资产中电信客户又对电信企业有重大的意义，有效对电信客户实施管理成为电信企业客户关系管理中的战略性因素。

如何对电信企业大客户进行清晰的认知，进而实施精确化的营销管理呢?

这是电信客户管理需要首先解决的问题，也是精确化管理的基础。

它可以调节分配让企业将他的资源配置到最合理的地方去，让真正的价值客户获得足够的营销资源。

所以，本文选择将基于价值的电信客户的分类作为研究对象，目的是为了清晰以价值作为客户评价维度的客户特征，在新构建的客户评价体系中，利用分类的方法，让企业能从更好的了解客户的价值，充分提升营业额。

1.3国内外研究状况

客户是企业一项战略性的重要资产，这一共识在管理领域已经没有什么可争辩的了。

然而如何评价和管理它们，并令其保值、增值则是如今还颇具争论，仍然具有研究意义和价值的领域。

大部分现有的研究都是从货币价值的方面为着手点，从财务数据中测度客户的利润情况。

然而作为客户的综合价值考虑，他不仅仅包含从可提供的财务数据中提取的结果，还应该包含一些以非货币价值形式体现出的客户价值，例如客户的忠诚度，口碑效应等等，但是从现有的一些研究来看，还没有有效的而且适用于电信行业的测度方法。

同时，如何把营销观念和财务数据的应用结合起来以给切合实际和综合的反映客户价值也是各个行业包括电信业有待解决的问题。

第二章数据挖掘综述

2.1什么是数据挖掘

数据挖掘的历史较短，但从20世纪90年代以来，它的发展速度很快，加之它是多学科综合的产物，所以目前还没有一个完整的定义，人们提出了多种数据挖掘的定义，例如：

SAS研究所（1997）：

“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法。

”

Bhavani（1999）：

“适用模式识别技术、统计技术和数学技术，在大量的数据中发现有意义的新关系、模式和趋势的过程。

Hand（2000）：

“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程。

从技术上定义，数据挖掘是从大量的、有噪声的、模糊的、不完全的实际应用数据中，提取隐含在其中的、人们事先不知道但潜在有用的信息和知识的过程。

很多词汇与数据挖掘相近似，其中包括数据融合、数据分析和决策支持等。

这个定义包括好几层意思：

首先，数据源必须是真是的、大量的、有噪声的；

发现的知识是用户感兴趣的；

发现的知识要可接受、可理解、可运用；

并不要求发现的知识能够四海皆准，只要求能够解决待定的问题。

简言之，数据挖掘是从大量数据中提取或“挖掘”知识。

2.2数据挖掘的主要步骤

数据挖掘一般有以下几个主要步骤：

1、数据收集

大量全面丰富的数据是数据挖掘的前提，没有数据，数据挖掘也就无从作起。

因此，数据收集是数据挖掘的首要步骤。

数据可以来自于现有事务处理系统，也可以从数据仓库中得到。

2、数据整理

数据整理是数据挖掘的必要环节。

由数据收集阶段得到的数据可能有一定的“污染”，表现在数据可能存在自身的不一致性，或者有缺失数据的存在等，因此数据的整理是必须的。

同时，通过数据整理，可以对数据做简单的泛化处理，从而在原始数据的基础之上得到更为丰富的数据信息，进而便于下一步数据挖掘的顺利进行。

3、数据挖掘

利用各种数据挖掘方法对数据进行分析。

4、数据挖掘结果的评估

数据挖掘的结果有些是有实际意义的，而有些是没有实际意义的，或是与实际情况相违背的，这就需要进行评估。

评估可以根据用户多年的经验，也可以直接用实际数据来验证模型的正确性，进而调整挖掘模型，不断重复进行数据挖掘。

5、分析决策

数据挖掘的最终目的是辅助决策。

决策者可以根据数据挖掘的结果，结合实际情况，调整竞争策略等。

总之，数据挖掘过程需要多次的循环反复，才有可能达到预期的效果

2.3数据挖掘的主要任务

数据开采技术的目标是从大量数据中，发现隐藏于其后的规律或数据间的关系，从而服务于决策。

数据挖掘一般有以下四类主要任务：

1、数据总结

数据总结目的是对数据进行浓缩，给出它的总体综合描述。

通过对数据的总结，数据挖掘能够将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上，从而实现对原始基本数据的总体把握。

传统的也是最简单的数据总结方法利用统计学中的方法计算出数据库的各个数据项的总和、平均、方差、最大值、最小值等基本描述统计量。

或者通过利用统计图形工具，对数据制作直方图、饼状图等。

利用OLAP技术实现数据的多维查询也是一种广泛使用的数据总结的方法。

2、分类

分类的主要功能是学会一个分类函数或分类模型（也常常称作分类器），该模型能够根据数据的属性将数据分派到不同的组中。

即：

分析数据的各种属性，并找出数据的属性模型，确定哪些数据属于哪些组。

这样我们就可以利用该模型来分析已有数据，并预测新数据将属于哪一个组。

分类应用的实例很多。

例如，我们可以将银行网点分为好、一般和较差三种类型，并以此分析这三种类型银行网点的各种属性，特别是位置、盈利情况等属性，并决定它们分类的关键属性及相互间关系。

此后就可以根据这些关键属性对每一个预期的银行网点进行分析，以便决定预期银行网点属于哪一种类型。

3、关联分析

数据库中的数据一般都存在着关联关系，也就是说，两个或多个变量的取值之间存在某种规律性。

这种关联关系有简单关联和时序关联两种。

简单关联，例如：

购买面包的顾客中有90%的人同时购买牛奶。

时序关联，例如：

若AT&

T股票连续上涨两天且DEC股票不下跌，则第三天IBM股票上涨的可能性为75%。

它在简单关联中增加了时间属性。

关联分析的目的是找出数据库中隐藏的关联网，描述一组数据项目的密切度或关系。

有时并不知道数据库中数据的关联是否存在精确的关联函数,，即使知道也是不确定的，因此关联分析生成的规则带有置信度，置信度级别度量了关联规则的强度。

4、聚类

当要分析的数据缺乏描述信息，或者是无法组织成任何分类模式时，可以采用聚类分析。

聚类分析是按照某种相近程度度量方法，将用户数据分成一系列有意义的子集合。

每一个集合中的数据性质相近，不同集合之间的数据性质相差较大。

统计方法中的聚类分析是实现聚类的一种手段，它主要研究基于几何距离的聚类。

人工智能中的聚类是基于概念描述的。

概念描述就是对某类对象的内涵进行描述，并概括这类对象的有关特征。

概念描述分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述不同类对象之间的区别。

2.4数据挖掘的主要应用

目前，数据挖掘的研究和应用非常热门，应用主要集中在以下几个领域：

1、金融

数据挖掘在金融领域应用广泛，包括：

金融市场分析和预测、帐户分类、银行担保和信用评估等。

这些金融业务都需要收集和处理大量数据，很难通过人工或使用一两个小型软件进行分析预测。

而数据挖掘可以通过对已有数据的处理，找到数据对象的特征和对象之间的关系，并可观察到金融市场的变化趋势。

然后利用学习到的模式进行合理的分析预测，进而发现某个客户、消费群体或组织的金融和商业兴趣等。

2、市场业

市场业应用是利用数据挖掘技术进行市场定位和消费者分析，辅助制定市场策略。

由于管理信息信息系统和POS系统在市场业的广泛普及，人们很容易得到顾客购买情况的数据。

利用数据挖掘技术，如：

相关规则、模糊推理及统计方法等，通过对顾客历史数据的分析，可以得到关于顾客购买取向和兴趣的信息，无疑为商业决策提供了可靠的依据。

3、工程与科学研究

数据挖掘技术可应用于各种工程与科学数据分析。

随着先进的科学数据收集工具的使用，如观测卫星、遥感器、DNA分子技术等，面对庞大的数据，传统的数据分析工具无能为力。

数据挖掘技术以其强大的智能性和自动性，在工程和科学研究中得到广泛应用。

数据挖掘在天文学和生物学中都有极为成功的案例。

例如：

在天文学应用中，JetPropulsion实验室利用决策树方法对上百万天体进行分类，效果比人工更快、更准确。

这个系统还帮助发现了10个新的类星体。

4、产品制造业

制造业应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。

HP公司的工程师使用AngossSoftware的KnowledgeSeeker来进行HPⅡc彩色扫描仪的生产过程分析。

他们基于大约200个参数建立了一个自动数据收集系统，产生了难以手工处理的大量数据。

5、司法

数据挖掘技术可应用于案件调查、诈骗监测、洗钱认证、犯罪组织分析等，可以给司法工作带来巨大收益。

美国财政部使用NetMap开发了一个叫FAIS的系统。

这个系统对各类金融事务进行监测，分类洗钱、诈骗等。

该系统从1993年3月开始运行，每周处理约20万个事务，针对超过1亿美元并可能是洗钱的事务产生了400多个调查报告。

2.5数据挖掘的主要工具

在数据挖掘技术发展的同时，许多数据挖掘的软件工具也逐渐问世。

数据挖掘工具主要有两大类：

一类是应用于特定领域的专用数据挖掘工具，另一类是应用面较广的通用数据挖掘工具。

专用数据挖掘工具针对某个特定领域的问题提供解决方案。

在算法设计方面，充分考虑到数据、需求的特殊性，并进行优化。

IBM公司的AdvancedScout系统，针对NBA数据，帮助教练优化战术组合、上文提到的各种应用工具等。

通用数据挖掘工具处理常见的数据类型，采用通用的数据挖掘算法，提供较为通用的处理模式，如：

分类模式、回归模式、时间序列模式、聚类模式、关联模式等。

IBM公司的QUEST系统、SGI公司的MineSet系统、加拿大SimonFraser大学的DBMiner、美国BusinessObjects公司的BusinessMiner系统、SAS公司的SASEM（EnterpriseMiner）系统等。

2.6数据挖掘的发展

数据挖掘的研究前景广阔，其发展前景已经在国际上普遍公认。

目前，国内外很多大学、研究机构和公司都开始拓展数据挖掘阵地。

今后研究的焦点可能有:

研究专门用于知识开发的数据挖掘语言;

研究Intenet上的数据挖掘方法;

对其他非结构化数据诸如多媒体数据、文本数据、图像图型数据的挖掘;

研究数据挖掘与数据仓库相结合的方式，数据挖掘与数据仓库一体化的研究等。

2.61Web数据挖掘

Web挖掘的目标是从Web的超链接结构、网页内容和使用日志中探寻有用的信息。

Web挖掘使用很多种数据挖掘技术，根据Web数据挖掘的数据类型，Web挖掘任务可以被划分为三类:

Web结构挖掘、Web内容挖掘和Web使用挖掘。

Web结构挖掘:

Web结构挖掘是从表征的Web超链接中寻找有用的知识。

例如:

从链接中可以找出那些网页，这是一项搜索引擎主要采用的技术。

Web内容挖掘:

Wcb内容挖掘可以从网页内容中抽取有用的信息和知识。

根据网页的主题，我们可以进行自动的分类和聚类。

Web使用挖掘:

Web使用挖掘从一记录每位用户的点击情况的使用日志中挖掘用户的访问模式。

这项任务也使用了许多数据挖掘的算法。

其中一项就是点击流数据的预处理，以便生成可以用来挖掘的合适的数据。

2.62生物信息或基因芯片的数据挖掘

生物信息或基因数据挖掘完全属于另外一个领域，难以估计其商业价值，却可令全人类受益匪浅。

比如，基因的组合千差万别，如何识别某类病人的基因与正常人基因的差别，进而对其差别加以修复?

针对这些问题的研究已经形成了一门学科，叫做基因芯片。

基因芯片是一种新型的高通量检测技术与方法，它可以同时测量成千上万个基因的表达水平。

数据挖掘理论，将用于对基因芯片生成的海量数据进行准确而有效地分析，从而发掘出不同基因在表达上和其功能上的某种联系。

2.63文本数据挖掘

文本数据挖掘（TextMining）是指从文本数据中抽取有价值的信息和知识的计算机处理技术。

顾名思义，文本数据挖掘是从文本中进行数据挖掘。

从这个意义上讲，文本数据挖掘是数据挖掘的一个分支。

文本数据挖掘是一个边缘学科，由机器学习、数理统计、自然语言处理等多种学科交叉形成。

文本数据挖掘在智能商务、信息检索、生物信息处理等方面都有广泛的应用，例如，客户关系管理，互联网搜索等等。

第三章分类挖掘的介绍

3.1什么是分类

分类是数据挖掘里面的一种重要的数据分析方法，可以用于提取描述重要数据类的模型或者对数据的特征进行鉴定。

它是在已有数据的基础上学会一个分类函数或构造一个分类模型（即通常所说的分类器），而且该函数或模型能够把数据库中的数据记录映射到给定类别中的某一个，从而可以应用于数据预测。

3.2分类分析的步骤

分类分析是一个两步过程：

构建模型和模型应用。

第1步：

建立描述预先定义的数据类或概念集的分类器。

这是学习步（或训练阶段），其中分类算法通过分析或从训练集“学习“来构造分类器。

先假设一个样本集合中的每个元组属于预定义的某一类别，由类标号属性确定。

用于建立模型的元组集称为训练数据集，其中每个元组称为训练样本。

由于给出了类标号属性，因此该步骤又称为有指导的学习。

如果训练样本的类标号是未知的，则称为无指导的学习（聚类）。

学习模型可用分类规则、决策树和数学公式的形式给出。

第2步：

使用模型对数据进行分类。

包括评估模型的分类准确性以及对类标号未知的元组按模型进行分类。

3.3主要分类方法

目前，国外有许多研究机构、公司和学术组织在从事数据挖掘工具的研究和开发。

这些数据挖掘工具采用的主要方法包括决策树、相关规则、神经元网络、遗传算法，以及可视化、OLAP联机分析处理等。

另外也采用了传统的统计方法。

1、决策树（DecisionTree）

决策树是建立在信息论基础之上，对数据进行分类的一种方法。

首先，通过一批已知的训练数据建立一棵决策树。

然后，利用建好的决策树，对数据进行预测。

决策树的建立过程可以看成是数据规则的生成过程，因此可以认为，决策树实现了数据规则的可视化，其输出结果也容易理解。

在金融领域中将贷款对象分为低贷款风险与高贷款风险两类。

通过决策树，我们可以很容易地确定贷款申请者是属于高风险的还是低风险的。

决策树方法精确度比较高，结果容易理解，效率也比较高，因而比较常用。

2、K-nearest邻居

邻居就是彼此距离很近的数据。

依据”Doasyourneighborsdo”的原则，K-nearest邻居方法认为：

邻居数据必然有相同的属性或行为。

K表示某个特定数据的K个邻居，可以通过K个邻居的平均数据来预测该特定数据的某个属性或行为。

3、贝叶斯分类

贝叶斯分类是统计学分类方法，它是一类利用概率统计知识进行分类的算法。

在许多场合，朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，且方法简单、分类准确率高、速度快。

由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值，而此假设在实际情况中经常是不成立的，因此其分类准确率可能会下降。

为此，就出现了许多降低独立性假设的贝叶斯分类算法，如TAN算法

第四章电信客户价值

4.1客户价值含义

1、从客户的角度感知企业所提供的产品或服务的价值，也就是客户感知的能够从企业处所获得的利益。

它以客户为价值感受的主体，企业为价值的感受客体。

这是传统意义上的客户价值，目前在此方面的研究成果比较丰富和深入。

目前研究的比较多的也比较成熟的是顾客让渡价值理论。

这一领域主要研究如何解和迎合客户的需求。

2、从企业的角度感知客户所能提供给企业的收益或声誉等的价值，也就是企业感知的能够从客户处所获得的利益。

它以企业为价值的感受主体，客户为价值的感受客体。

这是近几年刚刚兴起的研究方向，也是近几年的研究热点。

它衡量了客户对企业的重要程度，有助于企业保持长期利益的最大化。

4.2电信行业特点

与一般行业相比，电信行业有其自身的特点，主要表现为:

电信企业与客户之间是一种持续的契约式的关系，这种关系可以持续相当长的一段时间，甚至是直至客户终老（例如固定电话普通客户）。

即，可以把客户当作

展开阅读全文