电信帐单数据挖掘.docx

上传人:b****6 文档编号:8562070 上传时间:2023-01-31 格式:DOCX 页数:15 大小:279.52KB
下载 相关 举报
电信帐单数据挖掘.docx_第1页
第1页 / 共15页
电信帐单数据挖掘.docx_第2页
第2页 / 共15页
电信帐单数据挖掘.docx_第3页
第3页 / 共15页
电信帐单数据挖掘.docx_第4页
第4页 / 共15页
电信帐单数据挖掘.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

电信帐单数据挖掘.docx

《电信帐单数据挖掘.docx》由会员分享,可在线阅读,更多相关《电信帐单数据挖掘.docx(15页珍藏版)》请在冰豆网上搜索。

电信帐单数据挖掘.docx

电信帐单数据挖掘

 

电信帐单数据挖掘

 

一.概述1

1.1.项目背景1

1.2.数据挖掘和相关概念1

1.2.1.数据挖掘的概念和过程1

1.2.2.数据挖掘在电信管理中的应用2

1.3.项目计划3

1.3.1.项目目标3

1.3.2.时间安排4

1.3.3.人员组织5

二.项目实施6

2.1.选择数据挖掘工具6

2.2.建立数据库表建立和数据清理7

2.3.建立数据多维存储8

2.3.1.维度创建8

2.3.2.OLAP存储创建9

2.3.3.OLAP数据分析10

2.4.数据挖掘12

2.4.1.决策树计算(月用户数量分析)13

2.4.2.用户分类(聚类分析)14

三.总结15

一.概述

1.1.项目背景

随着国内电信市场竞争的日趋激烈,电信运营商的经营模式逐渐从“技术驱动”向“市场驱动”、“客户驱动”转化。

这就要求运营商要采取以客户为中心的策略,根据客户的实际需求提供多样化、层次化、个性化的服务解决方案。

因此,客户关系管理(CRM)成了电信运营商增加收入和利润,提高客户满意度、忠诚度的有效工具。

在客户关系管理的流程中,为了准确、及时地进行经营决策,必须充分获取并利用相关的数据信息对决策过程进行辅助支持。

近几年迅速发展起来的数据挖掘技术就是实现这一目标的重要手段。

1.2.数据挖掘和相关概念

1.2.1.数据挖掘的概念和过程

1.数据挖掘的概念

数据挖掘是根据企业的既定业务目标和存在的问题,对大量的业务数据进行探索,揭示其中隐藏的规律,并将其模型化,指导并应用于企业的实际经营。

数据挖掘是建立在数据仓库基础上的高层应用,但数据挖掘跟数据仓库的其它一些应用如OLAP分析、预定义报表和即席查询等有很大的区别。

后三者通常是用户根据已知的情况对所关心的业务指标进行分析;而前者则是在业务问题和目标明确但考察的问题不清楚时,对数据进行探索,揭示隐藏其中的规律性,进而将其模型化。

2.数据挖掘过程

数据挖掘是一个循环往复的过程,通常涉及数据准备、建立模型、评估和解释模型、运用和巩固模型等步骤。

(1)数据准备:

数据准备工作包括数据的选择(选择相关和合适的数据)、探索(了解数据分布情况和异常数据等)、修正(包括缺失数据的插值等)和变换(离散值数据与连续值数据的相互转换,数据的分组分类,数据项的计算组合等)。

(2)建立模型:

选取数据挖掘工具提供的算法并应用于准备好的数据,选取相应参数,生成模型。

(3)评估和解释模型:

对模型进行比较和评估,生成一个相对最优模型,并对此模型用业务语言加以解释。

(4)运用和巩固模型:

对模型在实际应用中的表现进行监控,如果模型表现不好,则对模型作进一步的考察和修正,以反映业务运作规律的变化。

1.2.2.数据挖掘在电信管理中的应用

电信运营商拥有许多熟的数据库应用系统,如网管系统、财务系统、计费账务系统、112障碍管理系统、缴费销账系统等,并产生了大量的业务处理数据。

如果针对客户关系管理相关决策分析的需求,对这些数据进行重组整合,就能充分利用这些宝贵的数据,体现信息的真正价值。

数据挖掘技术在电信行业主要应用领域如下:

(1)客户消费模式分析

客户消费模式分析(如固话话费行为分析)是对客户历年来长话、市话、信息台的大量详单、数据以及客户档案资料等相关数据进行关联分析,结合客户的分类,可以从消费能力、消费习惯、消费周期等诸方面对客户的话费行为进行分析和预测,从而为固话运营商的相关经营决策提供依据。

(2)客户市场推广分析

客户市场推广分析(如优惠策略预测仿真)是利用数据挖掘技术实现优惠策略的仿真,根据数据挖掘模型进行模拟计费和模拟出账,其仿真结果可以揭示优惠策略中存在的问题,并进行相应的调整优化,以达到优惠促销活动的收益最大化。

(3)客户欠费分析和动态防欺诈

通过数据挖掘,总结各种骗费、欠费行为的内在规律,并建立一套欺诈和欠费行为的规则库。

当客户的话费行为与该库中规则吻合时,系统可以提示运营商相关部门采取措施,从而降低运营商的损失风险。

(4)客户流失分析

根据已有的客户流失数据,建立客户属性、服务属性、客户消费情况等数据与客户流失概率相关联的数学模型,找出这些数据之间的关系,并给出明确的数学公式。

然后根据此模型来监控客户流失的可能性,如果客户流失的可能性过高,则通过促销等手段来提高客户忠诚度,防止客户流失的发生。

这就彻底改变了以往电信运营商在成功获得客户以后无法监控客户流失、无法有效实现客户关怀的状况。

1.3.项目计划

1.3.1.项目目标

电信公司每个月的帐单有数百万条,牵涉到千家万户,这些数据中有很多宝贵的东西,可以从这些资料中获得宝贵的资料。

电信的产品非常多,主要有以下一些种类:

普通电话(市内电话)、长途电话、小灵通和宽带业务,这些业务是电信业务的主体;电信公司的帐单目前按自然月开帐,每个月给用户邮寄帐单;电信公司具有划分为多个区域包括(区局、分局)。

项目的目标之一就是对这些数据进行分类统计,按照产品/时间/区域等对数据进行分类统计(建立三个维度),如本地、长途、宽带、小灵通用户数;本地(长途和小灵通)通话次数和平均时长,语音ARP(平均用户收入)值,宽带ARP值,小灵通ARP值等。

决策树分析,统计月收入的变化情况,对用户进行聚类分析,将用户分为不同的等级。

项目目标之二是进一步加深对数据挖掘的认识,通过上课,我们已经初步了解了数据挖掘的基本原理和基本算法,通过电信数据挖掘这个实践,可初步掌握数据挖掘的一般过程和工具,对数据挖掘有更深刻的认识,这对今后的工作是有非常大的好处的。

通过项目也可以促进项目组人员之间的了解,取长补短,共同提高技能。

1.3.2.时间安排

初步时间安排为三周时间

时间

安排

备注

第一周

●项目需求

●系统分析

●人员分工

●选择数据挖掘工具

●建立数据库表结构

●建立挖掘模型

第二周

●数据清理,转换成数据库表

●建立多维度OLAP数据存储模型

●OLAP数据分析

第三周

●数据挖掘

●知识发现

●编写课题报告和演示报告,演示成果

1.3.3.人员组织

二.项目实施

2.1.选择数据挖掘工具

目前市场上的数据挖掘工具比较多,一般而言,目前市场上这些数据挖掘工具又可分成两类——企业型工具以及小型工具。

●企业型数据挖掘工具:

应用在需要高处理能力、高网络容量和大数据量的场合下。

这些工具通常支持多种平台,并基于客户机/服务器结构。

它通常可以直接连接一些复杂的数据管理系统(不像普通文本文件),并能处理大量的数据。

这类数据挖掘工具的另一个特点是它通常提供了多种数据挖掘算法,并有能力解决多种应用问题。

企业数据挖掘工具的实例有IBM的IntelligentMiner和SASEnterpriseMiner,SPSSClementine等。

●小型数据挖掘工具:

它与企业型的工具着眼点不同。

小型数据挖掘工具或者是针对低端、低消费的用户,或者是为解决特定的应用问题提供特定的解决方案。

比如Oracle公司的Darwin,Insightful公司的InsightfulMiner,等等。

本次项目选择的工具为MicrosoftAnalysisService

●优点

–掌握快,易上手,适合初学者和本次项目

–支持多种数据库,支持ODBC接口

–成本低,SQLServer2000自带的ServicePack包

●缺点

–只能做很简单的挖掘工作,过于傻瓜

–只支持基于维度的数据挖掘

–只支持决策树和聚类分析

2.2.建立数据库表建立和数据清理

根据电信帐单数据挖掘项目的要求,选择比较简单的ACCESS数据库存储数据,ACCESS的操作比较简单,由于数据库的通用性,今后也可以扩展到大型数据库,如ORACLE,SYBASE,DB2等,建立如下的表结构如下:

1.电信帐单事实表

该表记录了电信的帐单

2.产品表

3.区域表

4.时间表

由于电信帐务数据库非常复杂,结构繁多,不利于数据挖掘,因此必须首先进行数据清理,规范化数据。

利于挖掘的数据库应该是星型或雪花形的数据结构,我们的数据库表的关联关系如图所示:

数据清理后得到以下的数据:

●总共建立计费数据事实表,数据总量为132762条;

●建立从2003-2004年的时间表;

●建立区局-分局的对应关系表,总共13个区局和180个分局;

●建立产品表(普通电话,长途电话,小灵通和宽带)。

2.3.建立数据多维存储

2.3.1.维度创建

数据多维存储是OLAP(在线事物处理)的存储形式,不同于数据库的关系结构,采用了立方体的存储结构,更利于数据的快速汇总和查找。

立方体的结构以数据维度为基础,为此我们建立了三个维度,时间、区域和产品,有些维度分等级,如时间和区域就分两级维度,因为时间可以分到年/月,区域这里分为区局和分局两级。

如图所示区域维的结构:

同样可创建其它维度,AnalysisService可根据多种表结构创建数据维度,如同一张表内创建,表内的自关联创建,父子表的创建等。

2.3.2.OLAP存储创建

根据AnalysisService的向导可以创建数据的多维存储,生成较容易分析的多维存储结构,在本例中,帐单事实表的大小约为30MB,经过AnalysisService的处理生成OLAP存储后数据可以大大压缩,并以文件形式保存,减少了分析的时间,特别适合统计工作。

2.3.3.OLAP数据分析

利用OLAP分析工具和生成的OLAP存储文件,可以对数据进行初步的分析工作,如图所示:

由上图可见各年度,各区局,各种相关产品的统计情况,可进行上钻和下钻的操作,如先看每年的情况,下钻后可以看到每月的情况,粒度更细微,为分析提供的数据更详细,同理也可只看某一区局的数据,通过下钻可以看到更细的分局的数据。

还可以通过不同维度的排列组合,获得所需要分析的数据,满足不同用户对数据分析的需求。

此外还可以提供钻取功能,直接看到数据库的原始记录,更方便分析。

如图钻取数据库的原始数据:

2.4.数据挖掘

数据挖掘基于OLAP,但是OLAP只是数据挖掘的基础,而本身并不是数据挖掘。

数据挖掘有一些方法:

如关联分析、分类和预测、聚类分析等,每一种类方法又有许多不同的算法:

如分类预测就包括判定树、贝叶斯分类、后向传播分类、回归算法等。

目前MicrosoftAnalysisService仅支持聚类分析和决策树算法,决策数算法可以根据以下例子说明:

…….

…….

市场部想分析当前销售事务并找出客户统计信息(性别、婚姻状况、年收入等等)和所申请会员卡(金卡/银卡/普通卡)之间的模式。

然后根据这些信息和申请会员卡的客户的特征重新定义会员卡。

可能得到如下的决策树:

<20岁

金卡

>10万

20-30岁

银卡

5-10万

30-40岁

>50岁

男性

普通卡

<5万

40-50岁

全部

普通卡

银卡

金卡

>4万

4-12万

>12万

<20岁

女性

20-40岁

…….

…….

>40岁

根据以上决策树,我们可以判断客户选卡的模式,男性30-40岁年收入大于10万的比较偏好选择金卡。

根据决策树所构造的结果是实现我们并不知道的一个结果,就象关联分析中我们并不知道尿布和啤酒是关联商品,往往用户会同时购买一样,决策树的分枝是有数据和决策树算法决定的,如果使用现成工具进行决策树的挖掘,我们无法预料能产生什么样的决策结果。

2.4.1.决策树计算(月用户数量分析)

根据以上算法计算一个决策树,判断各月的收入情况,可以得到以下的分析结果:

可以看到某些月份用户数量比较多,而有些月份用户数量比较少。

这样市场部就可以根据用户数量在淡季进行有针对性的促销活动。

2.4.2.用户分类(聚类分析)

我们要求对用户进行分类,但我们并不知道要怎么样分类,我们将数据交AnayliseService处理,AnayliseService为我们得到一个分类,可以作为用户分类的依据。

分类结果如下表所表示:

月话费

用户数

百分比

<3531.25

97000

73%

3531.25-10056.25

24697

18.6%

10056.25-13000.75

2537

2%

>13000.75

8523

6.4%

全部

132762

100%

可见用户大多数还是以低端用户为主(数据经过处理),高端用户也有6.4%,主要是企业用户。

三.总结

通过对该项目的初步挖掘,产生了一些挖掘结果,但由于考虑到电信安全性,因此数据经过了一些处理,可能与实际情况并不十分符合。

而且由于工具的缺乏,也可能导致挖掘结果的不够完善。

真正的电信数据挖掘也还存在以下一些问题:

(1)数据质量和完备性:

电信公司不象移动公司,用户和手机是绑定的,有比较完善原始数据,电信公司的一个电话是好多人同时使用的,因此无法对用户的通信行为模式进行详细的分析。

目前很多分析只是数据报表,还没有上升到数据挖掘的高度,不能从大量数据中得到真正的金子。

(2)国内电信运营商现有的、面向事务的数据在质量、完整性和一致性上存在许多问题,必须投入大量的精力去进行数据的抽取、净化和处理。

此外,业务问题的相关数据有时难以全面收集。

例如客户信用是客户价值评估中的关键因素,但由于国内未建立完善的信用体系,无法根据现有客户数据建立优质的信用评价模型,从而导致客户价值模型有效性的降低。

(3)相应的人员素质:

在数据挖掘应用过程的多个环节中,人的主观辨识和控制是应用成败的关键,这就对系统使用人员提出了很高的要求。

如果没有具备相应素质的使用和维护人员,必将导致分析系统与现实脱钩,无法达到预期效果。

(4)应用周期:

数据挖掘存在一个较长的应用周期。

技术本身不能给使用者解决任何问题,只能从数据中把一些潜在的情况呈现到使用者面前,由使用者采取相应措施。

数据挖掘应用的有效方法是:

从一个较小的。

通过挖掘过程,可学到不少有用的知识,特别是对一些软件方向的同学,这些知识对今后的工作是很有帮助的,也是最宝贵的经验,项目进行过程中项目组的成员团结协作,共同为一个目标而努力,形成了良好的团队精神。

同时也希望国内的数据挖掘能真正开展起来,不仅仅停留在简单的数据分析阶段,而应该更深入的真正挖掘一些有用的知识,这才是宝贵的财富。

2005/05

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 研究生入学考试

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1