数据挖掘技术及在电信行业中的应用文档格式.doc
《数据挖掘技术及在电信行业中的应用文档格式.doc》由会员分享,可在线阅读,更多相关《数据挖掘技术及在电信行业中的应用文档格式.doc(18页珍藏版)》请在冰豆网上搜索。
下图展示了数据挖掘和数据仓库的联系,从图中可以看到,数据仓库是数据挖掘的基础。
图1-1数据仓库与数据挖掘
确切地说,数据挖掘只是数据库中的知识发现,(KnowledgeDiscoveryinDatabase,简称KDD)的一个子过程,但却代表着获取知识的动态过程,因此,常将整个知识发现的过程称为数据挖掘。
由图1-2可知,整个知识发现的过程是由若干挖掘步骤组成,而数据挖掘仅仅是其中的一个主要步骤。
整个知识发现的主要步骤有:
(1)数据清洗(DataCleaning)清除噪声和无关挖掘主题的数据;
(2)数据集成(DataIntegration)将来源于多个数据源的相关数据进行组合;
(3)数据转换(DataTransformation)将数据转换为易于挖掘的数据存储形式;
(4)数据挖掘(DataMining)知识发现的一个核心步骤,用智能的方法从海量数据中提取数据模式或规律;
(5)模式评估(PatternEvaluation)依据一定的评估标准从挖掘结果筛选出具有实际指导意义的模式;
(6)知识表示(KnowledgePresentation)利用可视化和知识表达技术,对所提取的知识进行展示。
图1-2数据库中的知识发现(KDD)流程示意图
1.2数据挖掘的分类和应用
数据挖掘技术涵盖的范围很广,可以用来解决各类不同的实际问题,下面从数据挖掘的任务和功能这两个不同的角度对数据挖掘进行分类。
首先,从数据挖掘任务的角度对数据挖掘进行分类。
数据挖掘是以数据挖掘任务为单位的,一个数据挖掘任务走完数据挖掘的整个流程,其中包含了挖掘的各个环节,如图1-2所示。
数据挖掘任务可以分为描述和预测两类:
描述性的挖掘任务刻画数据的一般特性,是对数据中所蕴含的规则的描述,或者根据数据的相似程度将数据分成若干组;
预测性挖掘任务是在当前数据的基础上,对未来数据的某种行为做出预测,所使用的数据都是可以明确知道结果的。
描述和预测的主要区别在于:
描述是静态的,是抓取数据的主要特征,并加以归纳和总结;
预测是动态的,是指通过学习,将当前学到的知识推广到未来,是更为高级的一种知识提取形式。
其次,从数据挖掘功能的角度对数据挖掘进行分类。
根据数据挖掘的不同功能,可将数据挖掘分成以下几类:
(1)概念描述(ConceptDescription):
概念描述是数据挖掘最简单和直接的功能,它指的是以汇总的、简洁的、精确的方式描述数据库中的大量的细节数据,以方便用户通过数据做出决策。
通常可以通过数据特征化、数据区分、数据特征比较等方法得到概念描述,也可通过一些统计学的方法对数据进行描述。
(2)关联分析(AssociationAnalysis):
关联分析是指从大量数据中发现项集之间有趣的关联。
关联分析广泛地应用于购物篮或事物数据分析中,可以有效地帮助商家制定许多市场营销方面的决策,使他们知道哪些物品或服务应该被捆绑在一起销售,以提高销售额,“啤酒和尿布”的例子是关联规则最具代表性的应用。
(3)分类和预测(ClassificationandForecast):
分类和预测是两种性质类似的数据分析形式,因为两者都是根据当前数据行为预测未来的数据行为,所不同的是,分类通常预测的是类标签,类标签通常是离散值,而预测通常用于对连续值的预测,例如对某个连续属性的缺失值做出估计。
分类是数据挖掘最重要的功能,其实际应用也最为广泛。
(4)聚类分析(Clustering):
聚类和分类的功能类似,都是预测类标签,但从学习方式的角度看,两者的实现机理却是相反的;
聚类不依赖任何先验知识,只根据数据的某些特征来定义数据之间的距离,如使用最简单的欧式距离,从而衡量数据之间的相似度,将相似度大的归入一类;
因此,通常将分类称作有指导的学习,而将聚类称作无指导的学习。
(5)离群点分析(OutlierAnalysis):
通常称那些远离大多数点的少数点为离群点;
针对数据集中的离群点,一般的做法是将其视为噪声或异常而丢弃,但在如故障诊断、欺诈检测等应用中,离群点本身可能是非常重要的信息,因此,如何检测离群点并对其含义进行合理解释也是数据挖掘的重要的研究方向之一。
(6)演变分析(EvolutionAnalysis)数据演变分析是对行为随时间变化的对象的规律或趋势的描述并建模。
这种分析包括时间序列数据分析、序列模式匹配和基于相似性的数据分析。
通过这种分析,可以识别整个股票市场和特定公司的股票演变规律,从而帮助预测股票市场价格的未来走向,支持股票投资者进行决策。
在实际的工程应用中,往往根据实际作用把挖掘得到的模式细分为:
关联模式、分类模式、回归模式、聚类模式、时间序列模式等等。
分类模式和回归模式是使用最普遍的模式,两者都是通过对当前数据建模,以对数据的未知属性质值做出预测,所不同的是,分类针对离散属性,而回归针对连续属性。
分类模式、回归模式、时间序列模式也被认为是受监督知识,因为在建立模式前数据的结果是已知的,可以用来检测模式的准确性,模式的产生是在先验知识的指导下进行的;
一般在建立这些有监督模式的时候,使用其中一部分数据作为样本,用另一部分数据来检验和校正模式,因此,这两部分数据分别称作训练数据集和检验数据集。
聚类模式、关联模式、序列模式则是非监督知识,因为在模式建立前的结果是未知的,模式的产生不受任何监督,没有任何先验知识的指导。
通过这些模式,我们一般可以从中获得广义型知识(Generalization)、分类型知识(Classification)、预测型知识(Prediction)、关联型知识(Association)、偏差型知识(Deviation)等类型的知识。
数据挖掘技术诞生于实际应用,由此决定它是一门实践性的学科。
目前,在很多重要的领域,数据挖掘都广泛地应用于其中,发挥着积极的促进作用,尤其是在如银行、电信、保险、交通、零售等商业应用领域,更是离不开数据挖掘。
数据挖掘能够解决许多典型的商业问题,其中包括:
客户分群、数据库营销、交叉销售等市场分析行为,以及客户流失预测、客户信用评估、信用卡欺诈检测、股票价格分析与预测、金融投资风险分析、购物篮分析等等。
图1-3描述了数据挖掘在解决具体的商业问题时所遵循的一般流程。
在统计和机器学习领域中也存在许多数据挖掘系统。
另外,将数据仓库、联机事务处理(OLTP)、联机分析处理(OLAP)和数据挖掘技术结合是近期数据库发展的一个趋势。
数据仓库和数据挖掘都可以完成对决策技术的支持,相互间有一定的内在联系,两者集成,可以有效地提高系统的决策支持能力。
目前,电信行业已经逐步建立起数据仓库系统,在数据仓库的基础上将逐步建立如下数据挖掘专题:
客户价值模型、客户信用等级模型、客户流失预测模型、交叉销售模型、营销计划预演模型和客户细分模型等。
数据挖掘在电信中的应用如图1-4所示。
图1-3CRISP-DM的参考模型
数据、数据挖掘任务和数据挖掘方法的多样性和复杂性给数据挖掘提出了许多具有挑战性的课题。
数据挖掘语言的设计,高效、准确的挖掘算法和挖掘系统的开发,交互和继承的数据挖掘环境的建立,以及应用数据挖掘技术解决大型应用问题,都是目前数据挖掘研究人员、系统和应用开发人员所面临的主要难题。
针对以上课题,数据挖掘产生了很多研究分支,主要有:
数据挖掘与数据库技术、数据仓库和Web数据库系统的集成、可伸缩的数据挖掘算法、数据挖掘的应用、数据挖掘语言的标准化实现、数据挖掘的可视化、对于复杂数据类型进行挖掘的新方法、数据挖掘中的隐私保护与信息、安全等。
图l-4数据挖掘在电信行业的应用
1.3数据挖掘在电信行业的应用
1.3.1数据挖掘在电信行业的应用分类
数据挖掘是由其应用的需求所驱动的,每一个数据挖掘工程都有一个挖掘主题,描述挖掘目标,指导整个挖掘过程。
电信企业是典型的以数据为驱动的服务型企业,丰富的数据资源以及行业内的激烈竞争,促使数据挖掘在该行业得到了较为广泛的应用。
数据挖掘在电信行业中的应用通常使用挖掘主题来分类,由于电信业务的复杂性和多样性,产生了许多电信数据挖掘主题,下面对其中常见的主题做一简要的介绍。
(1)客户欺诈识别(CustomerFraudDetection)指根据历史的客户欺诈数据建立用户属性、服务属性和客户消费数据与其欺诈可能性关联的模型,对每个客户在未来实施欺诈的可能性进行量化,以达到客户欺诈的识别和预防。
欺诈识别是数据挖掘在电信中最为主要的应用之一,它的兴起缘于电信欺诈行为在电信业的普遍存在和不断扩张,以及给电信运营商造成的越来越大的损失。
本文重点研究的客户恶意欠费欺诈预测便是客户欺诈识别中的一项重要内容。
(2)客户流失预测(CustomerChurnPrediction)指通过分析客户的历史行为数据,对客户的忠诚度做出评估,判断客户流失的可能性大小。
客户流失的广泛应用是因为电信行业,尤其是电信运营商之间日趋激烈的竞争。
竞争是电信市场的未来趋势,尽可能多地争取新客户和保留老客户是电信市场营销的两大重要内容,而客户流失预测是在为服务后者的基础上兴起的,它的主要作用是给出了需要被挽留的客户范围,避免了营销手段的盲目性造成的成本浪费。
(3)客户细分(CustomerSub-division)指按照一定的标准将电信企业的现有客户划分为不同的群体,采取“分而治之”的策略,针对不同的客户群采用不同的营销手段,一方面可以节省营销成本,另一方面能够达到更优的营销效果。
许多营销者认为,行为变量,如场合、用户地位、使用率、忠诚度、购买阶段及购买态度,是构建细分市场的最佳起点,而历史的电信客户行为数据正好记录了以上的这些关键信息,数据挖掘正好提供了处理和分析这些信息的有力手段。
(4)交又销售(CrossSellion)指通过分析电信各类产品之间的关联,开发各类产品的套餐捆绑策略,并且有针对性地对老客户销售其尚未使用过的相关产品。
与客户细分类似,交叉销售也是有针对性地进行销售,是重要的现代营销策略之一,它并不是简单地将客户未购买的产品推销出去,而是根据每个个体的行为特征,判断其已购买的和哪些未购买的产品有较大的关联,并将那些有较大关联的未购买产品推销给该客户。
以上四个挖掘主题在电信数据挖掘的应用中最为常见,除此之外,客户的消费模式分析、客户盈利能力分析、目标客户定位、盗用模式分析和异常模式分析也在电信行业得到了应用。
随着电信行业中新问题的不断涌现,新的挖掘主题也会应运而生。
1.3.2数据挖掘在电信行业的应用现状
随着电信市场垄断格局的打