数据仓库与数据挖掘案例分析.docx

上传人:b****6 文档编号:7326441 上传时间:2023-01-23 格式:DOCX 页数:17 大小:559.02KB
下载 相关 举报
数据仓库与数据挖掘案例分析.docx_第1页
第1页 / 共17页
数据仓库与数据挖掘案例分析.docx_第2页
第2页 / 共17页
数据仓库与数据挖掘案例分析.docx_第3页
第3页 / 共17页
数据仓库与数据挖掘案例分析.docx_第4页
第4页 / 共17页
数据仓库与数据挖掘案例分析.docx_第5页
第5页 / 共17页
点击查看更多>>
下载资源
资源描述

数据仓库与数据挖掘案例分析.docx

《数据仓库与数据挖掘案例分析.docx》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘案例分析.docx(17页珍藏版)》请在冰豆网上搜索。

数据仓库与数据挖掘案例分析.docx

数据仓库与数据挖掘案例分析

补充:

结合电信领域的特点,通过一个应用实例来说明数据仓库的具体实施。

第一阶段:

项目的需求和目标分析

一.主题划分

图1一个简单的电信企业模型

在电信企业中,现有的业务数据库系统一般包括客户服务DB、网管DB、计费DB、账务DB、市场信息DB、营销信息DB等。

通常按照电信公司的业务需求可能将其主题域划分为:

1.客户发展:

主要是对客户群体进行分类后,从不同的角度展现公司提供服务的客户数量情况。

可以按照客户本身的自然属性(如年龄、入网时间、受教育程度等)、客户的扩展属性(如信用度、客户价值、流失概率、挽留价值等)等不同的角度进行划分。

2.收益分析:

主要是通过不同的角度对电信企业的收益情况进行分析。

收益分析的角度可以按照客户的自然属性和扩展属性划分,也可以按照电信公司的业务运营进行划分,还可以按照机构设置、地理角度对收益进行划分。

3.呼叫特征分析:

分析不同类型客户在呼叫上具有的特征。

具体的衡量指标包括很多,例如:

把呼叫分成长呼叫、中呼叫、短呼叫。

4.业务发展:

主要是对电信公司提供的各种业务的使用客户人数、客户特征、收益金额进行比较,以发现具有潜力的业务或者为开展能够吸引更多客户的新业务提供指导。

5.营销管理:

主要是对各电信营业厅、电信分销商、代销商的经营状况进行分析。

6.市场竞争:

主要是对电信运营商的竞争对手的客户发展、收益、业务运营等多方面的信息进行收集并分析,从而为本企业提供市场竞争的策略。

其中涉及的数据主要是外部数据和非格式化数据。

7.服务质量:

主要包括发现客户投诉、咨询的焦点,发现公司内部在运营上存在的问题等。

8.网络优化管理:

分析如何有优化网络的配置、如何更好的对网络进行管理等问题。

二.电信领域常见的数据挖掘层次的问题

1.客户群体划分:

客户群具有两个金字塔(占总客户数10%的大客户的消费金额占了总客户消费金额的70%)。

对客户群体进行合理的划分,有利于公司了解一下信息:

●公司的主要客户群体的情况;

●主要客户群体的呼叫特征行为;

●主要客户群体对业务的需求;

●大客户群体的呼叫特征行为;

●大客户群体对业务的需求;

在对客户进行合理划分的基础上,可以针对不同客户群体的特点采用不同的策略,对其消费行为进行合理的引导。

(可以采用聚类或分类的方法)

2.客户流失划分:

挽留一个老客户比争取一个新客户付出的代价要小得多。

3.客户欺诈分析:

主要针对可能出现的客户恶意欠费问题进行分析。

4.网络规划优化

5.网管中的分析问题:

网络优化、网管故障的相关性分析、统计设备的故障率等。

三.项目规划

在项目初期,应当选择当前最急需、能在较短时间内发生效益、业务模型清晰、能从现有系统或通过其他方式获取数据的决策目标作为系统初期的任务。

在后续阶段,根据新的需求、现有系统的改造情况、积累的经验确定新的决策目标,逐步发展完善数据仓库系统。

在建设初期,可以将以下五个主题列在前期任务考虑之内。

客户发展分析

收益情况分析

呼叫特征分析

营销管理分析

业务发展分析

作为螺旋开发的第一个循环,建议先将客户发展、收益分析、呼叫特征分析列入第一阶段的任务。

四.需求分析的形成

1.任务说明书:

在任务书中,指明了DW中涉及的主题有3个:

客户发展、收益分析、呼叫特征分析。

在DM层次上,需要完成对客户的流失概率、客户价值、客户挽留价值进行合理的评估。

2.需求说明书:

任务说明书需要设计人员进一步将其细化成需求说明书。

在进行需求分析的时候,设计人员最少应当访问如下的几类人:

(1)项目负责人:

对整个项目的宏观目标和方向有比较准确的把握,对DW项目有全境式的认识。

(2)主题涉及部门的管理人员:

了解部门内部对数据的需求。

使得设计人员能够站在管理人员对数据需求的角度来看问题,而不是站在技术的角度看问题。

(3)DSS分析员和未来使用DW系统的最终用户:

从他们那里了解他们目前是如何为管理层提供决策辅助信息的,提供信息的内容包括哪些,信息的来源有哪些,在处理数据中遇到的棘手问题有哪些,另一方面是他们对DW系统的需求和希望,并可以从最终用户那里了解比较细致的需求。

(4)企业的信息技术人员,包括数据管理人员(对数据质量进行管理的人员,不是DBA)、数据库管理员、数据库设计人员、程序员:

从他们那里了解现有业务系统是如何构造的、现有系统的运行情况、现有系统中存在哪些问题、应该从哪儿获取需要的数据。

各类人员同项目需求的关系如下图所示:

设计人员需要将从上述人员那儿了解到的信息进行归纳总结,权衡各方面的因素,最终给出一个比较具体的功能需求描述。

下表给出一个收益分析主题的功能需求分析例子。

收益分析

不同时期的收入总量分析及预测。

收益结构分析(月租费、本地话费、漫游费、入网费、卡费等)

功能名称

功能描述

度量

涉及维度

维成员

品牌和业务构成

收益的品牌构成

各种品牌在企业总收益中所占比重和数量

收益、收益百分比

品牌

神州行、

全球通

收益的业务构成

各项业务在企业总收益中所占比重和数量

收益、收益百分比

业务类别

通话、

短信息

呼叫特征

企业收益的主/被叫构成

主叫、被叫对于企业收益的贡献

收益、收益百分比

主/被叫

主叫、被叫

企业收益的呼叫类型构成

长途、漫游、本地对于企业收益的贡献

收益、收益百分比

通话类型

长途、漫游、本地

企业收益的呼叫时长构成

不同时长的呼叫对于企业收益的贡献

收益、收益百分比

呼叫时长

1分钟以下

1~5分钟

5~10分钟

10分钟以上等

客户特征

企业收益的客户性别构成

不同性别客户对于企业收益的贡献

收益、收益百分比、客户数量

客户性别

未知

企业收益的客户年龄构成

不同年龄段客户对于企业收益的贡献

收益、收益百分比、客户数量

客户年龄段

18以下

18~22

企业收益的大客户构成

大客户和普通客户对于企业收益的贡献

收益、收益百分比

是否大客户维

大客户

普通客户

企业收益的客户类型构成

企业收益客户类型的百分比构成

客户数量、百分比

客户类型

单位、

个人

企业收益的不同在网时间客户构成

不同在网时间客户对于企业收益的贡献

收益、收益百分比、客户数量

在网时间维

一年以下

1~2年

企业收益的客户信用积分构成

收益、收益百分比、客户数量

客户信用积分

根据数据的具体分布

企业收益的客户信用度层次构成

信用度

客户信用度

按照挖掘后的结果进行划分

企业收益的客户消费层次构成

收益、收益百分比、客户数量

客户消费层次

按照挖掘后的结果进行划分

企业收益的客户离网概率层次构成

收益、收益百分比、客户数量

客户离网概率层次

按照挖掘后的结果进行划分

企业收益的客户挽留价值层次构成

收益、收益百分比、客户数量

客户挽留价值层次

按照挖掘后的结果进行划分

企业收益的客户价值层次构成

收益、收益百分比、客户数量

客户价值层次

按照挖掘后的结果进行划分

企业收益中小客户成为大客户概率层次构成

收益、收益百分比、客户数量

中小客户成为大客户概率层次

按照挖掘后的结果进行划分

欠费情况和预测

欠缴费比例

金额(收益)、

金额百分比、

客户数量、

客户数量百分比

欠缴费

欠费、

缴费

不同时期的企业欠费金额

欠费金额

时间

月、季、半年、年

不同时期的企业欠费数量

欠费客户数量

时间

月、季、半年、年

收益预测

话费收益预测

短信费收益预测

不同时期的企业收益情况

收益

收益/欠费百分比

时间

月、季、半年、年

在完成功能需求后,可以用一个数据搜集报告把所需的不同的数据源的属性列出来。

此报告至少包含如下的内容:

●数据源(内/外部数据源)

●负责维护此数据的个人/组织

●设计该数据库的DBA

●数据使用的存储方式

●数据中包含的表、字段、记录的数据

●数据的大小

●数据的物理存储介质

●安全需求

●数据在使用上的限制

●数据是否涉及用户的隐私问题

 

数据描述报告中应包含如下内容:

●字段/列的数据

●字段是空缺值的数据/百分比

●字段的名字

对于每个字段,通常需要记录:

●数据类型

●数据定义

●数据描述

●计量单位

●所有不同值的个数

●值的列表

●值的范围

●空值的百分比

●收集信息(例如怎么得到、在哪、什么条件下)

●时间频度(每天、每周、每月)

●特别时间数据

●主键/外键关系

 

第二阶段系统结构和模型设计

一.系统结构设计

1.数据量的估算

2.系统硬件结构/软件结构选择:

根据数据量的估算,选择相应的软硬件配制。

二.DW模型的设计

1.可利用的数据:

要确定完成以上3个主题,需要3部分信息:

●客户的基本信息表

●客户的账单

●客户的呼叫信息表(CDR表)

2.粒度的确定:

设计DW中,最重要的步骤。

●对于客户基本信息表采用单一的数据粒度即可。

●对于客户的账务信息也采用单一的数据粒度。

但是要增加合适的时间段和合适的导出数据(按季度综合、按年度综合)

●对于客户的呼叫信息采用双重粒度:

对于近3~4个月的细节呼叫/计费数据,保留在DW中,并定期聚合成按月综合表,然后将细节数据导出至磁带设备,为新的细节数据腾出空间。

3.定义DW的关系模式:

这个过程需要第二阶段形成的数据搜集报告进行记录系统的定义。

所谓记录系统的定义就是指明DW中关系表各个字段来源于哪个业务数据库的哪张表的哪个字段。

还需要建立一个数据字典,将问题中涉及的关键词语的含义、在字段命名中将采用什么关键字等信息记载在数据字典中。

三.OLAP模型设计

OLAP模型设计的思路是先分析问题中可能涉及的所有维度,针对每一个主题确定需要的维度和度量变量,然后为每一个主题定义关系模式,从而形成一个星型结构。

在这个星型结构的基础上,可以生成多维数据表,建立多维数据库。

1.项目设计的维度分析

●静态维度:

指客户详细资料维、状态维、年龄段维、品牌维等不经常发生变化的纬度。

静态维度并不一定是完全不变的,只是相对动态维度而言。

●动态维度:

指经常会发生变化的维度,例如客户的呼叫地理维度、呼叫时间维度、客户的费用层次纬度,这些维信息都将随着时间的变化而变化。

●目标维度:

需要通过数据挖掘分析的目标。

根据项目任务书中,我们主要的目标有分析客户的价值、客户的流失概率、客户的挽留价值、客户的信用度等。

这些维度在进行DM之前是空缺的,在进行DM之后,利用DM的模型给这几个指标打分,然后在将这些数据补充回OLAP的维表和事实表中,供数据展现使用。

2.各个主题的维度设计:

以收益分析主体的维度设计说明书为例:

模型名称:

收益分析

模块功能:

用于企业收益构成分析

对应的事实表:

profit_s

度量:

收益,每个用户账单记录产生的总费用金额

数据粒度:

在事实表中,记录每个用户每月的费用信息。

事实表存放5年之内的数据,5年以上的数据按时间(月)进行汇总后从事实表中导出。

相关的维度:

(1)客户详细资料维

(2)客户性别维

(3)客户年龄段维

(4)品牌维

(5)收益类别维

(6)通话类型维

(7)是否大客户维

(8)月总呼叫次数层次维

(9)平均呼叫时长层次维

(10)信用积分维

(11)信用度层次维

(12)消费层次维

(13)离网概率层次维

(14)挽留价值层次维

(15)价值层次维

(16)时间维

(17)客户类型维

(18)在网时间维

注释:

以上各维均与客户相关,用于分析不同客户群体对企业收益的贡献,维的层次和元素与客户数量分析模型中相同。

收益分析主题的星型结构如下:

 

第三部分系统装载、数据挖掘和界面设计

一.数据装载/数据综合模块设计

数据装载模块负责从业务系统的数据表中提取、清洗数据以及转化格式变为DW中的细节表。

数据综合模块利用装载模块生成的细节表生成各个综合层次的数据表和导出表。

在进行数据装载模块设计时,需要注意以下几个问题:

●定义良好的数据清洗规则:

数据质量的重要保证

●注重代码的模块化和重用性、可维护性。

●提高代码的处理效率

●制定一个调度计划:

不同的装载程序需要在不同的时间运行,设计人员需要根据实际系统的情况,确定一个合理的数据抽取计划,并在DW管理工具中实施这个调度计划。

二.OLAP模型生成程序

OLAP模型生成模块利用DW中的数据构建维表和事实表(通常先实现一个主题)。

如果需要创建多维数据库,则需要将维表和事实表连接后生成一张详细的多维数据表,然后在这张多维数据表的基础上创建多维数据库。

三.数据挖掘宽表设计和生成

要进行DM,需要将所有能够收集的对分析有用的信息组织成一张非常“宽”的数据表,将这张表称为数据挖掘宽表。

1.首先确定同目标变量相关的数据:

通常需要向该方面的分析专家请教。

2.创建新变量:

即对细节数据要进行一定程度的综合,比原始细节数据更具有现实意义。

3.准备训练集合与验证集合

●数据质量的检验

●选择合适的数据抽样方法

●为目标变量附上初始值:

目的是为模型准备训练/验证数据集合,这些初始值并不是最终的结果。

●根据算法的需要,对宽表中的变量,特别是目标变量的形式进行转化:

常常将目标变量转化成布尔型变量。

例如将目标变量“客户流失概率”转化为新的目标变量“是否流失”。

4.确定分析的次序:

由于目标变量之间存在相关性,因此需要确定分析的次序。

5.变量选择:

在准备好数据训练/验证集后,需要将同目标变量具有强相关性的变量去除。

例如:

我们要分析客户价值,就需要将计算客户价值公式中出现的变量去除,否则DM工具将直接在这些变量和目标变量间建立关系,而不是我们所希望的通过划分客户是否高价值客户来发现高价值客户在呼叫行为、消费行为、背景信息上的特征。

6.挖掘建模:

将训练/验证集合作为输入数据,利用挖掘工具/算法进行建模。

模型通常是以一个数据处理程序的形式给出的。

使用模型程序对宽表中的所有数据进行处理就得到了模型对目标变量的评定。

7.模型的维护和完善:

数据挖掘模型得建立不是一劳永逸得事,模型需要每隔一段时间重新建立一次。

另外,随着数据仓库项目得不断发展,数据仓库可以为数据挖掘提供更为完善的数据,因此还需要将新的数据内容补充进数据挖掘宽表,以建立更好的模型。

四.创建多维数据库模块设计

通过DM后,需要将得到的目标维度数值填写进空缺的目标维表中,然后建立多维DB,供展现工具使用。

1.将星型结构中的维表和事实表进行连接,生成一张多维数据表

2.结合功能需求和最终数据展现的需要确定钻取的层次。

 

第四部分界面设计和项目总结

一.界面展现设计

二.系统的工作流程总结

 

三.系统的数据流程总结

(1)对原始数据进行数据抽取、清洗、整理后成为数据仓库中的各种综合度的数据表。

(2)在维度分析后得到维表并定义相应的格式表(FORMAT表)。

(3)从数据仓库中抽取出事实表和补充信息表。

(4)从数据仓库中抽取信息,整理成数据挖掘宽表,用于数据挖掘。

(5)表中的数据通过数据挖掘程序处理后生成的扩展数据(挖掘后的结果)要重新回写进事实表。

(6)利用维表和事实表连接后的多维数据表生成多维数据库(MDDB).

(7)使用MDDB和数据挖掘的结果进行数据展现。

四.系统的模块组成

 

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > PPT模板 > 其它模板

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1