数据仓库与数据挖掘案例分析Word下载.docx

上传人:b****6 文档编号:21625353 上传时间:2023-01-31 格式:DOCX 页数:22 大小:53.61KB
下载 相关 举报
数据仓库与数据挖掘案例分析Word下载.docx_第1页
第1页 / 共22页
数据仓库与数据挖掘案例分析Word下载.docx_第2页
第2页 / 共22页
数据仓库与数据挖掘案例分析Word下载.docx_第3页
第3页 / 共22页
数据仓库与数据挖掘案例分析Word下载.docx_第4页
第4页 / 共22页
数据仓库与数据挖掘案例分析Word下载.docx_第5页
第5页 / 共22页
点击查看更多>>
下载资源
资源描述

数据仓库与数据挖掘案例分析Word下载.docx

《数据仓库与数据挖掘案例分析Word下载.docx》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘案例分析Word下载.docx(22页珍藏版)》请在冰豆网上搜索。

数据仓库与数据挖掘案例分析Word下载.docx

主要针对可能出现的客户恶意欠费问题进行分析。

4(网络规划优化

5(网管中的分析问题:

网络优化、网管故障的相关性分析、统计设备的故

障率等。

三(项目规划

在项目初期,应当选择当前最急需、能在较短时间内发生效益、业务模型清晰、能从现有系统或通过其他方式获取数据的决策目标作为系统初期的任务。

在后续阶段,根据新的需求、现有系统的改造情况、积累的经验确定新的决策目标,逐步发展完善数据仓库系统。

在建设初期,可以将以下五个主题列在前期任务考虑之内。

客户发展分析

收益情况分析

呼叫特征分析

营销管理分析

业务发展分析

作为螺旋开发的第一个循环,建议先将客户发展、收益分析、呼叫特征分析列入第一阶段的任务。

四(需求分析的形成

1(任务说明书:

在任务书中,指明了DW中涉及的主题有3个:

客户发展、收益分析、呼叫特征分析。

在DM层次上,需要完成对客户的流失概率、客户价值、客户挽留价值进行合理的评估。

2(需求说明书:

任务说明书需要设计人员进一步将其细化成需求说明书。

在进行需求分析的时候,设计人员最少应当访问如下的几类人:

(1)项目负责人:

对整个项目的宏观目标和方向有比较准确的把握,对DW项目有全境式的认识。

(2)主题涉及部门的管理人员:

了解部门内部对数据的需求。

使得设计人员能够站在管理人员对数据需求的角度来看问题,而不是站在技术的角度看问题。

(3)DSS分析员和未来使用DW系统的最终用户:

从他们那里了解他们目前是如何为管理层提供决策辅助信息的,提供信息的内容包括哪些,信息的来源有哪些,在处理数据中遇到的棘手问题有哪些,另一方面是他们对DW系统的需求和希望,并可以从最终用户那里了解比较细致的需求。

(4)企业的信息技术人员,包括数据管理人员(对数据质量进行管理的人员,不是DBA)、数据库管理员、数据库设计人员、程序员:

从他们那里了解现有业务系统是如何构造的、现有系统的运行情况、现有系统中存在哪些问题、应该从哪儿获取需要的数据。

各类人员同项目需求的关系如下图所示:

了解项目的全境,项目负责人把握项目的目标和方向

了解部门内部对数据的需求部门高层管理人员

决策辅助信息的使用者(当然还包括

更高层的人员)

了解部门内部某一部分对数据的需求DSS分析员未来的最终用户及其细节

手工的数据分析、非集

成的数据分析

业务系统业务系统业务系统

ABC

业务系统的设计、使

用、维护者

了解现有系统的细节企业技术人员

设计人员需要将从上述人员那儿了解到的信息进行归纳总结,权衡各方面的因素,最终给出一个比较具体的功能需求描述。

下表给出一个收益分析主题的功能需求分析例子。

不同时期的收入总量分析及预测。

收益结构分析(月租费、本地话费、漫游费、收益分析

入网费、卡费等)

功能名称功能描述度量涉及维度维成员

品牌和业务构成

收益的品牌构成各种品牌在企业总收益、收益品牌神州行、

收益中所占比重和百分比全球通

数量

收益的业务构成各项业务在企业总收益、收益业务类别通话、

收益中所占比重和百分比短信息

呼叫特征

企业收益的主/被主叫、被叫对于企收益、收益主/被叫主叫、被叫

叫构成业收益的贡献百分比

企业收益的呼叫长途、漫游、本地收益、收益通话类型长途、漫

类型构成对于企业收益的贡百分比游、本地

企业收益的呼叫不同时长的呼叫对收益、收益呼叫时长1分钟以下

时长构成于企业收益的贡献百分比1~5分钟

5~10分钟

10分钟以

上等客户特征

企业收益的客户不同性别客户对于收益、收益客户性别男

性别构成企业收益的贡献百分比、客女

户数量未知企业收益的客户不同年龄段客户对收益、收益客户年龄段18以下

年龄构成于企业收益的贡献百分比、客18~22

户数量。

企业收益的大客大客户和普通客户收益、收益是否大客户大客户

户构成对于企业收益的贡百分比维普通客户

企业收益的客户企业收益客户类型客户数量、客户类型单位、

类型构成的百分比构成百分比个人企业收益的不同不同在网时间客户收益、收益在网时间维一年以下

在网时间客户构对于企业收益的贡百分比、客1~2年成献户数量。

企业收益的客户。

收益、收益客户信用积根据数据

信用积分构成百分比、客分的具体分

户数量布企业收益的客户。

信用度客户信用度按照挖掘

信用度层次构成后的结果

进行划分企业收益的客户。

收益、收益客户消费层按照挖掘

消费层次构成百分比、客次后的结果

户数量进行划分企业收益的客户。

收益、收益客户离网概按照挖掘

离网概率层次构百分比、客率层次后的结果成户数量进行划分企业收益的客户。

收益、收益客户挽留价按照挖掘

挽留价值层次构百分比、客值层次后的结果成户数量进行划分企业收益的客户。

收益、收益客户价值层按照挖掘

价值层次构成百分比、客次后的结果

户数量进行划分

企业收益中小客。

收益、收益中小客户成按照挖掘

户成为大客户概百分比、客为大客户概后的结果

率层次构成户数量率层次进行划分

欠费情况和预测

欠缴费比例。

金额(收欠缴费欠费、

益)、缴费

金额百分

比、

客户数量、

客户数量

百分比

不同时期的企业。

欠费金额时间月、季、半

欠费金额年、年

欠费客户时间月、季、半

欠费数量数量年、年

收益预测

话费收益预测。

短信费收益预测。

收益时间月、季、半

收益情况收益/欠费年、年

在完成功能需求后,可以用一个数据搜集报告把所需的不同的数据源的属性

列出来。

此报告至少包含如下的内容:

数据源(内/外部数据源)

负责维护此数据的个人/组织

设计该数据库的DBA

数据使用的存储方式

数据中包含的表、字段、记录的数据

数据的大小

数据的物理存储介质

安全需求

数据在使用上的限制

数据是否涉及用户的隐私问题

数据描述报告中应包含如下内容:

字段/列的数据

字段是空缺值的数据/百分比,字段的名字

对于每个字段,通常需要记录:

数据类型

数据定义

数据描述

计量单位

所有不同值的个数

值的列表

值的范围

空值的百分比

收集信息(例如怎么得到、在哪、什么条件下)

时间频度(每天、每周、每月),特别时间数据

主键/外键关系

第二阶段系统结构和模型设计

一(系统结构设计

1(数据量的估算

2(系统硬件结构/软件结构选择:

根据数据量的估算,选择相应的软硬件配制。

二(DW模型的设计

1(可利用的数据:

要确定完成以上3个主题,需要3部分信息:

客户的基本信息表

客户的账单

客户的呼叫信息表(CDR表)

用户基本信息表用户账单CDR表

呼叫类型用户识别码用户号码

IMSI号用户号码月租费

主叫号码用户类别附加功能费

被叫号码用户级别本地话费

通话开始时间用户信用度省内漫游费

通话时长用户姓名省际漫游费

基本通话费用户通信地址国际漫游费

基本通话附加费用户身份证号账单金额

长途费用户联系电话短信费

长途附加费用户邮编滞纳金金额

通话位置用户归属局总话费

漫游类型通信费支付方式付款方式

开户日期开户银行代码

用户状态用户银行账号

用户密码

开户行编码

信用卡卡号

用户银行账号

账号开户名

用户付款状态

2(粒度的确定:

设计DW中,最重要的步骤。

对于客户基本信息表采用单一的数据粒度即可。

对于客户的账务信息也采用单一的数据粒度。

但是要增加合适的时间段

和合适的导出数据(按季度综合、按年度综合)

对于客户的呼叫信息采用双重粒度:

对于近3~4个月的细节呼叫/计费

数据,保留在DW中,并定期聚合成按月综合表,然后将细节数据导出

至磁带设备,为新的细节数据腾出空间。

按月综合的数据

通话月份

主叫号码

通话总次数呼叫类型

通话总时长IMSI号

漫游类型通话次数主叫号码

漫游类型通话时长被叫号码

长途类型通话次数通话开始时间

长途类型通话时长通话时长

主叫通话次数基本通话费

主叫通话时长基本通话附加费

被叫通话次数长途费

被叫通话时长长途附加费

短信发送次数通话位置

短信接收次数漫游类型

最近3个月的细节数据

IMSI号

3个月之前的细主叫号码

节数据被叫号码

通话开始时间

通话时长磁带基本通话费设备基本通话附加费

长途费

长途附加费

通话位置

漫游类型3(定义DW的关系模式:

这个过程需要第二阶段形成的数据搜集报告进行记录系统的定义。

所谓记录系统的定义就是指明DW中关系表各个字段来源于哪个业务数据库的哪张表的哪个字段。

还需要建立一个数据字典,将问题中涉及的关键词语的含义、在字段命名中将采用什么关键字等信息记载在数据字典中。

三(OLAP模型设计

OLAP模型设计的思路是先分析问题中可能涉及的所有维度,针对每一个主题确定需要的维度和度量变量,然后为每一个主题定义关系模式,从而形成一个星型结构。

在这个星型结构的基础上,可以生成多维数据表,建立多维数据库。

1(项目设计的维度分析

静态维度:

指客户详细资料维、状态维、年龄段维、品牌维等不经常

发生变化的纬度。

静态维度并不一定是完全不变的,只是相对动态维

度而言。

动态维度:

指经常会发生变化的维度,例如客户的呼叫地理维度、呼

叫时间维度、客户的费用层次纬度,这些维信息都将随着时间的变化

而变化。

目标维度:

需要通过数据挖掘分析的目标。

根据项目任务书中,我们

主要的目标有分析客户的价值、客户的流失概率、客户的挽留价值、

客户的信用度等。

这些维度在进行DM之前是空缺的,在进行DM之后,

利用DM的模型给这几个指标打分,然后在将这些数据补充回OLAP的

维表和事实表中,供数据展现使用。

2(各个主题的维度设计:

以收益分析主体的维度设计说明书为例:

模型名称:

收益分析

模块功能:

用于企业收益构成分析

对应的事实表:

profit_s

度量:

收益,每个用户账单记录产生的总费用金额

数据粒度:

在事实表中,记录每个用户每月的费用信息。

事实表存放5年之内的数据,5年以上的数据按时间(月)进行汇总后从事实表中导出。

相关的维度:

(1)客户详细资料维

(2)客户性别维

(3)客户年龄段维

(4)品牌维

(5)收益类别维

(6)通话类型维

(7)是否大客户维

(8)月总呼叫次数层次维

(9)平均呼叫时长层次维

(10)信用积分维

(11)信用度层次维

(12)消费层次维

(13)离网概率层次维

(14)挽留价值层次维

(15)价值层次维

(16)时间维

(17)客户类型维

(18)在网时间维

注释:

以上各维均与客户相关,用于分析不同客户群体对企业收益的贡献,

维的层次和元素与客户数量分析模型中相同。

收益分析主题的星型结构如下:

品牌维客户详细资料维

PKBrand_IDPKCust_ID收益事实表

Cust_IDTable4Sex_ID

AgeLevel_ID客户性别维Brand_ID

CallToallCountLevel_IDPKSex_ID

.....

.....月总呼叫次数层次维Profit

PKCallTotalCountLevel_ID客户年龄层次维

PKAgeLevel_ID

Table3

Table1

Table2Table5

第三部分系统装载、数据挖掘和界面设计

一(数据装载/数据综合模块设计

数据装载模块负责从业务系统的数据表中提取、清洗数据以及转化格式变为DW中的细节表。

数据综合模块利用装载模块生成的细节表生成各个综合层次的数据表和导出表。

在进行数据装载模块设计时,需要注意以下几个问题:

定义良好的数据清洗规则:

数据质量的重要保证

注重代码的模块化和重用性、可维护性。

提高代码的处理效率

制定一个调度计划:

不同的装载程序需要在不同的时间运行,设计人员

需要根据实际系统的情况,确定一个合理的数据抽取计划,并在DW管理

工具中实施这个调度计划。

二(OLAP模型生成程序

OLAP模型生成模块利用DW中的数据构建维表和事实表(通常先实现一个主题)。

如果需要创建多维数据库,则需要将维表和事实表连接后生成一张详细的多维数据表,然后在这张多维数据表的基础上创建多维数据库。

OLAP模型生成/创建多维数据库模块数据装载模块数据综合模块

业务系统数据仓库

综合

表/导

出表细节表

表/导细节表出表

三(数据挖掘宽表设计和生成

要进行DM,需要将所有能够收集的对分析有用的信息组织成一张非常“宽”的数据表,将这张表称为数据挖掘宽表。

1(首先确定同目标变量相关的数据:

通常需要向该方面的分析专家请教。

2(创建新变量:

即对细节数据要进行一定程度的综合,比原始细节数据更具有现实意义。

3(准备训练集合与验证集合

数据质量的检验

选择合适的数据抽样方法

为目标变量附上初始值:

目的是为模型准备训练/验证数据集合,这

些初始值并不是最终的结果。

根据算法的需要,对宽表中的变量,特别是目标变量的形式进行转化:

常常将目标变量转化成布尔型变量。

例如将目标变量“客户流失概率”

转化为新的目标变量“是否流失”。

4(确定分析的次序:

由于目标变量之间存在相关性,因此需要确定分析的

次序。

客户信用度

客户价值客户流失概率

客户挽留价值

5(变量选择:

在准备好数据训练/验证集后,需要将同目标变量具有强相关

性的变量去除。

例如:

我们要分析客户价值,就需要将计算客户价值公

式中出现的变量去除,否则DM工具将直接在这些变量和目标变量间建立

关系,而不是我们所希望的通过划分客户是否高价值客户来发现高价值

客户在呼叫行为、消费行为、背景信息上的特征。

6(挖掘建模:

将训练/验证集合作为输入数据,利用挖掘工具/算法进行建

模。

模型通常是以一个数据处理程序的形式给出的。

使用模型程序对宽

表中的所有数据进行处理就得到了模型对目标变量的评定。

7(模型的维护和完善:

数据挖掘模型得建立不是一劳永逸得事,模型需要

每隔一段时间重新建立一次。

另外,随着数据仓库项目得不断发展,数

据仓库可以为数据挖掘提供更为完善的数据,因此还需要将新的数据内

容补充进数据挖掘宽表,以建立更好的模型。

四(创建多维数据库模块设计

通过DM后,需要将得到的目标维度数值填写进空缺的目标维表中,然后建立多维DB,供展现工具使用。

1(将星型结构中的维表和事实表进行连接,生成一张多维数据表2(结合功能需求和最终数据展现的需要确定钻取的层次。

第四部分界面设计和项目总结

一(界面展现设计

二(系统的工作流程总结

总体工作流程

模块功能

模块名称Format表设计输入输出数据集维表设计程序和生成数据集存事实表设计放的位置MDDB初步设计

编程风格

项目进展

OLAP功能需求数据仓库设计数据服务程序数据服务系统数据校验设计分析模型设计校验模块设计编制程序联调联调项目整体数据清洗数据字典的编写文档规范规则设计

数据字典

的编写

数据挖掘数据挖掘程序生成宽表数据结果回写宽表设计编制程序调试挖掘模块

界面MDDB钻取数据展现数据展现

设计维度设计模块设计程序编制

重要步骤可并行步骤

三(系统的数据流程总结

(1)对原始数据进行数据抽取、清洗、整理后成为数据仓库中的各种综合度的数据表。

(2)在维度分析后得到维表并定义相应的格式表(FORMAT表)。

(3)从数据仓库中抽取出事实表和补充信息表。

(4)从数据仓库中抽取信息,整理成数据挖掘宽表,用于数据挖掘。

(5)表中的数据通过数据挖掘程序处理后生成的扩展数据(挖掘后的结果)要重新回写进事实表。

(6)利用维表和事实表连接后的多维数据表生成多维数据库(MDDB).

(7)使用MDDB和数据挖掘的结果进行数据展现。

四(系统的模块组成

OLAP层面数据仓库层面

维表/事实表多维数据库数据装载/综

生成模块生成模块合模块

展现层面

挖掘层面数据展现

模块

挖掘结果回写数据挖掘宽表

模块生成模块

韩非子名言名句大全,韩非子寓言故事,不需要的朋友可以下载后编辑删除~~

1、千里之堤,毁于蚁穴。

——《韩非子?

喻老》

2、华而不实,虚而无用。

难言》

3、欲速则不达。

外储说左上》

4、不吹毛而求小疵。

大体》

5、胜而不骄,败而不怨。

——《商君书?

战法》

6、民之性,饥而求食,劳而求快,苦则求乐,辱则求荣,生则计利,死则虑名。

7、以子之矛,攻子之盾。

难一》

8、欲成其事,先败其事。

9、道私者乱,道法者治。

10、巧诈不如拙诚,惟诚可得人心。

说林上》

11、塞翁失马,焉知非福。

说难》

12、长袖善舞,多钱善贾。

五蠹》

13、明主之所导制其臣者,二柄而已矣。

二柄者,刑德也。

何谓刑德,曰:

杀戮之谓刑,庆赏之谓德。

14、凡奸臣皆欲顺人主之心,以取亲幸之势也。

是以主有所善,臣从而誉之;

主有所憎,臣因而毁之。

凡人之大体,取舍同者则相是也,取舍异者则相非也。

15、人主之患在于信人。

信人,则制于人。

16、故为人臣者,窥觇其君心也无须臾之休,而人主怠傲处其上,此世所以有劫君弑主也。

17、夫妻者,非有骨肉之恩也,爱则亲,不爱则疏。

18、智术之士,必远见而明察,不明察不能烛私;

能法之士,必强毅而劲直,不劲直不能矫奸。

19、与死人同病者,不可生也,与亡国同事者,不可存也。

20、主失其神,虎随其后;

主上不知,虎将为狗。

21、偏借其权势,则上下易位矣。

此言人臣之不可借权势也。

22、故人行事施予,以利之为心,则越人易和;

以害之为心,则父子离且怨。

23、故明主之治国也,明赏,则民劝功;

严刑,则民亲法。

24、夫民之性,恶劳而乐佚。

佚则荒,荒则不治,不治则乱,而赏刑不行于天下者必塞。

25、故治民无常,唯法为治。

法与时转则治,治与世宜则有功。

26、明君无为于上,群臣竦惧乎下。

27、探其怀,夺之威。

主上用之,若电若雷。

28、小信成则大信立,故明主积于信。

赏罚不信,则禁令不行。

29、以肉去蚁蚁愈多,以鱼驱蝇蝇愈至。

30、爱臣太亲,必危主身;

人臣太贵,必易主位。

31、群臣为学,门子好辩,商贾外积,小民右丈者,可亡也。

32、天下之难事,必作于易;

天下之大事,必作于细。

33、圣人之治民,先治者强,先战者胜。

34、道在不可见,用在不可知。

35、涵掩其迹,匿其端,下不能原;

去其智,绝其能,下不能意。

36、千乘之君无备,必有百乘之臣在其侧,以徙其民而倾其国;

万乘之君无备,必有千乘之家在其侧,以徙其民而倾其国。

37、黄帝有言曰:

上下一日百战。

38、臣主之利相与异者也。

何以明之哉,曰:

主利在有能而任官,臣利在无能而得事;

主利在有劳而爵禄,臣利在无功而富贵;

主利在豪杰使能,臣利在朋党用私。

39、人主之道,静退以为宝。

40、故群臣陈其言,君以其言授其事,事以责其功。

功当其事,事当其言,则赏;

功不当其事,事不当其言,则诛。

41、自胜谓之强。

(能够战胜自己的人才是强者)

42、自见之谓明。

(能够认清自己的人才是明智的)

43、是以志之难也,不在胜人,在自胜也。

故曰:

自胜之谓强。

(订下心愿,志向是难的,不在胜别人,而在战胜自己的懒怯疑。

44、一手独拍,虽疾无声。

(一只手击掌,即使再用力也不会有声音)45、立志难也,不在胜人,在自胜。

46、举世有道,计入有计出。

(做事情要有一定的原则,既要算计得道的,也要算计失去的)47、故去喜去恶,虚心以为道舍。

(所以应该将亲近好厌恶等情绪一并抛弃,才能成功地使用权谋之术)

48、君无见其所欲。

(君主不应该表露自己的喜好)

49、去好去恶,臣乃见素;

去旧去智,臣乃自备。

(君主隐藏自己的好恶,才会得见臣下的本来面目;

抛去旧有的成见,不显露

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经管营销 > 经济市场

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1