数据挖掘与BI 借数据一双慧眼Word下载.docx

上传人:b****6 文档编号:17544218 上传时间:2022-12-07 格式:DOCX 页数:11 大小:215.70KB
下载 相关 举报
数据挖掘与BI 借数据一双慧眼Word下载.docx_第1页
第1页 / 共11页
数据挖掘与BI 借数据一双慧眼Word下载.docx_第2页
第2页 / 共11页
数据挖掘与BI 借数据一双慧眼Word下载.docx_第3页
第3页 / 共11页
数据挖掘与BI 借数据一双慧眼Word下载.docx_第4页
第4页 / 共11页
数据挖掘与BI 借数据一双慧眼Word下载.docx_第5页
第5页 / 共11页
点击查看更多>>
下载资源
资源描述

数据挖掘与BI 借数据一双慧眼Word下载.docx

《数据挖掘与BI 借数据一双慧眼Word下载.docx》由会员分享,可在线阅读,更多相关《数据挖掘与BI 借数据一双慧眼Word下载.docx(11页珍藏版)》请在冰豆网上搜索。

数据挖掘与BI 借数据一双慧眼Word下载.docx

用这些信息(知识)来指导实践,就可以做出相应的决策;

这些决策又引发了新一轮的社会和经济活动。

循环往复,生息不止。

  数据仓库(DW)、商务智能(BI)和知识发现(KDD)又分别是什么呢?

如图2所示。

  为什么图2中的部分线要画成虚线呢?

有两个含义。

第一是因为上述概念诞生初始,在DM的价值链上还是有所侧重的,数据仓库重在“建仓”,数据挖掘和知识发现重在“加工”,商务智能重在“应用”。

虚线表示曾经拥有。

第二,如果不这样画,理论界、应用厂商会不答应,因为不管原来是做数据库的(IBM,Sybase,NCR,Oracle,Microsoft,etc),还是做统计分析软件的(SAS,Statistica,SPSS,etc),甚至是做报表工具的(BO,Brio,Cognos,etc),都拼命在延伸自己的价值链。

  所以,干脆叫数据管理(也就是DM)好了,一统天下。

  至于ERP,CRM等,说白了,还是个DM,只不过限制在了具体的社会经济活动上罢了。

  六种挖掘武器

  数据仓库的建设和数据挖掘建模是DM价值链上的两大技术要点。

数据挖掘从狭义的角度讲,只管从数据到知识这一段。

俗话说:

“没有金刚钻,不揽瓷器活”。

作为一个数据挖掘人员的起码要求,就是充分掌握各种挖掘工具的性能、局限、应用条件等。

  一般说来,数据挖掘有如下六件武器:

描述统计、关联和相关、分类和聚类、预测、优化、结构方程模型。

简要说明如下:

  

(1)描述统计(Descriptivestatistics)

  描述统计是数据挖掘的入门兵器,直观、简单,高手常常用来摘叶飞花。

描述统计包括平均数、中位数、众数、分位数、百分比、求和等。

描述统计经常和统计图(如直方图,条形图,线图,散点图,茎叶图等)配合使用。

目前应用最为广泛的OLAP,究其本质就是针对不同的数据群在做描述统计。

  描述统计的应用十分广泛:

比如当月公司利润总额,比较不同区域的销售量等等。

  

(2)关联和相关(AssociationandCorrelation)

  关联规则从本质上讲是条件概率:

A发生时,B同时也出现的概率是多大?

只要B离50%较远,就是有意义的。

  关联规则的一个典型的现代应用是“啤酒加尿布”。

在应用关联规则时还需要多考虑的一个问题是:

这条规则遵循者的数量怎样?

通俗的说就是,如果超市的尿布只有一个人买(假设),但是这人每次买尿布时,一定会买啤酒。

尽管这条规则很可信(100%),但是意义却不大。

  在应用关联规则时,要注意两点:

关联不一定是因果,关联是有方向的。

  相关也是考虑两个事物之间的关系,典型的度量方法有Pearson相关系数和Kendall相关系数。

  (3)分类和聚类

  分类和聚类是最常用的技术。

  一般说来,分类的方法有三种:

回归、决策树、神经网络。

  聚类和分类的最大区别就是,分类是有监督的,聚类是无监督的。

什么叫监督呢?

就是标准,或者说有目标变量。

聚类是没有目标的。

“物以类聚,人以群分”。

聚类是不知道每一类有什么特征的,聚后再总结,再发现共同点。

  (4)预测

  预测的常用方法是时间序列,回归也可以用来预测。

  时间序列常用的方法有:

ARMA,指数平滑和趋势外推等。

时间序列的最大特点就是充分挖掘事物本身随时间的规律。

因为,任何事物,比如企业销售额,在没有特别的外在因素影响下,总是有规可循的。

  (5)优化

  优化本是运筹学中的一个概念,主要解决的一个问题是在各种约束条件下,如何合理配置资源,使目标要素最大(小)化。

  (6)结构方程模型

  不同于以上应用,结构方程模型重点在于如何揭示事物内部的结构和相互作用的原理。

比如,如何度量客户满意度?

客户满意度与客户期望,产品,价格,服务,投诉处理和客户忠诚是什么关系?

是怎么作用的?

只有搞清楚了这些关系,才可能不断提高客户满意度和客户忠诚度。

结构方程模型就起到这种作用。

  数据如何完整呈现?

  从应用的角度来说,DM不单是数据的组织或者呈现,也不仅是数据分析和统计建模,而是一个从理解业务需求、寻求解决方案到接受实践检验的完整的过程(Process)。

  业界有许多指导项目实践的方法论,大同小异,以CRISP-DM为例。

  CRISP-DM分成如下六个阶段:

商业理解(BusinessUnderstanding),数据理解(DataUnderstanding),数据准备(DataPreparation),建模(Modeling),评估(Evaluation)和发布(Deployment)。

  打个比方,譬如炒菜待客,商业理解就是了解顾客的口味;

数据理解则是熟悉每一样原料可以炒什么菜;

数据准备则是根据顾客的口味和厨师的经验,配菜,择菜和洗菜;

而建模就全靠大厨炒菜的水平;

到了评估阶段就是顾客品尝;

如果满意则到了最后的阶段,作为招牌菜发布推广。

DM的过程就是客户空腹而来,满意而归的完整的服务过程。

  一个成功的DM项目,不仅可以面向操作层面,加强自动化;

还可以面向决策层,优化决策。

对我国的企业来说,DM的兴起和成功应用是一个很好的发展机会。

我们有幸看到,北京协和医院、三九宜工生化股份有限公司、山东烟草专卖局等一些先知先觉的单位,开始在DM方面进行摸索和尝试。

 厂家代表观点

  ◆实施计划细部署

  跨入2004年,很多企业已经把企业的数据有效地整合到统一的数据模型之中,而且已经有了相当多的历史数据积累。

用户的应用需求也开始从初期的OLAP(联机处理)和报表分析向更深层次转变,包括CRM、数据挖掘等。

相信今年是数据挖掘项目会得到大力发展的一年。

  根据NCR数据挖掘方法论,NCR将数据挖掘项目的实施划分为五个阶段,包括定义业务问题范围、选取和抽样、探索型数据分析、建模和实施。

  1.定义业务问题范围:

在这个初始阶段,需明确阐述项目目标和客户业务需求,目的是明确数据挖掘问题。

任务包括:

明确业务目标;

定义响应变量;

项目计划必要的调整。

  2.选取和抽样:

在这个阶段,建模小组要搜寻并检查客户数据,作为以后分析挖掘时所用变量的简略一览表。

同时从数据总体中抽样生成训练集、验证集和测试集。

数据来源、数据映射、准备数据评估、数据的必要聚合、数据抽样。

  3.探索型数据分析(数据探索):

在这个阶段中,建模小组核查目前的数据源,并且努力去发现在每个待选的自变量和目标变量之间是否有任何关系。

通常,数值分析是全面理解数据的第一步,跟着进行的统计分析是为了得到有关数据分布的更好知识。

在数据挖掘过程中这是一个关键的阶段。

  任务包括:

数据质量检查;

数据的必要整理;

通过图形化呈现工具和其他的统计方法理解数据;

分析待选自变量和目标变量之间的关系;

数据转换以辅助数据的分析;

数据派生为建立模型做准备;

整理和呈现数据探索的发现。

  4.建模:

在这个阶段,建模小组建立并确认挖掘模型。

建模小组通常尝试不同的建模技术或结合不同数据集,并衡量模型性能的不同,选出最好的。

来自最终用户的业务领域知识在这个阶段是非常关键的,因为他们可以评价和确认模型的结果、理解发现并付诸实际行动。

为模型的训练和验证准备数据集;

在模型的建立中使用适当的建模技术;

针对不同的建模技术测试模型性能;

必要地精炼挖掘模型;

和主题专家一起检验挖掘模型;

记录挖掘模型和结果。

  5.实施:

在这个阶段,需要用模型的结果来帮助做出业务决定、战略设计和战术实施。

收集实施结果反馈,为模型的退化进行侦测,更进一步改善模型性能。

在利用模型的结果时,复杂的展示层界面通常是不必要的。

数据挖掘过程的自动化是CRM(客户关系管理)的解决方案中不可或缺的一部分,因此是与典型的数据挖掘分开实施的项目。

客户模型评分和存储模型结果,性能跟踪和进一步整合其它业务系统;

数据挖掘过程的自动化是单独的项目;

模型结果的现场测试是单独的项目。

  数据挖掘项目的项目计划会涵盖以上的各个阶段,但完成整个项目所需的时间则要根据多个关键因素而定,如挖掘专题的复杂程度、客户对挖掘结果性能评定的期望、可用的数据完备性及数据质量、项目人力资源是否充足以及人员能力等等。

如表1是为期二个月(40个工作日)的数据挖掘项目计划,可以作为其他挖掘项目制定计划的参考基准。

  从表1的项目计划可以看出,数据挖掘项目需要参与的成员或角色有:

数据挖掘专家、PDM(产品数据管理)建模人员、ETL开发人员和应用开发人员。

同时需要熟悉业务的人员以及熟悉数据仓库PDM的人员予以支持。

(■NCR(中国)有限公司数据仓库事业部技术经理张磊博士)

  ◆智能源于积累

  国内商业智能市场正处于刚刚起步的阶段,继去年电信行业全国性数据仓库建设之后,今年会有更多的企业、集成商参与到这个市场。

信息系统相对比较完善的企业会较早涉足这一领域,从而推动商业智能推广的应用。

  但当前用户对如何建设商业智能还缺乏足够的经验。

如北京协和医院、三九宜工生化股份有限公司和山东烟草专卖局的信息部门主管,各自都提出了一些建设商业智能系统的问题。

这些问题很有代表性,也是许多开始探索商业智能应用的企业所面临的困惑。

  总结起来,以上困惑可以归纳为三个问题:

1.商业智能能够给企业带来什么效益,或者说商业智能系统能够做什么?

2.适合企业的商业智能建设步骤和技术架构是什么?

3.数据挖掘如何开展?

  针对以上困惑,一般把商业智能系统建设划分为三个阶段:

理解尝试阶段、集中建设阶段、成熟应用阶段。

  ◆理解尝试阶段

  目前大多数人对商业智能系统还没有深入地理解。

大家纷纷从各自的角度出发,给商业智能下定义,猜想商业智能是一种什么样的应用。

有人认为,商业智能不就是做报表的吗?

  实际上,传统业务系统是面向点的,能给出详细的功能定义。

而商业智能系统是面向面的,用专业术语讲叫主题,因此,很难准确地描述商业智能到底能实现哪些功能,或只能实现哪些主题。

商业智能的确可以产生报表,但不是事先定义的固定报表,而是经过分析之后的结果展现,其分析的过程必须要有人参与,系统只是一个工具,智能是由人来完成的。

  基于此,我建议,目前的商业智能系统最好先以1-2个主题为主展开,如即席查询,目的是让操作人员理解系统使用方式,积累业务经验。

数据挖掘在目前也可以开展,但也要以1-2个为主,不要贪多,目的不是用这1-2个主题来解决业务问题,而是充分理解商业智能和数据挖掘的使用方式和内涵。

国内很多企业一开始上商业智能系统,就上OLAP,就研究能有多少个数据挖掘可以开展。

我认为这是一个误区,没有一定的经验积累,定义OLAP的维度和指标是不可能的,而且前期的变动也太大。

数据挖掘的基础是数据理解,通过即席查询对数据充分理解后,才谈得上各种算法的应用。

  在这一阶段中,商业智能系统的架构可能多次调整。

但通过这一阶段的摸索,我们应该对商业智能的作用、意义以及企业的使用方式,都有了一个相对深入的了解。

而建立的1-2个主题也可以起到一定的辅助决策作用了。

随后,就可以进入集中建设阶段。

  ◆集中建设阶段

  经过前一阶段的经验积累,企业有了一个稳定的使用方式和系统架构,这个阶段的主要问题就是企业级数据的整合,以及交叉主题的开展。

在这一阶段里,企业可以根据经验,把日常经常使用的分析做成Cube。

全企业展开数据仓库系统的建设。

数据挖掘可以随着数据仓库的展开和数据积累的增加,而大范围展开。

最终使商业智能系统成为企业日常行为中不可或缺的一部分,使即席查询成为业务员的日常习惯。

  ◆成熟应用阶段

  经过了集中建设阶段,商业智能应用在企业已经全面铺开。

但是,许多问题单单靠成熟的工具,已经无法满足企业的进一步需求,需要新的挖掘方式。

这时就进入了商业智能领域整体水平需要提升的阶段。

此时,各行业的专家将归纳出许多商业规律,技术专家研究出许多新的数学模型,以满足更高层次的商业智能需求。

而商业智能也将变成一个成熟的产业,一个新的更高层次的商业智能系统将出现,从而进入下一轮的更替。

  以上观点是针对整个商业智能产业而言的。

作为一个企业个体而言,成功的关键无外乎两个方面,就是业务人员充分参与和循序渐进。

商业智能系统最终要通过人,才能为商业所用,没有终端操作人员的倾心配合,系统只能是一个死系统。

而循序渐进地建设系统,才能保证业务人员的水平和系统的建设水平同步提高,避免少走弯路和投资浪费。

一句话:

智能在于积累,不可好高骛远。

(■Sybase(中国)有限公司BI部技术顾问陈建)

  ◆对症下药

  商业智能(BI)经过几年的发展,已开始进入快速发展期。

国内电信业已经有一些成功案例,其他行业也开始陆续规划、实施数据仓库系统,所以有理由看好今年的BI市场。

  针对北京协和医院、三九宜工生化股份有限公司和山东烟草专卖局这三家用户的现实需求,我们建议,他们应该首先评估现有系统建设和运行状况,随后在一个明确的总体规划基础上,再考虑建设数据仓库项目。

数据挖掘不一定非要以数据仓库为基础,但基于数据仓库的挖掘会给它带来许多方便。

用户只有在OLTP系统的一定基础上建立数据仓库系统才可获得比较好的收益。

  数据挖掘的任务是发现业务数据中的新规则,为决策分析提供支持。

而决策分析通常可分为三个层次:

操作级、战术级和战略级。

前两项对应OLTP、操作性数据存储(ODS)系统,后者对应数据仓库。

在系统建设前,企业首先要明确希望解决的是哪个层次的需求。

  如山东烟草专卖局的数据挖掘需求主要是操作级和战术级的,所以适宜考虑建立ODS系统,以满足企业的决策需求。

三九宜工生化股份有限公司的数据挖掘需求,或许可以在ERP系统中部分解决。

建议三九宜工生化公司先对需求进行深入分析,明确需求所需的数据基础后,再考察是否有必要建立ODS或数据仓库。

要想开展数据挖掘,建议先定义应用目标,研究数据挖掘项目的必要性和可行性。

  另外,分析型应用需要操作型环境的支撑。

如北京协和医院进行的数据挖掘结果,是为医疗管理提供有益的分析和参考。

但要真正发挥挖掘分析的作用,还需要根据分析结果,按照医院的实际情况,制定相关的管理策略;

并通过医疗管理系统付诸实施。

因此,实施数据挖掘项目不但需要明确的目标和实施计划,还要有相应的管理系统支撑。

  由于这三家用户所处行业不同,具体应用环境也不同,所以很难给出笼统的实施计划和方案。

但至少有三点是需要共同注意的:

一.要有一定的数据基础,数据质量至关重要,用错误的数据来决策,只会带来更大的错误。

二.要明确系统目标,如前所述,三种层次的分析,产生不同形式的结果,针对长期战略分析出的结果对战术操作没有直接意义,反之亦然。

切莫期望一个层次的分析结果能覆盖解决所有分析需求。

三.让领导层了解商业智能系统能解决什么问题。

商业智能项目是一个渐进、迭代的过程,应该让各级管理人员了解项目的阶段性目标。

  针对以上三位用户,石竹软件公司可以针对性地提供BI支撑工具,如数据整合工具DataStage、多维分析OLAP软件Essbase、数据挖掘工具AngossKnowledgeSTUDIO、元数据管理MetaCenter、报表分析展示平台CrystalDecision等企业级产品。

我们提供的BI整体解决方案已在移动、电信、联通、保险、证券、银行、制造业、零售业的数据仓库、数据整合、查询报表项目中成功应用。

今年我们将继续主推多维分析OLAP、ETL、报表产品的基础上,试图推动用户的元数据管理、数据挖掘、操作性数据存储(ODS)的应用。

(■石竹计算机软件有限公司首席BI顾问潘定/技术经理单明祺)

  ◆网上研讨内容精彩摘录

  关于数据

  刘灵芝:

有哪些具体措施可以提高数据质量,以真正挖掘出有价值的信息?

  张磊:

数据质量是数据仓库和数据挖掘项目中常常会遇到的问题,也是决定数据挖掘项目成败的重要因素。

要保证数据质量,需要有良好的数据模型设计,在数据加载和清洗过程中进行数据检查,同时随着挖掘模型的建立过程不断和客户交互、修整。

  目前已经有不少处理措施,如数据清理(噪音数据、遗漏数据和不一致性数据)、数据集成等等。

在具体项目实施中,更困难的是对数据在业务逻辑上的准确性进行检查,这需要对业务的深刻理解并建立良好的数据模型。

  感觉国内用户对于数据挖掘的理解还不够充分。

在我们国外的案例中,一般会在建立数据仓库并稳定较长的时间后,才会逐步实施挖掘专题。

  闫世方:

关于基本数据不足的问题,我认为在某一行业建立“基本数据集”是很重要的,现在医疗行业正在建立基本数据集。

  ◆关于数据库

北京协和医院使用信息系统已经有7-8年的时间,积累了大量的基础数据,为了提高医院信息化的程度,对这些数据的挖掘是一项很有意义的工作。

我们正在和一家美国的开发医疗行业数据库的厂家进行合作,准备首先在面向对象数据库基础上,对门诊病人一年数据进行测试性的挖掘。

  王海宁:

闫工,目前考察和测试效果如何?

目前医院的数据库是MSSQL2000,但是我们已经感觉到关系型数据库已经不能适应医院信息化的高要求。

对于闫工提到的关系型数据库问题,匡博士以及张磊、陈建、单明祺先生如何看待?

  匡宏波博士:

就我的认识而言,企业要做DM(数据挖掘)和BI(商业智能),第一是要有主题,即你希望做什么,希望DM给你带来什么?

第二,需要构造一条DM(数据管理)的价值链。

这就是从业务理解,到数据采集和管理,到建模,到呈现,到应用的完整的基础设施和解决方案。

  陈建:

关于闫工提到的关系型数据库问题,建立数据仓库系统能够解决问题。

关于数据库的问题,应该说目前最成熟的还是关系型。

我们去年和中医研究院合作对SARS中西医疗效比较研究的数据库也是采用关系型数据库。

对于闫工的问题,OLAP即可以解决。

  单明祺:

我觉得在分析型环境中,关系型数据库也是需要的。

  linkfar(网友):

闫工提出的面向对象数据库,是否超前了?

只要足够描述数据和管理数据,这就是目前数据库的基本要求。

面向对象数据库还处于新兴和发展阶段,它具备关系型数据库缺乏的不少优点。

只是在绝大多数实际项目中,依然是关系型数据库一统天下,成熟稳定、充分的性能保证和丰富的成功案例对一个项目的成功实施很有帮助。

实现真正意义上的“电子病历”是HIS正在研究的问题,我们认为,一个好的电子病历的实现,使用关系型数据库有它先天的不足。

电子病历的问题中涉及大量时间的问题,用时态数据库的方法,大家觉得如何?

关于涉及时间问题的分析,可以采用多种模型和方法,比如序列分析、关联分析、以及一些预测模型如决策树、神经网络等等。

是的,但从更广的意义来看,似乎时态数据库的概念更通用。

  ◆关于实施计划

对于医院信息的数据挖掘,我们还没有真正开始,请问我们如何制定一个有效的实施计划?

我有两点建议。

您的需求可以归纳为两个方面。

第一,针对业务和客户(本人)数据分析建模,为管理部门服务。

第二,针对诊疗数据建模,为个体化诊疗和辅助诊疗服务。

就像目前中医所做的。

我认为一个有效的数据挖掘计划要从一个明确的业务目标开始。

以NCR的数据挖掘方法论为指导,数据挖掘的实施计划主要划分为如下阶段:

定义业务问题范围、选取和抽样、数据清洗和预处理、探索型数据分析、建模和实施。

这是一个非常具体的问题,项目经理就可以做。

这方面的方法论也不少。

其实,最主要的问题是,如何针对一个应用主题,成功地把信息挖掘出来。

这是统计和数据挖掘的核心部分。

  ◆关于建模

医院在不同情况下关心的内容不同,比如有时关心的是病人的自身情况,有时关心的是诊断情况,有时是药品的情况,有时是花费情况等,因此建模有一定难度,请各位专家开张药方。

山东烟草定位于物流企业,请问各位专家对物流配送企业在建模有何看法?

目前山东烟草已具备软硬件条件,数据相对薄弱,建模问题主要集中在客户关系管理,和销售潜力分析上。

请教各位专家如何实现?

关于建模,数据挖掘在不同的行业已经有一些成熟的应用和模型,因此可以借鉴这些模型,通过一定的改进以满足要求。

对于闫工的建模问题,因为问题过于抽象,也只能给出抽象一点的建议:

最好是找具有相关行业实施经验的厂商,由它们结合您的具体问题,提供在该行业比较成熟的模型作为参考。

关于建模,我们注重解决其中几个问题:

模型的进化和实施,另外是几种工具的配合使用。

王海宁,对于客户关系管理,我觉得首先要明确企业当前的发展阶段,这样才能更准确地发现要解决的关键问题。

匡博士,听说你们替中远和一些钢铁公司作过一些数据挖掘项目,其中就涉及了客户关系管理需求预测定价模型等,能谈点经验吗?

有些正在研究中,不好透露。

其实主要就做了三件事。

第一,对于库存和需求,你

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育 > 英语

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1