数据挖掘及基于Excel DM插件的具体实例分析报告文档格式.docx
《数据挖掘及基于Excel DM插件的具体实例分析报告文档格式.docx》由会员分享,可在线阅读,更多相关《数据挖掘及基于Excel DM插件的具体实例分析报告文档格式.docx(13页珍藏版)》请在冰豆网上搜索。
因此,数据挖掘的广义观点为:
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含的、未知的、潜在的、有用的知识的过程。
为了统一认识,Fayyadetal.(1996)对KDD和数据挖掘进行了重新定义。
KDD的新定义为:
“从数据中辨别有效用的,新颖的,潜在有用的,最终可理解模式的过程”。
Fayyadetal.(1996)认为:
“数据挖掘是通过KDD过程中特定的算法处理,在可接受的计算效率下生成特定模式的一个步骤”。
Klosgen和Zvtkow则认为:
数据挖掘时一种透过低阶算法来揭露隐含于数据库中高层信息的应用。
因此,再重新定义后的KDD是一个包含数据选择、预处理、交换、挖掘、评估等步骤,并最终得到知识的一个过程。
而数据挖掘只是知识发现其中一个关键步骤。
尽管如此,人们还是经常将二者等同看待,即使是单独使用数据挖掘一词,其实也包含数据预处理和结果评估验证等容。
二、数据预测分析的用途
数据预测是首先建立连续函数值模型,然后构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间的过程。
而数据预测分析的用途便可从其定义中引申出来。
简单来说,预测要运用各种知识和科学手段,分析研究历史资料和调研资料,对事物发展趋势或可能的结果进行事先的推测和估计。
人们对未来进行预测是为了探索预测对象发展的客观规律,揭示其发展方向和趋势,分析其发展的途径和条件,为研究制定最佳方案提供依据。
所以数据预测分析广泛的应用与多种场合。
大到销售预测,备件需求的预测,经济趋势预测,小到合格品率的预测,长途客运客流量预测,贷款偿还预测等等。
正如ForresterResearch公司的分析师JamesKobielus在Forrester博客的文章中指出的,这项技术是你面向服务架构战略的核心,你可以将预测逻辑深深嵌入到数据仓库、业务流程管理平台、CEP流和业务应用中。
它会变得无处不在,指导所有的决策、交易和应用。
该技术将上升到这一挑战,企业必须走向全面的先进的结合分析数据挖掘、容分析和数据库分析的战略。
三、数据预测分析的目前状况和发展趋势
截止到2010年底,相关资料表明数据挖掘、预测分析以及相关业务建模技术几乎完全是由高技能高工资的统计学家、数学家和定量分析师所使用。
但随着数据挖掘的普及度越来远大,这一情况正在发生变化。
而数据预测分析作为数据挖掘的一个重要环节,也越来越被人们关注。
个人认为,其实数据挖掘和数据预测分析,在我们日常的学习和生活中无处不在,而我们也无处不用。
只是,我们不知道我们所用到的方法被定义为“数据挖掘”或是“数据预测分析”。
举个简单的例子来说,给出一组数:
1,2,3,4,5,6,7,8·
·
对于这组数大家很容易看出来,这是一个等差序列,而从我们分析这组数据到总结出这是一个等差序列的过程就是数据挖掘的过程。
假设再让我们写出第九个数或是第n个数,这便是数据预测分析。
再举个实际生活中的例子,超市中客户在购买A的同时,经常会购买B,即A=>
B(关联规则)。
在一家超市里,有一个有趣的现象:
尿布和啤酒赫然摆在一起出售。
但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。
这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。
沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。
沃尔玛数据仓库里集中了其各门店的详细原始交易数据。
在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。
一个意外的发现是:
"
跟尿布一起购买最多的商品竟是啤酒!
经过大量实际调查和分析,揭示了一个隐藏在"
尿布与啤酒"
背后的美国人的一种行为模式:
在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。
产生这一现象的原因是:
美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
通过这些例子,我们不难发现数据挖掘和数据预测分析就在我们身边。
一个就在大家身边的理论,而且会不断地被大家所熟悉,之后再被大家运用,那么这个理论一定“很有前途”。
所以,数据预测分析的发展趋势是良好的,相信它会广泛的应用于各行各业,在各行各业中发光发热。
四、数据挖掘的基本工具和基本算法
1、数据挖掘的基本工具
首先是数据挖掘工具分类,数据挖掘工具根据其适用的围分为两类:
专用挖掘工具和通用挖掘工具。
专用数据挖掘工具是针对某个特定领域的问题提供解决方案,在涉及算法的时候充分考虑了数据、需求的特殊性,并作了优化。
对任何领域,都可以开发特定的数据挖掘工具。
例如,IBM公司的AdvancedScout系统针对NBA的数据,帮助教练优化战术组合。
特定领域的数据挖掘工具针对性比较强,只能用于一种应用;
也正因为针对性强,往往采用特殊的算法,可以处理特殊的数据,实现特殊的目的,发现的知识可靠度也比较高。
通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。
例如,IBM公司Almaden研究中心开发的QUEST系统,SGI公司开发的MineSet系统,加拿大SimonFraser大学开发的DBMiner系统。
通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。
其次是数据挖掘工具选择需要考虑的问题,数据挖掘是一个过程,只有将数据挖掘工具提供的技术和实施经验与企业的业务逻辑和需求紧密结合,并在实施的过程中不断的磨合,才能取得成功,因此我们在选择数据挖掘工具的时候,要全面考虑多方面的因素,主要包括以下几点:
(1)可产生的模式种类的数量:
分类,聚类,关联等
(2)解决复杂问题的能力(3)操作性能(4)数据存取能力(5)和其他产品的接口。
最后,介绍几种常用的数据挖掘工具:
1、QUEST QUEST是IBM公司Almaden研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。
系统具有如下特点:
(1)提供了专门在大型数据库上进行各种开采的功能:
关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。
(2)各种开采算法具有近似线性计算复杂度,可适用于任意大小的数据库。
(3)算法具有找全性,即能将所有满足指定类型的模式全部寻找出来,为各种发现功能设计了相应的并行算法。
2、MineSet MineSet是由SGI公司和美国Standford大学联合开发的多任务数据挖掘系统。
MineSet集成多种数据挖掘算法和可视化工具,帮助用户直观地、实时地发掘、理解大量数据背后的知识。
MineSet有如下特点:
(1)MineSet以先进的可视化显示方法闻名于世;
支持多种关系数据库,可以直接从Oracle、Informix、Sybase的表读取数据,也可以通过SQL命令执行查询;
(2)多种数据转换功能。
在进行挖掘前,MineSet可以去除不必要的数据项,统计、集合、分组数据,转换数据类型,构造表达式由已有数据项生成新的数据项,对数据采样等;
(3)操作简单、支持国际字符、可以直接发布到Web。
3、DBMiner DBMiner是加拿大SimonFraser大学开发的一个多任务数据挖掘系统,它的前身是DBLearn。
该系统设计的目的是把关系数据库和数据开采集成在一起,以面向属性的多级概念为基础发现各种知识。
DBMiner系统具有如下特色:
(1)能完成多种知识的发现:
泛化规则、特性规则、关联规则、分类规则、演化知识、偏离知识等。
(2)综合了多种数据开采技术:
面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法。
(3)提出了一种交互式的类SQL语言――数据开采查询语言DMQL。
(4)能与关系数据库平滑集成。
(5)实现了基于客户/服务器体系结构的Unix和PC(Windows/NT)版本的系统。
4、IntelligentMiner 由美国IBM公司开发的数据挖掘软件IntelligentMiner是一种分别面向数据库和文本信息进行数据挖掘的软件系列,它包括IntelligentMinerforData和IntelligentMinerforText。
IntelligentMinerforData可以挖掘包含在数据库、数据仓库和数据中心中的隐含信息,帮助用户利用传统数据库或普通文件中的结构化数据进行数据挖掘。
它已经成功应用于市场分析、诈骗行为监测及客户联系管理等;
IntelligentMinerforText允许企业从文本信息进行数据挖掘,文本数据源可以是文本文件、Web页面、电子、LotusNotes数据库等等。
5、SASEnterpriseMiner 这是一种在我国的企业中得到采用的数据挖掘工具,比较典型的包括宝钢配矿系统应用和铁路部门在春运客运研究中的应用。
SASEnterpriseMiner是一种通用的数据挖掘工具,按照"
抽样--探索--转换--建模--评估"
的方法进行数据挖掘。
可以与SAS数据仓库和OLAP集成,实现从提出数据、抓住数据到得到解答的"
端到端"
知识发现。
6、SPSSClementineSPSSClementine是一个开放式数据挖掘工具,曾两次获得英国政府SMART创新奖,它不但支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准--CRISP-DM。
Clementine的可视化数据挖掘使得"
思路"
分析成为可能,即将集中精力在要解决的问题本身,而不是局限于完成一些技术性工作(比如编写代码)。
提供了多种图形化技术,有助于理解数据间的关键性联系,指导用户以最便捷的途径找到问题的最终解决办法。
7、数据库厂商集成的挖掘工具SQLServer2000包含由Microsoft研究院开发的两种数据挖掘算法:
Microsoft决策树和Microsoft聚集。
此外,SQLServer2000中的数据挖掘支持由第三方开发的算法。
Microsoft决策树算法:
该算法基于分类。
算法建立一个决策树,用于按照事实数据表中的一些列来预测其他列的值。
该算法可以用于判断最倾向于单击特定标题(banner)或从某电子商务购买特定商品的个人。
Microsoft聚集算法:
该算法将记录组合到可以表示类似的、可预测的特征的聚集中。
通常这些特征可能是隐含或非直观的。
例如,聚集算法可以用于将潜在汽车买