数据仓库与数据挖掘的综述Word文档下载推荐.docx

上传人:b****3 文档编号:17674681 上传时间:2022-12-08 格式:DOCX 页数:8 大小:318.47KB
下载 相关 举报
数据仓库与数据挖掘的综述Word文档下载推荐.docx_第1页
第1页 / 共8页
数据仓库与数据挖掘的综述Word文档下载推荐.docx_第2页
第2页 / 共8页
数据仓库与数据挖掘的综述Word文档下载推荐.docx_第3页
第3页 / 共8页
数据仓库与数据挖掘的综述Word文档下载推荐.docx_第4页
第4页 / 共8页
数据仓库与数据挖掘的综述Word文档下载推荐.docx_第5页
第5页 / 共8页
点击查看更多>>
下载资源
资源描述

数据仓库与数据挖掘的综述Word文档下载推荐.docx

《数据仓库与数据挖掘的综述Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘的综述Word文档下载推荐.docx(8页珍藏版)》请在冰豆网上搜索。

数据仓库与数据挖掘的综述Word文档下载推荐.docx

增加了挖掘数据的效率和价值实用性!

一、概述

近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等,并且这一势头仍将持续发展下去。

于是,一个新的挑战被提了出来:

在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。

如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?

要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。

因此,面对"

人们被数据淹没,人们却饥饿于知识的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力.

数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(DataFusion)以及决策支持等.人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。

原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据.发现知识的方法可以是数学的,也可以是非数学的;

可以是演绎的,也可以是归纳的。

发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。

因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。

数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。

数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。

它是单个数据存储,出于分析性报告和决策支持目的而创建.为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

今天,越来越多的企业认识到要从以往的事务处理和决策中总结经验,利用现有的数据进行分析和推理,建立企业的决策支持系统(DSS)以提高决策的质量.企业如果不能快速精确的收集和分析信息,将无法进行科学而有效的决策。

建立数据仓库(Datawarehouse)将能很的解决这一问题,使企业从大量的业务信息中筛选出所需的信息,并做出正确的决策.数据仓库不是单一的产品,而是综合了多种信息技术的计算环境.它将全企业的运行数据汇集到一个精心设计的关系数据库中,并将它们转换成面向主题(Subject-oriented)的形式,使最终用户很容易的从历史的角度对这些数据进行访问和分析。

以银行为例,通常,银行的应用系统是按业务分类的,如储蓄、信贷、信用卡等,一个客户的信息分布在不同的业务系统中,要想得到一个客户的全面信息非常困难。

银行通过建立数据仓库,可以将分离在各个业务系统中的数据合并成一个统一的图表,这样就可以看到客户在各个系统中的全貌,而且可以从历史的角度对客户档案进行分析,以便做出为每一个客户进一步服务的决策。

二、数据仓库和数据挖掘的基本概念

数据仓库和数据挖掘的关系:

数据仓库和数据挖掘都是数据仓库系统的重要组成部分,它们既有联系,又有区别.

联系是:

(1)数据仓库为数据挖掘提供了更好的、更广泛的数据源。

(2)数据仓库为数据挖掘提供了新的支持平台。

(3)数据仓库为更好地使用数据挖掘这个工具提供了方便。

(4)数据挖掘为数据仓库提供了更好的决策支持。

(5)数据挖掘对数据仓库的数据组织提出了更高的要求.

(6)数据挖掘还为数据仓库提供了广泛的技术支持.

区别是:

(1)数据仓库是一种数据存储和数据组织技术,提供数据源。

(2)数据挖掘是一种数据分析技术,可针对数据仓库中的数据进行分析。

数据仓库是支持管理决策过程的、面向主题的、集成的、随时间而变的、持久的数据集合。

数据仓库系统负责从操作型数据库中抽取数据,实现对集成和综合后的数据的管理,并把数据呈现给一组数据仓库前端工具,以满足用户的各种分析和决策的需求。

数据仓库系统的前端工具以OLAP工具和数据挖掘工具为代表,是用户赖以从数据仓库中提取、分析数据,以及实施决策的必经途径。

数据挖掘DM(DataMining),是指从数据中识别出潜在有用的、先前未知的、最终可理解的模式的非平凡过程。

研究基于数据仓库的数据挖掘系统结构框架是很有意义的。

三、数据仓库的结构、功能

1、数据仓库的基本结构

数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。

其实数据仓库本身并不“生产"

任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。

数据仓库中的信息存储,根据对数据的不同深度的分析处理而区分为不同的层次,其基本结构分为以下几个部分:

(1)历史性详细数据层:

它存储历史数据,用于数据对比、回归、汇总等供分析、建模预测之用。

历史数据一般为5至10年或更久的数据,它纵向只对数据/信息进行分类存储。

(2)当前详细数据层:

存储当前最新详细数据,重点用于了解当前情况,是进一步分析数据的基础。

在一定时刻,这些数据会转移到历史数据层去。

(3)不同程序的归纳总结信息层:

可包含多个层次,根据所需分类和归纳的不同深度而定。

如按周、月、年统计的数据。

这些信息只是一些简单的汇总,尚不能形成高级的决策信息。

(4)专业信息分析层:

进一步专业分析的结果,如统计分析、运筹分析、时间序列分析以及表面数据的内在规律分析等。

(5)仓库结构信息:

数据仓库的内部结构信息,反映各种信息在数据仓库中的位置分布和处理方式等,以便检索查询之用。

组织数据仓库的数据时,应根据数据访问概率把数据分为经常被访问但较少被修改的数据和经常被修改但较少被访问的数据.对于前者可以做较多的索引(一般可做8至12个)来提高访问的效率;

对于后者就必须少建索引,否则,由于它经常被修改,重索引的概率就很大,反而会降低系统的效率。

2、数据仓库的功能特点

数据仓库技术是基于信息系统业务发展的需要,基于数据库系统技术发展而来,并逐步独立的一系列新的应用技术。

数据仓库技术就是基于数学及统计学严谨逻辑思维的并达成“科学的判断、有效的行为"

的一个工具。

数据仓库技术也是一种达成“数据整合、知识管理"

的有效手段.数据仓库是面向主题的、集成的、与时间相关的、不可修改的数据集合.这是数据仓库技术特征的定位。

数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。

数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。

数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据。

数据仓库的主要功能是提供企业决策支持系统或执行信息系统(EIS)所需要的信息,它把企业日常运行中分散不一致的数据经归纳整理后转换为集中统一的、可随时取用的深层信息,这种信息虽然也是按关系数据库的存储结构存储的,单与面向逐条记录的联机时务处理(OLTP)不同,在数据仓库中的一条记录,有可能是基础数据中若干个表、若干条记录的归纳和汇总。

数据仓库的基本特点是:

(1)面向对象性。

数据仓库中存储的信息是面向主题来组织的。

它根据所需要的信息,分不同类、不同角度等主题把数据加工、整理之后存储起来(按横向对数据进行分类存储)。

(2)数据历史性.数据仓库中可以专门存储5至10年或更久的历史数据,数据具有时间标示,以满足信息比较、分析预测等的数据需求(按纵向对数据进行分类存储)。

(3)数据集成性。

无论数据来源于何处,进入数据仓库后都具有统一的数据结构和编码规则,数据仓库中的数据具有一致性的特点.

(4)数据只读性。

数据仓库是一个信息源,它只是为在其上开发的DSS或EIS等提供信息服务,因此它应是只读数据库,一般不能轻易改动,只能定期刷新。

(5)操作集合性。

数据仓库可通过快照机制,成批的更新来自不同资源的数据,将其载入数据仓库;

也可以成批的访问数据。

(6)应用C/S(客户机/服务器)性。

数据仓库通过定义信息(元信息)把整个数据组织起来。

在元信息中有一类记录系统信息,定义了数据存储、修改权限等,记录系统将原始数据转换成适合于数据仓库应用的数据,所以这实际上是C/S应用模式。

四、数据挖掘技术

数据挖掘是一种大型数据库(如数据仓库)中提取隐藏的预测性信息的新技术。

数据挖掘是一种展望和预测性的信息分析工具,它能挖掘数据间潜在的关系模式,发现用户可能忽略的信息,为企业管理者提供前摄的(Proactive)、基于知识的决策。

数据挖掘技术使DSS的应用向效益型卖出了重要的一步。

传统的DSS通常是在某个假设的前提下通过数据查询和分析来验证或否定这个假设,而数据挖掘技术则能够自动分析数据,进行归纳性推理,从中发掘出潜在模式或产生联想,建立新的业务模型,帮助决策者调整市场策略,做出正确的决策。

从数据本身来考虑,通常数据挖掘需要有数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示等8个步骤。

(1)信息收集:

根据确定的数据分析对象抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库.对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的.

(2)数据集成:

把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。

(3)数据规约:

执行多数的数据挖掘算法即使在少量数据上也需要很长的时间,而做商业运营数据挖掘时往往数据量非常大。

数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。

(4)数据清理:

在数据库中的数据有一些是不完整的(有些感兴趣的属性缺少属性值),含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。

(5)数据变换:

通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式.对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。

(6)数据挖掘过程:

根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集、甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息.

(7)模式评估:

从商业角度,由行业专家来验证数据挖掘结果的正确性。

(8)知识表示:

将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。

数据挖掘过程是一个反复循环的过程,每一个步骤如果没有达到预期目标,都需要回到前面的步骤,重新调整并执行。

不是每件数据挖掘的工作都需要这里列出的每一步,例如在某个工作中不存在多个数据源的时候,步骤

(2)数据集成的步骤便可以省略.

步骤(3)数据规约(4)数据清理(5)数据变换又合称数据预处理。

在数据挖掘中,至少60%的费用可能要花在步骤

(1)信息收集阶段,而至少60%以上的精力和时间是花在数据预处理.

五、一种基于DW的DMS结构框架

根据数据仓库系统的特点,提出一种基于数据仓库的通用数据挖掘系统的结构框架,如图1.该结构框架的概念模型包括如下组成部分:

(1)用户查询接口它可分为查询分类、查询解释及规格化两部分。

其作用是将数据挖掘请求解释成规格化的查询语言,并交由查询协同机处理。

(2)查询协同机它的工作是协同数据仓库管理系统、数据挖掘工具管理系统和知识库管理系统,共同对查询接口提交的查询请求进行处理。

图1一种基于数据仓库的数据挖掘系统的结构框架

(3)数据仓库管理系统它直接负责对数据仓库进行管理,并完成对各种异构分布数据源中数据的提取工作,以最大限度屏蔽各异构数据源对系统的影响。

(4)知识库管理系统它对知识库进行管理和控制,包括知识的增加、删除、更新和查询等.一方面,处理由查询协同机处理后产生的知识库查询请求,并将结果提交给数据挖掘模块;

另一方面,接受通过知识评价的知识模式,并存入知识库。

(5)数据挖掘工具的管理系统它的作用是对数据挖掘工具进行管理.

(6)数据挖掘预处理模块它的任务是在数据仓库管理系统的协同下,根据元数据和维表,对整个数据仓库中储存的数据进行处理,生成符合用户查询需要的,并能满足数据挖掘工具集要求的待处理数据子集.

(7)知识评价模块数据挖掘阶段发现出来的模式需要经过知识评价模块的评估.如果存在冗余或无关的模式,则将其剔除了;

如果模式不能满足用户要求,则需要重新选取数据,设定新的数据挖掘参数值,甚至更换数据挖掘算法重新进行数据挖掘.

(8)结论表达模块它将得到的结论按语义层次结构进行普化,得出各语义层上的结论,并对其进行解释,将发现的模式以可视化或自然语言的形式呈现给用户。

六、基于数据仓库与数据挖掘技术的DSS

创建数据仓库的目的是为企业的DSS和EIS提供科学的决策依据。

数据仓库用于大量数据存储和组织;

数据挖掘用于从大量的数据中发现知识,为用户进行预测决策。

数据挖掘以数据仓库和多维数据库为基础,通过OLAP和多维分析工具自动发现数据中的潜在模式,并以这些模式为基础自动做出预测。

数据仓库与数据挖掘技术的结合为企业DSS和EIS的建立提供了新的、更有效的解决方案。

图2表明了这种方案的一种结构。

七、结束语

通过对数据仓库与数据挖掘教程的学习,我了解了数据仓库对相关数据进行分析的方法,以及用相关软件预测的步骤。

并且懂得了企业未来的成功,很大程度上取决于准确的数据挖掘能力,许多领域都需要对潜在的数据进行深层次的分析,困难主要有对数据的一些概念和方法方法不太熟悉,导致思想比较懵懂,会时不时出现差错,导致出现的结果与预期的不一致。

但总体来说还是有很多收获的,通过这次学习,我巩固了所学的理论知识,进一步理解了相关的概念和方法。

也明白了一些深刻的道理,即在遇到困难时不要放弃,要有持之以恒的精神,遇到不懂的问题时要及时请教老师和同学,要在实际动手操作时进一步完善自己的所学的知识,要善于思考,善于总结,这样才能有所学有所想,学有所得。

八、参考文献:

1、赖福军,周婷,数据仓库及其本关技术,软件世界,1997.2

2、王珊,数据仓库联机分析处理数据挖掘.计算机世界报1997。

01。

06.

P123—125

3、骆斌,面向对象的数据仓库技术的研究,南京大学博士学位论文,1999。

12。

4、陈兆乾,周志华、骆斌、陈世福,"

增量式IHMCAP算法的研究及其应用”,计算机学报,1998,8.

5、陈坚志,广东外语外贸大学,"

数据仓库与数据挖掘在决策系统中的应用”

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 文学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1