完整word版数据仓库与数据挖掘知识总结推荐文档.docx

资源描述

完整word版数据仓库与数据挖掘知识总结推荐文档.docx

《完整word版数据仓库与数据挖掘知识总结推荐文档.docx》由会员分享，可在线阅读，更多相关《完整word版数据仓库与数据挖掘知识总结推荐文档.docx（8页珍藏版）》请在冰豆网上搜索。

完整word版数据仓库与数据挖掘知识总结推荐文档.docx

完整word版数据仓库与数据挖掘知识总结推荐文档

华北科技学院

课程考查报告

班级:

软件B121姓名:

_梁高荣

学号:

201207044107

课程名称:

数据仓库与数据挖掘

课程性质:

专业选修

开设学期:

2015-2016学年第1学期

考核成绩:

______________________________

任课教师:

栾尚敏

2015年11月20日

一．数据仓库

1．仓库的概念

数据仓库（DataWarehouse）是一个面向主题的（SubjeclOriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（TimeVariant）的数据集合，用于支持管理决策。

对于数据仓库的概念我们可以从两个层次予以理解，首先，数据仓库用于支持决策，面向分析型数据处理，它不同于企业现有的操作型数据库；其次，数据仓库是对多个异构的数据源有效集成，集成后按照主题进行了重组，并包含历史数据，而且存放在数据仓库中的数据一般不再修改。

2．数据仓库的特点

根据数据仓库概念的含义，数据仓库拥有以下四个特点：

（1）面向主题。

操作型数据库的数据组织面向事务处理任务，各个业务系统之间各自分离。

数据仓库中的数据是按照一定的主题域进行组织。

主题是一个抽象的概念，是指用户使用数据仓库进行决策时所关心的重点方面，一个主题通常与多个操作型信息系统相关。

（2）集成的。

面向事务处理的操作型数据库通常与某些特定的应用相关，数据库之间相互独立，并且往往是异构的。

而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企业的一致的全局信息。

（3）相对稳定的。

操作型数据库中的数据通常实时更新，数据根据需要及时发生变化。

数据仓库的数据主要供企业决策分析之用，所涉及的数据操作主要是数据查询，一旦某个数据进入数据仓库以后，一般情况下将被长期保留，也就是数据仓库中一般有大量的查询操作，但修改和删除操作很少，通常只需要定期的加载、刷新。

（4）反映历史变化。

操作型数据库主要关心当前某一个时间段内的数据，而数据仓库中的数据通常包含历史信息，系统记录了企业从过去某一时点（如开始应用数据仓库的时点）到目前的各个阶段的信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。

企业数据仓库的建设，是以现有企业业务系统和大量业务数据的积累为基础的。

数据仓库不是静态的概念，只有把信息及时交给需要这些信息的使用者，供他们做出改善其业务经营的决策，信息才能发挥作用，信息才有意义。

而把信息加以整理归纳和重组，并及时提供给相应的管理决策人员，是数据仓库的根本任务。

因此，从产业界的角度看，数据仓库建设是一个工程，是一个过程。

3．据仓库的结构

整个数据仓库系统是一个包含四个层次的体系结构：

数据源：

是数据仓库系统的基础，是整个系统的数据源泉。

通常包括企业内部信息和外部信息。

内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。

外部信息包括各类法律法规、市场信息和竞争对手的信息等等。

数据的存储与管理：

是整个数据仓库系统的核心。

数据仓库的真正关键是数据的存储和管理。

数据仓库的组织管理方式决定了它有别于传统数据库，同时也决定了其对外部数据的表现形式。

要决定采用什么产品和技术来建立数据仓库的核心，则需要从数据仓库的技术特点着手分析。

针对现有各业务系统的数据，进行抽取、清理，并有效集成，按照主题进行组织。

数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库（通常称为数据集市）。

OLAP服务器：

对分析需要的数据进行有效集成，按多维模型予以组织，以便进行多角度、多层次的分析，并发现趋势。

其具体实现可以分为：

ROLAP、MOLAP和HOLAP。

ROLAP基本数据和聚合数据均存放在RDBMS之中；MOLAP基本数据和聚合数据均存放于多维数据库中；HOLAP基本数据存放于RDBMS之中，聚合数据存放于多维数据库中。

前端工具：

主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。

其中数据分析工具主要针对OLAP服务器，报表工具、数据挖掘工具主要针对数据仓库。

二.数据挖掘

1．数据挖掘的概念

数据挖掘，也可以称为数据库中的知识发现（KnowledgeDiscoveryinDatabase，KDD），是从大量数据中提取出可信、新颖、有效并能被人理解的信息的高级处理过程。

数据挖掘的广义观点：

数据挖掘就是从存放在数据库，数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。

数据挖掘，又称为数据库中知识发现（KnowledgeDiscoveryinDatabase，KDD），也有人把数据挖掘视为数据库中知识发现过程的—个基本步骤。

2．数据挖掘的作用

在今天的市场上，信息的利用至关重要，各行各业面临激烈的竞争及经济压力，产品的生命周期缩短，需要为顾客提供更好的服务。

在市场经济比较发达的国家和地区，许多公司都开始在原有信息系统的基础上通过数据挖掘对业务信息进行深加工，以构筑自己的竞争优势，扩大自己的营业额。

在过去几年中，各公司为了取得必要的市场战略信息及对付市场方面的各种压力，已经开始采用数据仓库技术。

各公司为了确定所要开发的产品模式及了解市场走势，需要提取数据仓库数据，包括联机事务处理（Ou嘞数据，并与外部的人口统计数据及心理数据结合，从中“挖掘出”最终结果。

利用这种数据仓库信息源，知识工作者在他们的办公室内可根据所取得的数据进行决策。

可以说，数据仓库直接影响事关公司命运的决策。

三、数据挖掘和数据仓库的关系

上述过程其实就是数据挖掘，实施这一过程的基本设施是数据仓库。

这是一种关键性、涉及范嗣很广的技术手段。

利用数据挖掘技术可使潜在的效益得到最大的发挥。

数据仓库是一种数据集成战略，目的是促进最终用户利用企业数据，同时保护公司的数据财富——关键任务的可操作数据——安全性和完整性。

只要安排妥当，数据仓库就能发挥它的重要作用，即人们可以很快地作出决策。

因此，数据仓库是实施公司战略的一种技术手段。

一般来说，构筑数据仓库是一个频繁的查阅过程，它可分为若干阶段，其中包括需求分析、数据仓库的设计、操作数据的提取、不相容数据的集成、数据仓库的装填、最终交付用户使用。

在后续期内，还应该对数据仓库作定期更新。

数据挖掘对发挥数据仓库的作用有很大影响，因为通过它可以识别出商务中的模式与趋势，而仅通过分析数据仓库数据是无法得出的。

当知识工作者运用结构化查询语言（SQL）对数据仓库查询所需的信息时，查询中的歧义性常常涉及到与答案集有关的一系列知识。

相反地，数据挖掘可以揭示出非常有价值的信息，这些信息在实施分析之前，知识工作者是无法得知的。

这种新技术，有助于使公司取得较大的市场份额，建立更好的形象并推动公司向前发展。

四、数据挖掘的步骤

从数据本身来考虑，数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示8个步骤。

1．信息收集

根据确定的数据分析对象，抽象出在数据分析中所需要的特征信息，然后选择合适的信息收集方法，将收集到的信息存入数据库。

对于海量数据，选择一个合适的数据存储和管理的数据仓库是至关重要的。

数据集成：

把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为企业提供全面的数据共享。

2．数据规约：

如果执行多数的数据挖掘算法，即使是在少量数据上也需要很长的时间，而做商业运营数据挖掘时数据量往往非常大。

数据规约技术可以用来得到数据集的规约表示，它小得多，但仍然接近于保持原数据的完整性，并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。

3．数据清理

在数据库中的数据有一些是不完整的（有些感兴趣的属性缺少属性值）、含噪声的（包含错误的属性值），并且是不一致的（同样的信息不同的表示方式），因此需要进行数据清理，将完整、正确、一致的数据信息存入数据仓库中。

不然，挖掘的结果会差强人意。

4．数据变换

通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。

对于有些实数型数据，通过概念分层和数据的离散化来转换数据也是重要的一步。

5．数据挖掘过程

根据数据仓库中的数据信息，选择合适的分析工具，应用统计方法、事例推理、决策树、规则推理、模糊集，甚至神经网络、遗传算法的方法处理信息，得出有用的分析信息。

6．模式评估

从商业角度，由行业专家来验证数据挖掘结果的正确性。

7．知识表示

将数据挖掘所得到的分析信息以可视化的方式呈现给用户，或作为新的知识存放在知识库中，供其他应用程序使用。

数据挖掘过程是一个反复循环的过程，每一个步骤如果没有达到预期目标，都需要回到前面的步骤，重新调整并执行。

不是每件数据挖掘的工作都需要这里列出的每一步，例如在某个工作中不存在多个数据源的时候，步骤

（2）便可以省略。

步骤（3）数据规约、步骤（4）数据清理、步骤（5）数据变换又合称数据预处理。

在数据挖掘中，至少60%的费用可能要花在步骤

（1）信息收集阶段，而其中至少60%以上的精力和时间花在了数据预处理过程中

五、数据挖掘常的基本技

1.统计学

统计学虽然是一门“古老的”学科，但它依然是最基本的数据挖掘技术，特别是多元统计分析，如判别分析、主成分分析、因子分析、相关分析、多元回归分析等。

2.聚类分析和模式识别

聚类分析主要是根据事物的特征对其进行聚类或分类，即所谓物以类聚，以期从中发现规律和典型模式。

这类技术是数据挖掘的最重要的技术之一。

除传统的基于多元统计分析的聚类方法外，近些年来模糊聚类和神经网络聚类方法也有了长足的发展。

3.决策树分类技术

决策树分类是根据不同的重要特征，以树型结构表示分类或决策集合，从而产生规则和发现规律。

4.人工神经网络和遗传基因算法

人工神经网络是一个迅速发展的前沿研究领域，对计算机科学人工智能、认知科学以及信息技术等产生了重要而深远的影响，而它在数据挖掘中也扮演着非常重要的角色。

人工神经网络可通过示例学习，形成描述复杂非线性系统的非线性函数，这实际上是得到了客观规律的定量描述，有了这个基础，预测的难题就会迎刃而解。

目前在数据挖掘中，最常使用的两种神经网络是BP网络和RBF网络不过，由于人工神经网络还是一个新兴学科，一些重要的理论问题尚未解决。

5.规则归纳

规则归纳相对来讲是数据挖掘特有的技术。

它指的是在大型数据库或数据仓库中搜索和挖掘以往不知道的规则和规律，这大致包括以下几种形式：

IF…THEN…

6.可视化技术

可视化技术是数据挖掘不可忽视的辅助技术。

数据挖掘通常会涉及较复杂的数学方法和信息技术，为了方便用户理解和使用这类技术，必须借助图形、图象、动画等手段形象地指导操作、引导挖掘和表达结果等，否则很难推广普及数据挖掘技术。

六、文本挖掘

1.文本挖掘的概念

文本数据挖掘（TextMining）是指从文本数据中抽取有价值的信息和知识的计算机处理技术。

顾名思义，文本数据挖掘是从文本中进行数据挖掘（DataMining）。

从这个意义上讲，文本数据挖掘是数据挖掘的一个分支。

2.文本挖掘方法

（1）.文本分类

文本分类是一种典型的机器学习方法，一般分为训练和分类两个阶段。

（2）.文本聚类

文本聚类是一种典型的无监督式机器学习方法，聚类方法的选择取决于数据类型。

（3）.信息抽取

（4）.摘要

（5）.压缩

其中，文本分类和聚类是两种最重要最基本的挖掘功能。

3.挖掘工具

（1）.IBMDB2intelligentMiner

（2）.SAStextminer

（3）.SPSSTextMining

（4）.DMCTextFilter（纯文本抽出通用程序库）

4.应用

文本挖掘传统商业方面的应用主要有，企业竞争情报、CRM、电子商务网站、搜索引擎，现在已扩展到医疗、保险和咨询行业。

七、Web挖掘

1．Web挖掘与Web信息检索

1.1　Web挖掘的定义

　　Web挖掘是一项综合技术，涉及Web、数据挖掘、计算机语言学、信息学等多个领域.不同研究者从自身的领域出发，对Web挖掘的含义有着不同的理解，项目开发也各有其侧重点.

1.2　Web上的挖掘与信息检索

　　Web上的挖掘和信息检索是两种不同的技术，其区别主要表现在以下几个方面.

（1）方法论不同.信息检索是目标驱动的，用户需要明确提出查询要求；而挖掘是机会主义的，其结果独立于用户的信息需求，也是用户所无法预知的；

（2）着眼点不同.信息检索着重于文档中显式存储的字词和链接；而挖掘试图更多地理解其内容和结构；

　　（3）目的不同.信息检索的目的在于帮助用户发现资源，即从大量文档中找到满足其查询请求的文档子集；而挖掘是为了揭示文档中隐含的知识；

　　（4）评价方法不同.信息检索使用精度（precision）和召回率（recall）来评价其性能，要求返回尽可能多的相关文档，同时不相关的文档尽可能少.而挖掘采用收益（gain）、置信度（certainty）、简洁性（simplicity）等来衡量所发现知识的有效性、可用性和可理解性；

　　（5）使用场合不同.有时信息检索系统返回太多的结果以致用户无法一一浏览，有时用户没有明确的信息需求，有时用户希望发现文档集合中所具有的结构、趋势、含义，在这些场合下，就需要使用挖掘技术.

　　尽管Web挖掘是比信息检索层次更高的技术，但它并不是用来取代信息检索技术，二者是相辅相成的.一方面，这两种技术各有所长，有各自适用的场合；另一方面，我们可以利用Web挖掘的研究成果来提高信息检索的精度和效率，改善检索结果的组织，使信息检索系统发展到一个新的水平.

2．Web挖掘的任务

2.1Web挖掘任务的分类

Web上信息的多样性决定了Web挖掘任务的多样性.按照处理对象的不同，我们将Web挖掘分为两大类：

内容挖掘和结构挖掘.前者指的是从Web文档的内容信息中抽取知识，而后者指的是从Web文档的结构信息中推导知识.Web内容挖掘又分为对文本文档（包括text，HTML等格式）和多媒体文档（包括image，audio，video等媒体类型）的挖掘.Web结构挖掘不仅仅局限于文档之间的超链结构，还包括文档内部的结构、文档URL中的目录路径结构等.如图2所示.在本文中，我们仅对Web上的文本挖掘和结构挖掘加以讨论，下文中提及的“文档”指的是文本文档，不包括多媒体文档.有关Web上的多媒体挖掘。

2.2Web文本挖掘

Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析，以及利用Web文档进行趋势预测等.

　　文本总结是指从文档中抽取关键信息，用简洁的形式对文档内容进行摘要或解释.这样，用户不需要浏览全文就可以了解文档或文档集合的总体内容.文本总结在有些场合十分有用，例如，搜索引擎在向用户返回查询结果时，通常需要给出文档的摘要.目前，绝大部分搜索引擎采用的方法是简单地截取文档的前几行.

　文本分类是指按照预先定义的主题类别，为文档集合中的每个文档确定一个类别.这样，用户不但能够方便地浏览文档，而且可以通过限制搜索范围来使文档的查找更为容易

　　文本聚类与分类的不同之处在于，聚类没有预先定义好的主题类别，它的目标是将文档集合分成若干个簇，要求同一簇内文档内容的相似度尽可能地大，而不同簇间的相似度尽可能地小.

　　关联分析是指从文档集合中找出不同词语之间的关系.

　　分布分析与趋势预测是指通过对Web文档的分析，得到特定数据在某个历史时刻的情况或将来的取值趋势

　　需要说明的是，Web上的文本挖掘和通常的平面文本挖掘的功能和方法比较类似，但是，Web文档中的标记，例如〈Title〉，〈Heading〉等蕴含了额外的信息，我们可以利用这些信息来提高Web文本挖掘的性能.

2.3　Web结构挖掘

　　由于Web中包含的结构信息处理起来比较困难，因此通常的Web搜索引擎等工具仅将Web看作是一个平面文档的集合，而忽略了其中的结构信息.Web结构挖掘的目的在于揭示蕴含在这些文档结构信息中的有用模式.

3．Web文本挖掘方法

　　在Web文本挖掘中，文本的特征表示是挖掘工作的基础，而文本分类和聚类是两种最重要、最基本的挖掘功能.

展开阅读全文