数据挖掘与数据仓库复习资料.docx
《数据挖掘与数据仓库复习资料.docx》由会员分享,可在线阅读,更多相关《数据挖掘与数据仓库复习资料.docx(8页珍藏版)》请在冰豆网上搜索。
数据挖掘与数据仓库复习资料
2010-04-0716:
51
1数据仓库与数据挖掘的关系
大多数数据挖掘工具需要在集成的、一致的、经过清理的数据上进行挖掘。
数据挖掘过程中所需要的数据处理与分析工具完全可以在数据仓库的数据处理与数据分析工具中找到,
数据仓库中的OLAP完全可以为数据挖掘提供有关的数据操作支持
数据挖掘技术在数据仓库中的应用,正好弥补了数据仓库只能提供大量数据,而无法进行深度信息分析的缺陷。
2数据仓库与传统数据库长期共存
首先,企业内数据库与数据仓库将长期共存。
其次,数据库是数据仓库的基础。
第三,在技术实现方面,数据库与数据仓库几乎没有差别。
第四,不要脱离企业的实际,盲目地、片面地、甚至是赶时髦地去实施数据仓库。
第五,数据仓库在能够为企业带来利益的同时,在支持企业信息决策中也存在一些局限性。
总之,不要过分夸大数据仓库与传统数据库的差异,不要过分夸大数据仓库系统的作用、贬低数据库系统的作用。
数据库与数据仓库将长期共存下去。
3挖掘与信息的关系
4弥补传统数据库不足
传统数据库的主要任务是进行事务处理,它所关注的是事务处理的及时性、完整性与正确性,而在数据的分析处理方面,则存在着诸多的不足,主要体现在缺乏集成性、主题不明确等几个方面。
1.集成性的缺乏
首先,业务数据库系统的条块与部门分割,导致数据分布的分散化与无序化。
其次,业务数据库缺乏统一的定义与规划,导致数据定义存在歧义。
2.主题不明确
3.分析处理效率低
5数据仓库的特点和主题
特点:
数据仓库是面向主题的
数据仓库是集成的
数据仓库是稳定的
数据仓库是随时间变化的
数据仓库的数据量很大
数据仓库软硬件要求较高
6体系结构(三个层次)
数据集市结构
数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库,没有一个独立的数据仓库。
系统的数据不存储在同一数据仓库中,每个主题有自己的物理存储区。
单一数据仓库结构
将所有的主题都集中到一个大型数据库中的体系结构。
数据源中数据被按照同一标准抽取到独立的数据仓库中,用户在使用时再根据主题将数据仓库中的数据发布到数据集市中。
分布式数据仓库结构
在企业各个分公司具有相当大的独立性时,企业总部设置一个全局数据仓库,各个分公司设置各自的局部数据仓库。
局部数据仓库主要存储各自的未经转换的细节数据,全局数据仓库中主要存储经过转换的综合数据
7数据仓库与数据组织
1.星形模型
由事实表和多个维度表组成。
事实表中存放大量关于企业的事实数据,对象个数通常都很大,而且非规范化程度很高。
为度表中存放描述性数据,维度表是围绕事实表建立的较小的表。
优点:
星形模型是非规范化的,以增加存储空间的代价,提高了多维数据的查询速度。
而规范化的关系数据库设计是使数据的冗余保持在最少,并减少了当数据改变时系统必须执行的动作。
缺点:
当事务问题发生变化,原来的维度不能满足要求时,需要增加新的维。
由于事实表的主键由所有的围标的主键组成,这种维度的变化带来数据变化将是非常复杂非常耗时的。
星形模型的数据冗余量很大。
2.雪花模型
雪花模型是对星形模型的扩展,雪花模型对星形模型的维度表进一步层次化,原来的各维度可能被扩展为小的事实表,形成一些局部的“层次”区域。
它的优点是最大限度的减少数据存储量,以及把较小的维度表联合在一起来改善查询性能。
雪花模型增加了用户必须处理的表的数量,增加了某些查询的复杂性。
但这种方式可以是系统进一步专业化和实用化,同时降低了系统的通用程度。
3.第三范式(特点)
把事实表和维度表的属性作为一个实体都集中在同一数据库表中,或分成多个实体用多个表来表示,表按第三范式组织数据,减少了维度表中的键和不必要的属性。
星形模型在进行多维数据分析时,在不超过预定义的维度范围内,速度是很快的,但是在超出了预定义的维度,增加维度将是很困难的事情。
第三范式对于海量数据,且需要处理大量的动态业务分析时,就显示了他的优势。
4.数据抽取、转换和装载
抽取包括1.确认数据源2.数据抽取技术
8概念模型设计
将需求分析过程中得到的用户需求抽象为信息结构,即为概念模型。
是从客观世界到计算机世界的一个中间层次。
最常用的表示方法是实体-关系法(E-R法),用E-R图作为它的描述工具。
9逻辑模型设计
逻辑模型设计是把概念模型设计好的E-R图转换成计算机所支持的数据模型。
数据仓库在计算机中的数据模型是星形模型。
这样数据仓库的逻辑模型设计主要是将用E-R突表示的概念模型转换成星形模型。
主要工作为:
(1)主题域进行概念模型(E-R图)到逻辑模型(星形模型)的转换;
(2)粒度层次分析;
(3)关系模式定义;
(4)定义记录系统。
10物理模型的设计
数据仓库的物理模型设计是为了逻辑模型设计的数据模型确定一个最适合应用要求的物理结构(包括存储结构和存取方法)。
所作的工作是:
估计存储容量
确定数据的存储计划
确定索引
确定数据存放位置
确定存储分配
11维度表
维度表的属性内容,是对所依附的事实表的某些信息的描述,这种描述应具有以下特征。
(1)每个维度表都应该有自己的特定的标题(如时间、地点等),这一标题是对属性内容的抽象,并可作为对事实表进行分析的依据,以满足用户依据不同的需要进行查询分析的要求。
(2)维度表的属性内容,必须有准确的表述。
这种表述的方式可以是离散的,也可以是文字化的,但必须能对被描述物体进行区分。
例如,国籍维度表,就是用具体的文字来表述属性的内容,并体现出了彼此之间的区别。
12事实表
13元数据表(定义、模型、作用)
元数据模型
元数据是关于数据的数据,是对数据的结构、内容、键码、索引等的一种描述。
类型
元数据按其所描述的内容,可以分为三类。
(1)关于基本数据的元数据。
在数据仓库系统中,基本数据是指数据源、数据集市、数据仓库以及由应用程序所存储和管理的所有数据的总和。
关于基本数据的元数据即包含了与上述各部分数据有关的内容。
按说明的范围,这部分元数据又可进一步细分为关于全部数据的元数据和关于部分数据的元数据两个子类。
’
(2)关于数据处理的元数据。
数据处理主要指数据的抽取、转换、加载、更新、数据完整性与一致性的检查、缺失数据的补充等方面的工作。
关于数据处理的元数据定义了同这些工作相关联的规则,它包括过滤器、联结器和聚合器等部件,数据仓库的系统日志也属于此类元数据的范畴。
(3)关于企业组织的元数据。
这类元数据比较特殊,它是对企业的组织结构状况的直接反映。
如果把企业的组织信息作为基本数据(例如对中小型企业而言),它又可归入“基本数据元数据”一类。
所有与企业组织有关的信息,如数据集市/数据仓库的所有者、管理者的界定,以及各类用户使用系统的权限范围等,均由此类元数据加以说明。
因此,这类元数据对于数据仓库的安全具有特殊意义。
根据用户对数据仓库的认识和使用目的,可将数据仓库划分为两大类。
(1)技术元数据(TechnicalMetadata)。
技术元数据将开发工具、应用程序以及数据仓库系统联系在一起,对分析、设计、开发等所有技术环节进行详细说明。
技术元数据主要供数据仓库管理人员和应用开发人员使用,它为技术人员维护和扩展系统,提供了一个详细的“说明书”和“结构图”
(2)业务元数据(BusinessMetadata)。
业务元数据可以认为是通用业务术语和关于数据仓库的上下文信息的集合,它是联系业务用户和数据仓库中数据的桥梁,为业务用户提供了有关数据仓库整体结构的视图。
业务元数据包含有面向应用的文档(系统简介、使用导航等),以及各种术语的定义与所有报表的细节。
作用
数据仓库的开发/重构是一项复杂的工程,在实施这一工程时,元数据所起的重要作用包括以下内容。
描述业务规则与数据之间的映射。
作为数据分割的依据。
提高系统灵活性的手段。
定义标准处理的规则。
元数据定义了数据从被抽取,到清洗、转换,再到导入数据仓库的全部过程。
其作用如下。
(1)确定数据的来源。
(2)保证数据仓库内容的质量。
(3)实现属性间的映射与转换。
14数据挖掘定义
从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。
从商业应用角度看,数据挖掘是一种崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识。
15粒度模型
除了构造元数据模型之外,在开发数据仓库的过程中,构造粒度模型也是一项十分重要的工作。
所谓粒度,是指数据仓库中记录数据或对数据进行综合时所使用的时间段参数,它决定了数据仓库中所存储的数据单元在时间上的详细程度和级别。
时间段参数越小,粒度级别越低,数据就越详细、越具体;反之,时间段参数越大,粒度级别越高,就意味着数据综合度越高,同时细节的损失也就越多。
传统的业务处理数据库,是面向事务处理的,因此具有非常低的粒度,其数据有着十分详细和具体的细节,它本身并不进行汇总,但-Z-I]为汇总准备了条件。
在数据仓库中,数据按不同的粒度进行不同层次的汇总,以供分析使用。
对当前细节级的数据,一般保留在较低的粒度水平,数据具有较高的细节。
随时间的推移,按设定的时间阈值和粒度阈值,数据逐步进行汇总,依次形成轻度综合级、高度综合级的数据,以节约存储空间,降低系统开销。
综合程度随粒度的增加而提升,细节的损失也随之增多。
在设计数据仓库时,要根据行业的业务特点和决策分析的需求,妥善设定粒度指标,以取得良好的综合效果。
16数据挖掘的基本功能(关联、分类、聚类、决策树)
数据挖掘的目标是从数据库中发现隐含的、有意义的知识。
数据挖掘的功能一般可以分为两大类:
描述和预测。
描述类挖掘任务刻画了数据库中数据的一般特性。
预测类挖掘任务在当前数据上进行推断,以此进行预测。
了解了数据挖掘的分类,理解了被挖掘的对象,并在此基础上对挖掘对象按挖掘功能进行分类,有助于我们按照用户需求选择合适的挖掘算法或挖掘工具来辅助企业制定决策,同时也是我们准确地分析问题和解决问题的依据。
一般而言,数据挖掘的功能与挖掘的目标数据类型是相关的。
某些功能只能应用在某种特定的数据类型上,而某些功能则可以应用在多个不同类型的数据库上。
对于数据挖掘任务的确定,必须综合考虑数据挖掘功能、要挖掘的数据类型和用户的兴趣。
关联分析
关联分析(AssociationAnalysis)就是从大量的数据中发现项集之间有趣的联系、相关关系或因果结构,以及项集的频繁模式。
数据关联是数据库中存在的一类重要的知识。
若两个或多个变量的取值之间存在某种规律性,则称之为关联。
关联可分为简单关联、时序关联、因果关联。
关联分析的目的是找出数据库中隐藏的关联规则。
分类
分类(Classification)在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。
分类的目的是找出一组能够描述数据集合典型特征的模型或函数,以便能够识别未知数据的归属或类别。
分类模型能够通过数据挖掘分类算法从一组训练样本数据(其类别归属已知)中学习获得。
分类和回归都可用于预测。
预测的目的是从利用历史数据记录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。
和回归方法不同的是,分类的输出是离散的类别值,而回归的输出则是连续数值。
数据分类实际上就是从数据库对象中发现共性,并将数据对象分成不同类别的一个过程。
分类的目标首先是对训练数据进行分析,使用数据的某些特征属性,给出每个类的准确描述,即分类规则,然后使用这些描述,对数据库中的其他数据进行分类。
实际上,分类过程包含两步:
第一步,建立一个模型,描述指定的数据类集;第二