最新数据仓库与数据挖掘教程第2版陈文伟版课后习题答案非常全Word文件下载.docx

资源描述

最新数据仓库与数据挖掘教程第2版陈文伟版课后习题答案非常全Word文件下载.docx

《最新数据仓库与数据挖掘教程第2版陈文伟版课后习题答案非常全Word文件下载.docx》由会员分享，可在线阅读，更多相关《最新数据仓库与数据挖掘教程第2版陈文伟版课后习题答案非常全Word文件下载.docx（43页珍藏版）》请在冰豆网上搜索。

最新数据仓库与数据挖掘教程第2版陈文伟版课后习题答案非常全Word文件下载.docx

对响应时间要求高

响应时间合理

面向应用，事务驱动

面向分析，分析驱动

7．包括数据项、数据结构、数据流、数据存储和处理过程五个部分。

8．定义为关于数据的数据，描述数据仓库中数据及其环境的数据。

9．元数据不仅仅是数据仓库的字典，而且还是数据仓库本身功能的说明数据，是整个数据仓库的核心。

数据字典是关于数据库中数据的描述，而不是数据本身，数据字典是数据库的元数据。

10.数据仓库的定义是什么？

答：

（1）W.H.Inmon对数据仓库的定义：

数据仓库是面向主题的，集成的、稳定的、不同时间的数据集合，用于支持经营管理中决策制定过程。

（2）SAS软件研究所的观点：

数据仓库是一种管理技术，旨在通过通畅、合理、全面的信息管理，达到有限的决策支持。

从数据仓库定义可以看出，数据仓库是明确为决策支持服务的，而数据库是为事务处理服务的。

11.数据仓库的特点有哪些？

数据仓库的特点有一下几个：

（1）数据仓库是面向主题的

（2）数据仓库是集成的

（3）数据仓库是稳定的

（4）数据仓库是随时间变化的

（5）数据仓库中的数据量很大

（6）数据仓库的软硬件要求较高

12、说明机器学习如何形成人工智能的学科方向。

答：

机器学习是研究使计算机模拟或实现人类的学习行为，即让计算机自动获取知识。

20世纪80年代，机器学习取得了较大成果，如AQ11系统、ID3决策树方法等，让机器学习上了一个新的台阶，机器学习便成为人工智能的一个主要学科方向。

13、说明数据挖掘的含义。

数据挖掘就是从数据库中的所有数据记录中归纳总结出知识，让人们从抽象复杂的数据中看到客观规律，以便做出决策。

14、OLAP多维分析如何辅助决策？

举例说明。

OLAP是在多维数据结构上进行数据分析的，一般在多维数据上切片、切块成简单数据来进行分析，或是上钻、下钻来分析。

OLAP要查询大量的日常商业信息，以及大量的商业活动变化情况，如每周购买量的变化值，经理通过查询变化值来做决策。

例如经理看到利润小于预计值是，就会去深入到各地区去查看产品利润情况，这样他会发现一些比较异常的数据。

经过进一步的分析和追踪查询可以发现问题并解决。

OLAP是在带层次的维度和跨维度进行多维数据分析的。

数据挖掘则不同，它是以变量和记录为基础进行分析的。

比如对超市的所有的购物账单中成对出现的商品的统计，可以有助于超市商品的合理摆放。

（1）常用统计

（2）相关分析（3）回归分析（4）假设检验（5）聚类分析（6）判别分析（7）主成分分析

18、统计学与数据挖掘的不同。

统计学主要是对数量数据或连续值数据进行数值计算的定量分析，得到数量信息。

数据挖掘主要对离散数据进行定性分析，得到规则知识。

在统计学中有聚类分析和判别分析，它们与数据挖掘中的聚类和分类相似。

但是，采用的标准不一样，统计学的聚类采用的“距离”是欧式距离，即两点间的坐标（数值）距离。

而数据挖掘的聚类采用的“距离”是海明距离，即属性取值是否相同，相同者距离为0，不相同者距离为1。

总之，统计学与数据挖掘是有区别的，但是，它们之间是相互补充的。

不少数据挖掘的著作中均把统计学的不少方法引入到数据挖掘中，与将机器学习中不少方法引入到数据挖掘中一样，作为从数据获取知识的一大类方法。

19、说明数据仓库与数据挖掘的不同。

数据仓库是在数据库的基础上发展起来的。

它将大量的数据库的数据按决策需求进行重新组织，以数据仓库的形式进行存储，将为用户提供辅助决策的随机查询、综合信息以及随时间变化的趋势分析信息等。

数据仓库是一种存储技术，其数据存储量是一般数据库的100倍，包含大量的历史数据、当前的详细数据以及综合数据。

它能适应不同用户对不同决策需要提供所需的数据和信息。

数据挖掘是从人工智能机器学习中发展起来的。

它研究各种方法和技术，从大量的数据中挖掘出有用的信息和知识。

最常用的数据挖掘方法是统计分析方法、神经网络方法和机器学习中研究的方法。

数据挖掘中采用机器学习的方法有归纳学习方法（如覆盖正例排斥反例方法，如AQ系列算法、决策树方法等）、遗传算法、发现学习算法（如公式发现系统BACON）等。

利用数据挖掘的方法和技术从数据仓库中挖掘的信息和知识，反映了数据仓库中数据的规律性。

用户利用这些信息和知识来指导和帮助决策。

例如，利用分类规则来预测未知实体的类别。

20、数据挖掘应用于数据库与数据挖掘应用与数据仓库有什么不同。

数据挖掘兴起是针对数据库的，随着数据仓库的兴起和发展，由于数据仓库不同于数据库，数据挖掘也随之发生变化。

（1）数据存储方式的不同

数据库的数据存储是按照管理业务中事物处理项目的要求而存放的。

数据仓库的数据存储是按决策分析需求而存放的。

这种需求是以决策主题为对象的，典型的主题是客户。

这样，在数据仓库中客户数据需要从多个数据库集成而来，如银行数据仓库需要从储蓄、信用卡、贷款等不同数据库中，对同一客户的数据抽取并集成在一起，以便完成对该客户的分析。

（2）数据存储的数据量的不同

数据库的数据存储量相对数据仓库的数据存储量小得多。

从上面的例子可以看出，以客户主题建立数据仓库的数据量是储蓄、信用卡、贷款3个数据库的数据量的总和。

按一般的统计，数据仓库的数据量是数据库数据量的100倍。

数据仓库的数据量比数据库的数据量大这么多在于：

①数据仓库中的数据（近期基本数据）是数据库中数据按决策主题重新组织并集成而来；

②数据仓库中数据还需要保留大量的历史数据，用于预测分析；

③数据仓库为了给不同级别管理者提供各种决策分析的数据，需要对近期基本数据进行轻度综合和高度综合，这些综合数据在数据仓库中占据了不小的比重。

近期基本数据、历史数据、综合数据三者的数据相加，使数据仓库的数据量远远大于数据库中的数据量。

（3）数据存储的结构不同

由于数据仓库的数据量远大于数据库的存储量，数据库的关系型二维（平面）存储格式不能适应数据仓库。

数据仓库的数据存储结构采用多维的超立方体结构形式。

数据仓库的数据存储结构采用星型模型或者多维立体数据库形式。

21：

数据仓库实在数据库的基础上发展起来的，它将大量的数据库的数据按决策需求进行重新组织，以数据仓库的形式进行存储。

数据挖掘是从人工智能机器学习中发展起来的，它研究各种方法和技术，从大量的数据挖掘出有用的信息和知识。

数据挖掘应用于数据仓库后，能挖掘更深层次上的信息，如：

哪些商品一起销售更好？

高价值客户的共同点是什么？

等。

22：

数据仓库为数据挖掘提出的新要求为：

1，数据挖掘需要可扩展性。

2，数据挖掘方法需要能挖掘多维知识。

23：

数据仓库视为辅助决策而建立的，单依靠数据仓库达到辅助决策的能力是有限的，综合信息和预测信息是数据仓库所获得的辅助决策信息。

数据仓库中增加联机分析处理和数据挖掘等分析工具，能较大的提高辅助决策能力。

数据仓库和联机分析处理几数据挖掘结合的决策支持系统，是以数据仓库为基础的，称为基于数据仓库的决策支持系统。

概括地说：

基于数据仓库的决策支持系统是从数据仓库的数据中获取辅助决策信息和知识，为决策提供支持。

24基于数据仓库的决策支持系统的组成是什么？

基于数据仓库的决策支持系统由三个部件组成：

数据仓库技术，联机分析处理技术和数据挖掘技术，其中数据仓库技术是系统的核心。

25画出基于数据仓库的决策支持系统结构图。

如图：

26说明基于数据仓库的决策支持系统与传统决策支持系统有什么区别。

数据仓库技术将传统数据库中的数据及其他源数据进行了抽取、转换、装载等工作，使之成为统一、集中、稳定的数据，并在元数据库中保存了数据转换、映射等过程，就能为决策过程提供良好的数据基础。

而传统的决策支持系统主要以关系数据库为基础，主要关注于对数据的操作，很难有效率地获取决策需要的信息。

27.商业智能描述了一系列的概念和方法，通过应用基于事实的支持系统来辅助商业决策的制定。

商业智能技术提供使企业迅速分析数据的技术和方法，包括收集、管理和分析数据，将这些数据转化为有用的信息，然后分发到企业各处。

28可以认为，商业智能是对商业信息的搜集、管理和分析过程，目的是使企业的各级决策者获得知识或洞察力（insight），促使他们做出对企业更有利的决策。

商业智能一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成。

商业智能的实现涉及到软件、硬件、咨询服务及应用，其基本体系结构包括数据仓库、联机分析处理和数据挖掘三个部分。

29信息共享，实时反馈系统，鼓励用户找出问题的根本原因，使用主动智能，实时智能等方面

第二章作业

周劼人1-3郭朋4-6王国梁7-9旦增群培10-11刘洋12-14许赟昊15-17杜海洋18-20徐文松21-23何金海24-25陶汉26-27

1.画出数据仓库的结构图，说明各部分内容。

P18

当前基本数据是最近时期的业务数据，是数据仓库用户最感兴趣的部分数据量大。

随着时间的推移，有数据仓库的时间控制机制转为历史数据，轻度综合数据是从当前基本数据中提取出来的，最高一层是高度综合数据层，这一层的数据十分精炼，是一种准决策数据。

2.说明数据仓库结构图中包含轻度综合层与高度综合数据层的作用。

这些数据为什么不是临时计算出来的。

P18-19

数据仓库除了存储按主题组织起来的当前详细数据外，还需要存储综合数据，这是为了适应决策需求而增加的。

在数据库中需要得到综合数据时，采用数据立方体的方法对详细数据进行综合。

在数据仓库中并不采取临时计算的方式得到综合数据，而在用户提出需要综合数据之前，就预先将可能的综合数据利用数据立方体计算好，存入综合数据层中，这种综合数据层在用户查询时，能迅速提供给用户。

3.说明数据集市与数据仓库的区别和联系。

P20

联系：

数据集市是一种更小，更集中的数据仓库，为公司提供了一条分析商业数据的廉价途径。

数据集市是指具有特定应用的数据仓库，主要针对某个具有战略意义的应用或者具体部门级的应用，支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决方案。

区别：

（1）数据仓库是基于整个企业的数据模型建立的，它面向企业范围内的主题。

而数据集市是按照某一特定部门的数据模型建立的。

（2）部门的主题与企业的主题之间可能存在关联，也可能不存在关联。

（3）数据集市的数据组织一般采用星型模型。

1、规模是小的

2、特定的应用

3、面向部门

4、由业务部门定义，设计和开发

5、由业务部门管理和维护

6、快速实现

7、购买较便宜

8、投资快速回收

9、更详细的、预先存在的数据仓库的摘要子集

10、可升级到完整的数据仓库

独立型数据集市直接从操作型环境获取数据，从属型数据集市从企业级数据仓库获取数据，带有从属型数据集市的体系结构。

原因：

仓库管理：

安全和特权管理；

跟踪数据的更新；

数据质量检查；

管理和更新元数据；

审计和报告数据仓库的使用和状态；

删除数据；

复制、分割和分发数据；

备份和恢复；

存储管理。

访问工具：

为用户访问数据仓库提供手段

7．仓库管理包括数据建模；

数据抽取、转换、装载；

元数据；

系统管理四部分。

8．分析工具包含的内容：

查询工具、多维数据分析工具、数据挖掘工具、客户/服务器。

9．二层C/S结构

三层C/S结构

OLAP服务器将加强和规范化决策支持的服务工作，集中和简化了数据仓库服务器的部分工作，即OLAP服务器从数据仓库服务器中抽取数据，在OLAP服务器中转换成客户端要求的多维视图，并进行多维数据分析，将分析结果传送给客户端，这种结构形式工作效率更高。

10.数据仓库的逻辑模型有哪些？

星型模型、雪花模型、星网模型、第三范式。

11.数据模型与数学模型有什么区别？

数据模型是数据特征的抽象，数据管理教学的形式框架，数据库系统中用以提高信息表示和操作手段的形势构架。

数据模型包括数据库的数据的结构部分、数据库数据的操作部分和数据库数据的约束条件。

数学模型是根据对研究对象所观察到的现象及实践经验，归结成的一套反映其内部因素数量关系的数学公式、逻辑准则和具体算法。

用以描述和研究客观现象的运动规律。

12、说明星型模型有什么好处。

星型模型使非规范化的，用增加存储空间的代价来提高数据查询速度，且数据的冗余保持在最少，并减少当数据改变时系统必须执行的动作。

13、说明数据仓库的数据模型为什么含时间维数据。

因为数据仓库不仅存储当前的最新数据，它还存储过去的所有数据，即随着时间的推移，所有的当前数据都会变成历史数据。

有时间维数据不仅方便查询某一时间的数据，还有助于得到一时期的数据变化规律。

14、说明雪花模型与星网模型的不同点。

雪花模型使对星型模型的扩展，是对星型模型的维表进一步层次化，原来的维表被扩展为小的事实表。

星网模型是多个相关的星型模型通过相同的维表连接起来形成的网状结构，即事实表之间有共享的维表。

第三范式不同于星型模型之处在于，把事实表和维表的属性作为一个实体都集中在同一数据库表中，或分成多个实体用多个表来表示，每个表按第三范式组织数据。

它减少了为表中的键和不必要的属性。

星型模型优点：

星型模型是非规范化的，以增加存储空间代价，提高了多维数据的查询速度。

星型模型缺点：

当业务问题发生变化时，原来的维不能满足要求时，需要增加新的维。

由于事实表的主键由所有的维表的主键组成，因此这种维的变化带来数据变化将是非常复杂、非常耗时的。

第三范式优点：

解决数据冗余，善于处理海量数据且需要处理大量的动态业务。

第三范式缺点：

使用第三范式会形成比较复杂的关系表。

ETL过程的主要步骤概括为：

（1）决定数据仓库中需要的所有的目标数据

（2）决定所有的数据源，包括内部和外部的数据源（3）准备从源数据到目标数据的数据映射关系（4）建立全面的数据抽取规则（5）决定数据转换和清洗规则（6）为综合表制定计划（7）组织数据缓冲区域和检测工具（8）为所有的数据装载编写规程（9）维度表的抽取、转换和装载（10）事实表的抽取、转换和装载

18、说明数据抽取工作的内容。

数据抽取工作包括以下两点。

1．确认数据源

对数据源的确认不仅是对数据源的简单确认，还包括检查和确定数据源是否可以提供

数据仓库需要的数据。

该项工作包括：

（1）列出对事实表的每一个数据项和事实；

（2）列出每一个维度属性；

（3）对于每个目标数据项，找出源数据项；

（4）数据仓库中一个数据元素有多个来源，学则最好的来源；

（5）确认一个目标字段的多个源字段，建立合并规则；

（6）确认多个目标字段的一个源字段，建立分离规则；

（7）确定默认值；

（8）检查缺失值的源数据。

2．数据抽取技术

数据抽取时要考虑两种情况：

’

（1）当前值。

源系统中存储的数据都代表了当前时刻的值，当商业交易时，这些数据是

会发生变化的。

（2）周期性的状态。

这类数据存储的是每次发生变化时的状态。

例如，对于每一保险

索赔，都经过索赔开始、确认、评估和解决等步骤，都要考虑时间说明。

在建立数据仓库时，从某一特定时间开始的最初数据必须迁移到数据仓库中，以使数据仓库开始运转，这是初始装载。

在初始装载之后，数据仓库必须保持更新，使变化的历史和状态可以在数据仓库中反映出来。

数据抽取完成两类数据的抽取：

（1）静态数据的抽取。

一般在数据仓库的初始装载时抽取的是静态数据，它代表了某个时刻的快照。

（2）修正数据的抽取。

它也称为追加的数据抽取。

修正数据的抽取过程包括特定时刻抽取的数据值，分为立即型数据抽取（实时的数据抽取）和延缓型的数据抽取。

立即型数据抽取的典型方法是通过读取交易日志抽取所有相关交易记录。

一般利用复制技术从交易日志中捕获交易日志中的变化数据，从日志传输到目标文件中，并检验数据变化的传输情况，确保复制的成功。

延缓型数据抽取的典型方法是，通过读取源记录中包括日期和时间的标记，抽取更新源记录的数据。

如果没有时间标记的旧数据源，就要通过“快照对比技术”，即通过比较源数据的两个快照来抽取变化的数据。

19、说明数据转换的基本功能。

数据转换的基本功能：

（1）选择。

从源系统中选择整个记录或者部分记录。

（2）分离／合并。

对源系统中记录中的数据进行分离操作或者对很多源系统中选择的部分数据进行合并操作。

（3）转化。

对字段的转化包括对源系统进行标准化和使字段对用户来说是可用和可理解的。

（4）汇总。

数据仓库中需要保存很多汇总数据。

这需要将最低粒度数据进行汇总。

（5）清晰化。

对单个字段数据进行重新分配和化简的过程，使数据仓库更便利使用。

20、数据转换有哪些类型。

（1）格式修正。

包括数据类型和单个字段长度的变化，例如在源系统中，产品类型通过代码和名称在数值型和文本类型中表示，不同的源系统将会有所不同，对这些数据类型进行标准化，改变成更有意义的文本值。

（2）字段的解码。

对所有晦涩的编码进行解码，将它们变成用户可以理解的值。

（3）计算值和导出值。

在数据仓库中，有时需要用销售和成本一起计算出利润值。

导出字段包括平均每天的收支差额和相关比率。

（4）单个字段的分离。

在旧系统中将客户名称、地址存放在大型文本字段中；

姓和名存放在一个字段中；

城市、地区和邮政编码存放在一个字段中。

在数据仓库中却需要将姓名和地址存放在不同的字段中，便利不同要求的分析工作。

（5）信息的合并。

例如，一个产品的信息可能从不同的数据源中获得：

产品编码和产品名从一个数据源得到；

相关包装类型从另一个数据源中得到；

成本数据从第三个数据源中得到。

信息合并是将产品编码、产品名、包装类型和成本的有机组合，成为一个新的实体。

（6）特征集合转化。

例如，在源系统中数据采用EBCDIC码，而数据仓库数据采用ASCII码这将要进行代码集合的转化。

（7）度量单位的转化。

使数据具有相同的标准度量单位。

不少国家有自己的度量单位，需要在数据仓库中采用标准度量单位。

（8）日期／时间转化。

日期和时间的表示应该转化成国际标准格式。

如2005年lo月15日在美国表示成Io／15／2005，而在英国表示为15／10／2005。

标准格式为15OCT2005。

（9）汇总。

这种类型的转换是创建数据仓库的汇总数据。

汇总数据适合于客观战略性的查询。

（10）关键字重新构造。

在源系统中关键字可能包含很多项的内容。

如产品编码包括仓库代码、销售区域、产品编码等多项内容。

在数据仓库中，关键字要发生变化，转换成适合于事实表和维表的普通键值。

21答：

数据仓库中最基本的元数据相当于数据库系统中的数据字典。

由于数据仓库和数据库有很大的不同，因此元数据的作用远不是数据字典所能相比的。

元数据在数据仓库中有着举足轻重的作用，它不仅仅定义了数据仓库有什么，指明了数据仓库中数据的内容和位置，刻画了数据的抽取和转换规则，存储了与数据仓库有关的各种商业信息，而且整个数据仓库的运行都是基于元数据的，如数据的修改，跟踪，抽取，装入，综合等。

22．答：

关于数据源的元数据是现有业务系统的数据源的描述信息，是对不同平台上的数据源的物理结构和含义的描述，具体为：

1，数据源中所有物理数据结构，包括所有的数据项及数据类型。

2，所有数据项的业务定义。

3，每个数据项更新的频率，以及由谁或哪个过程更改过。

4，每个数据项的有效值。

5，其他系统中具有相同业务含义的数据项的清单。

23．答：

关于数据模型的元数据描述了数据仓库中有什么数据以及数据之间的关系，是用户管理数据仓库的基础。

这种元数据可以支持从数据仓库中获取数据。

用户可以提出需要哪些表，系统从中选一个表，并得到表之间的关系。

重复该过程，用户希望能够得到希望的数据。

24．什么是关于数据模型的元数据？

关于数据模型的元数据描述了数据仓库中有什么数据以及数据间的关系，支持用户从数据仓库中获取数据。

25．什么是关于数据仓库映射的元数据？

关于数据仓库映射的元数据，反映了数据源与数据仓库数据之间的映射，以及数据项是从哪个特定的数据源抽取的，经过了哪些转换、变换和装载。

26．用于描述要素、数据集或数据集系列的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息。

27．元数据告诉数据仓库如何按照主题查看数据仓库的内容。

元数据提供已有的可以重复利用的语言的信息。

第三章作业

周劼人1-3郭朋4-6王国梁7-8旦增群培9-10刘洋11-12许赟昊13-14杜海洋15-16徐文松17-18何金海19-20陶汉21-22

1.联机分析处理（OLAP）的简单定义是什么？

它体现的特征是什么。

P40

联机分析处理是共享多维信息的快速分析。

它体现在四个特征：

（1）快速性

（2）可分析性（3）多维性（4）信息性

2.OLAP准则中的主要准则有哪些？

P41

（1）多维概念视图

（2）透明性（3）可访问性（4）一直稳定的报表性能（5）客户/服务器体系结构（6）维的等同性（7）动态的系数矩阵处理（8）多用户支持能力（9）非限定的跨维操作（10）直观的数据操作（11）灵活的报表生成（12）不受限制的维和聚集层次

3.什么是维？

关系数据库是二维数据吗？

如何理解多维数据？

P43

维是人们观察数据的特定角度。

关系数据库不是二维数据，只是通过二维关系表示了数据的多维概念。

多维数据就是从多个特定角度来观察特定的变量。

MDDB（MultiDimensionalDatabase,多维数据库）是以多维的方式组织数据，即以维作为坐标系，采用类似于数组的形式存储数据。

RDBMS（relationaldatabasemanagementsystem，关系型数据库管理系统）通过数据、关系和对数据的约束三者组成的数据模型来存放和管理数据

MDDB特点：

1.数据库中的元素具有相同的

展开阅读全文