《数据仓库与数据挖掘》陈志泊习题答案.docx

资源描述

《数据仓库与数据挖掘》陈志泊习题答案.docx

《《数据仓库与数据挖掘》陈志泊习题答案.docx》由会员分享，可在线阅读，更多相关《《数据仓库与数据挖掘》陈志泊习题答案.docx（13页珍藏版）》请在冰豆网上搜索。

《数据仓库与数据挖掘》陈志泊习题答案.docx

《数据仓库与数据挖掘》陈志泊习题答案

数据仓库与数据挖掘习题答案

第1章数据仓库的概念与体系结构

1.面向主题的，相对稳定的。

2.技术元数据，业务元数据。

3.联机分析处理OLAP。

4.切片（Slice），钻取（Drill-down和Roll-up等）。

5.基于关系数据库。

6.数据抽取，数据存储与管理。

7.两层架构，独立型数据集市，依赖型数据集市和操作型数据存储，逻辑型数据集市和实时数据仓库。

8.可更新的，当前值的。

9.接近实时。

10.以报表为主，以分析为主，以预测模型为主，以营运导向为主。

11.答：

数据仓库就是一个面向主题的（SubjectOriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（TimeVariant）的数据集合，通常用于辅助决策支持。

数据仓库的特点包含以下几个方面：

（1）面向主题。

操作型数据库的数据组织是面向事务处理任务，各个业务系统之间各自分离；而数据仓库中的数据是按照一定的主题域进行组织。

主题是一个抽象的概念，是指用户使用数据仓库进行决策时所关心的重点领域，一个主题通常与多个操作型业务系统或外部档案数据相关。

（2）集成的。

面向事务处理的操作型数据库通常与某些特定的应用相关，数据库之间相互独立，并且往往是异构的。

而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。

也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。

（3）相对稳定的。

操作型数据库中的数据通常实时更新，数据根据需要及时发生变化。

数据仓库的数据主要供单位决策分析之用，对所涉及的数据操作主要是数据查询和加载，一旦某个数据加载到数据仓库以后，一般情况下将作为数据档案长期保存，几乎不再做修改和删除操作，也就是说针对数据仓库，通常有大量的查询操作及少量定期的加载（或刷新）操作。

（4）反映历史变化。

操作型数据库（OLTP）主要关心当前某一个时间段内的数据，而数据仓库中的数据通常包含较久远的历史数据，因此总是包括一个时间维，以便可以研究趋势和变化。

数据仓库系统通常记录了一个单位从过去某一时点（如开始启用数据仓库系统的时点）到目前的所有时期的信息，通过这些信息，可以对单位的发展历程和未来趋势做出定量分析和预测。

12.答：

（1）两层架构（GenericTwo-LevelArchitecture）。

（2）独立型数据集市（IndependentDataMart）。

（3）依赖型数据集市和操作型数据存储（DependentDataMartandOperationalDataStore）。

（4）逻辑型数据集市和实时数据仓库（LogicalDataMartandReal-TimeDataWarehouse）。

13.答：

数据仓库技术的发展包括数据抽取、存储管理、数据表现和方法论等方面。

在数据抽取方面，未来的技术发展将集中在系统集成化方面。

它将互连、转换、复制、调度、监控纳入标准化的统一管理，以适应数据仓库本身或数据源可能的变化，使系统更便于管理和维护。

在数据管理方面，未来的发展将使数据库厂商明确推出数据仓库引擎，作为数据仓库服务器产品与数据库服务器并驾齐驱。

在这一方面，带有决策支持扩展的并行关系数据库将最具发展潜力。

在数据表现方面，数理统计的算法和功能将普遍集成到联机分析产品中，并与Internet/Web技术紧密结合。

按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分。

数据仓库实现过程的方法论将更加普及，将成为数据库设计的一个明确分支，成为管理信息系统设计的必备。

14.答：

（1）IBM公司提供了一套基于可视化数据仓库的商业智能（BI）解决方案，包括：

VisualWarehouse（VW）、Essbase/DB2OLAPServer5.0、IBMDB2UDB，以及来自第三方的前端数据展现工具（如BO）和数据挖掘工具（如SAS）。

其中，VW是一个功能很强的集成环境，既可用于数据仓库建模和元数据管理，又可用于数据抽取、转换、装载和调度。

Essbase/DB2OLAPServer支持“维”的定义和数据装载。

Essbase/DB2OLAPServer不是ROLAP（RelationalOLAP）服务器，而是一个（ROLAP和MOLAP）混合的HOLAP服务器，在Essbase完成数据装载后，数据存放在系统指定的DB2UDB数据库中。

它的前端数据展现工具可以选择BusinessObjects的BO、Lotus的Approach、Cognos的Impromptu或IBM的QueryManagementFacility；多维分析工具支持ArborSoftware的Essbase和IBM（与Arbor联合开发）的DB2OLAP服务器；统计分析工具采用SAS系统。

（2）Oracle数据仓库解决方案主要包括OracleExpress和OracleDiscoverer两个部分。

OracleExpress由四个工具组成：

OracleExpressServer是一个MOLAP（多维OLAP）服务器，它利用多维模型，存储和管理多维数据库或多维高速缓存，同时也能够访问多种关系数据库；OracleExpressWebAgent通过CGI或Web插件支持基于Web的动态多维数据展现；OracleExpressObjects前端数据分析工具（目前仅支持Windows平台）提供了图形化建模和假设分析功能，支持可视化开发和事件驱动编程技术，提供了兼容VisualBasic语法的语言，支持OCX和OLE；OracleExpressAnalyzer是通用的、面向最终用户的报告和分析工具（目前仅支持Windows平台）。

OracleDiscoverer即席查询工具是专门为最终用户设计的，分为最终用户版和管理员版。

在Oracle数据仓库解决方案的实施过程中，通常把汇总数据存储在Express多维数据库中，而将详细数据存储在Oracle关系数据库中，当需要详细数据时，ExpressServer通过构造SQL语句访问关系数据库。

（3）Microsoft将OLAP功能集成到SQLServer数据库中，其解决方案包括BI平台、BI终端工具、BI门户和BI应用四个部分，如图1.1。

①BI平台是BI解决方案的基础，包括ETL平台SQLServer2005IntegrationService（SSIS）、数据仓库引擎SQLServer2005RDBMS以及多维分析和数据挖掘引擎SQLServer2005AnalysisService、报表管理引擎SQLServer2005ReportingService。

②BI终端用户工具，用户通过终端用户工具和AnalysisService中的OLAP服务和数据挖掘服务进行交互来使用多维数据集和数据挖掘模型，终端用户通常可使用预定义报表、交互式多维分析、即席查询、数据可视化、数据挖掘等多种方法。

③BI门户提供了各种不同用户访问BI信息的统一入口。

BI门户是一个数据的汇集地，集成了来自不同系统的相关信息。

用户可以制定个性化的个人门户，选择和自己相关性最强的数据，提高信息访问和使用的效率。

④BI应用是建立在BI平台、BI终端用户工具和BI统一门户这些公共技术手段之上的满足某个特定业务需求的应用，例如零售业务分析、企业项目管理组合分析等。

第2章数据仓库的数据存储与处理

1.企业级数据仓库（EDW）。

2.单一的，详细的。

3.最初填充数据仓库。

4.越高，越低，越多。

5.提高，预处理，事实表。

6.自然键（NaturalKey），代理键（SurrogateKey）。

7.星型模式。

8.早期细节级，轻度综合级。

9.答：

简单地说，数据是从企业内外部的各业务处理系统（操作型数据）流向企业级数据仓库（EDW）或操作型数据存储区（ODS），在这个过程中，要根据企业（或其他组织）的数据模型和元数据库对数据进行调和处理，形成一个中间数据层，然后再根据分析需求，从调和数据层（EDW、ODS）将数据引入导出数据层，如形成满足各类分析需求的数据集市。

10.答：

数据的ETL过程就是负责将操作型数据转换成调和数据的过程。

如上面的2.3.1小节所述，这两种数据具有明显的区别，因此，数据调和是构建一个数据仓库中最难的和最具技术挑战性的部分。

在为企业级数据仓库填充数据的过程中，数据调和可分为两个阶段：

一是企业级数据仓库（EDW）首次创建时的原始加载；二是接下来的定期修改，以保持EDW的当前有效性和扩展性。

整个过程由四个步骤组成：

抽取、清洗、转换、加载和索引。

事实上，这些步骤可以进行不同的组合，如，可以将数据抽取与清洗组合为一个过程，或者将清洗和转换组合在一起。

通常，在清洗过程中发现的拒绝数据信息会送回到源操作型业务系统中，然后将数据在源系统中加以处理，以便在以后重新抽取。

11.答：

在星模式中，事实表居中，多个维表呈辐射状分布于其四周，并与事实表连接。

位于星形中心的实体是事实表，是用户最关心的基本实体和查询活动的中心，为数据仓库的查询活动提供定量数据。

位于星模式四周的实体是维度实体，其作用是限制和过滤用户的查询结果，缩小访问范围。

每个维表都有自己的属性，维表和事实表通过关键字相关联。

12.答：

因为数据仓库或数据集市的数据总是历史的数据，需要时间维来区别。

第3章数据仓库系统的设计与开发

1.在线分析处理（OLAP）分析。

2.信息包图法，维度，类别，度量。

3.逻辑模型。

4.事务事实，快照事实，线性项目事实。

5.聚合。

6.时间，区域。

7.退化维。

8.无变化，缓慢变化，剧烈变化。

9.索引。

10.反向规范化，引入冗余。

11.答：

信息包图法，也叫用户信息需求表，就是在一张平面表格上描述元素的多维性，其中的每一个维度用平面表格的一列表示，通常的维度如时间、地点、产品和顾客等；而细化本列的对象就是类别，例如时间维度的类别可以细化到年、月、日，甚至小时；平面表格的最后一行（代表超立方体中的单元格）即为指标度量值，例如，某年在某销售点的某类产品的实际销售额。

创建信息包图时需要确定最高层和最低层的信息需求，以便最终设计出包含各个层次需要的数据仓库

总之，信息包图法是一种自上而下的数据建模方法，即从用户的观点开始设计（用户的观点是通过与用户交流得到的），站在管理者的角度把焦点集中在企业的一个或几个主题上，着重分析主题所涉及数据的多维特性，这种自上而下的方法几乎考虑了所有的信息源，以及这些信息源影响业务活动的方式。

12.答：

收集、分析和确认业务分析需求，分析和理解主题和元数据、事实及其量度、粒度和维度的选择与设计、数据仓库的物理存储方式的设计等。

13.答：

（1）收集和分析业务需求；

（2）建立数据模型和数据仓库的物理设计；

（3）定义数据源；

（4）选择数据仓库技术和平台；

（5）从操作型数据库中抽取、清洗及转换数据到数据仓库；

（6）选择访问和报表工具，选择数据库连接软件，选择数据分析和数据展示软件；

（7）更新数据仓库。

14.答：

参考3.3节的过程。

第4章关联规则

1.apriori，fp-growth，fp-growth。

2.{{abc}{abd}{acd}}，{{abc}{abd}}。

3.{{a}{b}{c}}，{ac}。

4.答：

关联规则挖掘最初由R.Agrawa

展开阅读全文