数据仓库商业智能相关面试题带答案.docx

资源描述

数据仓库商业智能相关面试题带答案.docx

《数据仓库商业智能相关面试题带答案.docx》由会员分享，可在线阅读，更多相关《数据仓库商业智能相关面试题带答案.docx（13页珍藏版）》请在冰豆网上搜索。

数据仓库商业智能相关面试题带答案.docx

数据仓库商业智能相关面试题带答案

数据仓库、商业智能相关面试题（带答案）

1商务智能

1.1数据仓库

1.1.1数据仓库的4大特点（特征）？

面向主题的，集成的，相对稳定的，反映历史变化的。

1.1.2数据仓库的四个层次体系结构？

1.数据源

是数据仓库系统的基础，是整个系统的数据源泉。

通常包括企业内部信息和外部信息。

内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。

外部信息包括各类法律法规、市场信息和竞争对手的信息等等；

2.数据的存储与管理

是整个数据仓库系统的核心。

数据仓库的真正关键是数据的存储和管理。

数据仓库的组织管理方式决定了它有别于传统数据库，同时也决定了其对外部数据的表现形式。

要决定采用什么产品和技术来建立数据仓库的

主要对象，是一项可对数据仓库中的数据进行快速访问的技术。

多维数据集是一个数据集合，通常从数据仓库的子集构造，并组织和汇总成一个由一组维度和度量值定义的多维结构。

每个多维数据集都有一个架构，架构是数据仓库中已联接的各表的集合，多维数据集从数据仓库提取其源数据。

架构中的核心表是事实数据表，事实数据表是多维数据集度量值的源。

OLAP的基本多维分析操作有钻取（rollup和drilldown）、切片（slice）和切块（dice）、以及旋转（pivot）、drillacross、drillthrough等。

·钻取是改变维的层次，变换分析的粒度。

它包括向上钻取（rollup）和向下钻取（drilldown）。

rollup是在某一维上将低层次的细节数据概括到高层次的汇总数据，或者减少维数；而drilldown则相反，它从汇总数据深入到细节数据进行观察或增加新维。

·切片和切块是在一部分维上选定值后，关心度量数据在剩余维上的分布。

如果剩余的维只有两个，则是切片；如果有三个，则是切块。

·旋转是变换维的方向，即在表格中重新安排维的放置（例如行列互换）。

1.1.3多维数据集为什么显示有些表即是事实表又是维度表？

退化维度。

1.1.4描述一下粒度？

维度？

Cube？

粒度反映了数据仓库按照不同的层次组织数据，根据不同的查询需要，存储不同细节的数据。

在数据仓库中，粒度越小，数据越细，查询范围就越广泛。

相反，粒度级别越高，表示细节程度越低，查询范围越小。

1.1.5描述一下ODS，统一数据视图

运营数据存储（Theoperationaldatastore,ODS）或称操作型数据存储是一个面向主题的、集成的、当前的并且是可"挥发"的数据集合，它反映了在某一个时间切片瞬间，经营分析系统和外围系统（BOSS、MIS...）用以相互交换数据的集合，主要用于经营分析系统与外围系统关键数据一致性校验、以及经营分析系统对其它外围系统的决策支持数据的回馈，回馈数据包括以客户扩展属性为主体的详细资料等。

运营数据存储扮演的是用于数据稽核与交互的角色。

ODS的存储结构是以企业范围所有相关业务系统的数据，以全面、统一进行关系型实体来体现的，ODS中的数据是基于分析主题进行组织，而不是基于业务系统的功能进行组织。

ODS只是存储了当前的数据且数据是“挥发”性的，因此其数据的刷新是很快，过期的数据将要被挥发掉。

因此ODS的存储量取决于业务接口数据的抽取与刷新频率，取决于企业的服务客户的数量。

从ODS的作用和实现来说，ODS将各个孤立的业务系统的运营数据集成起来，现成全企业的统一数据视图，同时可实现ODS的数据共享。

1.1.6描述一下企业信息工厂

数据仓库领域里，有一种构建数据仓库的架构，叫CorporateInformationFactory，中文一般翻译为“企业信息工厂”。

企业信息工厂的创始人是数据仓库之父Inmon。

企业信息工厂主要包括集成转换层（I&T）、操作数据存储（ODS）、数据仓库（EDW）、数据集市（DM）、探索仓库（EW）等部件。

这些部件有机的结合在一起，为企业提供信息服务。

集成转换层的目的是将来自操作型源系统的数据集成转换到数据仓库中，它通常由一组程序组成，而其它部件如数据仓库和数据集市等则主要由数据组成。

当业务数据来源多，业务复杂时，集成转换层会建立一些临时表，为数据处理提供方便。

这时，集成转换层包括程序和数据，也称数据准备区（DataStagingArea）。

通常中等规模及以上的数据仓库系统都会建立数据准备区。

操作数据存储（ODS）是建立在数据准备区和数据仓库之间的一个部件。

用来满足企业集成的、综合的操作型处理需要。

例如，出尽可能实时的集成的操作报表等需求。

一般，也称操作数据存储是用来满足企业战术决策的需要。

操作数据存储是个可选的部件。

数据仓库是企业信息工厂的核心部件，用来保存整个企业的数据。

一般，也称数据仓库是用来满足企业战略决策的需要。

数据仓库的数据来自数据准备区和操作数据存储。

数据集市是为了满足企业特定部门的分析需求而专门建立的数据的集合。

数据集市的数据来源是数据仓库。

企业信息工厂中的数据集市一般来说是非规范化的、定制的和汇总的。

而多维体系架构中的数据集市分为两种，分别是原子数据集市和聚集数据集市。

一般来说，企业信息工厂中的数据集市相当于多维体系架构中的聚集数据集市。

1.1.7数据是数据集市？

数据集市中的数据具有数据仓库中数据的特点，只不过数据集市专为某一部门或某个特定商业需求定制，而不是根据数据容量命名。

数据集市面向部门、业务单元或特定应用，因而规模较小，便于快速实现，且成本较低，短期内即可获得明显效果。

数据集市的应用不仅满足了部门的数据处理需求，而且作为数据仓库的子集有助于构建完整的企业级数据仓库。

1.1.8元数据的定义，元数据管理，元数据的作用用？

数据仓库的元数据是关于数据仓库中数据的数据。

它的作用类似于数据库管理系统的数据字典，保存了逻辑数据结构、文件、地址和索引等信息。

广义上讲，在数据仓库中，元数据描述了数据仓库内数据的结构和建立方法的数据。

元数据是数据仓库管理系统的重要组成部分，元数据管理器是企业级数据仓库中的关键组件，贯穿数据仓库构建的整个过程，直接影响着数据仓库的构建、使用和维护。

（1）构建数据仓库的主要步骤之一是ETL。

这时元数据将发挥重要的作用，它定义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史记录以及装载周期等相关内容。

数据抽取和转换的专家以及数据仓库管理员正是通过元数据高效地构建数据仓库。

（2）用户在使用数据仓库时，通过元数据访问数据，明确数据项的含义以及定制报表。

（3）数据仓库的规模及其复杂性离不开正确的元数据管理，包括增加或移除外部数据源，改变数据清洗方法，控制出错的查询以及安排备份等。

元数据可分为技术元数据和业务元数据。

技术元数据为开发和管理数据仓库的IT人员使用，它描述了与数据仓库开发、管理和维护相关的数据，包括数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。

而业务元数据为管理层和业务分析人员服务，从业务角度描述数据，包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等，帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。

在数据仓库中，元数据的主要作用如下。

（1）描述哪些数据在数据仓库中，帮助决策分析者对数据仓库的内容定位。

（2）定义数据进入数据仓库的方式，作为数据汇总、映射和清洗的指南。

（3）记录业务事件发生而随之进行的数据抽取工作时间安排。

（4）记录并检测系统数据一致性的要求和执行情况。

（5）评估数据质量。

1.1.9什么是主数据,主数据管理？

和元数据有什么区别？

主数据管理和传统数据仓库的区别？

主数据是指在整个企业范围内各个系统（操作/事务型应用系统以及分析型系统）间要共享的数据，比如，可以是与客户（customers）,供应商（suppliers）,帐户（accounts）以及组织单位（organizationalunits）相关的数据。

主数据通常需要在整个企业范围内保持一致性（consistent）、完整性（complete）、可控性（controlled），为了达成这一目标，就需要进行主数据管理（MasterDataManagement，MDM）。

主数据不是企业内所有的业务数据，只是有必要在各个系统间共享的数据才是主数据，比如大部分的交易数据、帐单数据等都不是主数据，而像描述核心业务实体的数据，而像客户、供应商、帐户、组织单位、员工、合作伙伴、位置信息等都是主数据。

主数据是企业内能够跨业务重复使用的高价值的数据。

主数据管理（MasterDataManagement，MDM）是指一组约束和方法用来保证一个企业内主题域和系统内相关数据和跨主题域和系统的相关数据的实时性、含义和质量。

这是从深层次来说来说明主数据管理（MDM）的深度和复杂性，简单的说，主数据管理（MDM）保证你的系统协调和重用通用、正确的业务数据（主数据）。

通常，我们会把主数据管理作为应用流程的补充，通过从各个操作/事务型应用以及分析型应用中分离出主要的信息，使其成为一个集中的、独立于企业中各种其他应用核心资源，从而使得企业的核心信息得以重用并确保各个操作/事务型应用以及分析型应用间的核心数据的一致性。

通过主数据管理，改变企业数据利用的现状，从而更好地为企业信息集成做好铺垫。

主数据管理（MDM）可以帮助我们创建并维护整个企业内主数据的单一视图（SingleView），保证单一视图的准确性、一致性以及完整性，从而提供数据质量，统一商业实体的定义，简化改进商业流程并提供业务的响应速度。

从变化的频率来看，主数据和日常交易数据不一样，变化相对缓慢，另外，主数据由于跨各个系统，所以对数据的一致性、实时性以及版本控制要求很高。

主数据（MasterData）和元数据（MetaData）是两个完全不同的概念。

元数据是指表示数据的相关信息，比如数据定义等，而主数据是指实例数据，比如产品目录信息等。

主数据管理和传统数据仓库解决方案不是一个概念，数据仓库会将各个业务系统的数据集中在一起在进行业务的分析，而主数据管理系统不会把所有数据都管理起来，只是把需要在各个系统间共享的主数据进行采集和发布。

相对于传统数据仓库解决方案的单向集成，主数据管理正注重将主数据的变化同步发布到各个关联的业务系统中（主数据管理数据是双向的）。

1.1.10描述一下ETL过程中需要处理的内容

三个简单的字母，E-T-L，很容易忽视38个ETL子系统在数据仓库建设中的重要性。

抽取-转换-加载（ETL）系统，或者非正式的称为“后台系统”，在建立整个数据仓库系统中占据了70的工作量和时间。

但是这还不足以说明ETL系统的复杂性。

每个人都理解这三个字母的含义，E，从源系统中将数据取出来；T，对这些数据做处理；L，加载到最终用户访问的表中。

1.抽取系统（ExtractSystem）

主要功能包括源数据的适配器，推/拖/搬运数据的工作调度，对源数据的过滤和排序功能，数据格式的转换，迁移到ETL环境后的数据暂存功能。

2.变化数据捕获系统（ChangeDataCaptureSystem）

主要功能包括对源数据日志文件的阅读功能，源数据日期和序列号的过滤功能，基于CRC算法的记录比较功能。

3.数据概况分析系统（DataProfilingSystem）

主要功能包括字段属性分析，如参照域的分析；结构分析，如主外键关系分析；数据规则分析；值规则分析等。

4.数据清洗系统（DataCleansingSystem）

主要功能包括一个典型的数据字典驱动的系统，用于解析个体和组织的名称、地址等信息，也用来解析产品、场所等内容；一个“De-duplication”系统，用于鉴别和移除个体和组织信息，也用于产品和场所；一个“Surviving”系统，使用特定的数据合并逻辑，用来保存特定数据源的指定

展开阅读全文