BI数据仓库基础概念.docx

资源描述

BI数据仓库基础概念.docx

《BI数据仓库基础概念.docx》由会员分享，可在线阅读，更多相关《BI数据仓库基础概念.docx（7页珍藏版）》请在冰豆网上搜索。

BI数据仓库基础概念.docx

BI数据仓库基础概念

BI、数据仓库基础概念

商业智能技术培训

——BI、数据仓库基础概念

商业智能（BusinessIntelligence）简介

随着经济的发展，企业所面临的竞争日益激烈。

同时，信息技术的发展也使企业获取信息的手段和渠道也在不断增加，企业所面对的信息浩如烟海。

而任何好的决策都需要事实和真实的数据。

企业决策的正确程度也取决于所使用的事实和数字的准确程度。

另一方面，随着竞争的增加，决策需要在较短的时间内做出。

因此，在特定的时间段内，能够尽可能多地获得相关信息就变得越来越关键。

而为了使决策具有较好的正确度，却又需要更长的时间。

因此，企业需要高效数据分析工具，以减少高速、精确分析大量数据所需时间。

商业智能技术正是一种能够帮助企业迅速地完成信息采集、分析的先进技术。

它以数据仓库（DataWarehousing）、在线分析处理（OLAP）、数据挖掘（DataMining）3种技术的整合为基础，建立企业数据中心和业务分析模型，以提高企业获取经营分析信息的能力，从而提高企业经营和决策的质量与速度。

一、数据仓库（DataWarehousing）

数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合，用以支持经营管理中的决策制定过程。

目的是为了解决在信息技术发展中存在的拥有大量数据、然而有用信息贫乏的问题。

它是集成各系统的历史数据而建立的面向主题的企业数据中心，其特点是面向主题、集成性—企业数据框架、历史性和稳定性。

二、在线分析处理（OLAP）

OLAP是一种高度交互式的过程，它能够将原始的数据转化成为真正能够为用户所理解的、真实反映数据维特性的信息，以便分析人员从多种角度对这些信息进行快速、一致、交互地访问和反复的分析从而获得有用信息、达到对数据更深入了解的目的。

在线分析处理同时也是对存储在多维数据库（MDD）或关系型数据库（RDBMS）中的数据进行分析、处理的过程。

这种分析可以是多维在线分析处理、关系型在线分析处理，也可以是混合在线分析处理。

在线分析处理的特点是灵活、动态、快速的多维分析、可以进行随机查询、产生即席报表。

三、数据挖掘（DataMining）

数据挖掘是通过数学模型从浩如瀚海的数据和文档中发现以前未知的、隐藏的、潜在的规律和可以理解的信息，以辅助决策的过程。

也就是说从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘的特点是涉及数据库、统计分析和人工智能等多种技术，具有预测和验证功能并且能够进行特征和规律的描述。

2数据仓库概念及发展

2.1.1什么是数据仓库

业界公认的数据仓库概念创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义是：

数据仓库就是面向主题的、集成的、不可更新的（稳定性）、随时间不断变化（不同时间）的数据集合，用以支持经营管理中的决策制定过程。

数据仓库中的数据面向主题，与传统数据库面向应用相对应。

主题是一个在较高层次上将数据归类的标准，每一个主题对应一个分析领域：

数据仓库的集成特性是指在数据进入数据仓库之前，必须对数据加工和集成，这是建立数据仓库的关键步骤，首先要统一原始数据中的矛盾之处，还要将原始数据结构做一个从面向应用向面向主题的转变；数据仓库的稳定性是指数据仓库反映的是历史数据，而不是日常事务处理产生的数据，数据经加工和集成进入数据仓库后是极少或根本不修改的；数据仓库是不同时间的数据集合，它要求数据仓库中的数据保存时限能满足进行决策分析的需要，而且数据仓库中的数据都要标明该数据的历史时期。

数据仓库最根本的特点是物理地存放数据，而且这些数据并不是最新的、专有的，而是来源于其它数据库的。

数据仓库的建立并不是要取代数据库，它要建立在一个较全面和完善的信息应用的基础上，用于支持高层决策分析，而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。

数据仓库是数据库技术的一种新的应用，而且到目前为止，大多数据仓库还是用关系数据库管理系统来管理其中的数据，例如Oracle8i/9i、DB2、SQLServerSYBASEIQ等。

2.1.2数据仓库的关键技术

一、数据抽取

数据抽取又成为ETL（dataextraction,transformationandloading），是对数据进行抽取、清洗、转换和整合的过程，是数据进入数据仓库的入口。

通过ETL的过程，数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。

数据抽取在技术上主要涉及互连、复制、增量、转换、调度、监控以及数据安全性等方面。

在技术发展上，数据抽取所涉及的单个技术环节都已相对成熟，市场上提供了很多数据抽取工具，例如MicrosoftDTS、DataStage等。

二、数据的存储和管理

数据仓库的真正关键是数据的存储和管理。

数据仓库的组织管理方式决定了它有别于传统数据库的特性，同时也决定了其对外部数据表现形式。

首先，数据仓库的数据量比传统事务处理大得多，且随时间的推移还在不断累积。

因此，对大量数据的存储和管理是数据仓库首先要解决的问题。

不过从现有技术和产品来看，关系数据库经过近30年的发展，在数据存储和管理方面已经非常成熟，能够支持数据分割技术，能够将一个大的数据库表分散在多个物理存储设备中，进一步增强了系统管理大数据量的扩展能力。

其次是支持多维分析的查询模式，这也是关系数据库在数据仓库领域遇到的最严峻的挑战之一。

在使用数据仓库时的访问方式与传统的关系数据库有很大的不同。

对于数据仓库的访问往往不是简单的表和记录的查询，而是基于业务分析主题的，如果用传统的关系型数据库设计方法来实现这种多维查询模式效率非常低下、并且查询处理的过程也难以自动化。

但是，关系数据库若采用“星型模式”来组织数据则能很好地解决多维分析的问题。

那么什么是“星型模式”？

这将在数据仓库的数据组织方式中详细描述。

三、数据仓库的数据组织结构

数据仓库中的数据组织将多维结构划分为两类表：

一类是事实表，用来存储数据和维关键字；另一类是维表，即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。

维表和事实表通过主关键字和外关键字联系在一起，形成“星型模式”。

对于层次复杂的维，为避免冗余数据占用过大的存储空间，可以使用多个表来描述，这种星型模式的扩展称为“雪花模式”。

3在线分析处理（OLAP）

联机分析处理（On-LineAnalyticalProcessOLAP）技术是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的并真实反映企业维特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。

OLAP技术是对由语义动态对象建立的、以动态微立方结构形式存储的表进行向下钻取、向上钻取、跨越钻取、切片和切块等操作。

OLAP的目标是满足决策支持或多维环境特定的查询和报表需求，它的技术核心是“维”这个概念，因此OLAP也可以说是多维数据分析工具的集合，是数据仓库中大容量数据得以有效利用的重要保障。

其基本思想是：

企业的决策者应能灵活地操纵企业的数据，以多维的形式从多方面和多角度来观察企业的状态、了解企业的变化。

OLAP的一个重要特点是多维数据分析，这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。

OLAP技术中比较典型的应用是对多维数据的切片和切块、钻取、旋转等，它便于使用者从不同角度提取有关数据。

OLAP技术还能够利用分析过程对数据进行深入分析和加工。

例如，关键指标数据常常用代数方程进行处理，更复杂的分析则需要建立模型进行计算

OLAP所涉及的常用术语：

•元数据

元数据（Metadata）是关于数据的数据，它描述了多维数据库的数据和环境。

它是对源数据及其内容、分析主题、维信息、指标信息等多维数据库结构信息的描述。

•主题：

在OLAP分析中，用户所关注业务的一个考核方面；如：

电信行业中可能的客户信用度分析、客户帐务、话务量分析等，而分析类型相近的主题可能会划分在一个分组中。

•维：

在OLAP分析中，维是作为主题的一个分析角度，比如：

客户分析中对其年龄、性别、所在地区、行业分布等因素有关，这样，地区和行业等就是该客户的维。

•层次：

在一个维中，划分各成员之间的父子关系的方式，称层次；如时间维通常可分为年、季、月、日等层。

•成员：

特定层次中的某一特定元素，称为该层上的一个成员；如“JAN”为时间维月这一层次上的成员。

•指标：

一种考核标准，由多个因素（维）共同决定，如：

某个时段的话务量、话务员坐席数等；有时指标也称为测量值。

•上钻：

通过上钻，可以查看所选维成员的上一级聚合值，即显示该成员的父级数据；如在“05JAN99”这个成员上执行上钻，可以查看99年一月份的数据。

•下钻：

与上钻相反，该操作是实现从父级信息查看下一级的详细数据，即从“JAN99”执行下钻后，可以看到99年一月各天的数据；

•层钻：

维通常是以一种层次关系展现出来的，要查看某一层次上所有数据时，可以使用层钻，比如时间维通常分为年、季、月、日这些层次，要查看所有月（包括所有年的各个月份）的数据，则可在月这一层次上执行层钻；它与下钻的区别在于：

下钻只对选定的成员，查看其下一级的数据，它的操作必须遵从从父到子的顺利，也就是说必须在父成员上执行下钻；而在BI系统中，层钻通常没限制可以任意跨层，并且显示的是所有成员在该层次的成员，与所选的成员无关。

•旋转：

对一次查询的返回结果中，把数据表的行和列调换位置，即转换分析点或观察角度。

•切片：

以分页的形式列出某一范围内的数据，一页里只显示切片维的一个成员内的数据。

•切块

获取多维数据集中数据的一个子集，由维度的成员限制一个或多个维度来指定。

多个切片构成一个切块。

例如，特定月份的事实构成该年数据的一个切片，那么该年多个月份的数据集合就是一个切块。

4数据挖掘（DataMining）

数据挖掘是从浩如瀚海的数据和文档中发现以前未知的、可以理解的的信息的过程。

由于数据挖掘的价值在于扫描数据仓库或建立非常复杂的查询，数据和文本挖掘工具必须提供很高的吞吐量，并拥有并行处理功能，而且可以支持多种采集技术。

数据挖掘工具应该拥有良好的扩展功能，并且能够支持将来可能遇到的各种数据（或文档）和计算环境。

数据挖掘的特点是涉及数据库、统计分析和人工智能等多种技术，具有预测和验证功能并且能够进行特征和规律的描述。

常用的数据挖掘分析模型有模型、预测模型、聚类模型和评分模型

∙分类模型：

把数据进行分类，并发现各类数据的共同属性，当然也可以分析一些本身就相关的数据，了解各个数据之间关系的紧密程度。

∙预测模型：

根据预测算法综合分析被预测指标将要发生的数值，目前提供两种预测方法——时间序列预测法和多元线形回归预测法。

∙聚类模型：

将一组未分类记录按需要进行分类。

∙评分模型：

以专家的经验和知识为基础，对于给定的分析主题和评价对象，选取相关的多个评价对象的描述指标（属性），按照一定的方法对每一个指标进行评分，最终得出对于评价对象的综合评分。

展开阅读全文