数据仓库基础知识科普.docx

上传人:b****1 文档编号:48439 上传时间:2022-10-01 格式:DOCX 页数:12 大小:421.51KB
下载 相关 举报
数据仓库基础知识科普.docx_第1页
第1页 / 共12页
数据仓库基础知识科普.docx_第2页
第2页 / 共12页
数据仓库基础知识科普.docx_第3页
第3页 / 共12页
数据仓库基础知识科普.docx_第4页
第4页 / 共12页
数据仓库基础知识科普.docx_第5页
第5页 / 共12页
点击查看更多>>
下载资源
资源描述

数据仓库基础知识科普.docx

《数据仓库基础知识科普.docx》由会员分享,可在线阅读,更多相关《数据仓库基础知识科普.docx(12页珍藏版)》请在冰豆网上搜索。

数据仓库基础知识科普.docx

数据仓库基础知识科普

  

 

  

数据仓库基础知识科普

 

  

 

 

 

 

 

 

 

   

 

 

 

 

 

导读

什么是数据仓库呢?

为了使大家能更好地了解,下面小编汇总一些数据仓库基础知识,以供参考!

什么是数据仓库呢?

为了使大家能更好地了解,下面小编汇总一些数据仓库基础知识,以供参考!

数据仓库基础知识科普:

 

一、数据仓库

数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。

数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。

——数据仓库之父--BillInmon

二、数据仓库基本特性

01.面向主题性

面向主题性表示了数据仓库中数据组织的基本原则,数据仓库中的所有数据都是围绕着某一主题组织的。

确定主题以后,需要确定主题应该包含的数据。

不同的主题之间可能会出现相互重叠的信息。

主题在数据仓库中可以用多维数据库方式进行存储。

主题的划分中,必须保证每一个主题的独立性。

一个主题领域的表来源于多个操作型应用(如:

客户主题,来源于:

定单处理;应收帐目;应付帐目;…);

典型的主题领域:

客户;产品;交易;帐目;

主题领域以一组相关的表来具体实现;

相关的表通过公共的键码联系起来(如:

顾客标识号CustomerID);

每个键码都有时间元素(从日期到日期;每月累积;单独日期…);

主题内数据可以存储在不同介质上(综合级,细节级,多粒度);

02.数据集成性

根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,最终集成到数据仓库中。

03.数据的时变性

数据应该随着时间的推移而发生变化,不断地生成主题的新快照。

04.数据的非易失性

数据的相对稳定性。

数据仓库中的数据只进行刷新,从不进行更新处理。

反映历史变化。

三、商务智能

简单定义:

综合企业所有沉淀下来的信息,用科学的分析方法,为企业领导提供科学决策信息的过程。

完整定义:

基于数据仓库技术的决策支持系统(DSS)。

它以数据仓库(DW)技术为基础,通过抽取、转换和清洗将分散在企业各处的数据整合在一起,转化为信息;进而以联机分析处理(OLAP)工具、数据挖掘(DM)工具、报表工具为手段将信息提升为知识;最后运用可视化技术以快捷直观的方式将探察分析结果呈现给最终用户,为管理决策层提供量化依据的过程。

四、数据挖掘

数据挖掘使您得以定义包含分组和预测规则的模型,以便应用于关系数据库或多维OLAP数据集中的数据。

之后,这些预测模型便可用于自动执行复杂的数据分析,以找出帮助识别新机会并选择有获胜把握的机会的趋势。

五、联机事务处理(OLTP)

OLTP系统是设计用来允许高并发性的,这样很多用户就能够访问同一个数据源并进行所需的处理。

OLTP系统是面向在数据库上进行事务处理的理念的。

而事务则进一步蕴含着发生在表中数据上的受控的变更,这些变更包括在商务运作过程中发生的插入、更新和删除操作。

通常,一个OLTP系统将会有大量的客户端应用程序通过各种各样的方式(插入、更新、删除--实际上可以是任何操作)访问数据库以查询一小块信息。

OLTP系统的实例包括数据输入程序,如银行处理、订票、联机销售和库存管理系统。

六、联机分析处理(OLAP)

联机分析处理(或OLAP)是一种广义上的决策支持系统(DSS),或者最近越来越流行的商业智能(BI)。

BI系统的目标是分析海量数据,然后以很多不同的方式(包括每天、每周、每季和年度报告)生成小结和总结以把精力高度集中在记分卡和仪表盘上,它们通常用于帮助那些准备好根据这些数据采取一定的措施的特定用户来获取竞争优势。

一旦数据进入数据仓库之后就很少会发生变化。

数据被保存在那里用于查询和生成报表,以便帮助决策者规划企业的未来。

它不需要关心插入、更新和删除操作。

因此与高度规范的事务数据库不同,在这种情况下通常会使用所谓的维度数据库(dimensionaldatabase),它将遵循特定的结构或模式。

维度数据库可以用来构建数据立方体,数据立方体是数据的多维表示,用来方便联机业务分析和提高查询性能。

立方体中的每一维都表示业务数据中的一个不同的分析类别。

七、维度数据库

在OLTP系统中进行复杂查询存在一些固有的问题,对这些问题的解决方案是构建一个单独的数据库来更简洁地表示业务事实(fact)。

这个数据库的结构不是关系型的,相反,它是维度化的。

八、ETL

数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。

是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

九、元数据(MetaData)

关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。

同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。

为数据仓库的发展和使用提供方便。

关于数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。

不同OLAP组件中的数据和应用程序的结构模型。

元数据描述OLTP数据库中的表、数据仓库和数据集市中的多维数据集这类对象,还记录哪些应用程序引用不同的记录块。

十、数据集市(Datamart)

某数据集市--小型的,面向部门或工作组级数据仓库。

即”小数据仓库”。

如果说数据仓库是建立在企业级的数据模型之上的话。

那么数据集市就是企业级数据仓库的一个子集,他主要面向部门级业务,并且只是面向某个特定的主题。

数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

十一、ODS

OperationDataStore,操作数据存储—ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW扩展后得到的一个混合形式。

四个基本特点:

面向主题的(Subject-Oriented)、集成的、可变的、当前或接近当前的。

十二、主题(SUBJECT)

是一个在较高层次将数据归类的标准,每一个主题对应一个宏观的分析领域,针对具体决策需求可细化为多个主题表,具体来说就是确定决策涉及的范围和所要解决的问题。

十三、多维数据集

多维数据集是联机分析处理(OLAP)中的主要对象,是一项可对数据仓库中的数据进行快速访问的技术。

多维数据集是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构。

十四、维度(DIMENSION)

是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。

是多维数据集的结构性特性。

它们是事实数据表中用来描述数据的分类的有组织层次结构(级别)。

这些分类和级别描述了一些相似的成员集合,用户将基于这些成员集合进行分析。

这词,英国著名物理学家史蒂芬·霍金教授有这样的解释:

这就像一根头发,远看是一维的线,在放大镜下,它确实是三维的;如果面对时空,如果有足够高倍的放大镜的话,也应该能揭示出其它可能存在的4维、5维空间,直至11维空间。

因此,维度是指一种视角,而不是一个固定的数字;是一个判断、说明、评价和确定一个事物的多方位、多角度、多层次的条件和概念

十五、事实表

每个数据仓库都包含一个或者多个事实数据表。

事实数据表可能包含业务销售数据,如现金登记事务

所产生的数据,事实数据表通常包含大量的行。

事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据,每个事实数据表包含一个由多个部分组成的索引,该索引包含作为外键的相关性纬度表的主键,而维度表包含事实记录的特性。

事实数据表不应该包含描述性的信息,也不应该包含除数字度量字段及使事实与纬度表中对应项的相关索引字段之外的任何数据。

包含在事实数据表中的“度量值”有两中:

一种是可以累计的度量值,另一种是非累计的度量值。

最有用的度量值是可累计的度量值,其累计起来的数字是非常有意义的。

用户可以通过累计度量值获得汇总信息,例如。

可以汇总具体时间段内一组商店的特定商品的销售情况。

非累计的度量值也可以用于事实数据表,单汇总结果一般是没有意义的,例如,在一座大厦的不同位置测量温度时,如果将大厦中所有不同位置的温度累加是没有意义的,但是求平均值是有意义的。

一般来说,一个事实数据表都要和一个或多个纬度表相关联,用户在利用事实数据表创建多维数据集时,可以使用一个或多个维度表。

从用途的不同来说,事实表可以分为三类,分别是原子事实表,聚集事实表和合并事实表。

原子事实表(AtomFactTable)是保存最细粒度数据的事实表,也是数据仓库中保存原子信息的场所。

聚集事实表(AggregatedFactTable)是原子事实表上的汇总数据,也称为汇总事实表。

即新建立一个事实表,它的维度表是比原维度表要少,或者某些维度表是原维度表的子集,如用月份维度表代替日期维度表;事实数据是相应事实的汇总,即求和或求平均值等。

在做数据迁移时,当相关的维度数据和事实数据发生变化时,聚集事实表需要做相应的刷新。

物化视图是实现聚集事实表的一种有效方式,可以设定刷新方式,具体功能由DBMS来实现。

合并事实表(ConsolidatedFactTable)是指将位于不同事实表中处于相同粒度的事实进行组合建模而成的一种事实表。

即新建立一个事实表,它的维度是两个或多个事实表的相同维度的集合;事实是几个事实表中感兴趣的事实。

在Kimball的总线架构中,由合并事实表为主组成的合并数据集市称为二级数据集市。

合并事实表的粒度可以是原子粒度也可以是聚集粒度。

在做数据迁移时,当相关的原子事实表的数据有改变时,合并事实表的数据需要重新刷新。

合并事实表和交叉探察是两个互补的操作。

聚集事实表和合并事实表的主要差别是合并事实表一般是从多个事实表合并而来。

但是它们的差别不是绝对的,一个事实表既是聚集事实表又是合并事实表是很有可能的。

因为一般合并事实表需要按相同的维度合并,所以很可能在做合并的同时需要进行聚集,即粒度变粗。

十六、维度表

维度表可以看作是用户来分析数据的窗口,纬度表中包含事实数据表中事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息,维度表包含帮助汇总数据的特性的层次结构。

例如,包含产品信息的维度表通常包含将产品分为食品、饮料、非消费品等若干类的层次结构,这些产品中的每一类进一步多次细分,直到各产品达到最低级别。

在维度表中,每个表都包含独立于其他维度表的事实特性,例如,客户维度表包含有关客户的数据。

维度表中的列字段可以将信息分为不同层次的结构级。

结论:

1、事实表就是你要关注的内容;

2、维度表就是你观察该事务的角度,是从哪个角度去观察这个内容的。

例如,某地区商品的销量,是从地区这个角度观察商品销量的。

事实表就是销量表,维度表就是地区表。

十七、度量值

在多维数据集中,度量值是一组值,这些值基于多维数据集的事实数据表中的一列,而且通常为数字。

此外,度量值是所分析的多维数据集的中心值。

即,度量值是最终用户浏览多维数据集时重点查看的数字数据。

您所选择的度量值取决于最终用户所请求的信息类型。

一些常见的度量值有sales、cost、expendit

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1