数据仓库与数据挖掘.docx-资源下载

数据仓库与数据挖掘.docx

1、数据仓库与数据挖掘1.数据仓库的概念和特点p11定义：一个面向主题的、集成的、非易失的且随时间变化的数据集合，用来支持管理人员作出决策。特性：面向主题的、集成的、非易失的、随时间不断变化的。1、面向主题的：数据仓库以一个奇特或组织机构中固有的业务主题作为处理的主体，是从整体的、全局的角度来衡量这些主题在企业中的作用。2、集成的（最重要）：数据仓库必须将不一致的数据进行有效的集成，使之在数据仓库中有一致性的表示形式。一致性问题只是集成所包含的一部分工作，另外还需要根据主题进行有效的数据组织。3、非易失性：一旦操作型数据进入数据仓库，只要数据未超过数据仓库的数据存储期限，通常不对数据进行更新操作，

2、而只进行查询操作。即不进行一般意义上的更新，而且与操作型数据相比，更新频率要低得多，对时间的要求更为宽松。4、随时间不断变化的（数据因时而变的特点）与操作型数据比较的，书上14页：（1）数据仓库中的数据的时间期限要远远长于操作型环境中的数据的时间期限。操作型环境一般60-90天，数据仓库5-10年。操作型环境中的数据库含有数据的“当前值”，其准确性访问是有效的，其当前值能被更新，数据仓库中的数据只是一系列某一时刻所生成的数据的复杂快照。操作型环境中的数据键码结构可能含有也可能不含有；数据仓库的键码结构总是包含某时间元素。2.数据仓库中的关键概念14外部数据源：就是从系统外部获取的同分析主题相关

3、的数据。数据抽取：是数据仓库按分析的主题从业务数据库抽取相关数据的过程。数据清洗：所谓“清洗”是指在放入数据仓库之前将错误的、不一致的数据予以更正或删除，以免影响DSS决策的正确性。数据转换：各种数据库产品所提供的数据类型可能不同，需要将不同格式的数据转换成统一的数据格式，称为数据转换。数据加载：是指把清洗后的数据装入数据仓库的过程。数据加载策略包括数据加载周期和数据追加策略。数据加载周期要综合考虑经营分析需求和系统加载代价，对不同业务的数据采用不同的加载周期，但必须保持同一时刻业务数据的完整性和一致性。元数据：元数据是关于数据的数据。元数据位于数据仓库的上层，而且能够记录数据仓库中对象的位置

4、。数据集市：面向企业中的某个部门（主题）而在逻辑上或物理上划分出来的数据仓库中的数据子集成为数据集市。数据粒度：粒度是数据仓库的数据单位中保存数据的细化程度或综合成都的级别。细化程度越高，粒度级别就越低。相反，细化程度越低，粒度级别就越高。数据仓库的数据组织结构：早期细节级（通常用于备用的、批量化的存储）、当前细节级、轻度综合数据级（数据集市）以及高度综合数据级。一旦数据过期，就由当前细节级进入早期细节级。经综合后的数据由当前细节级进入轻度综合数据级，然后由轻度综合数据级进入高度综合数据级。数据粒度的两种形式：第一种形式的粒度是对数据仓库中的数据的综合程度高低的一种度量，另一种形式即样本数据库

5、，是针对数据挖掘的，样本数据库是以一定的采样率（或按数据的重要程度的不同）从细节档案数据或轻度综合数据中抽取的一个子集。数据分割：分割是指将数据分割到各自的物理单元中以便能分别进行处理，提高数据处理效率，数据分割后形成的数据单元称为分片。数据库数据仓库面向应用数据是详细保持当前数据数据是可更新对数据的操作是重复的操作需求是事先可知的一个操作只存取一条记录数据非冗余操作较频繁所查询的是原始数据事务处理需要当前数据鲜有复杂的计算支持事务处理面向主题数据是综合的或提炼的保存过去的和现在的数据数据是不可更新对数据的操作是启发式的操作需求是临时决定的一个操作存取一个数据集合数据常冗余操作相对不频繁所查询

6、的是经过加工的数据决策分析需要过去的和现在的数据需做复杂的计算支持决策分析操作型数据分析型数据细节的在存取瞬间，数据是准确的可更新的事先可知操作需求生命周期符合SDLC（软件开发生命周期）对性能的要求较高某一时刻操作一个单元事务驱动面向应用一次操作的数据量较小支持日常操作综合的或提炼的历史数据不可更新操作需求事先不可知完全不同的生命周期对性能的要求较为宽松某一时刻操作一个集合分析驱动面向分析一次操作的数据量较大支持管理需求4.数据仓库的数据追加与方法数据追加：数据仓库中的数据初装完成后，再向数据仓库输入数据的过程。数据仓库的内容仅限于上一次向数据仓库输入数据后在OLTP数据库中发生变化的数据。

7、捕捉变化数据的常用途径如下：（1）时标方法：如果数据含有时标，对于插入或更新的数据记录，在记录中设置相应的时标，那么只需根据时标判断哪些数据是上次追加后变化的即可。但并非所有数据库中的数据都含有时标。（2）DELTA文件1.DELTA文件是由应用生成的，记录应用所改变的所有内容。2.利用DELTA文件效率很高，它避免扫描整个数据库。但因应用系统常由不同的软件开发商开发，生成DELTA文件的应用并不普遍，还有更改应用代码的方法，可在生成新数据时将其自动记录下来，但应用数目庞大，修改的代码十分繁琐。（3）前后映像文件的方法：1.在抽取数据前后对数据库各做一次快照，然后比较两幅快照从而确定新数据。2

8、.它占用大量资源，对性能影响极大，因此无实际意义。（4）日志文件（最切实有效）日志是DMBS的固有机制系统日志能把数据库服务器所执行的所有操作详细记录下来，通过分析日志获取数据变化情况。它还具有DELTA文件的优越性质，提取数据只要局限日志文件即可，不用扫描整个数据库。固有机制，不影响OLTP性能。5.数据仓库的数据清理1.数据加入失去原有细节的一个定期综合文件2.数据从高性能介质转移到大容量介质上3.数据从系统中实质性的清除4.数据从体系结构的某一个层次转至另一个层次，必须从操作型层次转至数据仓库层次6.数据集市的类型概念，在企业中很重要的作用数据集市(Data Mart) ，也叫数据市场，

9、是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。数据仓库在整个组织范围内为各个部门提供管理与决策支持，而数据集市通常处于部门级，只能为某个局部范围内的管理人员提供服务，因此也称为部门级数据仓库。因此可以说数据集市是针对特定应用的数据仓库，即针对某个具有战略意义的应用或部门级应用，支持用户利用已有的数据做出管理决策。数据集市（Data Marts）是一种更小、更集中的数据仓库，为公司提供分析商业数据的一条廉价途径。1.独立型数据集市（独立数据集市）其数据直接来自各个生产系统，许多企业考虑投资问题，最终建成独立数据集市，用来解决个别部门较为迫切的决策问题。从这种意义

10、上讲，它和企业数据仓库除了在数据量和服务对象上存在差别外，逻辑结构并无多大区别，也许就是把数据集市成为部门级数据仓库的主要原因。2.从属性数据集市（从属集市）：数据直接来自中央数据仓库访问数据仓库频繁的关键业务部门建立从属数据集市，可以提供查询操作的反应速度。7.数据仓库VS数据集市项目数据仓库数据集市数据来源范围主题数据粒度数据结构历史数据优化索引遗留系统、OLTP系统、外部数据企业级企业主题最细的粒度规范化结构（第三范式）大量的历史数据处理海量数据/数据索引高度索引数据仓库部门级或工作级部门级或特殊的分析主题较粗的粒度星型模式、雪花模式、两者混合适量的历史数据便于访问、分析、快速查询高度索

11、引8.数据仓库的体系结构数据仓库系统的层次结构数据仓库在逻辑上可以分为：数据获取/管理层、数据存储层、数据分析/应用层 1. 数据获取/管理层：（1）.数据仓库的定义与修改、（2）.数据的获取、（3.）数据仓库系统的管理 2.数据存储层：是数据仓库的主体，包括（1）.从外部数据源抽取数据，经清洗、转换处理，并按主题进行组织和存放称其为业务数据仓库（2）.数据仓库的元数据（3.）针对不同的数据挖掘和分析主题而生成的数据集市 3.数据分析/应用层：（1）查询/统计功能（2）OLAP服务（3）数据挖掘服务9.数据仓库的构造模式（加上有反馈的六种）1、自顶向下模式2、自底向上模式、3、平行开发模

12、式1.自定向下模式特点：在这种模式下，数据集市是数据仓库的真子集，数据由数据仓库流向数据集市。数据仓库的设计过程直观，概念清晰，易于只要对外部数据源所支持的决策有较深入的额理解，保证各数据集市都是数据仓库的真子集，就可以完全消除信息之间的“蜘蛛网”现象。这种模式不足之处在于要求设计者对具体业务有较深入的理解，系统设计规模较大，实施周期过长，项目见效缓慢，尤其是在项目实施初期，成效并不明显构造方向：从左到右决策分析主题数据集市数据仓库外部数据源2.自底向上模式自底向上模式设计思路是先具体，后综合构造方向：从右到左决策分析主题数据仓库数据集市外部数据源特点：投资少，见效快，由于数据集市缺少元数据，

13、因而最终构造数据仓库的过程具有一定的难度，并有可能影响数据仓库整体构造的合理性以及系统的运行效率3.平行开发模式（又称企业级数据集市模式）平行模式是在自顶向下模式的基础上，吸收了自底向上的优点发展而成的，是他们的有机结合。4.改进的开发模式均在上面介绍的基础上经改进发展而来，共同特点是：按照软件工程学的观点，接收用户对所构建的数据仓库系统的反馈信息，加以分析和整理，并以此为依据，对数据仓库进行修改，以不断提高数据系统对决策的支持能力。10数据操作存储ODS（OperationalDataStore）ODS是用于支持全局应用的数据集合，保存于ODS中的数据具有4个基本特点：面向主题的、集成化的、

14、可变的、数据是当前的或接近当前的。ODS只存放当前数据或接近当前的数据，而且可以进行联机修改，包括添加、删除、更改等操作。所谓当前是指数据在存取时刻是最新的，而接近当前指所存取的数据是最近一段时间之前得到的。虽然数据仓库中数据也是面向主题和集成化的，但通常是不可修改的，所以ODS与数据仓库之间的区别主要体现在这两方面。11.DB-ODS-DW三层体系结构1).ODS充当“承上启下”的角色2).ODS简化了DW与操作型环境的额界面3).ODS满足了企业级全局应用的需求数据库系统操作数据存储系统数据仓库ODS是中间环节，原先在数据仓库和业务数据库之间保持数据一致性的工作从DB-DW接口转移到ODS

15、-DB接口上，原先全部由数据仓库来实现的诸项复杂功能得到了更好的划分，有利于实现产品的可实现性和可维护性；ODS的记录在DB中，DW的记录在ODS中；操作型环境分析型环境特点：1）ODS的记录在DB中2）DW记录在ODS中12.联机分析处理p40联机分析处理OLAP定义：1、OLAP是一种软件技术，它使分析人员能够迅速、一致、交互地从各个方面观察信息，以达到深入理解数据的目的。这些信息是从原始数据直接转换过来的，他们以用户容易理解的方式反映企业的真实状况。2、OLAP是针对特定问题的联机数据访问和分析处理目标是满足决策支持或多维环境下特定的查询和报表需求，其技术核心是“维”这一概念，因此OLA

16、P可以说是多维数据分析工具的集合。OLAP功能：数据分析、报表13.OLAP相关的基本概念p41变量：是数据的实际意义，用来描述数据”是什么”维:是人们观察数据的特定角度，是考虑问题时所涉及的一类属性，属性的集合构成一个维。维的层次：人们观察数据的某个特定角度还可以存在细节程度互异的多个描述层次，称多个描述层面为维的层次。维的成员：维的一个取值称为该维的的一个成员多维数组：是维和变量的组合表示数据单元：是多维数据的取值14.OLAP准则（12条，选择题）p441.OLAP模型必须提供多维概念视图2.透明性准则3.存取能力准则4.稳定的报表能力5.客户服务器体系结构6.维的等同性准则7.动态的稀

17、疏矩阵处理准则8.多用户支持能力9.非受限的跨维操作10.直观的数据操作11.灵活的报表的生成12.非受限维与聚集层次：简化的5条原则：1.快速性、2.可分析性、3.共享性、4.多维性、5.信息性15.OLAP基本分析动作，每个动作是什么意思数据切片：多维数据是由多个维度组成的，如果在某一维度上选定一个值，则多维数据就从N维下降至N-1维称为多维数据的子集，是多维数据的维i上切片数据切片是一种优化功能，可以帮助将查询指向相应的数据。数据切片无法为分区指定数据源。也就是说，数据切片不能用于限制从分区事实数据表中选择的数据和包含在分区中的数据。数据切片仅适用于使用ROLAP存储模式的对象。使用分区

18、向导创建分区时，可以指定一个数据切片。数据切块：是将完整的数据立方体切取一部分数据而得到得心的数据立方体数据钻取：就是从较高的维度层次下降到较低的维度层次上来观察多维数据数据聚合:是钻取得逆向操作，是对数据进行高层次综合的操作数据旋转：数据旋转可以得到不同视角的数据，数据旋转操作相当于基于平面数据将坐标轴旋转。16.OLAP数据组织多维数据库：基于多维数据库的MOLAP（多维联机分析处理）是以多维数据库（MDDB）为核心的。简言之，多维数据库是以多维方式来组织和存储数据。关系数据组织ROLAPROLAP（关系联机分析处理）将多维结构进行分解，利用两种表（维表、事实表）来表达多维信息。维表是用于

19、记录维度的关系表。事实表是记录多维数据立方体各个维度交点的度量值。17.星形结构的存储实现雪花结构星型模型由事实表和多个维度表组成。事实表中存放大量关于企业的事实数据，对象个数通常都很大，而且非规范化程度很高。为度表中存放描述性数据，维度表是围绕事实表建立的较小的表。事实表是星型模型的核心，数据量大，冗余小维度表是事实表的附属表优点：星形模型是非规范化的，以增加存储空间的代价，提高了多维数据的查询速度。而规范化的关系数据库设计是使数据的冗余保持在最少，并减少了当数据改变时系统必须执行的动作。容易从维度表中的数据分析开始，获得维度关键字，以便连接到事实表进行查询，减少事实表中扫描数据量，从而提高

20、查询性能。缺点：当事务问题发生变化，原来的维度不能满足要求时，需要增加新的维。由于事实表的主键由所有的围标的主键组成，这种维度的变化带来数据变化将是非常复杂非常耗时的。星形模型的数据冗余量很大。2雪花模型雪花模型由一个事实表和多个维度表组成雪花模型增加了用户必须处理的表的数量，增加了某些查询的复杂性。但这种方式可以是系统进一步专业化和实用化，同时降低了系统的通用程度。优点：雪花模型在星型模型基础上，引入一个新表-详细类别表，借助这个表对维度表进行描述，提高了数据模型的规范化程度，并使之具有较低的粒度。雪花模型减少冗余，将表细化，具有较高的灵活性；是最大限度的减少数据存储量，以及把较小的维度表联

21、合在一起来改善查询性能。缺点：随着表的数量的增多，表之间的关联会增加，存在着降低系统性能的可能。雪花模型是对星形模型的扩展，雪花模型对星形模型的维度表进一步层次化，原来的各维度可能被扩展为小的事实表，形成一些局部的“层次”区域。18.星形模型和雪花模型的差异（p63，好像是选择？）星型模式VS 雪花模式1.雪花模式的维表可能是规范化的，以便减少冗余。这种表易于维护，并节省存储空间。2.实际上，与巨大的事实表相比，这种空间的节省可以忽略。3.由于执行查询需要更多的连接操作，雪花结构可能降低浏览的性能。4.在数据仓库设计中，雪花模式不如星型模式流行。相同点：进行OLAP处理，是以外键为基础进行维表

22、与事实表、维表与维表之间的关联操作不同点：雪花模型虽然具有较小的事实表，但在执行某些查询时，需要做表间的二次链接运算，占用CPU资源较多，因而其与运行效率可能低于星型结构模型19.两种数据组织的比较（MOLAP、ROLAP）1.结构分析：两种组织都满足OLAP数据处理流程，即数据装入、汇总、建立索引和提高使用方法。MOLAP较之ROLAP要简明一些。MOLAP的索引及数据综合可以自动完成，根据元数据。自动管理所有的索引及模式，灵活性弱；ROLAP的实现较为复杂，但灵活性强2.数据存取速度：MOLAP相应速度快，ROLAP相应速度慢3.数据存储容量：ROLAP对于存储容量没有限制，MOLAP有限

23、制4.维度变化的适应性：MOLAP支持高性能的决策型计算，包括跨维计算、行级计算；ROLAP无法完成多行的计算和维之间的计算5.多维计算机能力：ROLAP适应性更好6.数据变化的适应性：ROLAP对于数据变化的适应性高7.软硬台平台的适应性：ROLAP对软硬件平台的适应性很好，MOLAP则相对性差8.元数据管理：元数据是OLAP和数据仓库的核心数据，OLAP的元数据包括层次关系、计算转化信息、报表中的数据项描述、安全存取控制等MOLAP以多维数据库为核心，在数据的存储和综合上有明显的优势，但它不适应太大的数据存储，特别对于汗大量稀疏数据的存储将浪费大量的存储空间；ROLAP以RDBMS为基础，

24、利用成熟的技术为用户的使用和数据管理带来方便9.系统培训和维护工作项目数据存储技术特征MOLAP详细数据通过关系表存储在数据仓库中；各种汇总数据保存在多维数据库中；从数据仓库中询问详细数据，从多维数据库中询问汇总数据有MOLAP引擎创建；预先建立多维数据立方体；多维视图存储在阵列而非表格中；可以高速检索矩阵数据；利用稀疏矩阵技术来管理汇总的稀疏数据询问的相应速度快；能轻松的适应多维分析；有广泛的钻取和多层次/多视角查询能力ROLAP全部数据以关系表形式存储在数据仓库中，可获得细节的综合汇总的数据；有非常大的数据容量；从数据仓库中询问所有数据使用复杂SQL从数据库中获取数据；ROLAP引擎在数据

25、分析中创建多维数据立方体；表示层能够表示多维视图在复杂的数据分析功能上具有局限性，需要采用优化的OLAP；向下钻取数据较容易，但死跨维向下钻取数据较困难20什么是“胖”客户p69是相对于“瘦客户端”(Thin Client)（基于Web的应用程序）而言的，它是在客户机器上安装配置的一个功能丰富的交互式的用户界面，例如Oracle、DB2数据库的客户端管理工具21.OLAP前端展现方式有哪几种？C/S方式、Web方式、瘦客户机方式23.数据仓库模型的构建原则 5个 1、满足不同用户的需求2、兼顾执行效率与数据粒度的需要（粒度小，效率差），必须保证既能提供足够详细的数据支持，又能保证查询的高效率。

26、3、支持需求的变化4、避免对业务运营系统造成不良影响5、考虑未来的可扩展性24.概念模型设计概念模型特点：1.反映现实世界，满足用户对数据的需求，能帮助用户做出决策，是现实世界的真实模型2.易于用户理解和参与，便于与用户交流3.易于修改，能够随时根据用户需求的变化对模型进行修正与扩充4.易于向数据仓库的数据模型（星型模型、雪花模型、事实星座模型）进行转换企业模型的建立：1、E-R模型的概念模型设计：任务和环境的评估、需求的收集与分析、主题的选取，确定主题之间的关系（主题选择原则：优先实施管理者目前最迫切需求、最关切的主题，优先选择能够在较短时间内产生效益的主题，推后实施业务逻辑不堪完备的主题，

27、推后考虑技术难度大、可行性较低的、投资风险大的主题），主题内容描述（主题的公共码、主体之间的联系、充分代表主题的属性组），E-R图。2.E-R模型设计中的几点说明：E-R模型特性：直观、简单、准确，不足：模糊性、静态性、局限性。为了规避上述不足，实体被分为：事实实体、维度实体、引用实体，另外数据仓库也可划分为：高层模型（ERD实体联系层）中层模型（DIS逻辑层）低层模型（物理层）常见的概念模型：星型模型、雪花模型、事实星座模型24.1逻辑模型设计（中间层模型）逻辑模型包括：1.初始数据组、2.二次数据组、3.连接数据组、4.类型数据组维度表的设计：维度表示事实表的进一步细化，它也要基于逻辑模型

28、来设计；维度表就是将这些详细说明的额数据按逻辑关系进行存放工具。一个维度表拥有很多属性，参考事实表的数据。事实表的设计：事实表是星型模型的核心，通常包括：键（主键、外键）和详细指标，事实表需要大量的数据来对其属性和细节加以详细说明物理模型设计：定义数据存储结构，确定索引策略和数据存储策略，存储分配优化，数据加载设计。定义数据存储结构的最常用的技术是并行存储结构RAID技术（磁盘冗余阵列）RAID的容错能力很强，具有以下特征：磁盘镜像、双磁盘、奇偶校验、磁盘分带。索引策略比较常用的两种：B树索引（速度快，易于管理）、位图索引（适用于低选择性的数据）25.元数据（承担对数据仓库的数据和环境进行描述

29、的角色）的类型1、按元数据描述的内容分关于基于基本数据的元数据、关于数据处理的元数据、关于企业组织的元数据2、按用户的角度分：技术元数据、业务元数据3、按元数据在数据仓库中承担的任务分：静态元数据、动态元数据4、按数据仓库的功能区域分类：1.数据获取、2.数据存储、3.信息传递螺旋式开发方式：26.元数据的作用：1、元数据在数据求精、开发、重构中的作用（1）描述业务规则与数据之间的映射（2）数据分割（3）概括与聚集（4）提高系统灵活性（5）定义标准处理规则（6）预算与推导（7）转换与再映射2.元数据在数据抽取与转换中作用（1）确定数据源（2）保证数据仓库内容的质量（3）实现属性间的映射与转换元

30、数据的收集：1.来源于源系统、2.来源于抽取的数据、3.来源于转换与抽取和清洗的数据、4.来源于存储的数据、5.来源于装载的数据、6.来源于信息传递26.粒度的划分：将数据划分为：详细数据、轻度综合数据、高度综合数据或更多级粒度。每个表的存储空间应是其数据存储空间和索引空间之和（1）数据存储空间的估算数据存储空间=表的行数X每行占用的空间（2）索引存储空间估算索引存储空间=表的行数X码占用的客户一年数据5年数据10000000双重粒度，仔细设计20000000双重粒度，仔细设计1000000双重粒度10000000双重粒度100000单粒度，仔细设计1000000单粒度，仔细设计10000不考

31、虑100000不考虑27.数据仓库的投资回报分析与风险分析1.定量分析 ROI（投资回报率）=收益/成本现金所谓投资回报周期是指项目从投入运行直到企业收回投资成本之间的时间。投资回报周期越短，企业的投资风险就相应地降低。2.定性分析3.风险分析27.9数据仓库的开发方式1.瀑布式开发：是指以形同流水线的方式来分析和设计数据仓库，包括：需求分析、系统分析、系统设计、系统实施、单元测试、系统调试、投入运行2.螺旋式开发（适合分析型）是指在一个批次内开发一系列已定义能力的迭代过程，通过持续不断的反馈，可以为用户提供该批次内的最好能力。数据仓库的建立过程各个阶段彼此连贯，前一个阶段的结果会成为后一个阶段的参考点，后一个阶段可以借鉴前一阶段的经验优点：1、能在较短时间内获得所需

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？