数据仓库中的数据及组织.ppt
《数据仓库中的数据及组织.ppt》由会员分享,可在线阅读,更多相关《数据仓库中的数据及组织.ppt(33页珍藏版)》请在冰豆网上搜索。
五邑大学计算机学院五邑大学计算机学院何国辉何国辉数据数据数据数据仓库与数据挖掘仓库与数据挖掘仓库与数据挖掘仓库与数据挖掘DataDataWarehouseandDataMiningWarehouseandDataMining11/5/20221数据数据仓库与数据挖掘仓库与数据挖掘DataWarehouseandDataMining第第三三章章数据仓库中的数据及组织数据仓库中的数据及组织11/5/20222v数据仓库中存储两类数据:
业务数据和元数据。
数据仓库中存储两类数据:
业务数据和元数据。
v业务数据,分为:
业务数据,分为:
细节数据细节数据综合数据综合数据有关元数据在本章稍后再述有关元数据在本章稍后再述3.1数据仓库中的数据组织数据仓库中的数据组织11/5/20223v数据仓库中存储的数据数据仓库中存储的数据3.1数据仓库中的数据组织(续)数据仓库中的数据组织(续)后备数据后备数据后备数据高度综合级轻度综合级当前细节级早期细节级元元数数据据11/5/20224v源源数数据据经经过过抽抽取取、转转换换后后,首首先先进进入入当当前前细细节节级级,再再根根据据具具体体需需要要进进行行进进一一步步的的综综合合,从从而而进进入入轻轻度度综合级乃至高度综合级。
综合级乃至高度综合级。
v老化的数据进入早期细节级。
老化的数据进入早期细节级。
3.1数据仓库中的数据组织(续)数据仓库中的数据组织(续)11/5/20225v数据组织的实例数据组织的实例3.1数据仓库中的数据组织(续)数据仓库中的数据组织(续)数数据据仓仓库库层层后备数据后备数据后备数据高度综合级轻度综合级当前细节级早期细节级20112013每“月”电话呼叫情况信息20112013每“天”电话呼叫情况信息20112013每个电话呼叫情况信息20002010电话呼叫明细情况信息11/5/202261.数据粒度数据粒度v数据粒度是数据仓库的重要概念。
存在两种形式,数据粒度是数据仓库的重要概念。
存在两种形式,之一:
之一:
粒粒度度是是对对数数据据仓仓库库中中数数据据的的综综合合程程度度高高低低的的一一个个度度量。
量。
粒度越小,细节程度越高,综合程度越低。
粒度越小,细节程度越高,综合程度越低。
在数据仓库中多重粒度是必不可少的。
在数据仓库中多重粒度是必不可少的。
之二:
之二:
样本数据库,其粒度是根据采样率的高低来划分的。
样本数据库,其粒度是根据采样率的高低来划分的。
11/5/20227v不同的情况组织数据的粒度会不同。
不同的情况组织数据的粒度会不同。
如:
如:
v电信通话电信通话细节数据:
细节数据:
记录每一次通话情况。
记录每一次通话情况。
轻度综合数据:
轻度综合数据:
记录顾客每天的通话情况。
记录顾客每天的通话情况。
高度综合数据:
高度综合数据:
记录顾客每月的通话情况。
记录顾客每月的通话情况。
1.数据粒度(续)数据粒度(续)11/5/20228v超市购物超市购物细节数据:
细节数据:
记录顾客每一次购物细节。
记录顾客每一次购物细节。
轻轻度度综综合合数数据据:
记记录录每每个个顾顾客客每每次次的的购购物物金金额额,或或每种商品每一天的销售数据。
每种商品每一天的销售数据。
高高度度综综合合数数据据:
记记录录每每个个顾顾客客每每月月或或每每年年的的购购物物金金额,或每种商品每月或每年的销售数据。
额,或每种商品每月或每年的销售数据。
1.数据粒度(续)数据粒度(续)11/5/20229v数据粒度与数据量的关系数据粒度与数据量的关系v数据粒度与查询种类的关系数据粒度与查询种类的关系1.数据粒度(续)数据粒度(续)11/5/2022102.数据分割数据分割v数据分割是数据仓库中的另一个重要概念。
数据分割是数据仓库中的另一个重要概念。
v它它是是指指将将数数据据分分布布到到各各自自的的物物理理单单元元中中,以以便便能能分分别独立处理,别独立处理,提高数据分析效率提高数据分析效率。
v数据分割后的数据单元称为分片。
数据分割后的数据单元称为分片。
v数数据据分分割割的的标标准准可可以以根根据据实实际际情情况况来来确确定定,通通常常选选择:
按日期、地域、业务领域等来进行。
择:
按日期、地域、业务领域等来进行。
v一一般般而而言言,分分割割标标准准总总应应包包括括日日期期项项,它它十十分分自自然然而且分割均匀。
而且分割均匀。
11/5/2022112.数据分割(续)数据分割(续)v数据分割的方法数据分割的方法垂直分割:
垂直分割:
垂直分割就是把一个表垂直分成两部分。
垂直分割就是把一个表垂直分成两部分。
这种类型的分割有助于把一大堆列分成两个独立的这种类型的分割有助于把一大堆列分成两个独立的表,这两个表之间通过一个关键字段相关联。
表,这两个表之间通过一个关键字段相关联。
水平分割:
水平分割:
水平分割就是把表按行分成两部分。
这水平分割就是把表按行分成两部分。
这种类型的分割被用来存储与用户联系紧密的本地重种类型的分割被用来存储与用户联系紧密的本地重要数据,从而减少网络查询。
要数据,从而减少网络查询。
11/5/2022122.数据分割(续)数据分割(续)v一个简单的分割例子。
一个简单的分割例子。
年份年份健康保险健康保险生命保险生命保险事故保险事故保险2008分片1分片2分片32009分片4分片5分片62010分片7分片8分片911/5/2022133.2数据仓库中数据的追加数据仓库中数据的追加如如何何定定期期向向数数据据仓仓库库中中追追加加数数据据也也是是一一项项十十分分重重要的技术。
要的技术。
当当数数据据仓仓库库的的数数据据初初装装完完成成以以后后,再再向向数数据据仓仓库库输入(导入)数据的过程称为输入(导入)数据的过程称为数据追加数据追加。
如如何何能能够够确确切切地地感感知知究究竟竟哪哪些些数数据据是是在在上上一一次次追追加过程以后新生成的,这项工作称为加过程以后新生成的,这项工作称为变化数据的捕捉变化数据的捕捉。
常用途径:
常用途径:
11/5/202214v如如果果数数据据含含有有时时标标,对对新新插插入入或或更更新新的的数数据据记记录录,在记录中加更新时的时标。
在记录中加更新时的时标。
v如如果果数数据据部部含含有有时时标标,需需要要对对源源数数据据库库的的数数据据模模式式加以修改,加上时标字段。
加以修改,加上时标字段。
1.时标法时标法11/5/202215v由由应应用用生生成成的的文文件件,用用来来记记录录应应用用所所改改变变的的数数据据内内容。
容。
优点:
效率较高,避免了扫描整个数据库。
优点:
效率较高,避免了扫描整个数据库。
缺点:
需要修改程序代码。
缺点:
需要修改程序代码。
2.DELTA文件文件11/5/202216v在在上上次次抽抽取取数数据据库库数数据据到到数数据据仓仓库库之之后后及及本本次次将将抽抽取取数数据据库库数数据据之之前前,对对数数据据库库分分别别做做一一次次快快照照,然然后比较两幅快照的不同。
后比较两幅快照的不同。
缺点:
缺点:
需要占用大量资源,影响系统性能。
需要占用大量资源,影响系统性能。
3.前后快照文件的方法前后快照文件的方法11/5/202217v优优点点:
提提取取的的变变化化数数据据只只局局限限于于日日志志文文件件,不不需需扫扫描整个数据库。
描整个数据库。
4.日志文件日志文件11/5/2022183.3数据仓库中的元数据数据仓库中的元数据v传统传统数据数据库中为了说明数据引入了数据字典的概念。
库中为了说明数据引入了数据字典的概念。
v数据字典是描述数据的数据。
数据字典是描述数据的数据。
什么是元数据?
什么是元数据?
11/5/2022193.3.1元数据的定义元数据的定义v元数据:
元数据:
是用来描述数据的数据。
它描述和定位数是用来描述数据的数据。
它描述和定位数据组件、它们的据组件、它们的来来源及它们在数据仓库进程中的活源及它们在数据仓库进程中的活动;关于数据和操作的相关描述动;关于数据和操作的相关描述(输入、计算和输输入、计算和输出出)。
元数据可用文件存在元数据库中。
元数据可用文件存在元数据库中。
v其主要目标其主要目标是提供数据资源的全面指南,使得数据是提供数据资源的全面指南,使得数据仓库管理员和开发人员可以方便地了解数据仓库中仓库管理员和开发人员可以方便地了解数据仓库中有什么数据?
数据在什么地方?
它们来源于哪里,有什么数据?
数据在什么地方?
它们来源于哪里,以及数据仓库系统中是如何利用这些数据?
如何管以及数据仓库系统中是如何利用这些数据?
如何管理这些数据?
理这些数据?
11/5/2022203.3.1元数据的定义(续)元数据的定义(续)v要有效的管理数据仓库,必须设计一个描述能力强、要有效的管理数据仓库,必须设计一个描述能力强、内容完善的元数据。
内容完善的元数据。
11/5/2022213.3.1元数据的定义(续)元数据的定义(续)v与与元数据元数据产生、存储有关的工具:
产生、存储有关的工具:
数据抽取工具:
数据抽取工具:
完成完成ETL操作。
操作。
前端展现工具:
前端展现工具:
实现把关系表映射成与业务相关的实现把关系表映射成与业务相关的事实表和维表来支持多维业务视图,进行多维分析。
事实表和维表来支持多维业务视图,进行多维分析。
建模工具:
建模工具:
提供更高层次的、与特定业务相关的语提供更高层次的、与特定业务相关的语义。
义。
元数据存储工具:
元数据存储工具:
用于将元数据存储在专门的数据用于将元数据存储在专门的数据库中。
库中。
11/5/2022223.3.2元数据的分类元数据的分类v元数据可以按多种方式分类:
元数据可以按多种方式分类:
按用户分类按用户分类按来源的正式程度分类按来源的正式程度分类按功能分类按功能分类11/5/2022231.按使用按使用元数据的用户分类元数据的用户分类v按使用元数据的用户分类:
按使用元数据的用户分类:
技术元数据:
技术元数据:
是关于数据仓库系统技术细节的描述是关于数据仓库系统技术细节的描述数据,是数据仓库开发人员和管理人员需要使用的数据,是数据仓库开发人员和管理人员需要使用的重要信息。
主要包括数据仓库结构的描述等,主要重要信息。
主要包括数据仓库结构的描述等,主要用户是技术人员。
用户是技术人员。
业务元数据:
业务元数据:
从业务角度描述数据仓库中的数据,从业务角度描述数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层定义,它提供了介于使用者和实际系统之间的语义层定义,使得不懂计算机技术的业务人员也能够理解数据仓使得不懂计算机技术的业务人员也能够理解数据仓库中的数据。
主要用户是商务人员。
库中的数据。
主要用户是商务人员。
11/5/2022242.按来源的正式程度分类按来源的正式程度分类v按来源的正式程度分类:
按来源的正式程度分类:
正式元数据:
正式元数据:
是指经过认真讨论并由企业决策者同是指经过认真讨论并由企业决策者同意了的元数据。
意了的元数据。
非正式元数据:
非正式元数据:
通常是指由公司的政策、指导方针通常是指由公司的政策、指导方针和常识组成的,人所皆知的信息。
和常识组成的,人所皆知的信息。
11/5/2022253.按功能分按功能分类类v按功能分类:
按功能分类:
数据源元数据数据源元数据ETL规则元数据规则元数据ODS元数据和元数据和DW元数据元数据报表元数据报表元数据接口数据文件格式元数据接口数据文件格式元数据商业元数据商业元数据11/5/2022263.3.3元数据管理的标准化元数据管理的标准化v元数据在数据仓库系统中占有十分重要的地位,但元数据在数据仓库系统中占有十分重要的地位,但是目前工业界的各种数据仓库管理和分析工具却常是目前工业界的各种数据仓库管理和分析工具却常常使用不同的元数据标准,使得元数据管理、不同常使用不同的元数据标准,使得元数据管理、不同系统之间的迁移、数据交换变得困难。
系统之间的迁移、数据交换变得困难。
v迫切需要建立一种统一的标准,使得不同数据仓库迫切需要建立一种统一的标准,使得不同数据仓库和商务智能系统之间可以相互交换元数据。
和商务智能系统之间可以相互交换元数据。
v从而产生了基于元数据联盟(从而产生了基于元数据联盟(MetaDataCo