1、Data Warehousing and OLAP TechnologyWhat is a data warehouse?A multi-dimensional data model(多维数据模型多维数据模型)Data warehouse architecture(数据仓库的系统结构)数据仓库的系统结构)Data warehouse implementation(数据仓库的实现)数据仓库的实现)From data warehousing to data miningWhat is Data Warehouse?“A data warehouse is a subject-oriented(面向
2、主题)面向主题),integrated(集成)集成),time-variant(时变的)时变的),and nonvolatile(非易失的)非易失的)collection of data in support of managements decision-making process(支持管理部门支持管理部门的决策过程)的决策过程).”W.H.Inmon(数据仓库方面的构造设计师)数据仓库方面的构造设计师)subject-oriented(面向主题):面向主题):数据仓库总是围绕一些主题,如:顾客,供应商,产品和销售组织。数据仓库总是围绕一些主题,如:顾客,供应商,产品和销售组织。数据仓库关
3、注决策者的数据建模与分析,而不是集中于组织机构的数据仓库关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。数据仓库排除对于决策无用的数据,提供特日常操作和事务处理。数据仓库排除对于决策无用的数据,提供特定主题的简明视图。定主题的简明视图。integrated(集成)集成)数据仓库一般是将多个异种数据源,如关系数据库、一般文件和联数据仓库一般是将多个异种数据源,如关系数据库、一般文件和联机事务处理纪录,集成在一起。使用数据清理和数据集成技术,确机事务处理纪录,集成在一起。使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。保命名约定、编码结构、属性度量等的
4、一致性。time-variant(时变的)时变的)数据存储从历史的角度(例如过去数据存储从历史的角度(例如过去5-105-10年)提供信息,其中的关键年)提供信息,其中的关键结构,隐式或显式地包含时间元素。结构,隐式或显式地包含时间元素。nonvolatile(非易失的)非易失的)数据仓库总是物理地分离存放的数据;这些数据源于操作环境下的数据仓库总是物理地分离存放的数据;这些数据源于操作环境下的应用数据。由于这种分离,数据仓库通常只需两种数据访问:数据应用数据。由于这种分离,数据仓库通常只需两种数据访问:数据的初始化装入和数据访问。的初始化装入和数据访问。Data Warehouse vs.O
5、perational DBMSOLTP(on-line transaction processing)Major task of traditional relational DBMSDay-to-day operations:purchasing,inventory,banking,manufacturing,payroll,registration,accounting,etc.OLAP(on-line analytical processing)Major task of data warehouse systemData analysis and decision makingDist
6、inct features(OLTP vs.OLAP):User and system orientation:customer vs.marketData contents:current,detailed vs.historical,consolidated(统一)统一)Database design:ER+application vs.star+subjectView:current,local vs.evolutionary,integratedAccess patterns:update vs.read-only but complex queriesOLTP vs.OLAP多维数据
7、模型From Tables and Spreadsheets to Data CubesA data warehouse is based on a multidimensional data model which views data in the form of a data cube(由维和事实定义由维和事实定义)A data cube,such as sales,allows data to be modeled and viewed in multiple dimensionsDimensions:time,item,branch,locationDimension tables,
8、such as item(item_name,brand,type),or time(day,week,month,quarter,year)Fact table(事实表事实表)contains measures(such as dollars_sold销售销售款项款项)and keys to each of the related dimension tables(事实是数事实是数值度量的值度量的,根据他们可以分析维之间的关系根据他们可以分析维之间的关系)In data warehousing literature,an n-D base cube is called a base cubo
9、id(基本方体基本方体).The top most 0-D cuboid,which holds the highest-level of summarization,is called the apex cuboid(顶点方体顶点方体).The lattice of cuboids forms a data cube(数据立方体数据立方体).2-D数据立方体示例Vancouver每季度销售的商品维维time(按季度组织按季度组织)维维Item(按照所售商品的类型组织按照所售商品的类型组织)所显示的事实或者度量所显示的事实或者度量是是dollars_sold(单单位位:$1000).Locat
10、ion=“Vancouver”Item(类型)家庭娱乐 计算机 电话 安全Time(季度)Q1 Q2Q3Q4 605 680812927 825 95210231038 14 313038 400 512501580销售数据按照维销售数据按照维Time,item 的的2-D视图视图3-D数据立方体示例Vancouver每季度销售的商品维维time(按季度组织按季度组织)维维Item(按照所售商品的类型组织按照所售商品的类型组织)维维Location(城市城市Chicago,Newyork,Toronto,Vancouver)所显示的事实或者度量是所显示的事实或者度量是dollars_sold(
11、单单位位:$1000).Time(季度)Q1 Q2Q3Q4Location=“Vancouver”item家庭 计算娱乐 机 电话 安全 605 680812927 825 95210231038 14 313038 400 512501580销售数据按照维销售数据按照维Time,item,location 的的3-D视图视图Location=“New York”item家庭 计算娱乐 机 电话 安全 1087 113010341142 968 102410481091 38 414554 872 9251002984销售数据按销售数据按维维Time,item,location 的的3-D立方
12、立方体表示体表示 Item(类型类型)LocationVancouverChicagoTorontoNewyork家庭娱乐计算机电话安全Time(季季度度)Q1 Q2 Q3 Q4 6056808128259521023103892731143038580818 1087 854 591872 623 销售数据按照维销售数据按照维Time,item,location,supplier 的的4-D数据立方体表示数据立方体表示Item(类型类型)LocationVancouverChicagoTorontoNewyork家庭娱乐计算机电话安全Time(季季度度)Q1 Q2 Q3 Q4 6056808
13、128259521023103892731143038580818 1087 854 591872 623 Item(类型类型)家庭娱乐 计算机电话安全 Supplier=“sup1”Supplier=“sup2”方体格研究文献中研究文献中,上面的所示的每个数据立方上面的所示的每个数据立方体称为一个体称为一个“方体方体(cuboid)”给定一个维的集合给定一个维的集合,可以构造方体的可以构造方体的格格(lattice),每个方体在不同的汇总级显每个方体在不同的汇总级显示数据示数据方体的格称为方体的格称为“数据立方体数据立方体”Cube:A Lattice of Cuboids(方体格)time
14、,item,location,supplieralltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,suppliertime,location,supplieritem,location,supplier0-D(apex)cuboid1-D cuboids2-D cuboids3-D cuboids4-D(base)cuboidConceptual Modeling of Data W
15、arehouses(多维数据库模式)Modeling data warehouses:dimensions&measuresStar schema:A fact table in the middle connected to a set of dimension tables Snowflake schema:A refinement of star schema where some dimensional hierarchy is normalized into a set of smaller dimension tables,forming a shape similar to sn
16、owflakeFact constellations:Multiple fact tables share dimension tables,viewed as a collection of stars,therefore called galaxy schema(星系模式星系模式)or fact constellation(事实星座事实星座)Example of Star Schema location_keystreetcityprovince_or_streetcountrylocationitem_keyitem_namebrandtypesupplier_typeitemtime_keydayday_of_the_weekmonthquarteryeartimeSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresbranch_keybranch_namebranch_typebranchExample of Snowflake
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1