数据仓库实践系列课程1数据仓库基本概念_精品文档.pptx

上传人:b****2 文档编号:2565349 上传时间:2022-11-01 格式:PPTX 页数:82 大小:3.64MB
下载 相关 举报
数据仓库实践系列课程1数据仓库基本概念_精品文档.pptx_第1页
第1页 / 共82页
数据仓库实践系列课程1数据仓库基本概念_精品文档.pptx_第2页
第2页 / 共82页
数据仓库实践系列课程1数据仓库基本概念_精品文档.pptx_第3页
第3页 / 共82页
数据仓库实践系列课程1数据仓库基本概念_精品文档.pptx_第4页
第4页 / 共82页
数据仓库实践系列课程1数据仓库基本概念_精品文档.pptx_第5页
第5页 / 共82页
点击查看更多>>
下载资源
资源描述

数据仓库实践系列课程1数据仓库基本概念_精品文档.pptx

《数据仓库实践系列课程1数据仓库基本概念_精品文档.pptx》由会员分享,可在线阅读,更多相关《数据仓库实践系列课程1数据仓库基本概念_精品文档.pptx(82页珍藏版)》请在冰豆网上搜索。

数据仓库实践系列课程1数据仓库基本概念_精品文档.pptx

数据仓库实践系列课程(数据仓库实践系列课程(11)数据仓库基本概念数据仓库基本概念文思海辉Pactera.Confidential.AllRightsReserved.2数据仓库概念数据模型介绍数据管理介绍数据仓库项目实施数据仓库出现的背景数据仓库出现的背景需求的变化业务系统的建设逐渐完善分析类需求不断增加不断增加的信息孤岛导致数据集成问题不断增加技术发展状况关系数据库技术日趋成熟报表和复杂查询处理起来非常困难各个系统之间数据不一致数据仓库与数据仓库与OLTPOLTPOLTP系统(生产系统)面向应用事务驱动的实时性高数据检索量相对少只存当前数据数据仓库系统(决策系统)面向主题分析和决策实时性要求不是特别高数据检索量大存储大量的历史数据和当前数据分析型系统与操作型系统之间的区别分析型系统与操作型系统之间的区别操作型数据分析型数据细节的细节的,综合的,或提炼的在存取瞬间是准确的代表过去的数据可更新不更新操作需求事先可知道操作需求事先不知道对性能要求高对性能要求相对宽松一个时刻操作一单元一个时刻操作一集合事务驱动分析驱动面向应用面向分析一次操作数据量小一次操作数据量大支持日常操作支持管理需求数据仓库建设的分歧数据仓库建设的分歧数据仓库建设的分歧数据仓库建设的分歧BillInmonKimball1991年,提出了企业级数据仓库企业级数据仓库建设遭受大面积失败Kimball出版了TheDataWarehouseToolkit数据集市建设在初期取得了成功多个数据集市之间的复杂的ETL/数据不一致争论与混乱期(争论与混乱期(1996-1997)EDWODSDataMart走向融合(走向融合(1998-2001)提出了企业信息工厂(CorporateInformationFactory)的架构,融合了EDW/ODS/DataMartKimball也提出了数据仓库的扩展架构,把EDW/ODS/DataMart结合在了一起数据仓库理论的形成数据仓库理论的形成数据仓库的四个特征数据仓库的四个特征数据仓库是面向主题的(Subject-Oriented)集成的(Integrated)随时间不断变化(Time-variant)不可更新的(Nonvolatile)数据仓库之父:

BillInmon数据仓库面向主题与面向应用面向主题与面向应用OLTP应用是面向应用进行数据组织的分析应用面向主题进行组织主题一个抽象的概念在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。

例如:

对于一个保险公司来说OLTP数据库所面向的应用可能是汽车保险、健康保险、人寿保险与意外伤亡保险数据仓库所面向的主题域可能是顾客、保险单、保险费与索赔。

目前主流的数据仓库大都是采用关系数据库技术来实现的数据仓库的数据最终也会用关系模型表现。

因此要把握主题和面向主题的概念,需要将它们提高到一个更高的抽象层次上来理解,也就是要特别强调概念的逻辑意义。

数据集成数据集成数据集成的内务数据清洗-按照数据质量管理的要求进行数据的清洗数据转换-按照源系统与数据仓库中模型之间的差异进行转换数据整合-不同源系统的数据在数据仓库中可能会进入到相同的模型中为什么要进行数据集成?

源系统的多样性数据质量的要求模型的差异不可更新与不断变化不可更新与不断变化不可更新不会修改细节数据(源系统传来的详细数据)-数据转换:

通常需要保留原值不断变化不断增加新的数据删除旧的数据新的汇总周期带来的新的汇总数据数据集市数据集市数据集市(DataMart)是部门级决策支持的数据集合。

数据集市数据仓库数据访问与分析(企业级)(部门级)数据集市数据集市建设的几种体系架构数据集市建设的几种体系架构数据仓库逻辑数据集市物理数据集市依赖数据集市独立数据集市14Pactera.Confidential.AllRightsReserved.数据集市的缺点数据集市的缺点多个数据模型多个传输转换程序数据不一致系统复杂,难于维护生产系统独立数据集市市场部.财务部储蓄系统信用卡系统MedicaidWelfareMentalHealthChildServices分布式分布式(数据集市数据集市)集中式集中式(数据仓库数据仓库)MedicaidWelfareMentalHealthChildServicesEmployeesClientServicesProgramEffectivenessDistrictOfficesCostsEligibility“垂直垂直垂直垂直”“水平水平水平水平”数据仓库与数据集市的业务分析能力数据仓库与数据集市的业务分析能力DW/DMDW/DM的流派之争的流派之争-BillInmon-BillInmon与与RalphKimballRalphKimballADW(ActiveDataWarehouse)ADW(ActiveDataWarehouse)n=1,072BI已经深入到企业的各个部门已经深入到企业的各个部门后台管理人员前台业务人员问:

BI在您的企业中的哪些领域被用来制定关键的决策,请选择所有适用的选项。

Source:

IDCWhitePaper,“TamingInformationChaos”,Nov2007BIBI已经不仅仅是办公室的管理人员的专利已经不仅仅是办公室的管理人员的专利主要发现在美国企业中,监管和审计要求(SarbOx)是驱动BI应用的重要原因这是与其它地区非常大的区别。

IDC观点财务分析通常是BI应用的主要推动力,但这一应用仍然只有不到50%的企业使用。

n=1,072BI在企业内部的用户群在企业内部的用户群Q:

在您的企业中,哪些用户正在通过BI的解决方案在获取信息。

请选择所有适用的答案Source:

IDCWhitePaper,“TamingInformationChaos”,Nov2007BIBI深入企业的各个层面深入企业的各个层面主要发现一线业务人员也急需决策支持。

BI从后端角落里转移到企业的中心。

BI解决方案不仅向内部人员提供访问,而且向外部用户提供访问。

领导企业中,外部用户可以访问BI的比例是平均值的两倍。

IDC观点业务分析解决方案可以帮助企业中的各类用户群。

BI解决方案不仅帮助业务分析人员和高层管理者。

支持外部用户可以加强外部用户对企业的依赖,从而增强用户关系。

内部外部什么是并行处理什么是并行处理并行处理的概念在某一个数据库系统中能同时采用多个硬件设备完成某一任务的方法。

多个硬件设备可同时工作于该任务的不同方面。

并行处理的主要目的是节省大型和复杂问题的解决时间。

并行处理与并发处理并发是指在某一个数据库系统中允许多个任务的同时执行,任务与任务之间没有联系。

并行是指将一个任务划分为多个子任务,这些子任务同时执行。

在所有子任务处理完成后,将它们的结果进行合并,就得到该任务的最终处理结果OLTPOLTP与与OLAPOLAP对系统的不同要求对系统的不同要求OLTP操作使用特点-请求短小而密集技术要求-能够将用户的请求进行均衡分担-并发操作。

OLAP操作使用特点-请求庞大而稀疏-每一个查询和统计都很复杂,但访问的频率并不是很高技术要求-能够将所有的硬件资源调动起来为这一个复杂的查询请求服务-并行处理结论并行处理技术在数据仓库中比OLTP系统更加重要。

并行技术的几种类型并行技术的几种类型SMPSymmetricMulti-Processor对称多处理器NUMANon-UniformMemoryAccess非一致存储访问结构MPPMassiveParallelProcessing海量并行处理结构SMPSMPCPU服务器中多个CPU对称工作,无主次或从属关系。

CPU共享相同的物理内存,每个CPU访问内存中的任何地址所需时间是相同的。

也被称为一致存储器访问结构(UMA:

UniformMemoryAccess)。

特征共享:

系统中所有资源(CPU、内存、I/O等)都是共享的。

冲突:

每个CPU必须通过相同的内存总线访问相同的内存资源,因此随着CPU数量的增加,内存访问冲突将迅速增加。

SMPSMP的性能扩展的性能扩展实验证明,SMP服务器CPU利用率最好的情况是2至4个CPU。

NUMANUMANUMANUMA的特征的特征CPU具有多个CPU模块每个CPU模块由多个CPU(如4个)组成每个CPU模块具有独立的本地内存、I/O槽口每个CPU模块之间可以通过互联模块进行连接和信息交互特征可以较好地解决原来SMP系统的扩展问题,在一个物理服务器内可以支持上百个CPU访问本地内存的速度将远远高于访问远地内存当CPU数量增加时,系统性能无法线性增加MPPMPP系统架构由多个SMP服务器通过一定的节点互联网络进行连接协同工作,完成相同的任务从用户的角度来看是一个服务器系统基本特征由多个SMP服务器(每个SMP服务器称节点)通过节点互联网络连接而成每个节点只访问自己的本地资源(内存、存储等)ShareNothing结构扩展能力最好与NUMA的区别不存在异地内存访问的问题节点之间的信息交互是通过节点互联网络实现的这个过程一般称为数据重分配(DataRedistribution)数据仓库应用的特征数据仓库应用的特征数据仓库大量复杂的数据处理要求很高的I/O处理能力存储系统提供足够的I/O带宽与之匹配OLTP每个交易所涉及的数据不多要求系统具有很高的事务处理能力能够在单位时间里处理尽量多的交易NUMA架构更适用于OLTP事务处理环境大量复杂的数据处理必然导致大量的数据交互,将使CPU的利用率大大降低体系架构决定了可扩展能力体系架构决定了可扩展能力LargeSMP/NUMA设计来做OLAP应用对于小数据量的应用效率很高当CPU数量增加以及数据量增加的时候,由于资源竞争导致效率急剧下降。

MemoryCacheCacheCPU(s)MemoryCacheCPU(s)CPU(s)MemorySPEEDLIMIT55DiskStorageDiskStorageCPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CPU(s)CacheCacheCacheCacheCacheCacheCacheCacheMemoryMemoryMemoryMemoryMemoryMemoryMemoryMemoryDiskStorageDiskStorageDiskStorageDiskStorageDiskStorageDiskStorageDiskStorageDiskStorage交交换换网网络络通过互联网络访问共享内存通过互联网络访问共享内存CPU通过互联网络访问共享通过互联网络访问共享磁盘磁盘Shared-NothingMPP斜率为1的线性扩展被优化用作非常大量的磁盘读写对数据仓库应用来讲,效率非常高线性扩展线性扩展斜率为斜率为1NUMA衰减衰减20%SMP衰减衰减10%CPU个数个数系统性能系统性能111098765432112345678910有时候这个也被称作线性扩展有时候这个也被称作线性扩展共享资源导致共享资源导致CPU效率降低效率降低ScalingResultsofSMP/NUMAandMPPScalingResultsofSMP/NUMAandMPP架构选择示例架构选择示例Pactera.Confidential.AllRightsReserved.32数据仓库概念数据模型介绍数据管理介绍数据仓库项目实施模型和数据模型模型和数据模型模型现实世界特征的模拟和抽象,比如地图、建筑设计沙盘,模型飞机等。

数据模型DataModel是现实世界数据特征的抽象。

数据模型数据模型数据模型从计算机实现的观点来对数据建模是信息世界中的概念和联系在计算机世界中的表示方法一般有严格的形式化定义,以便于在计算机上实现数据模型种类数据模型种类数据模型层次模型网状模型关系模型多维模型层次模型层次模型层次模型用树结构表示实体之间联系的模型叫层次模型树由节点和连线组

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 农林牧渔 > 农学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1