数据仓库概念及相关技术.pptx

上传人:b****1 文档编号:1725778 上传时间:2022-10-23 格式:PPTX 页数:38 大小:1.48MB
下载 相关 举报
数据仓库概念及相关技术.pptx_第1页
第1页 / 共38页
数据仓库概念及相关技术.pptx_第2页
第2页 / 共38页
数据仓库概念及相关技术.pptx_第3页
第3页 / 共38页
数据仓库概念及相关技术.pptx_第4页
第4页 / 共38页
数据仓库概念及相关技术.pptx_第5页
第5页 / 共38页
点击查看更多>>
下载资源
资源描述

数据仓库概念及相关技术.pptx

《数据仓库概念及相关技术.pptx》由会员分享,可在线阅读,更多相关《数据仓库概念及相关技术.pptx(38页珍藏版)》请在冰豆网上搜索。

数据仓库概念及相关技术.pptx

数据仓库的概念和相关技术,Arwen.LiuMAR,2010,目录,数据仓库相关概念BI技术工具分析与应用项目实施方法知识索引,知识导引,什么是数据仓库?

什么是DSS?

什么是经营分析?

什么是EIS?

什么是OLTP,OLAP?

什么是BI?

BO、COGNOS、安讯、BRIO、Teradata、SAS、SPSS,数据仓库系统,BI,90年代提出,90年代中形成潮流,BI描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。

GartnerGroup1996商业智能领域:

DSS、OLAP、数据仓库、ETL、数据集市、数据挖掘、商业建模.为提高企业运营性能而采用的一系列方法、技术和软件的总和,70年代,70年代提出,80年代得到发展,三层模式,外部模式,内部模式,二层模式:

不同的数据库类型(层次、关系),不同的数据库产品,导致重复的开发,外部模式,内部模式,概念模式,三层模式:

增加概念模式,作为单一的定义,不偏向于任何数据类型/访问方法,提供一致性访问,具有高可扩展性,概念模式为外部模式和内部模式提供了桥梁作用。

概念模式的定义产生了数据建模技术。

常用的方法包括:

IDEF1x、IE等。

IDEF方法,20实际70年代,为了系统利用计算机技术提高制造效率,美国空军发起集成计算机辅助制造计划ICAM,以便让人们更好的分析和交流技术。

ICAM最终发展成IDEF系列方法。

IDEF0:

用于产生“功能模型”,用结构化的方式来展现一个环境活系统中的活动或者处理;IDEF1x:

用于产生“信息模型”,展现一个环境或者系统中的信息机构;IDEF3:

用于产生“过程模型”,展现一个特定系统如何运作、处理;,IDEF1x,EBD:

描述实体和关系KB:

定义键,包括主键、外键等FA:

描述全部属性TM:

与具体数据库的映射关系DBMS:

特定的数据库模型,逻辑模型,物理模型,KBSI产品,IDEF0功能模型(FunctionModeling)IDEF1X数据模型(DataModelingIDEF2仿真模型设计(SimulationModelDesignIDEF3过程描述获取(ProcessDescriptionCaptureIDEF4面向对象设计(Object-OrientedDesign)IDEF5本体论描述获取(OntologyDescriptionCapture)IDEF6设计原理获取(DesignRationaleCapture)IDEF7信息系统审定(InformationSystemAuditing)IDEF8人与系统接口设计(Human-SystemInterfaceDesign)用户接口建模(UserInterfaceModeling)IDEF9经营约束的发现(BusinessConstraintDiscovery)场景驱动信息系统设计(Scenario-DrivenISDesign)IDEF10信息制品建模(InformationArtifactModeling)实施体系结构建模(ImplementationArchitectureModeling)IDEF11信息工具建模(InformationArtifactModeling)IDEF12组织设计(OrganizationDesign)组织建模(OrganizationModeling)IDEF13三模式影射设计(ThreeSchemaMappingDesign)IDEF14网络设计(NetworkDesign),数据仓库的定义,数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)。

-BillInmon,什么是数据仓库,相关概念,以DataWarehouse技术为基础,以OLAP和DataMining工具为手段实施的一套解决方案。

DSS(DecisionSupportSystem),相关概念,EIS:

主管信息系统(ExecutiveInformationSystem),指为了满足无法专注于计算机技术的领导人员的信息查询需求,而特意制定的以简单的图形界面访问数据仓库的一种应用。

ETL:

数据抽取(Extract)、转换(Transform)、装载(Load)的过程。

它是构建数据仓库的重要环节。

DataMart为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数(subjectarea)。

经营分析系统:

BusinessAnalysisSupportSystem。

元数据:

元数据是描述数据仓库内数据的结构和建立方法的数据。

可将其按用途的不同分为技术元数据、业务元数据和管理元数据。

数据质量:

数据质量管理平台能够使得数据质量管理流程自动化、集中化、智能化ROLAP(关系型在线分析处理)MOLAP(多维在线分析处理)HOLAP(混合型线上分析处理)。

DataWarehouse,ArtificialIntelligence,DataMart,OLAP,DecisionSupportSystem,DataMining,OperationDatabase,BusinessIntelligentSystem,DatabaseSystem,各种概念之间的关系,数据仓库领域的两位大师,RalphKimball数据仓库方面的知名学者理论:

MutildimensionalArchitecture(MD),BillInmon数据仓库之父,数据仓库概念的创始人理论:

CorporateInformationFactory(CIF)主要著作:

数据仓库、企业信息工厂http:

/,VS,主要著作:

数据仓库工具箱维度建模的完全指南、数据仓库生命周期工具箱设计、开发和部署数据仓库的专家方法http:

/,生活中的朋友学术上的对头,双方的观点,围绕主题来组织数据仓库中的数据,每个主题区域仅仅包含该主题相关的信息;数据仓库应该一次增加一个主题,并且当需要容易地访问多个主题时,创建以数据仓库为来源的数据集市,数据仓库是数据集市的联合,通过一系列相同维度定义的数据集市递增地构建数据仓库,而每个数据集市通过联合多个数据源来满足特定的业务需求,自上而下,自下而上和自上而下的结合:

双方的观点,使用数据集市联合的方式,开始会带来极高的用户体验,但随着数据集市的增多,会形成网状结构,建设重复,数据质量变差。

使用数据总线的结构来控制数据集市点建设,所有的数据集市在一套总线环境中,有相同的维度定义,故既可以迅速部署、满足业务需求,也可以规范的形成数据仓库,Inmon,Kimball,双方的数据仓库架构对比,集成转换层(IntegratedandTransformationLayer)、操作数据存储(OperationalDataStore)、数据仓库(EnterpriseDataWarehouse)、数据集市(DataMart)、探索仓库(ExplorationWarehouse),Inmon-CIF(DW2.0),双方的数据仓库架构对比,MD分为后台(BackRoom)和前台(FrontRoom)两部分。

后台主要负责数据准备工作,称为数据准备区(StagingArea),前台主要用于数据展示,称为数据集市(DataMart)。

全部数据集市的集合构成了数据仓库,从这种意义上说,它只是一个虚拟的部件。

Kimball-MD,BackRoom,FrontRoom,事务表、周期快照表、累计快照表非事实型事实表、退化维、缓慢变化维、快变超大维不可加型事实、半加型事实、可加性事实,数据仓库的特点,OLTP与OLAP,针对特定问题的联机数据访问和数据分析技术满足对数据进行多角度、快速、一致、交互、深入观察使用预定义的多维数据视图对数据进行分析处理,支持对数据的切片、切块、钻取。

多维数据库是一种以多维数据存储形式来组织数据的数据管理系统,在使用时需要将数据从关系数据库中转载到多维数据库中方可访问。

On-LineAnalyticalProcessing,On-LineTransactionProcessing,也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。

这样做的最大优点是可以即时地处理输入的数据,及时地回答。

也称为实时系统(RealtimeSystem)。

衡量联机事务处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间(ResponseTime),即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。

OLTP数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。

OLTP与OLAP,ROLAP表示基于关系数据库的OLAP实现(RelationalOLAP)。

MOLAP表示基于多维数据组织的OLAP实现(MultidimensionalOLAP)。

经分系统数据仓库整体架构,数据仓库的主题划分,目录,数据仓库相关概念BI技术工具分析与应用项目实施方法知识索引,工具分类,建模工具:

Powerdesigner、ErwinETL工具:

用于数据的集成和处理Datastage、Infomatic、Automation数据质量工具:

一般集成在ETL工具中分析工具:

报表工具:

BO、COGNOS、安讯、润乾、BRIOOLAP工具:

COGNOS、BOBI分析门户:

一般集成在分析工具中数据挖掘工具:

SAS、SPSS元数据管理工具:

metacenter、石竹、CA、Infomatic,开源BI工具报表工具,EclipseBIRTEclipse下面的一个企业智能和报表工具,能为J2EE的WEB应用程序创建漂亮醒目的PDF或者HTML格式的报表,它提供了核心的报表功能JasperReportsJava报表工具,始于2001,现在JasperSoft公司持续开发和支持该工具。

该工具类似于商业软件CrystalReport,支持PDF、HTML、XLS、CSV和XML文件输出格式,现在是Java开发者最常用的报表工具。

JFreeReport现在是Pentaho的一部分,它是一个优秀的用来生成报表的Java类库。

它为Java应用程序提供一个灵活的打印功能并支持输出到打印机和PDF,Excel,HTML和XHTML,PlainText,XML和CSV文件中。

开源BI工具OLAP工具,Mondrian是Pentaho的一部分,为一个用Java开发的OLAP服务器,实现了MDX语言、XML解析和JOLAP规范,可以不写SQL就能分析存储于SQL数据库的庞大数据集,可以封装JDBC数据源并把数据以多维的方式展现出来JPivot一个JSP自定制的标签库,可以绘制一个OLAP表格和图表。

用户可以执行典型的OLAP导航,如下钻,切片和方块。

它使用Mondrian作为其OLAP服务器。

它使用WCF(WebComponentFramework),基于XML/XSLT来渲染WebUI组件。

开源BI工具ETL工具,KETL由具有IBM和KPMG背景的KineticNetworks公司开发,现在已经有三年多的产品应用历史,成功应用于一些产品中,在点击流(ClickStream)分析应用中表现出色。

KETL采用Plug-in的架构,使用Java开发KETTLE一个元数据驱动的ETL工具。

已经加入Pentaho。

CloverETL一个基于Java的ETLFramework,可以用来开发自己的ETL应用EnhydraOctopus一个基于Java的ETL工具,使用J

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 考试认证 > IT认证

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1