数据仓库技术白皮书之三.docx

上传人:b****2 文档编号:2459292 上传时间:2022-10-29 格式:DOCX 页数:21 大小:187.96KB
下载 相关 举报
数据仓库技术白皮书之三.docx_第1页
第1页 / 共21页
数据仓库技术白皮书之三.docx_第2页
第2页 / 共21页
数据仓库技术白皮书之三.docx_第3页
第3页 / 共21页
数据仓库技术白皮书之三.docx_第4页
第4页 / 共21页
数据仓库技术白皮书之三.docx_第5页
第5页 / 共21页
点击查看更多>>
下载资源
资源描述

数据仓库技术白皮书之三.docx

《数据仓库技术白皮书之三.docx》由会员分享,可在线阅读,更多相关《数据仓库技术白皮书之三.docx(21页珍藏版)》请在冰豆网上搜索。

数据仓库技术白皮书之三.docx

数据仓库技术白皮书之三

目录

1前言2

2需求分析3

3对数据仓库的理解3

3.1什么是数据仓库4

3.1.1数据仓库架构4

3.1.2数据仓库的产品构成5

3.2实现数据仓库的关键技术:

5

3.3数据仓库的特点5

3.4数据仓库的用途6

3.5数据仓库结构6

3.6元数据的定义7

3.7元数据的作用7

3.8数据源分类7

3.9数据仓库的重构过程7

3.10数据管理8

3.11多维星型模型(StarSchema)8

4多维分析技术(OLAP)9

4.1多维分析的数据存储9

4.2OLAP服务器和工具的功能9

5数据发掘技术10

5.1统计分析11

5.2知识发现11

5.3知识发现的应用11

5.3.1分组使用(Clustering)11

5.3.2分类使用(Classification)13

5.3.3数值预测(ValuePridiction)13

5.3.4关联的使用13

5.3.5顺序模式和顺序序列的使用14

6怎样实现数据仓库15

6.1系统的体系结构15

6.1.1两层体系结构15

6.1.2三层体系结构15

6.2系统性能16

6.3系统的环境16

6.4安全性和访问控制16

6.5报表和图表的传输16

6.6支持代理技术16

6.7选择数据仓库产品17

6.7.1IBM数据仓库方案17

6.7.2Oracle数据仓库方案17

6.7.3Informix数据仓库方案18

6.7.4SAS数据仓库方案19

1前言

数据仓库(DataWareHouse)是目前国内外IT行业和计算机行业中经常出现的“新名词”,它是计算机科学高度发展而产生的一门技术,它为现代化企业管理提供了一套建立科学决策支持系统的解决方案,代表了未来信息处理技术发展的主流。

在数据仓库(DataWareHouse)中溶入了大量的当今先进尖端的计算机技术,例如先进的数据库技术、数据存储技术、并行处理技术、数据发掘技术、知识发现技术等技术。

随着信息时代的到来,当今许多企业认识到只有靠充分利用、发掘其现有数据才能实现更大的商业效益。

对电信行业,企业的决策者面对复杂和不断变化的业务、市场和客户需求,需要多角度,多层次、多区域观察问题,需要及时、准确的数据,要求对企业的历史数据进行分析和发掘,以达到科学决策的目标,以解决困扰电信企业的诸多难题——如何对它们进行科学地计费和帐务管理?

怎样实现大量数据的动态多维分析?

怎样防止客户欺诈消费?

怎样制定科学的市场策略和市场促销计划?

怎样科学地制定电信各种资费政策?

怎样科学分配企业有限的资源并使资源利用率最优?

怎样科学地建立企业的全面质量管理体系?

根据国内外的成功经验来看,利用先进的计算机技术和工具,先建立计算机计费帐务决策支持系统(DSS),然后逐步建立全局的决策支持系统(DSS)——被公认为是最好的解决办法。

而建立决策支持系统(DSS)的最好办法是采用数据仓库解决方案(DataWarehouseSolution)。

在电信企业的计费帐务中心往往存有多年和大量的客户原始数据和记录,在建立计费帐务决策支持系统之前,无法被转换成可靠的、商用的信息,这些数据价值被忽略了。

如果建立计费帐务决策支持系统,从这些数据中可以找出有价值的信息,如效益增长分析,客户消费模式、市场潜力等等,再加上市场分析报告、独立的市场调查、质量评测结果和顾问评估等外来数据时,辅助决策者制定科学的市场策略和市场促销计划,必然产生战略性的价值,然后在此基础上建立全局的决策支持系统,扩大到全面的策略管理、质量管理、企业财产管理和企业全面的效益管理等,从而全面地实现信息管理的科学决策。

建立局部或者全局的决策支持系统有别有普通的生产处理系统(EDP)或信息管理系统(MIS),是一个复杂的动态的过程,成功的关键在于对决策支持的理解和所采用的技术和工具。

决策支持处理的对象是数据模型,而不是普通的生产信息管理系统(MIS)所处理的普通数据和对数据的控制。

2需求分析

北京长途电话局帐务中心不仅承担着北京地区长途电话业务计费及各项有关的服务工作,承担全国长途通信计费结算的多项工作,代行电信总局帐务中心的职能,同时还担负着需要向信息产业部,中国电信,北京电信管理局等不同需求的决策者提供不同层次、不同主题的决策信息(如可能是当年或去年甚至多年来历史的、某一时期的、某一项的或多项的长途电话指标的分析)的重任,以辅助他们根据不断变化的各种情况(如市场情况、经济情况等)做出科学的决策。

目前,北京长途电话局帐务中心拥有大量的历史数据,并且业务和数据都在不断的快速增加,希望以这些数据为基础,再加上市场分析报告、独立的市场调查、质量评测结果和顾问评估等外来数据构成北京长途电话局数据信息中心,一方面能够实现实时多维数据分析,一方面能够及时发掘出一些潜在的规律和信息来,为企业的科学决策提供辅助和支持,从而建立企业的智能化的管理模式。

根据以上分析,我们发现目前北京长话局的迫切需要解决的问题:

需要一个整体的数据仓库解决方案,使北京长话局能够快速建立一个开放式的具有可动态伸缩结构的决策支持系统,在解决方案中应该包括先进的信息分析和发掘技术,如:

联机事物分析(OLAP)、数据发掘技术(DataMining)等,能够使企业决策者和IT管理人员快捷方便地访问企业的所有资源和信息。

3对数据仓库的理解

我们的目标是建立企业决策支持系统,数据仓库是我们建立企业决策支持系统的解决方案,数据仓库是科学决策的基础。

数据仓库从应用来看,它属于数据库管理系统的应用。

经过90年代早期数据仓库的发展,到了目前,数据仓库的发展主流是可视化的分布式的客户/服务器体系结构的数据仓库,建立数据仓库是一项复杂的工程,建立数据仓库必须考虑:

●选用什么样的结构

●开放的系统环境

●元数据的存储

●数据仓库的规模扩展

●数据装入的效率

●处理多维分析

●数据发掘技术

●高端可升级性

●商业视图建模效率

3.1什么是数据仓库

数据仓库其目的是建立一个企业的智能信息系统,而使企业的决策达到科学决策的目标,保证企业的战略决策的有效性,是企业必须拥有的市场武器,是当今信息管理系统的主流趋势,是一个企业决策支持解决系统的必不可少的部分。

它不同于通常的关系数据库,也不同于通常的MIS系统,它把一个单位的历史数据收集到一个中央仓库中以便于处理,是支持决策支持过程的、面向主题的、集成的、随时间变化的、持久的数据集合。

对于一个较完整的数据仓库方案,它应有较合理的结构和较完善的产品线。

3.1.1数据仓库架构

作为一个开放式结构,它方便了用户的产品选择、实施和今后的扩展。

图中,数据抽取阶段完成对各种数据源的访问,数据转换阶段完成对数据的清洗、汇总和整合等,数据分布阶段完成对结果数据存储的分配。

这三个阶段通常紧密结合在一起,集成在一个产品中实现。

3.1.2数据仓库的产品构成

数据仓库可以进行数据映射的定义,以定期地抽取、转换和分布数据,用于数据复制,采用数据复制的方式可避免对日常业务系统事物处理性能的影响。

当用户有特殊需求时,可以通过编程接口编程实现或选择第三方厂商的产品

3.2实现数据仓库的关键技术:

●从不同的数据源的中集成数据和元数据

●数据的清除和提炼

●数据的概括和聚集

●数据源的更新与保持数据仓库的同步

●数据仓库与生产系统如何分配资源

●元数据的管理

3.3数据仓库的特点

●可以根据用户的观点组织和提供数据,

●它存储当前数据和历史数据,存储容量远远大于普通的生产数据库,

●由概括和聚集机制来对大数据进行分类,在不同粒度、不同层次上管理数据,

●数据的存储介质多样化,包容各种各样的数据,如:

关系数据库,电子表格,Xbase数据库,甚至是平板文件,

●数据仓库中的历史数据信息采用时间戳印记的办法,保持信息的不同的版本,

●对信息进行概括和聚集,

●在数据仓库管理中管理信息时,将涉及到多个应用程序和多个数据库、多个系统平台

●数据仓库是存储技术、数据库技术和数据语义技术的集成,

●数据仓库是一个动态的的过程,没有现成可用的数据仓库。

3.4数据仓库的用途

数据仓库的目的为了管理一个企业所有数据,通过管理数据来帮助一个企业制订发展战略和发展计划,达到稳定增加企业收益的目的,通过它可以构建企业的决策支持系统以实现企业的科学决策的目的,从而使得企业处于良好的运转状态,通过它可以了解市场需求、顾客的需求以及潜在的问题,体现在:

●效益增长分析

●策略管理

●顾客关系管理

●公司财产管理

●全面效益管理

●全面质量管理

3.5数据仓库结构

数据仓库通过高层抽象和简化,可以描述为:

数据管理、元数据管理、传输和基础结构,仓库数据由数据源、数据仓库、数据站场、存取和使用,如图所示

3.6元数据的定义

通常元数据定义为关于数据的数据,数据库中,是对数据库中各个对象的描述,在关系数据库中,就是对表、列、数据库和其他对象的定义,在数据仓库中,是指数据仓库中所有有意义的对象的,包括表、列、视图,查询、规则、数据转移,数据转换、过滤、求精,业务模型建立及重构等等,是数据仓库的数据索引图。

3.7元数据的作用

●了解数据仓库或数据站场的名称、描述、正文、价值、版本和来源

●了解数据的内容以及从数据抽取直到放入数据仓库中的过程

●确定数据的位置

●验证数据的可靠性

●数据存取和使用

3.8数据源分类

●生产数据:

存在于各种生产应用系统数据库中的在线数据,可能是关系型的,非关系型的,或数据文件型的

●遗留数据:

脱机或归档的数据,对趋势分析和数据发掘具有极大的历史价值,须由适当的工具放入数据仓库中

●内部办公数据:

是数据的重要来源之一,它可能是非电子数据或是电子数据,如电子表格,图表,报表,文字文档,年度报表。

●外部数据:

企业以外的数据,如行业数据,国家经济指标:

物价指标,财经数据等等

●数据源元数据:

描述数据源的数据

3.9数据仓库的重构过程

检验数据是否满足业务分析和数据发觉的需要,然后根据结果进行必要的调整:

●对多个系统中不同类型的数据进行集成

●按时间顺序分割数据

●对所需数据的推测

●对不同来源数据的转化和标准化

●数据转换的刷新

●重够工程中元数据的范围:

●集成的数据、概括数据、预测的和衍生的数据

●数据的粒度和分割

●数据的转换和规则

●数据源与数据仓库间的映射

3.10数据管理

●数据的抽取、过滤、求精、重构和存储

●数据的复制、更新和同步

●数据的安全性管理

●数据存取权限

●数据归档与恢复

●数据和索引的物理存放

3.11多维星型模型(StarSchema)

多维星型模型(StartSchema)是目前数据仓库建模技术中最流行的一种技术,与之相对应的有:

多维雪花模型(SnowSchema)、混合型模型。

多维星型模型的特点是:

事实表与维表之间的关系是星型结构。

4多维分析技术(OLAP)

在数据仓库中,存储数据的目的是为了查询、分析和传送,而OLTP在线事物处理中,数据存储的目的是为了修改和控制。

在线多维分析(OLAP)是一种分析处理技术,它从现有的数据中生成新的商业信息,由大量的商业转换和数据计算来实现的,它具有的功能:

●数据的多维逻辑视图

●交互式查询和分析

●提供分析的建模功能

●生成概括数据和聚集、层次,

●支持功能模型,用于预测、趋势分析和统计分析

●多维表格、图

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1