构建新一代数据中心.docx

资源描述

构建新一代数据中心.docx

《构建新一代数据中心.docx》由会员分享，可在线阅读，更多相关《构建新一代数据中心.docx（26页珍藏版）》请在冰豆网上搜索。

构建新一代数据中心.docx

构建新一代数据中心

概述

经过多年IT的建设，信息对于企业的日常运营已经日益重要，并逐渐成为企业内重要的资产，信息资产的管理已经成为企业日常管理中一个非常重要的环节。

如何管理和利用好企业内部纷繁的数据资产也越来越成为企业管理的一项重要工作。

最近几年企业更加专注于优化自己的业务以便在市场竞争中获得更大更持久的优势，比如银行希望能够通过对客户的分析，找出哪些人的风险更高，从而为信贷的风险管理提供帮助，保险公司同样期望加强其风险管理能力，比如通过分析历史数据，找出哪些理赔客户骗保的可能性更高等等。

这些都离不开企业对现有数据的分析和利用，从而为企业创造更多的价值或规避更多的风险。

在应用议程（“ApplicationAgenda”）时代，由于应用的构建多是自下而上构建，主要以满足某个领域或某个部门的业务功能为主，从而造成了一个个分立的应用，分立的应用导致了一个个的静态竖井（StaticSilos）。

由于数据从属于应用，缺乏企业全局的单一视图，形成了一个个信息孤岛，分立的系统之间缺乏沟通，同样数据的孤岛导致只能获得片面的信息，而不是全局的单一视图。

存储这些信息的载体可能是各种异构的关系型数据库，比如DB2、ORACLE、MSSQLSERVER或SYBASE，也有可能是XML、EXCEL等文件。

因此，很多企业将构建新一代的数据中心提上了日程，目的是覆盖生产、经营各个环节的关键业务数据，完善元数据管理，形成全局的数据字典、业务数据规范和统一的业务指标含义，能够灵活的获取企业业务数据的单一视图（为保证数据的一致性、完整性、准确性和及时性，需要实现数据的联邦、多个数据源的抽取、转换、装载、汇总等）。

数据的数据交换和共享主要发生在上下级组织机构之间或同级的不同部门（或分公司，比如不同省或地市公司之间）之间。

最终，这些数据可以为生产分析、决策支持（多维分析、即席查询、数据挖掘）等应用提供更及时、准确、有效的支持。

数据中心的目标是实现跨系统数据共享，解决信息孤岛，提升数据质量，辅助决策分析，提供统一的数据服务。

同时，数据中心的构建也面临着各种挑战，比如信息整合在技术上的复杂度、信息整合的管理成本、数据资源的获取、信息整合的实施周期以及整合项目的风险等。

数据中心的整体架构如图1所示，比如一个企业上下级之间存在三层结构，分别为总部、省级系统和下属企业，计划在省级和总部分别构建数据中心。

来自下属企业的ERP、MIS或其他业务系统的数据可以通过联邦（Federation）、复制（Replication）、抽取（ETL）或WebService的方式集成到省级数据中心，同样，下属企业的ERP、MIS或其他业务系统也可以通过联邦（Federation）、复制（Replication）、抽取（ETL）或WebService的方式访问省级数据中心的数据。

省级的商业系统和数据仓库都可以将数据中心的ODS数据当成数据源，直接获取整个企业数据的单一视图。

总部机构的财务系统、电子商务或其他系统也可以通过信息交换平台采集各个省级数据中心的数据，下发总部的业务数据等。

数据中心的构建主要有三种方式，分别是信息整合技术、数据仓库技术和主数据管理技术，并且在这三种方式中，都可能部分使用WebServices（基于企业服务总线和应用服务器）方式实现数据的访问和更新等，所以不再单独介绍WebServices相关的内容。

数据中心构建方式一：

信息整合技术

在以往，我们经常在集成应用中使用数据接口的方式实现文件或信息的交换，该方式优点是有利于复杂消息转发，缺点是接口多难以管理，特别是随着时间的推移业务发生变更，接口的维护成本会越来越高，管理越来越复杂。

信息整合解决方案，通过信息整合平台，屏蔽数据复杂性，提供准确，一致，及时，及有条理的业务数据。

该解决方案的技术基础是其联邦（Federation）能力，这种能力可以将异构数据集中一起。

在如今的电子商务随需应变环境中，激烈的竞争要求必须将企业内外的信息加以集成。

客户关系管理、供应链管理和业务智能等方案之所以能够顺利实现，离不开对来自多数据源（包括结构化和非结构化数据源）信息的成功集成。

由于组织结构或运营方面的限制，这些数据源通常不适合进行全盘复制或在一个数据库中进行合并。

因此，对分散的数据源实施联邦式访问的需求增加。

通过联邦功能我们可以把关系数据、半结构化数据（如Excel文件、XML文件、Web搜索引擎、IBMWebSphereMQ查询和内容源）组成一个逻辑数据库，对这些数据源中的表我们可以像操作本地数据库表一样进行操作，而不必关心我们操作的这些昵称底层是什么数据源，物理在什么位置，同样的，还可以通过联合存储过程调用远程的存储过程，具体如图01-02所示：

图2.信息整合--联邦的特点

联邦机制很容易理解，具体如图3所示，下层是各种数据源，有关系型的也有非关系型的，通过InfoSphereFederationServer，屏蔽了下层数据间的差异，从逻辑上看，就如同一个数据库一样，可以灵活的访问。

在实现的时候，通过在InfoSphereFederationServer中为外部数据源创建昵称（Nicknames），使得这些外部数据看起来就像是一个本地表。

你可以访问这些外部表就像访问本地表一样。

你还可以对本地表和昵称（nickname）执行SQLJOINS和UNIONS等命令。

图3.IBM信息整合体系架构

信息整合解决方案的另一个重要支柱就是对异构数据的准实时增量复制（刷新周期最低可以到秒级）。

复制的实现是基于对源数据库的日志进行捕获，获取增量数据，并基于消息的机制将其复制到目的数据库，复制的过程中可以实现数据的合并、拆分、转换等操作。

目前IBM针对复制主要有两个产品：

InfoSphereReplicationServer和InfoSpherechangedatacapture（CDC）。

比如，Q复制（InfoSphereReplicationServer）就是在复制的过程中，QCapture程序通过直接读取DB2或ORACLE数据源的日志，获得要捕获数据内容的增量变化信息，然后，QCapture程序将这些增量信息通过MQ消息队列发送，QApply程序从队列中读取这些消息，并将这些增量变化内容应用到目标数据源中的相应表中。

InfoSphereChangeDataCapture是IBM信息集成产品家族中的重要产品，它广泛应用在信息集成的多个领域中：

比如跨地域数据采集和交换，企业内部数据交换平台，统一客户信息等业务视图，实现查询系统与业务系统分离，业务系统高效镜象备份，扩展商业智能应用，以及主机/AS400的与开放平台数据交换等。

IBMInfoSphereChangeDataCapture提供的复制能力，使我们可以在不同的数据库之间复制数据。

复制的方式可以是一个源对多个目标，也可以是多个源对一个目标，从而实现数据整合、业务分离、热备灾备的功能要求。

产品架构如图4所示：

图04.CDC产品架构

基于InfoSphereChangeDataCapture的技术方案存在很多技术上的优势：

1.对源系统的影响小。

InfoSphereChangeDataCapture通过监控源数据库的日志文件来获取数据变化，对源数据库的影响很小。

2.实现准实时的数据复制，支持快速响应业务的变化。

3.复制技术提高性能，确保传输质量，简化管理。

4.支持众多数据库系统，包括DB2，Informix，Oracle，SQLServer等。

5.支持多种操作系统，包括AIX，Linux，SUNUnix，Windows等。

6.高可扩展能力，并且可以通过和WebSphereFederationServer的集成，提供对ODBC等多种不同数据源的支持。

7.支持各种异构数据源，具体如图5所示：

图05.CDC支持的各种异构数据源

回页首

数据中心构建方式二：

数据仓库技术

数据仓库技术，又分为两种方式，一种是传统数据仓库技术，另一种是动态数据仓库技术。

相比传统数据仓库技术，动态数据仓库首要特点是一线用户可以动态（或者说实时地）地访问数据仓库以便获取其所需的信息。

传统数据仓库用户通常只针对高端管理层或少数管理人员，通常只有几十个或几百个用户。

一线用户，比如银行，成千上万的客户经理和客户代表无法访问数据仓库，而动态数据仓库中，一线用户可以动态的访问数据仓库。

动态数据仓库的第二个特点是动态数据加载，相比传统数据仓库以批量形式加载数据，动态数据仓库通常以准实时的方式连续加载数据（以增量数据加载为主），最低可以到秒级的时间间隔，从而在根本上保证数据仓库数据的实时性。

动态数据仓库的第三个特点是事件驱动，主动推送，比如银行的信贷风险管理员，当审批某人的贷款请求时，关于该申请人的相关风险评级等信息就会主动提示给信贷风险管理员。

首先我们来看如何以传统数据仓库技术构建数据中心，如图01-06所示，ETL层负责完成将分布的异构的数据源中的数据抽取到临时中间层后进行清洗、转换、集成，加载到ODS中，然后再通过ETL或ELT（转换在数据仓库内部完成，而不是在临时中间层完成）的方式最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。

ODS（OperationalDataStore）通常是一个可选项，用来在业务系统和数据仓库之间形成一个隔离层，提供一部分业务系统细节查询的功能（转移业务系统压力），并转接一些数据仓库中不能完成的一些功能（比如对细节数据的访问需求，DW层通常都是存储汇总过的数据，偶尔对细节数据的查询可以转移到ODS来完成）。

如图6中间部分所示，数据仓库用来存储面向主题的、集成的、相对稳定的、反映历史变化的数据，用于支持管理决策；而数据集市（DataMarts）是为了特定的应用目的或应用范围，而从数据仓库中独立出来的一部分数据，也可称为部门数据或主题数据（subjectarea）。

在对ODS中的操作型数据进行加工和集成，统一和综合后加载到数据仓库或数据集市中。

OLAP（联机分析处理）服务器对分析需要的数据进行有效集成，按多维模型予以组织，以便进行多角度、多层次的分析，并发现趋势。

我们可以根据需要选择使用ROLAP（关系型在线分析处理）或MOLAP（多维在线分析处理）。

报表统计、即席查询、多维分析等我们可以使用COGNOS来完成，数据挖掘可以使用SPSS来完成。

而元数据（metadata）的管理可以InfoSphereBusinessGlossary来完成。

图6.数据仓库的思路

IBM信息服务器（IBMInfoSphereInformationServer）

如果不能有效地集成信息，现在的大多数关键业务计划都将以失败告终。

提供单一客户视图、商务智能、供应链管理以及遵守BaselII和Sarbanes-Oxley法案等计划，都需要一致的、完整的、值得信赖的信息。

IBM®信息服务器（IBMInfoSphereInformationServer）是业界第一款面向企业信息架构的完整的、统一的基础产品，能够通过扩展来支持任何数量的信息，使上述计划能够加速实现更理想的商业成效。

IBM信息服务器（IBMInfoSphereInformationServer）将IBM信息集成解决方案（InfoSphereDataStage、InfoSphereQualityStage、InfoSphereProfileStage、InfoSphereFederationServer、InfoSphereReplicationServer、InfoSphereChangeDataCapture、InfoSphereBusinessGlossary、InfoSphereInformationAnalyzer）的技术集成到了一个统一平台中，使公司能够了解、整理、转换并提供值得信赖的、上下文丰富的信息。

如图7所示，InfoSphereDataStage实现了信息整合流程的一个完整部分：

“数据转换”，组合和重构信息以用于新的用途。

InfoSphereDataStage通常部署于企业应用、数据仓库和数据集市等系统中，最简单地说，InfoSphereDataStage执行从源系统到目标系统的批量和实时（需要和InfoSphereInformationServer复制组件即InfoSphereReplicationServer或InfoSpherechangedatacapture相结合）的数据转换和移动。

数据源可以包括索引文件、顺序文件、关系数据库、档案、外部数据源、企业应用和消息队列。

InfoSphereDataStage具有满足绝大多数苛刻的数据整合需求所需的功能、灵活性和可扩展性。

图7.IBM信息服务器解决方案

如图7所示，InfoSphereQualityStage执行企业数据整合的准备阶段（通常称为数据清理）。

InfoSphereQualityStage利用InfoSphereInformationAnalyzer执行的源系统分析，并为InfoSphereDataStage的转换功能提供支持。

这些产品协同工作，将过去手动或被忽视的活动自动化，合并到一次数据整合工作中，即：

数据质量保障。

组合的收益可以帮助公司避免以数据为中心的IT项目中最大的问题之一：

由使用质量低下的数据导致的低投资回报（ROI）。

对于整合项目的成功来说，数据准备是至关重要的。

InfoSphereQualityStage包含一套阶段、一个MatchDesigner、和相关的功能，为建立数据清理任务（称为作业）提供一个开发环境。

使用阶段和设计组件，您可以快速、轻松地处理大量数据，按照需求有选择地转换数据。

InfoSphereQualityStage提供一套整合模块，以完成数据重组任务：

1.调查；

2.整理（标准化）；

3.设计和运行匹配；

4.确定保留的数据记录

InfoSphereQualityStage的概率匹配功能和动态权重策略可以帮助您创建高质量、准确的数据，并在整个企业中一致地识别核心业务信息，如客户、位置、和产品。

InfoSphereQualityStage标准化并匹配任何类型的信息。

通过确保数据质量，InfoSphereQualityStage能够降低实施CRM、商业智能、ERP、和其他与客户相关的IT战略措施的时间和成本。

元数据服务是支撑IBM信息服务器的平台的组件。

通过使用元数据服务，您可访问数据并执行分析、建模、整理和转换等数据集成任务。

IBM信息服务器主要的元数据服务组件包括：

InfoSphereBusinessGlossary、InfoSphereMetadataServer以及InfoSphereMetaBrokersandbridges。

InfoSphereBusinessGlossary是基于Web的应用，针对数据集成环境提供面向业务的视图。

通过使用InfoSphereBusinessGlossary，您可察看并更新业务说明并访问技术元数据。

元数据最好由了解信息资产对业务的意义和重要性的人员进行管理。

InfoSphereBusinessGlossary设计用于协作授权，使用户能够共享关于数据的见解和体验。

IBMInfoSphereInformationAnalyzer可以迅速有效地执行全面的数据加工，使源数据分析的任务自动化，从而为关键数据整合项目将总体成本和资源降到最低。

在获得项目需求之后，项目经理启动数据整合的分析阶段，以理解源系统并设计目标系统。

在很多时候，分析工作都是艰苦、人工的过程，依赖于过期的（或不存在的）源文档，或是维护源系统的人员的知识。

但是，要理解有哪些可用的数据及其当前状态，源系统分析至关重要。

在为整合准备数据的过程中，InfoSphereInformationAnalyzer扮演着关键的角色，它分析业务信息以确保其准确、一致、及时、连贯。

1.加工和分析

检查数据以理解其频率、依赖性、和冗余，并确认所定义的计划和限定。

2.数据监控和趋势分析

在提取数据并将其载入到目标系统中时，揭示源系统中的数据质量问题。

验证规则帮助您创建业务指标，您可以运行它并保持跟踪。

3.推动整合

使用表、列、键（若可能）和相互关系帮助制定整合设计决策。

IBMInfoSphereWarehouseEdtion

IBMInfoSphereWarehouseEdtion的核心引擎是行业领先的DB2企业版数据服务器，旨在满足大中型企业的需求。

DB2可以部署在任何规模的服务器上，从一个CPU到数百个CPU。

DB2企业版是构建随需应变的企业级解决方案的理想基础，比如多TB数据仓库、高可用性大容量OLTP系统或基于Web的BI解决方案。

DB2企业版核心引擎的许多功能是专为提高数据仓库和分析功能及性能而设计的，比如：

物化查询表、星爆式优化器和多维群集。

简单总结其技术优势如下：

数据库分区技术（DB2DatabasePartitioningFeature）

企业可以灵活地利用DB2数据库分区，来支持数据仓库环境中常见的特大型数据库以及复杂的工作负荷和更多的并行管理任务。

DB2UDB提供了先进的“哈希（HASH）算法”映射数据库的每一条记录到特定的数据库分区中。

“哈希算法”使用表中的一列（或一组列）作为分区关键字，得到0至4095的数值，提供了业界最强的水平扩展能力。

DB2UDB为数据存储提供了灵活的拓扑结构以达到高性能及高并行。

其中每个数据库由一些数据库分区组成，每个数据库分区实际上是数据库的一个子集，它包含自己的用户数据，索引，交易日志及配置文件。

强大的深度压缩技术

优秀的压缩技术对成功构建海量数据中心至关重要。

针对海量数据，IBMDB2革命性地推出了深度压缩（或称为“行压缩”）技术。

它采用基于字典表的Lempel-Ziv（LZ）算法记录行中的重复模式进行压缩，这些模式可以跨列组合或在列内提取子元素。

这与其他某些数据库厂商简单的页面压缩具有本质的区别，行压缩具有极高的压缩比。

如图8所示：

图8.行压缩示例

深度压缩对于节省存储成本其意义是显而易见的。

IBM在国内外许多实际客户中，均达到了50%以上的压缩效果。

深度压缩的意义还表现在节省I/O操作和提高内存利用率上。

由于进行了深度压缩，I/O操作得到了有效地降低，并且提高了内存中Bufferpool的利用，因此，在许多客户系统中，使用了DB2不仅节省了存储还提高了查询性能。

例如在国内某著名ERP厂商的测试中，数据存储减少了60%，同时性能提升了10%。

数据库系统的高度自主管理能力

IBMDB2版本9引入了一个在业界具有革命性意义的内存自我调整系统——theSelfTuningMemoryManager（缩写：

STMM）。

STMM技术使得DB2能够自动控制DB2主要的内存对象：

Sort,locklist,packagecache,bufferpools,和totaldatabasememory；无需人工干预地进行内存自我在线调优；自我感知工作负载、按需调整内存大小；能够迅速适应工作负载的突然变化，自动重新划分内存区域；并自动化适应工作负载的周期性变化。

在国内外的多个客户实际场合中，STMM对系统的优化效果甚至超过了一个具有多年经验的DBA的调优效果。

工作负载管理（WORKLOADMANAGEMENT）

IBM的DB2V9.5引入并完善了工作负载管理（WORKLOADMANAGEMENT）功能，使得我们可以更深入地洞察系统的运行情况并更好地控制资源和性能。

在DB2V9.5中，新引入的工作负载管理功能（WLM）可以帮助您标识、管理和监视数据服务器的工作负载。

工作负载管理提供了第一个真正集成到ＤＢ２数据服务器的工作负载管理解决方案，对标识声明的支持使您可以为多层应用程序环境中的各个用户或组提供工作负载管理。

一个好的工作负载管理（WLM）系统能够能够帮助企业更有效的监控系统的运行情况。

由于DB2V9.5的数据管理方面得到了极大的增强，在数据库服务器环境中，你可以获得远远超过你预期的高效的管理性能。

为了保证数据库服务器得到最大的性能，一个高效的工作负载管理（WLM）系统是必需的。

一个成功的工作负载管理（WLM）需要考虑很多方面，并且要清楚的知道自己的目标是什么，比如核心的业务将获得更多的资源，一些非核心的业务对其能够获取的资源进行一定的限制，又或者，对一些流氓查询进行限制等等。

IBMCognos

Cognos,隶属于IBM公司，是商业智能（BI）和绩效管理解决方案的全球领导者。

提供世界一流的企业BI、预算管理，财务合并，风险管理和控制软件和服务，帮助企业计划、了解和管理财务和业务绩效，适应法规监管，并协助企业制定和执行市场战略。

IBMCognos是公认的商业智能和绩效管理解决方案的行业领袖和最大供应商之一，在全世界拥有超过25,000名客户和3,000多个合作伙伴和经销商。

IBMCognos8业务智能是唯一能够在一个单一的、已证的体系结构上提供报表、分析、计分卡、仪表盘、企业事件管理等完整BI功能的BI产品。

Cognos8BI提供了一种简化的BI环境，可以提高用户接受度，提高决策水平，可以作为绩效管理的企业级基础。

SPSS

SPSS，数据挖掘领域的领导者，在2009年被IBM收购。

SPSS预测分析产品（PASW）目前其主要有以下四类产品，具体如图9所示：

图9.SPSS产品概要图

1.数据收集：

为客户的态度和观点提供准确的视图。

IBMSPSSDataCollection

2.统计分析：

为分析人员提供专业的统计分析结果，提高决策可信度。

IBMSPSSStatistics

3.预测模型：

建立预测模型，提供直观的辅助决策信息。

IBMSPSSModeler

IBMSPSSTextMining

4.部署：

在企业日常运营中，降低分析维护成本，最大限度地提高数据分析为企业带来的价值。

IBMSPSSDecisionManagement

IBMSPSSCollaboration&DeploymentServices

回页首

数据中心构建方式三：

主数据管理技术（MasterDataManagement，MDM）

主数据是指在整个企业范围内各个系统（操作/事务型应用系统以及分析型系统）间要共享的数据，比如，可以是与客户（customers）,供应商（suppliers）,帐户（accounts）以及组织单位（organizationalunits）相关的数据。

主数据管理（MDM）可以帮助我们创建并维护整个企业内主数据的单一视图（SingleView），保证单一视图的准确性、一致性以及完整性，从而提供数据质量，统一商业实体的定义，简化改进商业流程并提供业务的响应速度。

从变化的频率来

展开阅读全文