1、数据仓库系统建设方案详细河北省工商银行数据仓库系统建设方案建议书北京世纪明日网络科技有限公司二零零零年三月河北省工商银行数据仓库系统建设方案第一章前言1.1数据仓库发展史1.2竞争日趋激烈的金融市场1.3中国专业银行面临的挑战1.4中国专业银行实施数据仓库的意义1.5中国专业银行实施数据仓库已具备的条件第二章数据仓库总体概述 2.1 数据仓库基础 2.2 数据仓库技术概述 2.3 一个可扩展数据仓库的基本框架 2.4 一个数据仓库实施流程第三章系统体系结构设计 3.1系统设计指导思想 3.2 方案总体框架图 3.3 系统体系结构设计 3.4 系统方案的组成第四章 银行数据仓库的建设 4.1 面
2、向应用的OLTP系统和面向主题的OLAP系统 4.2 个性化服务的定义 4.3 业务探索/业务发掘 4.4 建立市场客户信息基础 4.5 利用数据仓库实现的基本模块 4.6 更高层次的开发应用 4.7 综合信息发布第五章 方案实施建议 5.1 开发模式 5.2 组织机构 5.3 项目实施进程 5.4 项目进度计划第六章 产品报价 6.1 软件产品报价 6.2 硬件产品报价 6.3 项目开发实施费用第一章 前言1.1 数据仓库发展史 相对于许多行业而言,信息处理技术还是一门新兴的技术,但是其发展速度却几乎是最快的。随着计算机硬件技术的飞速发展,软件技术也是日新月异。许多企业和机构已经建立了相对完
3、善的OLTP(联机事物处理)系统。随着时间的推移,这些系统中积累了大量的历史数据,其中蕴含了许多重要的信息。通过对这些历史数据的分析和综合处理,可以找到那些对企业发展至关重要的业务信息,从而帮助有关主管和业务部门作出更加合理的决策。70年代中期出现的MIS(管理信息系统)实际上就是在这种背景下产生的。但MIS具有极大的局限性。首先,它是按预先定义好的流程对数据作相应的处理,因此只能对预先描述好的业务问题进行回答。其次由于开发工具的限制,对它的修改也不大方便,特别是业务流程发生变化,模型需要调整,这种修改更加困难。最后数据的不断积累和数据量迅速增加,普通的商用数据库(即OLTP数据库)难以处理,
4、系统的扩展存在很大限制。在这种情况下MIS逐步发展到了数据仓库。世界上最早的数据仓库是NCR公司为全美、也是全世界最大的连锁超市集团Wal*Mart在1981年建立的,经过二十年的发展,该系统已经非常完善,数据量扩展到27TB,成为迄今为止世界上最大的数据仓库。 1.2 竞争日趋激烈的金融市场 根据Tower Group公司1998年10月的研究,1999年全球金融机构将投资54亿美金实施数据仓库系统,其中欧美地区占八成的市场份额,其次为亚太地区,在美国实施数据仓库的单位以大型银行为主,基础上启动的资金为五百万美金以上;1998年在全球前500家银行中已经有近九十家的数据仓库数据量超过500G
5、B,预测在1999年将有150家,2000年有260家;数据仓库是金融机构实现客户关系管理(Customer Relationship Management)的核心技术,也是金融业竞争优势的来源,主要的应用业务部门为信用卡部、信贷部、市场部和零售业务部等,应用领域是以客户为中心的分销渠道管理、客户利润分析、客户关系优化和风险控管。 造成欧美地区金融机构采用数据仓库技术,提供以客户为中心的个性化服务(One to One Marketing)的背景原因如下:1)金融服务市场的开放竞争。如AT&T电话公司的电话卡可以透支打电话、福特汽车公司的购车信用分期付款、零售业的透支分会员卡和贵宾卡、信用卡公
6、司发行信用卡、ESD建立ATM网、GE公司的贷款服务,保险公司的储蓄型保险单和保单贷款等,允许银行业的并购,影响银行的业务收入和利润。2)上述的开放市场,业者会推出多样化的产品和服务,让顾客有更多的比较和选择的机会。造成顾客购买的因素,除了价格以外,还应考虑方便性、可用性等,形成个性化服务的需求。银行需要更进一步了解客户,才能满足客户需求,进而留住客户,增加利润。3)信息技术(如海量并行处理的技术)的突飞猛进,使得快速地分析客户详细的历史交易数据成为可能,从而可以更好地了解、模拟和预测客户的消费行为、偏好等。另外移动通信技术的进步,让客户访问信息服务的方式不受时空的限制。这些技术让银行业务用户
7、可以及时响应各种突发的复杂的经营问题。4)银行现有的管理制度和业务流程,都是以产品(Product)为中心来进行客户服务,不同的帐号信息分散在不同的计算机系统内,缺乏对客户统一的全面了解。现有的生产系统是银行营运和客户的基础设施,无法提供多用户对大量历史数据同时进行突发的复杂的决策分析,所以建立另外一套以客户为中心的数据仓库决策支持系统是实现个性化服务的必要手段。1.3 中国专业银行面临的挑战 1984年人民银行成为中央银行的角色,成立了四家国有专业银行:工商银行、农业银行、中国银行和建设银行。后来又成立交通银行、中信实业银行、光大银行等十一家股份制商业银行。1996年改组城市信用合用社建立股
8、份制城市商业银行。国有专业银行长期在计划体制下运转,其经营行为和经营意识带有很强的行政色彩,正向商业银行化进行过渡。随着经济的增长和国民生活水平的提高,社会保障制度的改革,政府扩大内需的政策等,国有专业银行和股份制商业银行的零售业务,如住房贷款、退休养老金、消费贷款和信用卡业务等,将成为银行业务和利润的增长点。如何争取零售业务的市场机会,发掘信用好风险低的客户已成为银行关注的焦点。在未来零售业务的迅猛发展,改善银行的获利能力,将加速国有专业银行转型成为商业银行的进程。 在现阶段,主要是国有专业银行和股份制商业银行、邮政银行之间的竞争,其他服务业和外资银行尚未构成全面性的威胁。虽然,国有专业银行
9、具有覆盖全国营业网点的优势,但受历史包袱的影响,期待扩大零售业务,以提高获利能力;股份制商业银行规模相对小,只能提供地区性的服务,零售业务是主要的收入来源,从国有专业银行和邮政银行中争取更多的新客户,将是主要的经营策略;邮政银行的优势在营业网点、客户基础和更多的增值服务,竞争的策略是留住有利润的客户和争取新客户,所以邮政银行也将是现阶段国有专业银行和股份制商业银行的重要竞争对手。 1999年11月15日,中国与美国签署加入世界贸易组织的双边协议,中国将自加入世界贸易组织起,逐步开放金融市场,入世两年后开放外资银行经营对公业务,五年后开放对私业务和设立营业网点。在可预见的未来,国内的金融机构将同
10、世界级的外资银行发生面对面的激烈竞争。届时,客户有更多的选择,竞争会更加的激烈。世界级的外资银行为加速取得和扩大在中国的市场份额,将引进其在国外实施多年的以客户为中心的数据仓库决策支持系统,推出更多样化的金融产品和服务来争取高利润的客户。因此,了解客户需求和客户对银行的利润贡献度、提供有竞争性的产品或服务、经由客户喜好的渠道、在适当的时机对客户进行销售或服务,这种个性化服务的策略将是国内商业银行在目前竞争优势的来源,同时也是未来与外资银行竞争必备的武器。如何建立个性化服务的数据仓库系统,已经成为国内银行现阶段最重要的课题。1.4 中国专业银行实施数据仓库的意义 从现在和将来专业银行所面临的市场
11、环境来看,实施以客户为中心的数据仓库决策支持系统,将对国内银行业现在和未来的发展产生深远的影响,且具有重大的战略意义。 首先是增强国内银行的竞争力,在激烈的竞争中维持获利。无论现在或是未来,银行将面临着一个激烈竞争的态势,必须对市场多变的需求作出及时响应,才能持续生存和发展。根据国外商业银行的经验,在金融市场开放环境中,银行竞争优势的来源是对每一位客户提供个性化服务。然而银行有数以千百万计的客户,如何将客户细分到以客户为中心的客户单一市场呢?也就是如何设计大量个性化的产品或服务。银行只有通过以客户为中心(Customer Centric)的决策支持系统,才能使用科学的方法实现个性化服务。数据仓
12、库系统存放每一位客户同银行往来的详细的历史交易明细数据,对客户有统一的视图,能帮助银行业务用户以科学的手段快速地分析、模拟和预测客户的个性化需求,进而设计符合客户需求的产品或服务。通过客户喜好的渠道完成交易,是增强专业银行竞争能力最有效的手段。 其次是提高专业银行整体运作与管理水平。数据仓库决策支持系统是专业银行管理模式发展的结果。随着各个历史时期经济金融环境的变化,专业银行的经营管理模式在演变,最初强调资产管理,是因为来源比较狭窄,主要是活期存款,而工商企业的资金需求也较简单,采用会计记帐设备提高生产力;到了六十年代,产生负债管理理论,强调要通过负债管理保持银行的流动性,主动从市场、银行业来
13、调剂资金余缺,开始引进会计系统计算机化;七十年代末期,出现了资产负债综合管理理论,重点在资产负债风险管理、信贷风险管理、投资风险管理和外汇交易风险管理,MIS和分行自动化成为核心系统;九十年代,金融市场的开放,低利率和信用扩张刺激消费,零售业务成为银行的主要业务和收入,客户对金融产品和服务的要求越来越高,银行业务部门和管理层首要关心的问题在于如何降低风险和增加利润,以客户为中心的数据仓库决策支持系统可以快速地了解每一项交易、每一个帐号、每一个分销渠道、每一位客户的风险和利润,让银行作出正确的业务决策,及时响应每一位客户的现在和未来需要,提高整体运作和管理水平。 最后是增强专业银行应变能力。订立
14、金融市场开放时间表,让国内银行有充分的时间准备来提高自己的竞争实力,以应付外资银行在将来的竞争。人民银行会逐步放松管制政策和增加国内银行可以经营的业务范围,让国内银行熟悉市场经济的运作规则。当外资银行可以在国内经营零售业务时,如果国内银行已经完全掌握客户的行为和需求,了解各种金融产品的的操作和管理,那么对国内银行的冲击就比较小。问题在于,国内银行如何在这么短的时间内完成这么多的事情。如果没有足够的企业和客户信息,国内银行如何了解人民银行推出的新政策对银行的影响呢?又如何向人民银行建议新业务和服务呢?或是对付外资银行的竞争呢?企业级的数据仓库系统,存放银行各种主题,如客户、帐号、部门、金融产品、
15、商业活动、位置、渠道和交易事件等,可以快速地分析、模拟和预测新业务和新政策对银行整体的影响,让银行的领导及时制定策略和战术,应变突发的复杂的经营问题。1.5 中国专业银行实施数据仓库已具备的条件 近年来,中国专业银行在管理上已逐步形成了一套快速适应市场变化、满足用户需求的内部运行机制。概括来讲,中国专业银行实施个性化服务数据仓库系统具备了以下条件:1)企业有一支较高素质的管理人才和技术队伍,具备参与信息建设的丰富经验,为基础上实施提供了人才的保证。2)完善的信息技术基础设施,如ATM网络、电话银行、传真服务、呼叫中心、网上服务、POS系统、企业内部网、人行的电子清算系统等,确保交易信息源能及时
16、的获得,数据仓库建成后使用方便。3)企业已建设或正在建设的全行范围的业务系统,包括储蓄、定期、贷款、汇款、外汇、信用卡、支票、信用证、国际业务等,已积累了完整而且详细的客户交易记录,为数据仓库的启动提供了基本的数据来源。4)多数的企业有实施先进管理制度和思想的经验,如成立市场部统筹银行的形象和市场定位的宣传与规划、经营效益与员工收入挂钩、服务时效的承诺、客户满意调查等,容易接纳新知识,对数据仓库的实施和推广应用起到积极的作用。第二章 数据仓库总体概述2.1 数据仓库基础数据仓库的概念最早将数据仓库提升到理论高度加以论述的是著名学者、被尊称为数据仓库之父的Bill Inmon。他对数据仓库所下的
17、定义是:数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。由此可见,数据仓库是一个综合的解决方案,是对原始的操作数据进行各种处理并转换成有用信息的处理过程,它主要用来帮助有关主管部门作出更符合业务发展规率的决策。数据仓库的查询特点 针对生产系统的查询都非常简单,一般不会使用表的连接操作,每次返回的数据量很小,这类问题的特点是知道自己要找什么。数据库大小对系统性能影响不大。数据仓库系统的查询大都非常复杂,主要有两种:一种以报表为主,从数据库中产生各种形式的业务报表。这种查询是预先规定好的(Pro-defined Query)。另一种查询是随机的、动态的查询(Ad
18、-Hoc query),对查询的结果也是不能预料的。数据仓库中的查询由于其复杂性,会经常使用多表的联接、累计、分类、排序等操作,这些大都要对整个表进行搜索(Full Table Scan)。每次查询返回的数据量一般很大,对于动态查询而言,经常需要根据上次查询的结果进行进一步的搜索,这个过程称为数据挖掘(Data Mining)。根据这些特点,数据库大小对数据仓库的性能影响很大。当数据仓库投入使用后,各业务部门的要求会越来越多,使得数据仓库中数据量的增长很快。因此设计数据仓库时,系统的可扩展能力是必须考虑的重要因素之一。系统的并行处理能力是另一个要考虑的重要因素。因为查询的复杂性,每个查询将占用
19、很多的系统资源,如果系统资源不够、并行处理能力不强,当多个用户同时发出事物请求时,响应时间很长令人无法容忍。数据仓库应单独建立。因为如果在生产系统上再实施数据仓库,由于数据仓库的查询常常占用很多系统资源,将严重影响生产系统的运行2.2 数据仓库技术概述 作为决策支持系统(DSS)的一种有效、可行的体系化解决方案,数据仓库包括了三个方面的内容:数据仓库技术(DATA WAREHOUSE,DW)、联机分析技术(ONLINE ANALYTICAL PROCESSING,OLAP)、数据挖掘技术(DATA MINING,DM)1)数据仓库技术(DW)需要以下数据库技术的支持:高性能数据库服务器 数据仓
20、库的应用不同于传统数据库的OLTP应用。传统数据库的应用是操作型的,而数据仓库的应用是分析型的,它需要高性能的DBMS核心的支持,以便较快地获得分析结果,这通常需数秒至数分钟的时间。虽然比OLPT的响应时间长一些,但由于分析型应用涉及的数据量大,查询要求复杂,因此对DBMS核心的性能要求更高,同时,DBMS必须具有良好的查询优化机制并行数据库技术 数据仓库中的数据量大,而且随着时间的增长,新的数据还会不断进入,基本成指数增长。数据仓库中的数据库通常是GB甚至TB级的,可谓是超大规模数据库(VLDB)。而并行数据库技术是存储管理VLDB,并提供对VLDB复杂查询处理的有效技术。数据库互操作技术
21、数据仓库中的数据大多来自企业或行业中业已运行的OLTP数据库或外部的数据源。这些数据库常常是异构的,甚至是文件系统中的数据。数据仓库必须从这些异构数据源中定期抽取、转换和集成需要的数据,并把它们存入数据仓库中。因此,异构数据源之间的互访和互操作技术是必需的。2)联机分析(OLAP)技术 OLAP是一种实现多维分析的工具。简单地可以理解为它是位于数据仓库基础之上的一个多维立方体,它面向分析决策所关心的综合性数据,以便从更高层次、多个维度来了解数据。它从逻辑上或物理上以多维方式从数据仓库里提取数据并组织数据,便于前端用户进行多维数据分析。 根据实现技术和存储数据的位置不同,又可分为多维数据库OLA
22、P(MDB-OLAP)、基于关系数据库的OLAP(ROLAP)和桌边形的OLAP(DESKTOP OLAP)。OLAP的目的是为了提高多维分析的速度。3)数据挖掘(DM)技术 数据挖掘是从数据仓库中发现并提取隐藏在其中的信息的一种新技术。目的是帮助决策者寻找数据间潜在的关联,发现被忽略的要素,这些信息对预测趋势和决策行为也许是十分有用的。 数据挖掘技术涉及数据库、人工智能、机器学习和统计分析等多种技术。数据挖掘技术使决策支持系统跨入了一个新阶段。传统的决策支持系统通常是在某个假设的前提下通过数据查询和分析来验证或否定这个假设,而数据挖掘技术则能够自动分析数据,进行归纳性推理,从中发掘出潜在的模
23、式,或产生联想,建立新的业务模型,帮助决策者调整市场策略,并找到正确的决策。总结 数据仓库技术是以数据仓库为基础、以OLAP和数据挖掘工具有手段的一整套可操作、可实施的方案。 建立一个数据仓库是一个比较复杂的过程,它需要精心的规划、渊博的知识、丰富的行业管理经验、极强的业务沟通能力和全面的IT要素。建立数据仓库要选择合适的数据仓库引擎、硬件平台、软件工具、应用程序和行业专业服务2.3 一个可扩展数据仓库的基本框架整个框架组成部分1)数据装载:把所谓的操作数据和源数据利用一定的方法如提取、过滤、清理、家庭关系识别等,从生产关系中转换到中央数据仓库中。这种转换分为逻辑与物理两部分,即先根据业务问题
24、建立数据库逻辑模型,然后在此基础上构造物理模型,将操作数据加载到物理表中。逻辑建模应基于要解决的业务问题进行,而不是基于目前的系统能提供什么数据进行。换而言之,数据仓库的出发点是解决业务问题,而不是单纯的一个信息转换与访问的工具。2)数据管理:这一部分是整个数据仓库的心脏,根据数据仓库的特点,它必须采用一个具有并行处理性能的关系数据库管理系统。当数据仓库非常庞大时,为提高性能,可建立一些面向部门应用的数据集市,这些数据集市中的数据是从中央库中通过复制与传送等手段拷贝过来的。3)信息访问:这一部分是前端工具,主要提供给有关业务部门访问数据仓库中的信息使用,在这一部分一般都采用图形界面、交互功能强
25、的查询工具。2.4 一个数据仓库实施流程 第三章 系统体系结构设计3.1系统设计指导思想1)制定合理的系统目标 在数据仓库建设的规划阶段,不能求胜心切,应该制定切合实际的系统目标,将扩大决策支持系统的数据源、改善用户获得信息的手段、为用户提供更加准确、可靠和全面的信息作为系统建设的根本出发点。2)循序渐进 在银行中使用数据仓库技术应本着循序渐进的原则进行。首先,在涉及某一类银行业务的单项应用领域开展,逐步发展到在涉及不同银行产品的几个单项应用领域开展,最后,再建立全行的数据仓库,将数据挖掘的范围扩展到多项银行活动。而不要一开始就希望把银行所有的数据都装载到数据仓库中,建立一个大规模的全银行范围
26、内的数据仓库,这样会使银行隐入逻辑、行政和财政的困境而不能自拔。数据仓库不是越大越有效,初始时从建立较小的数据集市入手,一方面可以降低开发成本,缩短实现周期,另一方面还有助于为未来数据仓库的全面启动培训IT人员。3)将相关信息集成到数据仓库中 80年代,美国曾做过一次对企业高层管理人员的问卷调查,以研究高层管理人员获得经营管理信息的途径。结果出人意料,管理人员的级别越高,他就越少通过内部数据来获得经营管理信息:大型企业的最高决策者95的经营管理信息来自企业外部。数据仓库系统不是简单的企业内部数据集成,而是为决策支持提供集成的数据源,因此,必须在关注企业内部数据的同时,将外部信息集成到数据仓库中
27、;此外,与数据信息相比,图形、图像信息更为直观、易于理解,也应该集成到数据仓库中。4)当前目标与长远目标相结合 数据仓库建设不是一劳永逸的事情,应该树立长远的发展眼光。即使在建立第一个面向特定部门或特定应用的数据集市时,也一定要保证现在使用的数据模型能够向将来所使用的全银行范围的数据存储扩展,以便于将来其他数据集市和战略性数据仓库的实现。必须在部门之间进行一致性的数据定义,并通过这些定义上的一致性协议使以后部门间的数据联合成为有效、可行。统计结果显示,数据仓库的数据量会以每年大约40的速率增长,由于在设计阶段很难准确地预料到系统初始和未来的负载情况,所以,应该在设计开始时考虑系统可伸缩性,以便
28、能够容纳更多的客户、进程和存储,应尽可能准确地选择与用户需求相适应的系统并适当地留出余地,以免因系统过大而超出其适用范围,白白浪费投资。5)不追求尽善尽美 进行数据仓库建设时,在定义了系统目标、明确了关键的成功因素、合理控制了数据仓库规模的基础上,就应该尽快行动起来,尽快获取数据仓库投资带来的回报。当客户需要更多的信息和更详细的细节时,就应立即着手进行数据仓库的发展和扩建工作,不应拘泥于“完美”不放,应在不断修改的同时不断发展。6)以不影响正常业务为前提 由于数据仓库的查询是一种不规则的查询运作,在考虑数据仓库方案时,应以不防碍正常的银行业务处理为原则,可考虑把数据仓库的系统平台与生产系统的系
29、统平台分隔开来,放在并行的主从服务器上分别运行。3.2 方案总体框架图3.3 系统体系结构设计 为了实现各种功能,我们建议分别采用了组件技术,WEB技术,OLAP技术,并在整个应用系统的体系结构上采用了三层体系结构来进行设计。三层体系结构 针对河北省工商银行数据仓库系统,我们建议采用的三层体系结构(BWD),即数据库,WEB服务器,浏览器表现层。 早在1980年第一个数据库管理系统出现时,数据库的世纪就已悄然开始。那时的观念是由应用程序控制关系型数据库,这种数据处理的模式一般称为单层结构(1-Tier)。由于这种结构的数据库程序占用计算机资源较多,于是在80年代中期,数据库应用开始转向C/S结
30、构,也就是所谓的两层结构(2-Tier)。这种结构在近十年内不但得到了广泛的运用,而且相当成功。然而,在两层结构成功的背后却逐渐暴露出其构架上的缺陷。其中最明显的问题表现在应用程序的伸缩性和维护方面。例如,如何把数据库管理系统及其应用程序分散到十分缓慢的网络上,如何控制数据的统一性和完整性;一旦应用程序有任何改动,维护人员就必须修改每一个客户端上的应用。 新一代数据库管理系统在传统的C/S结构中,增加了应用程序服务器这种新的结构就是所谓的nTier或Multi-Tier。应用程序服务器包括了统一的界面、业务规则的制定和数据处理逻辑的规定等等。多层应用服务技术允许分割应用程序,本地计算机上无须安
31、装一套数据库工具,就可以在另一台机器上存取数据。同时它允许对业务规则和进程进行集中管理,并在整个网络上分发、实现进程负载的动态调节。在三层体系结构的第三层,即表现层,可以分为三大类,应用程序的客户端,浏览器,第三方厂商提供的前端表现工具。1)组件技术 在整个体系结构的设计中,我们注重了组件的应用,采用积木法来进行设计。先构筑系统的总体框架,然后构造各个构件,并依次把构件安装到系统中去。 大部分应用系统,在功能上有类似之处,因而利用软件的重用技术就可以把开发过程大大简化。在确定系统总体框架、构筑总体框架、构造构件以及修改构件等阶段,都同一个叫做“软构件集合”的实体打交道,这个软构件集合也被称为“
32、软件构件库”。在开发之初就应该着手准备这个软构件集合,比如可以搜集一些已经开发的系统的总体设计、规范、局部流程以及某些人机界面、通用功能模块、简单开发工具。每开发出一个组件,都要把该组件及其功能、调用接口等信息放入软构件集合。我们采用ActiveX来完成组件的设计。 在应用程序的客户端,浏览器上的ActiveX用dcom协议或CORBA协议与应用服务器进行通信,由Dcom Server或CORBA Server负责向数据库提交请示,并取得相应数据。2) WEB技术 WWW是Internet上发展最快、应用最广泛也最实用的超文本信息通信系统。服务器端通过Web Server可以提供各种服务;客户端可以通过浏览器(Browser)访问多种协议的多媒体信息,依据用户的需要组织和传递信息。人们可以通过WWW浏览器浏览和检索WWW站点的信息,这就使得信息的共享与交流越
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1