数据仓库白皮书.docx
《数据仓库白皮书.docx》由会员分享,可在线阅读,更多相关《数据仓库白皮书.docx(14页珍藏版)》请在冰豆网上搜索。
数据仓库白皮书
数据仓库白皮书
数据仓库白皮书-结构与应用篇
IBM、Oracle等厂商都提出了自己的数据仓库结构,但严格说来,任何一个数据仓库结构都是从一个基本框架发展而来,实现时再根据分析处理的需要具体增加一些部件。
其中斯坦福大学“WHPS”课题组提出的一个基本的数据仓库模型如图1所示。
为了能够将已有的数据源提取出来,并组织成可用于决策分析所需的综合数据的形式,一个数据仓库的基本体系结构中应有以下几个基本组成部分:
◆数据源指为数据仓库提供最底层数据的运作数据库系统及外部数据。
◆监视器负责感知数据源发生的变化,并按数据仓库的需求提取数据。
图1数据仓库基本体系结构
◆集成器将从运作数据库中提取的数据经过转换、计算、综合等操作,集成到数据仓库中。
◆数据仓库存贮已经按企业级视图转换的数据,供分析处理用。
根据不同的分析要求,数据按不同的综合程度存储。
数据仓库中还应存储元数据,其中记录了数据的结构和数据仓库的任何变化,以支持数据仓库的开发和使用。
◆客户应用供用户对数据仓库中的数据进行访问查询,并以直观的方表示分析结果的工具。
应用行业
新世纪客户关系在各种交易中所起到的作用越来越重要,在市场经济这个天平上的法码也是越来越沉重了。
从而使得在目前竞争激烈的知识经济环境和电子商务经济模式下,重要的信息往往可以决定企业的成败,甚至决定企业的生死存亡。
因此,很多行业都采用了数据仓库解决方案充当企业决策机构的智囊和参谋。
如我们平时所说的民航订票系统、银行ATM系统、证券交易系统、期货交易系统、铁路售票系统、移动通信用户信息管理与服务系统等就是建立在大型数据库基础之上的数据仓库。
由于篇幅有限,下面仅就以下行业来加以简单说明。
证券
证券公司利用客户行为分析系统将所有客户的操作记录进行归类和整理,并结合行情走势、上市公司资料、宏观微观经济数据等,在掌握大量数据的情况下,对客户的行为和市场各因素的关联、客户的操作习惯、盈亏情况、公司的利润分布等进行统计和分析,从而获得以往一直想获得但却无法获取的关于客户在本公司的行为、盈亏、习惯等关键信息。
证券商在获得这些信息后,就有能力为客户提供针对其个人习惯、投资组合的投资建议,从而真正作到对客户的贴心服务。
银行
随着社会主义市场经济改革的深化,传统的计划金融模式逐渐瓦解,市场金融模式逐渐形成。
在这个变革过程中,由于体制、市场、企业、个体等经济要素变化、发展的不平衡性,带来了银行对各种金融变量控制的随机性和模糊性。
如何防范银行的经营风险、实现科学管理以及进行决策,成为当今金融研究的一个重要课题。
利用数据仓库的强大功能,银行可以建立企业客户群、个人客户群的数据库,并对企业的结构、经营、财务、市场竞争等多个数据源进行统一的组织,形成一个一体化的存储结构,为决策分析奠定基础。
通过先进的信息加工、分析、处理软件,加上银行的经营决策、信贷营销人员的个人经验,对每一个投资方向、每一笔贷款作出科学的判断,可以有效控制投资、信贷风险。
税务
增加税收、提高效率、改善执法的一致性与公平性、降低对纳税人的负担和干扰,是税务稽征部门的重要目标。
然而这些目标往往又是相互冲突的,要在其间找到最适当的平衡点非常困难。
通过应用数据仓库技术,对税收部门的内部和外部数据进行综合分析处理,可以解决三个方面的问题:
一是查出应税未报者和瞒税漏税者,并对其进行跟踪;二是对不同行业、产品和市场中纳税人的行为特性进行描述,找出普遍规律,谋求因势利导的税务策略;三是对不同行业、产品和市场应收税款进行预测,制定最有效的征收计划。
数据仓库技术之所以能够查出漏税者,其基本思想是通过对大量数据资料的分析来掌握各行各业、各种产品和各类市场的从业人员以及企业的纳税能力,并与其实际纳税金额进行对比,从而查出可能的偷漏税者。
澳大利亚政府税务部门将数据仓库技术用于支持税收业务,系统经过3年的运行,投入回报率达到1∶15。
保险
随着商业保险公司业务系统日趋完善,数据交换和处理中心的建立,如何满足保险行业日益增长的各种查询、统计、报表以及分析的需求,如何提高防范和化解经营风险的能力,如何有效利用这些数据来实现经营目标,预测保险业的发展趋势,甚至如何利用这些数据来设计保险企业的发展宏图以在激烈的竞争中赢得先机,是保险决策支持系统需要解决的问题,也是目前保险企业在信息技术应用上的首要难题。
数据仓库的实施
数据仓库是一个解决方案,而不是一个可以买到的产品。
不同企业会有不同的数据仓库,企业人员往往不懂如何利用数据仓库,不能发挥其决策支持的作用,而数据仓库公司人员又不懂业务,不知道建立哪些决策主题,从数据源中抽取哪些数据,因此需要双方互相沟通,共同协商开发数据仓库。
开发数据仓库流程包括以下几步:
◆启动工程建立开发数据仓库工程的目标及制定工程计划。
计划包括数据范围、提供者、技术设备、资源、技能、组员培训、责任、方式方法、工程跟踪及详细工程调度。
◆建立技术环境选择实现数据仓库的软硬件资源,包括开发平台、DBMS、网络通信、开发工具、终端访问工具及建立服务水平目标(可用性、装载、维护及查询性能)等。
◆确定主题进行仓库结构设计因为数据仓库是面向决策支持的,它具有数据量大但更新不频繁等特点,所以必须对数据仓库进行精心设计,才能满足数据量快速增加而查询性能并不下降的要求。
◆数据仓库的物理库设计基于用户的需求,着眼于某个主题,开发数据仓库中数据的物理存储结构。
◆数据抽取、精练、分布根据数据仓库的设计,实现从源数据抽取数据、清理数据、综合数据和装载数据。
◆对数据仓库的OLAP访问建立数据仓库的目的是要为决策支持服务,所以需要各种能对数据仓库进行访问分析的工具集,包括优化查询工具、统计分析工具、C/S工具及数据挖掘工具,通过分析工具实现决策支持需要。
◆数据仓库的管理数据仓库必须象其他系统一样进行管理,使数据仓库正常运行。
另外,在实施数据仓库时,还应注意以下问题:
(1)与传统业务系统不同,数据仓库是面向管理决策层应用的,必须有系统自身的最终用户——企业决策层的参与。
数据仓库应用本身并不是业务流程的再现,而是基于数据分析的管理模式的体现。
在这个层次上,数据仓库对于企业决策层的意义首先不是信息技术和产品上的,而是企业经营管理模式上的。
数据仓库的实施者需要在商业智能化如何能够帮助企业获得市场竞争力上下工夫,提供切实有效的系统实施目标和规划,使得企业决策层充分认识到数据仓库是他们自己所需要的系统,在投入和配合上给予充分的支持。
(2)由于数据仓库的访问和查询往往能够通过工具来提供,因此数据仓库的功能取决于系统的规划和设计。
在了解数据仓库应用需求的时候,主要的对象应该是企业的决策部门和管理部门,而不是信息系统部门。
了解应用的需求必须从企业如何利用信息进行管理的角度出发,需要有丰富的行业经验。
在这个阶段,对于国内数据仓库应用来说,可以将复杂的数据分析需求分解成若干专题,这些专题在行业内往往具有一定的普遍性,有现成的设计模式可以借鉴。
数据仓库的设计实施也宜逐个击破,每个阶段都能满足一部分用户的需求,最后获得全面的成功。
(3)在对待原始数据的问题上,我们需要坚持一个原则,就是不拘泥于业务系统的现状。
由于数据仓库是独立于业务系统的,数据仓库的实施将以管理层需要的分析决策为主线,在设计中可以为不确定数据预留空间。
对于数据的完整性和质量问题可通过如下方式处理:
利用多种方式加载数据,可以设计专门的输入接口收集数据,如获取客户的个人资料;放宽数据的时效性,在分析中标明个别数据的有效时间;在系统中标识出低质量的数据,规范业务系统。
(4)数据的抽取、转换和装载是一项技术含量不高但却非常烦琐的工作,在系统实施过程中建议由专门小组或人员负责数据抽取的工作,将其纳入统一的管理和设计,不仅考虑原始数据源的类型,还必须考虑抽取的时间和方式。
一个数据仓库系统往往同时存在多种数据抽取方式以适应原始数据的多样性,因此讨论单一抽取工具的选型是没有意义的,原则只能有一个:
简便、快捷、易维护。
(5)用户对数据仓库的认识常常从报表起步,但数据仓库并不是为业务报表而设计。
需要指出的是,数据仓库的分析工具在固定格式的报表再现上有时不如专门定制的程序。
因此,以解决报表问题作为建立数据仓库的目的一般都会以用户的失望告终。
数据仓库的强项在于提供联机的业务分析手段,正因为数据仓库的使用,才使管理人员逐步摆脱对固定报表的依赖,取而代之地以丰富、动态的联机查询和分析来了解企业和市场的动态。
(6)系统的实施需要明确的计划和时间表,新的技术和产品可以分阶段加入,但要避免无休止的测试和选型。
因为数据仓库的价值在于使用,如果让一些没有必要的信息去指导决策,那么数据仓库将永远停留在投资阶段。
在定义实施计划时,需要明确系统的使用范围、用户的应用模式等与选择具体产品相关的重要问题。
数据仓库白皮书-概念篇
人们在日常生活中经常会遇到这样的情况:
超市的经营者希望将经常被同时购买的商品放在一起,以增加销售;保险公司想知道购买保险的客户一般具有哪些特征;医学研究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助……对于以上问题,现有信息管理系统中的数据分析工具无法给出答案。
因为无论是查询、统计还是报表,其处理方式都是对指定的数据进行简单的数字处理,而不能对这些数据所包含的内在信息进行提取。
随着信息管理系统的广泛应用和数据量激增,人们希望能够提供更高层次的数据分析功能。
为此,数据仓库应运而生。
数据仓库的概念及特点
数据仓库概念始于本世纪80年代中期,首次出现是在号称“数据仓库之父”WilliamH.Inmon的《建立数据仓库》一书中。
随着人们对大型数据系统研究、管理、维护等方面的深刻识认和不断完善,在总结、丰富、集中多行企业信息的经验之后,为数据仓库给出了更为精确的定义,即“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合”。
数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。
因此,在技术上人们习惯于从工作过程等方面来分析,并按其关键技术部份分为数据的抽取、存储与管理以及数据的表现等三个基本方面。
⑴数据的抽取:
数据的抽取是数据进入仓库的入口。
由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。
数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。
数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。
⑵存储和管理:
数据仓库的真正关键是数据的存储和管理。
数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。
要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。
⑶数据的表现:
数据表现实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。
而多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于Web前端联机分析界面,而不仅仅是在网上发布数据。
提到数据仓库,人们难免会想到仅有一字之差的数据库,那么,数据仓库和我们经常提到的数据库有哪些区别呢?
为什么要使用数据仓库呢?
从数据库到数据仓库
市场需求是技术发展的源动力。
在数据库应用的早期,计算机系统所处理的是从无到有的问题,是传统手工业务自动化的问题。
例如银行的储蓄系统、电信的计费系统,它们都属于典型的联机事务处理系统。
在当时,一个企业可以简单地通过拥有联机事务处理的计算机系统而获得强大的市场竞争力。
记得在80年代末,北京工商银行率先推出了全市个人储蓄通存通兑业务,广大市民便将先前就近存于不同银行的存款一并取出而存入了工商银行。
这便是通过联机事务处理系统而获得市场优势的案例。
其次,当时单位容量的联机存储介质比现在昂贵得多,相对于市场竞争的压力,将大量的历史业务数据长时间联机保存去用于分析显然是过于奢侈了。
因此,联机事务处理系统只涉及当前数据,系统积累下的历史业务数据往往被转储到脱机的环境中。
此外,在计算机系统应用的早期,还没有积累大量的历史数据可供统计与分析。
从而,联机事务处理成为整个80年代直到90年代初数据库应用的主流。
然而,应用在不断地进步,当联机事务处理系统应用到一定阶段的时候,企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势;他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析,从而做出有利的决策。
同样就拿北京各银行的储蓄业务来说,如今各家都拥有了联网的储蓄系统,再要获得市场竞争的优势,就需要在决策上下功夫,例如在业务密集地区增设自助网点、推出有针对性(如:
某类职业圈、某年龄段)的储蓄服务计划。
这些决策需要对大量的业务数据包括历史业务数据进行分析才能得到,而这种基于业务数据的决策分析,我们把它称之为联机分析处理。
如果说传统联机事务处理强调的是更新数据库——向数据库中添加信息,那么联机分析处理就是要从数据库中获取信息、利用信息。
因此,著名的数据仓库专家RalphKimball写道:
“我们花了20多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。
”
事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法。
但在实际的操作中,人们却发现要获得有用的信息并非想象的那么容易:
第一,所有联机事务处理强调的是数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷;联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全;第二,业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设;第三,业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。
于是,有人感叹:
20年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。
针对这一问题,人们专门为业务的统计分析建立一个数据中心,它的数据可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到;它是一个联机的系统,专门为分析统计和决策支持应用服务,通过它可满足决策支持和联机分析应用所要求的一切。
这个数据中心就叫做数据仓库。
如果需要给数据仓库一个定义的话,那么可以把它看作一个作为决策支持系统和联机分析应用数据源的结构化数据环境。
数据仓库所要研究和解决的问题就是从数据库中获取信息。
那么数据仓库与数据库(主要指关系数据库)又是什么关系呢?
回想当初,人们固守封闭式系统是出于对事务处理的偏爱,人们选择关系数据库是为了方便地获得信息。
我们只要翻开C.J.Date博士的经典之作《AnIntroductiontoDatabaseSystems》便会发现:
今天数据仓库所要提供的正是当年关系数据库要所倡导的。
然而,“成也萧何,败也萧何”,由于关系数据库系统在联机事务处理应用中获得的巨大成功,使得人们已不知不觉将它划归为事务处理的范畴;过多地关注于事务处理能力的提高,使得关系数据库在面对联机分析应用时又显得“老革命遇到新问题”——今天的数据仓库对关系数据库的联机分析能力提出了更高的要求,采用普通关系型数据库作为数据仓库在功能和性能上都是不够的,它们必须有专门的改进。
因此,数据仓库与数据库的区别不仅仅是应用的方法和目的上的,同时也涉及产品和配置。
以辩证的眼光来看,数据仓库的兴起实际上是数据管理的一种回归,是螺旋式的上升。
今天的数据库就好比当年的层次数据库和网型数据库,它们面向事务处理;今天的数据仓库就好比是当年的关系数据库,它针对联机分析。
所不同的是,今天的数据仓库不必再为联机事务处理的特性而奔忙,由于技术的专业化,它可更专心于联机分析领域的发展和探索。
从厂商的角度看,经过长期发展,联机事务处理系统的市场至90年代中期出现饱和迹象,其增长速度明显减慢。
这导致各大数据库厂商的传统业务增长面临严峻挑战,寻求新的业务增长点成为他们的当务之急。
数据仓库的兴起无疑为数据库产品创造了巨大的市场,它成为20世纪末到21世纪初数据库市场的一个新的增长点。
因此,数据仓库这个词儿打一开始便伴随着轰轰烈烈的市场炒作。
对于广大用户来说,只有从自身应用需求出发,破除技术和概念的神秘性,奉行“拿来主义”,避虚就实,密切关注技术发展的方向,方可获得满意的产品、解决方案和经济效益。
总之,数据仓库并非是一个仅仅存储数据的简单信息库,因为这实际上与传统数据库没有两样。
数据仓库实际上是一个“以大型数据管理信息系统为基础的、附加在这个数据库系统之上的、存储了从企业所有业务数据库中获取的综合数据的、并能利用这些综合数据为用户提供经过处理后的有用信息的应用系统”。
如果说传统数据库系统的重点与要求是快速、准确、安全、可靠地将数据存进数据库中的话,那么数据仓库的重点与要求就是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律信息之后,再供管理人员进行分析使用。
数据仓库白皮书-典型产品篇
CA
数据仓库的应用是企业迈向新生代的一个尝试,但在数据仓库的应用中却又面临着各种各样的困难,如怎样从大量积累数据中提取信息;如何对信息实现足够的访问与分析功能;数据入库处理与应用程序是否归档了;是否能够最终实现真正的信息价值,是否能够轻易地辩认出哪些将受环境中的变动影响等等一系列的问题重新摆在了企业的面前。
为此,CA为我们提供了一个稳健的知识管理解决方案基础架构DecisionBase,它能够满足任何企业的需要,能够集成完全不同的技术解决方案。
通过对这些工具、应用程序、进程与咨询服务的结合能够使您的商业战略更具竞争性,使企业得以在市场中生存。
CA数据仓库解决方案的特色:
◆独特的元数据管理与应用
数据仓库必须优化,以更好地实现数据存取、大量的数据分析乃至交易分析,必须确保数据仓库能够从正确的地方搜集与存储详细的数据,以便进行正确的分析。
元数据管理是仓库环境、性能、利用率的关键基础,最终的数据仓库的价值取决于基础设计。
CA的数据仓库解决方案DecisionBase利用其知识库(Repository)作为中心记录用户的信息资产——关于入库信息的数据。
使商业用户能够更轻易地驾驭数据仓库和理解常有的隐含的数据信息。
这样元数据就象地图一样,它告诉用户的数据仓库里有什么信息,这些信息来自哪里。
◆数据转换
CADecisionBaseReporter提供了简便的方案,创建与共享特定报表,并将其转换为生产报表。
它支持在报表内进行多重查询—使用户可在其报表中创建多重一对多关系,并可进行并列比较。
无需昂贵的中间件或临时表格,报表生成程序就可将来自不同数据库的数据链接起来,使CADecisionBaseReporter能够轻松创建具有专业外观的报表。
◆解析处理功能
CA将三维可视化技术运用到了DecisionBaseOLAPServer中,从而为复杂的数据提供了更好看、更为直观的界面。
这样,用户就能集中精力设计专门的商务功能——提供更稳健的电子商务应用程序,使他们能够更快地进入市场。
CADecisionBaseOLAPServer提供了多维视角,并可通过标准关系数据库顶端的“虚拟立方”实现分析处理功能。
OLAPServer允许用户通过基于LAN的客户机或在浏览器内现场编辑与执行任何分析,动态编辑数据。
在任何层级或细节跟踪与分析关键商业指标。
因为它是Web激活的,所以应用程序可通过Internet、Intranet或Extranet服务器在企业内轻松配置。
◆预测管理功能
CANeugents是企业用于预测管理的先锋。
Neugents能够预测商业结果、规划前景、预计收入,并可识别对这些方面有所影响的因素。
Neugents与基于规则的系统及基于经验的推论(EBR)一起提供了一整套聪明的解决方案,可用于任何商业问题。
通过Neugents与DecisionBase,能够检测企业的客户数据,预测他们最可能购买哪些产品,然后据此安排生产系统。
Neugents可在应用程序内建立学习功能,应用程序可清楚地显示过去所发生的状况,并根据已经改变的环境做出正确的反应。
IBM
IBM公司新推出的DB2UDB7.1主要实现以下功能:
电子商务,包括e-commerce、ERP、客户关系管理、供应链管理、网络自助和商业智能,帮助企业实现电子商务;商业智能,利用已有的数据资源来支持企业决策,包括数据访问、数据分析、成本控制,获取新的商业机会和提高客户忠诚度;数据管理,包括准确高效地运行查询和应用,安全地存储、访问数据,数据恢复,在复杂的硬件环境下实现应用;增强DB2家族,满足当今异构计算环境需求,实现开放式解决方案。
它主要有以下特性:
◆集成能力强
主要包括通用数据支持、免费新增数据仓库中心和DB2OLAPstarterkit。
用户可以使用DB2的数据连接器(DataJoiner),象访问DB2数据资源一样访问Oracle、Sybase、Informix、SQLServer等数据库。
DB2UDB的用户现在可以跨越DB2数据库、Oracle数据库或者一个OLEDB资源进行分布式的查询,也就是可以通过使用DB2通用数据库的SQL句法和API在一个工作单元的查询内访问和处理保存在异构数据资源中的数据。
◆高级面向对象SQL
DB2UDBV7中包含了一些先进的SQL功能,对开发人员和分析员都非常有用。
DB2可以提供临时表格支持、应用存储点(savingpoint)、标识栏(IDColumn)和嵌套存储过程。
◆Windows集成
DB2UDB7.1增加了对于Windows环境集成的支持:
OLE-DB2.0版本的客户端支持功能;OLE存储过程的集成支持;VisualStudio集成;LDAPonWin2000支持;扩展用户ID支持。
DB2V7.1加强了对OLE-DB的支持功能。
现在用户可以用OLE-DB的应用工具通过本地的OLE界面来访问或查询DB2数据,也可以通过OLE-DB的表格功能把数据装载到DB2中。
提供三个新的扩展器:
◆空间扩展器(SpatialExtender)
新版DB2提出了空间SQL查询概念(SpatiallyEnabledSQLQueries),使用户可以在关系型数据库中集成空间数据(通过坐标确定位置)和普通的SQL数据。
这两种技术的结合使用户可以进行新型查询。
新的空间扩展器将能够存储和索引空间数据(坐标信息),并使用户通过特定的空间数据查询对其进行访问。
◆DB2XML扩展器
IBMDB2XMLExtender体现了IBM全面的XML技术策略,在电子商务领域居业界领导地位。
XML扩展器是IBMB2B服务器的组成部分,使DB2服务器可以支持XML。
通过XML扩展器提供了XML文档在DB2中的存储和恢复机制,并可高效地查询XML内容。
通过数据