基于多维数据模型的在线查询系统的分析与应用.docx
《基于多维数据模型的在线查询系统的分析与应用.docx》由会员分享,可在线阅读,更多相关《基于多维数据模型的在线查询系统的分析与应用.docx(110页珍藏版)》请在冰豆网上搜索。
基于多维数据模型的在线查询系统的分析与应用
基于多维数据模型的在线查询系统的分析与应用
华北电力大学硕士学位论文
摘要
本文以北京市出租车决策支持系统为背景,利用数据仓库及OLAP多维分析等相关技术,对出租车营运数据这个主题进行了比较全面、深入地分析与研究,设计实现了一套以营运数据为主题的基于多维数据模型的在线查询系统。
首先介绍了查询系统的发展历史、相关技术和国内外发展现状。
重点完成了多维数据模型设计中主题范围的确立、度量值的选取及问题分析角度(维度)的选取等方面的工作;采用了MOLAP模式的存储方式,在充分分析用户需求的基础上,设计实现了基于多维数据模型的、操作简单、维度结构清晰的查询系统。
关键词:
数据仓库,在线分析处理,多维数据模型,多维联机分析处理一
BasedonthedecisionsupportsystemoftaxisinBeijing,thepapermakesarelativelycomprehensiveanddeepanalysisandstudyofthesubieftoftaxis’operationdatabyusingrelevanttechniquesofdatawarehouseand0LAPmuti.dimensionalanalysis.ThePaperdesignsanon.1inequerysystembasedOnthemulti.dimensionaldatamodelwhichtakesoperationdataastheSUbiect.
Thepaperfirstintroducesthehistoryofthedevelopmentofthequerysystem,therelevanttechniques,andthestatusquoofthedomesticandoverseasdevelopmentofthesystem.Then,thepapergivesadetailedanalysisoftherangeoftheSUbject,selectingthe
measurevalueandtheproblemanalysisangle(dimension)ofthemulti.dimensionaldata
model.Basedonadetailedanalysisoftherequirementsoftheusers,thepaper,by
adoptingthestoragemethodofMOL心mode,designsthequerysystemthatisbasedon
multi.dimensionaldatamodelwithsimpleoperationandcleardimensionalstructure.
WangQiang(Computerapplicationtechnology)
Directedbyassociateprof.QiLin·hai
KEYWORDS:
datawarehouse,olap,multi-dimensionaldatamodel,molap
华北电力大学硕士学位论文
摘要
本文以北京市出租车决策支持系统为背景,利用数据仓库及OLAP多维分析等相关技术,对出租车营运数据这个主题进行了比较全面、深入地分析与研究,设计实现了一套以营运数据为主题的基于多维数据模型的在线查询系统。
首先介绍了查询系统的发展历史、相关技术和国内外发展现状。
重点完成了多维数据模型设计中主题范围的确立、度量值的选取及问题分析角度(维度)的选取等方面的工作;采用了MOLAP模式的存储方式,在充分分析用户需求的基础上,设计实现了基于多维数据模型的、操作简单、维度结构清晰的查询系统。
关键词:
数据仓库,在线分析处理,多维数据模型,多维联机分析处理一
BasedonthedecisionsupportsystemoftaxisinBeijing,thepapermakesarelativelycomprehensiveanddeepanalysisandstudyofthesubieftoftaxis’operationdatabyusingrelevanttechniquesofdatawarehouseand0LAPmuti.dimensionalanalysis.ThePaperdesignsanon.1inequerysystembasedOnthemulti.dimensionaldatamodelwhichtakesoperationdataastheSUbiect.
Thepaperfirstintroducesthehistoryofthedevelopmentofthequerysystem,therelevanttechniques,andthestatusquoofthedomesticandoverseasdevelopmentofthesystem.Then,thepapergivesadetailedanalysisoftherangeoftheSUbject,selectingthe
measurevalueandtheproblemanalysisangle(dimension)ofthemulti.dimensionaldata
model.Basedonadetailedanalysisoftherequirementsoftheusers,thepaper,by
adoptingthestoragemethodofMOL心mode,designsthequerysystemthatisbasedon
multi.dimensionaldatamodelwithsimpleoperationandcleardimensionalstructure.
WangQiang(Computerapplicationtechnology)
Directedbyassociateprof.QiLin·hai
KEYWORDS:
datawarehouse,olap,multi-dimensionaldatamodel,molap
/士=i明明
本人郑重声明:
此处所提交的硕士学位论文《基于多维数据模型的在线查询系统的研究与应用》,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作和取得的研究成果。
据本人所知,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其他教育机构的学位或证书而使用过的材料。
与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。
学位论文作者签名:
丢琵2日
关于学位论文使用授权的说明
本人完全了解华北电力大学有关保留、使用学位论文的规定,即:
①学校有权保管、并向有关部门送交学位论文的原件与复印件;②学校可以采用影印、缩印或其它复制手段复制并保存学位论文;③学校可允许学位论文被查阅或借阅;④学校可以学术交流为目的,复制赠送和交换学位论文;⑤同意学校可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容。
(涉密的学位论文在解密后遵守此规定)
日期:
日期:
乡2:
至:
f2
华北电力大学硕士学位论文
第一章引言
1.1查询系统的发展过程
今天,计算机在信息管理中的应用正从单项事物处理转向系统应用,从辅助一般管理转向辅助管理决策,从局部管理转向全局管理,并实现了计算机的集成应用。
信息查询系统是企业信息发布中非常重要的一环。
在信息系统的数据库中存储着大量的技术、经济、生产、人事、设备和市场等信息,要从中快速方便的查到所需要的信息,是信息查询系统的基础。
现在随着Internet的发展,人们已经将查询的范围扩展得越来越广,也越来越希望及时获得最大范围内的信息【u。
在计算机时代的早期,查询系统均属于单机上的、零散的、孤立的系统。
无论是用户界面、查询程序还是数据库系统都在同一台机器中。
在查询程序的用户界面中,用户输入要查询的条件,程序在数据库中按顺序进行检索,找出符合条件的结果,然后将结果返回给用户。
这种方法很简单易用,也比手工做同样的工作快得多。
但随着时间的推移,由于人们输入的信息越来越多,电子表格越来越庞大,结果使得用户的要求开始有所转变了。
在c/s模式的信息查询系统中,查询程序被分成两部分.喀户端应用程序和服务器端应用程序。
用户在客户端程序中提出查询请求,接着请求被客户端程序发送到服务器端;服务器端的程序根据收到的请求信息在数据库中进行查找,并将符合条件的结果返回给客户端程序,最后客户端程序将结果显示在输出设备上,供用
户查阅。
C/S查询模式如图1-1所示。
反坯耳咧绡水。
I.戮Server
返回查询结果服务器端
图1-1哪查询模式图
通过这种方式,节省了信息资源,多个用户可以共享一台服务器上的数据。
但随着使用的深入,人们发现在使用C/S模式的信息查询系统中,需要在所有使用该系统的机器上安装并配置客户端程序,这比较复杂并难于维护,而且当需要升级时,必须对每台客户机进行改变。
同时操作系统和安装在客户机上的其他软件的版本变化,都会频繁地与客户端程序发生冲突。
随着计算机的广泛应用和网络技术的飞速发展,很多企业都组建了企业内部网Intranct。
这些内部网一般采用TCP/IP作为通信协议,将客户端、数据库服务器、
华北电力大学硕士学位论文
Web服务器分开以Browser/Server模式运行,这使得查询系统由传统的模式向网络应用模式转化。
客户端只需安装浏览器,即可访问相关资源,减轻了以往客户端程序的开发及安装、配置,而作为数据库服务器主要是用来存储各种数据,至于Web服务器则用来向客户端提供访问界面,并通过该界面实现对数据的访问。
这样各部分分工明确,维护起来方便简单。
当数据库中的数据发生变化时,客户端的环境无需做任何改动即可实现数据的更新,同时也隔断了客户端与数据库的直接联系,增强了数据的安全性。
具体访问过程如图1.2所示【21。
图1-2B/S查询模式图
但是,随着Intranet复杂性的迅速增加和数据库技术的发展,传统的范例查询模式渐渐满足不了对迅速增长的海量历史数据的自由查询。
因此,必须提高Intranet用户访闯数据库的灵活性,允许用户像数据库管理员一样,自由地查询数据库。
这可以借助于数据仓库中的多维数据模型来达到这个目的。
数据仓库是一个按主题组织多维结构的大型数据库,它与操作型数据库分别维护。
那么用户如何有效地从数据仓库中获得这些信息呢,这就涉及到数据仓库如何展现的问题。
数据仓库存放着商业主题域的大量信息,展现这些信息的任务就由附属数据仓库的工具来完成。
现有的数据仓库工具主要有综合查询工具、OLAP分析工具和数据挖掘工具。
1.2当前国内外查询系统现状
现在的查询系统已经和过去的查询系统完全不同,从某种意义上说它属于商业智能(BusinessIntelligence,BI)的一部分,商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具【3】。
这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商资料及来自企业所处
行业和竞争对手的数据,以及来自企业所处的其他外部环境中的各种数据。
国外商业智能的发展较早,技术也比较成熟,很多商业智能厂商比如BO,IBM,
Oracle等都提供了丰富的工具。
在国外已有很多公司成功实施商业智能的案例,比
如AT&TUniversal公司通过部署商业智能解决方案,每年减少信用卡欺诈额高达8001万美元;Cadbury巧克力公司借助商业智能使市场份额很快从28%提升到了
30%;美国第二大银行哪旗银行(Citibank)在商业智能系统的帮助下,能够有效
分析其分布于57个国家的客户信息【4~5J。
目前国内电信、银行、证券公司等很多大型企业也纷纷建立了自己的Bl解决
2
华北电力大学硕士学位论文
方案。
但是出租车行业目前国内外还很少有建立自己BI系统的先例,上述这些企业都有一个共同特点:
实时产生数据量巨大,同时还存储着海量的历史数据,这些海量的历史数据不仅分布式存储在异构的数据库中,而且数据字段格式和意义也可能不统一。
要想合理利用这些海量的数据,发掘出有价值的知识,实现整个企业的商业智能化,光靠传统的联机事物处理系统(Ou限)已经不能满足要求了,而目前这些企业的查询系统大都建立在OLTP基础上,对业务数据的查询也以固定条件的C/S查询模式为主,不能达到自定义查询条件的在线查询要求。
同时这些查询系统都是针对传统的的关系数据库和OLTP系统,采取建立各种索引等类似技术进行优化,这些查询系统能高效地完成固定条件驱动的详单级数据查询,但在进行聚集查询时(如在时间上进行聚集以查看历史趋势等操作)就显得效率很低了,因此需要借助多维数据库以及OLAP的一系列技术来解决目前的问题【6】。
1.3课题背景及主要研究工作
出租车交通是城市公共交通的一个重要组成部分,由于其快速、便利、舒适、安全等特点,已经成为一种不可替代的公共交通方式。
北京市目前有将近300家出租车公司、近70000辆出租车承担着北京市出租车行业的营运任务。
为了衡量出租车对整个北京市交通的影响,维护出租车的正常营运秩序,作为出租车行业的主管部门必须及时准确掌握全市出租车营运情况,以便对整个行业进行有效的指导,这就有必要建立一套智能化的、高效率的软件平台实现对出租车公司经营数据、出租车营运数据进行收集,并对数据信息进行挖掘、分析,为政府决策部门及时准确地提供决策依据川。
本文在深入研究数据仓库技术及OLAP技术的基础上,通过对北京市政一卡通中心出租车运行数据、出租车IC卡数据、政府出租车信息档案库数据进行整合,采用OLAP工具建立一套基于多维数据模型的在线查询系统,辅助管理人员制定各种决策信息。
主要完成以下工作:
1.选择使用MOLAP的物理存储方式,将整合后的数据从SqlServer数据库中
经过抽取(Extract)、转换(Transform)、装载(Load)等操作存储到多维数据库
(MDDB)中。
2.使用MOLAP工具建立多维数据模型,从出租车车型、价格、营运时间、收入、工作种类、出租车公司、出租车公司所属区域、出租车的运距等角度对业务数据进行分析。
3.对于分析的结果主要通过Excel和Web两种方式以图表和表格的形式展现给不同级别的决策者,供其决策使用。
3
华北电力大学硕士学位论文
第二章基于多维数据模型在线查询系统使用到的相关技术
2.1数据仓库与数据集市
2.1.1数据仓库如何有效地管理企业在运营过程中产生的大量数据和信息一直是11'人员面临
的重要问题。
70年代出现并被广泛应用的关系型数据库技术为解决这一问题提供了强有力的工具。
然而,从80年代中期开始,随着市场竞争的加剧,信息系统用户已经不满足于用计算机仅仅去管理日复一日的运营数据,他们更需要的是从这些数据中得到有用的信息,以便于进行决策支持。
这种需求使得在80年代中后期出现了数据仓库思想的萌芽,为数据仓库概念的最终提出和发展打下了基础。
1992年,W.H.Inmon在其里程碑式的《建立数据仓库》中提出了“数据仓库"的概念,从此数据仓库的研究和应用得到了广泛的关注IsJ。
Inmon提出【9】:
“一个数据仓库通常是一个面向主题的、集成的及随时间变化的,但信息本身又相对稳定的数据集合,它用于对管理决策过程的支持。
打所谓主题,在这里是指用户使用数据仓库进行决策时所关心的重点方面,如银行存款情况、贷款情况、客户群情况、利润情况等;面向主题是指数据仓库内的信息是按主题进行组织的,为按主题进行决策的过程提供信息;集成是指数据仓库中的信息不是从各个业务处理系统中简单抽取出来的,而是经过系统加工、汇总和整理的,保证数据仓库内的信息是关于整个企业的一致的全局信息;随时间变化则是指数据仓库内的信息并不只是关于企业当时或某一时刻的信息,而是系统纪录了企业从过去某一时刻到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
所谓信息本身相对稳定是指一旦某个数据进入数据仓库后,一般情况下将被长期保留,也就是数据仓库中一般有大量的插入和查询操作,但修改和删除操作却很少。
2.1.2数据集市对一个企业或者组织建立一个大而全的数据仓库,并不一定能取得满意的结
果。
虽然数据仓库的数据组织是面向主题的,并为分析的需要保存了许多综合数据,
但分析要求千变万化,不可能要求一个单一层次的数据仓库能完成符合各种各样分析的要求。
数据仓库的主题要求不断完善,不断高速综合数据的内容和形式也要灵活多变。
另外,随着数据的不断载入,数据仓库将越来越大,分析工作完全基于单一层次的数据,性能将十分低下,因而要在数据仓库系统中引入数据集市的概念llⅢ。
4
华北电力大学硕士学位论文
数据集市是按照某一特定部门的决策支持需求而组织起来的,针对一组主题的应用系统。
例如,一个公司的财务部门拥有自己的数据集市,用来进行财务方面的报表分析。
数据集市结构如图2.1所示。
图2-1数据集市结构图
数据集市是面向部门的,它的应用范围及数据结构与数据仓库不一样。
数据仓库是企业级的,基于整个组织的数据模型建立的,面向整个组织范围内的主题;数据仓库中的数据是详细的、集成的和历史的,数据集市只有较少的历史数据,且不够详细,数据选取的基本原则是能满足本部门的需求而已。
数据集市中的数据也按主题组织,但由于部门的主题领域和企业级的主题领域有不同之处,数据集市并不是从数据仓库中截取片段数据,而是要对数据进行重组。
如图2.1所示,主题有主题A1,主题A2,主题A3,主题An:
某部门的数据集市的主题有主题B1,主题B2,主题B3,Bm,箭头表示数据集市如何从数据仓库获取数据,由图2.1中可以看出,数据集市打破了数据仓库的主题界限重组数据。
数据集市可分为从属数据集市和独立数据集市两种类型,从属数据集市的数据来源于数据仓库。
上面谈到的数据集市都属于这一种,独立数据集市的数据直接源于OLTP系统。
图2.2描述了这两种不同的数据集市。
从属数据集市因为其数据来源都是数据仓库,所以能保证各子系统数据的一致;独立数据集市因为省略了数据仓库这一步骤所以见效快,但不能保证各子系统数据的一致性,从长远来看,这种结构是不稳定的,也是不可行的。
5
华北电力大学硕士学位论文
数据源
图2-2两种数据集市对比
2.2在线联机分析处理技术(OLAP)
2.2.1从联机事务处理(0LTP)到联机分析处理(0LAP)
五十年代末,事务处理系统(TPS)开始在企业中被广泛使用。
这时,计算机作为信息处理工具,主要是完成信息的收集、存储和加工整理。
企业引进计算机的主要目的是在某些业务(如:
销售、财务统计等)中提供联机事务处理(Ou'P),以提高数据处理的效率和减轻人员的工作负担。
但是,企业中业务并不是各自独立的,往往是多个业务构成一个业务流程,而这多个业务彼此之间环环相扣、相互关联,前一个业务处理的结果通常就是后一个业务处理的数据源,因此这些业务间必须进行信息交换和数据共享。
进入七十年代后,由于市场竞争的日益激烈,企业管理人员为了迅速掌握外界和企业内部的各种变化信息并做出反应,在决策分析方面对计算机提出了进一步地要求。
于是,以数据分析和建模定量分析为基础的决策支持系统(DSS)应运而生Il¨。
决策支持系统以决策性数据为基础,它与事务处理系统中的操作性数据是截然不同的。
二十多年来,决策支持系统的研究、开发和推广应用有了很大的发展,为企业的各层管理人员进行决策分析提供了有力的支持。
九十年代初,建立在决策支持系统基础上的联机分析处理(OL廿)开始兴起,并成为当前信息系统的研究热点之一。
联机分析处理(OLAP)的概念最早是由关系数据库之父E.ECodd于1993年的一篇论文中提出的【12l。
当时,Codd认为联机事务处理(OU’P)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。
用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果
6
华北电力大学硕士学位论文
并不能满足决策者提出的需求。
因此Codd提出了OLAP的概念。
根据OLAP产品的实际应用情况和用户对OLAP产品的需求,人们提出了一种对OLAP更简单明确的定义,即共享多维信息的快速分析。
根据这个定义,描述了OLAP的五大特征如
下p3].
●●
1.快速性(Fast)用户对OLAP的快速反应能力有很高的要求。
系统应能在5秒内对用户的大部
分分析要求做出反应。
如果终端用户在30秒内没有得到系统响应就会变得不耐烦,因而可能失去分析主线索,影响分析质量。
对于大量的数据分析要达到这个速度并不容易,因此就更需要一些技术上的支持,如专门的数据存储格式、大量的事先运算、特别的硬件设计等。
2.可分析性(Analysis)
OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
尽管系统需要事先编程,但并不意味着系统已定义好了所有的应用。
用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户理想的方式给出报告。
用户可以在OLAP平台上进行数据分析,也可以连接到其他外部分析工具上,如时间序列分析工具、成本分配工具、意外报警、数据开采等。
3.共享性(Shared)
OLAP应在保证系统安全的基础上,提供多用户共享数据与信息的机制。
OLAP系统应规定不同用户的使用权限,对元数据级别进行安全设置,从而更好地加以控制。
例如,当多个用户同时向OLAP服务器写数据时,系统应能在适当的粒度级别上加更新锁。
4.多维性(Multidimensional)多维性是OLAP的关键属性。
系统必须提供对数据分析的多维视图和分析,包
括对层次维和多重层次维的完全支持。
事实上,多维分析是分析企业数据最有效的方法,是OLAP的灵魂。
5.信息性(Information)不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,
并且管理大容量信息。
这里有许多因素需要考虑,如数据的可复制性、可利用的磁盘空间、OLAP产品的性能及与数据仓库的结合度等。
2.2.2OLAP的多维数据结构
1.维
维(Dimension)是人们观察数据的特定角度,是主题的基础,是对主题的一种类型划分。
例如,本系统中出租车管理处想了解某一时间某一地区某一车型的营运
7
华北电力大学硕士学位论文
情况