硕士学位论文基于ETL应用的商业决策信息系统的设计与实现.docx
《硕士学位论文基于ETL应用的商业决策信息系统的设计与实现.docx》由会员分享,可在线阅读,更多相关《硕士学位论文基于ETL应用的商业决策信息系统的设计与实现.docx(95页珍藏版)》请在冰豆网上搜索。
硕士学位论文基于ETL应用的商业决策信息系统的设计与实现
基于ETL应用的商业决策信息系统的设计与实现
2010ProfessionalMaster’sDegreeThesisUniversityCode:
10269
StudentID:
63131500220
EastChinaNormalUniversity
BasedontheETLapplicationinformationsystemdesignandimplementationofbusinessdecisions
Department:
SoftwareEngineeringInstitute
Type:
MasterofEngineering
Domain:
SoftwareEngineering
Supervisor:
PuGeguangprofessor
Applicant:
LuoXianjie
毕业设计(论文)原创性声明和使用授权说明
原创性声明
本人郑重承诺:
所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。
尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。
对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。
作者签名:
日 期:
指导教师签名:
日 期:
使用授权说明
本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:
按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。
作者签名:
日 期:
学位论文原创性声明
本人郑重声明:
所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。
除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。
对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本人完全意识到本声明的法律后果由本人承担。
作者签名:
日期:
年月日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权 大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
涉密论文按学校规定处理。
作者签名:
日期:
年月日
导师签名:
日期:
年月日
注意事项
1.设计(论文)的内容包括:
1)封面(按教务处制定的标准封面格式制作)
2)原创性声明
3)中文摘要(300字左右)、关键词
4)外文摘要、关键词
5)目次页(附件不统一编入)
6)论文主体部分:
引言(或绪论)、正文、结论
7)参考文献
8)致谢
9)附录(对论文支持必要时)
2.论文字数要求:
理工类设计(论文)正文字数不少于1万字(不包括图纸、程序清单等),文科类论文正文字数不少于1.2万字。
3.附件包括:
任务书、开题报告、外文译文、译文原文(复印件)。
4.文字、图表要求:
1)文字通顺,语言流畅,书写字迹工整,打印字体及大小符合要求,无错别字,不准请他人代写
2)工程设计类题目的图纸,要求部分用尺规绘制,部分用计算机绘制,所有图纸应符合国家技术标准规范。
图表整洁,布局合理,文字注释必须使用工程字书写,不准用徒手画
3)毕业论文须用A4单面打印,论文50页以上的双面打印
4)图表应绘制于无格子的页面上
5)软件工程类课题应有程序清单,并提供电子文档
5.装订顺序
1)设计(论文)
2)附件:
按照任务书、开题报告、外文译文、译文原文(复印件)次序装订
指导教师评阅书
指导教师评价:
一、撰写(设计)过程
1、学生在论文(设计)过程中的治学态度、工作精神
□优□良□中□及格□不及格
2、学生掌握专业知识、技能的扎实程度
□优□良□中□及格□不及格
3、学生综合运用所学知识和专业技能分析和解决问题的能力
□优□良□中□及格□不及格
4、研究方法的科学性;技术线路的可行性;设计方案的合理性
□优□良□中□及格□不及格
5、完成毕业论文(设计)期间的出勤情况
□优□良□中□及格□不及格
二、论文(设计)质量
1、论文(设计)的整体结构是否符合撰写规范?
□优□良□中□及格□不及格
2、是否完成指定的论文(设计)任务(包括装订及附件)?
□优□良□中□及格□不及格
三、论文(设计)水平
1、论文(设计)的理论意义或对解决实际问题的指导意义
□优□良□中□及格□不及格
2、论文的观念是否有新意?
设计是否有创意?
□优□良□中□及格□不及格
3、论文(设计说明书)所体现的整体水平
□优□良□中□及格□不及格
建议成绩:
□优□良□中□及格□不及格
(在所选等级前的□内画“√”)
指导教师:
(签名)单位:
(盖章)
年月日
评阅教师评阅书
评阅教师评价:
一、论文(设计)质量
1、论文(设计)的整体结构是否符合撰写规范?
□优□良□中□及格□不及格
2、是否完成指定的论文(设计)任务(包括装订及附件)?
□优□良□中□及格□不及格
二、论文(设计)水平
1、论文(设计)的理论意义或对解决实际问题的指导意义
□优□良□中□及格□不及格
2、论文的观念是否有新意?
设计是否有创意?
□优□良□中□及格□不及格
3、论文(设计说明书)所体现的整体水平
□优□良□中□及格□不及格
建议成绩:
□优□良□中□及格□不及格
(在所选等级前的□内画“√”)
评阅教师:
(签名)单位:
(盖章)
年月日
华东师范大学学位论文原创性声明
郑重声明:
本人呈交的学位论文《基于ETL应用的商业决策信息系统的设计与实现》,是在华东师范大学攻读硕士/博士(请勾选)学位期间,在导师的指导下进行的研究工作及取得的研究成果。
除文中已经注明引用的内容外,本论文不包含其他个人已经发表或撰写过的研究成果。
对本文的研究做出重要贡献的个人和集体,均已在文中作了明确说明并表示谢意。
作者签名:
日期:
年月日
华东师范大学学位论文著作权使用声明
《基于ETL应用的商业决策信息系统的设计与实现》系本人在华东师范大学攻读学位期间在导师指导下完成的硕士/博士(请勾选)学位论文,本论文的研究成果归华东师范大学所有。
本人同意华东师范大学根据相关规定保留和使用此学位论文,并向主管部门和相关机构如国家图书馆、中信所和“知网”送交学位论文的印刷版和电子版;允许学位论文进入华东师范大学图书馆及数据库被查阅、借阅;同意学校将学位论文加入全国博士、硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编出版,采用影印、缩印或者其它方式合理复制学位论文。
本学位论文属于(请勾选)
()1.经华东师范大学相关部门审查核定的“内部”或“涉密”学位论文*,
于年月日解密,解密后适用上述授权。
()2.不保密,适用上述授权。
导师签名本人签名
年月日
*“涉密”学位论文应是已经华东师范大学学位评定委员会办公室或保密委员会审定过的学位论文(需附获批的《华东师范大学研究生申请学位论文“涉密”审批表》方为有效),未经上述部门审定的学位论文均为公开学位论文。
此声明栏不填写的,默认为公开学位论文,均适用上述授权)。
摘要
随着信息管理系统的应用的增多,企业的业务系统中产生了越来越多的数据孤岛。
怎样把数据孤岛利用起来,于是就产生了ETL概念。
ETL指的是数据抽取、数据转换和数据加载,他们在构建数据仓库过程中占到了极其重要的地位。
在如今社会中,信息在企业中的地位日趋重要,是企业进行科学的管理以及决策分析的基础。
目前,大部门企业在构建业务系统和办公自动化系统中花费了大量的时间和资金,用来记录业务处理的各类数据。
在普遍情况中,企业的数据量每2年左右就会翻倍增长,数据中隐藏着大量的商业价值,但是往往企业所能运用的仅仅只占总量的4%左右。
企业并没有将这些数据资源加以最大化地利用,从而浪费了更多的资金以及时间,更在制定商业决策时候失去了先机。
于是,企业如何运用技术手段,将这些业务数据更好加以利用,已成为提高企业竞争力的瓶颈。
本文以国内某企业为研究背景,根据公司决策层的需求,分析和设计了适合公司决策支持的数据仓库物理结构和逻辑模型,并对数据抽取、转换、装载(ETL)和数据清洗等技术进行了具体地应用实践,设计并实现了可满足决策分析所需的数据仓库及其相关的ETL工具。
本论文的主要研究内容和成果概述如下:
首先,在调研该企业的组织机构、业务系统和企业管理流程的基础上,分析和设计了适合该公企业实际需要的数据仓库的五大模块,即财务模块、供应链模块、成本模块、生产制造模块和人力资源模块。
采用星型和雪花模型结合的方式,设计了五大模块的逻辑和物理模型。
根据企业具体情况,在操作数据存储(ODS)下创建了数据仓库。
其次,设计了一个ETL工具以解决半结构化数据的抽取。
运用DOM对象对数据源进行分析,从企业实际出发设计的ETL工具,能够将企业财务软件导出的XML格式数据加载到数据仓库中,也解决了商用的ETL工具无法对XML文档进行直接抽取、加载的弊端,解决了企业数据分析的实际困难。
最后,设计了基于结构化数据的ETL工具。
在该企业实际运行的业务系统中,基于ORACLE和SQLSERVER的结构化数据占了大多数,基于结构化数据的ETL工具,给用户开放了自行设计清洗函数接口,解决了商用ETL工具清洗函数的不可扩展问题。
另外,并且在元数据中保存了数据提取的SQL脚本,降低了同种SQL多次执行时重编译的时间开销。
关键词:
ETL,ERP,数据仓库,XML,ODS
Abstract
Withtheincreasingapplicationoftheinformationmanagementsystem,enterprisesinthebusinesssystemhashadmoreandmoredataisland.Howtousethesedataisland,thiscreatedtheconceptofETL.ETLisadataextraction(Extract),dataconversion(Transform)anddataloading(Loading),istobuildadatawarehouseisextremelyimportantpart.Intoday'ssociety,informationistheimportantresourceofenterprise,istheenterprisewithscientificmanagement,decisionanalysisbased.Atpresent,mostcompaniesspendalotoftimeandmoneytobuildonlinetransactionprocessingmanagementsystemandofficeautomationsystem,usedtostorethetransactionrelateddata.Accordingtostatistics,theamountofdataevery2to3yearstimewillgrowexponentially,thesedatacontainsahugecommercialvalue,andenterpriseconcernoftenonlyaccountsforthetotalamountofdatafrom2%to4%.Therefore,theenterprisestillnotmaximizetheuseofexistingdataresources,sowastemoretimeandmoney,butalsolostthebestopportunitytomakecriticalbusinessdecisions.Then,howtheenterprisesthroughavarietyoftechnicalmeans,andtoconvertdataintoinformation,knowledge,hasbecomethemainbottlenecktoimproveitscorecompetitiveness.
Inthispaper,adomesticenterpriseastheresearchbackground,accordingtothecompany'sdecision-makingneeds,analysisanddesignforthecompany'sdecisionsupportdatawarehousephysicalstructureandthelogicalmodel,dataextraction,transformationandloading(ETL),andthedatacleaningtechniqueforspecificapplicationpractice,thefinaldesignandimplementationcanmeetthedecisionanalysisofthedesireddatawarehouseandrelatedETLtools.Thepresentpapermainresearchcontentsandresultsaresummarizedasfollows:
Firstofall,intheinvestigationoftheenterpriseorganization,businesssystemandmanagementonthebasisofanalysisanddesignforthecompany,decision-makingsupportrequiredbythedatawarehouseinthefivemajorthemes,namelythefinancialsubject,theme,thethemeofsupplychaincost,manufacturingandhumanresourcesthemetheme.Adoptstartypemodelandsnowflakemodelcombining,establishedthefivemajorthemesofthelogicalmodelandphysicalmodel.Accordingtothecompany'sspecificsituation,intheoperationdatastorage(ODS)environmenttoachievedatawarehouse.
Secondly,thedesignofaXMLbasedsemistructureddataETLtools.UseDOMobjectanalysisofXMLdatasource,fromtheenterpriseactualsituationthedesignandimplementationofsemistructureddataETLtools,solvethecompany'sfinancialsoftwaresysteminterfaceXMLsemi-structureddataisloadedintoadatawarehouseoftheproblems,butalsosolvethecommerciallyavailableETLtoolscannotbedirectlyextractedandloadedintothedatawarehouseXMLdocumentmalpractice,tomeettheactualneedsofenterprises.
Then,thedesignofastructureddataETLtools.Inthecompany'sexistingbusinesssystems,mostofthedataarebasedonORACLE9andSQLSERVER2005structureddatathroughstructureddata,designandimplementationofETLtool,totheusertoreservethecustomdatacleaningfunctioninterface,makeupthecommercialETLtoolcleaningfunctioncannotbeextendeddefects.Inaddition,insupportofETLtoolsoperationmetadatatoretainthedataextractedfromtheSQLtext,reducesthesimilarSQLisexecutedagaintorecompilebringstimeoverhead.
Keywords:
ETL,ERP,DW,XML,ODS
第一章绪论
1.1相关背景
1.1.1课题背景
自从数据库相关技术产生以来,越来越多的企业使用计算机来替代纸质文档记录生产活动中产生的业务信息,以提高工作的效率。
但是,系统开发人员往往只是针对独立的问题来设计应用程序以完成特定的目的,从而导致这些系统程序之间由于缺少必然的联系不能协同工作,使得在现有的独立系统基础上无法实现企业高层次的信息共享。
企业如果要从这些积累下的信息数据中提取所需要的的信息,就必须要将这些相互独立的信息数据集成起来,创建数据仓库,从而达到各系统信息共享的目的,这样企业才能迅速、更准确的对当前和过往数据进行分析,对今后事态发展进行预测,才能为做出理想的决策提供依据[1,2]。
企业的日常业务数据是建立数据仓库的基础,而建立数据仓库的目的是为了能够从数据仓库中筛选出所需要的信息以更好的支持企业决策。
而建立数据仓库的整个过程,它是面向主题、集成并且不可更新的,是不断变化的,需要从基本框架的建立入手,不断完善和丰富整个系统[3]。
数据集成是建立数据仓库的难点,而在数据集成的过程之中又将解决三个主要问题:
数据的更新同步,数据源之间各类数据的不一致表现,如何融合不同的数据源[4]。
ETL即数据提取、转换和装载,是数据仓库的核心技术之一[5],是构建数据仓库的重要一环。
数据仓库项目中60%-80%的工作量是用来进行ETL过程的建立与执行的[6,7,8,9]。
将数据从不同的数据源中采集到各自的目标数据库的过程,就是所谓的ELT过程,ETL能够管理数据的质量,并且将其贯穿于整个方案的全过程中。
数据仓库建设过程的主要部分就是ETL,其效率和数据质量直接影响数据仓库的建设和企业决策分析的有效性。
1.1.2项目背景
----------公司主要生产、销售给类油封制品、密封罩、保护圈、减震橡胶等其他工业橡胶制品。
产品广泛应用于汽车船舶、航空航天、铁路车辆、建筑机械、农用机械、石油化工、家用电器等领域。
公司成立于1995年,由于受当时条件限制,公司对企业信息化建设仅仅是从应用层面上展开,没有以企业整体角度进行规划,导致企业如今同时存在财务、生产、销售、采购、仓存、人事、客户管理等多套业务系统,并且各个业务系统的品牌和平台各不相同。
一方面经过这么多年的使用,存储了海量的业务数据,随着数据量的剧增导致企业业务系统的响应速度越来越慢;另一方面企业管理层人员所需要的报表五花八门,有业务数据也有有财务数据的,但是同样的数据经过各自系统的加工之后就会存在很大差异,给企业决策带来了困难。
这些运行在各个业务部门,满足部门级应用的业务软件系统给企业带来的问题表现为:
1整体系统数据响应速度越来越慢。
2缺乏分析数据一致性。
来源于不同口径的统计数据出现了不一致现象,带来了决策上的不便。
3多数据源并存,数据统计分析困难。
4历史数据管理越来越繁杂。
5目前系统对企业的宏观管理缺乏数据支撑。
为解决这些问题,加强企业的决策力,把握未来企业的发展方向,公司高层决定使用ETL技术建立企业级数据仓库满足企业的财务、供应链、生产、成本、人事分析的需要。
1.2国内外研究现状
从20世纪70年代中期开始人们就进行了数据集成的研究,其发展可归纳两个过程,过程一针对多数据库系统[10,11]的研究。
这个过程可分为三类。
第一,物理上分布而逻辑上集中的结构;第二,逻辑和物理均分布的结构,每个结点采用邦联的独立模式,而并非采用全局模式;三是多语言数据集成。
20世纪80年代至90年代,随着计算机及和网络的日益普及,传统的数据集成方案对人们获取更多数据的要求已经无法满足,这时数据仓库理论开始被人们接受,相关技术随之产生和应用。
数据仓库的集成工具:
ETL技术的研究也随着数据仓库技术的发展日益活跃,研究主要涉及以下方面[12,13]:
(1)为避免扫描整个庞大的数据集而进行的高效数据检测算法的研究;
(2)在数据自动化清洗和检测中增加人工判断过程为了提高处理的精度;
(3)并行处理海量数据集的研究;
(4)消除合并数据冗余的研究;
(5)数据清洗框架通用性的研究;
(6)数据仓库数据更新的研究;
(7)ETL工作流的研究;
(8)ETL过程优化的研究。
由于ETL在数据仓库中的重要地位,其已成为各类软件厂商占领市场的战略要地。
众多国外数据仓库项目被成功实施,软件厂商纷纷推出了自己的相关产品,如IBM的WarehouseManager,Microsoft的DTS,Oracle的WarehouseBuilder,Informatica的DataStage等[14,15,16]。