集装箱码头数据仓库的设计与实现硕士学位论文.docx-资源下载

集装箱码头数据仓库的设计与实现硕士学位论文.docx

1、集装箱码头数据仓库的设计与实现硕士学位论文硕士学位论文集装箱码头数据仓库的设计与实现摘要随着信息技术的迅猛发展，数据仓库技术在信息技术领域已经成为了研究的热点，并且日益成熟，成为信息技术领域的前沿技术。实践证明，数据仓库的建立给企业带来丰厚的收益，集装箱码头也期望能通过数据仓库的建立来提升企业的核心竞争力。本论文以集装箱码头数据仓库项目需求为基础，致力于研究集装箱码头数据仓库吞吐量主题的设计方法与应用，通过对集装箱码头业务的分析和整理，选择合适的技术路线和数据仓库架构，实现数据仓库的建立。ETL设计是数据仓库的核心，在本论文中也不例外，论文使用大量的篇幅介绍了ETL的设计方法。为了减少对源系统

2、的影响，设计合适的ETL显得尤为重要。作者在充分分析集装箱码头业务和数据仓库技术的基础上，设计了基于时间的ETL方式。项目中采用维度建模的方式实现了集装箱码头吞吐量多维数据集，最后选择微软公司的SQL Server2008作为数据仓库存储系统，对外提供吞吐量多维数据集进行查询与分析。关键词：数据仓库，集装箱码头，ETL，维度建模，吞吐量AbstractWith the rapid development of information technology, data warehouse technology in the field of information technology has

3、become a research focus, and more mature. Practice has proved that data warehouse bring the huge profits to the enterprise, through the container terminal is also expected to establish a data warehouse to improve the core competitiveness.Though the data warehouse requements of the project at contain

4、er terminal ,the author dedicated to the research the data warehouse design method and applications for container terminal on theme of container throughput,then choose the appropriate technology roadmap and data warehouse architecture to finish the establishment of the warehouse.ETL is the most impo

5、rtant part in data warehouse constructing,its also in this paper,the author spend a large amount of space to describe the design method of ETL. In order to reduce the impact on the source systems, ETL design is particularly important.The requirements of Container terminal is fully analysis by author

6、,and then study on the basis data warehouse technology,so the ETL based on time was choose.Dimensional modeling was used to design the multi-dimension cube of container terminal throughput in this project. Finally,the source data were stored in Microsoft SQL Server2008 ,and supply the multi-dimensio

7、n cube to view and analysis.Key Words：dw,container terminal,ETL, dimensional modeling, throughput 图目录图1.1 项目所处企业信息化的位置.2 图2.1 十大数据仓库排名.4图2.2 Infobright Architecture.7图3.1 数据仓库体系结构.12图3.2 OLAP多维数据集概念图.14图3.3 数据仓库项目架构图.15图4.1 表结构范例.17图4.2 数据仓库表结构（一）.20图4.3 数据仓库表结构（二）.21图5.1 “数据流源”属性设置.25图5.2 数据仓库初始化SS

8、IS包结构.26图5.3 增量数据ETL流程.28图5.4 Import包抓取源数据.29图5.5 导入增量数据.30图5.6 ETL执行计划.31图6.1 吞吐量维度关系.38图6.2 日期的层次关系.38图6.3 度量值的转换.39图7.1 通过MOSS展示吞吐量.41图7.2 船舶作业报表.42图7.3 集装箱吞吐量（一）.43图7.4 集装箱吞吐量（二）.43表目录表2.1Infobright性能对比.8表3.1报表分类举例.8表4.1源系统吞吐量相关表结构.17表6.1船期维度.34表6.2集装箱维度.35表6.3辅助作业维度.36表6.4集装箱作业类型纬度.36表6.5作业设备纬度

9、.36表6.6操作员表纬度.36表6.7集装箱吞吐量事实.37表6.8辅助作业吞吐量事实.37第1章绪论1.1 课题背景本课题来源于，宁波大榭招商国际码头（简称CMICT）。宁波大榭招商国际码头有限公司成立于2003年6月，公司是由香港招商局国际有限公司、宁波港集团、上海中信港口投资有限公司三方共同投资组建的中外合资企业。规划建设3个10万吨级、1个7万吨级集装箱专用泊位，码头全长1500米，水深-17米，整个港区建成后总面积163.5万平方米，设计年吞吐量达240万TEU1。公司从建立至今一直保持着高速发展，在受到金融危机影响的2009年，吞吐量仍然保持近10%的增长，到达119万TEU

10、，2010年吞吐量超过150万TEU。随着公司的发展，各业务系统的上线使用，产生的各种业务数据分布存储在不同的系统中。例如：主要生产作业量数据存储在集装箱码头操作管理系统（TOS）中，电量数据在RCMS系统、电量自动化系统中有存储但是数据意义不同，费收数据目前存储在TOS系统中以后会存储在商务计费系统中，应收账款的收款情况信息存储在财务系统中，设备加油数据存储在加油系统中，等等；目前的数据分析多是利用独立的业务数据进行数据提取分析的，无法灵活实现综合性的数据关联分析及钻取分析。如果需要对各种作业量及效率进行分析、对作业的成本进行分析、对作业的收入情况进行分析就需要建立一个适合统计分析的、便于扩

11、展的、符合我司业务情况的统一的数据模型，从而将TOS系统中的作业数据，商务费收数据，财务收款数据，电量数据，油耗数据等业务数据统一起来，为后续的综合数据分析提供支持。下图所示中橙色部分为本次项目实施在整体企业信息规划中所处的位置，其中前端展现部分计划在企业统一信息平台中进行实现：图1.1 项目所处企业信息化的位置如图1.1所示，经过几年的信息化建设，公司的信息化基础设施、基础业务操作系统已经建设完成，目前的信息化系统已经能够满足公司业务操作需求。但是，随着行业竞争的加剧、公司发展对积累的历史数据进行分析的需要（例如：从各角度分析吞吐量情况、分析成本情况、分析收入情况），就需要在业务操作层的基础

12、上构建适合统计分析的分析数据管理层，以便为公司各项数据的整合分析、为后续更高层次的商务智能分析打下基础。基于以上因素，提出大榭招商码头数据仓库项目，本论文就是在数据仓库建设的初期，探讨如何实现将码头生产操作数据导入数据仓库，并且以直观的形式在公司内部展示吞吐量相关数据，提供公司业务相关人员便捷查看，并能供给业务人员对集装箱吞吐量数据进行多方面的分析和钻取。1.2 主要的研究内容本文针对宁波大榭招商国际集装箱码头业务的特点和现状，主要对企业数据仓库项目吞吐量主题域的建立进行研究。本文在对比了几种经典的数据仓库设计架构之后，提出一个适合该码头的数据仓库架构，使得企业的分析数据统一无误，并能便捷的提

13、供给业务岗位进行分析，并解释设计阶段的侧重点。本文主要研究内容包括：首先，分析招商国际码头业务需求，码头生产操作系统（TOS）中数据的逻辑关系、吞吐量相关的数据来源，并整理与之相关维度的关系，然后选择数据建模工具建立起吞吐量主题的逻辑模型。其次，根据招商国际码头业务系统的特点，尝试以MS SQLSERVER2008作为目标数据库存储平台完成物理设计，采用SSIS作为ETL工具，并设计ETL的处理流程。最后，通过结合招商国际集装箱码头的企业信息平台特点完成数据的展示，供给业务人员通过报表查询分析操作数据。1.3本章小结本章介绍了宁波大榭招商国际码头有限公司的概况和公司信息化的发展状况。由于面临提

14、高精细化管理的程度、建立自身的竞争优势、向管理要红利和业务发展需要等一系列问题，为了解决这些问题而提出的数据仓库项目，同时概括的说明了论文涉及项目的主要内容和目的。最后，阐述了作者在该项目中从事的研究内容。下一章，将对数据仓库相关技术进行一个粗略的阐述。第2章数据仓库相关技术介绍2.1 数据仓库的发展随着PC的迅速普及，业务处理系统的运行成本大大降低，极大地推动了信息处理技术的发展。企业大型联机事务处理技术已经相当成熟，很好地解决了企业对于实时业务交易的需求。与此同时，激烈的得各行各业对于数据处理提出了更高的要求。企业已经不满能够帮助他们迅速地处理业务，而且需要从浩如烟海的大量业务活动的规律

15、性，提炼出经营管理所必须的关键信息，使自身业务的运作以及整个市场相关行业的态势进行分析，从的决策。正是在这样的背景下，数据仓库技术应运而生了2。在刚开始的时候，数据仓库市场比较混乱，数以百计的数据仓库提供商提供了各自定义的数据仓库产品，经过十多年的发展，数据仓库市场已经成熟起来，渐渐形成了以Sybase、IBM、Oracle、Microsoft等几家IT巨头为首的数据仓库提供商，他们为各大跨国企业提供TB级别的数据仓库解决方案，从Oracle白皮书中截取的十大数据仓库排名，如图2.1：图2.1 十大数据仓库排名2.2 数据仓库的实现过程数据仓库的建立可以采用自顶向下的设计方法，首先对整个企业所

16、有的数据整合建模，按照传统的关系概念模型建立原子单元的中央数据仓库，然后根据不同的应用来分别建立相应的数据集市，数据集市中的数据全部来自前面建立的中央数据仓库。这种架构需要企业的业务明确，企业内部具有准确详细的数据模型定义，需要调动企业的每个部门参与，这种方式需要项目实施人员有丰富的实际经验，并且企业中定义了规范的数据标准，这种方式风险较大，但是这种方式中所有应用的数据都是来自中央数据库，能够极大的确保数据的一致性。如果企业没有做好完善的准备，也可以采用自底向上的设计方法，按照某个相关主题的需求，通过迭代的方式来建立企业数据仓库。这种方式相对风险较小，实施也较容易。这种方式首先通过某个具体的业

17、务需求进行分析，按照维度模型建立数据集市，然后通过增加维度和数据集市螺旋的向上构建数据仓库，这种方式建立的数据仓库仅仅是包含全部数据集市的联合。在最初的分析阶段建立的数据集市就是实现数据仓库的基础，与后期的数据集市联合实现数据仓库，不同的数据集市之间可以通过创建一个统一的维度来进行集成，每当增加数据集市时，都把新的维度整合进统一维度中去。为了降低数据仓库建立的复杂度，按照自底向上的方式，根据不同的需求分阶段的完成数据仓库的建设，这种方式针对业务应用不是直接建立维度化的数据集市，而是先建立适用于各种数据集市的原子级的数据仓库，数据集市建立在原子级的数据仓库之上。2.3 新兴数据仓库解决方案传统的

18、数据库提供商提供了主要基于自身数据库产品的解决方案，如Oracle公司和微软公司，他们都提供了一整套的数据仓库解决方案，他们不仅提供了存储数据的DBMS，而且集成了可视化的ETL设计工具，并对外提供OLAP服务和快速开发报表的工具，这些厂商凭借其关系数据库系统用户量的优势，在数据仓库的发展初期，占有了较多的市场份额。然而，当今数据仓库的市场已经不再由传统供应商独领风骚,NOSQL的MongoDB采用键-值存储和方式，具有高性能和高度的伸缩性，MongoDB是面向文档的数据库，数据存储格式为BSON（可以认为是二进制的JSON），MongoDB中，一个数据库可以有多个Collection，每个C

19、ollection是Document的集合。Collection和Document和传统数据库的Table和Row并不对等。数据库和Collection都无需预先定义，随时可以创建。使用传统的RDBMS存储一些大尺寸、低价值的数据时会比较昂贵，在此之前，往往选择传统的文件进行存储，而MongoDB的存储方式很好的解决了这个问题，可以轻松实现PB级的存储；由于MongoDB的Schema Free特性，数据改动时不需要对数据库结构进行修改，省去传统关系数据库基于表结构的繁琐DDL操作，所以，非常适合事实的插入、更新数据。以互联网企业账户分析的业务场景为例，账户分析项目中需要存储账户，计划，单元，

20、关键词多个层级的各种维度的数据指标提供给用户查询分析，数据总量往往都在上亿。这种数据规模巨大，每日需要从各种日志文件中汇总各种数据指标按不同层级统计处结果写入数据库，并且有大量的日常客户端从各种维度查询分析数据。MongoDB高性能的数据导入和查询功能非常友好的支持了这种业务需求，正如MongoDB文档里提到的它非常适合实时分析一样。在互联网浪潮下迅速崛起的MySQL数据库在数据仓库实现方面也有着非凡的表现。Infobright是开源的MySQL数据仓库解决方案，其中引入了列存储方案，对数据进行高强度的压缩，同时优化了统计计算(如sum/count/avg/group by之类),它已经是很多

21、开源或商用BI系统的底层存储引擎。Infobright的引擎是采用列式存储，这不同于传统数据库的行式存储，列式存储的主要优势是减少了每次查询所读取的数据量，无论何时你从传统的数据库中读取数据时，都需要完成的读出每一行，不管在查询中你是不是对这些数据感兴趣。很可能你读了1000个字节的记录而仅仅为了检索10个字符的用户名，而基于列读取数据，你仅仅需要读取查询感兴趣的相关列。这在读取一条或者几条数据时可能体现不出来优势，但是很多的查询需要进行全表扫表，如果一个表有千万行，查询性能将相差非常巨大。列式存储的另外一个优点是每个列本身就是索引，每个列都可以索引化，这在夯实数据库中几乎不可能实现。除此之外

22、，列式存储还有一个非常吸引人的优点，那就是列更容易被压缩，因为对不同的数据类型可以使用不同的算法。其官方给出的数据是，可以达到10-40倍甚至更高的压缩比。图2.2 Infobright ArchitectureInfobright的架构如图2.2，通过Knowledge Grid来组织数据，将64K个单元（列元素）放到一个Data Pack（DP）中进行压缩，由于这些元素具有相同的数据类型，InfoBright会选择对于此数据类型最优的算法进行压缩，经过压缩的数据，可以非常明显的减少IO压力，降低磁盘空间的消耗。 InfoBright还会根据查询SQL动态将所有的DP分为三类：相关块、无关块

23、和可疑块。通过对数据块进行分类，可以有效的减少查询所检索的数据量，提高查询效率。在Infobright官方网站上介绍的Bango数据仓库案例中，清晰的展示了其优秀的存储和查询能力。Bango是欧洲一家电信运营商，每个月会产生1.5亿行数据，每个月数据增长量450G。采用Infobright数据仓库其应用性能大大提升，对比其原来的SQL Server架构，如表2.1：表2.1 Infobright性能对比对比项InfobrightSQL Server1000万记录22秒300秒1.5亿记录564秒无返回结果OLTP数据450GB10GB450GB 正是由于Infobright这种海量数据处理能力

24、，使得其在海量数据分析的数据仓库项目中得到迅猛发展。2.4 本章小结本章开始介绍了数据仓库的发展和实现技术，另外介绍了数据仓库的实现过程，由于数据仓库是来源与企业中各种不同应用系统的，把企业中面向事务型的源数据整合为统一的、面向分析的数据仓库中是一个长期反复的过程，在面临大量的数据时，如何进行管理和整合是数据仓库设计者所面临的重大问题。作者介绍了两种不同的数据仓库实现过程，两种方式各有优缺点，需要根据实际的业务需求进行具体的选择，针对不同的业务需求采用不同的方式来进行数据仓库的建模。除了传统的数据仓库解决方案之外，本章的最后详细介绍了当前热点的Infobright数据仓库解决方案，通过对其架构

25、和处理方式的分析体现了其强大的查询和存储优势。第3章业务整理与项目规划3.1 业务状况介绍宁波大榭招商国际码头有限公司（以下简称CMICT）是以集装箱装卸为主营业务的码头公司，同时也提供集装箱堆存和修箱服务。根据不同航线对内贸箱、外贸箱、中转箱、非中转箱、重箱、空箱提供码头装卸及堆存等服务，而收费主要按不同航线以及箱型作为收费基础。集装箱码头所有对外提供的服务业务，归结起来就是“为客户提供吊箱服务”这一核心内容。吊箱操作看似简单，但由于在生产操作过程中存在诸多外界约束条件和不确定的变数，使得集装箱码头的生产操作业务呈现出一系列独特的特点，如效率与成本的矛盾，高峰与低谷的平衡。船公司是与码头关

26、系最为密切的对象之一，船公司最基本需求是“确保装卸船操作效率和安全”。假设一条船需要装卸1000个箱，同时开三条、四条还是五条作业路数，就是一个很大的问题。少开作业线，全船作业效率可能只能维持在90MPH，船舶的在港时间将延长。对于船公司来说，船舶只有在海上航行时才是创造效益的，在港口停泊时间越长，成本就越高。但少开作业线，码头需要安排出勤的机械就少，出勤人员也少，调度也更简单，平均单箱成本就会更少。多开作业线，则上述利益态势就会此消彼长。集装箱物流运输行业在一年的时间里，业务量是不均衡的，存在着旺季和淡季的区别，而相应的集装箱码头业务量，也存在着高峰与低谷的情况。即使是在一周的周一到周日，也

27、由于航线安排的疏密程度不均匀，不同的时间段也存在着作业量的高低起伏。但作为需要持续经营的集装箱码头来说，却需要维持一支相对稳定的作业资源和人员队伍，那么以相对固定不变的作业资源，去应对起伏不定的业务变化状况，就需要高超的峰谷平衡管理技巧，而管理和平衡的好坏，恰恰反映在前述的效率与成本上。降低企业运行成本提高效率是公司目前正在攻关的重要课题，操作部也投入大量精力和核心骨干投入成本与效率的研发，而研发需要大量的数据进行多角度的分析，公司目前的数据主要是面向操作的，不适合进行多方面的分析和挖掘操作，所以期望通过数据仓库的建设为公司后期的生产技术研发，甚至公司的运营决策找到一条合适的道路。3.1.1

28、信息系统应用状况目前使用基于Oracle的TOS码头生产管理系统，TOS系统主要模块包括码头生产操作系统、商务计费系统等，今后将有越来越多的模块将整合到TOS系统中去。除了生产最关键的码头生产管理系统外，码头还在应用的有多种信息系统：企业办公信息系统 Exchange邮件系统 K3财务系统商务计费系统（目前集成在TOS系统，独立的计费系统即将开发完毕） IBM Maximo EAM资产管理系统 Microsoft AD域控管理系统短信系统加油管理系统电力管理系统 EDI报文传输、港务局信息交互系统、监控系统、海关交互系统等等众多的信息系统间数据定义不统一，系统间的交互十分困难，与外部

29、口岸单位之间传输数据就更加困难，从不同的系统内查询出的数据都要经过不同规则的转换再发到外部，企业内部数据的统一和标准化要求就显得十分迫切。3.1.2 报表数据的需求在公司内部生产技术研发、对外部单位提供数据，最直观和方便的就是报表的展示，所以各部门提出了各种各样的报表需求抽取部分需求如表3.1：表3.1报表分类举例报表类型报表名称吞吐量单航线箱量吞吐量各航线箱量对比统计表吞吐量航线及港口箱量吞吐量航线类型箱主箱量统计表吞吐量装卸货港箱量统计可以清楚的发现，报表都是为了满足前面所述的企业关键业务岗位迫切的需求，除了吞吐量相关的数据外，还需要较多的效率和考核类的数据，这些数据全部都是基于集装箱的吞吐量。所以，集装箱吞吐量相关的业务数据都要需要进行清楚统一的定义，经过清洗后导入到数据仓库中，再查询出相关数据提供给不同部门和单位。3.1.3 其他需求如果仅仅提供报表展示给最终用户，则不能提供合适的渠道给生产技术研发人员进行数据的挖掘和分析，以找到生产中存在的问题和提高生产效率的方法，所以，项目还应提供便捷的数据挖掘方法，

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？