集装箱码头数据仓库的设计与实现硕士学位论文.docx

资源描述

集装箱码头数据仓库的设计与实现硕士学位论文.docx

《集装箱码头数据仓库的设计与实现硕士学位论文.docx》由会员分享，可在线阅读，更多相关《集装箱码头数据仓库的设计与实现硕士学位论文.docx（54页珍藏版）》请在冰豆网上搜索。

集装箱码头数据仓库的设计与实现硕士学位论文.docx

集装箱码头数据仓库的设计与实现硕士学位论文

硕士学位论文

集装箱码头数据仓库的设计与实现

摘要

随着信息技术的迅猛发展，数据仓库技术在信息技术领域已经成为了研究的热点，并且日益成熟，成为信息技术领域的前沿技术。

实践证明，数据仓库的建立给企业带来丰厚的收益，集装箱码头也期望能通过数据仓库的建立来提升企业的核心竞争力。

本论文以集装箱码头数据仓库项目需求为基础，致力于研究集装箱码头数据仓库吞吐量主题的设计方法与应用，通过对集装箱码头业务的分析和整理，选择合适的技术路线和数据仓库架构，实现数据仓库的建立。

ETL设计是数据仓库的核心，在本论文中也不例外，论文使用大量的篇幅介绍了ETL的设计方法。

为了减少对源系统的影响，设计合适的ETL显得尤为重要。

作者在充分分析集装箱码头业务和数据仓库技术的基础上，设计了基于时间的ETL方式。

项目中采用维度建模的方式实现了集装箱码头吞吐量多维数据集，最后选择微软公司的SQLServer2008作为数据仓库存储系统，对外提供吞吐量多维数据集进行查询与分析。

关键词：

　数据仓库，集装箱码头，ETL，维度建模，吞吐量

Abstract

Withtherapiddevelopmentofinformationtechnology,datawarehousetechnologyinthefieldofinformationtechnologyhasbecomearesearchfocus,andmoremature.Practicehasprovedthatdatawarehousebringthehugeprofitstotheenterprise,throughthecontainerterminalisalsoexpectedtoestablishadatawarehousetoimprovethecorecompetitiveness.

Thoughthedatawarehouserequementsoftheprojectatcontainerterminal,theauthordedicatedtotheresearchthedatawarehousedesignmethodandapplicationsforcontainerterminalonthemeofcontainerthroughput,thenchoosetheappropriatetechnologyroadmapanddatawarehousearchitecturetofinishtheestablishmentofthewarehouse.

ETListhemostimportantpartindatawarehouseconstructing,it'salsointhispaper,theauthorspendalargeamountofspacetodescribethedesignmethodofETL.Inordertoreducetheimpactonthesourcesystems,ETLdesignisparticularlyimportant.TherequirementsofContainerterminalisfullyanalysisbyauthor,andthenstudyonthebasisdatawarehousetechnology,sotheETLbasedontimewaschoose.

Dimensionalmodelingwasusedtodesignthemulti-dimensioncubeofcontainerterminalthroughputinthisproject.Finally,thesourcedatawerestoredinMicrosoftSQLServer2008,andsupplythemulti-dimensioncubetoviewandanalysis.

KeyWords：

dw,containerterminal,ETL,dimensionalmodeling,throughput

图目录

图1.1项目所处企业信息化的位置……………………………………………..……2

图2.1十大数据仓库排名…………………………………………..…………………4

图2.2InfobrightArchitecture…………………………………………..………..……..7

图3.1数据仓库体系结构…………………………………………..………………..12

图3.2OLAP多维数据集概念图…………………………………………..…………14

图3.3数据仓库项目架构图…………………………………………..………..……15

图4.1表结构范例…………………………………………..………………………..17

图4.2数据仓库表结构

（一）…………………………………………..…………..20

图4.3数据仓库表结构

（二）…………………………………………..…………..21

图5.1“数据流源”属性设置…………………………………………..…………..25

图5.2数据仓库初始化SSIS包结构…………………………………………..……26

图5.3增量数据ETL流程…………………………………………..………..………28

图5.4Import包抓取源数据…………………………………………..………..…….29

图5.5导入增量数据…………………………………………..……………………..30

图5.6ETL执行计划…………………………………………..……………………...31

图6.1吞吐量维度关系…………………………………………..…………………..38

图6.2日期的层次关系…………………………………………..…………………..38

图6.3度量值的转换…………………………………………..……………………..39

图7.1通过MOSS展示吞吐量…………………………………………..………….41

图7.2船舶作业报表…………………………………………..……………………..42

图7.3集装箱吞吐量

（一）…………………………………………..………..……43

图7.4集装箱吞吐量

（二）…………………………………………..………..……43

表目录

表2.1Infobright性能对比………………………………………………………….......8表3.1报表分类举例……………………………………………………………….......8

表4.1源系统吞吐量相关表结构…………………………………………….……....17

表6.1船期维度……………………………………………………………………….34

表6.2集装箱维度…………………………………………………………………….35

表6.3辅助作业维度………………………………………………………………….36

表6.4集装箱作业类型纬度………………………………………………………….36

表6.5作业设备纬度………………………………………………………………….36

表6.6操作员表纬度………………………………………………………………….36

表6.7集装箱吞吐量事实…………………………………………………………….37

表6.8辅助作业吞吐量事实………………………………………………………….37

第1章绪论

1.1课题背景

本课题来源于，宁波大榭招商国际码头（简称CMICT）。

宁波大榭招商国际码头有限公司成立于2003年6月，公司是由香港招商局国际有限公司、宁波港集团、上海中信港口投资有限公司三方共同投资组建的中外合资企业。

规划建设3个10万吨级、1个7万吨级集装箱专用泊位，码头全长1500米，水深-17米，整个港区建成后总面积163.5万平方米，设计年吞吐量达240万TEU[1]。

公司从建立至今一直保持着高速发展，在受到金融危机影响的2009年，吞吐量仍然保持近10%的增长，到达119万TEU，2010年吞吐量超过150万TEU。

随着公司的发展，各业务系统的上线使用，产生的各种业务数据分布存储在不同的系统中。

例如：

主要生产作业量数据存储在集装箱码头操作管理系统（TOS）中，电量数据在RCMS系统、电量自动化系统中有存储但是数据意义不同，费收数据目前存储在TOS系统中以后会存储在商务计费系统中，应收账款的收款情况信息存储在财务系统中，设备加油数据存储在加油系统中，等等；目前的数据分析多是利用独立的业务数据进行数据提取分析的，无法灵活实现综合性的数据关联分析及钻取分析。

如果需要对各种作业量及效率进行分析、对作业的成本进行分析、对作业的收入情况进行分析就需要建立一个适合统计分析的、便于扩展的、符合我司业务情况的统一的数据模型，从而将TOS系统中的作业数据，商务费收数据，财务收款数据，电量数据，油耗数据等业务数据统一起来，为后续的综合数据分析提供支持。

下图所示中橙色部分为本次项目实施在整体企业信息规划中所处的位置，其中前端展现部分计划在企业统一信息平台中进行实现：

图1.1项目所处企业信息化的位置

如图1.1所示，经过几年的信息化建设，公司的信息化基础设施、基础业务操作系统已经建设完成，目前的信息化系统已经能够满足公司业务操作需求。

但是，随着行业竞争的加剧、公司发展对积累的历史数据进行分析的需要（例如：

从各角度分析吞吐量情况、分析成本情况、分析收入情况），就需要在业务操作层的基础上构建适合统计分析的分析数据管理层，以便为公司各项数据的整合分析、为后续更高层次的商务智能分析打下基础。

基于以上因素，提出大榭招商码头数据仓库项目，本论文就是在数据仓库建设的初期，探讨如何实现将码头生产操作数据导入数据仓库，并且以直观的形式在公司内部展示吞吐量相关数据，提供公司业务相关人员便捷查看，并能供给业务人员对集装箱吞吐量数据进行多方面的分析和钻取。

1.2主要的研究内容

本文针对宁波大榭招商国际集装箱码头业务的特点和现状，主要对企业数据仓库项目吞吐量主题域的建立进行研究。

本文在对比了几种经典的数据仓库设计架构之后，提出一个适合该码头的数据仓库架构，使得企业的分析数据统一无误，并能便捷的提供给业务岗位进行分析，并解释设计阶段的侧重点。

本文主要研究内容包括：

首先，分析招商国际码头业务需求，码头生产操作系统（TOS）中数据的逻辑关系、吞吐量相关的数据来源，并整理与之相关维度的关系，然后选择数据建模工具建立起吞吐量主题的逻辑模型。

其次，根据招商国际码头业务系统的特点，尝试以MSSQLSERVER2008作为目标数据库存储平台完成物理设计，采用SSIS作为ETL工具，并设计ETL的处理流程。

最后，通过结合招商国际集装箱码头的企业信息平台特点完成数据的展示，供给业务人员通过报表查询分析操作数据。

1.3本章小结

本章介绍了宁波大榭招商国际码头有限公司的概况和公司信息化的发展状况。

由于面临提高精细化管理的程度、建立自身的竞争优势、向管理要红利和业务发展需要等一系列问题，为了解决这些问题而提出的数据仓库项目，同时概括的说明了论文涉及项目的主要内容和目的。

最后，阐述了作者在该项目中从事的研究内容。

下一章，将对数据仓库相关技术进行一个粗略的阐述。

第2章数据仓库相关技术介绍

2.1数据仓库的发展

随着PC的迅速普及，业务处理系统的运行成本大大降低，极大地推动了信息处理技术的发展。

企业大型联机事务处理技术已经相当成熟，很好地解决了企业对于实时业务交易的需求。

与此同时，激烈的得各行各业对于数据处理提出了更高的要求。

企业已经不满能够帮助他们迅速地处理业务，而且需要从浩如烟海的大量业务活动的规律性，提炼出经营管理所必须的关键信息，使自身业务的运作以及整个市场相关行业的态势进行分析，从的决策。

正是在这样的背景下，数据仓库技术应运而生了[2]。

在刚开始的时候，数据仓库市场比较混乱，数以百计的数据仓库提供商提供了各自定义的数据仓库产品，经过十多年的发展，数据仓库市场已经成熟起来，渐渐形成了以Sybase、IBM、Oracle、Microsoft等几家IT巨头为首的数据仓库提供商，他们为各大跨国企业提供TB级别的数据仓库解决方案，从Oracle白皮书中截取的十大数据仓库排名，如图2.1：

图2.1十大数据仓库排名

2.2数据仓库的实现过程

数据仓库的建立可以采用自顶向下的设计方法，首先对整个企业所有的数据整合建模，按照传统的关系概念模型建立原子单元的中央数据仓库，然后根据不同的应用来分别建立相应的数据集市，数据集市中的数据全部来自前面建立的中央数据仓库。

这种架构需要企业的业务明确，企业内部具有准确详细的数据模型定义，需要调动企业的每个部门参与，这种方式需要项目实施人员有丰富的实际经验，并且企业中定义了规范的数据标准，这种方式风险较大，但是这种方式中所有应用的数据都是来自中央数据库，能够极大的确保数据的一致性。

如果企业没有做好完善的准备，也可以采用自底向上的设计方法，按照某个相关主题的需求，通过迭代的方式来建立企业数据仓库。

这种方式相对风险较小，实施也较容易。

这种方式首先通过某个具体的业务需求进行分析，按照维度模型建立数据集市，然后通过增加维度和数据集市螺旋的向上构建数据仓库，这种方式建立的数据仓库仅仅是包含全部数据集市的联合。

在最初的分析阶段建立的数据集市就是实现数据仓库的基础，与后期的数据集市联合实现数据仓库，不同的数据集市之间可以通过创建一个统一的维度来进行集成，每当增加数据集市时，都把新的维度整合进统一维度中去。

为了降低数据仓库建立的复杂度，按照自底向上的方式，根据不同的需求分阶段的完成数据仓库的建设，这种方式针对业务应用不是直接建立维度化的数据集市，而是先建立适用于各种数据集市的原子级的数据仓库，数据集市建立在原子级的数据仓库之上。

2.3新兴数据仓库解决方案

传统的数据库提供商提供了主要基于自身数据库产品的解决方案，如Oracle公司和微软公司，他们都提供了一整套的数据仓库解决方案，他们不仅提供了存储数据的DBMS，而且集成了可视化的ETL设计工具，并对外提供OLAP服务和快速开发报表的工具，这些厂商凭借其关系数据库系统用户量的优势，在数据仓库的发展初期，占有了较多的市场份额。

然而，当今数据仓库的市场已经不再由传统供应商独领风骚,NOSQL的MongoDB采用键-值存储和方式，具有高性能和高度的伸缩性，MongoDB是面向文档的数据库，数据存储格式为BSON（可以认为是二进制的JSON），MongoDB中，一个数据库可以有多个Collection，每个Collection是Document的集合。

Collection和Document和传统数据库的Table和Row并不对等。

数据库和Collection都无需预先定义，随时可以创建。

使用传统的RDBMS存储一些大尺寸、低价值的数据时会比较昂贵，在此之前，往往选择传统的文件进行存储，而MongoDB的存储方式很好的解决了这个问题，可以轻松实现PB级的存储；由于MongoDB的SchemaFree特性，数据改动时不需要对数据库结构进行修改，省去传统关系数据库基于表结构的繁琐DDL操作，所以，非常适合事实的插入、更新数据。

以互联网企业账户分析的业务场景为例，账户分析项目中需要存储账户，计划，单元，关键词多个层级的各种维度的数据指标提供给用户查询分析，数据总量往往都在上亿。

这种数据规模巨大，每日需要从各种日志文件中汇总各种数据指标按不同层级统计处结果写入数据库，并且有大量的日常客户端从各种维度查询分析数据。

MongoDB高性能的数据导入和查询功能非常友好的支持了这种业务需求，正如MongoDB文档里提到的它非常适合实时分析一样。

在互联网浪潮下迅速崛起的MySQL数据库在数据仓库实现方面也有着非凡的表现。

Infobright是开源的MySQL数据仓库解决方案，其中引入了列存储方案，对数据进行高强度的压缩，同时优化了统计计算（如sum/count/avg/groupby之类）,它已经是很多开源或商用BI系统的底层存储引擎。

Infobright的引擎是采用列式存储，这不同于传统数据库的行式存储，列式存储的主要优势是减少了每次查询所读取的数据量，无论何时你从传统的数据库中读取数据时，都需要完成的读出每一行，不管在查询中你是不是对这些数据感兴趣。

很可能你读了1000个字节的记录而仅仅为了检索10个字符的用户名，而基于列读取数据，你仅仅需要读取查询感兴趣的相关列。

这在读取一条或者几条数据时可能体现不出来优势，但是很多的查询需要进行全表扫表，如果一个表有千万行，查询性能将相差非常巨大。

列式存储的另外一个优点是每个列本身就是索引，每个列都可以索引化，这在夯实数据库中几乎不可能实现。

除此之外，列式存储还有一个非常吸引人的优点，那就是列更容易被压缩，因为对不同的数据类型可以使用不同的算法。

其官方给出的数据是，可以达到10-40倍甚至更高的压缩比。

图2.2InfobrightArchitecture

Infobright的架构如图2.2，通过KnowledgeGrid来组织数据，将64K个单元（列元素）放到一个DataPack（DP）中进行压缩，由于这些元素具有相同的数据类型，InfoBright会选择对于此数据类型最优的算法进行压缩，经过压缩的数据，可以非常明显的减少IO压力，降低磁盘空间的消耗。

InfoBright还会根据查询SQL动态将所有的DP分为三类：