毕业论文广东省环境保护厅数据中心应用平台设计与实现.docx
《毕业论文广东省环境保护厅数据中心应用平台设计与实现.docx》由会员分享,可在线阅读,更多相关《毕业论文广东省环境保护厅数据中心应用平台设计与实现.docx(31页珍藏版)》请在冰豆网上搜索。
毕业论文广东省环境保护厅数据中心应用平台设计与实现
毕业设计(论文)
题目广东省环境保护厅数据中心应用平台设计与实现
英文题目ThedesignandimplementationoftheGuangzhouprovinceenvironmentalprotectionbureaudatacenterapplicationplatform
学生姓名:
***申请学位门类:
工学
学号:
****
专业:
软件工程
学院:
软件学院
指导教师:
高永平职称:
副教授
二0一六年六月五日
作者声明
本人以信誉郑重声明:
所呈交的学位毕业设计(论文),是本人在指导教师指导下由本人独立撰写完成的,没有剽窃、抄袭、造假等违反道德、学术规范和其他侵权行为。
文中引用他人的文献、数据、图件、资料均已明确标注出,不包含他人成果及为获得东华理工大学或其他教育机构的学位或证书而使用过的材料。
对本设计(论文)的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。
本毕业设计(论文)引起的法律结果完全由本人承担。
本毕业设计(论文)成果归东华理工大学所有。
特此声明。
毕业设计(论文)作者(签字):
签字日期:
年月日
本人声明:
该学位论文是本人指导学生完成的研究成果,已经审阅过论文的全部内容,并能够保证题目、关键词、摘要部分中英文内容的一致性和准确性
学位论文指导教师签名:
日期:
年月日
广东省环境保护厅数据中心应用平台
设计与实现
ThedesignandimplementationoftheGuangzhouprovinceenvironmentalprotectionbureaudatacenterapplicationplatform
2016年5月20日
摘要
随着信息化社会的迅速发展,各环保部门和单位迫切需要将来自不同平台的数据通过数据清洗平台进行清洗以提供给新的数据中心系统。
通过一系列复杂地数据比对和清洗算法规则过滤数据,提高数据纯净度,以达到对数据统一规范管理。
利用J2EE和SSM技术建立环保厅数据中心对相关数据进行自动清洗和人工清洗,提高了办事效率,同时也为政府决策提供了信息支撑,相关企业制定生产计划也有了数据参考。
本文的研究内容和取得的成果主要体现在以下方面:
主要是平台数据自动清洗和人工清洗,包括映射数据、记录不规范数据、记录相同名称数据、记录相似数据、保存干净数据、查询数据、处理不规范数据、处理相同名称数据、处理相似数据、人工搜索合并、拆分数据。
关键字:
J2EE;SSM;数据中心;数据清洗;环保
ABSTRACT
Withtherapiddevelopmentofinformationsociety,theenvironmentalprotectiondepartmentsandunitsinurgentneedofdatafromdifferentplatformsthroughdatacleaningcleaningplatformtoprovidedatacentersystem.Throughaseriesofcomplexdataandfilterdatacleaningalgorithmrules,highdatapurity,inordertostandardizethemanagementofthedata.J2EEandSSMTechnologytoestablishtheenvironmentalprotectiondepartmentofthedatacenterofautomaticcleaningandmanualcleaningofrelevantdata,improveworkefficiency,butalsoprovidesinformationsupportforthedecision-makingofthegovernment,therelevantenterprisestodevelopproductionplansalsohavereferencedata.Themainresearchcontentsandachievementsaremainlyembodiedinthefollowingaspects:
platformdataandautomaticcleaningmanualcleaning,includingmappingdata,recordsarenotstandardizeddata,recorddatarecordsofthesamename,similardata,savethedataclean,dataquery,Dealwithnon-standarddata,dealwiththesamenamedata,dealwithsimilardata,artificialsearchmerge,splitdata.
Keywords:
J2EE;SSM;DataCenter;Datacleaning;environmentalprotection
绪论
课题背景及意义
快速发展的信息化社会使得各部门和单位产生了大量的数据,这些数据的处理、应用和管理也成为相关部门的工作难题。
由于数据产生在不同平台和系统,必须通过数据中心的清洗才能剔除相似数据和脏数据,提高数据纯净度。
为了满足广东省环境监控中心建立新数据中心的需求,提供更好的对广东省污染源企业监管解决方案,建立数据中心应用平台,形成相关单位和部门的信息共享体系。
从而全面提高数据利用水平,在很大程度上简化了相关人员的工作程序,同时使得信息公开化,为相关课题研究提供实时数据。
1.程序开发的理论与技术基础
1.1系统开发的工具
1.1.1J2EE介绍
J2EE(Java2PlatformEnterpriseEdition)平台本质上是一个分布式的服务器应用程序设计环境——一个Java环境。
软件技术和电子商务高速发展和现代社会对其的依赖使得系统开发人员的压力不断增大。
如何最大程度降低开发费用、节省资源而又更快速地设计、开发项目一直是企业所关心的。
由此J2EE平台应运而生,它提供了一个基于组件的方法,来设计、开发、装配及部署企业应用程序。
J2EE平台提供了多层的分布式的应用模型、组件再用、一致化的安全模型以及灵活的事务控制。
您不仅可以用比以前更快的速度向市场推出创造性的客户解决方案,而且您的平台独立的、基于组件的J2EE解决方案不会被束缚在任何一个厂商的产品和API上。
1.1.2SSM框架
Spring
Spring是一个开源框架,Spring是于2003年兴起的一个轻量级的Java开发框架,由RodJohnson在其著作《Expert One-On-One J2EEDevelopment andDesign》中阐述的部分理念和原型衍生而来。
它是为了解决企业应用开发的复杂性而创建的。
Spring使用基本的JavaBean来完成以前只可能由EJB完成的事情。
然而,Spring的用途不仅限于服务器端的开发。
从简单性、可测试性和松耦合的角度而言,任何Java应用都可以从Spring中受益。
简单来说,Spring是一个轻量级的控制反转(IoC)和面向切面(AOP)的容器框架。
SpringMVC
Spring MVC属于SpringFrameWork的后续产品,已经融合在Spring Web Flow里面。
Spring MVC 分离了控制器、模型对象、分派器以及处理程序对象的角色,这种分离让它们更容易进行定制。
MyBatis
MyBatis 本是apache的一个开源项目iBatis, 2010年这个项目由apache software foundation 迁移到了google code,并且改名为MyBatis 。
MyBatis是一个基于Java的持久层框架。
iBATIS提供的持久层框架包括SQL Maps和Data Access Objects(DAO)MyBatis 消除了几乎所有的JDBC代码和参数的手工设置以及结果集的检索。
MyBatis 使用简单的 XML或注解用于配置和原始映射,将接口和 Java 的POJOs(Plain Old Java Objects,普通的 Java对象)映射成数据库中的记录。
1.1.3SQL简介
SQL全称是“结构化查询语言(StructuredQueryLanguage)”,最早的是IBM的圣约瑟研究实验室为其关系数据库管理系统SYSTEMR开发的一种查询语言,它的前身是SQUARE语言。
SQL语言结构简洁,功能强大,简单易学,所以自从IBM公司1981年推出以来,SQL语言,得到了广泛的应用。
如今无论是像Oracle,Sybase,Informix,SQLserver这些大型的数据库管理系统,还是像VisualFoxporo,PowerBuilder这些微机上常用的数据库开发系统,都支持SQL语言作为查询语言。
SQLServer2008是至今为止最强大和最全面的SQLServer版本,它推出了许多新的功能和特性并进行了关键的改进。
2.需求分析
2.1用户需求分析
为了满足广东省环境监控中心建立新数据中心的需求,提供更好的对广东省污染源企业监管解决方案,本项目实现对各个污染源企业的环境监控数据进行统一和规范化管理,将来自不同系统的数据通过数据清洗平台,平台由自动清洗和人工清洗的过程,将数据清洗干净后,最终提供给新的数据中心系统。
数据清洗平台,该平台由自动清洗系统和人工清洗系统两部分组成。
自动清洗系统的任务是制定一系列复杂的数据比对和清洗算法规则过滤数据,提高数据的纯净度,将来自不同系统的数据进行统一规范处理,并过滤出重复数据,相似数据和脏数据保存到相关记录表,供人工清洗系统处理。
自动清洗系统的开发有利于对大量来自与不同系统的数据进行集中标准化处理,节省人力和时间资源,降低运维成本。
人工清洗系统的任务是将自动清洗系统过滤出来重复数据,相似数据和脏数据等一些程序无法判断的数据进行人工匹配和选择,目的是进一步提高数据的纯净度,并提供对外服务接口,向新的数据中心系统提供纯净数据。
2.2功能需求分析
自动清洗系统功能描述
表2-2-1自动清洗系统功能
主要功能名称
功能详细描述
映射数据
获取各个系统数据,根据相关规则映射到同一实体对象中,将数据统一格式保存在对象里有利于对数据的统一清洗
记录不规范数据
将企业名称不规范的数据记录到相关的数据表中
记录相同名称数据
将企业名称与其他数据企业名称相同的数据记录到相关的数据表中
记录相似数据
除了企业名称不同,其余字段值有与其他数据字段值相同的数据记录到相关的数据表中
保存干净数据
将企业名称规范,即企业名称不与其他数据企业名称相同,其余字段值也不与其他数据的其余字段值相同的数据,即干净数据,保存到新的数据表中
自动清洗系统流程图
图2-2-1自动清洗系统流程图
人工清洗系统功能描述
表2-2-2人工清洗系统功能
主要功能名称
功能详细描述
查询数据
可查看清洗过后的数据(自动清洗和人工清洗的数据)
处理不规范数据
为自动清洗系统记录下来的不规范数据,提供人工修改,必要时可修改编辑其成为正常数据,并保存到纯净数据表中
处理相同名称数据
为自动清洗系统记录下来的相同名称数据,提供人工处理,可将其合并为一条或多条数据,并保存到纯净数据表中
处理相似数据
为自动清洗系统记录下来的相似数据,提供人工处理,可将其合并为一条或多条数据,并保存到纯净数据表中
人工搜索合并
为那些不同的数据,但其实是同一家企业的信息,由于程序无法做到自动合并,所以需要人工干预合并
拆分数据
解除人工操作数据之间合并的关系,以上三项数据处理,在操作数据合并前均把原数据备份到相关表中,
在解除合并关系后,各个数据都还原回原来的值
用户管理
系统管理员完成用户信息录入、查看、修改、删除操作,系统具备根据用户账号查询用户操作功能。
每创建一个用户都记录下创建时间,并对用户角色进行分类,根据用户角色赋予相应的权限。
菜单管理
菜单管理实现了通过菜单名称和菜单级别对菜单进行查询操作,通过增加菜单按钮快速创建菜单。
系统实现了对菜单的动态配置,包括获取父级菜单、对菜单进行排序,生成菜单路径等。
系统管理员可对菜单进行查看、修改、删除操作。
角色管理
定义了超级管理员、查询用户、合并用户、测试用户、管理员等角色。
角色管理包括角色信息录入、信息维护、将角色权限给用户、查看角色用户列表。
人工清洗系统流程图
图2-2-2人工清洗系统流程图
2.3系统可行性分析
2.3.1技术可行性
本系统采用了当前流行的java、JavaScript、xml、html、PL/SQL等语言进行开发,借助Eclipse开发工具,运用了Spring、Hibernate框架,因此,系统的软件开发平台已成熟可行。
本系统硬件技术方面则可以充分利用日益增强的存储能力、通讯能力和处理速度来保证系统开发技术的准备,良好的硬件配备无需高档的设备。
由此,足以说明本系统在技术方面是可行的。
2.3.2经济可行性
本系统的配置要求不高,我们可以从配置要求的角度来看看我们项目能带来的价值。
本系统的工作操作简单,不需要很多的人力去通过计算、表格设计、印发等,我们所有的工作都是在网络的基础上去完成,降低了很多的成本。
另外该系统规模小,耗费少。
所以本系统在经济上是可行性。
2.3.3操作可行性
本系统设计之初充分考虑了相关数据的处理的速度和准确性,采用了分批分页处理的方法。
同时相关使用者在系统开发过程中也提出了相关意见,开发人员对用户的相关技术水平和系统操作能力十分了解。
所以操作方式在用户内部是完全可行的。
3.系统设计与数据库设计
3.1系统的整体框架
根据数据中心应用平台功能需求,将数据中心应用平台分为自动清洗系统和人工清洗系统两大功能模块。
图3-1-1系统总体框架图
系统将自动清洗子系统分为映射数据、记录不规范数据、记录相同名称数据、记录相似数据、保存干净数据五个模块。
图3-1-2自动清洗系统框架
系统将人工清洗子系统分为查询数据、处理同名数据、处理相似数据、人工搜索、拆分数据、处理不规范数据六个模块。
图3-1-3人工清洗系统框架
3.2系统功能描述
广东省环保厅数据中心应用平台能够实现多种不同的功能,包括映射数据、记录不规范数据、记录同名数据、记录相似数据、保存干净数据、查询数据、处理同名数据、处理相似数据、人工搜索、拆分数据、处理不规范数据。
(1)映射数据
映射数据是获取各个系统数据,根据相关规则映射到同一实体对象中,将数据统一格式保存在对象里有利于对数据的统一清洗
(2)记录不规范数据
记录不规范数据是将企业名称不规范的数据记录到相关的数据表中
(3)记录同名数据
记录相同名称数据是将企业名称与其他数据企业名称相同的数据记录到相关的数据表中
(4)记录相似数据
记录相似数据是将除了企业名称不同,其余字段值有与其他数据字段值相同的数据记录到相关的数据表中
(5)保存干净数据
保存干净数据是将企业名称规范,企业名称既不与其他数据企业名称相同,其余字段值也不与其他数据的其余字段值相同的数据,即是干净数据,保存到新的数据表中
(6)查询数据
查询数据可查看清洗过后的数据(自动清洗和人工清洗的数据)
(7)处理同名数据
处理同名数据是为自动清洗系统记录下来的相同名称数据,提供人工处理,可将其合并为一条或多条数据,并保存到纯净数据表中
(8)处理相似数据
处理相似数据为自动清洗系统记录下来的相似数据,提供人工处理,可将其合并为一条或多条数据,并保存到纯净数据表中
(9)人工搜索
人工搜索为那些不同的数据,但其实是同一家企业的信息,由于程序无法做到自动合并,所以需要人工干预合并
(10)拆分数据
拆分数据解除人工操作数据之间合并的关系,以上三项数据处理,在操作数据合并前均把原数据备份到相关表中,在解除合并关系后,各个数据都还原回原来的值。
(11)处理不规范数据
处理不规范数据为自动清洗系统记录下来的不规范数据,提供人工修改,必要时可修改编辑其成为正常数据,并保存到纯净数据表中。
3.3数据库分析
广东省环境保护厅数据中心应用平台是一个中型的系统,需要考虑到开发所用的成本,和用户信息量以及客户需求等问题,所以决定采用SQLserver2008数据库来作为使用项目中的数据库。
我们把和工业企业相关的各类环保数据作为数据库的设计总体的需求。
3.4数据库概念结构设计
在我们这个系统中,会对污染源相关的基本信息进行保存,包括:
包括污染源ID、污染源名称、污染源标准编号、污染源规模编码、行业类别编码、法人代码等。
同时还需要对废水气排放污染物的基本信息进行保存,包括:
废水气排放污染物ID、废水气污染排放监测情况ID、污染物代码、浓度、业务系统ID、最后同步时间。
当然我们还要对工业企业实体的基本信息进行保存,包括:
工业企业基本信息ID、污染源ID、企业名称、组织机构代码、企业法人、业务系统ID、受纳水体代码、地址。
还有污染源分类实体,包括:
污染源分类ID、标签名称、创建日期、创建人、修改日期、修改人。
还有与用户相对应的操作权限:
超级管理员可以配置菜单和管理整个系统;查询用户可以用来查询本系统查询功能,合并用户能来操作合并数据的用户。
下面给出系统的实体属性图和E-R图:
(1)污染源实体
污染源实体的属性包括污染源ID(主键)、污染源名称、污染源标准编号、污染源规模编码、行业类别编码、法人代码等,污染源实体E-R图,如图3-4-1所示。
图3-4-1污染源实体图
(2)废水气排放污染物
废水气排放污染物:
废水气排放污染物ID(主键)、废水气污染排放监测情况ID、污染物代码、浓度、业务系统ID、最后同步时间。
废水气排放污染物实体E-R图,如图3-4-2。
图3-4-2废水气排放污染物实体图
(3)工业企业实体
工业企业实体实体:
工业企业基本信息ID、污染源ID、企业名称、组织机构代码、企业法人、业务系统ID、受纳水体代码、地址等。
图3-4-3为工业企业实体E-R图。
图3-4-3工业企业实体图
(4)污染源分类实体
污染源分类实体分为:
污染源分类ID、标签名称、创建日期、创建人、修改日期、修改人。
图3-4-4为污染源分类实体E-R图。
图3-4-4污染源分类实体图
(5)管理员实体
管理员实体分为:
管理员ID、管理员权限、密码、用户名。
图3-4-4为管理员实体E-R图。
图3-4-5管理员实体图
3.5数据库设计
数据库设计是环境保护厅数据中心信息化的基础性工作。
团队与用户经过多次会议讨论才形成了规范化、标准化、可扩充的数据库。
在工业企业基本信息表中把EnterBaseInfoID设置主键,表中有属性、数据类型、主键是否为空、说明和备注。
字段类型中包括了EnterBaseInfoID、PollutID、AreaCode、OrganizationCode、CompName、DetailCompanyName、LawerCode、Principal、Phone、Fax、MobilePhone等。
数据类型为int、varchar、numeric、datetime和char。
表3-5-1工业企业基本信息(ZL_EnterBaseInfo)
属性
数据类型
主键
是否为空
说明
备注
EnterBaseInfoID
int
EnterBaseInfoID
否
工业企业基本信息ID
PollutID
int
否
污染源ID
AreaCode
varchar(20)
是
区域ID
OrganizationCode
varchar(9)
是
组织机构代码
CompName
varchar(255)
是
企业名称
DetailCompanyName
varchar(255)
是
填报单位详细名称
LawerCode
varchar(50)
是
企业法人代码
Principal
varchar(50)
是
联系人
Phone
varchar(20)
是
联系电话
Fax
varchar(20)
是
传真号码
MobilePhone
varchar(20)
是
手机
CenterLongDegree
varchar(3)
是
中心经度(度)
CenterLongMin
varchar
(2)
是
中心经度(分)
CenterLongSec
varchar
(2)
是
中心经度(秒)
CenterLatDegree
varchar(3)
是
中心纬度(度)
CenterLatMin
varchar
(2)
是
中心纬度(分)
CenterLatSec
varchar
(2)
是
中心纬度(秒)
Address
varchar(250)
是
地址
PostCode
varchar(6)
是
邮政编码
IndustryParkName
varchar(80)
是
所在工业园名称
ProfessionTypeCode
numeric(8)
是
行业类别代码
RegisterType
varchar(32)
是
登记注册类型
SizeCode
varchar(32)
是
企业规模
OpenDate_Year
varchar(14)
是
开业时间_年月
Year
numeric(4)
是
年度
ReceivingWaterCode
numeric(8)
是
受纳水体代码
RebuildDate_Year
varchar(4)
是
重建日期_年
RebuildDate_Month
varchar
(2)
是
重建日期_月
DRSource
char
(1)
是
上报数据来源
Creator
varchar(50)
是
创建人姓名
CreateDate
datetime
是
创建时间
Modifier
varchar(50)
是
修改人姓名
ModifyDate
datetime
是
修改时间
LastSyncDate
datetime
是
最后同步时间
BussSysID
varchar(100)
是
业务系统ID
在污染源信息表中把PSID设置主键,表中有属性、数据类型、主键是否为空、说明和备注。
字段类型中包括了PSID、PSCode、