1、毕业论文广东省环境保护厅数据中心应用平台设计与实现毕业设计(论文)题 目 广东省环境保护厅数据中心应用平台设计与实现 英文题目 The design and implementation of the Guangzhou province environmental protection bureau data center application platform学生姓名:* 申请学位门类: 工学 学 号: * 专 业: 软件工程 学 院: 软件学院 指导教师: 高永平 职称: 副教授 二0一六年六月五日作 者 声 明本人以信誉郑重声明:所呈交的学位毕业设计(论文),是本人在指导教师指导下由
2、本人独立撰写完成的,没有剽窃、抄袭、造假等违反道德、学术规范和其他侵权行为。文中引用他人的文献、数据、图件、资料均已明确标注出,不包含他人成果及为获得东华理工大学或其他教育机构的学位或证书而使用过的材料。对本设计(论文)的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本毕业设计(论文)引起的法律结果完全由本人承担。本毕业设计(论文)成果归东华理工大学所有。特此声明。毕业设计(论文)作者(签字): 签字日期: 年 月 日 本人声明:该学位论文是本人指导学生完成的研究成果,已经审阅过论文的全部内容,并能够保证题目、关键词、摘要部分中英文内容的一致性和准确性学位论文指导教师签名: 日期:
3、年 月 日广东省环境保护厅数据中心应用平台设计与实现The design and implementation of the Guangzhou province environmental protection bureau data center application platform2016年5月20日摘 要 随着信息化社会的迅速发展,各环保部门和单位迫切需要将来自不同平台的数据通过数据清洗平台进行清洗以提供给新的数据中心系统。通过一系列复杂地数据比对和清洗算法规则过滤数据,提高数据纯净度,以达到对数据统一规范管理。利用J2EE和SSM技术建立环保厅数据中心对相关数据进行自动清洗和人工
4、清洗,提高了办事效率,同时也为政府决策提供了信息支撑,相关企业制定生产计划也有了数据参考。本文的研究内容和取得的成果主要体现在以下方面:主要是平台数据自动清洗和人工清洗,包括映射数据、记录不规范数据、记录相同名称数据、记录相似数据、保存干净数据、查询数据、处理不规范数据、处理相同名称数据、处理相似数据、人工搜索合并、拆分数据。关键字: J2EE; SSM; 数据中心;数据清洗;环保ABSTRACT With the rapid development of information society, the environmental protection departments and uni
5、ts in urgent need of data from different platforms through data cleaning cleaning platform to provide data center system. Through a series of complex data and filter data cleaning algorithm rules, high data purity, in order to standardize the management of the data. J2EE and SSM Technology to establ
6、ish the environmental protection department of the data center of automatic cleaning and manual cleaning of relevant data, improve work efficiency, but also provides information support for the decision-making of the government, the relevant enterprises to develop production plans also have referenc
7、e data. The main research contents and achievements are mainly embodied in the following aspects: platform data and automatic cleaning manual cleaning, including mapping data, records are not standardized data, record data records of the same name, similar data, save the data clean, data query, Deal
8、 with non-standard data, deal with the same name data, deal with similar data, artificial search merge, split data.Key words: J2EE; SSM; Data Center;Data cleaning; environmental protection绪 论课题背景及意义 快速发展的信息化社会使得各部门和单位产生了大量的数据,这些数据的处理、应用和管理也成为相关部门的工作难题。由于数据产生在不同平台和系统,必须通过数据中心的清洗才能剔除相似数据和脏数据,提高数据纯净度。为
9、了满足广东省环境监控中心建立新数据中心的需求,提供更好的对广东省污染源企业监管解决方案,建立数据中心应用平台,形成相关单位和部门的信息共享体系。从而全面提高数据利用水平,在很大程度上简化了相关人员的工作程序,同时使得信息公开化,为相关课题研究提供实时数据。1. 程序开发的理论与技术基础1.1 系统开发的工具1.1.1 J2EE介绍 J2EE(Java2 Platform Enterprise Edition)平台本质上是一个分布式的服务器应用程序设计环境一个Java环境。软件技术和电子商务高速发展和现代社会对其的依赖使得系统开发人员的压力不断增大。如何最大程度降低开发费用、节省资源而又更快速地
10、设计、开发项目一直是企业所关心的。由此 J2EE 平台应运而生,它提供了一个基于组件的方法,来设计、开发、装配及部署企业应用程序。J2EE 平台提供了多层的分布式的应用模型、组件再用、一致化的安全模型以及灵活的事务控制。您不仅可以用比以前更快的速度向市场推出创造性的客户解决方案,而且您的平台独立的、基于组件的J2EE 解决方案不会被束缚在任何一个厂商的产品和API 上。1.1.2 SSM框架SpringSpring是一个开源框架,Spring是于2003年兴起的一个轻量级的Java开发框架,由Rod Johnson在其著作ExpertOne-On-OneJ2EE Developmentand
11、Design中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只可能由EJB完成的事情。然而,Spring的用途不仅限于服务器端的开发。从简单性、可测试性和松耦合的角度而言,任何Java应用都可以从Spring中受益。简单来说,Spring是一个轻量级的控制反转(IoC)和面向切面(AOP)的容器框架。SpringMVC SpringMVC属于SpringFrameWork的后续产品,已经融合在SpringWebFlow里面。SpringMVC分离了控制器、模型对象、分派器以及处理程序对象的角色,这种分离让它们更容易进行定
12、制。MyBatisMyBatis本是apache的一个开源项目iBatis,2010年这个项目由apachesoftwarefoundation迁移到了googlecode,并且改名为MyBatis。MyBatis是一个基于Java的持久层框架。iBATIS提供的持久层框架包括SQLMaps和DataAccessObjects(DAO)MyBatis消除了几乎所有的JDBC代码和参数的手工设置以及结果集的检索。MyBatis使用简单的XML或注解用于配置和原始映射,将接口和Java的POJOs(PlainOldJavaObjects,普通的Java对象)映射成数据库中的记录。1.1.3 SQL
13、简介 SQL全称是“结构化查询语言(Structured Query Language)”,最早的是IBM的圣约瑟研究实验室为其关系数据库管理系统SYSTEM R开发的一种查询语言,它的前身是SQUARE语言。SQL语言结构简洁,功能强大,简单易学,所以自从IBM公司1981年推出以来,SQL语言,得到了广泛的应用。如今无论是像Oracle ,Sybase,Informix,SQL server这些大型的数据库管理系统,还是像Visual Foxporo,PowerBuilder这些微机上常用的数据库开发系统,都支持SQL语言作为查询语言。SQL Server 2008是至今为止最强大和最全面
14、的SQL Server版本,它推出了许多新的功能和特性并进行了关键的改进。2. 需求分析2.1 用户需求分析 为了满足广东省环境监控中心建立新数据中心的需求,提供更好的对广东省污染源企业监管解决方案,本项目实现对各个污染源企业的环境监控数据进行统一和规范化管理,将来自不同系统的数据通过数据清洗平台,平台由自动清洗和人工清洗的过程,将数据清洗干净后,最终提供给新的数据中心系统。 数据清洗平台,该平台由自动清洗系统和人工清洗系统两部分组成。 自动清洗系统的任务是制定一系列复杂的数据比对和清洗算法规则过滤数据,提高数据的纯净度,将来自不同系统的数据进行统一规范处理,并过滤出重复数据,相似数据和脏数据
15、保存到相关记录表,供人工清洗系统处理。自动清洗系统的开发有利于对大量来自与不同系统的数据进行集中标准化处理,节省人力和时间资源,降低运维成本。 人工清洗系统的任务是将自动清洗系统过滤出来重复数据,相似数据和脏数据等一些程序无法判断的数据进行人工匹配和选择,目的是进一步提高数据的纯净度,并提供对外服务接口,向新的数据中心系统提供纯净数据。2.2 功能需求分析 自动清洗系统功能描述表2-2-1自动清洗系统功能主要功能名称功能详细描述映射数据获取各个系统数据,根据相关规则映射到同一实体对象中,将数据统一格式保存在对象里有利于对数据的统一清洗记录不规范数据将企业名称不规范的数据记录到相关的数据表中记录
16、相同名称数据将企业名称与其他数据企业名称相同的数据记录到相关的数据表中记录相似数据除了企业名称不同,其余字段值有与其他数据字段值相同的数据记录到相关的数据表中保存干净数据将企业名称规范,即企业名称不与其他数据企业名称相同,其余字段值也不与其他数据的其余字段值相同的数据,即干净数据,保存到新的数据表中 自动清洗系统流程图图2-2-1自动清洗系统流程图人工清洗系统功能描述表2-2-2人工清洗系统功能主要功能名称功能详细描述查询数据可查看清洗过后的数据(自动清洗和人工清洗的数据)处理不规范数据为自动清洗系统记录下来的不规范数据,提供人工修改,必要时可修改编辑其成为正常数据,并保存到纯净数据表中处理相
17、同名称数据为自动清洗系统记录下来的相同名称数据,提供人工处理,可将其合并为一条或多条数据,并保存到纯净数据表中处理相似数据为自动清洗系统记录下来的相似数据,提供人工处理,可将其合并为一条或多条数据,并保存到纯净数据表中人工搜索合并为那些不同的数据,但其实是同一家企业的信息,由于程序无法做到自动合并,所以需要人工干预合并拆分数据解除人工操作数据之间合并的关系,以上三项数据处理,在操作数据合并前均把原数据备份到相关表中,在解除合并关系后,各个数据都还原回原来的值用户管理 系统管理员完成用户信息录入、查看、修改、删除操作,系统具备根据用户账号查询用户操作功能。每创建一个用户都记录下创建时间,并对用户
18、角色进行分类,根据用户角色赋予相应的权限。菜单管理菜单管理实现了通过菜单名称和菜单级别对菜单进行查询操作,通过增加菜单按钮快速创建菜单。系统实现了对菜单的动态配置,包括获取父级菜单、对菜单进行排序,生成菜单路径等。系统管理员可对菜单进行查看、修改、删除操作。角色管理定义了超级管理员、查询用户、合并用户、测试用户、管理员等角色。角色管理包括角色信息录入、信息维护、将角色权限给用户、查看角色用户列表。人工清洗系统流程图 图2-2-2人工清洗系统流程图2.3 系统可行性分析2.3.1 技术可行性 本系统采用了当前流行的java、JavaScript、xml、html、PL/SQL等语言进行开发,借助
19、Eclipse开发工具,运用了Spring、Hibernate框架,因此,系统的软件开发平台已成熟可行。本系统硬件技术方面则可以充分利用日益增强的存储能力、通讯能力和处理速度来保证系统开发技术的准备,良好的硬件配备无需高档的设备。由此,足以说明本系统在技术方面是可行的。2.3.2 经济可行性 本系统的配置要求不高,我们可以从配置要求的角度来看看我们项目能带来的价值。本系统的工作操作简单,不需要很多的人力去通过计算、表格设计、印发等,我们所有的工作都是在网络的基础上去完成,降低了很多的成本。另外该系统规模小,耗费少。所以本系统在经济上是可行性。2.3.3 操作可行性本系统设计之初充分考虑了相关数
20、据的处理的速度和准确性,采用了分批分页处理的方法。同时相关使用者在系统开发过程中也提出了相关意见,开发人员对用户的相关技术水平和系统操作能力十分了解。所以操作方式在用户内部是完全可行的。3. 系统设计与数据库设计3.1系统的整体框架 根据数据中心应用平台功能需求,将数据中心应用平台分为自动清洗系统和人工清洗系统两大功能模块。图3-1-1系统总体框架图系统将自动清洗子系统分为映射数据、记录不规范数据、记录相同名称数据、记录相似数据、保存干净数据五个模块。图3-1-2自动清洗系统框架 系统将人工清洗子系统分为查询数据、处理同名数据、处理相似数据、人工搜索、拆分数据、处理不规范数据六个模块。图3-1
21、-3人工清洗系统框架3.2系统功能描述广东省环保厅数据中心应用平台能够实现多种不同的功能,包括映射数据、记录不规范数据、记录同名数据、记录相似数据、保存干净数据、查询数据、处理同名数据、处理相似数据、人工搜索、拆分数据、处理不规范数据。(1) 映射数据映射数据是获取各个系统数据,根据相关规则映射到同一实体对象中,将数据统一格式保存在对象里有利于对数据的统一清洗(2) 记录不规范数据记录不规范数据是将企业名称不规范的数据记录到相关的数据表中(3) 记录同名数据记录相同名称数据是将企业名称与其他数据企业名称相同的数据记录到相关的数据表中(4) 记录相似数据记录相似数据是将除了企业名称不同,其余字段
22、值有与其他数据字段值相同的数据记录到相关的数据表中(5) 保存干净数据保存干净数据是将企业名称规范,企业名称既不与其他数据企业名称相同,其余字段值也不与其他数据的其余字段值相同的数据,即是干净数据,保存到新的数据表中(6) 查询数据查询数据可查看清洗过后的数据(自动清洗和人工清洗的数据)(7) 处理同名数据处理同名数据是为自动清洗系统记录下来的相同名称数据,提供人工处理,可将其合并为一条或多条数据,并保存到纯净数据表中(8) 处理相似数据处理相似数据为自动清洗系统记录下来的相似数据,提供人工处理,可将其合并为一条或多条数据,并保存到纯净数据表中(9) 人工搜索人工搜索为那些不同的数据,但其实是
23、同一家企业的信息,由于程序无法做到自动合并,所以需要人工干预合并(10) 拆分数据拆分数据解除人工操作数据之间合并的关系,以上三项数据处理,在操作数据合并前均把原数据备份到相关表中,在解除合并关系后,各个数据都还原回原来的值。(11) 处理不规范数据处理不规范数据为自动清洗系统记录下来的不规范数据,提供人工修改,必要时可修改编辑其成为正常数据,并保存到纯净数据表中。3.3数据库分析 广东省环境保护厅数据中心应用平台是一个中型的系统,需要考虑到开发所用的成本,和用户信息量以及客户需求等问题,所以决定采用SQL server2008数据库来作为使用项目中的数据库。我们把和工业企业相关的各类环保数据
24、作为数据库的设计总体的需求。3.4数据库概念结构设计在我们这个系统中,会对污染源相关的基本信息进行保存,包括:包括污染源ID、污染源名称、污染源标准编号、污染源规模编码、行业类别编码、法人代码等。同时还需要对废水气排放污染物的基本信息进行保存,包括:废水气排放污染物ID、废水气污染排放监测情况ID、污染物代码、浓度、业务系统ID、最后同步时间。当然我们还要对工业企业实体的基本信息进行保存,包括:工业企业基本信息ID、污染源ID、企业名称、组织机构代码、企业法人、业务系统ID、受纳水体代码、地址。还有污染源分类实体,包括:污染源分类ID、标签名称、创建日期、创建人、修改日期、修改人。还有与用户相
25、对应的操作权限:超级管理员可以配置菜单和管理整个系统;查询用户可以用来查询本系统查询功能,合并用户能来操作合并数据的用户。下面给出系统的实体属性图和E-R图:(1)污染源实体污染源实体的属性包括污染源ID(主键)、污染源名称、污染源标准编号、污染源规模编码、行业类别编码、法人代码等,污染源实体E-R图,如图3-4-1所示。图3-4-1污染源实体图(2)废水气排放污染物废水气排放污染物:废水气排放污染物ID(主键)、废水气污染排放监测情况ID、污染物代码、浓度、业务系统ID、最后同步时间。废水气排放污染物实体E-R图,如图3-4-2。图3-4-2废水气排放污染物实体图(3)工业企业实体工业企业实
26、体实体:工业企业基本信息ID、污染源ID、企业名称、组织机构代码、企业法人、业务系统ID、受纳水体代码、地址等。图3-4-3为工业企业实体E-R图。 图3-4-3工业企业实体图(4)污染源分类实体污染源分类实体分为:污染源分类ID、标签名称、创建日期、创建人、修改日期、修改人。图3-4-4为污染源分类实体E-R图。图3-4-4污染源分类实体图(5)管理员实体管理员实体分为:管理员ID、管理员权限、密码、用户名。图3-4-4为管理员实体E-R图。图3-4-5管理员实体图3.5 数据库设计数据库设计是环境保护厅数据中心信息化的基础性工作。团队与用户经过多次会议讨论才形成了规范化、标准化、可扩充的数
27、据库。在工业企业基本信息表中把EnterBaseInfoID设置主键,表中有属性、数据类型、主键是否为空、说明和备注。字段类型中包括了EnterBaseInfoID、PollutID、AreaCode、OrganizationCode、CompName、DetailCompanyName、LawerCode、Principal、Phone、Fax 、MobilePhone等。数据类型为int、varchar、numeric、datetime和char。表3-5-1工业企业基本信息(ZL_EnterBaseInfo) 属性数据类型主键是否为空说明备注EnterBaseInfoIDintEnter
28、BaseInfoID否工业企业基本信息IDPollutIDint否污染源IDAreaCodevarchar(20)是区域IDOrganizationCodevarchar(9)是组织机构代码CompNamevarchar(255)是企业名称DetailCompanyNamevarchar(255)是填报单位详细名称LawerCodevarchar(50)是企业法人代码Principalvarchar(50)是联系人Phonevarchar(20)是联系电话Faxvarchar(20)是传真号码MobilePhonevarchar(20)是手机CenterLongDegreevarchar(3)
29、是中心经度(度)CenterLongMinvarchar(2)是中心经度(分)CenterLongSecvarchar(2)是中心经度(秒)CenterLatDegreevarchar(3)是中心纬度(度)CenterLatMinvarchar(2)是中心纬度(分)CenterLatSecvarchar(2)是中心纬度(秒)Addressvarchar(250)是地址PostCodevarchar(6)是邮政编码IndustryParkNamevarchar(80)是所在工业园名称ProfessionTypeCodenumeric(8)是行业类别代码RegisterTypevarchar(32
30、)是登记注册类型SizeCodevarchar(32)是企业规模OpenDate_Yearvarchar(14)是开业时间_年月Yearnumeric(4)是年度ReceivingWaterCodenumeric(8)是受纳水体代码RebuildDate_Yearvarchar(4)是重建日期_年RebuildDate_Monthvarchar(2)是重建日期_月DRSourcechar(1)是上报数据来源Creatorvarchar(50)是创建人姓名CreateDatedatetime是创建时间Modifiervarchar(50)是修改人姓名ModifyDatedatetime是修改时间LastSyncDatedatetime是最后同步时间BussSysIDvarchar(100) 是业务系统ID在污染源信息表中把PSID设置主键,表中有属性、数据类型、主键是否为空、说明和备注。字段类型中包括了PSID、PSCode、
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1