厦门大学本科生毕业论文标准模板示范.docx

资源描述

厦门大学本科生毕业论文标准模板示范.docx

《厦门大学本科生毕业论文标准模板示范.docx》由会员分享，可在线阅读，更多相关《厦门大学本科生毕业论文标准模板示范.docx（16页珍藏版）》请在冰豆网上搜索。

厦门大学本科生毕业论文标准模板示范.docx

厦门大学本科生毕业论文标准模板示范

本科毕业论文

（主修/辅修专业）

面向非结构化企业指标信息的

智能处理和可视分析

IndicatorsoftheUnstructuredEnterpriseInformationforIntelligenceProcessingandVisualization

姓名：

学号：

学　　院：

系：

专业：

年级：

校内指导教师：

（姓名）（职称）

校外指导教师：

（姓名）（职称）

小三号宋体

二〇XX年六月

厦门大学本科学位论文诚信承诺书

本人呈交的学位论文是在导师指导下独立完成的研究成果。

本人在论文写作中参考其他个人或集体已经发表的研究成果，均在文中以适当方式明确标明，并符合相关法律规范及《厦门大学本科毕业论文（设计）规范》。

该学位论文为（）课题（组）的研究成果，获得（）课题（组）经费或实验室的资助，在（）实验室完成（请在以上括号内填写课题或课题组负责人或实验室名称，未有此项声明内容的，可以不作特别声明）。

另外，本人承诺辅修专业毕业论文（设计）（如有）的内容与主修专业不存在相同与相近情况。

学生声明（签名）：

年月日

封面之后、正文之前的页码用罗马数字表示。

致谢

值此论文完成之际，谨向所有关心和支持我的人们致以诚挚的谢意！

首先，我要衷心地感谢我的导师XXX教授。

从论文选题、内容和整体结构的确定，到直至最后定稿，XXX老师都以极其负责的态度给予悉心指导，为我提出了许多宝贵的意见和建议，使我获益良多。

他渊博的学识、严谨的治学态度以及朴实的学术作风时刻激励我不断努力完善自己，对我的悉心关怀和教诲也将鼓舞我在今后的学习和工作上不断努力向上。

在此，谨向XXX老师致以最诚挚的感谢！

其次，还要感谢与我一起完成这个项目的所有团队成员。

没有他们的帮助和共同努力，就没有项目的圆满成功，也就不会有本文的形成。

在此，向他们表示衷心的感谢!

（小三号黑体）

摘要

随着信息的发展，出现了越来越多的非结构化信息。

并且非结构化信息在政府和企业等的决策中扮演着重要的角色。

如何将非结构化数据有效的管理起来，能够进行数据和知识挖掘，提取当中的隐含信息，提供一种形象的可视分析，为政府和企业决策提供支持成为当今亟待解决的主要问题。

本文以北京市科委的指数统计文档为研究对象，主要任务是针对以北京市科委的指数统计文档为代表的非结构化信息的抽取和企业指标信息的可视分析。

主要工作包括三个方面：

第一，设计了一套以北京市科委的指数统计文档编写规范为标准的确实可行的信息抽取算法；第二，针对抽取出来的指标信息，借助于Dundas可视化工具进行可视分析；第三，完成了一个满足客户需求的企业信息库管理系统。

（小四号黑体）

（小四号宋体）

论文从项目背景出发，介绍了系统开发的背景和研究价值。

然后，详细介绍了企业指标信息智能处理的可行性和算法设计，以及企业指标信息可视分析的原理及其实现。

再次，论文详细阐述了系统的需求，具体介绍了企业信息库管理系统的设计及其实现，最后论文针对企业信息库管理系统进行了分析和评价，并指明了下一步的改进计划。

关键词：

非结构化信息；信息可视化；可视分析

Abstract

Withthedevelopmentofinformation,therehasbeenanincreasingnumberofunstructuredinformation.Anditplaysanimportantroleindecisionofgovernmentandenterprise,etc.Howtomanagetheunstructuredinformationefficiently,minethedataandknowledge,extracttheimplicitinformation,provideavisualimageanalysis,andthensupportthegovernmentandenterprise'sdecisionhavebecomethemainissuestobesettledurgently.

Inthisquestionfordiscussion,wemainlyhavearesearchinindicatorofenterprisedocumentsfromtheBeijingScienceandTechnologyCommissionandtrytoobtaintheindicatorsoftheunstructuredinformation,andthenprovideavisualimageanalysis.Itincludesthreeaspects:

First,todesignasetofpracticalinformationextractionalgorithm;second,throughtheuseoftheDundasCharttoolbox,providingvisualanalysis;third,completedEnterpriseInformationManagementSystemwhichmeetcustomersrequirement.

Thebeginningofthedissertationintroducedthebackgroundoftheproject,introducedthebackgroundofthesystemandresearchvalue.Second,detailinginformationextractionalgorithmsandprinciplesofInformationVisualization.Third,thedissertationelaboratedthesystem'srequirement,specificallyintroducedthesystemdesignandimplementation.Finally,somepossibleimprovementsandfutureworkswerepresented.

Keywords:

UnstructuredInformation;InformationVisualization;VisualAnalysis

Content

1绪论

1.1问题及其意义

随着计算机技术的发展，使海量信息得以存在并迅猛发展。

尤其是信息技术的日益普及其应用以后，随着各个行业的信息系统的规模的日益扩大，信息系统在长年累月的运转过程中，积累了庞大的数据资源。

然而决策者却很难利用这些数据资源，为企业和政府的决策提供确实有效的帮助。

这是因为一方面，在这庞大的数据资源中，非结构化信息占据了主要部分。

Gartner的一项调查显示，在今天的社会中，有80%以上的商业行为依赖于非结构化信息；我们所存储的数据中，85%以上是非结构化信息；每过三个月，我们周围的非结构化信息就会增加一倍[1]。

这些数据充分说明，我们周围信息的形态是以非结构化信息为绝对主体的，也可以说我们接触到的信息中绝大部分是非结构化信息。

因此对非结构化信息进行管理，能够进行数据和知识挖掘，提取当中的隐含信息，对决策进行支持成为当今亟待解决的主要问题[2]。

另一方面，随着信息技术的发展，信息结构越来越复杂，信息更新越来越快，信息规模越来越大，给人们获取信息、理解信息、掌握信息带来了沉重的负担，常常导致“认知过载”、“视而不见”[3][4]。

（正文之后的页码用阿拉伯数字连续编码，小五号TimesNewRoman。

）

北京市科学技术委员会在企业指标信息统计分析工作上就存在这两方面的问题，文献[5]介绍了这方面的工作。

每年北京市科委都要对北京市企业进行企业指标信息的调查，在长年累月的积累过程中，北京市科委积累了大量的企业指标调查表、项目立项、执行、验收等文档。

这些调查表以word形式保存起来，并且调查指标的方式也呈现多样化，存在选择、填空、表格、问答以及这些题目的复合等形式。

而且企业指标的调查涵盖范围也很广泛，从企业性质及登记情况到企业财务及信息化投入状况，再到人力状况及信息化支撑状况，到企业信息化基础设施建设状况、企业信息化应用情况，甚至涉及到企业对信息化工程的满意程度的调查。

面对海量的非结构化企业指标信息，北京市科委每年都要投入大量的人力、物力、精力，将企业指标信息从word文档中手工提取出来，形成计算机可以识别的结构化的表格信息，再对企业指标信息进行统计分析。

即使是这样，仍然存在许多问题：

第一，手工抽取企业信息调查表耗时较长，工作强度大。

第二，手工抽取数据信息容易出现错误，准确性不能得到有效保证，而且一旦出错，就

有可能导致整个统计分析结果的错误，进行核对非常困难。

第三，即使是将企业指标信息全部准确转成计算机可以识别的表格数据以后，由于数据的多样性，缺少形象的对企业指标信息的统计分析工具。

针对北京市科委的企业指标信息统计分析问题，我的毕业设计结合北京市科委的业务需求，开发了企业信息库管理系统。

这个项目来源于国家科技支撑计划项目课题“面向服务的智能化制造技术及示范应用”（课题编号2006BAF01A17）。

该项目主要是为了解决北京市科委的指标信息统计分析过程中，存在指数统计困难和文档管理困难两个问题，以业务为主线，主要包括科委文档的管理、企业指标信息的智能处理、企业指标信息的可视分析三个方面的内容。

通过为科委中存在的大量信息文档实体构建基础信息模型，来方便用户的日常管理和提高文档的利用率。

通过构建应用数据模型，将企业指标信息文档中的非结构化信息智能抽取出来，并存储于数据库当中，将非结构化信息结构化，用成熟的结构化数据管理理论来管理非结构化数据。

通过对指标信息的查询，构建信息可视分析模型，使用户可以对知识进行挖掘，提供形象的可视分析，提高北京市科委的企业指标信息的统计分析效率。

本项目完成后将会在北京市科委投入使用。

1.2研究内容和方法

1.3论文组织结构

本论文共分为六章，论文首先分析了政府和企业在信息化过程中遇到的两个问题：

非结构化信息管理和“认知过载”。

并结合北京市科委的企业指标统计分析问题，介绍了毕业设计项目的背景和研究价值，引出了论文所做的主要工作内容。

紧接着论文简单概述了毕业设计项目中所用到的各项技术，并针对北京市科委的业务要求提出了信息抽取和基于DundasChart信息可视化的解决方案。

然后论文就项目中的两个技术难点——非结构化信息处理和信息可视分析，详细阐述了信息抽取技术的算法设计和信息可视分析技术的模型设计。

在系统实现方面，论文详细介绍了企业信息库管理系统所使用的技术要点：

基于A的三层结构（USL-BLL-DAL）的框架设计；在用户体验方面，采用了AAjax改善用户的体验。

论文具体安排如下：

第1章简单介绍了企业和政府在信息化过程中遇到的非结构化信息管理困难和“认知过载”问题。

针对北京市科委的指标统计分析问题，提出了毕业设计的背景、目标和研究价值。

第2章概述系统中所使用的各项技术及各项技术的国内外发展现状。

第3章详细介绍了针对北京市科委企业指标信息文档的信息抽取技术的算法设计和信息可视分析的模型设计。

第4章介绍了企业信息库管理系统的实现。

详细阐述了系统的背景和总体目标，基于表示层（USL）-业务逻辑层（BLL）-数据访问层（DAL）的三层结构的框架设计和功能模块介绍及其实现。

第5章介绍了企业信息库管理系统的系统测试和运行结果。

第6章最后论文总结了毕业设计所做的工作，并且指明了下一步的改进计划。

主要是在信息抽取算法的改进，以及在用户体验方面的改进计划。

2文献综述

2.1非结构化信息处理

2.1.1非结构化信息管理概述

在引言中，我们提到过“在当今的社会中，我们周围信息的形态是以非结构化信息为绝对主体的，也可以说我们接触到的信息中绝大部分是非结构化信息。

”，那么什么是非结构化信息？

非结构化信息具有什么特点？

如何管理非结构化信息？

信息可以分为三类：

结构化信息，非结构化信息和半结构化信息。

1.结构化信息——经过严格标引后的数据，一般以二维表的形式存在。

如数据库中的表、各种票据信息等等。

结构化信息又分为以下三种：

（1）一维结构化信息。

一维结构化信息可以进一步分为以下两类：

（a）第一类一维结构化信息。

（b）第二类一维结构化信息。

（2）二维结构化信息。

（3）三维结构化信息。

2.非结构化信息——没有经过人为处理的不规整的信息。

这些信息更加符合人类交流的方式。

如新闻报道、科技文献、散文等等。

3.半结构化信息——介于结构化信息和非结构化信息之间的。

有一定格式约束，这不同于非结构化信息，但局部上，又按人类自然语法组织信息，与结构化信息又有所区别，例如电报报文，通知、公告、指数统计表等等。

非结构化信息具有如下特点：

第一，其格式非常多样；第二，标准是多样性的，不像我们结构化的数据一目了然；第三，在技术上非结构化信息比结构化信息更难标准化和理解。

所以存储、检索、发布以及利用需要更加智能化的计算机技术。

基于非结构化信息的特点，将非结构化信息结构化，转化为结构化信息进行管理是一个可行的管理方案，而构建的面向用户的企业非结构化信息管理系统必须具备以下特征[5]：

1.必须对非结构化信息资源的获取、转换、分析、管理、应用全过程进行分析，提供基于标准工作过程的支持环境。

2.必须提供标准的对外接口、信息描述方法和定制规范降低定制分析机组件和信息应用组件的复杂性。

3.必须提供灵活的信息描述资源模式简化信息结构化信息资源库的构建。

4.采用自然资源技术以支持高质量的“拉式”信息服务和知识抽取。

5.提供对外的标准的接口以支持非结构化信息资源管理系统与企业其他应用系统的集成。

6.提供界面友好的工具方便用户系统管理和应用。

7.其本身应具有易于扩充、动态发展的能力。

图2-1为基于UIMA（UnstructuredInformationManagementArchitecture）的非结构化信息管理的架构图，具有一定的指导意义：

图2-1企业非结构化信息管理系统应用模式[6]

在把列名映射到Dundas里面的图例，而行名则映射为Dundas里的轴标签。

完成了数据表的映射以后，剩下的就是图表自身形态的改变了。

为了实现Dundas

（五号宋体加粗）

（表名居于表上方正中，五号宋体加粗。

）

形态的改变，我们对Dundas的属性进行了分类和总结，如表2-1所示：

表2-1Dundas的部分属性表

属性

描述

图表类型

（ChartType）

条柱型图表（BarandColumnCharts）：

条形图、柱状图；

线型图表（LineCharts）:

折线图、曲线图、阶梯图；

点图表（PointCharts）：

点图、泡泡图；

饼图（PieCharts）：

饼图、圈图；

分区图（AreaCharts）：

折线分区图、曲线分区图；

条柱宽度

（PointWidth）

针对条柱型图表，条柱的宽度。

取值从（0,1）。

条柱风格

针对条柱型图表，有默认、砖型、圆形、棱型、明暗变化

数值标签

（ValueLabel）

是否显示数值标签。

3D显示

是否3D显示。

簇状显示

是否簇状显示。

图例

（Legend）

字体属性；字号属性；显示位置：

图表的左边、右边、上面、下面。

标签

（Axis）

字体属性；字号属性。

标题

（Title）

字体属性；字号属性。

选择算子决定了哪些染色体进入下一代。

本算法中采用“轮盘赌”的选择方式，它按照染色体的适应值大小来确定该染色体的被选择概率。

如果染色体的适应值越大，其被选中的概率越大。

个体ri被选中的概率p（ri）定义如下：

（pSize为种群大小）（公式2-1）

确定了每个染色体的被选择概率后，系统生成一个在[0，1]区间的随机数组，然后与对应染色体的被选择概率比较，如果随机数大于染色体的被选择概率则该染色体被选择，反之被淘汰。

算法2-1直线拟合算法

Begin

（1）对Vl中的每个元素aa，重复执行以下的步骤：

mx=mx+aa.X；

my=my+aa.Y；

mxx=mxx+aa.X*aa.X；

mxy=mxy+aa.X*aa.Y；

（2）Ifmx*mx-mxx*n=0

拟合失败

Else

k=（my*mx-mxy*n）/（mx*mx-mxx*n）；

b=（my-mx*k）/n；

End

定义2-1如果存在一条从Vi到Vj的路，称Vi是Vj的前驱节点，而对于（Vi，Vj）∈E，称Vi是Vj的立即前驱节点，记为Vi∈iPred（Vj），称Vj是Vi的立即后继节点，记为Vj∈iSucc（Vi）。

定义一个公共容器类型的代码如下：

2.4本章小结

本章详细介绍了针对北京市科委企业指标信息文档的信息抽取技术的算法设计和信息可视分析的模型设计。

首先，我们参考了UIMA的非结构化信息的管理体系结构，并结合北京市科委的实际业务要求，提出了自己的非结构化企业指标信息的管理模型。

并指出了在这个指标模型当中的两个技术难点：

非结构化信息的提取和信息可视分析的实现。

然后就存在的两个技术难点展开了详细的分析和设计。

其次，我们详细阐述了信息抽取算法的思想。

首先，我们了详细分析了企业指标统计表中存在的规律和模型，抽象出企业指数统计表中存在的五条规则，并提出了用信息抽取技术中的知识工程法进行信息抽取的可行性。

为了更好地进行指标信息的提取，我们给出了三条建议。

其次，在总结的规则的基础上，我们阐述了企业指标信息分析的流程图。

结合科委的业务情况，将企业指标信息的分析分成指标提取和指标值提取两个方面。

紧接着，结合企业指数信息表的规则，我们给出了指标信息提取的体系结构图，包括分块、题目树的构建、题目的分割、题目的细化、基础模型的解析五个步骤。

并详细阐述了各个步骤的算法思想。

最后，我们阐述了指标值抽取的算法思想。

最后，我们结合Card模型，提出了企业信息管理系统信息可视分析的模型。

然后，我们分析Dundas工具箱的元素和属性，并详细阐述了该模型在Dundas中的实现。

6结论

6.1论文总结

论文分析了北京市科委的指标统计分析业务中遇到的两种问题：

非结构化信息管理困难和“认知过载”问题，并详细介绍了针对这两种问题国内外系统的解决方案。

结合北京市科委的业务需求，提出了建立企业信息库管理系统建设方案。

论文详细介绍了将非结构化信息结构化，利用成熟的结构化信息的管理方案来解决非结构化信息管理的问题，借鉴UIMA的体系结构，结合业务需求，提出了信息库管理系统体系结构。

并详细阐述了系统中存在的两大技术难点的解决方案——指标信息智能抽取的算法设计和信息可视分析的模型设计。

首先就指标信息抽取的算法设计，我们详细分析了北京市科委指标文档存在的规则，提出了利用知识工程法来抽取指标信息的体系结构，详细阐述了指标抽取和指标值抽取的算法设计。

其次，在信息可视化方面，我们构建了利用Dundas工具箱的可视分析的模型。

本文还介绍了企业信息库管理系统的实现，详细阐述了系统的需求和系统目标，基于三层结构（USL-BLL-DAL）的架构和功能模块设计，同时介绍了系统的主要功能模块和相关流程图。

最后介绍了Ajax在本系统的运用和改善用户体验所做的工作。

论文的主要内容如下：

1.简单介绍了企业和政府在信息化过程中遇到的非结构化信息管理困难和“认知过载”问题。

针对北京市科委的指标统计分析问题，提出了企业信息库管理系统的解决方案。

2.详细阐述了指标信息智能抽取和信息可视分析的算法设计思想。

在指标信息抽取的算法设计思想上，我们详细分析了北京市科委指标文档存在的规则，提出了利用知识工程法来抽取指标信息的体系结构，详细阐述了指标抽取和指标值抽取的算法设计；在信息可视化方面，我们提出了利用Dundas工具箱的可视分析的模型。

3.介绍了企业信息库管理系统的实现。

详细阐述了系统的背景和总体目标，基于表示层（USL）-业务逻辑层（BLL）-数据访问层（DAL）的三层结构的框架设计和功能模块介绍及其实现。

4.最后总结了论文所做的所有工作，并且指明了下一步的改进工作。

6.2工作展望

当然，企业信息库管理系统中还存在着许多的不足，我们将对它进行进一步的完善和改进：

1.企业信息库管理系统的界面比较简单，因此在新一轮的迭代开发测试中，对原有的界面设计进行进一步的改进。

2.非结构化指标信息的抽取算法还有待提高。

我们将对非结构化指标信息的抽取算法进行进一步改进，使它能够更加合理的解决其他企业中的类似问题，进一步提高算法的通用性。

3.在信息可视分析中缺乏交互效果，而且信息可视分析的配置过程比较繁琐，我们将在在下一轮的改进这个配置过程并利用的Dundas的支持Ajax的新特性增加仪表盘的交互能力。

4.系统的扩展性需要改进。

虽然采用了三层架构可以方便地扩展，但由于快速开发，在代码中直接使用了SQL语句进行操作，降低系统的性能，存储过程可以改进这个缺陷。

5.系统的维护工作，以及文档的完善。

6.代码的优化。

参考文献

[1]杨福生,高上凯.生物医学信息处理[M].北京:

高等教育出版社,1988.

[2]陈川波.基于半结构化文本信息抽取的简历识别系统[D].北京:

北京邮电大学,2008.

[3]张德政,张萍萍.非结构化信息管理[J].微计算机信息,2006,22（3）:

218-239.

[4］谢希德.创造学习的新思路[N].人民日报,1998-12-25（10）.

[5]FosterI,KesselmanC.TheGrid:

BlueprintforaNewComputingInfrastructure[M].MorganKaufmannPublishers,1998.

[6]FosterI,KesselmanC,NickJ,etal.GridServicesforDistributedSystemsIntegration[J].IEEEComputer,2002,35（6）:

135-160.

（小三号黑体）

附录

……………………

展开阅读全文