科学技术进步奖推荐书模板基金项目专家网上评审系统技术研究文档格式.docx
《科学技术进步奖推荐书模板基金项目专家网上评审系统技术研究文档格式.docx》由会员分享,可在线阅读,更多相关《科学技术进步奖推荐书模板基金项目专家网上评审系统技术研究文档格式.docx(41页珍藏版)》请在冰豆网上搜索。
网上评审;
基金项目;
文本挖掘;
身份认证
学科分类
1
自然语言处理技术
代码
5202010
2
计算机信息管理系统
5206070
3
所属国民经济行业
信息传输、计算机服务和软件业
任务来源
甘肃省自然科学基金
科技成果登记号
2012Y0982
具体计划、基金的名称和编号:
2011年甘肃省自然科学基金,1107RJZA143
项目起止时间
起始:
2009年3月
完成:
2012年3月
甘肃省科学技术奖励委员会办公室制
二、项目简介
项目所属科学技术领域、主要科技内容、技术经济指标、促进行业科技进步作用及应用推广情况
一、所属科学技术领域:
电子信息技术。
二、主要科技内容
1.针对评审项目与评审专家人工匹配不准确、工作量大等问题,采用k-means聚类和信息抽取算法等文本挖掘技术对项目申请书和评审专家信息进行综合分析,使项目按照细化专业准确地分配到同行专家手中,提高评审项目和专家匹配的精确性。
2.为保证评审结果的客观公正,系统采用盲审处理程序对项目申请书自动进行处理,去除主持人姓名、项目单位、项目成员等重要敏感信息,并根据项目信息自动回避同单位专家。
3.运用关联规则、分类聚类等数据挖掘技术分析待评项目和已立项项目、科技成果、科技查新报告之间的相似性,为专家评审项目提供决策依据,避免重复立项,重复研究,浪费有限的科研资金。
4.针对网上评审中存在的安全问题,系统采用多因子双向动态身份认证技术进行身份认证,采用服务器远程监控及故障处理技术进行实时监控,防止信息泄漏、代评项目和篡改评审结果,通过软硬件结合的方式保障项目评审过程的稳定性和安全性。
三、科技成果产出:
2项授权专利,4篇学术论文,1项计算机软件著作权。
四、促进科技进步及推广应用情况
随着国家和各省市财政对科技投入力度的不断加大,社会各界越来越关注政府科研项目的绩效。
本项目从2010年开始应用到我省的科技计划项目评审管理中,累计评审项目4050项,参与评审专家385人。
项目的应用避免了传统会评模式中评审成本高、受时间空间的限制等问题,实现了项目评审的全流程信息化管理,创新了科研项目评审模式;
使科研项目的评审、立项更具有科学性,实现科研经费效益的最大化;
减轻了评审专家和项目管理人员的工作负担,提高了项目评审效率和质量;
为评审专家评审项目提供了决策依据,使高质量高水平的项目优先得到资助。
通过科研项目带动产学研协同,使科研项目真正为科技发展、社会进步起到促进作用。
本项目的研究成果,可以应用于全国各省市科研管理部门,为科研项目评审提供决策支持,具有广阔的市场前景。
三、主要技术创新点
(1)采用k-means聚类和信息抽取算法等文本挖掘技术对项目申请书和表示专家的文本信息进行文本挖掘分析,自动分类遴选出与项目研究内容最相符的评审专家,使项目按照细化专业准确地分配到省内外同行专家手中,提高评审项目和专家匹配的精确性。
(属计算机决策支持技术,论文见附件36;
软件著作权(软著登字第0483459号)见附件1)
(2)采用自动加密隐藏技术对项目申请书自动进行盲审处理,去除主持人姓名、项目单位、项目成员等重要敏感信息,并根据项目信息自动回避同单位专家,保证项目评审结果的客观公正。
(属文本挖掘技术;
论文见附件37)
(3)运用关联规则、分类聚类等数据挖掘技术分析待评项目和已立项项目、科技成果、科技查新报告之间的相似性,为专家评审项目提供决策依据,避免重复立项,重复研究,实现科研经费效益的最大化。
(属数据挖掘技术,论文见附件38)
(4)采用基于手机短信的多因子双向动态身份认证技术进行身份认证,采用基于手机短信的服务器远程监控及故障处理技术进行实时监控,防止信息泄漏、代评项目和篡改评审结果,通过软硬件结合的方式最大限度保障项目评审过程的稳定性和安全性。
(属身份认证技术和服务器监控技术,专利(ZL201320012110.0)见附件2;
专利(ZL201220293670.3)见附件3;
论文见附件40)
四、项目详细内容
1.立项背景
随着国家加强自主创新能力、建设创新型国家宏伟目标的确立,国家财政不断加大对国家科技计划(基金)等项目资金的投入力度。
甘肃省进行计划体质改革,也不断加大对省科技计划项目资金的投入力度,为建设创新型甘肃提供支撑保障。
随着科研经费的投入力度不断加大,社会各界越来越关注政府科研项目的投入效果和效率。
因此,政府必须加强组织和管理来保障项目的绩效。
随着互联网和软件制造业的高速发展和应用普及,发达国家对科研项目基本实现了一站式全流程信息化管理,并将文本挖掘技术应用于科研领域,取得了很好的应用效果。
在我国,近几年国家和各省科技计划体质的改革和信息化进程的加快,国家级和省级科研项目的申请、评审、立项和鉴定验收及其相关的工作大部分也逐渐实现了信息化管理。
但现有的项目评审方式已不能适应科研项目的管理需求,在项目评审的过程中,普遍存在评审项目与评审专家匹配不合理;
会议评审成本高、受时间空间限制、评审效率低等问题,这些问题严重制约了项目评审、立项的公正和公平,也缺乏科学合理性,造成了科研经费的大量浪费。
在项目管理和项目评审过程中,网络黑客窃取项目评审系统帐号,进行非法操作,泄漏或篡改评审结果;
专家找人代评,造成评审结果不准确等系统的安全性也是亟待解决的问题。
2.详细技术内容
(1)科学技术内容(总体思路、技术方案、实施效果)
(2)与当前国内外同类技术主要参数、效益、市场竞争力的比较
(3)应用情况
2.1总体思路
本项目应用先进的信息技术,实现方便快捷的网上项目评审,具有技术先进、使用方便、管理优化的特点。
基金项目专家网上评审系统基于Spring+Struts+iBATIS轻量级复合框架,采用k-means聚类和信息抽取算法等文本挖掘技术对项目申请书和评审专家信息进行分析、综合、归类、匹配,遴选出与项目研究内容最相符的评审专家,使项目按照细化专业准确地分配到同行专家手中,提高评审项目和专家匹配的精确性。
采用盲审处理程序对项目申请书进行自动处理,去除主持人姓名、项目单位、项目成员等重要敏感信息,并根据项目信息自动回避同单位专家,保证评审结果客观公正。
运用关联规则、分类聚类等数据挖掘技术分析待评项目和已立项项目、科技成果、科技查新报告之间的相似性,为专家评审项目提供决策依据,避免重复立项,重复研究,浪费有限的科研资金。
系统采用基于手机短信的多因子双向动态身份认证技术进行身份认证,防止信息泄漏、代评项目和篡改评审结果,通过软硬件结合的方式最大限度保障项目评审过程的安全性。
采用采用基于手机短信的服务器远程监控及故障处理技术,实时监控服务器和评审系统的运行状态,通过手机短信及时处理系统异常,增强了网上评审系统的可靠性和稳定性。
通过该技术的应用,实现了科研项目评审的信息化管理,创新了科研项目的评审模式,节省了评审成本,提高了评审效率和质量,使科研项目评审、立项更加趋于科学化和合理化。
2.2研究内容
随着信息化进程的加快,国家级和省级科研项目的申请、评审、立项和鉴定验收及其相关的工作逐渐实现了信息化管理。
但在项目评审的过程中,普遍存在待评项目与评审专家匹配不合理,评审成本高、受时间空间限制、评审效率低等问题;
在项目管理和项目评审过程中,网络黑客窃取项目评审系统帐号,进行非法操作,泄漏或篡改评审结果;
专家找人代评,造成评审结果不科学。
这些问题严重制约了项目评审、立项的公正和公平,也缺乏科学合理性,造成了科研经费的大量浪费。
本项目实现了项目评审的全流程信息化管理,创新了评审模式,节省了评审成本,使科研项目的评审、立项更具有科学性,实现科研经费效益的最大化;
项目的主要研究内容如下:
(1)采用K-means算法对项目进行分类
K-means算法,是一种被广泛使用的聚类分析算法。
它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类内紧凑,类间独立。
首先选定数据空间中的K个对象作为初始聚类中心,每个对象代表一个类别的中心;
将样品中的数据对象根据它们与这些聚类中心的欧氏距离,按距离最近的准则分别将它们分配给与其最相似的聚类中心所代表的类;
然后计算每个类别中所有对象的均值作为该类别的新聚类中心;
重复以上步骤直到聚类中心不在变化,得到K个项目聚类。
(2)采用TF-IDF算法选取项目信息的文本特征
TF-IDF算法在资讯勘探与资讯检索中应用广泛,作为用户查询与信息资源之间相关联程度的评级或度量。
词频(TF)即一个特征项在某一个文档中出现的次数,反映了某一个特征项对该文本的重要性,其定义如下所示:
=
=特征词
在文档
中的频率。
可利用对数降低词频对
取值的影响,从而减少了少数高频词对特征权重计算的影响,如下所示:
倒文档频度(IDF)这一分量反映了某一特征项区别与其他文档的程度,是一个关键词在整个数据全局中重要性的全局行统计特征,称为倒文档频度。
如果一个词在整个数据全集中出现的频度很小,则它应该是反映包含该类词的文档内容的重要词汇。
因此,一个关键词的权重应该与该词所在的文档的总数成反比或近似反比的关系。
,其中
为全部为全部训练样本数,
出现特征词
的训练样本数。
它反映了某一特征项在分类过程中对某一类的区分度。
TF-IDF公式认为对区别文档最有意义的特征项应该是那些在一类文档中出现频率足够高,而在文档集合的其他文档中出现频率足够小的词语,所以引入了逆文本频度IDF的概念,并以TF和IDF的乘积作为特征空间坐标系的取值测度。
设
为特征词
中的频度;
为全部训练样本,
为出现特征词
的训练样本数,最初的TF-IDF公式如下所示。
对
降维处理后如下所示:
考虑到文本长度对项的权重的影响,作归一化处理后公式如下所示:
本项目采用TF-IDF算法对项目信息进行文本特征选择,在去除停用词对文本向量进行粗降维后,运用特征选择函数对每一个特征项评估,按照评估分数从高到低排序后,选取一个合适的阈值,保留评估分数高于该阈值的特征项,最终形成一个文本的特征子集。
(3)采用余弦度量算法计算项目信息和专家信息之间的相似性
余弦度量算法用两个
维向量之间的夹角来计算待分类的文档与每一个类别之间的相似度,然后将文档的类别判定为与其相似度最大的那个类别。
相似度计算式如下:
其中:
为待分文档与指定类别的相似度,
为待分类文档的特征向量,
为第
类的中心向量,
为特征向量的维数,
为向量的第
维(即第
个词条的权重)。
本项目采用余弦度量算法计算项目研究内容和专家信息之间的相似度,将相似度大的分为一个组,在项目评审时,根据相似性分析的结果,自动合理匹配评审专家,使评审结果科学合理。
(4)采用ICTCLAS分词系统对项目信息和专家信息进行分词
ICTCLAS是中国科学院计算技术研究所在多年科研工作的基础上,研究开发的中文分词系统。
ICTCLAS的词典结构是合理高效分词的重要依据,在分词前,先把词典加载到内存中,以提高访问的速度。
分词程序采用层叠隐马尔可夫模型(HierarchicalHiddenMarkovModel),先将原始字串进行原子切分,然后在此基础上进行最短路径粗切分,找出前个最精准的切分结果,生成二元分词表,然后生成分词结果。
将汉语词法分析的所有环节都统一到了一个完整的理论框架中,能够准确有效地表达灵活多变、千差万别的语言现象,获得最好的中文分词效果。
本项目在对项目信息的文本预处理过程中选用的ICTCLAS分词系统,经测试,分词效果良好,为后续的文本处理工作打下了很好的基础。
文本挖掘的主要处理过程是对大量的申报书文本、专家信息文本、项目申报指南等文档集合的内容进行预处理、特征提取、结构分析、文本摘要、文本分类、文本聚类、关联分析等。
文本挖掘的处理过程如图1所示。
图1文本挖掘处理过程
数据预处理技术主要包括中/英文分词、特征表示和特征提取,其中中/英文分词是关键步骤,直接影响到文本挖掘质量的好坏。
本项目组采用分词工具ICTCLAS和TF/IDF算法,有效提高了中文文档的关键词抽取质量。
(5)研究统一身份认证及访问控制技术
系统采用基于手机短信的多因子双向动态身份认证装置进行身份认证,防止非法用户通过身份欺诈访问项目评审系统,最大限度保障项目管理和项目评审过程的安全。
我们将通信技术和网络技术有机地结合起来,提出一种基于手机短信的动态验证码、认证识别语和网络口令的多因子双向身份认证方法,在账号验证、动态验证码验证和认证识别语验证都成功时,双向认证成功。
本技术一方面可以提供服务器对用户的认证,另一方面可以提供用户对服务器的认证,实现了客户端和认证服务器的双向认证。
认证原理示意图如图2所示。
图2认证原理示意图
(6)研究服务器远程监控及故障处理技术
系统采用基于基于手机短信的服务器远程监控及故障处理技术,以解决现有技术存在的无法监控服务器中各种应用服务的端口及无法利用手机远程处理故障的问题。
该技术通过手机终端接收报警短信和发送短信经移动网络和短信猫到监控服务器,通过监控程序实时采集服务器及各种服务的状态,采集到异常状态时,监控程序自动将报警短信经短信平台和短信猫,利用移动网络发送到指定手机上。
该技术的应用极大的增强了网上项目评审系统的稳定性和可靠性。
监控流程如图3所示。
图3监控流程图
2.3技术方案
项目采用迭代的开发方法实现了技术先进、使用方便、管理优化的基金项目网上评审系统。
研究开发中服务器操作系统采用MicrosoftWindowsServer2008,数据库服务器采用SQLServer2008,开发平台采用Myeclipse8.5,基于Spring+Struts+iBATIS轻量级复合框架。
使用SybasePowerDesigner15进行系统建模,采用统一建模语言(UnifiedModelingLanguage,UML)进行系统分析和设计。
采用MicrosoftVisualSourceSafe(VSS)负责项目文件的管理和源代码版本控制。
2.3.1技术路线
本项目综合应用文本挖掘、身份认证、服务器监控等先进的信息技术,研究开发基金项目网上评审系统,实现科研项目评审的全流程信息化管理。
(1)建立专家管理子系统,实现对专家库信息的更新维护、入库出库。
(2)研发评审指标管理子系统,根据各计划类别的考核重点,分别设置定量、定性多级评审指标。
(3)研发项目预处理子系统,将项目申请书和专家信息进行文本预处理,采用文本挖掘技术遴选出与项目研究内容最相符的评审专家;
采用盲审处理程序对项目申请书进行自动处理,去除主持人姓名、项目单位、项目成员等重要敏感信息,同时根据项目信息自动回避同单位专家。
(4)研发短信推送子系统,将评审邀请信息、评审注意事项、评审帐号、短信验证码等自动推送到专家手机上。
(5)研发专家评审子系统,专家通过系统登录验证后,查看待评审项目,根据评审指标对项目进行评审打分、输入评语,评审信息可暂存并修改,确保评审准确无误后提交评审结果。
(6)研发汇总归档子系统,实现评审结果的实时自动计分、汇总,从不同角度对评审结果进行分类统计,并可将评审结果导出至Excel。
技术路线如图4所示。
图4技术路线图
2.3.2系统分析
采用统一建模语言(UnifiedModelingLanguage,UML)进行系统分析和设计。
UML(UnifiedModelingLanguage,统一建模语言)是一种面向对象的建模语言,它是面向对象的分析和设计(OO&
D)方法发展到20世纪80年代末至90年代中的产物,它提供了描述软件系统模型的概念和图形表示法,同时由于它采用面向对象的技术、方法,因此能准确方便地表达面向对象的概念,体现面向对象的分析与设计风格。
它可以实现大型复杂系统各种成分描述的可视化、说明并构造系统模型,以及建立各种所需的文档,是一种定义良好、易于表达、功能强大且普遍适用的建模语言。
它的作用域不限于支持面向对象的分析与设计,还支持从需求分析开始的软件开发的全过程。
利用UML,建模人员能够为所有的既有静态结构又有动态行为的结构进行通用建模。
项目可以依赖UML作为一种标准语言来表达项目需求,系统设计,部署说明和代码结构。
UML专业人员能够利用可视化工具捕获各种思想,与其他人分享这些思想,并且对各种变化做出有效的响应。
总之,UML的作用就是从静态和动态方面用模型图来全面描述要开发的系统,为我们提供一套功能强大的捕获信息技术要点的工具。
系统分析过程中所涉及到的图分别是用例图和和顺序图。
2.3.2.1系统用例图
用例视图(UseCaseView)主要通过用例来描述系统的功能性需求,它是系统中与实现无关的视图,用例图(UseCaseDiagram)关注的是系统功能的高层形状,而不关注系统的具体实现方法。
所以用例图用来描述系统的需求情况直观明了,不管是用户与分析人员还是分析人员与程序员沟通,使用用例图都可以很好的体现双方的思想。
用例图包括角色(Actor)、用例(UseCase)和关系,还可能包括一些活动图(ActivityDiagram)或顺序图(SequenceDiagram)。
用例是用例视图的主要组成部分,用例是外部可见的系统功能单元,这些功能由系统单元所提供,并通过一系列系统单元与一个或多个角色之间交换的消息所表达,用例的作用是在不揭示系统内部构造的前提下定义连贯的行为[2178]。
角色是将与所要建设的系统进行交互的外部实体,它以某种方式参与用例的执行过程。
角色可以是系统用户或者与系统交互的其他系统。
关系是图中实体间的直接或间接联系,包括角色和用例之间的关联关系;
角色之间的泛化关系和用例间的关系。
用例和用例之间则存在着三种关系,分别是扩展关系(Extend)、包含关系(Include)和泛化关系(Generalization)。
扩展关系指出了某个用例的行为可能是由另一个用例进行扩展的。
扩展关系把新的行为增加到被扩展的用例中,一般来说,当被扩展用例可能存在非常规动作时使用扩展用例进行扩展,要注意的是被扩展用例的定义要独立于扩展用例。
然后是包含关系,如果两个以上的用例具有大量公共行为,那么就可以将这些行为放在一个单独的用例中建模,然后其他用例包含这个用例即可,包含关系很好的体现了组件抽取的思想。
最后是泛化关系,泛化关系遵从与其他允许使用泛化关系的UML元素相同的语义,用例泛化关系是一种从子用例到父用例的关系,与面向对象的思想类似,泛化关系体现了子用例对父用例的继承和扩展。
在基金项目专家网上评审系统中主要角色包括系统管理员、项目管理人员、评审专家;
系统用例包括增加评审专家、信息更新维护、专家出库入库、项目信息预处理、项目盲审处理、项目-专家匹配、推送评审信息、收集反馈信息、推送信息管理、增加评审指标、修改评审指标、删除评审指标、项目评审、提交评审结果、评审结果查询、评审结果统计分析、数据导出归档。
系统用例图如图5所示。
图5系统用例图
使用用例图以及相关文档分析用户的需求后。
要将得到的需求报告进行分析,整理,进行详细的系统分析。
系统分析阶段用交互图描述系统数据流的流向,交互图包括顺序图和协作图,他们从不同角度对系统的数据流向进行描述。
交互图一般由三部分组成,角色、对象和数据流。
2.3.2.2系统顺序图
顺序图是强调消息时间顺序的交互图。
顺序图描述类系统中类和类之间的交互,它将这些交互建模成消息交换,换句话说,顺序图描述了类以及类之间相互交换以完成期望行为的消息。
顺序图的特点是清晰,一个设计很好的顺序图从左至右、从上至下可以很好的表示出系统数据的来源和流向,为接下来系统设计做好铺垫。
基金项目专家网上评审系统的整体顺序图如图6所示的顺序图来进行宏观的描述,从左到右可以看到系统数据流向。
图6系统顺序图
由于不同类别的用户拥有不同的系统权限,图4是整个系统宏观的顺序图。
基金项目专家网上评审系统的核心是项目预处理子系统,下面对项目预处理子系统进行了UML顺序图设计,如图7所示。
图7项目预处理子系统顺序图
2.3.2.3系统部署图
部署图是面向对象系统的物理方面建模时使用的图,用于描述系统硬件的物理拓扑结构以及在此结构上运行的软件。
使用部署图可以显示运行时系统的结构,同时还传达构成应用程序的硬件和软件元素的配置和部署方式。
基金项目专家网上评审系统的系统部署图如图8所示。
图8系统部署图
2.3.3系统设计
系统设计的目的是把系统分析后得到的立项决策支持系统的具体需求转换为设计文档。
一般来说,系统设计分为概要设计和详细设计。
概要设计就是设计软件的结构,包括组成模块,模块的层次结构,模块的调用关系,每个模块的功能等等。
详细设计阶段的目标是确定怎样具体地实现所要求的系统,也就是说,经过这个阶段的设计工作,应该得出对目标系统的精确描述。
在UML建模过程中,系统设计相关的主要视图为类图和部署图。
2.3.3.1概要设计
系统组件图描述了软件的各种组件和它们之间的依赖关系,通过对组件间依赖关系的描述来估计对系统组件的修改给系统可能带来的影响。
组件图通常包含三种元素,组件、接口和依赖关系。
每个组件实现一些接口,并使用另一些接口。
组件图是面向对象设计中体现可重用思想的最好工具,通过组件图可以很清晰的看到整个系统的组件分布情况和重用情况。
基金项目专家网上评审系统组件图如图9所示。
图9系统组件图
2.3.3.2详细设计
类图是根据系统中的类,以及各个类之间的关系描述系统的静态视图。
类图不仅显示系统内信息的结构,也描述系统内这些信息的行为。
类图的一个目的是为其他图(如顺序图,交互图)定义一个基础。
类图由多个类以及这些类之间的关系组成。
类由三部分组成,分别是类名称,类属性和操作。
类的名称来自于系统的问题域,用于唯一表示此类。
属性是与类相关联的信息,它用于描述对象的特征。
操作又称为方法,用于操作属性或执行其他动作或功能。
类和类之间存在几种关系,在面向对象设计中,主要的关系是泛化关系和关联关系。
泛化关系是一种存在于一般类别和特殊类别之间的分类关系。
泛化允许把类细化为一些新类,同时又维持该父类的那些关键元素不变。
泛化关系适于描述复杂系统中的复杂的且相互之间具有继承性关系的类。
关联关系则是一种结构关系,它指明一个事物的对象与另一个事务的对象之间的联系。
也就是说,关联描述了系统中对象或实例间的离散连接。
在本系统中,主要使用的类有Project、Expert、ProjectPre-Process、SMSPush、ReviewIndicator、ExpertReview、SummaryArchive等。
主要类图如1