科技政策库数据分析与展示项目技术规范建议书.docx
《科技政策库数据分析与展示项目技术规范建议书.docx》由会员分享,可在线阅读,更多相关《科技政策库数据分析与展示项目技术规范建议书.docx(25页珍藏版)》请在冰豆网上搜索。
科技政策库数据分析与展示项目技术规范建议书
科技政策库数据分析与展示项目
技术规范建议书
3.1建设背景
为落实《中国科协高水平科技智库建设十三五规划》“利用现代信息系统,建立国家科技政策数据库,及时收集、定期更新、系统整理中央和各地新近出台的科技政策、科技人才政策,实现科协系统科技政策信息的共通共享。
”的要求,利用网络爬虫、深度学习等最新信息技术,从互联网爬取国内外科技政策文献,构建完整的科技政策库,并进行挖掘分析,实现政策文献的快速检索和统计分析功能,支持政策研究与制定,建成科技政策领域有影响的一流智库。
3.2建设目标
3.2.1项目整体目标
构建面向中央、地方(省级)的科技政策全文库。
构建面向世界主要发达国家的科技政策全文库。
构建面向科技政策研究的研究成果库(论文、专著、报告、政策建议)。
支撑政策研究与分析。
3.2.2本期项目目标
科技政策库数据分析与展示项目主要目的是根据前期项目采集的政策法规、相关研究论文、政策解读、相关研究项目信息,以及美印自1980年后国家层面的政策信息,进行数据挖掘分析和多维展示。
定制化开发政策文本挖掘系统,支持中英文的单一文本在线分析。
定制化开发中英文一体化检索引擎和国外智库信息采集编辑。
3.3业务需求
3.3.1政策文本挖掘分析
文本挖掘是对国内外政策文本、政策解读、相关论文等信息进行文本挖掘处理,提取知识化的信息并用可视化的方式进行表示,着力于政策文本的分类、政策关联分析,政策主题提取等方面。
辅助政策研究者政策制定者快速理解政策文本,挖掘数据价值。
(1)政策文本分类,通过机器学习的聚类算法对政策文本进行分类,并形成相应的专题,并以可视化的方式展示。
系统可定制生成时间与区域维度的政策热点散点图。
系统可定制生成区域政策的研究热点及统计展示图。
系统定期更新,保证政策分析的时效性。
(2))政策关联分析,通过对文本的结构分析完成政策的关联分析。
并将分析出的政策关系应用到政策检索与政策展示中去。
(3)政策主题抽取和摘要的机器编写,针对单个文本可实现文本的关键信息提取,生成相应的文本摘要信息,并在在线文本分析和检索中展示相关信息。
摘要内容包括但不限于此政策文件的涉及领域、所针对的政策对象、政策发布部门、时间、政策工具等。
3.3.2中英文文本在线分析
为更好地帮助政策研究人员政策制定者快速准确阅读理解政策文本,借助机器学习和云计算能力,系统提供中英文单一政策文本的在线分析,实现秒级的文本摘要提取、词云展现、政策溯源和相似政策导读。
(1)生成政策主题和摘要生成,提取文本关键信息,生成摘要,。
摘要内容包括政策涉及的行业领域、所使用的政策手段、所针对的政策对象等。
(2)生成政策词云,通过自然语义理解相关的技术,分析输入文本中的政策关键词,聚焦政策关键点,辅助政策分析。
(3)政策溯源分析,通过自然语言理解技术挖掘出政策之间的依赖关系,并以友好、美观的界面展示,达到清晰、直观的展示效果。
(4)相似政策推荐,通过自然语言理解技术挖掘出政策之间相似性,并根据相似度进行排序。
机器学习:
支持至少包括随机森林、逻辑回归、支持向量机、贝叶斯等多种机器学习算法,这些算法具有国内组织的机器学习大规模实际应用场景,要求提供相关证明材料。
3.3.3中英文一体化检索
为更好地服务中文用户,充分利用好系统的中英文政策数据资源,系统提供中英文一体化检索引擎,实现中英文政策资源的统一检索,用户只需输入一种语言即可实现两种资源的同时检索。
(1)灵活的检索方式。
一种语言检索,两种语言呈现。
支持条件检索,从政策领域、政策层次、政策性质、发文单位等维度限定检索的的范围;支持联想检索,当用户输入某个检索词的一部分时,自动在搜索下拉列表中联想到与该输入词相关的词语,方便用户直接选择进行搜索。
(2)智能双语检索结果呈现。
同时呈现智能、高相关度双语最优检索结果。
支持相关度、发布时间排序。
检索结果支持对排序方式的配置选择,支持多级排序;检索结果排序支持中文和英文的检索结果的切换。
丰富的检索结果筛选。
用户可以基于现有的政策文本标签,对已有检索结果进行多维度的筛选,如发布部门、行政区域等为维度,高效、准确的协助用户找到自己关注的政策文本。
3.3.4政策信息发布展示
集成政策数据采集与管理系统的国内政策信息(另外项目提供数据)、本项目采集的国外智库信息、中英文一体化检索和文本分析展示需求对外提供一体化信息检索展示门户。
3.3.5国外智库信息采集
研究分析国际排名前50的智库网站,有针对性提供相关栏目信息的采集,并将相关数据开放给文本挖掘分析、中英文一体化检索和信息展示页面。
智库名录详见附录6.1章节英文智库名录。
3.3.6智库信息编辑发布
协助完成微信公众号的开通,并提供基础的运维保障,包括信息编辑、发布、统计分析、运维管理等功能。
信息编辑指根据采集的国际智库信息,进行过滤后推荐给用户,用户选择后,翻译和美工处理工作。
其间翻译美工处理文章篇幅不超过50篇。
信息发布依托微信公共平台完成。
统计分析包括用户分析、图文分析、菜单分析、消息分析等。
运维管理包括消息管理、用户管理和素材管理。
3.3.7信息展现需求
设计集成提供国外热点研究报告的加工展示,以区域板块轮循的方式呈现不同信息源的信息展示,并集成相应的检索和分析界面。
3.3.8信息管理需求
用户可以通过CMS系统对采集的信息进行编辑、删除、转移、发布等操作。
系统可以统一配置CMS管理权限,提供统一的配置入口,便于用户对系统使用和管理。
3.4技术要求
3.4.1平台整体要求
3.4.1.1总体要求
构建基于自然语言处理、机器学习、文本挖掘引擎、搜索引擎的技术架构平台。
着重考虑大型搜索框架和文本挖掘引擎对平台的技术要求。
3.4.1.2建设原则
1.开放性
系统设计要采用开放标准,选用的技术产品要符合开放标准,可根据甲方未来业务的变化而灵活地改变,满足业务系统今后进一步拓展的需要。
2.高安全性
信息安全是甲方业务系统的重要要求,要确保所涉及软件不存在任何已知漏洞,确保信息内容网络上的安全传输,防止任何XX的访问,防范黑客对内容和系统的攻击,当发生入侵时能够及时检测并自动屏蔽和恢复。
不论硬件设备、操作系统,还是中间件和应用开发都要将全系统的安全性放在首位。
3.高可用性
本系统是甲方的重要业务系统,系统工作要稳定、可靠,要确保7×24小时不间断工作,不存在单点故障。
4.可扩展性和可分步实施性
系统应从数据存储、数据索引和功能服务等方面充分考虑集群架构和分布式架构,根据数据量增加和服务访问增强,能够灵活的进行系统扩展;系统应考虑到和其他信息系统的通信连接,应具有良好的外接接口;随着业务的不断扩充,系统可以方便地扩展业务功能模块。
5.良好的管理性和维护性
本系统是一个复杂的系统,因此要求技术架构合理,模块清晰,有管理和运维模块,可方便管理员进行系统管理和维护。
各子系统应具有详细的系统异常描述文档及相应异常处理文档。
6.先进性
系统建设时应使用先进和成熟的技术,以满足技术领先的要求。
7.集成性
系统能够由各个软件模块构建,各个模块之间,要有良好的内置集成;其次,各模块具有与其他系统集成的能力。
8.开发接口和二次开发能力
系统应提供开放接口,并可以根据项目具体需求方便地进行二次开发,满足个性化的要求,实现应用集成。
9.部署简易性
系统部署应采用微服务部署策略,实现自动化或半自动化部署。
10.后台管理界面
提供简洁、易用的管理界面,方便监控文本数据处理情况,直观展示政策文本管理、分析报表配置、文本处理状态、权限管理等操作功能。
3.4.1.3接口要求
根据整个文本挖掘和搜索引擎的流程,考虑整个科技政策库数据分析与展示项目的规范性和扩展性等需求,以及与科技政策库数据采集与管理项目的融合,系统提供的接口应具有包括但不限于:
⏹中英文文本在线分析功能按照RESTful的风格提供http接口。
⏹中英文文本在线分析功能接口调用应包括生成政策主题和摘要生成、政策词云生成、政策溯源分析、相似政策推荐四个功能接口的调用,而且支持通过接口的方式对文档进行批量处理。
⏹接口应支持二次开发。
3.4.2自然语言NLP处理要求
系统应采用自然语义理解技术,对每个政策文本进行深度分析,不仅要保障政策库内文本的识别的准确率,而且要能够对在线输入的政策文本进行深度挖掘,在政策文本分类、政策关联分析和政策主题抽取和摘要的机器编写等维度进行深度剖析,为政策制定者提供更高品质的政策文本智能分析服务。
利用中英文自然语言理解相关技术,提升系统的中英文文本分析能力,对现有算法进行优化,并根据政策文本分析实际业务进行调整。
系统应利用自然语言理解中的神经网络模型,对文本挖掘相关模型进行改进,在文本挖掘过程中不断进行语料积累,形成政策语料库,要求如下:
⏹支持停用词的处理。
⏹支持自定义词典和词语合并拆分。
⏹支持词性筛选。
⏹支持标准化规约化语料集的形成。
⏹支持同义词及近义词的处理。
数据挖掘分析
数据挖掘分析在本项目中的主要作用是对库内政策文本进行文本挖掘处理,准确地提取结构化的信息,挖掘出更有价值的信息数据,并进行更深层次加工,为政策文本分类、政策关联分析和政策主题抽取和摘要的机器编写等方面提供必要的数据处理基础。
数据挖掘分析应采用中英文语义分析和文本挖掘技术,支持中英文政策文本的解析。
功能要求
数据挖掘分析主要功能要求如下:
1)政策文本分类
⏹结合语义理解和文本挖掘技术,准确的将库内政策文本进行分类
⏹结合实际应用场景的需求,进行定制化开发,形成政策专题。
⏹政策文本分类和聚类过程应由机器自动完成。
⏹随着训练样本数量的提升,准确率应满足线性增长。
2)政策关联分析
⏹基于海量政策数据样本,结合语义理解和文本挖掘技术,深度分析库内政策文本的内容,找到政策间的关联关系。
⏹系统应具备自学习能力,可以通过用户的负样本反馈,自动优化算法模型。
3)政策主题抽取和摘要的机器编写
⏹深度定制主题模型,结合语义理解和文本挖掘技术,建立多维度政策专属信息框架,准确提取政策内关键信息。
⏹将政策文本中包含的关键信息进行处理,并将抽取的信息以结构化数据的形式进行展示,形成政策文本的摘要内容。
3.4.3算法要求
数据挖掘分析应用算法要求如下:
1)文本分词模块支持基于科技政策库业务需求进行定制化开发。
2)文本分词算法模型应至少融合五种分词算法,包括但不限于基于词典的机械分词、命名实体识别等分词技术。
3)文本分类算法模型应包括多种分类器,包括但不限于支持向量机、神经网络等。
4)序列标注算法模块应包括多种序列标注技术,包括但不限于HMM、CRF等。
5)特征提取算法模块中应包括三种以上评估函数。
3.4.4性能要求
数据挖掘分析模块性能要求上,需满足如下指标:
序号
功能名称
技术参数要求
1
基础分词准确率
90%
2
政策文本分类准确率
不低于90%
3
政策关联分析准确率
不低于90%
4
政策主题抽取召回率
不低于91%
5
政策主题抽取准确率
不低于90%
6
政策文本摘要的召回率
不低于91%
7
政策文本摘要的准确率
不低于90%
8
人名、地名、机构名等实体词提取准确率
90%
9
单机实体提取速度
不低于500KB/秒
10
支持指定字数区间的摘要提取
支持
11
词性标注准确率
不低于90.5%
12
单机词性标注速度
不低于500KB/秒
13
人工判定的关键词提取准确率
不低于85%
14
单机关键词提取速度
不低于500KB/秒
15
类别数为100以内的分类准确率
不低于80%
16
并发量为100时,分类处理速度
不低于400篇/秒
3.5文本在线分析
文本在线分析是通过用户自定义输入政策文本,利用语义分析和文本挖掘技术,对输入的内容进行信息提取、分类,再结合库内已有政策文本的内容,输出政策关联关系的分析结果,从而达到政策文本智能在线分析目的,帮助政策研究者快速的理解政策文本,提高政策研究效率。
文本在线分析应采用中英文语义分析和文本挖掘技术,支持中英文政策文本的解析。
3.5.1功能要求
文本在线分析主要功能要求如下:
1)生成政策主题和摘要生成:
⏹支持通过文本挖掘技术,分析文本内容,提取政策主题,并形成政策领域的主题模型库,丰富政策主题模型。
⏹自动从原始文本中提取文本信息,以结构化的的方式进行展示,反映出政策文本的关键内容。
2)生成政策词云
⏹对输入的政策文本进行分析,对权重较高的关键词予以视觉上的突出,形成政策词云。
⏹提取高质量政策关键词,过滤掉大量的低质量文本信息,使政策研究者可以快速了解政策的主旨。
3)政策溯源分析
⏹通过对海量政策文本的分析和深度挖掘的训练,对在线输入的政策文本进行分析,并结合现有政策文本特征,输出当前在线分析政策的制定依据。
⏹支持基于用户负反馈的调优机制。
4)相似政策推荐
⏹通过对海量政策文本的分析和深度挖掘的训练,对在线输入的政策文本进行分析,并结合现有政策文本特征,输出与当前在线分析政策文本相似的政策。
⏹支持基于用户负反馈的调优机制。
3.5.2算法要求
文本在线分析应用算法要求如下:
1)文本分词模块支持基于科技政策库业务需求进行定制化开发。
2)文本分词算法模型应至少融合五种分词算法,包括但不限于基于词典的机械分词、命名实体识别等分词技术。
3)文本分类算法模型应包括多种分类器,包括但不限于支持向量机、神经网络等。
4)序列标注算法模块应包括多种序列标注技术,包括但不限于HMM、CRF等。
5)特征提取算法模块中应包括三种以上评估函数。
3.5.3性能要求
1)支持中文简体、英语文本的输入。
2)平均处理时长(ms)小于30ms。
3)服务响应率不低于99.5%。
4)最大QPS为2000。
3.6中英文检索
建立中英文政策文本一体化检索引擎,实现中英文政策资源的统一检索,用户只需输入一种语言即可实现两种资源的同时检索。
中英文检索引擎建立在对自然语言理解的基础之上,其关键问题是要使查询语言与政策文本语言在检索之前达成一致,使用户以一种语言提问,可以检索出另外一种语言描述的相关政策。
例如,输入中文搜索内容,中英文检索平台会返回中文、英文语言的政策文本,而且这些信息不仅仅是文本信息,还可以是其他形式的政策分析结果。
中英文检索引擎要通过机器翻译技术和歧义消解技术。
完成提问式与文本之间的匹配、完成不同语言之问的语义对等、解决翻译过程中的多义和歧义问题。
中英文检索引擎的输入和输出端应采用中英文语义分析和文本挖掘技术,全面支持中英文政策文本的搜索。
3.6.1功能要求
1)灵活的检索方式:
⏹支持勾选式条件检索,用户可通过页面选择要添加的检索条件。
⏹支持基于自然语言理解的条件检索,同时输入多个查询内容,系统应自动检索包含这两个查询内容的相关结果。
⏹支持联想检索,基于政策文本语料库和语义联想技术,实现检索词联想功能,根据用户输入的检索词进行搜索内容补全提示。
2)智能双语检索结果呈现
⏹支持对中英文检索结果进行组织和排列,突出显示用户查询结果的标志性信息,帮助用户快速理解和筛查。
⏹要求根据查询内容与查询结果之间的关联程度进行排序,相关度越高的排名越靠前。
⏹支持对中英文检索结果进行筛选,可按照时间、分类和标签进行筛选,可根据筛选内容对检索结果进行实时更新。
⏹支持按照内容分类、标签等维度进行检索结果的分类展示。
3.6.2能力要求
中英文检索引擎要求如下:
1)支持分别对中文和英文政策文件构建query,对外提供文本索引。
2)支持对中英文分词模块的定制化修改。
3)支持中文和英文检索,支持utf-8统一编码。
4)支持基于NLP和特定的行业语料识别用户真正的搜索意图。
5)支持检索结果集筛选功能。
6)支持检索词在结果集中高亮显示,具体要求关键词及分词在结果集中特定字段中高亮显示,高亮显示显示字段及高亮颜色灵活可配。
3.6.3性能要求
中英文检索在性能要求上,需满足如下指标:
序号
功能名称
招标要求
1
参数指标
查准率及查全率要求提供93%的查全率并在数据完整的情况下提供较高的查准率,实现按需检索;
2
创建索引
创建索引效率满足单台10M/秒(服务器配置标准:
8核CPU,2.3GHz,64G内存),集群满足单台线性增长效率;
3
并发性能
并发量满足单台100并发,集群满足单台线性增长效率;
4
检索性能
千万级数据量,100并发请求下小于0.8秒更新索引性能;
5
索引更新性能
批量更新千万(条)索引数据速度不低于2000条/秒。
6
系统资源
每个数据节点应支撑1T以上的数据量,100以上并发数;
3.7其他要求
3.7.1项目输出形式
服务提供方应按照各业务系统的需求完成相应的功能实现,项目成果包括但不局限于:
⏹系统技术说明文档。
⏹系统部署文档。
⏹软件源代码(定制内容所有源代码)(含相关构建配置文件)。
⏹工作日志。
⏹模型验证手册。
⏹详细设计说明书。
⏹提供完善的接口文档,所有接口都应该提供详细错误返回说明。
3.7.2项目团队要求
1.项目团队人员由服务方自行管理。
2.服务提供方需提供至少10人的项目团队列表,团队成员中至少3人具有2年及以上文本挖掘开发工作经验,并具有机器学习相关背景,至少3人具有2年及以上搜索引擎开发工作经验,具有机器学习相关背景;应答方应提供包括人员参与的时间和相关人员的资质(按附件三提供每个人员的简历并签章)。
3.项目经理必须具有5年及以上项目管理经验,且提供过驻场服务。
4.团队成员(包含项目经理)至少有2人具有博士及以上学历。
5.如果人员更换需提前两个月向招标人提交书面申请,且替代人员试用两个月后征得招标人同意方可更换。
6.服务团队需要有完善的管理和协调机制,且能承诺7*24小时响应招标人需求。
3.7.3项目执行要求
在项目实施全过程中,采购人有对实施质量进行监督控制的职责和权利,服务提供方也应按照项目管理要求进行严格的质量控制,并制定详细合理的沟通计划,至少包括周报、月报和项目例会,应确保买卖双方能及时了解所需的信息。
通知中选后,采购方将按照中选份额根据应答方所提供的团队成员列表指定项目成员,并有权根据业务需求,动态新增或者减少项目成员。
服务提供方应该:
⏹从前期沟通即由项目经理负责,相关人员要保证在项目中的时间付出。
⏹服务提供方应制定详细的项目人员配置与管理方案,保证项目实施过程中,资源配置足额、并能全时为采购人项目服务。
⏹项目范围应由采购人确认并同意,服务提供方不得随意变更项目范围及活动,如需变更,应经采购人确认并同意。
采购人变更时,服务提供方应配合买方及时进行相应的变更工作。
项目实施过程中及时与相关负责人沟通,根据实际及时调整。
3.7.4交付服务要求
1.需求调研、设计、研发、测试、投产部署支持调试和落地实施等服务。
2.要求原厂工程师提供生产及测试环境的软硬件(如有)需求调研、设计、研发、测试、协助部署安装、配置和调试、平台使用实施、维护文档编写、用户使用手册和指导等服务,相关费用必须包含在投标总价内。
3.在本服务内容实施前,需要中标厂商派遣实施人员,并配合我中心技术人员制定项目计划和实施计划。
计划内容包括厂商项目经理和技术人员,以及派遣的人/天数,设计、研发、测试、投产、实施指导等工作内容。
3.7.5维护服务要求
1.专人专项快速响应:
为招标人建立高水平技术人员组成的技术支持小组,以向招标人提供售前、售后和技术支持服务。
从人员上保证7×24小时的支持响应,并且做到A、B角人员备份。
(请以列表方式给出人员姓名、职务、职责、技术水平等级和联系方式(服务热线、公司电话和手机等))。
2.重大时刻现场值守服务:
在重大事件时刻,包括重大会议期间、业务系统重大变更或其他任何可能对业务运营产生重大影响的时刻,按需派遣专业服务人员赶赴招标人相关机构和场所进行现场值守,保证系统的稳定及通畅。
3.维保服务:
免费维护期为1年,包含在投标总价中。
3.7.6部署环境要求
本项目中的数据挖掘分析引擎、文本在线挖掘引擎、中英文检索引擎、后台管理系统等均要求进行本地化部署安装,并支持根据实际环境进行灵活开发。
科技政策库数据分析与展示系统的部署架构应采用分布式存储及领先的微环境技术,支持镜像化管理,高效安全部署,并支持无限扩展。
平台要求在Linux环境下部署,数据库要求采用Mysql数据库。
3.7.7软件质量
本项目实施过程中的质量控制尤为重要,投标方应对项目的质量控制及质量保证制度提出比较完善的方案,软件质量要求如下:
1)系统应运行稳定,并具有较强的容错能力。
2)管理后台尽量从用户角度出发,以方便用户使用系统,操作简单、界面表达清晰、美观。
3)功能应全面、实用,技术先进,专业性强,满足各类交互场景需求。
4)软件应具有较强用户个性化定制能力、移植能力和后续开发能力,能够容易根据用户需求进行功能组合及调整。
5)系统数据安全,应该能够记录系统运行时所发生的所有错误,包括本机错误和网络错误。
这些错误记录便于查找错误的原因。
6)系统的所有功能都应该进行功能权限、数据权限的判断和控制。
7)系统安装方便,易于维护。
8)供应商必须提供该项目相关的完整资料,包括但不仅限于设计文档、开发工具、开发组件及平台组件的API使用说明等。
3.7.8信息安全管理
服务提供方需要严格遵守采购人的信息安全管理规定,不得将客户信息提供给第三方,不得将客户信息用于除本项目外任何目的、形式的商业、非商业研究。
3.7.9方案设计要求
本项目投标时需提供相关设计文档、实施方案等内容。
投标人提供的设计方案里,需包含系统功能架构和实现方式,并提供所需组件的说明,包括如下内容:
1)项目需求的理解。
2)详细执行方案。
3)项目控制措施。
4)其他资源配置计划(说明开展本项目所计划投入的各种非人力资源)。
5)技术/服务质量承诺,包括项目执行管理规范等等。
3.8售后服务要求
投标人应承诺该项目稳定运行,并承诺提供一年免费运维服务,服务期自项目验收合格之日开始。
服务期内为采购人需要集成的业务系统免费提供接口、版本升级和技术支持等。
3.9软件著作权的要求
1、投标人提供产品的知识产权须为投标人合法所有或经合法授权,投标人承诺本项目的开发及产品没有任何不能向采购人提交著作产权的内容和技术细节。
2、为了保证系统能安全可靠运行,投标人承诺非开放性的、未经软件产品权威认定部门认定的开发工具或技术构件,在系统开发过程及运行环境中将禁止使用。
3、本项目实施的所有成果版权属于中国科协创新战略研究院所有,用户方有权对系统进行二次开发和修改。
3.10附录1:
英文智库名录
Rank
智库名录
Wiki
Year
Rating
Reviews
1
BrookingsInstitution(UnitedStates)
Wiki
1916
100%
74
2
ChathamHouse(UnitedKingdom)
Wiki
1920
9