招投标项目信息大数据平台建设方案.pptx

资源描述

招投标项目信息大数据平台建设方案.pptx

《招投标项目信息大数据平台建设方案.pptx》由会员分享，可在线阅读，更多相关《招投标项目信息大数据平台建设方案.pptx（24页珍藏版）》请在冰豆网上搜索。

招投标项目信息大数据平台建设方案.pptx

,招投标项目信息大数据平台建设方案,2018年1月,目录CONTENTS,PARTONE背景介绍,PARTTWO平台功能,PARTTHREE技术方案PARTFOUR工期计划,Systemintroduce背景介绍,1.1、建设背景,制度,各省市场拓展人员，需要与各省的各级政府达成协作，谋取更多项目收入，合作的领域和资源的分配需协调。

市场人规模,市场拓展是2018年公司的重要工作内容，公司的产品与各级政府的投资密切相关，我们需要根据市场规模情况，规划公司相关人力等资源的支持和保障。

行业,产品,公司发展方向以产品销售、集成开发服务、运维服务为主的三个业务线条，行业专家和主打产品是我们的核心竞争力，需集中优势资源做大做强。

各省联动,公司发展方向和行业、产品方向，专业人才的培养，各省的协作等都需要公司进行资源分配等决策，需要市场、政策、行业数据的支持！

1.2、现状分析,缺乏区域行业产品市场竞争对手的分析对同行业的竞争对手公开市场行为无统一的分析；区域行业产品市场招投标项目信息及时获取困难对关注领域的招标信息不能主动获得，人为因素多；各省行业产品市场数据引领自身业务没有自己的数据支持队伍，找外边的咨询又太贵；,缺乏区域行业产品市场总体规模估算对投入多少市场人力技术等资源无法进行有效评估；缺乏区域行业产品市场行业占比分析对公司主要产品和服务发展拓展方向和领域不能提供支持；,1.3、解决思路,需及时获取各省、市ICT公开市场项目、政策、行业等信息，进行统计分析，用数据分析结果进行有效的支撑。

及时获取各级政府发文、公告等信息，了解区域最新政策动态，抓住政府时事热点，有效把握工作重点，提供更好的服务支持。

政府公告,及时获取各大网站科技频道行业领域热点新闻，科技新闻等动态，掌握行业最新的动态，调整行业重点及产品发展方向，跟随技术进步。

行业动态,及时获取区域ICT招投标、中标等信息，获得区域投资总量，获取中标情况，了解竞争对手的优势和劣势，及时把握最新招标公告，避免商机丢失。

招标信息,1.4、建设目标和内容,数据爬虫服务,爬取指定区域的政府招投标网站上公开的招标和中标信息。

审计分类工具,对爬取的项目信息进行分类和审计，按行业分类，查重，合规校验入库。

数据展示门户,将审计过的可用的项目招投标数据进行汇总分析，多种方式展示。

分析报告模板,根据市场业务的需求，可以定制分析的模板，自动输出，数据说话。

管理后台,初期对企业内部服务，后期公众号等提供云服务，为其他企业提供咨询。

通过软件系统，及时获取区域产品和服务公开市场招投标项目信息，进行分类汇总分析，辅助公司发展方向、行业、产品等方面的决策。

Platformfunction平台功能,2.1、总体功能结构,平台总体由六部分组成，包括数据爬虫服务，数据存储子系统、数据分析系统、数据展示子系统，后台管理子系统，微信公众号子系统。

数据分析预警,数据展示,数据采集,企业云服务,数据校验存储,安全体系,数据爬虫服务,招标项目信息,基于mysql的关系型数据中心,数据展示门户平台,公众号服务平台,信,息审核规则制定,基于mogoDB的大数据存储,2.2、数据爬虫服务,数据爬虫服务从政府采购网站、政府电子政务网站、主流媒体网站抓取相关信息，经过初步分类，存储到大数据平台。

数据爬虫服务功能说明,编号12345678910,功能描述主动触发，根据定制目标信息网站列表，定时主动检测是否有新信息发布分析目标网站url，获取要抓取的项目信息或政策等信息的url清单将url存储到消息队列中，可采用kafaka或activeMQ等爬虫服务从消息队列中获得url，根据不同网站适配器，进行数据的爬取进行信息的检查审核，关键信息是否缺失，对缺失的信息进行标记进行数据的简单分类，主要是三类项目、政策和行业大部分的数据记录通过检查未通过检查的记录存入指定错误明细表通过hivesql写入hbase中，同时写入分析服务消息队列中一份记录日志,2.3、数据分析服务,数据分析服务将初步分类的信息，根据定制的模版和行业，进行大数据处理，写入关系型数据库中，便于进行数据的展示和结果的获取。

数据分析服务功能说明,编号12345678,功能描述主动触发，根据消息队列中定制消息变化，进行网页的分析处理根据定制模版分析目标网页中关键的数据项，如项目名称，中标金额，中标厂商等对分析出的关键信息进行合规检查对合法信息，记录到mysql中，对缺失的信息进行标记，改进适配器类型和定制模版进行数据的行业分类，标记信息的行业属性，可能有多个通过大数据storm平台进行处理记录日志未通过检查的记录存入指定错误明细表,2.4、数据展示服务,数据展示服务将关系型数据库中可使用数据，通过自动化报表工具进行展示，可根据业务需求，进行行业分类展示和汇总。

数据展示服务功能说明,编号12345678,功能描述用户的管理，包括用户的增加，删除，修改，权限，登录等自动化报表工具定制的主题报表，按行业等进行汇总分析，也可按区域进行，根据要求对某厂商的分析，针对某具体厂商的单独分析同行业多厂商的对比分析，比较厂商的市场份额等某区域总的政府投资总额分析，行业占比分析等数据的推送服务，根据某用户的定制申请，可进行主动推送某行业消息记录日志,2.5、数据适配器模型,数据适配器模型是根据目标网站的url，适配该网站招投标信息、政策信息等功能区域的方法，通常需要根据该网站的升级，不断进行更改。

数据适配器功能说明,编号12345678,功能描述网站清单的维护行业分类的维护适配器的定制，加载，变更，维护关键数据项的维护网页适配器的维护，对某具体网页关键信息抓取的适配器定制，加载，变更等适配器的测试工具，定期测试适配器是否正常工作如检测失败，可进行主动推送预警消息记录日志,Technicalscheme技术方案,3.1、技术方案-架构图,微信小程序、公众号,数据库,Mysql,MongoDB,数据展示webBootStrap,Ajax,数据展示H5BootStrap,Ajax,Android客户端Ionic,AnglauerJs,Sqlite,Volley,js,微信api,OAuth,RESTful,SpringMVC,JPA,配置管理,行业管理,数据分析服务任务管理,报表管理,数据爬虫服务kafaka,httpclient,model,.,Solr,Memcached,Redis,接口总线/数据服务Web接口,H5接口,客户端接口,kafaka,activeMQ,3.2、技术方案-网络拓扑,个左右招标,网络带宽考虑20M独享，初步满足各省招投标项目的数据使用，30个网站，每天约10000及中标项目数据。

3.3、服务器,服务器类型,数量,CPU内存网口,操作系统,内置盘,数据存储平台（mogoDB及mysql集群）,服务器功能mogoDB服务器,1*2TB7200RPMSATAdisks,mysql服务器,4*600GB15KSASdisksRAID0+1,数据爬取及分析平台,数据爬虫服务器,1TB7200RPMSATAdisks,数据分析审计服务器,4*600GB15KSASdisksRAID0+1,数据展示平台（包括接口）,数据展示服务器,2*2TB7200RPMSATAdisks,数据接口服务器,4*600GB15KSASdisksRAID0+1,全部采用x86开放架构，单服务器配置建议如下所示。

3.4、关键技术-storm,ApacheStorm是一个分布式实时大数据处理系统。

Storm设计用于在容错和水平可扩展方法中处理大量数据。

Storm是Twitter开源的分布式实时大数据处理框架，被业界称为实时版Hadoop，随着大数据实时处理解决方案（流计算）的应用日趋广泛，目前已是分布式技术领域最新爆发点，而Storm更是流计算技术中的佼佼者和主流。

Storm框架主要由7部分组成。

Topology：

一个实时应用的计算任务被打包作为Topology发布，这同Hadoop的MapReduce任务相似。

Spout：

Storm中的消息源，用于为Topology生产消息（数据），一般是从外部数据源（如MessageQueue、RDBMS、NoSQL、RealtimeLog）不间断地读取数据并发送给Topology消息（tuple元组）。

Bolt：

Storm中的消息处理者，用于为Topology进行消息的处理，Bolt可以执行过滤，聚合，查询数据库等操作，而且可以一级一级的进行处理。

Stream：

产生的数据（tuple元组）。

Streamgrouping：

在Bolt任务中定义的Stream进行区分。

Task：

每个Spout或者Bolt在集群执行许多任务。

Worker：

Topology跨一个或多个Worker节点的进程执行。

3.5、关键技术-mogoDB,MongoDB是一个新的和普遍使用的数据库,它是一个基于文档的非关系数据库提供程序。

虽然它比传统的数据库快100倍，但早期说它将广泛地取代传统的RDBMS,o但是，不可否认的是：

在性能,和可扩展性方面MongoDB有着明显的优势。

关系数据库具有典型的架构设计，可以显示表的数量以及这些表之间的关系，而在MongoDB中则没有关系的概念。

MongoDBMongoDB,优点的架构较少。

它是一个文档数据库，它的一个集合持有不同的文档。

从一个到另一个的文档的数量，内容和大小可能有差异。

中单个对象的结构很清淅。

中没有复杂的连接。

提供深度查询的功能，因为它支持对文档的强大的动态查询。

很容易扩展。

它使用内部存储器来存储工作集，这是其快速访问的原因。

MongoDBMongoDBMongoDBMongoDB使用方便,重量轻/轻量级比RDBMS快得多应该使用MongoDB在哪些场景大而复杂的数据，移动和社会基础设施数据，内容管理和交付，用户数据管理，数据中心。

3.5、关键技术-kafaka,Kafka是一个分布式的、可分区的、可复制的消息系统。

它提供了普通消息系统的功能，但具有自己独特的设计。

Kafka将消息以topic为单位进行归纳。

将向Kafkatopic发布消息的程序称为producers，将预订topics并消费消息的程序称为consumer。

Kafka以集群的方式运行，可以由一个或多个服务组成，每个服务叫做一个broker.producers通过网络将消息发送到Kafka集群，集群向消费者提供消息，如右图所示。

Kafka提供的一个抽象概念:

topic。

一个topic是对一组消息的归纳。

对每个topic，Kafka对它的日志进行了分区，如左图所示。

每个分区都由一系列有序的、不可变的消息组成，这些消息被连续的追加到分区中。

分区中的每个消息都有一个连续的序列号叫做offset用,来在分区中唯一的标识这个消息。

在一个可配置的时间段内，Kafka集群保留所有发布的消息，不管这些消息有没有被消费。

Kafka的性能是和数据量无关的常量级的，所以保留太多的数据并不是问题。

rojectplan工期计划,4.1、项目管理,1、招投标项目信息大数据平台项目管理工作，主要从项目启动、项目计划、项目执行和项目收尾几个阶段进行管理，基于项目管理九要素，重点控制质量及风险。

2、项目涉及到较多的硬件资源和网络资源，建议先期进行申请，也可通过云服务采用租用方式。

3、建议先行成立项目工作小组，便于总体的项目配合以及协调等工作，确定项目总负责人。

4.1、工期计划,全部工期估算为3个月左右。

谢谢！

展开阅读全文