人工智能平台建设可研报告0709.docx

上传人:b****8 文档编号:30138669 上传时间:2023-08-05 格式:DOCX 页数:31 大小:1.06MB
下载 相关 举报
人工智能平台建设可研报告0709.docx_第1页
第1页 / 共31页
人工智能平台建设可研报告0709.docx_第2页
第2页 / 共31页
人工智能平台建设可研报告0709.docx_第3页
第3页 / 共31页
人工智能平台建设可研报告0709.docx_第4页
第4页 / 共31页
人工智能平台建设可研报告0709.docx_第5页
第5页 / 共31页
点击查看更多>>
下载资源
资源描述

人工智能平台建设可研报告0709.docx

《人工智能平台建设可研报告0709.docx》由会员分享,可在线阅读,更多相关《人工智能平台建设可研报告0709.docx(31页珍藏版)》请在冰豆网上搜索。

人工智能平台建设可研报告0709.docx

人工智能平台建设可研报告0709

 

信息化项目可行性研究报告

 

项目名称:

基于容器云技术的人工智能平台建设

 

项目申报单位:

 

编制单位:

国网浙江信通公司

 

2018年7月8日

 

编制:

校核:

审核:

批准:

1总论

2

浙江公司是国网公司“十三五”信息化重点任务SG-ERP3.0企业级信息系统建设的综合试点单位,率先建成融合企业云计算大数据一体化服务平台和全业务统一数据中心。

然而,公司已有基础设施平台在计算算力及技术支撑上尚不足以应对日益增长的人工智能应用开发需求。

为强化人工智能应用基础支撑能力,提升人工智能服务水平,该项目基于企业云计算大数据一体化服务平台,集成全业务统一数据中心的海量数据,建设以电力系统运营管理为主导的人工智能基础服务平台,加强人工智能应用创新,引导创新应用集聚发展,促进人工智能在电网各个领域的推广,从而构建人工智能完整支撑体系,发展“人工智能+”新模式新业态,为实现国网公司建设具有卓越竞争力的世界一流能源互联网企业的目标提供有力支撑。

2.1主要依据

2.2

(1)《公司“十三五”信息化发展规划》

(2)《国家电网公司信息化建设管理办法》

(3)《国家电网智能化规划总报告》

(4)《新一代人工智能发展规划》

(5)《国家电网公司人工智能专项规划》

(6)《信通技术〔2018〕8号 国网信通部关于印发公司信息化建设业务应用典型设计(试行)(2017版)的通知》

(7)《国家电网公司应用软件通用安全要求》

2.3主要原则

2.4

(1)统一性原则

项目遵循四统一原则,即统一领导、统一规划、统一标准、统一建设的原则。

承接国家电网公司“大云物移智”行动计划的建设要求,按照公司企业云计算大数据一体化服务平台整体规划的指导下进行,符合公司整体要求。

(2)先进性原则

选用可控、可靠、成熟、实用的技术,确保平台架构设计先进性、技术路线先进性、测试技术先进性以及组件选择先进性。

(3)安全、可靠性原则

充分考虑系统的安全防护、容错能力和抗干扰能力,保证系统长期稳定、安全、可靠、高效地运行。

(4)实用性原则

充分考虑人工智能模型开发、模型训练和模型发布等用户的个性化需求,提供精而专的管理工具,操作便捷实用,功能完善,界面友好。

(5)可扩展性原则

符合国际及国家通用标准,具备良好的开放性和可移植性。

采用标准开放平台接口,支持与其它系统的数据交换和共享,便于维护、扩展和互联。

(6)资源复用原则

建设过程将充分考虑到已有软硬件设备设施,尽可能继承和复用有价值的软硬件资源和数据资源,避免资源浪费,重复投资。

2.5必要性分析

2.6

《国家电网公司人工智能专项规划》明确了国网公司在人工智能方面的发展方向,在公司基础业务不断发展的现状下,电力信息系统对人工智能算法、应用的需求不断增加,将面临很多问题,具体表现为:

(1)数据处理能力薄弱

随着电力行业新能源持续高比例运行、电力电子装置大量应用、电力市场化水平不断提高,电力系统的动态非线性、多时间尺度、不确定性和难预测性表现得更加突出。

目前浙江公司全业务数据中心汇集了数据量达到700T以上,在电网安全与控制领域、输变电领域、配用电领域、新能源领域等应用场景下表现出大维度、小样本、非结构化的数据特性,目前常规的统计分析、数据挖掘、机器学习,难以满足需求,需以人工智能为核心的数据驱动方法替代基于物理模型的分析方法,更加精准地刻画电力系统特征,提升数据处理能力。

(2)人工智能计算资源匮乏(灵活性欠缺)

面对全业务数据中心大量的非结构化数据,采用普通的CPU硬件服务器处理显得过于乏力,搭载GPU的硬件服务器可以有效处理计算资源要求比较高的人工智能图像流处理等应用,利用GPU与CPU服务器的混合使用将使得资源得到优化配置,提升运算处理速度。

而对于大规模GPU服务器集群的管理和调用,以及复杂的环境设置,对于人工智能应用的开发来说都是极大的障碍,需要一个统一的人工智能平台来解决这些部署上的问题,减少手动部署的时间,方便硬件资源的配置,减少开发人员的重复性工作。

(3)人工智能应用场景广泛,技术框架多元

电力行业人工智能应用场景丰富,运检、营销、后勤、财务等各专业都有大量的需求,包括多功能场景分析系统,包括摄像机自动标定、人员检测、人员跟踪、姿势分类、行为分析、三维重建等模块;利用无人机,巡线机器人和遥感卫星等对输电设备和输电通道环境进行立体巡检和风险评测,基于图片识别技术有效的处理图片以及视频技术,准确识别出输变电设备本体的缺陷和输电线路的潜在风险;基于导航图像的知识积累和人工智能,通过对空间导航和智能巡检规划,优化巡检路径和重点排查区域等场景。

而人工智能的技术框架种类多样,包括TensorFlow、Pytorch、Caffe等,相互之间无法转换,每个应用都相对独立,使算法模型的开发无法复用,增加了人力和物力的消耗,需要统一的技术规范作为应用开发的标准,减少不必要的资源浪费。

因此,建设人工智能平台,提升海量数据处理能力、资源调配能力,支持多种计算框架的人工智能算法,对于突破人工智能关键技术,梳理人工智能应用的发展需求,应用人工智能技术提升公司基础业务水平具有重要意义。

2.7效益分析

2.8

建设人工智能平台,可以提升对公司海量、多元异构数据的处理能力,加快企业数据向企业的数据资产转变,降低人工智能应用开发的使用门槛,统一人工智能算法模型的开发部署规范,驱动人工智能应用的高速迭代,具体体现如下:

(1)降低人工智能应用的开发成本

资源调配、算法库、典型应用的特征库(应用验证)、数据接入

(2)挖掘数据价值,提升公司智能化水平

处理海量非结构数据,挖掘数据价值

(3)统一人工智能模型开发的技术规范

支持多种人工智能算法框架,形成技术规范标准,算法开发流水线

3项目建设现状

4

国网浙江信通公司成立新技术研究中心,中心内部成立了专门的团队对大数据、人工智能、物联网等新技术进行跟踪研究,并筹建“大数据智能计算实验室”,对数据、模型、应用等方面已经取得部分研究成果。

另一方面,国网浙江信通公司作为国网浙江电力的信息化支撑单位,率先建成企业云计算大数据一体化服务平台和全业务统一数据中心。

已有303台服务器规模,部署了24个技术组件,并完成38套企业核心业务系统全业务数据的汇集,总的数据存储量达700TB以上。

企业数据统一汇集共享机制及业务创新运营机制的初步建成,为人工智能在国网浙江电力的试点应用落地及铺开打下了较为坚实的基础。

本项目建设实施公司已具备成熟的软硬件环境。

5项目需求分析

6

6.1业务功能需求

6.2

(1)需要计算资源管理和调配功能

(2)需要支持3种人工智能算法框架(TensorFlow,Caffe,Pytorch)

(3)需要内置通用算法库和电力专用算法库

(4)需要人工智能典型应用场景验证

构建相应的电力特征库和训练库

6.3非功能性需求

6.4

(1)性能与可靠性

各类工具系统或组件应不受用户数量限制,按需分配;

系统最大在线用户数预计将超过100个;

系统所需储存空间需求将达100GB;

每个工具业务处理能力和吞吐量不小于100TPS;

响应时间要求小于500ms;

网络带宽需求:

系统并发用户数在设计要求范围内时,系统网络带宽平均利用率不得超过60%;

可靠性:

支持7*24小时连续运行,同时具有良好容错能力。

(2)信息安全

依据《关于信息安全等级保护建设的实施指导意见》和《国家电网公司信息化SG186工程安全防护总体方案》,根据业务信息安全保护等级分析和系统服务安全保护等级分析,对浙江企业级云服务平台受到破坏后的侵害程度进行分析,系统安全标准参照两级等级保护要求。

(3)系统灾备设计

本系统灾备设计从应用、数据存储设计及备份方面考虑:

应用平台采用分布式集群设计;数据存储通过分布式文件系统及分布式数据库集群方式结合(一式三份),实现高可靠性;对用户数据和系统通过备份系统进行数据备份。

除上述非功能性需求内容外,其他非功能性需求相关内容将严格按照《国家电网公司信息系统非功能性需求规范(试行)》执行,在系统后续设计、建设过程中逐步完善。

7项目方案(才云)

8

8.1项目目标及范围

8.2

4.1.1预期目标

目标是在公司现有的云平台遵从统一的技术架构规范构建满足人工智能应用开发的人工智能平台。

主要目标包括:

(1)大幅降低管理大规模GPU资源难度,提高GPU资源使用率,高效分配管理人工智能训练任务,加快人工智能应用开发迭代速度。

(2)

(3)通过构建高质量的特征库和训练库提供人工智能应用开发的便利性,提高人工智能模型预测准确度,从而加速人工智能产品的开发产出。

(4)

(5)内置通用深度学习算法库降低人工智能应用开发的难度,提高人工智能应用开发的速率。

简化开发流程,减轻人工智能应用开发者的开发工作量,极大缩短电力AI应用的开发周期。

(6)

(7)提供人工智能典型场景应用示例为人工智能应用开发提供参考,制定人工智能应用开发统一规范和制度流程。

(8)

4.1.2项目范围

本项目的建设范围是实现全省信通基于浙电云构建统一的人工智能开发平台。

全省基于人工智能的算法开发、模型训练和业务应用应在浙江电力人工智能平台上,遵从统一的技术架构规范。

其中人工智能特征库和训练库由运检部、营销部提供业务数据。

按照全面全员的项目建设思路和范围,本项目实施覆盖省公司本部、11家地市公司、64家县公司及所有直属单位。

8.3项目建设内容

8.4

(1)人工智能平台功能模块建设

(2)

提供TensorFlow、Caffe和PyTorch的jupyternotebook在线交互式开发环境,共享数据和资源,支持小组协作开发模式,进一步提升模型开发效率。

支持提交TensorFlow和PyTorch框架的模型训练作业;支持分布式训练和GPU加速,并提供TensorBoard来可视化模型训练过程。

模型从开发到生产环境的一站式部署管理,提供统一的RESTful、gRPC模型服务的API,支持模型版本管理和灰度发布,实时监控服务流量,并能够根据资源利用率实现弹性伸缩。

(3)开发人工智能平台打标系统

(4)

(5)

首先由全业务数据中心得到需要开发、训练及测试的生产运营数据,进行清洗、加工及格式转换等预处理工作,通过开发人工智能平台图片打标系统对预处理的图片数据进行标记和注释,最后将打标好的数据分为特征数据集和测试数据集。

 

(6)建设人工智能算法库

(7)

基于最新的研究成果,通过源代码实现包括图像类、语音类、自然语言处理类、时间序列预测等在内的多种通用算法模型,便于业务人员开箱即用,支持不同业务部门的人工智能应用开发需求。

(8)设计人工智能典型应用场景示例开发:

(9)

巡检过程隐患、缺陷排查的图像识别应用

8.5技术方案

8.6

4.3.1技术架构

人工智能平台为公司电力AI应用的开发及部署运营提供统一的硬件平台及软件支撑服务。

本项目从整体技术架构视角出发,从下至上将人工智能平台划分为物理资源层、资源调度层、框架算法库层、数据资源层、业务模型层和API接口层。

技术架构如下图所示:

图1.人工智能平台技术架构

物理资源层:

为让资源的高效使用将GPU与CPU硬件服务器的组成混合集群。

物理资源层主要由现有搭载GPU的硬件服务器和搭载普通CPU的硬件服务器共同组成统一GPU、CPU、内存、网络、存储资源池。

资源调度层:

基于浙江电力“浙电云”平台及全业务统一数据中心的建设基础,针对人工智能应用开发平台的特点,对人工智能训练任务资源分配、GPU调度等功能进行进一步完善。

其中围绕多租户权限体系展开开发适配基于K8S的GPU资源调度,存储管理,资源监控,日志收集展示,服务故障修复、模型服务弹性伸缩,集群扩缩容,训练任务系统等功能模块的工作。

数据资源层:

数据资源层主要分为特征数据集和测试数据集。

首先由运检部、营销部门等向全业务数据中心提交数据申请,得到需要开发、训练及测试的生产运营数据,通过清洗、加工及格式转换等预处理工作后,经由人工智能平台图片打标系统对预处理数据进行标记以及分类,最后将打标好的数据分为特征数据集和测试数据集。

为人工智能模型训练提供高质量的数据集支持。

框架算法库:

应用开发框架提供TensorFlow、PyTorch、Caffe框架。

通过这些开发框架提供的大量内置功能和函数模块能够快速帮助人工智能应用开发者构建人工智能应用以及简化人工智能应用开发流程从而减少人工智能应用开发工作量和开发周期。

应用开发算法库主要针对各种各样的应用场景提供了常见通用的算法库,包含图像类:

R-CNN、KNN、BPNN等,语音类:

RNN、隐马尔科夫、MDS等,自然语言处理:

ANN、遗传算法、SVM等,和时间序列预测:

BP算法、Boosting、Adaboost等

(1)

(2)

业务模型层:

主要负责业务模型的管理,包括模型文件的存储,模型的版本管理,模型配置,模型托管,以及运行生成模型服务实例。

业务模型层主要包含图像识别、智能客服、人脸识别、发票识别、语音翻译类模型。

API接口层:

将业务模型层生成的服务实例通过gRPC和RESTful方式暴露给外部系统应用进行调用。

4.3.2功能架构

人工智能平台集数据导入、数据处理、模型开发、模型训练、模型评估、服务上线等功能于一体,提供一站式全方位的深度学习建模流程,快速打造智能业务。

平台功能架构图如下:

 

图2.人工智能平台功能架构

web管理页面:

提供一个web页面供客户使用,用户通过浏览器就可以对平台的各个功能进行管理。

人工智能平台SDK接口:

平台研发了一套减少开发周期的工具来提供系统的API,方便对接其他的第三方接口。

公共组件:

租户系统:

对平台上的租户和用户及权限、配额进行管理。

资源计量:

对平台上面应用所使用的资源进行计量,方便用户查看资源的使用情况。

平台配置:

对平台上面一些功能的及参数进行配置以便用户对平台进行优化。

操作审计:

对用户使用时的访问、操作进行记录,方便后期复盘。

平台安全:

对平台进行相应的安全设置,密码长度,过期期限等。

 

数据管理:

存储管理:

对用户数据集存储的管理。

存储共享:

同一个数据集可被多个用户共享使用。

打标系统:

将用户上传的数据进行打标。

数据上传:

对用户提供的数据集进行上传。

数据下载:

对用户提供的数据集进行下载。

平台可以对上传的代码文件通过NoteBook进行代码编辑调试,并同时对训练产生的事件,日志,模型文件进行存储。

模型训练:

项目管理:

每个训练任务代表一个项目,方便用户对多个项目进行管理。

分布式训练:

将一个任务拆分成多个子任务,分散到多个GPU上训练。

资源分配:

对各个任务所使用到资源进行合理的分配。

排队任务:

如果存在很多任务,会先将这些任务进行排队,然后顺序执行。

任务系统:

对所有的模型任务进行管理。

任务监控:

对模型训练的任务进行监控,出现问题能够及时监控到。

日志展示:

对模型训练过程中日志的实时展示。

模型评估:

对训练之后的模型进行评估,检查模型是否符合预期。

模型导出:

将训练之后的模型导出来。

训练可视化:

对人工智能模型的训练过程进行可视化展示。

模型托管:

模型管理:

对用户训练完之后的模型进行管理。

弹性伸缩:

可以对训练好的模型实例进行弹性伸缩。

状态监控:

实时监控模型的运行状态。

在线升级:

新的模型服务会将旧的服务覆盖掉。

gRPC:

用户可用过gRPC方式对模型进行调用。

Restful:

用户可使用过Restful方式对模型进行调用。

版本管理:

对训练之后模型的多个版本进行管理。

kubernetes容器编排(高可用):

集群管理:

平台支持多集群,通过web界面可以对多个集群进行管理,包括扩缩容量集群。

应用管理:

对平台上面运行的应用进行管理。

资源监控:

对平台所使用的资源进行监控。

日志:

会收集平台以及训练日志,方便后期排查问题。

负载均衡:

平台提供负载均衡功能,将请求分摊到多个操作单元上进行执行。

节点扩容缩容:

可通过界面给集群添加节点或删除节点。

资源层:

由普通CPU和GPU硬件服务器组建构成混合集群资源池,为上层人工智能应用开发提供便利。

4.3.3数据架构

分布式机器学习平台的最大特点,简化客户人工智能算法编程的复杂度,将深度学习训练采用分布式运算方式提交系统后台运行,提升计算效率,加速结果产生。

能够支持数据预处理、特征工程、模型训练、模型评估等流程。

具体业务流程:

图3.人工智能平台数据架构

(1)原始数据获取:

首先由业务部门向全业务数据中心提供数据申请,得到需要开发、训练及测试的生产运营数据。

(2)

(3)预处理数据存储:

将清洗、加工及格式转换等预处理工作后的数据导入人工智能开发平台的分布式存储中。

(4)

(5)构建特征数据集和测试数据集:

对预处理数据划分为特征数据集和测试数据集,并分别对特征数据集和测试数据集进行打标分类。

同时将数据集沉淀回全业务数据中心。

(6)

(7)开发人工智能应用:

通过人工智能平台提供的在线开发测试工具jupyterNoteBook和算法库开发以及调试人工智能应用。

(8)

(9)创建训练任务:

为人工智能应用选择训练环境,训练数据集,设置训练任务资源以及参数,然后启动训练任务。

(10)

(11)模型评估:

根据步骤,训练结果,进行模型评估,并不断调优,直到满足需求。

(12)

(13)训练可视化:

通过配置模型可视化操作,将人工智能应用的训练过程进行可视化展示。

(14)

(15)模型仓库:

将训练完毕的人工智能应用生成的模型文件导出并保存在模型仓库中。

(16)

(17)模型发布:

将保存在模型仓库中的人工智能模型发布成容器实例并提供RESTfulAPI或者gRPC调用接口,在发布过程中可以设定模型服务的资源配额,以及模型服务实例数。

(18)

8.7项目实施计划

8.8

4.4.1项目环境

本项目承担单位国网浙江省电力有限公司信息通信分公司有着丰富的信息系统和数据中心建设及管理经验,有一支很强的信息化建设专业管理和数据管理的队伍,对浙江电网信息化管理提供了有力的技术和业务支持。

4.4.2项目人员

序号

姓名

工作年限

职称

专业

项目

分工

工作单位

1

2

3

4

5

6

7

8

9

10

11

 

4.4.3项目进度(才云)

序号

时间段

主要工作内容

1

第一月

实施人工智能平台功能模块:

完成数据管理、模型开发、模型训练、模型管理、多租户等。

2

第二月

实施开发平台支持tensorflow,pytorch,caffe深度学习框架库,以及实施开发支持图像类、语音类、自然语言类、时间序列预测类等通用算法库。

3

第三个月

对接MySQL,Oracle数据库,OSS存储,ODPS存储等外部应用系统

4

第四个月至第五个月

开发典型场景应用示例并制定在平台开发人工智能应用规范。

5

第六月

系统部署上线及支持:

完成人工智能平台、算法库,数据资料库,以及人工智能典型场景应用部署上线,编制用户使用手册,进行用户使用培训,并完成用户收集、权限分配工作及用户支持工作。

9经济性和财务合规性(陈可)

10

本项目按照《国家电网公司项目可研经济性与财务合规性评价指导意见》(国家电网财〔2015〕536号)文件要求,参考《公司“十三五”信息化发展规划》及《国家电网公司信息化建设管理办法》,全过程按照省公司的相关管理要求进行了前期调研和论证。

在整体的费用构成和经济性方面做了充足的自评价。

11软硬件设计

12

本项目基于浙江公司现有企业云计算大数据一体化服务平台进行建设,不涉及新的软硬件设计。

13主要设备材料清册

14

7.1编制说明

本项目基于浙江公司现有企业云计算大数据一体化服务平台进行建设,目前该平台已经具备了相应的软硬件服务能力,不涉及设备和材料的采购和供应。

7.2主要设备材料表

无。

15投资估算书(才云)

16

8.1概述

本项目主要包含运营管理系统、业务管理系统、呼叫中心控制系统等系统模块的开发、建设。

针对上述内容,按照有关要求,对项目建设过程中的相关费用进行估算,确定项目总体投资。

8.2编制原则和依据

1.项目划分及取费标准执行《国网浙江省电力公司信息化项目建设预算编制实施细则》(浙电规[2015]24号)。

2.系统开发费、系统实施费的人工单价参照国网公司标准,其中:

系统开发费不高于1600.00元/人天,系统实施费不高于1100.00元/人天。

8.3投资分析

本期项目建设总投资200万元。

其中系统开发费为148万元,占投资比例74%;系统实施费为49.06万元,占投资比例24.53%,其他费用2.94万元,占投资比例1.47%。

8.4估算表及附件

项目投资估算表格见附表1;

项目设计开发工作量明细表见附表2;

项目实施工作量明细表见附表3;

项目投资其他费用表见附表4;

项目开发功能清单表见附表5。

附录

表-1

项目投资估算示范表

序号

名称

计算基础及计算公式

数量

单价(万元)

金额(万元)

建安工程费

软件购置费

硬件购置费

咨询服务费

系统设计开发费

925

0.16

148

系统集成开发费

系统实施费

446

0.11

49.06

系统集成实施费

其他费用

不含预备费

2.94

总计

200

 

表-2

 

项目设计开发工作量明细表

工作内容

信息通信项目流程管理开发

小计

备注

需求分析

60

60

方案设计

80

80

系统开发

785

785

合计

925

925

 

表-3

项目实施工作量明细表

 

序号

工作任务

工作量(人天)

工作内容

备注

1

数据管理

50

1.对接MySQL、Oracle数据库

2.对接OSS存储,ODPS存储

3.图片数据标注系统

 

 

2

模型开发

60

1.在线模型开发和调试工具

2.数据批处理作业脚本管理

 

3

模型训练

100

1.任务分配器

2.分布式训练支持

3.多框架训练系统

4.训练任务管理

 

4

模型管理

1.模型仓库存储

2.模型版本管理

3.一键部署模型服务

4.模型实例管理

 

5

框架算法库

100

1.开发支持对tensorflow、pytorch、caffe深度学习框架库

2.构建图像类,语音类,自然语言处理类,时间序列预测类算法库

5

多租户体系

1.开发多租户权限配额系统

2.开发用户权限系统

6

开发典型场景应用

60

1.开发典型场景应用示例

2.运检部、营销部提供业务数据打造人工智特征数据集

3.运检部、营销部提供业务数据打造人工智能测试数据集

4.验证应用模型

 

7

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 表格模板 > 合同协议

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1