人工智能平台建设可研报告0709.docx
《人工智能平台建设可研报告0709.docx》由会员分享,可在线阅读,更多相关《人工智能平台建设可研报告0709.docx(28页珍藏版)》请在冰豆网上搜索。
![人工智能平台建设可研报告0709.docx](https://file1.bdocx.com/fileroot1/2022-10/26/957a92f7-fae6-4353-af4b-30066814f4d0/957a92f7-fae6-4353-af4b-30066814f4d01.gif)
人工智能平台建设可研报告0709
信息化项目可行性研究报告
项目名称:
基于容器云技术的人工智能平台建设
项目申报单位:
编制单位:
国网浙江信通公司
2018年7月8日
编制:
校核:
审核:
批准:
1总论
2
浙江公司是国网公司“十三五”信息化重点任务SG-ERP3.0企业级信息系统建设的综合试点单位,率先建成融合企业云计算大数据一体化服务平台和全业务统一数据中心。
然而,公司已有基础设施平台在计算算力及技术支撑上尚不足以应对日益增长的人工智能应用开发需求。
为强化人工智能应用基础支撑能力,提升人工智能服务水平,该项目基于企业云计算大数据一体化服务平台,集成全业务统一数据中心的海量数据,建设以电力系统运营管理为主导的人工智能基础服务平台,加强人工智能应用创新,引导创新应用集聚发展,促进人工智能在电网各个领域的推广,从而构建人工智能完整支撑体系,发展“人工智能+”新模式新业态,为实现国网公司建设具有卓越竞争力的世界一流能源互联网企业的目标提供有力支撑。
2.1主要依据
2.2
(1)《公司“十三五”信息化发展规划》
(2)《国家电网公司信息化建设管理办法》
(3)《国家电网智能化规划总报告》
(4)《新一代人工智能发展规划》
(5)《国家电网公司人工智能专项规划》
(6)《信通技术〔2018〕8号 国网信通部关于印发公司信息化建设业务应用典型设计(试行)(2017版)的通知》
(7)《国家电网公司应用软件通用安全要求》
2.3主要原则
2.4
(1)统一性原则
项目遵循四统一原则,即统一领导、统一规划、统一标准、统一建设的原则。
承接国家电网公司“大云物移智”行动计划的建设要求,按照公司企业云计算大数据一体化服务平台整体规划的指导下进行,符合公司整体要求。
(2)先进性原则
选用可控、可靠、成熟、实用的技术,确保平台架构设计先进性、技术路线先进性、测试技术先进性以及组件选择先进性。
(3)安全、可靠性原则
充分考虑系统的安全防护、容错能力和抗干扰能力,保证系统长期稳定、安全、可靠、高效地运行。
(4)实用性原则
充分考虑人工智能模型开发、模型训练和模型发布等用户的个性化需求,提供精而专的管理工具,操作便捷实用,功能完善,界面友好。
(5)可扩展性原则
符合国际及国家通用标准,具备良好的开放性和可移植性。
采用标准开放平台接口,支持与其它系统的数据交换和共享,便于维护、扩展和互联。
(6)资源复用原则
建设过程将充分考虑到已有软硬件设备设施,尽可能继承和复用有价值的软硬件资源和数据资源,避免资源浪费,重复投资。
2.5必要性分析
2.6
《国家电网公司人工智能专项规划》明确了国网公司在人工智能方面的发展方向,在公司基础业务不断发展的现状下,电力信息系统对人工智能算法、应用的需求不断增加,将面临很多问题,具体表现为:
(1)数据处理能力薄弱
随着电力行业新能源持续高比例运行、电力电子装置大量应用、电力市场化水平不断提高,电力系统的动态非线性、多时间尺度、不确定性和难预测性表现得更加突出。
目前浙江公司全业务数据中心汇集了数据量达到700T以上,在电网安全与控制领域、输变电领域、配用电领域、新能源领域等应用场景下表现出大维度、小样本、非结构化的数据特性,目前常规的统计分析、数据挖掘、机器学习,难以满足需求,需以人工智能为核心的数据驱动方法替代基于物理模型的分析方法,更加精准地刻画电力系统特征,提升数据处理能力。
(2)人工智能计算资源匮乏(灵活性欠缺)
面对全业务数据中心大量的非结构化数据,采用普通的CPU硬件服务器处理显得过于乏力,搭载GPU的硬件服务器可以有效处理计算资源要求比较高的人工智能图像流处理等应用,利用GPU与CPU服务器的混合使用将使得资源得到优化配置,提升运算处理速度。
而对于大规模GPU服务器集群的管理和调用,以及复杂的环境设置,对于人工智能应用的开发来说都是极大的障碍,需要一个统一的人工智能平台来解决这些部署上的问题,减少手动部署的时间,方便硬件资源的配置,减少开发人员的重复性工作。
(3)人工智能应用场景广泛,技术框架多元
电力行业人工智能应用场景丰富,运检、营销、后勤、财务等各专业都有大量的需求,包括多功能场景分析系统,包括摄像机自动标定、人员检测、人员跟踪、姿势分类、行为分析、三维重建等模块;利用无人机,巡线机器人和遥感卫星等对输电设备和输电通道环境进行立体巡检和风险评测,基于图片识别技术有效的处理图片以及视频技术,准确识别出输变电设备本体的缺陷和输电线路的潜在风险;基于导航图像的知识积累和人工智能,通过对空间导航和智能巡检规划,优化巡检路径和重点排查区域等场景。
而人工智能的技术框架种类多样,包括TensorFlow、Pytorch、Caffe等,相互之间无法转换,每个应用都相对独立,使算法模型的开发无法复用,增加了人力和物力的消耗,需要统一的技术规范作为应用开发的标准,减少不必要的资源浪费。
因此,建设人工智能平台,提升海量数据处理能力、资源调配能力,支持多种计算框架的人工智能算法,对于突破人工智能关键技术,梳理人工智能应用的发展需求,应用人工智能技术提升公司基础业务水平具有重要意义。
2.7效益分析
2.8
建设人工智能平台,可以提升对公司海量、多元异构数据的处理能力,加快企业数据向企业的数据资产转变,降低人工智能应用开发的使用门槛,统一人工智能算法模型的开发部署规范,驱动人工智能应用的高速迭代,具体体现如下:
(1)降低人工智能应用的开发成本
资源调配、算法库、典型应用的特征库(应用验证)、数据接入
(2)挖掘数据价值,提升公司智能化水平
处理海量非结构数据,挖掘数据价值
(3)统一人工智能模型开发的技术规范
支持多种人工智能算法框架,形成技术规范标准,算法开发流水线
3项目建设现状
4
国网浙江信通公司成立新技术研究中心,中心内部成立了专门的团队对大数据、人工智能、物联网等新技术进行跟踪研究,并筹建“大数据智能计算实验室”,对数据、模型、应用等方面已经取得部分研究成果。
另一方面,国网浙江信通公司作为国网浙江电力的信息化支撑单位,率先建成企业云计算大数据一体化服务平台和全业务统一数据中心。
已有303台服务器规模,部署了24个技术组件,并完成38套企业核心业务系统全业务数据的汇集,总的数据存储量达700TB以上。
企业数据统一汇集共享机制及业务创新运营机制的初步建成,为人工智能在国网浙江电力的试点应用落地及铺开打下了较为坚实的基础。
本项目建设实施公司已具备成熟的软硬件环境。
5项目需求分析
6
6.1业务功能需求
6.2
(1)需要计算资源管理和调配功能
(2)需要支持3种人工智能算法框架(TensorFlow,Caffe,Pytorch)
(3)需要内置通用算法库和电力专用算法库
(4)需要人工智能典型应用场景验证
构建相应的电力特征库和训练库
6.3非功能性需求
6.4
(1)性能与可靠性
各类工具系统或组件应不受用户数量限制,按需分配;
系统最大在线用户数预计将超过100个;
系统所需储存空间需求将达100GB;
每个工具业务处理能力和吞吐量不小于100TPS;
响应时间要求小于500ms;
网络带宽需求:
系统并发用户数在设计要求范围内时,系统网络带宽平均利用率不得超过60%;
可靠性:
支持7*24小时连续运行,同时具有良好容错能力。
(2)信息安全
依据《关于信息安全等级保护建设的实施指导意见》和《国家电网公司信息化SG186工程安全防护总体方案》,根据业务信息安全保护等级分析和系统服务安全保护等级分析,对浙江企业级云服务平台受到破坏后的侵害程度进行分析,系统安全标准参照两级等级保护要求。
(3)系统灾备设计
本系统灾备设计从应用、数据存储设计及备份方面考虑:
应用平台采用分布式集群设计;数据存储通过分布式文件系统及分布式数据库集群方式结合(一式三份),实现高可靠性;对用户数据和系统通过备份系统进行数据备份。
除上述非功能性需求内容外,其他非功能性需求相关内容将严格按照《国家电网公司信息系统非功能性需求规范(试行)》执行,在系统后续设计、建设过程中逐步完善。
7项目方案(才云)
8
8.1项目目标及范围
8.2
4.1.1预期目标
目标是在公司现有的云平台遵从统一的技术架构规范构建满足人工智能应用开发的人工智能平台。
主要目标包括:
(1)大幅降低管理大规模GPU资源难度,提高GPU资源使用率,高效分配管理人工智能训练任务,加快人工智能应用开发迭代速度。
(2)
(3)通过构建高质量的特征库和训练库提供人工智能应用开发的便利性,提高人工智能模型预测准确度,从而加速人工智能产品的开发产出。
(4)
(5)内置通用深度学习算法库降低人工智能应用开发的难度,提高人工智能应用开发的速率。
简化开发流程,减轻人工智能应用开发者的开发工作量,极大缩短电力AI应用的开发周期。
(6)
(7)提供人工智能典型场景应用示例为人工智能应用开发提供参考,制定人工智能应用开发统一规范和制度流程。
(8)
4.1.2项目范围
本项目的建设范围是实现全省信通基于浙电云构建统一的人工智能开发平台。
全省基于人工智能的算法开发、模型训练和业务应用应在浙江电力人工智能平台上,遵从统一的技术架构规范。
其中人工智能特征库和训练库由运检部、营销部提供业务数据。
按照全面全员的项目建设思路和范围,本项目实施覆盖省公司本部、11家地市公司、64家县公司及所有直属单位。
8.3项目建设内容
8.4
(1)人工智能平台功能模块建设
(2)
提供TensorFlow、Caffe和PyTorch的jupyternotebook在线交互式开发环境,共享数据和资源,支持小组协作开发模式,进一步提升模型开发效率。
支持提交TensorFlow和PyTorch框架的模型训练作业;支持分布式训练和GPU加速,并提供TensorBoard来可视化模型训练过程。
模型从开发到生产环境的一站式部署管理,提供统一的RESTful、gRPC模型服务的API,支持模型版本管理和灰度发布,实时监控服务流量,并能够根据资源利用率实现弹性伸缩。
(3)开发人工智能平台打标系统
(4)
(5)
首先由全业务数据中心得到需要开发、训练及测试的生产运营数据,进行清洗、加工及格式转换等预处理工作,通过开发人工智能平台图片打标系统对预处理的图片数据进行标记和注释,最后将打标好的数据分为特征数据集和测试数据集。
(6)建设人工智能算法库
(7)
基于最新的研究成果,通过源代码实现包括图像类、语音类、自然语言处理类、时间序列预测等在内的多种通用算法模型,便于业务人员开箱即用,支持不同业务部门的人工智能应用开发需求。
(8)设计人工智能典型应用场景示例开发:
(9)
巡检过程隐患、缺陷排查的图像识别应用
8.5技术方案
8.6
4.3.1技术架构
人工智能平台为公司电力AI应用的开发及部署运营提供统一的硬件平台及软件支撑服务。
本项目从整体技术架构视角出发,从下至上将人工智能平台划分为物理资源层、资源调度层、框架算法库层、数据资源层、业务模型层和API接口层。
技术架构如下图所示:
图1.人工智能平台技术架构
物理资源层:
为让资源的高效使用将GPU与CPU硬件服务器的组成混合集群。
物理资源层主要由现有搭载GPU的硬件服务器和搭载普通CPU的硬件服务器共同组成统一GPU、CPU、内存、网络、存储资源池。
资源调度层:
基于浙江电力“浙电云”平台及全业务统一数据中心的建设基础,针对人工智能应用开发平台的特点,对人工智能训练任务资源分配、GPU调度等功能进行进一步完善。
其中围绕多租户权限体系展开开发适配基于K8S的GPU资源调度,存储管