基于容器云技术的人工智能平台建设.docx
《基于容器云技术的人工智能平台建设.docx》由会员分享,可在线阅读,更多相关《基于容器云技术的人工智能平台建设.docx(14页珍藏版)》请在冰豆网上搜索。
基于容器云技术的人工智能平台建设
基于容器云技术的人工智能平台建设
申报部门(单位):
XXXX(盖章)
申报时间:
年月
1概述
1.4系统建设现状
单位率先建成融合企业云计算大数据一体化服务平台和全业务统一数据中心的“云”平台。
目前已有303台服务器规模,部署了24个技术组件,并完成38套企业核心业务系统全业务数据的汇集,合计数据表39330张,总的数据存储量达700TB。
初步构建企业数据统一汇集共享机制,已累计为公司50多个项目的80多个“互联网+”创新应用提供数据服务支持,形成了“互联网+”智能运检、“互联网+”营销服务、“互联网+”规划、“互联网+”电力物资、运监大数据和财务精益化等新型业务形态雏形。
建成用电客户标签库、大数据运营监测系统、智能运检管控平台、供电服务指挥系统、配电网规划辅助决策等创新业务应用。
企业数据统一汇集共享机制及业务创新运营机制的初步建成,为人工智能在国网浙江电力的试点应用落地及铺开打下了较为坚实的基础。
1.5必要性分析
人工智能在电力能源有很广泛的应用技术场景,可以对如下技术场景进行储备:
(1)多功能场景分析系统,包括摄像机自动标定、人员检测、人员跟踪、姿势分类、行为分析、三维重建等模块。
(2)利用无人机,巡线机器人和遥感卫星等对输电设备本体和输电通道环境进行立体巡检和风险评测,基于人工智能图片识别技术有效的处理图片以及视频技术,准确识别出输变电设备本体的缺陷和输电线路的潜在风险。
(3)基于导航图像的知识积累和人工智能,通过对空间导航和智能巡检规划,优化巡检路径和重点排查区域。
(4)通过人工智能图像识别技术,识别用电现场危险行为,增强用电现场作业的安全性和效率。
(5)基于深度学习技术对云观测图像中的云层和云系进行识别和辨识,并对其演化进行预测,实现对云层遮挡条件下光伏功率的快速波动的预测,提供新能源跨省、跨区域高效消纳能力。
随着新能源持续高比例运行、电力电子装置大量应用、电力市场化水平不断提高,电力系统的动态非线性、多时间尺度、不确定性和难预测性表现得更加突出,以人工智能为核心的数据驱动方法相对于基于物理模型的分析方法,更加精准地刻画电力系统特征。
同时,为了应对上述变化,电力系统部署了众多用于监测、控制、管理的信息通信系统,产生着大量的数据,在电网安全与控制领域、输变电领域、配用电领域、新能源领域等应用场景下表现出大维度、小样本、非结构化的数据特性,目前常规的统计分析、数据挖掘、机器学习,难以满足需求。
机器学习应用的运行需要进行复杂的环境设置,工程师通常会在测试单个模型之前,花费大量时间在手动调整部署和升级上。
更糟的是,这些人工智能应用的运行与他们部署的集群紧密相关,以至于这些人工智能应用不便迁移。
如果没有重构,将模型从训练环境到高可扩展的生产云集群环境几乎是不可能的。
以上的问题造成了大量人力和物力的浪费,并为每次人工智能应用的迁移造成了引入bug的机会。
通过使用kubernetes容器云的一键配置集群规模和设备,更方便地使用CPU和GPU资源。
在运行人工智能训练任务时可配置为使用CPU或GPU资源,并通过单一设置调整训练资源配额。
同时也支持人工智能训练任务插队以及任务训练加速功能。
1.6效益分析
建设人工智能平台,对物理资源的细粒度进行合理的规划管理,提升资源利用率,实现资源成本的节约,帮助工程师摆脱繁琐的环境搭建和资源配置工作,更聚焦于数据和模型提高效率。
通过端到端人工智能解决方案,从公司需求、产品设计、数据收集、数据处理、模型训练、模型服务到产品验证,提高工作效率。
最后在人工智能平台层,沉淀工程经验,加快模型训练,快速助力企业实现产业智能化升级。
1.7建设目标
(1)搭建人工智能平台,包括图像标注系统,模型开发和训练平台,模型服务托管平台。
打通数据、模块、服务流程,为算法开发人员提供一站式开发体验。
(2)开发人工智能算法库:
包括图像类型(人体监测、人脸监测、行为分析)、文本类型(对话机器人基础算法、文本分析、知识图谱构建基础算法、文本分类、语义分析)、语音类型(声纹识别、语音识别、异音检测、语音质量检测、语音合成)、机器学习(推荐系统、时序预测、无监督算法)。
将通用算法进行开发,通过人工智能平台进行统一管理,提升开发效率。
(3)打造安全高效的数据存储管理平台,将内部和外部数据集统一存储在数据存储管理平台上。
并支持通过对象存储或分布式文件存储实现数据的快速访问和更新。
2业务需求
2.4人工智能平台硬件配置
2.4.1业务需求描述
(1)平台硬件配置
9台2u12*4TSATA存储机器(72线程,128G)
序号
产品型号
详细配置
单位
数量
单价
合计
备注
安擎服务器EG520R-G10
存储节点
整机部分
机架式2U
台
9
¥0.00
(+)配件
CPU
E5-2697v418核36线程
颗
2
80500.00
¥885,500.00
主板
X10DRL-I(集成I3502口千兆网卡)
块
1
机箱
RM23624H01(两块800W冗余电源,2U,12盘位,带2*2.5寸尾盘)
台
1
内存
32GDDR4RECC
根
4
raid卡
LSI9361-8I含线(1G)
块
1
硬盘
4TSATA3.5寸
块
12
万兆网卡
IntelX520SR2含模块
块
1
导轨
副
1
6台2u8*240G计算节点(72线程,128G)
序号
产品型号
详细配置
单位
数量
单价
合计
备注
安擎服务器EG520R-G10
管理节点
整机部分
机架式2U
台
6
¥0.00
(+)配件
CPU
E5-2697v418核36线程
颗
2
70900.00
¥496,300.00
主板
X10DRL-I(集成I3502口千兆网卡)
块
1
机箱
RM23608H01(两块550W冗余电源,2U,8盘位)
台
1
内存
32GDDR4RECC
块
4
SSD
S4500240GSSD
块
8
万兆网卡
IntelX520SR2含模块
块
1
导轨
副
1
50台1机4卡GPU1080ti机器(56线程,128G)
序号
产品型号
详细配置
单位
数量
单价
合计
备注
安擎服务器EG820G-G10
GPU节点
整机部分
塔式4U
台
50
¥0.00
(+)配件
CPU
E5-2680v414核28线程
颗
2
¥0.00
¥0.00
内存
32GDDR4RECC
根
4
SSD
S4500240GSSD
块
1
硬盘
4TBSATA
块
2
万兆网卡
X520-SR2
块
1
GPU卡
华硕1080ti
块
4
机塔套件
MCP-290-00059-0B
台
1
2.5托架
MCP-220-93801-0B
个
1
规模说明:
集群类型
集群用途说明
规模预估
备注
管理集群
管理集群:
1.多台服务器节点组建高可用主控集群。
2.多台服务器节点组建高可用镜像仓库集群。
7台服务器
镜像节点服务器存储用量较大。
存储集群
存储集群:
1.人工智能平台配置,状态信息存储。
2.训练数据集(视频,图片,文本,语音等类型文件)存储。
3.模型训练输出文件存储(训练模型文件,训练事件文件,训练日志文件)。
11台服务器
视频监控类存储资源计算参考公式:
存储(TB)=2.16TB~3.24TB/天×摄像头数(单位:
千台)×存储天数。
GPU集群
GPU集群:
1.部分GPU节点用于模型训练任务。
2.部分GPU节点用于模型服务实例运行。
50台GPU服务器(每台4块GPU显卡)
由于GPU厂商的限制,多个训练任务不能同时公用一块GPU卡,所以每个训练任务至少独占一块GPU卡。
资源参考公式:
服务器(台)=[分析场景类别(种)X[模型训练实例数+模型实例数]]➗4。
2.4.2业务流程
无
2.4.3业务数据
无
2.5人工智能平台建设
2.5.1业务需求描述
(1)基于kubernetes容器云针对一体化企业云平台应用运行中产生的海量数据搭建人工智能平台训练的实验域和调用人工智能平台模型服务的生产域,生产域紧密结合企业云平台以及运行应用。
其中包括三大组件:
训练数据管理组件,AI模型训练组件,模型托管组件。
在不同的基础设施上轻松可重复、便携的部署和管理松散耦合的微服务应用,根据需求进行缩放,利用kubernetes为使用者提供简单的清单,以便可以轻松地在任何位置使用机器学习堆栈在kubernetes上运行。
此外,容器云技术可以基于部署集群进行自我配置,最大化使用资源。
平台综合管理功能主要针对平台管理员角色,其中功能包含:
账号管理、多租户管理、计算存储网络资源管理、告警管理、日志管理、监控管理、插件扩展中心功能。
(2)训练数据管理组件
对接和管理底层存储,将存储资源分配给平台用户,平台用户基于管理员已分配存储空间来存储训练数据集。
已存储的数据集可以在平台上进行数据标记操作。
存储数据中包含训练代码文件,可以通过jupyternotebook进行在线修改训练代码以及调试。
训练结束后对训练产生的事件、日志、模型文件进行存储。
(3)AI模型训练组件
模型训练包含前期训练的项目参数配置、资源分配、任务提交、任务提交后的资源调度以及资源紧张时任务插队系统,以及在训练过程中资源监控、训练日志、训练可视化展示,模型评估以及模型导出的全生命周期管理。
(4)模型托管组件
模型托管组件包括模型运行环境定义,模型发布实例数定义,模型运行后的弹性伸缩策略定义,客户端调用示例代码段生成,模型运行后GPU等资源监控告警,模型实例运行日志收集与展示。
2.5.2业务流程
无
2.5.3业务数据
无
2.6人工智能算法库与数据资料库开发
2.6.1业务需求描述
(1)人工智能算法库建设
由于人工智能应用的开发复杂度高,不仅仅涉及到软件前端和后端的开发,还要涉及到人工智能模型和算法的研发、开发人员对于人工智能算法的了解。
平台应具备常见的基础算法库,基于人工智能场景的丰富,我们需要的算法库包括:
图像分析算法库:
人:
人脸识别、人脸检测、人体检测、人体跟踪、行为分析;物:
物品识别、细粒度分类、缺陷检测;OCR:
车票OCR、通用OCR、发票OCR、表格OCR。
文本类型算法库:
对话机器人基础算法;文本分析;知识图谱构建基础算法;文本分类;语义分析。
语音类型算法库:
声纹识别;语音识别;异音检测;语音质量检测;语音合成。
推荐系统算法库:
1.基于图像识别的电商内容推荐系统;2.基于深度学习的用户行为推荐系统;3.基于深度学习的排序算法;时序预测算法库:
1.非参数时序预测;2.机器学习时序预测;3.深度学习时序预测;无监督学习算法库:
1.聚类算法;2.降维算法。
(2)人工智能数据资料库建设
搭建人工智能数据资料库,包含数据打标系统,可以对图像,文本等数据进行打标分类并进行存储。
同时可以将内部和外部数据集统一存储在资料库中,支持通过对象存储或块存储实现数据的快速访问和更新。
2.6.2业务流程
无
2.6.3业务数据
无
2.7典型场景应用验证:
智能工单问答机器人与工单知识图谱验证
2.7.1业务需求描述
通过将智能工单问答机器人与工单知识图谱系统引入运维呼叫中心,智能工单问答机器人(下文简称“机器人”)在与用户运维报障日常交互时,能使用自然语言与用户进行对话服务,提供人性化和便捷的使用体验。
系统使用智能语义识别功能进行客户的自然语言识别及分析,准确理解用户真实意图,并做出准确的应答。
机器人的交互功能需求主要包括以下内容:
一、智能工单问答交互系统
智能工单问答交互系统主要包括以下功能:
A.基础聊天功能:
拟人化的聊天寒暄功能是增强用户体验、增加用户粘度的重要手段,机器人需具备一定的自然语言库,用以丰富机器人的智能性,有基本的语言交流、日常寒暄能力,能以拟人化的方式提供智能服务;
B.上下文语义分析:
机器人应有上下文关联和根据业务场景自动推理能力。
支持对标准问题的扩展、变形,但意思不变的问法能正确回答;
C.支持引导式场景配置:
针对用户输入的常用问题或者问题比较模糊等情况,系统应有引导式场景配置功能,可以引导客户与业务相关问题并推荐给用户最可能相关的答案内容;
D.支持相关问题推荐:
如当用户输入某个问题后,机器人可以在后台找到问题词汇相关联的问题,并可以视具体需求是否推送给客户来使用;
E.多关键词、同义词识别:
如果用户问题中出现多个关键词,及词语的多种表达方式,机器人能准确识别;
F.问题建议:
用户问题范围较宽泛时,机器人可通过智能计算,推荐与用户问题关联最紧密的问题列表,供用户进一步选择。
二、智能工单知识图谱
一方面,在问答库添加时,后台引擎便开启了智能学习的功能,自动学习了该问题及其相似问法。
另一方面,对于机器未知的问题,问答机器可选择人工辅助学习和完全自我学习,做到自我知识库的提高。
人工可选择是否回复或者审核通过并扩充至机器人知识库。
A.问答知识库管理
机器人问答知识库主要应该能包括以下子功能:
1.支持批量问题导入,也支持手工上传多格式的知识条目。
2.导入后的知识信息可实现自动加工,并自动转换为机器人能够识别的格式。
3.支持知识的模糊搜索和条件搜索,并提供搜索权限支持。
B.机器学习及知识图谱
对运维工单、运维知识库、运维文档等非结构化数据进行数据清洗、提取和分析,构建和训练知识库结构,基于知识库图结构构建解决方案推荐模型.
2.7.2业务流程
无
2.7.3业务数据
3集成需求
无
4实施范围
本期系统实施范围涉及浙江省电力公司。
5其他需求
5.4可靠性
通过软件架构的分层和分开部署满足层次分明,功能清晰,防止某一层次某一分布的错误导致集成接口的瘫痪。
系统满足集成接口监控的要求,记录错误编号、错误原因及错误来源、错误动作供分析,并可深入跟踪的错误信息。
5.5信息安全
集成接口的设计开发应从应用安全要求和数据安全要求两个方面进行考虑。
分析应用、数据模型要求遵照全业务数据中心分析域信息安全设置。
物理安全则需根据系统安全定级参考国家信息安全等级保护及智能电网信息安全防护方案要求进行设计。
5.6可维护性
可维护性是指集成接口适应修改缺陷、增加新功能、系统移植、接口迁移等。
5.6.1易修改
Ø集成接口遵循易配置性,通过简单配置即满足功能性修改需求;
Ø充分考虑集成接口的扩展性,为后期修改预留充足的扩展空间,在系统升级或迁移后原有集成接口能够继续使用;
5.6.2易测试
Ø输入输出提示信息明确(成功、失败等交互信息简洁明了)。
Ø支持相应的测试工具(LoadRunner等)。
5.7系统灾备设计
满足本地数据备份要求,根据国家电网公司灾备建设相关要求、应用和数据的特点,在系统上线前,针对项目制定符合项目单位实际运行情况的备份方案、恢复测试方案,并应在全部数据导入后进行全真模拟环境下各类备份的测试和恢复工作。
配合实施灾备建设,同时应与国网浙江公司一并进行系统上线前的灾备测试演练。