1、智能计算平台应用开发中级实验手册计算平台管理运维实践实验手册教师用书计算平台管理运维实践实验手册教师用书1 参考资料及工具1.1 参考资料及工具文档中所列出的命令以及参考文档,请根据实际环境中的不同产品版本使用对应的命令以及文档。参考文档:1.TaiShan机架服务器iBMC用户指南路径:技术支持 文档中心 TaiShan服务器 TaiShan TaiShan V2 操作维护 用户指南2.FusionServer Tools 2.0 InfoCollect 用户指南路径:技术支持 文档中心 智能管理软件 服务器管理 FusionServer Tools 操作维护 用户指南3.FusionSer
2、ver Tools 2.0 SmartKit 用户指南路径:技术支持 文档中心 智能管理软件 服务器管理 FusionServer Tools 操作维护 用户指南4.OceanStor V5系列 V500R007 Kunpeng管理员指南路径:技术支持 文档中心 企业存储 中端存储 OceanStor V5 操作维护 管理员指南5.OceanStor V5系列 V500R007 Kunpeng部件更换路径:技术支持 文档中心 企业存储 中端存储 OceanStor V5 故障处理 部件更换指南6.FusionDirector 1.5.2 安装指南路径:技术支持 文档中心 智能管理软件 Fusi
3、onDirector 安装升级 软件部署指南7.FusionDirector 1.5.2 操作指南路径:技术支持 文档中心 智能管理软件 FusionDirector 操作维护 操作指南软件工具:1.iBMC demo 在线体验工具2.FusionDirector demo在线体验工具3.DeviceManager demo需下载安装包2 计算平台管理运维实践 2.1 教学实施步骤本次案例教学围绕平台管理运维场景展开,整个演练过程安排时长:8课时,该课程时长仅作为教学参考,可根据实际教学情况进行调整。注:每课时时长为45分钟。详细案例教学步骤如下:表2-1 教学实施步骤流程实施环节时长具体动作
4、主题介绍0.2课时介绍本次课程的安排介绍教学目标对学员进行分组案例讲解0.2课时介绍案例背景信息(播放引导胶片)下发对应的学员手册和道具(白纸、马克笔、截图材料等)下发任务(播放引导胶片)详细介绍本次案例的规则(播放引导胶片)场景演练及分析讨论7课时分组进行研讨案例,完成下发的任务,输出结果展示分享0.3课时各小组进行阐述,或分角色进行演练输出小组讨论总结,相互点评其他小组活动点评总结0.3课时引导员对学员分析和理解进行点评,指出案例关键点和核心知识内容(播放引导胶片)对各个小组的得分情况进行统计,对小组成员进行能力评估2.2 课程介绍【开发者设计提供引导员的开场白,为新老师提供便利,以下是作
5、为参考】本章的内容主要为智能计算平台设备(如服务器设备与存储设备)的日常运维工作与故障诊断,包括设备巡检、查看告警、日志收集、部件更换、固件升级等维护操作。2.3 教学目标能完成服务器的日常运维与故障处理;能完成存储设备的日常运维与故障处理;能进行数据中心的日常运维操作。2.4 学员分组【开发者需要根据案例设计具体的分组,最大人数和最小人数的分组】建议每组中都有较为活跃的学员;每组3-5人,最多4组,最少2组;移动教室桌子,按小组划分区域,打印各个小组的组号牌。2.5 案例背景说明:本文所涉及的案例仅为样例,实际操作中请以真实设备环境为准,具体配置步骤请参考对应的产品文档。在这个数字时代,银行
6、业务面临转型与重塑,为此银行应当实施数字化战略,通过构建有力的支撑体系及IT能力助力数字化转型,从而保持在金融行业的领先地位。而传统运维模式效率低、业务体验差、人力成本高,导致H银行每年在运维管理上投入非常高。因此H银行计划向智能运维转型,选用华为设备进行统一化管理,采用FusionServer Tools、iBMC、FusionDirector、SmartKit、DeviceManager等一系列管理软件来帮助运维智能化转型。本次项目技术负责人工程师A,需要完成如下任务:服务器日常运维;服务器故障处理;存储设备日常运维;存储设备故障处理;数据中心日常运维。2.6 任务及参考答案演练场景1:服
7、务器日常运维背景H银行已完成一批新的智能计算平台设备的部署工作,运维管理工程师A已到岗,需要对这批服务器进行日常运维。思考华为有哪些常用的服务器运维管理工具?【参考答案】iBMC、FusionServer Tools、SmartKit、SmartProvisioning等。任务一 iBMC WebUI查看当前告警iBMC智能管理系统(以下简称iBMC)是服务器的远程管理系统,提供了丰富的管理功能,包括丰富的管理接口、故障监控与诊断、系统维护接口、网络协议、智能电源管理等功能。说明:iBMC为物理服务器BMC芯片自带的管理系统,故本节操作仅适用于物理设备演练,云环境请使用iBMC demo作为研
8、讨参考(获取方式请查看1.1参考资料及工具)。【操作指导】步骤1:登陆iBMC WebUI;步骤2:进入“告警与事件”界面;步骤3:查看“当前告警”,并按处理建议进行相关操作。详细操作请参考TaiShan 机架服务器 iBMC用户指南 。问题研讨iBMC告警共有几种类型?处理措施是什么?【参考答案】取值范围:“紧急”、“严重”和“轻微”。:紧急级别的告警可能会使设备下电、系统中断。因此需要您马上采取相应的措施进行处理。:严重级别的告警会对系统产生较大的影响,有可能中断系统的正常运行,导致业务中断。:轻微级别的告警不会对系统产生大的影响,但需要您尽快采取相应的措施,防止故障升级。任务二 Fusi
9、onServer Tools InfoCollect收集日志InfoCollect是服务器日志收集工具,支撑维护问题定位。它有图形化界面和命令行界面两种模式,本节我们以图形化界面为例。说明:FusionServer Tools仅适用于物理设备演练,云环境下本节操作仅作为研讨参考。【操作指导】步骤1:安装 InfoCollect工具;在已安装Windows操作系统的笔记本电脑或服务器上安装InfoCollect工具,要求该笔记本电脑或服务器能ping通待收集BMC和操作系统日志的服务器IP地址;步骤2:进入“InfoCollect_GUI”文件夹,右键单击“InfoCollect.exe”,选择
10、“以管理员身份运行”;步骤3:勾选“BMC Info”或“OS Info”,输入相应的IP地址、用户名及密码;步骤4:单击“Start”开始收集日志。详细操作请参考FusionServer Tools 2.0 InfoCollect 用户指南。问题研讨命令行下的InfoCollect工具收集日志的命令是什么?【参考答案】./infoCollect.sh演练规则演练完毕后,每组汇总讨论结果,派本组学员代表上台,讲解本组结论。讲师引导各组学员之间进行相互提问与点评。评判因素主要包括以下关键点:是否获取告警信息;是否成功收集日志;每项任务分值10分,问题回答不全面酌情扣分;综合比较各组的输出结果,评
11、选出最佳小组,该组累积1分。演练场景2:服务器故障处理背景某日工程师A在巡检设备时,突遇服务器故障,无法登陆,需要对服务器进行故障诊断与修复。思考故障诊断的基本原则是什么?【参考答案】先诊断外部,后诊断内部。先诊断网络,后诊断网元。任务一 iBMC WebUI故障诊断登陆iBMC WebUI可以看到“诊断”界面中的FDM功能。华为服务器FDM故障诊断系统是华为开发的具有完全自主知识产权的服务器故障诊断系统,覆盖系统所有状态的故障、数据收集、故障数据解析、故障诊断定位、故障预告警等完整故障处理流程。说明:iBMC为物理服务器BMC芯片自带的管理系统,故本节操作仅适用于物理设备演练,云环境请使用i
12、BMC demo作为研讨参考(获取方式请查看1.1参考资料及工具)。【操作指导】步骤1:登陆iBMC WebUI;步骤2:进入“诊断”界面,查看FDM下的告警提示;步骤3:收集“录像回放”、“屏幕截图”、“黑匣子”、“串口数据”等数据;步骤4:分析收集到的数据。详细操作请参考TaiShan 机架服务器 iBMC用户指南 。问题研讨FDM的典型应用场景有哪些?【参考答案】系统发生严重故障导致系统黑屏死机或重启;或服务器长时间运行,内部已存在大量可恢复/纠正的故障(如ECC等)。任务二 SmartKit固件升级由任务一收集到的数据分析可知,服务器BIOS版本老旧,需要进行固件升级。SmartKit
13、是可用于存储、服务器、云计算三大领域产品的统一服务工具平台,包含了对IT设备进行部署、维护、升级等操作所需的各类工具,能够帮助产品用户、服务工程师、维护工程师在上述过程中对设备进行精准操作,降低操作难度、提升工作效率。说明:由于SmartKit仅支持纳管真实物理设备,故本节操作仅适用于物理设备演练,云环境仅作为研讨参考。【操作指导】步骤1:下载SmartKit安装包,进行安装;由SmartKit的安装环境要求可知,SmartKit目前仅支持安装在Windows系统的服务器上;步骤2:登录SmartKit,身份认证;步骤3:安装子工具;步骤4:纳管服务器;在“设备列表”界面,您可以添加需要维护和
14、管理的设备,并对已添加的设备进行修改、移除、更新等操作;步骤4:固件升级。开始发现设备选择升级类型选择固件升级结束。详细操作请参考FusionServer Tools 2.0 SmartKit 用户指南。问题研讨SmartKit有哪些适用于服务器的需求场景?【参考答案】开局交付、例行维护、故障处理、升级/补丁、部件更换。演练规则讨论完毕后,每组汇总讨论结果,派本组学员代表上台,讲解本组结论。讲师引导各组学员之间进行相互提问与点评。评判因素主要包括以下关键点:是否获取黑匣子数据;是否正确完成固件升级;每项任务分值10分,问题回答不全面酌情扣分;综合比较各组的输出结果,评选出最佳小组,该组累积1分
15、。演练场景3:存储设备日常运维背景H银行此次部署的设备中还包括一批OceanStor存储设备,工程师A作为数据中心运维人员,同样需要对该存储设备进行日常运维。思考根据维护的频率和维护项目可分为首次维护、每天、每周定期维护,每周定期维护的项目有哪些?【参考答案】巡检存储设备、检查机房环境、检查机架内部环境。任务一 DeviceManager进行巡检DeviceManager是一款华为存储单设备管理软件,可以轻松便捷地配置、管理和维护存储设备。通过检查告警列表中告警的详细信息和修复建议,可以帮助修复存储系统的告警,保证设备和业务的正常运行。说明:DeviceManager为存储物理设备自带的网管系
16、统,故本节操作仅适用于物理设备演练,云环境请使用DeviceManager demo作为研讨参考(获取方式请查看1.1参考资料及工具)。【操作步骤】步骤1:登录DeviceManager;步骤2:选择“监控 告警和事件 当前告警”;步骤3:选择某条告警,参考右侧显示的“修复建议”处理告警。详细操作请参考OceanStor V5系列 V500R007 管理员指南。问题研讨DeviceManager的界面组成有哪些?【参考答案】信息展示区、状态栏、导航栏、退出帮助和语言切换区、故障统计区。任务二 SmartKit进行巡检维护终端安装好SmartKit巡检工具,并能ping通待管理的存储设备,即可对
17、存储设备进行纳管及日常运维管理。说明:由于SmartKit仅支持纳管真实物理设备,故本节操作仅适用于物理设备演练,云环境仅作为研讨参考。【操作步骤】步骤1:运行SmartKit工具;步骤2:添加设备;设备列表添加输入基本信息输入配置信息完成;步骤3:巡检设备;例行维护健康检查选择设备巡检信息收集硬盘健康分析。详细操作请参考OceanStor V5系列 V500R007 管理员指南。问题研讨SmartKit与DeviceManager的区别是?【参考答案】SmartKit可以同时管理多台设备,且可纳管服务器等其他设备;而DeviceManager仅为单台存储设备的带外管理软件。演练规则讨论完毕后
18、,每组汇总讨论结果,派本组学员代表上台,展示本组的操作流程。讲师引导各组学员之间进行相互提问与点评。评判因素主要包括以下关键点:是否成功获取告警信息;每个任务分值10分,问题回答不全面酌情扣分;综合比较各组的输出结果,评选出最佳小组,该组累积1分。演练场景4:存储设备故障处理背景某日,工程师A正在对存储设备进行备份维护操作,突然发生故障,DeviceManager无法登陆,需要对存储设备进行故障诊断及处理。思考为防止存储设备故障丢失数据,常用的数据保护措施有哪些?【参考答案】备份、快照、容灾解决方案等。任务一 非正常状态下故障信息收集存储系统处于非正常模式下,通过DeviceManager正常
19、页面和CLI导出故障信息的方法均不可用。【操作步骤】步骤1:打开浏览器,在地址栏输入存储系统管理网口IP地址“https:/ipaddress:8088”,其中ipaddress为存储系统管理网口IP地址;步骤2:输入存储系统管理员的用户名和密码。系统进入故障界面;步骤3:单击“下载日志”。系统自动完成日志的下载。详细操作请参考OceanStor V5系列 V500R007 故障处理。问题研讨怎样在日常运维中预防存储系统故障现象?【参考答案】定期巡检,导出系统数据,包含运行数据、系统日志和硬盘日志。任务二 FRU工具部件更换由任务一故障诊断可知,存储设备的光模块需要更换,工程师A利用FRU更换
20、工具进行部件更换。FRU(Field Replaceable Unit)即现场可更换单元,是指工程师可以根据操作指导在设备现场进行更换的部件。说明:由于SmartKit仅支持纳管真实物理设备,故本节操作仅适用于物理设备演练,云环境仅作为研讨参考。【操作步骤】步骤1:登陆SmartKit工具管理软件;步骤2:安装“FRU更换”工具包;步骤3:选择“首页 存储 部件更换 备件更换”,进入“备件更换”界面;步骤4:选择要更换的设备,弹出“光模块更换向导”,按提示完成更换操作。详细操作请参考OceanStor V5系列 V500R007 Kunpeng部件更换。问题研讨除了FRU工具外,还有什么工具可
21、以进行部件更换?【参考答案】DeviceManager。演练规则讨论完毕后,每组汇总讨论结果,派本组学员代表上台,展示本组的操作流程。讲师引导各组学员之间进行相互提问与点评。评判因素主要包括以下关键点:非正常状态下是否成功获取日志信息;是否完成部件更换流程;每个任务分值10分,问题回答不全面酌情扣分;综合比较各组的输出结果,评选出最佳小组,该组累积1分。演练场景5:数据中心日常运维背景H银行新部署的数据中心,设备数量庞大,且品牌不一,工程师A为了提高运维管理效率,采用了华为FusionDirector软件对数据中心进行统一纳管。FusionDirector为服务器(包含华为和第三方)和华为边缘
22、设备统一运维管理软件,实现了服务器的可视化管理和故障诊断,提供设备纳管、设备配置、固件升级、设备监控、OS部署等全生命周期的管理能力,有效帮助运维人员提高运维效率、降低运维成本。思考FusionDirector安装前需要进行安装规划,请列举需要进行的规划工作。【参考答案】资源规划、部署方案规划、软硬件配置规划、网络规划、license规划。任务一 安装FusionDirector本次部署涉及物理环境部署与云环境部署,请分别获取本地裸机安装和云环境安装所需的安装包。登录华为技术支持网站,请在搜索框中输入关键字“FusionDirector-ENT”获取最新版本的软件包。子任务1:裸机安装以Tai
23、Shan服务器为例,请完成FusionDirector的部署。【操作步骤】步骤1:登陆服务器iBMC WebUI;步骤2:设置系统启动项。启动模式设置为传统BIOS,引导介质设置为从光驱启动;步骤3:进入KVM远程控制台界面;步骤4:(可选)配置RAID和设置启动盘;步骤5:通过虚拟光驱挂载镜像文件;步骤6:重启;步骤7:进入自动软件安装,完成后系统会自动重启。子任务2:云上安装FusionDirector也能部署在华为云ECS上,管理更方便。前提:已获取华为云系统的登录认证信息;已创建可用的OBS桶,用于存放.qcow2镜像。【操作步骤】步骤1:登录华为云;步骤2:进入“云服务器控制台”界面
24、;步骤3:上传.qcow2镜像;步骤4:创建私有镜像,选择目标桶中的.qcow2镜像;步骤5:购买弹性云服务器,选择步骤4中创建的私有镜像,完成配置后创建服务器;步骤6:远程登录;步骤7:进入自动软件安装,完成后进入FusionDirector登录界面。详细操作请参考FusionDirector 1.5.2 安装指南 02。问题研讨请给出裸机场景下,FusionDirector的软硬件每节点最小资源要求。【参考答案】裸机:CPU:8核2GHz;内存:32GB;硬盘:480GB(硬盘类型SAS、SATA,RAID 支持LSI SAS3108)。任务二 FusionDirector日常运维工程师A
25、完成FusionDirector的本地及云上安装后,将对数据中心设备纳管,进行日常运维管理。说明:由于FusionDirector仅支持纳管真实物理设备,故本节操作仅适用于物理设备演练,云环境请使用FusionDirector demo作为研讨参考(获取方式请查看1.1节的参考资料及工具)。子任务1:纳管服务器请将TaiShan服务器添加至待管理服务器列表。当前支持自动发现、批量导入、手动添加三种设备添加方式。自动发现:系统定期扫描,自动发现可以添加的设备。批量导入:采用Excel模板,进行批量添加。手动添加:指定IP或IP段添加服务器。本次采用手动添加模式。子任务2:服务器上下电可执行批量上
26、电服务器操作,一次最多支持1000台服务器。【操作步骤】步骤1:依次单击“菜单 设备 设备列表 服务器”,进入服务器管理界面;步骤2:在服务器列表中选择需要上电的服务器,然后在页面右上角的“更多”下拉菜单中选择“上电”。弹出操作确认对话框;步骤3:单击“确定”。子任务3:导出日志此操作可导出服务器的BMC日志。一次最多只能导出100台服务器的日志。【操作步骤】步骤1:依次单击“菜单 设备 设备列表 服务器”,进入服务器管理界面;步骤2:在服务器列表中选择需要上电的服务器,然后在页面右上角的“更多”下拉菜单中选择“导出日志”。弹出操作确认对话框;步骤3:单击“确定”。详细操作请参考FusionD
27、irector 1.5.2 操作指南 03。问题研讨FusionDirector五大智能管理是指?【参考答案】智能配置部署、智能资产管理、智能版本管理、智能故障处理、智能能效管理。演练规则讨论完毕后,每组汇总讨论结果,派本组学员代表上台,讲解本组操作思路。讲师引导各组学员之间进行相互提问与点评。评判因素主要包括以下关键点:是否正确安装服务器;能否进行日常运维管理操作;每个任务分值10分;问题回答不全面酌情扣分;综合比较各组的输出结果,评选出最佳小组,该组累积1分。2.7 辅助材料和道具【结合具体的案例,在学员做任务中,讲师下发辅助工具,如下供参考】1. 任务中需要用到大白纸(每组5张)、三种颜
28、色的马克笔(每组一份)、便利贴(每组10张)请提前准备好。2. 任务中需要用到案例背景信息,每位学员一份,请课前打印好。3. 任务中需要用到组网示意图,每位学员一份,请课前打印好。2.8 学员评估考察点【此表仅供参考,尽量满足:考察点可衡量,可量化】序号考察点具体内容分值1表达正确学员在阐述观点时是否有逻辑,是否流畅。1-10分2答案完整学员展示的任务答案是否完整。1-10分3呈现美观学员展示的任务答案是否清晰、美观。1-10分4时间把控得出正确答案所用时间。1-10分2.9 评分表【此表仅供参考,案例得分将记录到最终的能力评估中】评分项打分说明计算平台管理运维实践XXX(学员/小组)演练场景1:服务器日常运维任务一任务二演练场景2:服务器故障处理任务一任务二演练场景3:存储设备日常运维任务一任务二演练场景4:存储设备故障处理任务一任务二演练场景5:数据中心日常运维任务一任务二总分
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1