智能计算平台应用开发中级实验手册计算平台管理运维实践实验手册教师用书.docx

上传人:b****5 文档编号:5377756 上传时间:2022-12-15 格式:DOCX 页数:15 大小:26.28KB
下载 相关 举报
智能计算平台应用开发中级实验手册计算平台管理运维实践实验手册教师用书.docx_第1页
第1页 / 共15页
智能计算平台应用开发中级实验手册计算平台管理运维实践实验手册教师用书.docx_第2页
第2页 / 共15页
智能计算平台应用开发中级实验手册计算平台管理运维实践实验手册教师用书.docx_第3页
第3页 / 共15页
智能计算平台应用开发中级实验手册计算平台管理运维实践实验手册教师用书.docx_第4页
第4页 / 共15页
智能计算平台应用开发中级实验手册计算平台管理运维实践实验手册教师用书.docx_第5页
第5页 / 共15页
点击查看更多>>
下载资源
资源描述

智能计算平台应用开发中级实验手册计算平台管理运维实践实验手册教师用书.docx

《智能计算平台应用开发中级实验手册计算平台管理运维实践实验手册教师用书.docx》由会员分享,可在线阅读,更多相关《智能计算平台应用开发中级实验手册计算平台管理运维实践实验手册教师用书.docx(15页珍藏版)》请在冰豆网上搜索。

智能计算平台应用开发中级实验手册计算平台管理运维实践实验手册教师用书.docx

智能计算平台应用开发中级实验手册计算平台管理运维实践实验手册教师用书

 

计算平台管理运维实践

实验手册

教师用书

 

1参考资料及工具

1.1参考资料及工具

文档中所列出的命令以及参考文档,请根据实际环境中的不同产品版本使用对应的命令以及文档。

参考文档:

1.TaiShan机架服务器iBMC用户指南

路径:

技术支持>文档中心>TaiShan服务器>TaiShan>TaiShanV2>操作维护>用户指南

2.FusionServerTools2.0InfoCollect用户指南

路径:

技术支持>文档中心>智能管理软件>服务器管理>FusionServerTools>操作维护>用户指南

3.FusionServerTools2.0SmartKit用户指南

路径:

技术支持>文档中心>智能管理软件>服务器管理>FusionServerTools>操作维护>用户指南

4.OceanStorV5系列V500R007Kunpeng管理员指南

路径:

技术支持>文档中心>企业存储>中端存储>OceanStorV5>操作维护>管理员指南

5.OceanStorV5系列V500R007Kunpeng部件更换

路径:

技术支持>文档中心>企业存储>中端存储>OceanStorV5>故障处理>部件更换指南

6.FusionDirector1.5.2安装指南

路径:

技术支持>文档中心>智能管理软件>FusionDirector>安装升级>软件部署指南

7.FusionDirector1.5.2操作指南

路径:

技术支持>文档中心>智能管理软件>FusionDirector>操作维护>操作指南

软件工具:

1.iBMCdemo在线体验工具

2.FusionDirectordemo在线体验工具

3.DeviceManagerdemo需下载安装包

2计算平台管理运维实践

2.1教学实施步骤

本次案例教学围绕平台管理运维场景展开,整个演练过程安排时长:

8课时,该课程时长仅作为教学参考,可根据实际教学情况进行调整。

注:

每课时时长为45分钟。

详细案例教学步骤如下:

表2-1教学实施步骤流程

实施环节

时长

具体动作

主题介绍

0.2课时

介绍本次课程的安排

介绍教学目标

对学员进行分组

案例讲解

0.2课时

介绍案例背景信息(播放引导胶片)

下发对应的学员手册和道具(白纸、马克笔、截图材料等)

下发任务(播放引导胶片)

详细介绍本次案例的规则(播放引导胶片)

场景演练及分析讨论

7课时

分组进行研讨案例,完成下发的任务,输出结果

展示分享

0.3课时

各小组进行阐述,或分角色进行演练

输出小组讨论总结,相互点评其他小组活动

点评总结

0.3课时

引导员对学员分析和理解进行点评,指出案例关键点和核心知识内容(播放引导胶片)

对各个小组的得分情况进行统计,对小组成员进行能力评估

2.2课程介绍

【开发者设计提供引导员的开场白,为新老师提供便利,以下是作为参考】

本章的内容主要为智能计算平台设备(如服务器设备与存储设备)的日常运维工作与故障诊断,包括设备巡检、查看告警、日志收集、部件更换、固件升级等维护操作。

2.3教学目标

●能完成服务器的日常运维与故障处理;

●能完成存储设备的日常运维与故障处理;

●能进行数据中心的日常运维操作。

2.4学员分组

【开发者需要根据案例设计具体的分组,最大人数和最小人数的分组】

●建议每组中都有较为活跃的学员;

●每组3-5人,最多4组,最少2组;

●移动教室桌子,按小组划分区域,打印各个小组的组号牌。

2.5案例背景

说明:

本文所涉及的案例仅为样例,实际操作中请以真实设备环境为准,具体配置步骤请参考对应的产品文档。

在这个数字时代,银行业务面临转型与重塑,为此银行应当实施数字化战略,通过构建有力的支撑体系及IT能力助力数字化转型,从而保持在金融行业的领先地位。

而传统运维模式效率低、业务体验差、人力成本高,导致H银行每年在运维管理上投入非常高。

因此H银行计划向智能运维转型,选用华为设备进行统一化管理,采用FusionServerTools、iBMC、FusionDirector、SmartKit、DeviceManager等一系列管理软件来帮助运维智能化转型。

本次项目技术负责人工程师A,需要完成如下任务:

●服务器日常运维;

●服务器故障处理;

●存储设备日常运维;

●存储设备故障处理;

●数据中心日常运维。

2.6任务及参考答案

演练场景1:

服务器日常运维

背景

H银行已完成一批新的智能计算平台设备的部署工作,运维管理工程师A已到岗,需要对这批服务器进行日常运维。

思考

华为有哪些常用的服务器运维管理工具?

【参考答案】

iBMC、FusionServerTools、SmartKit、SmartProvisioning等。

任务一iBMCWebUI查看当前告警

iBMC智能管理系统(以下简称iBMC)是服务器的远程管理系统,提供了丰富的管理功能,包括丰富的管理接口、故障监控与诊断、系统维护接口、网络协议、智能电源管理等功能。

说明:

iBMC为物理服务器BMC芯片自带的管理系统,故本节操作仅适用于物理设备演练,云环境请使用iBMCdemo作为研讨参考(获取方式请查看1.1参考资料及工具)。

【操作指导】

步骤1:

登陆iBMCWebUI;

步骤2:

进入“告警与事件”界面;

步骤3:

查看“当前告警”,并按处理建议进行相关操作。

详细操作请参考《TaiShan机架服务器iBMC用户指南》。

问题研讨

iBMC告警共有几种类型?

处理措施是什么?

【参考答案】

取值范围:

“紧急”、“严重”和“轻微”。

紧急级别的告警可能会使设备下电、系统中断。

因此需要您马上采取相应的措施进行处理。

严重级别的告警会对系统产生较大的影响,有可能中断系统的正常运行,导致业务中断。

轻微级别的告警不会对系统产生大的影响,但需要您尽快采取相应的措施,防止故障升级。

任务二FusionServerToolsInfoCollect收集日志

InfoCollect是服务器日志收集工具,支撑维护问题定位。

它有图形化界面和命令行界面两种模式,本节我们以图形化界面为例。

说明:

FusionServerTools仅适用于物理设备演练,云环境下本节操作仅作为研讨参考。

【操作指导】

步骤1:

安装InfoCollect工具;在已安装Windows操作系统的笔记本电脑或服务器上安装InfoCollect工具,要求该笔记本电脑或服务器能ping通待收集BMC和操作系统日志的服务器IP地址;

步骤2:

进入“InfoCollect_GUI”文件夹,右键单击“InfoCollect.exe”,选择“以管理员身份运行”;

步骤3:

勾选“BMCInfo”或“OSInfo”,输入相应的IP地址、用户名及密码;

步骤4:

单击“Start”开始收集日志。

详细操作请参考《FusionServerTools2.0InfoCollect用户指南》。

问题研讨

命令行下的InfoCollect工具收集日志的命令是什么?

【参考答案】

./infoCollect.sh

演练规则

演练完毕后,每组汇总讨论结果,派本组学员代表上台,讲解本组结论。

讲师引导各组学员之间进行相互提问与点评。

评判因素主要包括以下关键点:

●是否获取告警信息;

●是否成功收集日志;

●每项任务分值10分,问题回答不全面酌情扣分;

●综合比较各组的输出结果,评选出最佳小组,该组累积1分。

演练场景2:

服务器故障处理

背景

某日工程师A在巡检设备时,突遇服务器故障,无法登陆,需要对服务器进行故障诊断与修复。

思考

故障诊断的基本原则是什么?

【参考答案】

先诊断外部,后诊断内部。

先诊断网络,后诊断网元。

任务一iBMCWebUI故障诊断

登陆iBMCWebUI可以看到“诊断”界面中的FDM功能。

华为服务器FDM故障诊断系统是华为开发的具有完全自主知识产权的服务器故障诊断系统,覆盖系统所有状态的故障、数据收集、故障数据解析、故障诊断定位、故障预告警等完整故障处理流程。

说明:

iBMC为物理服务器BMC芯片自带的管理系统,故本节操作仅适用于物理设备演练,云环境请使用iBMCdemo作为研讨参考(获取方式请查看1.1参考资料及工具)。

【操作指导】

步骤1:

登陆iBMCWebUI;

步骤2:

进入“诊断”界面,查看FDM下的告警提示;

步骤3:

收集“录像回放”、“屏幕截图”、“黑匣子”、“串口数据”等数据;

步骤4:

分析收集到的数据。

详细操作请参考《TaiShan机架服务器iBMC用户指南》。

问题研讨

FDM的典型应用场景有哪些?

【参考答案】

系统发生严重故障导致系统黑屏死机或重启;或服务器长时间运行,内部已存在大量可恢复/纠正的故障(如ECC等)。

任务二SmartKit固件升级

由任务一收集到的数据分析可知,服务器BIOS版本老旧,需要进行固件升级。

SmartKit是可用于存储、服务器、云计算三大领域产品的统一服务工具平台,包含了对IT设备进行部署、维护、升级等操作所需的各类工具,能够帮助产品用户、服务工程师、维护工程师在上述过程中对设备进行精准操作,降低操作难度、提升工作效率。

说明:

由于SmartKit仅支持纳管真实物理设备,故本节操作仅适用于物理设备演练,云环境仅作为研讨参考。

【操作指导】

步骤1:

下载SmartKit安装包,进行安装;由SmartKit的安装环境要求可知,SmartKit目前仅支持安装在Windows系统的服务器上;

步骤2:

登录SmartKit,身份认证;

步骤3:

安装子工具;

步骤4:

纳管服务器;在“设备列表”界面,您可以添加需要维护和管理的设备,并对已添加的设备进行修改、移除、更新等操作;

步骤4:

固件升级。

开始——发现设备——选择升级类型——选择固件——升级——结束。

详细操作请参考《FusionServerTools2.0SmartKit用户指南》。

问题研讨

SmartKit有哪些适用于服务器的需求场景?

【参考答案】

开局交付、例行维护、故障处理、升级/补丁、部件更换。

演练规则

讨论完毕后,每组汇总讨论结果,派本组学员代表上台,讲解本组结论。

讲师引导各组学员之间进行相互提问与点评。

评判因素主要包括以下关键点:

●是否获取黑匣子数据;

●是否正确完成固件升级;

●每项任务分值10分,问题回答不全面酌情扣分;

●综合比较各组的输出结果,评选出最佳小组,该组累积1分。

演练场景3:

存储设备日常运维

背景

H银行此次部署的设备中还包括一批OceanStor存储设备,工程师A作为数据中心运维人员,同样需要对该存储设备进行日常运维。

思考

根据维护的频率和维护项目可分为首次维护、每天、每周定期维护,每周定期维护的项目有哪些?

【参考答案】

巡检存储设备、检查机房环境、检查机架内部环境。

任务一DeviceManager进行巡检

DeviceManager是一款华为存储单设备管理软件,可以轻松便捷地配置、管理和维护存储设备。

通过检查告警列表中告警的详细信息和修复建议,可以帮助修复存储系统的告警,保证设备和业务的正常运行。

说明:

DeviceManager为存储物理设备自带的网管系统,故本节操作仅适用于物理设备演练,云环境请使用DeviceManagerdemo作为研讨参考(获取方式请查看1.1参考资料及工具)。

【操作步骤】

步骤1:

登录DeviceManager;

步骤2:

选择“监控>告警和事件>当前告警”;

步骤3:

选择某条告警,参考右侧显示的“修复建议”处理告警。

详细操作请参考《OceanStorV5系列V500R007管理员指南》。

问题研讨

DeviceManager的界面组成有哪些?

【参考答案】

信息展示区、状态栏、导航栏、退出帮助和语言切换区、故障统计区。

任务二SmartKit进行巡检

维护终端安装好SmartKit巡检工具,并能ping通待管理的存储设备,即可对存储设备进行纳管及日常运维管理。

说明:

由于SmartKit仅支持纳管真实物理设备,故本节操作仅适用于物理设备演练,云环境仅作为研讨参考。

【操作步骤】

步骤1:

运行SmartKit工具;

步骤2:

添加设备;设备列表→添加→输入基本信息→输入配置信息→完成;

步骤3:

巡检设备;例行维护→健康检查→选择设备→巡检→信息收集→硬盘健康分析。

详细操作请参考《OceanStorV5系列V500R007管理员指南》。

问题研讨

SmartKit与DeviceManager的区别是?

【参考答案】

SmartKit可以同时管理多台设备,且可纳管服务器等其他设备;而DeviceManager仅为单台存储设备的带外管理软件。

演练规则

讨论完毕后,每组汇总讨论结果,派本组学员代表上台,展示本组的操作流程。

讲师引导各组学员之间进行相互提问与点评。

评判因素主要包括以下关键点:

●是否成功获取告警信息;

●每个任务分值10分,问题回答不全面酌情扣分;

●综合比较各组的输出结果,评选出最佳小组,该组累积1分。

演练场景4:

存储设备故障处理

背景

某日,工程师A正在对存储设备进行备份维护操作,突然发生故障,DeviceManager无法登陆,需要对存储设备进行故障诊断及处理。

思考

为防止存储设备故障丢失数据,常用的数据保护措施有哪些?

【参考答案】

备份、快照、容灾解决方案等。

任务一非正常状态下故障信息收集

存储系统处于非正常模式下,通过DeviceManager正常页面和CLI导出故障信息的方法均不可用。

【操作步骤】

步骤1:

打开浏览器,在地址栏输入存储系统管理网口IP地址“https:

//ipaddress:

8088”,其中ipaddress为存储系统管理网口IP地址;

步骤2:

输入存储系统管理员的用户名和密码。

系统进入故障界面;

步骤3:

单击“下载日志”。

系统自动完成日志的下载。

详细操作请参考《OceanStorV5系列V500R007故障处理》。

问题研讨

怎样在日常运维中预防存储系统故障现象?

【参考答案】

定期巡检,导出系统数据,包含运行数据、系统日志和硬盘日志。

任务二FRU工具部件更换

由任务一故障诊断可知,存储设备的光模块需要更换,工程师A利用FRU更换工具进行部件更换。

FRU(FieldReplaceableUnit)即现场可更换单元,是指工程师可以根据操作指导在设备现场进行更换的部件。

说明:

由于SmartKit仅支持纳管真实物理设备,故本节操作仅适用于物理设备演练,云环境仅作为研讨参考。

【操作步骤】

步骤1:

登陆SmartKit工具管理软件;

步骤2:

安装“FRU更换”工具包;

步骤3:

选择“首页>存储>部件更换>备件更换”,进入“备件更换”界面;

步骤4:

选择要更换的设备,弹出“光模块更换向导”,按提示完成更换操作。

详细操作请参考《OceanStorV5系列V500R007Kunpeng部件更换》。

问题研讨

除了FRU工具外,还有什么工具可以进行部件更换?

【参考答案】

DeviceManager。

演练规则

讨论完毕后,每组汇总讨论结果,派本组学员代表上台,展示本组的操作流程。

讲师引导各组学员之间进行相互提问与点评。

评判因素主要包括以下关键点:

●非正常状态下是否成功获取日志信息;

●是否完成部件更换流程;

●每个任务分值10分,问题回答不全面酌情扣分;

综合比较各组的输出结果,评选出最佳小组,该组累积1分。

演练场景5:

数据中心日常运维

背景

H银行新部署的数据中心,设备数量庞大,且品牌不一,工程师A为了提高运维管理效率,采用了华为FusionDirector软件对数据中心进行统一纳管。

FusionDirector为服务器(包含华为和第三方)和华为边缘设备统一运维管理软件,实现了服务器的可视化管理和故障诊断,提供设备纳管、设备配置、固件升级、设备监控、OS部署等全生命周期的管理能力,有效帮助运维人员提高运维效率、降低运维成本。

思考

FusionDirector安装前需要进行安装规划,请列举需要进行的规划工作。

【参考答案】

资源规划、部署方案规划、软硬件配置规划、网络规划、license规划。

任务一安装FusionDirector

本次部署涉及物理环境部署与云环境部署,请分别获取本地裸机安装和云环境安装所需的安装包。

登录华为技术支持网站,请在搜索框中输入关键字“FusionDirector-ENT”获取最新版本的软件包。

子任务1:

裸机安装

以TaiShan服务器为例,请完成FusionDirector的部署。

【操作步骤】

步骤1:

登陆服务器iBMCWebUI;

步骤2:

设置系统启动项。

启动模式设置为传统BIOS,引导介质设置为从光驱启动;

步骤3:

进入KVM远程控制台界面;

步骤4:

(可选)配置RAID和设置启动盘;

步骤5:

通过虚拟光驱挂载镜像文件;

步骤6:

重启;

步骤7:

进入自动软件安装,完成后系统会自动重启。

子任务2:

云上安装

FusionDirector也能部署在华为云ECS上,管理更方便。

前提:

已获取华为云系统的登录认证信息;已创建可用的OBS桶,用于存放.qcow2镜像。

【操作步骤】

步骤1:

登录华为云;

步骤2:

进入“云服务器控制台”界面;

步骤3:

上传.qcow2镜像;

步骤4:

创建私有镜像,选择目标桶中的.qcow2镜像;

步骤5:

购买弹性云服务器,选择步骤4中创建的私有镜像,完成配置后创建服务器;

步骤6:

远程登录;

步骤7:

进入自动软件安装,完成后进入FusionDirector登录界面。

详细操作请参考《FusionDirector1.5.2安装指南02》。

问题研讨

请给出裸机场景下,FusionDirector的软硬件每节点最小资源要求。

【参考答案】

裸机:

CPU:

8核2GHz;内存:

32GB;硬盘:

480GB(硬盘类型SAS、SATA,RAID支持LSISAS3108)。

任务二FusionDirector日常运维

工程师A完成FusionDirector的本地及云上安装后,将对数据中心设备纳管,进行日常运维管理。

说明:

由于FusionDirector仅支持纳管真实物理设备,故本节操作仅适用于物理设备演练,云环境请使用FusionDirectordemo作为研讨参考(获取方式请查看1.1节的参考资料及工具)。

子任务1:

纳管服务器

请将TaiShan服务器添加至待管理服务器列表。

当前支持自动发现、批量导入、手动添加三种设备添加方式。

●自动发现:

系统定期扫描,自动发现可以添加的设备。

●批量导入:

采用Excel模板,进行批量添加。

●手动添加:

指定IP或IP段添加服务器。

本次采用手动添加模式。

子任务2:

服务器上下电

可执行批量上电服务器操作,一次最多支持1000台服务器。

【操作步骤】

步骤1:

依次单击“菜单>设备>设备列表>服务器”,进入服务器管理界面;

步骤2:

在服务器列表中选择需要上电的服务器,然后在页面右上角的“更多”下拉菜单中选择“上电”。

弹出操作确认对话框;

步骤3:

单击“确定”。

子任务3:

导出日志

此操作可导出服务器的BMC日志。

一次最多只能导出100台服务器的日志。

【操作步骤】

步骤1:

依次单击“菜单>设备>设备列表>服务器”,进入服务器管理界面;

步骤2:

在服务器列表中选择需要上电的服务器,然后在页面右上角的“更多”下拉菜单中选择“导出日志”。

弹出操作确认对话框;

步骤3:

单击“确定”。

详细操作请参考《FusionDirector1.5.2操作指南03》。

问题研讨

FusionDirector五大智能管理是指?

【参考答案】

智能配置部署、智能资产管理、智能版本管理、智能故障处理、智能能效管理。

演练规则

讨论完毕后,每组汇总讨论结果,派本组学员代表上台,讲解本组操作思路。

讲师引导各组学员之间进行相互提问与点评。

评判因素主要包括以下关键点:

●是否正确安装服务器;

●能否进行日常运维管理操作;

●每个任务分值10分;问题回答不全面酌情扣分;

●综合比较各组的输出结果,评选出最佳小组,该组累积1分。

2.7辅助材料和道具

【结合具体的案例,在学员做任务中,讲师下发辅助工具,如下供参考】

1.任务中需要用到大白纸(每组5张)、三种颜色的马克笔(每组一份)、便利贴(每组10张)请提前准备好。

2.任务中需要用到案例背景信息,每位学员一份,请课前打印好。

3.任务中需要用到组网示意图,每位学员一份,请课前打印好。

2.8学员评估考察点

【此表仅供参考,尽量满足:

考察点可衡量,可量化】

序号

考察点

具体内容

分值

1

表达正确

学员在阐述观点时是否有逻辑,是否流畅。

1-10分

2

答案完整

学员展示的任务答案是否完整。

1-10分

3

呈现美观

学员展示的任务答案是否清晰、美观。

1-10分

4

时间把控

得出正确答案所用时间。

1-10分

2.9评分表

【此表仅供参考,案例得分将记录到最终的能力评估中】

评分项

打分

说明

计算平台管理运维实践

XXX(学员/小组)

演练场景1:

服务器日常运维

任务一

任务二

演练场景2:

服务器故障处理

任务一

任务二

演练场景3:

存储设备日常运维

任务一

任务二

演练场景4:

存储设备故障处理

任务一

任务二

演练场景5:

数据中心日常运维

任务一

任务二

总分

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 院校资料

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1