1、HDS存储VSP用户维护手册v10HDS 存储VSP用户维护手册(2013年5月)一、设备维护1.1 VSP配置信息用户SiteID序列号存储配置信息IP地址HDS服务热线设备安装地址磁盘:块GB,10krpm SAS磁盘(包含块热备份磁盘); CacheMemory:384GB;前端板:3对8口8Gbps主机接口板;后端板:2对DKA后端板公共 私网400-678-67831.2 VSP系统架构1.2.1 VSP系统架构图其系统架构采用了交换式架构,如下所示。图2-1:VSP硬件技术架构1.2.2 VSP主要部件图2-2 VSP硬件主要部件图VSP的主要部件包括:前端卡(CHA):负责连接外
2、部主机或存储交换设备,如小型机;后端卡(DKA):负责连接内部磁盘存储设备,如硬盘;数据缓存卡(CPC):CHA访问后端磁盘时的数据缓存区域;内存条(CM):CM的内存条;PCI-Express交换卡(ESW): DKC数据交换控制卡;处理器板卡(MPB):负责前端及后端数据的处理;磁盘(HDD):存储设备的磁盘;备份盘(Spare Disk):用作备份盘的磁盘;电池(Battery):系统掉电时保存数据的电池;电源(PS):系统供电及交换用的电源;风扇(FAN):系统冷却用的风扇;控制台(SVP):系统配置和管理监控的控制台(一台笔记本电脑);线缆(Cable):连接存储内部和外部各部件间的
3、电缆;光纤接头(SFP):光纤转换接头;1.2.3 VSP存储的磁盘分布图 VSP的磁盘分布按照如下进行标识: HDDxyz_dd 其中:xy=Cabinet(盘柜); z=HDU number(磁盘笼编号) dd=HDD number(磁盘编号)图2-3:VSP磁盘位置图1.3维护常用命令当盘机出现故障,如磁盘、控制卡、电源、内存、电池到出现异常时,会产生SIM信息,同时盘机会根据故障的严重程度,将Message或Alarm灯亮起。Message灯亮时不影响系统使用,但应及时处理;Alarm灯亮时将影响系统使用,应尽快处理。1.3.1 SVP登录 现场维护人员可以通过远程桌面登录VSP的存储
4、控制台SVP进行日常维护工作:VSP:依次点击“History”和“Register”按钮,进入SVP。1.3.2 SVP登陆后界面 以下为维护工程师登录SVP后看到的界面;1.3.3 SIM信息检查 如果存储设备有故障,会在控制台上显示SIM Message:Pending SIM exists。同时在存储设备的前面板左上角的SIM黄色报警灯会点亮。 点击Information按钮可以查看SIM日志: 点击Log List SIM:Status列为“Initial”:有新的SIM信息,需要关注。Stauts列为“Completed”:已经手动(或自动)被结束的SIM信息,一般是工程师对存储维
5、护结束,确认系统恢复正常后进行的Complete操作。 选择某一行SIM,点击“Content”可以查看详细信息:如可能最好通过屏幕拷贝的方式,保存显示的内容,将该内容email给HDS工程师1.3.4 存储部件状态检查 SVP界面上除了查看SIM,还可以进入Maintenance菜单查看当前存储运行状态: 如果有硬件或其它故障,相对应的部件位置会闪烁报警。1.3.5 清除SIM中的信息 先从View Mode进入Modify mode,点击“View Mode”:SVP 变为“Modify Mode”:依次进入:Information - Log - List SIM,选定需要Complet
6、e的SIM信息,点击Complete:确认即可。退出SVP前,应将Modify Mode改为View Mode!1.3.6 收集DUMP信息选择Auto Dump按钮:在如下界面选择dump类型以及传输方式,大多数时候Type选择Normal即可,当需要进行有关性能方面的分析的话则选Detail. Media一般选择HDD(SVP本地磁盘)。其他选项不需要更改。选择OK后会显示dump收集进度:Dump数据收集完成后会开始压缩:压缩完成后会提示收集完成:收集完成后将c:dkc200tmphdcp.tgz文件拷出并上传到TUF即可。1.3.7 使用SVP划分LUNmodify模式,进入lun c
7、onfiguration界面1、根据需要设置CHIP类型2、设置端口参数、设置主机模式打开端口安全模式:选择打开点击OK后,出现两个系统安全提示,选择“Yes”选择正确的连接方式:出现系统安全提示,选择“Yes”后完成。主机组的创建、绑定主机WWN、Mapping Ldev:点击右键选择“New”。 填写主机组名称,并选择WWN List.选择对应端口上正确的HBA卡片WWN号点OK。完成后点Next.选择主机组要在哪个端口上创建后点击“Next”。选择操作系统平台类型及附属选项,如果是AIX主机有HA环境请选择HACMP。出现提示说这个主机端口会有I/O中断,是否需要继续这个操作,这时点击“
8、Yes”继续下一步(因为I/O为瞬间中断,不会对主机生产造成影响,如果业务非常繁忙时做这个操作才可能对主机生产造成影响)。下图为主机组中绑定主机HBA卡WWN完成示意图。在Display选项中选择LUN,开始映射主机磁盘。选择Add后出现磁盘选择窗口,选择对应数量的LUN数量,对应数量的LDEV数量后点击“Set”后点击OK,完成添加磁盘:出现提示说这个主机端口会有I/O中断,是否需要继续这个操作,这时点击“Yes”继续下一步(因为I/O为瞬间中断,不会对主机生产造成影响,如果业务非常繁忙时做这个操作才可能对主机生产造成影响)。下图为主机组中磁盘添加完成后示意图:注意下图与上图的差别,在Lde
9、v后多了一个“+”号,当出现“+”时意思是指这块磁盘已经被Mapping过两次。 添加新主机并创建新的主机组,做WWN绑定,做磁盘映射结束后主机将可以认盘,操作方式完全一样;需要注意的是在磁盘选择窗口中新映射或添加磁盘时,一定要选择没有“+”号的磁盘,没有“+”号的磁盘为未用的磁盘。完成操作后退出并保存新配置文件。全部结束后请退到“View Mode”,以免有误操作发生。关闭远程桌面连接,选择“确定”。1.4 VSP应急方案-上下电操作注意:开关机对主机I/O会有影响请注意! 开机步骤a.开启位于控制柜和磁盘柜后方两侧的四个PDU电源模块上的主电路开关,确认机柜前面主面板(DKCPANEL)上
10、的BASE ON黄色指示灯亮起,同时位于控制柜前下部的系统控制电脑(SVP)开始启动。b.将 “PS ON/PS OFF” 开关推至 “ON”的位置,同时将“PS SW ENABLE ” 开关推至 ENABLE的位置。c.确认控制器面板上的绿色PS-ON指示灯亮起,同时可听到机器内部风扇转动时的声音。d.系统启动完成可能需要1525分钟,根据配置不同,开机时间会有变化。在启动完成后,控制器面板上的绿色READY指示灯将会亮起。如READY指示灯在很长时间后仍未亮起,即刻联系HDS技术支持人员。e.f.关机步骤a.确认与存储连接的主机没有访问I/O。b.将 “PS ON/PS OFF” 开关推至
11、 “OFF”的位置,同时将“PS SW ENABLE ” 开关推至 ENABLE的位置。c.系统正常关机可能需要1520分钟,根据配置不同,关机时间会有变化。d.确认在系统关机完成后,控制器面板上除黄色BASE ON指示灯仍然点亮外,其余指示灯都会熄灭,同时机器内部风扇停止转动。如有任何不正常状态,即刻联系HDS技术支持人员。e.关闭位于控制柜和磁盘柜后方两侧的四个PDU电源模块上的主电路开关,确认机柜前面 主面板上的BASE ON黄色指示灯熄灭。f.如果需要长时间关机,超过24小时时,请将 “Battery 电缆” 拔出,如果需要请联系HDS工程师。1.5 设备巡检1.5.1 健康巡检内容H
12、DS存储系统的健康检查主要包括如下五方面:设备场地及环境检查 定义:检查设备运行的外部环境状态及数值情况是否正常?是否有异常或故障发现? 范围:包括:防静电地板及承装情况、温度计/湿度计的数值、设备通风情况、电源供电情况等具体信息或数值; 设备硬件检查 定义:检查设备硬件状态及信息是否正常?是否有异常或故障发现 范围:电源、电池、连接的光纤、主要板卡DKA/CHA/Cache/Memory/FSW状态、以及HDU中的硬盘状态等,以及通过SVP控制台收集并监控到的系统各部分状态信息设备软件检查定义:检查设备中运行的主要软件状态及信息,检查系统日志和宕机文件是否正常?是否有异常或故障发现? 范围:
13、包括:HDLM多路径软件、ShadowImage镜像软件、TC/UR同步/异步数据复制软件等配置信息及状态;系统性能检查定义:检查系统性能参数是否正常?是否需要采取某些措施?范围:包括:Cache写等待、通道板利用率、通道效率等;设备安全性检查定义:检查系统信息或日志等是否有报警或错误信息?是否需要采取其他措施?范围:包括:SIM信息、SSB日志、DUMP信息、Microcode版本、备份盘、冗余链路灯检查;光纤交换机检查 定义:检查存储系统的硬件指示灯状态是否正常?是否有异常或故障发现? 范围:FC交换机电源、风扇、状态灯和Zone配置等信息;1.5.2 VSP 系统健康检查报告 VSP系列
14、设备健康检查列表此表针对未)、成都(028-)。客户名称:国税 Site ID:R348240机房环境及设备外观检查检测结果1机房温度、湿度是否符合标准温度: 湿度:是 否2用手触摸系统机柜外表是否过热是 否3(1) 磁盘阵列外表是否清洁是 否(2) 观察设备风扇及空气过滤网是否积尘是 否4检查电源连线、电源接头、光纤连线等线缆是否有高温老化现象是 否硬件设备运行状态检查5检查各部件LED工作状态指示灯是否正常是 否6检查电源连接是否稳固是 否7设备电源模块输出电压检测(此内容仅当HDS 认为必要时检测)8检查内部接口及接线情况,检查FC光缆,是否有过度折弯或破损是 否9检查电池使用时间,确认
15、电池使用寿命是否到期电池到期日: 年 月 日10CHA工作状态检查对NSC55,检查MIX板。同时,跳过第11项。正常11DKA工作状态检查正常12Cache工作状态检查正常13如有必要,检查其它部件工作状态正常14LDEV工作状态检查正常15通过Storage Navigator检查系统整体运行状态,确认系统工作正常正常16检查系统运行微码版本微码版本:17确认用户自上次巡检或安装后是否更改过RAID,LUN等相关配置,如果有更改,保存新的配置文件。已保存软件运行状态检查18HDLM工作状态(通过HDLM GUI屏幕拷贝或命令行执行)# /usr/DynamicLinkManager/bin
16、/dlnkmgr view sys sfuncOS类型:OS Level:HDLM版本:HACMP中HDLM disk method或event脚本配置是否正确(仅对AIX操作系统):是 否19Shadow Image工作状态(通过storage navigator屏幕拷贝或命令行执行)#pairdisplay g -fcxN/A20True Copy 工作状态(通过storage navigator屏幕拷贝或命令行执行)#pairdisplay g -fcxN/A21HI-Track工作状态(仅对安装Hi-Track用户)正常22UVM工作状态(通过storage navigator屏幕拷贝
17、或命令行执行)N/A23UR工作状态(通过storage navigator屏幕拷贝或命令行执行)N/A24其它软件工作状态正常存储设备性能检查(此内容仅当HDS 认为必要时检测,输出Graph Track或Performance Monitor检测结果)25CHA26Cache Utility27Cache Write Pending28DKAFC交换机运行状态检查29检查FC交换机电源、风扇、SFP等部件运行状态是 否30核对ZONE等配置自上次巡检或安装后是有更改,如有更改需此检查列表后附带更改后配置说明设备风险性检查31存储SIM中是否存在临时性错误以及前期处理结果(如前期对部件临时错
18、误仅执行了Completed操作,建议更换报错部件)是 否前期处理结果:处理建议:32当前存储系统运行微码版本是否需要升级是 否建议升级的微码版本:33当前存储配置中热备份盘一种类型是否仅配置一个(如一种硬盘仅配置一块热备份盘,建议增加热备份盘配置数量)是 否处理建议:34主机IO路径是否冗余配置#usr/DynamicLinkManager/bin/dlnkmgr view path c -srt lu(如存在非冗余配置情况,建议调整连接配置)是 否处理建议:35交换机当前微码是否存在到期自动Reboot的Bug(针对Brocade产品且微码版本为0422b的FC交换机)是 否建议升级的微码
19、版本:36AIX操作系统版本与补丁的检查#oslevel r #oslevel l#ioslevelOS level:Technology level (TL):SP:Fix Pack(FP):设备配置信息收集37HDS存储设备配置信息文件名:检测结论:工程师客户签名姓名:此文件仅作为客户服务代表工作记录日期:二、微码升级2.1 微码升级的意义HDS存储设备微码每隔一段时间,就会发布新的版本,目的是修正系统bug,提高在设备可用性,减小非正常故障发生;HDS存储设备经过较长时间运行后,有可能需要进行相关备件的版本更新,对于磁盘设备,备件库对部分老版本磁盘将不再提供,取而代之的是较新版本的磁盘。
20、 HDS建议存储设备运行的设备微码不要低于MGA(即:最低支持版本),微码升级一般考虑使用RGA(即:推荐版本),新安装的设备至少达到PBL。(即:工厂安装版本)。HDS对于微码版本定义如下:微码版本定义缩写含义说 明GAGenerally Available & higher than RGA 已经正式使用的版本,相对RGA推出时间较短,客户使用相对RGA较少。如果到该GA版本 RGARecommended GA 推荐版本, 微码升级一般考虑使用RGA。MGA Mandatory GA最低支持版本。PBLProduction Build Level工厂安装版本, 新安装的设备至少达到PBL。
21、2.2 微码升级的策略我们建议每年升级两次微码版本,当遇到与国税环境相关且问题发生频率很高的重大Bug时,HDS会及时提出升级意见并建议国税提前升级相关设备的微码版本。2.3 微码升级的步骤 为确保安全、可靠的微码升级服务,HDS工程师将提前收集VSP日志信息,提交CHIP至技术中心,深度检查设备运行状态HDS工程师进行HDS存储健康检查,确认设备硬件状态正常;一、VSP微码升级步骤1、HDS工程师开始进行微码升级,升级过程自动将新微码拷贝到HDS存储设备SVP;2、微码升级过程将按照部件自动进行逐一升级,如下表: 首先,升级SVP,重启后,升级除DKU以外的设备,最后升级DKU。在升级过程中
22、会对前端端口及后端端口的每一个CPU写微码,我们在升级过程中选择Non-stop,即不停机的方式。3、升级结束后,确认完成微码升级结束,备份配置文件、重新启动SVP、检查新的微码版本和硬件状态;4、HDS工程师与系统配合人员检查升级设备涉及的链路状态,确定系统状态正常。执行过程(1)(2)Change the mode to Modify Mode (CL).Select (CL) Install.(3)In the Install window, select (CL) Micro Program Install. (4)Select (CL) Micro Program. Select (
23、CL) OK. Selecting (CL) Cancel returns you to step(3). (5)In the Microprogram Exchange dialog box, How : select (CL) Online.From: select (CL) CD-ROM. (6)The Microprogram Exchange dialog box appears. Select (CL) one or more items from the list of the type of micro-programs, and select (CL) OK. (7) Sel
24、ect (CL) one of the exchange modes of DKCMAIN micro-program as follows, and select (CL) OK. (7-1) Select OK (CL) after checking the right preconditions. Go to step (8). (8)When DKCMAIN, or RAMBOOT were selected, you can select the reboot pattern from the list. (9)On the Software Maintenance dialog b
25、ox, the micro-program types, current versions, new versions, and message are displayed. (10)In response to the message “An exchange of a microprogram finished. Please check subsystem status and microprogram version with MAINTENANCE.”, select (CL) OK.三、故障处理 在存储系统的日常维护工作中,厂家工程师和客户管理员面对最多就是故障问题的处理和排查,不
26、同的问题现象或故障类型需要不同的处理方案或实施策略,以确保问题能够得到快速解决同时对客户生产运营系统的影响降到最低。3.1 故障处理预案对于VSP设备在现场可能发生的故障类型和情况,下表给出了一些建议的处理措施和方案,以便现场工程师可以根据故障现象或问题进行相应处理和维护工作,具体细节和操作指南可以参考相关文档。作为国税现场人员,发现下述故障时,需要在第一时间通知HDS服务团队相关人员或通过HDS 400服务号码(400-6786783)进行服务报修,以便问题得到快速处理和解决。表5-1:现场故障维修方案序号故障描述紧急性影响度维修方式应急方案说明1CHA故障高高在线更换参考维护手册或附件中的
27、CHA更换方法替换前必须确认CHA物理状态及SIM中状态,以及相连主机冗余链路FC card/ Path状态2DKA故障高高在线替换参考维护手册或附件中的CHA更换方法替换前必须确认DKA物理状态及SIM中状态3FSW故障高高在线替换参考维护手册或附件中的CHA更换方法替换前必须确认FSW故障状态及SIM中状态以及相关Path状态、HDD状态4CSW故障高高在线替换参考维护手册或附件中的CHA更换方法替换前必须确认CSM故障状态及SIM中状态5DKU PS故障高高在线替换参考维护手册或附件中的CHA更换方法替换前必须确认PS故障状态及冗余PS的状态6CM/SM故障高高在线替换参考维护手册或附件
28、中的CHA更换方法替换前必须确认CM故障状态及SIM中状态7CM/SM临时报错低低在线替换参考维护手册或附件中的CHA更换方法1)确认是否是可修正错误,如果出现出数超过3次,建议更换掉Cache 条即可;8硬盘故障中低在线更换参考维护手册或附件中的HDD更换步骤现场确认RAID情况和Sparedisk状况9替换备份盘低低在线更换参考维护手册或附件中的HDD更换步骤确认spare disk的状态后进行替换10上下电操作高高在线操作参考维护手册或附件中的HDD更换步骤确认非上下电情形和具体要求四、案例4.1硬盘更换步骤实施磁盘更换时,需要严格实施防静电措施,消除备件的静电,否则可能导致其它部件异常
29、。使用合格的防静电腕套,将防静电腕套连接到设备的金属接地部件;接触部件之前,双手接触设备的接地金属部分5秒以上,消除人体的静电;任何部件不能虚插在设备上;安装磁盘之前,将磁盘金属外壳接触设备的金属接地部件,充分消除磁盘金属外壳的静电;安装过程,保持戴了防静电腕套的手掌接触磁盘金属外壳;具体措施咨询HDS支持工程师。实施磁盘更换时,需要确认被更换磁盘的状态,包括Maintenance画面显示状态、SIM日志等。如果需要更换的磁盘是数据磁盘,并且数据已经拷贝到热备磁盘Hot Spare,实施正常磁盘更换步骤。如图所示,Device Status=Failed, Group=Spare。如果需要更换的磁盘是数据磁盘,并且磁盘阵列正在往Hot Spare拷贝数据,暂停更换操作,等到数据拷贝完成后再实施正常磁盘更换步骤。图示是数据磁盘正在进行Sparing的状态,Device Status 显示Copy
copyright@ 2008-2022 冰豆网网站版权所有
经营许可证编号:鄂ICP备2022015515号-1