HDS存储VSP用户维护手册v10.docx
《HDS存储VSP用户维护手册v10.docx》由会员分享,可在线阅读,更多相关《HDS存储VSP用户维护手册v10.docx(23页珍藏版)》请在冰豆网上搜索。
HDS存储VSP用户维护手册v10
HDS存储VSP
用户维护手册
(2013年5月)
一、设备维护
1.1VSP配置信息
用户SiteID
序列号
存储配置信息
IP地址
HDS服务热线
设备安装地址
磁盘:
块GB,10krpmSAS磁盘(包含块热备份磁盘);
CacheMemory:
384GB;
前端板:
3对8口8Gbps主机接口板;
后端板:
2对DKA后端板
公共
私网
400-678-6783
1.2VSP系统架构
1.2.1VSP系统架构图
其系统架构采用了交换式架构,如下所示。
图2-1:
VSP硬件技术架构
1.2.2VSP主要部件
图2-2VSP硬件主要部件图
VSP的主要部件包括:
✓前端卡(CHA):
负责连接外部主机或存储交换设备,如小型机;
✓后端卡(DKA):
负责连接内部磁盘存储设备,如硬盘;
✓数据缓存卡(CPC):
CHA访问后端磁盘时的数据缓存区域;
✓内存条(CM):
CM的内存条;
✓PCI-Express交换卡(ESW):
DKC数据交换控制卡;
✓处理器板卡(MPB):
负责前端及后端数据的处理;
✓磁盘(HDD):
存储设备的磁盘;
✓备份盘(SpareDisk):
用作备份盘的磁盘;
✓电池(Battery):
系统掉电时保存数据的电池;
✓电源(PS):
系统供电及交换用的电源;
✓风扇(FAN):
系统冷却用的风扇;
✓控制台(SVP):
系统配置和管理监控的控制台(一台笔记本电脑);
✓线缆(Cable):
连接存储内部和外部各部件间的电缆;
✓光纤接头(SFP):
光纤转换接头;
1.2.3VSP存储的磁盘分布图
VSP的磁盘分布按照如下进行标识:
HDDxyz_dd
其中:
xy=Cabinet(盘柜);
z=HDUnumber(磁盘笼编号)
dd=HDDnumber(磁盘编号)
图2-3:
VSP磁盘位置图
1.3维护常用命令
当盘机出现故障,如磁盘、控制卡、电源、内存、电池到出现异常时,会产生SIM信息,同时盘机会根据故障的严重程度,将Message或Alarm灯亮起。
Message灯亮时不影响系统使用,但应及时处理;Alarm灯亮时将影响系统使用,应尽快处理。
1.3.1SVP登录
现场维护人员可以通过远程桌面登录VSP的存储控制台SVP进行日常维护工作:
VSP:
依次点击“History”和“Register”按钮,进入SVP。
1.3.2SVP登陆后界面
以下为维护工程师登录SVP后看到的界面;
1.3.3SIM信息检查
如果存储设备有故障,会在控制台上显示SIMMessage:
PendingSIMexists。
同时在存储设备的前面板左上角的SIM黄色报警灯会点亮。
点击Information按钮可以查看SIM日志:
点击Log…
ListSIM:
ØStatus列为“Initial”:
有新的SIM信息,需要关注。
ØStauts列为“Completed”:
已经手动(或自动)被结束的SIM信息,一般是工程师对存储维护结束,确认系统恢复正常后进行的Complete操作。
选择某一行SIM,点击“Content”可以查看详细信息:
如可能最好通过屏幕拷贝的方式,保存显示的内容,将该内容email给HDS工程师
1.3.4存储部件状态检查
SVP界面上除了查看SIM,还可以进入Maintenance菜单查看当前存储运行状态:
如果有硬件或其它故障,相对应的部件位置会闪烁报警。
1.3.5清除SIM中的信息
先从ViewMode进入Modifymode,点击“ViewMode”:
SVP变为“ModifyMode”:
依次进入:
Information->Log…->ListSIM,选定需要Complete的SIM信息,点击Complete:
确认即可。
退出SVP前,应将ModifyMode改为ViewMode!
1.3.6收集DUMP信息
选择AutoDump按钮:
在如下界面选择dump类型以及传输方式,大多数时候Type选择Normal即可,当需要进行有关性能方面的分析的话则选Detail.Media一般选择HDD(SVP本地磁盘)。
其他选项不需要更改。
选择OK后会显示dump收集进度:
Dump数据收集完成后会开始压缩:
压缩完成后会提示收集完成:
收集完成后将c:
\dkc200\tmp\hdcp.tgz文件拷出并上传到TUF即可。
1.3.7使用SVP划分LUN
modify模式,进入lunconfiguration界面
1、根据需要设置CHIP类型
2、设置端口参数、设置主机模式
打开端口安全模式:
选择打开
点击OK后,出现两个系统安全提示,选择“Yes”
选择正确的连接方式:
出现系统安全提示,选择“Yes”后完成。
主机组的创建、绑定主机WWN、MappingLdev:
点击右键选择“New”。
填写主机组名称,并选择WWNList.
选择对应端口上正确的HBA卡片WWN号点OK。
完成后点Next.
选择主机组要在哪个端口上创建后点击“Next”。
选择操作系统平台类型及附属选项,如果是AIX主机有HA环境请选择HACMP。
出现提示说这个主机端口会有I/O中断,是否需要继续这个操作,这时点击“Yes”继续下一步(因为I/O为瞬间中断,不会对主机生产造成影响,如果业务非常繁忙时做这个操作才可能对主机生产造成影响)。
下图为主机组中绑定主机HBA卡WWN完成示意图。
在Display选项中选择LUN,开始映射主机磁盘。
选择Add后出现磁盘选择窗口,选择对应数量的LUN数量,对应数量的LDEV数量后点击“Set”后点击OK,完成添加磁盘:
出现提示说这个主机端口会有I/O中断,是否需要继续这个操作,这时点击“Yes”继续下一步(因为I/O为瞬间中断,不会对主机生产造成影响,如果业务非常繁忙时做这个操作才可能对主机生产造成影响)。
下图为主机组中磁盘添加完成后示意图:
注意下图与上图的差别,在Ldev后多了一个“+”号,当出现“+”时意思是指这块磁盘已经被Mapping过两次。
添加新主机并创建新的主机组,做WWN绑定,做磁盘映射结束后主机将可以认盘,操作方式完全一样;需要注意的是在磁盘选择窗口中新映射或添加磁盘时,一定要选择没有“+”号的磁盘,没有“+”号的磁盘为未用的磁盘。
完成操作后退出并保存新配置文件。
全部结束后请退到“ViewMode”,以免有误操作发生。
关闭远程桌面连接,选择“确定”。
1.4VSP应急方案-上下电操作
注意:
开关机对主机I/O会有影响请注意!
开机步骤
a.开启位于控制柜和磁盘柜后方两侧的四个PDU电源模块上的主电路开关,确认机柜前面主面板(DKCPANEL)上的BASEON黄色指示灯亮起,同时位于控制柜前下部的系统控制电脑(SVP)开始启动。
b.将“PSON/PSOFF”开关推至“ON”的位置,同时将“PSSWENABLE”开关推至ENABLE的位置。
c.确认控制器面板上的绿色PS-ON指示灯亮起,同时可听到机器内部风扇转动时的声音。
d.系统启动完成可能需要15~25分钟,根据配置不同,开机时间会有变化。
在启动完成后,控制器面板上的绿色READY指示灯将会亮起。
如READY指示灯在很长时间后仍未亮起,即刻联系HDS技术支持人员。
e.
f.关机步骤
a.确认与存储连接的主机没有访问I/O。
b.将“PSON/PSOFF”开关推至“OFF”的位置,同时将“PSSWENABLE”开关推至ENABLE的位置。
c.系统正常关机可能需要15~20分钟,根据配置不同,关机时间会有变化。
d.确认在系统关机完成后,控制器面板上除黄色BASEON指示灯仍然点亮外,其余指示灯都会熄灭,同时机器内部风扇停止转动。
如有任何不正常状态,即刻联系HDS技术支持人员。
e.关闭位于控制柜和磁盘柜后方两侧的四个PDU电源模块上的主电路开关,确认机柜前面主面板上的BASEON黄色指示灯熄灭。
f.如果需要长时间关机,超过24小时时,请将“Battery电缆”拔出,如果需要请联系HDS工程师。
1.5设备巡检
1.5.1健康巡检内容
HDS存储系统的健康检查主要包括如下五方面:
⏹设备场地及环境检查
定义:
检查设备运行的外部环境状态及数值情况是否正常?
是否有异常或故障发现?
范围:
包括:
防静电地板及承装情况、温度计/湿度计的数值、设备通风情况、电源供电情况等具体信息或数值;
⏹设备硬件检查
定义:
检查设备硬件状态及信息是否正常?
是否有异常或故障发现
范围:
电源、电池、连接的光纤、主要板卡DKA/CHA/Cache/Memory/FSW状态、以及HDU中的硬盘状态等,以及通过SVP控制台收集并监控到的系统各部分状态信息
⏹设备软件检查
定义:
检查设备中运行的主要软件状态及信息,检查系统日志和宕机文件是否正常?
是否有异常或故障发现?
范围:
包括:
HDLM多路径软件、ShadowImage镜像软件、TC/UR同步/异步数据复制软件等配置信息及状态;
⏹系统性能检查
定义:
检查系统性能参数是否正常?
是否需要采取某些措施?
范围:
包括:
Cache写等待、通道板利用率、通道效率等;
⏹设备安全性检查
定义:
检查系统信息或日志等是否有报警或错误信息?
是否需要采取其他措施?
范围:
包括:
SIM信息、SSB日志、DUMP信息、Microcode版本、备份盘、冗余链路灯检查;
⏹光纤交换机检查
定义:
检查存储系统的硬件指示灯状态是否正常?
是否有异常或故障发现?
范围:
FC交换机电源、风扇、状态灯和Zone配置等信息;
1.5.2VSP系统健康检查报告
VSP系列设备健康检查列表
此表针对未)、成都(028-)。
客户名称:
国税SiteID:
R348240
机房环境及设备外观检查
检测结果
1
机房温度、湿度是否符合标准
温度:
湿度:
□是□否
2
用手触摸系统机柜外表是否过热
□是□否
3
(1)磁盘阵列外表是否清洁
□是□否
(2)观察设备风扇及空气过滤网是否积尘
□是□否
4
检查电源连线、电源接头、光纤连线等线缆是否有高温老化现象
□是□否
硬件设备运行状态检查
5
检查各部件LED工作状态指示灯是否正常
□是□否
6
检查电源连接是否稳固
□是□否
7
设备电源模块输出电压检测(此内容仅当HDS认为必要时检测)
8
检查内部接口及接线情况,检查FC光缆,是否有过度折弯或破损
□是□否
9
检查电池使用时间,确认电池使用寿命是否到期
电池到期日:
年月日
10
CHA工作状态检查
[对NSC55,检查MIX板。
同时,跳过第11项。
]
正常
11
DKA工作状态检查
正常
12
Cache工作状态检查
正常
13
如有必要,检查其它部件工作状态
正常
14
LDEV工作状态检查
正常
15
通过StorageNavigator检查系统整体运行状态,确认系统工作正常
正常
16
检查系统运行微码版本
微码版本:
17
确认用户自上次巡检或安装后是否更改过RAID,LUN等相关配置,如果有更改,保存新的配置文件。
已保存
软件运行状态检查
18
HDLM工作状态(通过HDLMGUI屏幕拷贝或命令行执行)
#/usr/DynamicLinkManager/bin/dlnkmgrview–sys–sfunc
OS类型:
OSLevel:
HDLM版本:
HACMP中HDLMdiskmethod或event脚本配置是否正确(仅对AIX操作系统):
□是□否
19
ShadowImage工作状态(通过storagenavigator屏幕拷贝或命令行执行)
#pairdisplay–g-fcx
N/A
20
TrueCopy工作状态(通过storagenavigator屏幕拷贝或命令行执行)
#pairdisplay–g-fcx
N/A
21
HI-Track工作状态(仅对安装Hi-Track用户)
正常
22
UVM工作状态(通过storagenavigator屏幕拷贝或命令行执行)
N/A
23
UR工作状态(通过storagenavigator屏幕拷贝或命令行执行)
N/A
24
其它软件工作状态
正常
存储设备性能检查(此内容仅当HDS认为必要时检测,输出GraphTrack或PerformanceMonitor检测结果)
25
CHA
26
CacheUtility
27
CacheWritePending
28
DKA
FC交换机运行状态检查
29
检查FC交换机电源、风扇、SFP等部件运行状态
□是□否
30
核对ZONE等配置自上次巡检或安装后是有更改,如有更改需此检查列表后附带更改后配置说明
设备风险性检查
31
存储SIM中是否存在临时性错误以及前期处理结果
(如前期对部件临时错误仅执行了Completed操作,建议更换报错部件)
□是□否
前期处理结果:
处理建议:
32
当前存储系统运行微码版本是否需要升级
□是□否
建议升级的微码版本:
33
当前存储配置中热备份盘一种类型是否仅配置一个
(如一种硬盘仅配置一块热备份盘,建议增加热备份盘配置数量)
□是□否
处理建议:
34
主机IO路径是否冗余配置
#usr/DynamicLinkManager/bin/dlnkmgrview–path–c-srtlu
(如存在非冗余配置情况,建议调整连接配置)
□是□否
处理建议:
35
交换机当前微码是否存在到期自动Reboot的Bug(针对Brocade产品且微码版本为0422b的FC交换机)
□是□否
建议升级的微码版本:
36
AIX操作系统版本与补丁的检查
#oslevel–r
#oslevel–l
#ioslevel
OSlevel:
Technologylevel(TL):
SP:
FixPack(FP):
设备配置信息收集
37
HDS存储设备配置信息
文件名:
检测结论:
工程师
客户签名
姓名:
此文件仅作为客户服务代表工作记录
日期:
二、微码升级
2.1微码升级的意义
HDS存储设备微码每隔一段时间,就会发布新的版本,目的是修正系统bug,提高在设备可用性,减小非正常故障发生;HDS存储设备经过较长时间运行后,有可能需要进行相关备件的版本更新,对于磁盘设备,备件库对部分老版本磁盘将不再提供,取而代之的是较新版本的磁盘。
HDS建议存储设备运行的设备微码不要低于MGA(即:
最低支持版本),微码升级一般考虑使用RGA(即:
推荐版本),新安装的设备至少达到PBL。
(即:
工厂安装版本)。
HDS对于微码版本定义如下:
微码版本定义
缩写含义
说明
GA
GenerallyAvailable&higherthanRGA
已经正式使用的版本,相对RGA推出时间较短,客户使用相对RGA较少。
如果到该GA版本
RGA
RecommendedGA
推荐版本,微码升级一般考虑使用RGA。
MGA
MandatoryGA
最低支持版本。
PBL
ProductionBuildLevel
工厂安装版本,新安装的设备至少达到PBL。
2.2微码升级的策略
我们建议每年升级两次微码版本,当遇到与国税环境相关且问题发生频率很高的重大Bug时,HDS会及时提出升级意见并建议国税提前升级相关设备的微码版本。
2.3微码升级的步骤
为确保安全、可靠的微码升级服务,HDS工程师将提前收集VSP日志信息,提交CHIP至技术中心,深度检查设备运行状态
HDS工程师进行HDS存储健康检查,确认设备硬件状态正常;
一、VSP微码升级步骤
1、HDS工程师开始进行微码升级,升级过程自动将新微码拷贝到HDS存储设备SVP;
2、微码升级过程将按照部件自动进行逐一升级,如下表:
首先,升级SVP,重启后,升级除DKU以外的设备,最后升级DKU。
在升级过程中会对前端端口及后端端口的每一个CPU写微码,我们在升级过程中选择Non-stop,即不停机的方式。
3、升级结束后,确认完成微码升级结束,备份配置文件、重新启动SVP、检查新的微码版本和硬件状态;
4、HDS工程师与系统配合人员检查升级设备涉及的链路状态,确定系统状态正常。
⏹执行过程
(1)
(2)Changethemodeto[ModifyMode](CL).Select(CL)[Install].
(3)Inthe‘Install’window,select(CL)[MicroProgramInstall].
(4)Select(CL)[MicroProgram].Select(CL)[OK].Selecting(CL)[Cancel]returnsyoutostep(3).
(5)Inthe‘MicroprogramExchange’dialogbox,[How]:
select(CL)[Online].
[From]:
select(CL)CD-ROM.
(6)The‘MicroprogramExchange’dialogboxappears.Select(CL)oneormoreitemsfromthelistofthetypeofmicro-programs,andselect(CL)[OK].
(7)Select(CL)oneoftheexchangemodesofDKCMAINmicro-programasfollows,andselect(CL)[OK].
(7-1)Select[OK](CL)aftercheckingtherightpreconditions.Gotostep(8).
(8)WhenDKCMAIN,orRAMBOOTwereselected,youcanselecttherebootpatternfromthelist.
(9)Onthe‘SoftwareMaintenance’dialogbox,themicro-programtypes,currentversions,newversions,andmessagearedisplayed.
(10)Inresponsetothemessage“Anexchangeofamicroprogramfinished.PleasechecksubsystemstatusandmicroprogramversionwithMAINTENANCE.”,select(CL)[OK].
三、故障处理
在存储系统的日常维护工作中,厂家工程师和客户管理员面对最多就是故障问题的处理和排查,不同的问题现象或故障类型需要不同的处理方案或实施策略,以确保问题能够得到快速解决同时对客户生产运营系统的影响降到最低。
3.1故障处理预案
对于VSP设备在现场可能发生的故障类型和情况,下表给出了一些建议的处理措施和方案,以便现场工程师可以根据故障现象或问题进行相应处理和维护工作,具体细节和操作指南可以参考相关文档。
作为国税现场人员,发现下述故障时,需要在第一时间通知HDS服务团队相关人员或通过HDS400服务号码(400-6786783)进行服务报修,以便问题得到快速处理和解决。
表5-1:
现场故障维修方案
序号
故障描述
紧急性
影响度
维修方式
应急方案
说明
1
CHA故障
高
高
在线更换
参考维护手册或附件中的CHA更换方法
替换前必须确认CHA物理状态及SIM中状态,以及相连主机冗余链路FCcard/Path状态
2
DKA故障
高
高
在线替换
参考维护手册或附件中的CHA更换方法
替换前必须确认DKA物理状态及SIM中状态
3
FSW故障
高
高
在线替换
参考维护手册或附件中的CHA更换方法
替换前必须确认FSW故障状态及SIM中状态以及相关Path状态、HDD状态
4
CSW故障
高
高
在线替换
参考维护手册或附件中的CHA更换方法
替换前必须确认CSM故障状态及SIM中状态
5
DKUPS故障
高
高
在线替换
参考维护手册或附件中的CHA更换方法
替换前必须确认PS故障状态及冗余PS的状态
6
CM/SM故障
高
高
在线替换
参考维护手册或附件中的CHA更换方法
替换前必须确认CM故障状态及SIM中状态
7
CM/SM临时报错
低
低
在线替换
参考维护手册或附件中的CHA更换方法
1)确认是否是可修正错误,如果出现出数超过3次,建议更换掉Cache条即可;
8
硬盘故障
中
低
在线更换
参考维护手册或附件中的HDD更换步骤
现场确认RAID情况和Sparedisk状况
9
替换备份盘
低
低
在线更换
参考维护手册或附件中的HDD更换步骤
确认sparedisk的状态后进行替换
10
上下电操作
高
高
在线操作
参考维护手册或附件中的HDD更换步骤
确认非上下电情形和具体要求
四、案例
4.1硬盘更换步骤
实施磁盘更换时,需要严格实施防静电措施,消除备件的静电,否则可能导致其它部件异常。
❑使用合格的防静电腕套,将防静电腕套连接到设备的金属接地部件;
❑接触部件之前,双手接触设备的接地金属部分5秒以上,消除人体的静电;
❑任何部件不能虚插在设备上;
❑安装磁盘之前,将磁盘金属外壳接触设备的金属接地部件,充分消除磁盘金属外壳的静电;
❑安装过程,保持戴了防静电腕套的手掌接触磁盘金属外壳;
❑具体措施咨询HDS支持工程师。
实施磁盘更换时,需要确认被更换磁盘的状态,包括Maintenance画面显示状态、SIM日志等。
❑如果需要更换的磁盘是数据磁盘,并且数据已经拷贝到热备磁盘HotSpare,实施正常磁盘更换步骤。
如图所示,DeviceStatus=Failed,Group=Spare。
❑如果需要更换的磁盘是数据磁盘,并且磁盘阵列正在往HotSpare拷贝数据,暂停更换操作,等到数据拷贝完成后再实施正常磁盘更换步骤。
图示是数据磁盘正在进行Sparing的状态,DeviceStatus显示Copy