EMCCLARiiON使用维护手册.docx
《EMCCLARiiON使用维护手册.docx》由会员分享,可在线阅读,更多相关《EMCCLARiiON使用维护手册.docx(15页珍藏版)》请在冰豆网上搜索。
EMCCLARiiON使用维护手册
EMCCLARiiON使用维护手册
第一章系统日常使用规范
1环境需求
空气质量
EMC设备须安装于空调环境中,空气的温度及湿度均可调节;如从室外补充新风,需经滤网过滤,以保证空气的洁净度。
机房温度
状态
温度(℃)
最佳值(℃)
温度变化
运行状态
10-40
22
<10℃/小时
非运行状态
-10–54
湿度
状态
相对湿度%
湿度变化
运行状态
20-80
<10%/小时
非运行状态
8-90
机房高度
对于EMCCLARiiONCX3系统,从活动地板至天花板或吊顶的最小高度为250cm.
水平高度
状态
高度(以海平面为参考)
运行状态
-305–3048m
非运行状态
-305–12210m
重量
设备重量因设备型号,配置的不同及产品的改进而有所不同,变化范围很大。
下表仅供参考:
物理盘数量(块)
10
20
40
60
80
100
整机重量(公斤)
304
350
445
550
617
709
活动地板
活动地板必须能够支撑设备的重量,包括静态单点承重及动态移动承重。
如果地板不够,地板的四角必须有坚固立柱支撑。
对于超过500公斤存储系统的安装,除满足上述要求外,承重地板需进行额外加固,在每块承重地板的中央另加立柱支撑
静态单点承重
静态单点承重的计算方法是:
设备满配置重量(最大重量)÷承重点数量
所有EMC存储设备均有4个滚轮,因此活动地板的静态单点承重=设备满配置重量÷4
动态移动承重
态移动承重是指设备移动时地板承受的重量
动态移动承重的计算方法是:
设备重量÷承重点数量
除上述设备重量外,用户应根据自己的实际情况,考虑周围设备及人员活动情况,综合计算地板的承重
电源容量
1
电压
220V-240V(+/-10%)
瞬间变动电压值不能超过220V土15%,且必须在0.5秒内恢复正常。
2
电流
30A
请事先为CX500磁盘阵列单独提供2路有30安培电流的电源
3
频率
47-63Hz
4
总谐波
总谐波应小于5%
5
所需电力
4800瓦
6
电源插座
IEC309-332
IEC309-332工业标准30A插座
装机的当天最好能够联系到专业电工,以备万一需要在现场更换电源插头
电源应在EMC设备2米范围内;三相电源的开关每相要分离;即每相电源要使用独立的开关,以防止当某一相电源跳闸时,带动另外两相电源同时跳闸。
物理尺寸:
型号
高度x宽度x深度(cm)
外包装(cm)
高度x宽度x深度
前,后维护
空间(cm)
EMCCX500/400
191.1x64.7x87
204.9x106x121
100;100
2管理设备
为了更好的对盘阵状态进行监控,要求在机房内安装一台预装Win2000的PC并与机房网络连接。
该PC同时要求预装JRE1.4。
3注意事项
为确保数据高可用性及安全,我公司对所有销售的EMCCLARiiON系列产品均有完善周到的售后服务,因此在设备出现硬件故障时,希望客户及时与我们联系。
如因特殊原因需客户自行进行硬件更换,必须在远程监控下完成。
同时光纤线不能被挤压,踩踏,折角不能超过90度。
所有的备用盘均应避免震动。
第二章系统启动和停止
系统启动
1.开启机柜电源
2.开启所有与CX3-40连接的DAE电源
3.开启CX3-40风扇电源模块电源
4.开启SPS电源开关
5.加载应用
系统关闭
1.停止主机所有对盘阵的I/O
2.如果应用系统是UNIXOS要Umountfilesystems
3.关闭SPS电源
4.在SPS电源关闭后,将所有的DAE电源开关置于关闭状态
5.将机柜电源关闭
第三章日常监控
监控工具
EMCCLARiiONCX3-40可以通过EMC公司NavisphereManager软件进行日常监控,
NavisphereManager可以安装在Windows2000/NT/XP平台上,可以通过网络对盘阵进行日常监控。
在/installpath/EMC/ManagememtUI/6.x.x.x.x/WebContent/目录下,点击start.html图标即可激活NavisphereManager软件,在登录界面输入SP的网络地址后,即可进入树型管理界面,参见图1:
图1
NavisphereManager正常工作状态下,会定时更新磁盘阵列状态,如果磁盘阵列发生故障会有下图内容显示,参见图2:
图2
这时将树型管理菜单展开即可明确判定发生故障的模块,同时可以点击主菜单‘Tools’在下拉菜单中选择Fault选项查看故障分析。
为了对潜在的问题及时发现,EMC还对磁盘阵列的日常运行有log记录,可以在树型管理菜单中右键点击SPA和SPB,在出现的下拉菜单中选择ViewEvents,这时象对应的SP的log记录窗口会弹出,磁盘阵列运行中的所有异常情况都可以在这个窗口看到,同时也可以点击‘Save’保存log记录。
状态灯
EMCCLARiiONCX3-40所有硬件设备都有状态灯,如果状态灯亮黄灯,即可判定有设备故障发生,建议此时通过NavisphereManager软件进一步定位故障原因。
需要注意的是可能出现设备使用时间较长,故障灯被灰尘覆盖。
第四章常见故障
一、通过检查所有硬件的状态灯,初步确定故障部件。
前面板左边的灯为磁盘阵列整体的状态灯。
其他每个部件都有自己的状态灯。
例如:
SPS(standbypowersupply)备用电池,用来保护磁盘阵列的写cache,右侧显示灯从上至下分别为
Power正常工作,如果在闪烁为电池正在充电
OnBattery启动充电
Batt.Discharged电池放电
Fault故障
SP(StorageProcessors)
电源或者风扇故障灯
控制器故障灯
DISK
硬盘上左边为绿灯,正常工作时常亮;右边为黄灯,故障时亮
二、通过NAVICLI确定故障
使用navicli–h192.168.10.252getcrus命令
输出显示故障部件
例如:
DPE2Bus0Enclosure0
SPAState:
Present
SPBState:
Empty
Bus0Enclosure0FanAState:
Present
Bus0Enclosure0FanBState:
Present
Bus0Enclosure0PowerAState:
Present
Bus0Enclosure0PowerBState:
Present
Bus0Enclosure0SPSAState:
Present
Bus0Enclosure0SPSBState:
Empty
Bus0Enclosure0SPSACablingState:
Valid
Bus0Enclosure0SPSBCablingState:
CablingStatusisunknown
可以看出SPB是空,系统已经不能认到设备。
Present为正常,Empty和Fault为故障
三、通过日志确定故障
通过管理界面,右键点击SPA和SPB,在出现的下拉菜单中选择ViewEvents
蓝色为正常,黄色为警告,红色为错误
可以通过Fiter过滤掉information,再对现有的错误进行分析,根据Time确定故障发生的时间段然后再做分析,因为在安装过程中会有多个错误信息报出。
根据经验,常见错误如下:
1、硬盘故障
报错信息如下
02/10/200500:
13:
30(2580)StorageArrayFaultedBus0Enclosure0:
FaultedBus0Enclosure0Disk6:
Removed
08/07/200502:
22:
20Enclosure0Disk9(a07)CRUPoweredDown[0x00]0920c
2、SP故障
08/13/200408:
11:
24(2580)StorageArrayFaultedBus0Enclosure0:
FaultedSPB:
Removed
大多数控制器故障会是出现重起的现象,造成控制器重新启动主要是以下几个报错:
A.05/20/200400:
44:
44(3e9)Thecomputerhasrebootedfromabugcheck.Thebugcheckwas:
0x0000000a(0xf34117e4,0x00000002,0x00000000,0xf5d964df).MicrosoftWindowsNT[v15.1381].Adumpwassavedin:
C:
\dumps\crash.dmp.
注:
大多数出现bugcheck的情况需要升级firmware软件,个别需要更换控制器
B.07/28/0508:
27:
56DGSSP76008101SINGLE_BIT_ECC:
07/28/0508:
27:
01:
FailingDIMMisDDRSLOT1,Syndromeis0x28000000
注:
控制器内存故障,需要更换控制器
3、其它硬件故障
同样会报像02/10/200500:
13:
30(2580)StorageArrayFaultedBus0Enclosure0:
FaultedBus0Enclosure0PSA:
Removed
注:
对于电源模块报错,需要先检查是否为外接电源供电故障。
4、其它常见日志
A.05/26/200402:
47:
46SPA(944)HardPeerBusError[0x01]00
有可能引起另外一个控制器重起,如果报错数量较多,建议更换
B.11/30/200412:
33:
48Enclosure0Disk7(6a0)Disksoftmediaerror[0x22]00
有可能引起一块硬盘故障,如果报错数量较多,并且涉及的硬盘较多,建议更换
附录:
EMCCLARiiONCX3日常维护记录单
年月日时
1.硬件检查
编号
检查项目
内容
检查结果
备注
1
电源和SPS
✧通过NavisphereManager控制台观察,确认电源和SPS状态正常。
2
磁盘
✧检查通过NavisphereManager控制台监测。
3
处理器(SP)
✧通过NavisphereManager控制台观察,确认SP状态正常。
✧检查SP上的Log日至是否正常。
5
内部环路
✧确认DAE的连接状态。
2.软件检查
编号
检查项目
内容
检查方法
检查结果
备注
1
管理功能检查
NavisphereManager管理软件对盘阵的监控功能是否正常
盘阵控制器IP:
SPA:
SPB:
3
盘阵状态检查
管理界面中盘阵状况
4
存储设备冗余性检查
管理软件对存储设备故障是否侦测正常
6
检查Server可以访问的LUN
主机端执行format检查主机识别存储设备正常
7
EventMonitor
对EventMonitor软件的功能进行集中检测。
EventMonitor的各主要功能可以正常使用。
3.检查结果
EMCCLARiiONCX3日常维护命令:
主机上执行:
1.收集存储信息
navicli–hSPA/IPgetcrus>crusa.txt
navicli–hSPA/IPgetall>alla.txt
navicli–hSPA/IPgetlog>loga.txt
navicli–hSPA/IPgetcrus>crusb.txt
navicli–hSPA/IPgetall>allb.txt
navicli–hSPA/IPgetlog>logb.txt