GPON维护宝典之故障处理大全全案.docx
《GPON维护宝典之故障处理大全全案.docx》由会员分享,可在线阅读,更多相关《GPON维护宝典之故障处理大全全案.docx(83页珍藏版)》请在冰豆网上搜索。
GPON维护宝典之故障处理大全全案
目录
1维护概述1
1.1设备维护1
1.2设备故障1
1.2.1故障处理流程1
1.2.2故障处理常用方法3
1.2.3告警分析4
1.2.4性能分析5
1.2.5分段处理5
1.2.6仪表测试6
1.2.7对比分析7
1.2.8互换分析7
1.2.9配置数据分析8
1.2.10协议分析8
2设备维护9
2.1告警和事件9
2.1.1告警和事件基本设置9
2.1.2检查系统重要告警和严重告警10
2.2设备物理状态查询11
2.2.1检查上行端口连接状态11
2.2.2检查设备运行环境13
2.2.3检查设备供电状态14
2.2.4检查风扇单元运行状态15
2.2.5检查单板运行状态15
2.2.6检查单板CPU占用率17
2.3设备业务状态查询18
2.3.1检查设备数据配置18
2.3.2查询GPON上行扣板信息18
2.3.3查询ADSL2+端口信息20
2.3.4查询PSTN端口信息21
2.3.5检查以太网端口信息22
2.4操作用户检查23
2.4.1检查操作用户级别23
2.4.2更改操作用户密码23
2.4.3检查操作用户日志24
2.5系统保存与备份25
2.5.1系统保存与备份概述25
2.5.2保存数据库文件26
2.5.3保存配置文件26
2.5.4保存数据库文件和配置文件27
2.5.5备份数据库文件28
2.5.6备份配置文件29
3ONU无法自动发现31
3.1故障现象31
3.2故障定位及处理31
3.2.1PON端口下单个或多个ONU无法自动发现31
3.2.2端口下所有ONU都无法自动发现33
4ONU无法注册35
4.1故障现象35
4.2故障定位及处理35
4.2.1端口下单个或多个ONU无法注册35
4.2.2端口下所有ONU都无法注册38
4.2.3单板下所有ONU都无法注册39
5ONU频繁掉线41
5.1故障现象41
5.2故障定位及处理41
5.2.1端口下单个ONU频繁掉线41
5.2.2端口下所有ONU都频繁掉线42
6上网业务故障45
6.1故障现象45
6.2故障定位及处理45
6.2.1PPPoE拨号失败45
6.2.2DHCP无法获取IP地址47
6.2.3获得IP地址后仍无法上网47
6.2.4上网掉线48
6.2.5上网速度慢50
7语音业务故障53
7.1故障现象53
7.2故障定位及处理53
7.2.1摘机无声音53
7.2.2摘机忙音56
7.2.3通话时出现杂音58
7.2.4通话时出现断话60
7.2.5部分号码无法拨打61
8常用信息62
8.1指示灯62
8.1.1MA5680T指示灯62
8.1.2MA5610/MA5616指示灯63
8.1.3MA5620G指示灯63
8.1.4MA5612指示灯64
8.1.5HG850a指示灯65
8.2ODN常用信息66
9FAQ69
9.1ONT距离OLT超过20km时能否注册?
69
9.2ONT是否支持Web页面配置方式?
70
插图目录
图1-1故障处理流程2
图8-1常用光接头图例67
表格目录
表1-1GPON设备故障分类1
表1-2故障处理常用方法4
表1-3故障处理时常用的仪器和仪表6
表2-1单板运行参考标准表16
表2-2查询ADSL2+端口信息相关命令20
表2-3查询PSTN端口信息相关命令21
表2-4查询以太网端口信息相关命令22
表2-5保存与备份的区别25
表3-1OLT与ONU设备光收发光功率参考值32
表4-1ONU关键参数的故障态说明36
表5-1OLT与ONU设备光收发光功率参考值42
表8-1GPON主控板指示灯——SCUL62
表8-2GPON业务板指示灯——GPBA/GPBC/GPBD62
表8-3主控板指示灯63
表8-4业务板指示灯63
表8-5MA5620G的指示灯63
表8-6MA5612的指示灯64
表8-7HG850a的指示灯65
表8-8常用光接头描述66
表8-9常用ODN器件损耗参考值68
表9-1GPONONT配置方式及缺省信息70
前言
概述
华为技术有限公司定制发行了“GPON掌中宝”系列手册,包括:
●《EPON/GPON掌中宝-硬件参考》
●《GPON掌中宝-业务配置》
●《GPON掌中宝-维护指导》
本手册根据GPON设备的实际应用,有针对性地描述了GPON设备的维护及故障处理指导。
您在使用本手册的过程中,如果发现有疏漏之处,欢迎反馈给当地办事处华为技术服务工程师,以便我们及时修正。
版本介绍
本文档对应的GPON产品版本信息如下表所示。
产品名称
产品版本号
MA5680T
MA5600V800R006C02
MA5620G
MA5600V800R305
MA5610/MA5616
MA5600V800R306
MA5612
MA5600V800R307
1维护概述
1.1设备维护
维护的目的
例行维护的目的是为了及时发现并消除设备运行过程中可能存在的隐患,采集数据进行网络分析和优化,使系统能够长期安全、稳定、可靠运行。
维护的基本原则
在设备维护过程中,应该遵循以下基本原则:
●根据例行维护指导,对设备进行相应的维护,并填写相应的设备维护表格。
●不要随意复位设备或加载软件。
●在修改数据前必须做好数据的备份,并填写相关记录。
1.2设备故障
GPON设备中可能遇到的故障分为以下几类,如表1-1所示。
表1-1GPON设备故障分类
故障种类
参考章节
ONU无法自动发现
第3章
ONU无法注册
第4章
ONU频繁掉线
第5章
上网业务故障
第6章
语音业务故障
第7章
1.2.2故障处理流程
常用的故障处理流程如图1-1所示,其中标识了橙色底纹的为关键操作步骤。
图1-1故障处理流程
各处理步骤的详细指导如下:
步骤2记录故障现象。
故障发生时,请在第一时间收集以下故障信息:
●故障发生的具体时间。
●故障现象的详细描述。
●OLT设备和ONU设备的软件版本。
●故障后已采取的措施和结果。
●问题的级别及希望解决的时间。
步骤3定位及离故障。
定位故障是指从众多可能原因中找出具体原因的过程。
确定故障的范围即可初步确定故障处理的方向,也就是说在什么地方、顺着什么思路去查找故障的具体原因。
维护工程师使用各种方法分析、比较各种可能的故障原因,排除不可能的原因,最终确定故障发生的具体原因。
常用的方法如下:
●如果是当前设备所有用户出现故障,请进一步了解上行设备接入的其他设备或用户是否同时出现故障。
●如果是部分用户出现故障,请进一步了解:
−故障用户的业务类型,其他业务是否也出现故障。
−故障用户与正常用户的业务单板是否相同。
在正确定位故障原因后,对故障进行屏蔽或隔离以便恢复业务或避免故障范围扩大。
步骤4排除故障。
故障排除是指采取适当的措施清除故障、恢复设备正常运行的过程,如检修线路、更换部件、修改配置数据、复位单板等。
步骤5确认故障处理结果。
在完成故障排除的工作后,还需要根据故障影响的范围,对受影响的相关业务进行验证测试,以确认故障现象是否消失。
故障处理完成后,需要进行全面验证,保证故障现象完全消失且没有新的问题被引入。
如果在故障处理过程中遇到难以解决的问题,请及时联系华为技术支持工程师处理。
在故障处理过程中,要对每一步操作及操作所产生的现象做详细记录。
详细的记录是申请华为技术有限公司进一步技术支持的基础。
----结束
1.2.3故障处理常用方法
故障处理过程中应该遵循以下原则:
●先查看外部线缆连接是否正常,再查看设备各指示灯状态是否正常。
●先通过控制台查看系统的整体运行状态是否正常,再查看各个模块的运行状态是否正常。
如果故障已经大概定位到某个范围内的排障点,则建议根据排障点的差异选择不同的故障定位方法,有效帮助排除故障。
各类排障点的常用排障方法如表1-2所示,具体操作步骤请参见“1.2.3”~“1.2.10”。
表1-1故障处理常用方法
排障点
常用方法
辅助方法
设备外部
●对比分析
●互换分析
●仪表测试
●协议分析
●告警分析
●性能分析
具体设备
●分段处理
●配置数据分析
●告警分析
●性能分析
具体模块
●分段处理
●互换分析
●仪表测试
●协议分析
1.2.4告警分析
定义
设备告警系统输出的信息,通常以屏幕输出的形式为维护人员提供信息。
应用场景
告警信息涉及硬件、链路、业务等各个方面,信息量大且全,是进行故障分析和定位的重要依据之一。
告警信息主要包含以下内容:
●告警的内容描述
●告警发生的位置
●告警发生的可能原因
●告警的修复建议
告警信息量大、全、直观、简单,对维护人员要求不高。
举例
例如:
使用displayalarmhistory命令查询次要告警。
发现其中一条告警是系统资源过载,系统给出“降低系统负载来解决故障”的修复建议。
huawei(config)#displayalarmhistoryalllist
---END
1.2.5性能分析
定义
通过设备提供的性能统计手段,对发生故障的业务进行性能指标的分析,从而定位故障原因。
应用场景
针对不同的故障类别,需要查看不同的统计信息。
对维护人员有一定要求,维护人员需要:
●熟悉系统的结构和运行机制。
●了解系统能够提供哪些统计信息。
●了解如何查看、分析统计信息。
举例
例如:
在以太网端口模式下,使用displayportstatistics命令查询以太网端口的统计信息,根据以太网端口的统计信息判断设备运行是否正常。
●如果发现CRC错误帧增长很快,说明设备之间可能存在链路异常、端口协商不正确或端口物理故障。
●如果发现存在大量的丢弃帧,说明对接设备发送的流量超过了端口的接收能力。
1.2.6分段处理
定义
当故障现象比较复杂(可能涉及到多个环节)时,需使用分段处理的方法逐个排除正常的环节,最终定位故障。
应用场景
对维护人员有一定要求,维护人员需要:
●对设备的系统结构和原理有深入的了解。
●对可能导致业务故障的各个环节全面了解。
●熟练掌握环回操作。
●熟练使用测试仪器。
举例
例如:
某用户组播节目经常会出现中断,重新点播后又恢复正常。
通过分段分析,故障可能原因如下:
●组播路由器配置问题
●组播服务器问题
●用户机顶盒问题
在分析结果的基础上,对各个环节进行测试,最终定位故障。
1.2.7仪表测试
定义
使用各种仪器、仪表取得实际的各种性能参数,对照理论的参数值来定位和排除故障。
由于仪器、仪表以直观、量化的数据直接反映设备运行状态,在故障处理过程中有着不可替代的作用。
应用场景
常用的仪器、仪表的功能或应用场景如所表1-3示。
表1-1故障处理时常用的仪器和仪表
仪器或仪表名称
用途
万用表
用于测试电缆的通断及设备的电性能指标,包括电压、电流、电阻等。
光功率计
用于测试光功率值。
可调光衰减器
通过调节衰减量可调节光信号的光功率。
线路测试仪
用于测试光纤的长度及损耗等物理规格,辅以数据分析,精确定位光纤链路中的事件点及故障点。
举例
例如:
使用光功率计测试光口平均发送光功率,依此判断光信号发送模块是否正常;或者在电源调试过程中使用万用表,进行电压、电阻、电流强度的测试。
1.2.8对比分析
定义
将故障的部件或现象与正常的部件或现象进行比较分析,通过找出不同点来定位故障。
应用场景
对比分析适用于故障现象或原因比较单一的场合。
举例
例如:
某GPON接入用户的ONT不能上线,此时可通过更换ONT或者对比同一分光器下的其他GPON用户是否有同样的问题来定位故障。
1.2.9互换分析
定义
将处于正常状态的部件(如单板、光纤等)与可能故障的部件对调,从而判断故障点。
应用场景
在以下情况下使用此分析方法:
●在更换部件后,仍然不能确定故障的范围或故障点。
●通过比较“对调后二者运行状况的变化”,确定故障的范围或故障点。
●故障现象或原因比较复杂。
互换操作具有一定的风险,例如:
将短路的单板换到正常的机框有可能造成正常机框损坏。
因此,使用互换方法需要谨慎,确保不会引入新的故障。
1.2.10配置数据分析
定义
通过分析设备的配置数据来定位问题,数据配置错误或更改是引起故障的重要原因之一,配置数据分析是故障定位不可缺少的一个方法。
应用场景
在新开局点或更改配置后推荐使用此分析方法。
举例
例如:
一台MA5680T下所有用户无法收看组播节目,通过检查配置数据发现:
组播源设置的TTL值太小,导致组播数据在MA5680T上转发时,由于TTL值等于0而被丢弃。
1.2.11协议分析
定义
通过信令跟踪、捕获数据包等手段对故障进行分析的方法。
应用场景
当OLT和上层设备出现对接问题时的定位和故障排除。
对维护人员有一定要求,维护人员需要对协议有深入的了解,掌握各种协议报文的交互流程,从而能够从获得的报文中定位故障。
举例
例如:
某用户不能点播组播节目,通过抓包分析后发现,BRAS丢弃了该用户发出的IGMP报文。
2设备维护
2.1告警和事件
2.1.1告警和事件基本设置
介绍OLT和ONU设备中告警和事件的相关设置方法,通过设置可以灵活的使用告警和事件系统,提高维护和管理效率。
告警基本设置
●使用alarmactiveclear命令清除当前系统中的未恢复的告警
●使用alarmalarmlevel命令设置告警级别。
●使用alarmjitter-proof命令设置告警防抖动功能的开关和防抖动周期。
●使用alarmoutput命令设置告警在命令行终端的输出方式。
事件基本设置
●使用eventeventlevel命令设置事件级别。
●使用eventoutput命令设置事件在命令行终端的输出方式。
告警和事件同时进行设置
●使用alarm-eventstatisticsperiod命令设置告警和事件的统计周期。
●使用alarm-eventstatisticssave命令保存告警和事件的统计结果。
●使用trapfilter命令设置系统对告警和事件的过滤条件。
如果被过滤掉,此告警和事件将不会上报命令行,不会保存在告警或事件历史记录中,也不会上报Trap给网管。
因版本不同,设备所支持的命令有差异,举例使用的是MA5680TV800R006C02版本,其他产品请参见与实际使用设备和版本对应的《命令参考》手册。
●设置告警级别时要慎重。
通常情况下,告警级别的缺省值是比较合理的设置。
●过滤的告警既不提示,也不保存。
●设置告警统计阈值时,设置的24小时阈值必须大于或等于15分钟阈值。
●设置告警在命令行终端的输出方式时,要注意以下事项:
✓设置的结果对所有的命令行终端都起作用,即某个告警要么对所有终端都上报,要么对所有终端都不上报。
✓alarmoutput命令对网管终端不起作用,网管终端会提供其它的告警过滤功能。
●设置告警输出命令对告警的产生没有影响,系统产生的告警仍然会被记录,用户可以使用命令查询告警历史记录。
●提供的几种告警输出设置方式会互相有所影响,而某种告警是否输出取决于最后一次设置。
●恢复告警的输出标志和故障告警的输出标志相同。
系统自动完成此功能。
即如果用户对故障告警设置输出标志时,系统会使其对应的恢复告警输出标志保持一致。
同理,设置恢复告警输出标志时,其对应的故障告警输出标志也会保持一致。
●设置告警信息统计时,要注意以下事项:
✓提供的几种告警统计设置方式会互相有所影响,而某种告警是否统计取决于最后一次设置。
✓实际应用中,故障告警与恢复告警的统计标志可能是不一样的,用户对两者的关心程度也可能不一样。
所以,故障告警与恢复告警的统计标志相互独立,分别设置。
✓对于阈值告警,不允许用户设置其统计标志。
2.1.2检查系统重要告警和严重告警
通过本任务检查系统是否存在重要或严重告警,以便及早发现设备存在的问题。
背景信息
用户可根据对告警的关注程度和实际需要,对告警进行自定义设置,包括自定义告警级别、告警在命令行的输出方式和告警信息的统计。
●使用alarmalarmlevel命令修改告警级别。
●使用alarmoutput/undoalarmoutput命令设置或屏蔽告警输出到命令行终端。
●使用alarm-eventstatisticsperiod命令设置告警和事件的统计周期。
操作步骤
步骤1使用displayalarmhistoryalarmlevelcritical命令查询系统严重告警。
步骤2使用displayalarmhistoryalarmlevelmajor命令查询系统重要告警。
步骤3如果发现系统存在严重告警或重要告警,请按照异常处理中的指导进行处理,直到故障排除。
----结束
参考标准
系统不存在严重告警或重要告警。
异常处理
●根据系统提供的告警产生原因及解决方法进行处理。
●如果还不能排除故障,请联系华为技术支持。
2.2设备物理状态查询
2.2.1检查上行端口连接状态
通过本任务检查上行端口连接状态是否正常。
操作步骤
步骤1对于OLT设备,在GPON模式下,使用displayportstate命令查看GPON端口状态。
huawei(config-if-gpon-0/3)#displayportstate
{portid<0,7>}:
1
Command:
displayportstate1
----------------------------------------------------------------------------
F/S/P0/3/0
PortstateOn
LaserstateNormal
Temperature(C)81
TXBiascurrent(mA)22
SupplyVoltage(V)3.24
TXpower(dBm)3.15
RXpowerNotsupport
IllegalrogueONTInexistent
Maxrate(Kbps)2500000
MaxDistance(Km)20
WaveLength(nm)1490
FibertypeSingleMode
SignaldetectFailed
TXfaultNormal
IdentifierUnknown
Ext.IdentifierInvalid
ConnectorSC
EncodingNRZ
Length(9um)(Km)20.0
Length(50um)Notsupport
Length(62.5um)Notsupport
Length(Copper)Notsupport
Cc_base0x2c
CC_EXT0x98
BR,maxUnspecified
BR,minUnspecified
…
----------------------------------------------------------------------------
步骤2对于ONU设备,在GPONNNI模式下,使用displayonuinfo命令检查设备作为ONU的相关信息。
huawei(config-if-gponnni-0/0/1)#displayonuinfo
------------------------------------------------------------------
F/S/P:
0/0/1
ONU-ID:
1
SN:
6877687700111747(hwhw-00111747)
LinkState:
Up
RegisterState:
Registered
PloamState:
Operation-State
LaserSwitch:
AUTO
OMCIPortID:
1
RogueONTState:
No
------------------------------------------------------------------
------------------------------------------------------
TCONT-INDEXAllocIDGEM-PortIDCar-IndexEncrypt
------------------------------------------------------
01---
1513---
2257---
------------------------------------------------------
步骤3如果发现上行端口的链路状态有异常,请按照异常处理中的指导进行处理,直到故障排除。
----结束
参考标准
上行端口与光纤或网线连接正常,显示为“Up”,连接异常则显示为“Down”。
异常处理
1.端口链路状态显示为“Up”:
−确认端口没有被操作员使用shutdown命令关闭。
−使用displayboard命令查看单板状态是否正常。
如果不正常,则按照单板故障进行处理。
−如果是网线、光纤被拔出、松动,请插好网线、光纤,并确认对端的网线、光纤也已经插好,且线缆无中断。
−如果是单板出现故障,请更换故障的单板。
2.如果还不能排除故障,请联系华为技术支持。
2.2.2检查设备运行环境
通过本任务检查设备的运行环境是否正常。
操作步骤
步骤1使用displayemu命令查看电源单元运行状态。
步骤2使用interfaceemu命令进入ESC环境监控单元。
步骤3使用displayescenvironmentinfo命令查看上报的温度、湿度、门禁和烟感等环境参数。
步骤4如果发现设备运行环境有异常,