张文宁,某局点S12500R MER下挂MAR个别基站与部分核心网地址不通问题
组网及说明
/
告警信息
/
问题描述
发现下挂个别基站与部分核心网地址不通问题
过程分析
经过对ICMP报文统计发现ICMP请求报文正常发送,ICMP回应报文已回到MER,但MAR未接收到ICMP回应报文。另外在MER上通过执行mirror-to cpu使得设备进行软转发,发现可以ping通了,说明是底层表象出现了异常,通过查看mpls芯片转发表象下发的两个下一跳都是非激活状态造成转发不通:
20: LINE:1006 Time:2022/09/25 12:25:52:978 ID:38389
MMOD_TNL:Sp:1048585 NID:224 Port:734 EncapID:0x100d1 AdjEncap:0x4000e963 Label[0]:0 Weight:1 Service:0 Prefix:0 LabelFlag:0 MainOrBkFlag:0 StatusFlag:0
----------------------------------------
21: LINE:1099 Time:2022/09/25 12:25:52:978 ID:38390
[1]:0x100009 [2]:0xe0 [3]:0x2de [4]:0x100d1 [5]:0x4000e963 [6]:0xffffffff [7]:0x1000000
----------------------------------------
22: LINE:1006 Time:2022/09/25 12:25:52:978 ID:38391
MMOD_TNL:Sp:1048585 NID:163 Port:62529 EncapID:0x10094 AdjEncap:0x4000e2ca Label[0]:4294967295 Weight:1 Service:0 Prefix:0 LabelFlag:0 MainOrBkFlag:1 StatusFlag:0
----------------------------------------
23: LINE:1099 Time:2022/09/25 12:25:52:978 ID:38392
[1]:0x100009 [2]:0xa3 [3]:0xf441 [4]:0x10094 [5]:0x4000e2ca [6]:0xffffffff [7]:0x1008000
----------------------------------------
24: LINE:2037 Time:2022/09/25 12:25:52:978 ID:38393
CHANGE_SUC:Sp:1048585 OCnt:2 NCnt:2 State:0x0 IsEcmp:1048585 [6]:0 [7]:0
----------------------------------------
25: LINE:1006 Time:2022/09/25 12:25:52:978 ID:38394
MMOD_TNL:Sp:262153 NID:224 Port:734 EncapID:0x100d1 AdjEncap:0x4000e963 Label[0]:0 Weight:1 Service:0 Prefix:0 LabelFlag:0 MainOrBkFlag:0(0表示lsp主路径) StatusFlag:0(0表示非激活状态,1为激活态)
----------------------------------------
26: LINE:1099 Time:2022/09/25 12:25:52:978 ID:38395
[1]:0x40009 [2]:0xe0 [3]:0x2de [4]:0x100d1 [5]:0x4000e963 [6]:0xffffffff [7]:0x1000000
----------------------------------------
27: LINE:1006 Time:2022/09/25 12:25:52:978 ID:38396
MMOD_TNL:Sp:262153 NID:163 Port:62529 EncapID:0x10094 AdjEncap:0x4000e2ca Label[0]:4294967295 Weight:1 Service:0 Prefix:0 LabelFlag:0 MainOrBkFlag:1(1表示lsp备路径) StatusFlag:0(0表示非激活状态,1为激活态)
----------------------------------------
28: LINE:1099 Time:2022/09/25 12:25:52:978 ID:38397
[1]:0x40009 [2]:0xa3 [3]:0xf441 [4]:0x10094 [5]:0x4000e2ca [6]:0xffffffff [7]:0x1008000
----------------------------------------
29: LINE:2037 Time:2022/09/25 12:25:52:978 ID:38398
CHANGE_SUC:Sp:262153 OCnt:2 NCnt:2 State:0x0 IsEcmp:262153 [6]:0 [7]:0
----------------------------------------
30: LINE:1006 Time:2022/09/25 12:25:52:981 ID:38473
MMOD_TNL:Sp:1048585 NID:224 Port:734 EncapID:0x100d1 AdjEncap:0x4000e963 Label[0]:0 Weight:1 Service:0 Prefix:0 LabelFlag:0 MainOrBkFlag:0 StatusFlag:0
MAR链路震荡时,导致MAR与MER(S12500R,S6890设备不涉及)之间的mpls tunnel-bfd down。MER产品驱动向软件平台通报bfd down事件,软件平台接收到bfd down事件之后向产品驱动下发mpls转发表项主lsp切备lsp,因为软件问题概率存在误判,错误地把主备lsp的status都置为非激活状态了,导致业务转发不通。紧接着当链路恢复时,MER上产品驱动通报bfd up事件,产品驱动将bfd up事件通告给软件平台。但由于bug软件平台存在bfd会话残留,不再接收bfd up事件通报,导致一直产品驱动维持bfd down事件状态和错误的底层表项,业务持续受损,直至手工重新配置mpls tunnel-bfd才恢复业务。
解决方法
临时规避及监控措施:
规避措施:删除R3608版本S12500R设备的mpls tunnel bfd
1)出现问题的设备,通过tunnel bfd重新配置,业务恢复;
2)删除mpls tunnel bfd时经过实验室测试,业务顺利平滑,没有出现丢包;
3)MER删除mpls bfd后对业务的影响:经过研发实验室测试,MAR发生正常链路down发生时,影响流量120毫秒左右。
彻底解决方案:升级3608H03及以上补丁解决。
CRM论坛(CRMbbs.com)——一个让用户更懂CRM的垂直性行业内容平台,CRM论坛致力于互联网、客户管理、销售管理、SCRM私域流量内容输出5年。 如果您有好的内容,欢迎向我们投稿,共建CRM多元化生态体系,创建CRM客户管理一体化生态解决方案。本文来源:知了社区基于知识共享署名-相同方式共享3.0中国大陆许可协议,某局点S12500R MER下挂MAR个别基站与部分核心网地址不通问题