首页 科技问答 董智敏,某局点S10508 交换机ARP学习异常问题

董智敏,某局点S10508 交换机ARP学习异常问题

科技问答 217
1676540299,

问题描述

故障现象PC刚开机时无法pingS10508,过三分钟左右就正常了,但是在使用过程中又会断开。故障时候设备侧无终端的ARP,在设备侧匹配终端arp报文流统发现入方向有报文进入,但是debug arp没有显示出接收到终端的arp报文。

过程分析

1、故障时候远程发现流统可以统计到终端发送的arp报文,但是debug无回显,初步怀疑是到设备的arp没有上送平台处理。

2、进一步分析诊断信息,发现设备上存在大量的mac漂移,且漂移次数也在实时增加。Mac频繁漂移会导致arp不断刷新,从而导致大量arp上送cpuarp队列,将队列打满。

a849-4d63-d461  779  XGE2/0/0/16  XGE1/0/0/46   2022-06-15 11:37:54    53286

745a-aa4b-6d86  779  XGE2/0/0/18  XGE1/0/0/48   2022-06-15 13:38:37    53705

3、查看诊断中arp队列信息,发现10槽和20槽的arp队列已经被打满,且存在大量丢包计数。

==============queue info on slot 0===============

kque_debug: 1

ontrail: ID  name    depth/cursize/max/drops (magic)

0: c0000000ecbd4f00  ARP_PKT    65536/65536/65536/373316517 (0x4b515545)

 

==============queue info on slot 18===============

kque_debug: 1

ontrail: ID  name    depth/cursize/max/drops (magic)

0: c00000007a26fa00  ARP_PKT    65536/65532/65536/562145102 (0x4b515545)

3、综合上述分析,本次故障是因为设备上频繁的mac漂移导致arp不断刷新,从而导致大量arp上送cpuarp队列,将队列打满,这样就会影响新的arp的学习,表现为现场的pc重启后发给设备的arp信息得不到及时处理,从而无法ping通设备。后续现场消除部分mac漂移后恢复正常,查看arp队列也没有被打满,丢包计数也没有继续增长了。

[TXDL-HXJF_S10508-M-probe]view /proc/kque chassis  1 slot  0 | include ARP_PKT

0: c0000000ecbd4f00  ARP_PKT    65536/0/65536/381567488 (0x4b515545)

[TXDL-HXJF_S10508-M-probe]view /proc/kque chassis  1 slot  0 | include ARP_PKT

0: c0000000ecbd4f00  ARP_PKT    65536/0/65536/381567488 (0x4b515545)

[TXDL-HXJF_S10508-M-probe]view /proc/kque chassis  2 slot  0 | include ARP_PKT

0: c00000007a26fa00  ARP_PKT    65536/0/65536/573903195 (0x4b515545)

[TXDL-HXJF_S10508-M-probe]view /proc/kque chassis  2 slot  0 | include ARP_PKT

0: c00000007a26fa00  ARP_PKT    65536/0/65536/573903195 (0x4b515545)

解决方法

次故障主要因为下联物理机mac频繁漂移导致,现场消除mac漂移后问题解决。

CRM论坛(CRMbbs.com)——一个让用户更懂CRM的垂直性行业内容平台,CRM论坛致力于互联网、客户管理、销售管理、SCRM私域流量内容输出5年。 如果您有好的内容,欢迎向我们投稿,共建CRM多元化生态体系,创建CRM客户管理一体化生态解决方案。本文来源:知了社区基于知识共享署名-相同方式共享3.0中国大陆许可协议,某局点S10508 交换机ARP学习异常问题