首页 科技问答 董智敏,某局点S9850-32H的端口批量出现 bfd down问题

董智敏,某局点S9850-32H的端口批量出现 bfd down问题

科技问答 447
1676540286,

问题描述

现场一台S9850-32H运行过程中出现了批量BFD震荡的情况,导致bgp邻居中断。

Line 22: %Jan 24 00:33:30:248 2022 S9850-02 BFD/5/BFD_CHANGE_FSM: Sess[10.203.2.7/10.203.2.6, LD/RD:1030/8097, Interface:HGE1/0/28, SessType:Ctrl, LinkType:INET], Ver:1, Sta: UP->DOWN, Diag: 3 (Neighbor Signaled Session Down)

         Line 23: %Jan 24 00:33:30:247 2022 S9850-02 BFD/5/BFD_CHANGE_FSM: Sess[10.203.2.1/10.203.2.0, LD/RD:1029/8096, Interface:HGE1/0/25, SessType:Ctrl, LinkType:INET], Ver:1, Sta: UP->DOWN, Diag: 3 (Neighbor Signaled Session Down)

         Line 25: %Jan 24 00:33:30:246 2022 S9850-02 BFD/5/BFD_CHANGE_FSM: Sess[10.203.2.15/10.203.2.14, LD/RD:1032/8101, Interface:HGE1/0/32, SessType:Ctrl, LinkType:INET], Ver:1, Sta: UP->DOWN, Diag: 3 (Neighbor Signaled Session Down)

         Line 26: %Jan 24 00:33:30:245 2022 S9850-02 BFD/5/BFD_CHANGE_FSM: Sess[10.203.2.3/10.203.2.2, LD/RD:1028/8095, Interface:HGE1/0/26, SessType:Ctrl, LinkType:INET], Ver:1, Sta: UP->DOWN, Diag: 3 (Neighbor Signaled Session Down)

         

过程分析

1、根据现场诊断信息首先对故障现象进行了梳理,现场设备一共8BFD会话,分布在HGE1/0/25-HGE1/0/32这个八个接口上,故障时这8个会话在同一时间发生震荡。

===============display bfd session verbose=============== 

 Total Session Num: 8     Up Session Num: 8     Init Mode: Active

2、查看诊断中报文上cpu队列没有丢包,说明我们收到了对端的bfd报文,因此怀疑有如下两方面原因导致导致概率超过bfd会话时间,引起bfd震荡。        

1)软件任务处理时间偏长,没有及时释放CPU

2)软件收包共用芯片硬件资源,bfd报文处理没有及时处理。

                         

3、查询当前版本的代码,发现该版本对BFD报文的处理存在一些问题,出现过多起bfd震荡的问题,后续R6616P01版本对BFD处理进行了如下优化:

1BFD报文三层发包改为二层发包,减少中间转发环节,提高BFD发包效率;

2BFD使用单独的DMA channel收包,提高BFD收包效率;

3BFD收包任务绑定到CPU1,该CPU核专门处理BFD报文,提高BFD稳定性;

解决方法

次故障主要是当前版本对BFD处理存在问题,建议升级到R6616P01版本解决

CRM论坛(CRMbbs.com)——一个让用户更懂CRM的垂直性行业内容平台,CRM论坛致力于互联网、客户管理、销售管理、SCRM私域流量内容输出5年。 如果您有好的内容,欢迎向我们投稿,共建CRM多元化生态体系,创建CRM客户管理一体化生态解决方案。本文来源:知了社区基于知识共享署名-相同方式共享3.0中国大陆许可协议,某局点S9850-32H的端口批量出现 bfd down问题