丁犁,H3C Comware V7 平台交换机查看debug bfd信息快速定位故障设备经验分享
问题描述
采用控制报文方式BFD组网中,若出现 BFD session 会话up/down的情况,通常需要工程师快速定位判断,导致BFD session震荡的故障设备,是其本端设备,还是对端设备导致。
对此我们需要掌握一种,除检查两端设备BFD配置以外的快速定位方法,本案例将对其进行说明介绍。
过程分析
对于BFD session 由 UP-->Down 的过程,或者反复 UP<-->Down 时,通常在display logbuffer中将会记录相关日志信息,比如:
%Mar 16 21:02:38:017 2023 H3C BFD/5/BFD_CHANGE_FSM: Sess[22.213.2.38/22.213.2.37, LD/RD:52929/201, Interface:XGE0/21, SessType:Ctrl, LinkType:INET], Ver:1, Sta: DOWN->UP, Diag: 0 (No Diagnostic)
%Mar 16 21:02:43:231 2023 H3C BFD/5/BFD_CHANGE_FSM: Sess[22.213.2.38/22.213.2.37, LD/RD:52929/201, Interface:XGE0/21, SessType:Ctrl, LinkType:INET], Ver:1, Sta: UP->DOWN, Diag: 1 (Control Detection Time Expired)
%Mar 16 21:02:43:232 2023 H3C BGP/5/BGP_STATE_CHANGED: BGP.: 22.213.2.37 state has changed from ESTABLISHED to IDLE for session down event received from BFD.
通过上述产生的BFD事件日志信息,我们实际上就可以快速定位,导致BFD 会话down的原因到底是本端设备还是对端设备。关键,就是判断Diag数值含义。
Diag数值对应的具体原因介绍如下:(日常维护过程中,常见的id为1和3,分别对应本端超时和对端超时)
解决方法
若设备本地display logbuffer 日志中相关信息,已经被覆盖或其他原因消失。我们也可以通过 debugging BFD all 或 debugging bfd ntfy 命令打印在BFD 会话 UP/Down时,其diag诊断信息数值,从而快速判断是否是本端设备发送BFD异常导致会话down。比如
*Mar 17 00:00:22:070 2023 H3C BFD/5/BFD_CHANGE_FSM: Sess[22.213.2.38/22.213.2.37, LD/RD:52929/203, Interface:XGE0/21, SessType:Ctrl, LinkType:INET], Ver:1, Sta: DOWN->UP, Diag: 0 (No Diagnostic)
*Mar 17 00:00:27:529 2023 H3C BFD/5/BFD_CHANGE_FSM: Sess[22.213.2.38/22.213.2.37, LD/RD:52929/203, Interface:XGE0/21, SessType:Ctrl, LinkType:INET], Ver:1, Sta: UP->DOWN, Diag: 1 (Control Detection Time Expired) //Diag为1,说明是本端超时导致故障,需要重点排查本端设备运行情况。
CRM论坛(CRMbbs.com)——一个让用户更懂CRM的垂直性行业内容平台,CRM论坛致力于互联网、客户管理、销售管理、SCRM私域流量内容输出5年。 如果您有好的内容,欢迎向我们投稿,共建CRM多元化生态体系,创建CRM客户管理一体化生态解决方案。,H3C Comware V7 平台交换机查看debug bfd信息快速定位故障设备经验分享