取消
显示结果 
搜索替代 
您的意思是: 
cancel
168
查看次数
2
有帮助
0
评论
emm9516
Level 1
Level 1

故障现象:
数据中心监控大屏展示,Zabbix监控系统触发了大量告警,提示数据中心业务网出现了无法Ping通的异常情况。

故障处理过程:

  1. 快速定位:值班人员迅速在业务网BL上查看故障IPEVPN主路由,通过VTEP地址迅速定位到相关TOR交换机。
  2. 端口状态检查:在TOR交换机上确认了故障IP的上联交换机端口,交换机侧的ARPMAC和端口状态均显示正常。
  3. 直接Ping测试:在两台TOR交换机上直接Ping故障IP地址,结果均显示无法Ping通。
  4. 自动恢复:网络自动恢复,但原因尚不明确。

故障分析:
通过对业务流量的回溯抓包分析,我们发现在故障过程中,服务器发出的报文目的MAC地址存在错误。

  1. 正常的目的MAC报文:

 emm9516_0-1720503547038.png

  1. 错误目的MAC报文: 

 emm9516_1-1720503562712.png

进一步分析发现,事件期间有源MAC地址为a4:6c:2a:74:a6:77ARP请求发出,这与预期的any-cast gateway MAC地址不符。
 emm9516_2-1720503598777.png

故障原因:
综合分析后得出,Border Leaf设备发出了错误的ARP请求,使用了system MAC地址而非any-cast gateway MAC地址。尽管这个ARP请求的信息并非服务器自身的ARP信息,但服务器依然学习了错误的源IP和源MAC的对应关系。

我们找到了两个关于ARPMAC地址被错误写成system mac地址的问题的关键BUG

  • BUG CSCvd32333: 提供了一个解决方案,强制在VxLAN相关的SVI底下指定mac-addressany-cast gateway mac
  • BUG CSCvj27056: 即使采用了指定SVISwitch Virtual InterfaceMAC地址为any-cast gateway MAC的解决方案,问题依然存在。这个问题在版本I76中得到了彻底解决,该版本屏蔽了system MAC

经过与BUG所有者沟通,尽管该问题是小概率事件,但触发条件较多,且无法全部列举。因此,作为临时解决方案,可以在SVI下指定any-cast gateway MAC。为了彻底解决这个问题,建议升级到已修复该问题的I76版本,该版本也是官网推荐版本。

应急预案:
为防止类似问题再次发生,我们制定了以下应急手段:

  1. 登录故障主机,检查并记录网关ARP的正确性。
  2. 如果ARP不正确,记录错误的IPMAC对应关系。
  3. 根据VLAN号和MAC地址确定SVI所属的交换机。
  4. SVI接口执行shutdown操作。
  5. 修改SVI MACfabric anycast-gateway MAC
  6. 重新激活SVI接口。
  7. 如果指定MAC地址无效,保存配置并重启交换机。

分享:
网络技术不断进步,新的BUG和安全威胁层出不穷。因此,持续的学习和钻研对于网络工程师来说至关重要,以确保能够识别和应对新的挑战。

入门指南

使用上面的搜索栏输入关键字、短语或问题,搜索问题的答案。

我们希望您在这里的旅程尽可能顺利,因此这里有一些链接可以帮助您快速熟悉思科社区: