取消
显示结果 
搜索替代 
您的意思是: 
cancel
公告

December 2020

【原创故障案例分享】nexus switch CRC error

3400
查看次数
30
有帮助
2
评论

  • 故障现象

    • 简化拓扑为 server - n3k - n7k - client, 客户发现 server - client 之间沟通比以前慢,进一步查看,发现 n3k - n7k 之间的链路,n7k# show interface e1/1 存在 input CRC error,并且持续增长。
  • debug

    • 根据经验,CRC 问题一般是由于 speed/duplex 不匹配,或者layer1 问题;客户确认没有修改过配置,不是 speed/duplex 问题;通过更换 N7K 与 N3K 接口的光模块、光纤,希望排除 layer1 问题;
    • 但是更换相关硬件之后,甚至更换 N7K, N3K 接口,CRC 依然增长;
  • stay calm and call TAC

    • 在10G/40G/100G 链路,nexus 默认的转发模式为 cut-through(直通式转发);与普通的 store-and-forward 转发模式有所不同:

      • cut-through 模式,接收到数据包报头,足够用来做forwarding decision之后,就会按照做好的 forwarding decsion, 进行转发;此时报文可能还没有完全 ingress;在完整接收到报文之后,可能会发现此报文的 MTU 太大,或者 CRC 校验值错误,于是 nexus 会给此 packet 添加一个 stomp 标记,表示此报文有问题,但是并不会丢弃;此报文会在 nexus 设备之间继续传递,每个接口发现 stomp 之后,都会记录对应的 input/output error;直到此报文到达一个 store-and-forward 设备(或者终端),报文被丢弃 。
      • store-and-forward 模式,接收到 CRC error 报文,直接 drop;
    • 按照以上原理,建议客户去排查 server - n3k, 观察 n3k 是否存在 input error 增长的接口。通过排查,此问题在 server 的网卡,nexus 只是将这个问题暴露出来。

Cut-Through and Store-and-Forward Ethernet Switching for Low-Latency Environments
评论
Rising star
楼主研究比较细致,分析问题到位
Beginner
学习了!{:2_31:}
不能显示该小部件。