取消
显示结果 
搜索替代 
您的意思是: 
cancel
5196
查看次数
0
有帮助
5
回复

一个关于IDC内部大范围丢包的疑难杂症

llyzlzl2002
Level 1
Level 1
各位好
目前现网有三个IDC机房,拓扑都基本一样,也比较简单。2960堆叠做接入,两台3750堆叠做汇聚(大部分VLAN在此终结,只有公网VLAN透传到上面两台堆叠的3850,公网VLAN网关在3850上),另有FW和F5各两台,一主一备连接在37和38之间,FW主要跑办公网到IDC的VPN流量,F5做NAT承载大部分公网流量,部分配置公网IP的服务器通过3750-3850出公网,一根MSTP专线流量做SLA,链路异常会自动切换到VPN。拓扑图如下:
093332muw2k6v2bjzbazvr.png
现在出现的情况是,三个同样架构的IDC机房都会有偶发的丢包情况,时间和频率没有规律,但是基本上90%以上的服务器都会丢包,包括不过核心37的同机柜交换机下的两台机器也会丢包。由于刚接手没多久,目前进行了一些排查,有以下一些三个机房都存在的异常情况
1.3750和所有2960的Hulc LED进程常年占用15%左右的CPU,其他进程都正常
2.3750 CPU负载平均55%,短时会达到99%,也只有HULC LED占用15%左右,其他都正常
3.所有的3750和2960的活跃接口都有大量的outdiscard包,且还在不断增长

最开始怀疑是3750的偶发99% CPU导致的ICMP包丢弃,但是CPU波峰时间和丢包时间完全对不上号,而且不经过3750的两台同机柜交换机下的服务器也丢包
后来查到了除了3850以外的所有IDC的所有交换机活跃端口的outdiscard都非常巨大,而且还在不断增长,于是现在把调查重点转到这个方向。
根据CISCO的官方文档,outdiscard主要由以下几个问题引起:
1.双工问题
2.链路拥塞,端口带宽不足
3.应用程序的数据流传输特性可以导致输出缓冲问题
4.软件问题,包括IOS版本问题,软件BUG,损坏的镜像等
5.硬件问题

由于除了3850,三个IDC的所有交换机端口都有这个问题,包括不同型号的29和37,下一步准备抓包分析下端口有没有没监控不到的短时瞬时大流量打满端口Buffer,但是又觉得再有突发流量也不至于三个IDC,所有端口打满吧?其他暂时还没什么方向,不知道各位有何高见,下一步该从哪里入手?
PS:网线和链路质量的问题基本可以排除,接口下也没有CRC错误,另外开CASE也不太可能,因为没有维保.....
1 个已接受解答

已接受的解答

jingjian
Spotlight
Spotlight
我感觉可能是环路引起的网络拥塞,可以尝试以下方法解决
1.检查每一台交换机STP的配置,STP的运行模式
2.检查每一台交换机STP的角色以及端口的角色
3.检查核心交换机堆叠的配置,并检查port-channel状态是否正常
4.检查接入交换机port-channel的配置
5.抓包分析网络的流量状况

在原帖中查看解决方案

5 条回复5

jingjian
Spotlight
Spotlight
我感觉可能是环路引起的网络拥塞,可以尝试以下方法解决
1.检查每一台交换机STP的配置,STP的运行模式
2.检查每一台交换机STP的角色以及端口的角色
3.检查核心交换机堆叠的配置,并检查port-channel状态是否正常
4.检查接入交换机port-channel的配置
5.抓包分析网络的流量状况

YilinChen
Spotlight
Spotlight
能升版本先升级,死马当活马医:P:P:P

fortune
VIP Alumni
VIP Alumni
90% 服务器都会出现问题,那么最大可能性应该是交换机上面吧,毕竟不是一台设备。
1.有没有监控软件? 建议监控一下流量,会不会有突发流量?
2.看看log 有没有异常日志
3.还有可能是中毒,抓包看是否有异常数据包,比如ARP 泛洪或者ARP欺骗,或者其他

llyzlzl2002
Level 1
Level 1
抓包结果如下,存在突发流量,且突发流量大多为Tcp segment包,但是目前还没有抓到是固定哪个业务造成的,貌似结果上有提示是MYSQL,有提示80端口的segment包,难道真是设备性能不足导致的正常流量丢弃?103542ned6mdvvb939gvrw.png103543fff14ii1iqzkwfwq.png103543p3dkzlkj2effbd1b.png103543xyhx6bz5zlatbzwz.jpg

RenxChen
Spotlight
Spotlight
sniffer pro看看是不是MTU搞事
快捷链接