取消
显示结果 
搜索替代 
您的意思是: 
cancel
9551
查看次数
6
有帮助
11
回复

关于在交换机上使用debug命令的问题

kpak00001
Spotlight
Spotlight
本帖最后由 kpak00001 于 2016-2-15 11:50 编辑
我现在碰到一个问题,我这里有一个3750G的堆叠,mac地址表经常出现一个不完整的mac地址记录,目前判断可能是某个扫描器导致的,我想知道具体是哪个机器干的,但是不好找,抓包效果不太理想,看到的都是交换机自身发出的ARP,我想用debug platform cpu-queues 查看究竟是哪个机器发的,但是又不敢使用debug,怕把设备搞死机了,请问大家平时排错用debug吗?有什么技巧吗 ?可否在尽量降低影响设备性能的情况下,使用debug?
mac地址表情况如下
sw#sh ip arp | in Incomplete
Internet 10.7.130.143 0 Incomplete ARPA
Internet 10.7.136.133 0 Incomplete ARPA
Internet 10.7.133.136 0 Incomplete ARPA
Internet 10.7.132.137 0 Incomplete ARPA
Internet 10.7.143.130 0 Incomplete ARPA
Internet 10.7.141.128 0 Incomplete ARPA
Internet 10.7.139.134 0 Incomplete ARPA
Internet 10.7.128.141 0 Incomplete ARPA
Internet 10.7.134.138 0 Incomplete ARPA
Internet 10.7.138.134 0 Incomplete ARPA
Internet 10.7.133.137 0 Incomplete ARPA
Internet 10.7.130.142 0 Incomplete ARPA
Internet 10.7.129.141 0 Incomplete ARPA
Internet 10.7.128.140 0 Incomplete ARPA
Internet 10.7.142.130 0 Incomplete ARPA
Internet 10.7.141.129 0 Incomplete ARPA
Internet 10.7.140.128 0 Incomplete ARPA
Internet 10.7.138.133 0 Incomplete ARPA
Internet 10.7.137.134 0 Incomplete ARPA
Internet 10.7.133.138 0 Incomplete ARPA
Internet 10.7.128.143 0 Incomplete ARPA
Internet 10.7.139.132 0 Incomplete ARPA
Internet 10.7.142.128 0 Incomplete ARPA
CPU日常负载如下:
sw#sh proc c his
1111111111222222222222222222223333322222222222222222222222
9999999999111117777766666111115555599999111111111100000444
100
90
80
70
60
50
40 *****
30 ********** **********
20 **********************************************************
10 **********************************************************
0....5....1....1....2....2....3....3....4....4....5....5....
0 5 0 5 0 5 0 5 0 5
CPU% per second (last 60 seconds)
3433668485565545444753434554435333483365743456444466444753
5604292942277189022958154402371697902659109646239503996342
100
90
80 * * * *
70 ** * * * * * * * *
60 *** * #* * ** * *** * ** #
50 * *##*#**##*** ** ** * ** *#* *** **##***#*
40 ** *############**##***###********# *###***##****######*
30 ##*#######################################################
20 ##########################################################
10 ##########################################################
0....5....1....1....2....2....3....3....4....4....5....5....
0 5 0 5 0 5 0 5 0 5
CPU% per minute (last 60 minutes)
* = maximum CPU% # = average CPU%
1 1
8888988888088087968686978687978796978786979787878697879988899687878788
0048091828064087067695019393057602037365400998988545890381912785878873
100 * *
90 *** * *** ** * * * * * * * * * * * * * * * * * * * *** *** * * * *
80 ***************** * * * * * ***** * * * * ******* *********** ********
70 *********###************* ******* ************************************
60 *******######********************************************************#
50 ******########*****************************************###*#*********#
40 *****############******##**#*#*#***********##**********######******#*#
30 ######################################################################
20 ######################################################################
10 ######################################################################
0....5....1....1....2....2....3....3....4....4....5....5....6....6....7.
0 5 0 5 0 5 0 5 0 5 0 5 0
CPU% per hour (last 72 hours)
* = maximum CPU% # = average CPU%
1 个已接受解答

已接受的解答

Lei Zhang
Cisco Employee
Cisco Employee
kpak00001 发表于 2016-2-16 11:47 back.gif
您好,非常感谢您的帮助!我这里有一点忘了说明,这么多不完整的mac地址,确实不是多个终端同时发生了故障 ...

您好!
除了根据物理topo逐跳双向抓包之外,暂时没有更好的办法可以判断具体是哪台终端。因为,交换机发出的ARP request包,二层包头中目的mac是广播全F,源mac是交换机自己。只有逐跳双向抓包(maybe在该交换机和终端之间的某个2层交换机上)可以抓到arp reply,如果抓到arp reply的话,可以根据mac判断出具体终端。
另外,建议以后最好用DHCP绑定IP与mac的方式下发IP地址,避免终端配置静态IP,如果非要使用静态IP,定期巡检记录,同时做好记录工作,这样,不论将来出现什么问题,都可以根据该记录找到IP与mac的映射关系,方便troubleshooting。
双向抓包是指在配置SPAN(monitor session)的时候,指定source接口时,后面的参数应该是both选项(默认应该就是both参数)。
希望可以帮到你!
谢谢!

在原帖中查看解决方案

11 条回复11

Lei Zhang
Cisco Employee
Cisco Employee
kpak00001 发表于 2016-2-16 11:47 back.gif
您好,非常感谢您的帮助!我这里有一点忘了说明,这么多不完整的mac地址,确实不是多个终端同时发生了故障 ...

您好!
除了根据物理topo逐跳双向抓包之外,暂时没有更好的办法可以判断具体是哪台终端。因为,交换机发出的ARP request包,二层包头中目的mac是广播全F,源mac是交换机自己。只有逐跳双向抓包(maybe在该交换机和终端之间的某个2层交换机上)可以抓到arp reply,如果抓到arp reply的话,可以根据mac判断出具体终端。
另外,建议以后最好用DHCP绑定IP与mac的方式下发IP地址,避免终端配置静态IP,如果非要使用静态IP,定期巡检记录,同时做好记录工作,这样,不论将来出现什么问题,都可以根据该记录找到IP与mac的映射关系,方便troubleshooting。
双向抓包是指在配置SPAN(monitor session)的时候,指定source接口时,后面的参数应该是both选项(默认应该就是both参数)。
希望可以帮到你!
谢谢!

Lei Zhang
Cisco Employee
Cisco Employee
您好!
根据你的输出,arp incomplete是由于交换机发出的ARP request包,没有收到对端回应的ARP reply导致。
所以,你抓包看到的都是交换机发出的包,是正常的。
另外,根据你提到的抓包结果,ARP reply应该真的没有送到这台交换机。所以,你开启debug的意义和帮助不大。
针对你这个现象,我建议:
1、整理好物理拓扑。
2、针对一个ARP条目,进行逐跳双向抓包。
A,有可能中间节点把交换机发出的arp request丢弃,导致arp request根本没有送达终端。
B,也有可能,交换机发出的arp request成功送到了终端,但是由于终端问题,该终端根本就没有产生arp reply。
C,还有可能,交换机发出的arp request成功送到了终端,终端也产生了arp reply,但是在回报路径上的某个节点把arp reply包丢弃,导致交换机没有收到arp reply。
3、 根据你的输出,多个arp incomplete的现象,逻辑推理可以暂时排除终端问题,因为不可能多个终端同时发生故障。
4、 通过逐跳双向抓包,找到并确定,arp request或者arp reply丢在了哪个设备的哪一个接口上,然后,我们再进一步分析该设备的该接口为什么丢弃该arp request(或arp reply)。
5、 找到了问题设备的问题接口,检查是否有error counter的增长,类似CRC,input error,total output drop之类的,根据error counter名称。在cisco官方上边寻找相关error counter的解释,解决办法即可。
6、 如果官网上找不到相关error counter的解释,或者官网上的解决办法无效,建议将抓包结果,error counter等资料整理,开case给TAC进行进一步的troubleshooting。
希望可以帮到你!
谢谢!

kpak00001
Spotlight
Spotlight
leiz2 发表于 2016-2-16 10:53 back.gif
您好!
根据你的输出,arp incomplete是由于交换机发出的ARP request包,没有收到对端回应的ARP reply导致 ...

您好,非常感谢您的帮助!我这里有一点忘了说明,这么多不完整的mac地址,确实不是多个终端同时发生了故障,mac地址表里的这些IP地址应该都是没有在用的;
那么如何知道是哪台主机什么原因导致交换机发出ARP请求呢?我想知道究竟是哪个设备要访问这些IP地址该怎么做?
另外您说的双向抓包是不是指抓包时在源接口后面带上both选项就可以了?我抓包只指定了源接口和目的接口,没有用其他选项。
非常感谢!!!

kpak00001
Spotlight
Spotlight
本帖最后由 kpak00001 于 2016-2-16 14:17 编辑
leiz2 发表于 2016-2-16 12:00 back.gif
您好!
除了根据物理topo逐跳双向抓包之外,暂时没有更好的办法可以判断具体是哪台终端。因为,交换机发 ...

多谢!!
另外我想问下,我的交换机是千兆接口,型号是WS-C3750G-48TS-S。这个交换机不是线速交换机,抓包是否需要交换机达到线速性能?我在交换机上做了端口镜像把一个VLAN的双向流量转到一个千兆接口上,在这个接口上我连接一台服务器使用Wireshark在命令行下抓包,停止抓包后,结果显示,抓到1351314个包,丢弃了3060219个包,如下图。
131820l087guu9xv7k7xlf.jpg
打开存储的抓包文件,通过IO图看到bit峰值是100Mbit,结合上面丢包的情况看,是不是说明我并没有捕获到VLAN的全部流量?
131645zfrt2bgbtnnvbnbg.jpg
下面是镜像接口的负载情况
133723yeb69x1s1sbi66w6.jpg
如上图,镜像后目的接口发送负载已经接近饱和,出站队列也有很多丢弃,从这个情况来看,这个千兆接口在流量达到100Mbit的时候就满载了,是因为不是线速性能吗?或者说交换机的背板带宽或出站缓存已经不足了?这是否说明这台交换机性能不足呢?
另外这台交换机是由5个相同型号组成的堆叠,如果说性能不足,我算了下,即便是这些交换机不是线速性能,但其标称的性能指标,如果按每台32G背板带宽 38.7M转发性能看的话,也没有达到这个值啊,这是为什么呢?

kpak00001
Spotlight
Spotlight
哪位朋友再帮忙看下呀 顶起来~

Pengfei Yu
Spotlight
Spotlight
我看“leiz2”分析的都挺全面的,无力回答。
关于"Total output drops"建议参看同样由“leiz2”回答的
http://bbs.csc-china.com.cn/forum.php?mod=viewthread&tid=20362&extra=page%3D4 帖子内容。

kpak00001
Spotlight
Spotlight
本帖最后由 kpak00001 于 2016-2-18 11:25 编辑
鱼排饭 发表于 2016-2-18 10:26 back.gif
我看“leiz2”分析的都挺全面的,无力回答。
关于"Total output drops"建议参看同样由“leiz2”回答的
ht ...

好吧 谢谢~但我现在急需知道我的交换机是否存在性能不足的问题,是否需要更换设备。

pebao
Cisco Employee
Cisco Employee
从您的截图中可以看到有大量的Total Output Drop,这说明在接口下的出方向上有大量的丢包。交换机多个接口是公用一个ASIC芯片的,因此多个接口也公用一个buffer,当一个接口占用了大量的buffer,其他接口就无法得到buffer,从而出现丢包的现象。一般有突发流量的时候会出现Total Output Drop。有Total Output Drop的时候就说明当前的设备转发不了当前的突发流量,可以认为是性能不足。

kpak00001
Spotlight
Spotlight
pebao 发表于 2016-5-10 13:10 back.gif
从您的截图中可以看到有大量的Total Output Drop,这说明在接口下的出方向上有大量的丢包。交换机多个接口是 ...

感谢您的解答,另外我有个问题想问下,这个buffer当前剩余多少在交换机上能看到吗?有先关信息可以查看吗?另外buffer不足或者说接口得不到buffer会对CPU的使用率产生影响吗?

pebao
Cisco Employee
Cisco Employee
show interface X/X就可以看到buffer的相关信息。

kpak00001
Spotlight
Spotlight
pebao 发表于 2016-5-25 15:57 back.gif
show interface X/X就可以看到buffer的相关信息。

非常感谢您的回答,不过我还是没弄明白 show interface 里面哪个是buffer 信息?
快捷链接