取消
显示结果 
搜索替代 
您的意思是: 
cancel
公告

December 2020

Cisco MDS监测慢速设备现象的机制

196
查看次数
0
有帮助
0
评论
qianlu@cisco.com
Cisco Employee

 

   

参考文档

1,  Monitoring and Alerting in Cisco MDS Fabric

https://www.cisco.com/c/dam/en/us/products/collateral/storage-networking/mds-9700-series-multilayer-directors/white-paper-c11-736963.pdf?dtid=osscdc000283

2, Slow-Drain Device Detection, Troubleshooting, and Automatic Recovery
https://www.cisco.com/c/dam/en/us/products/collateral/storage-networking/mds-9700-series-multilayer-directors/whitepaper-c11-737315.pdf

 


1  MDS监测慢速设备现象机制

1.1  慢速设备现象原理

在SAN存储网络中,由于数据转发原理,会遇到慢速设备现象。常见原因包括服务器或磁盘CPU负载大,HBA卡driver兼容性,HBA卡硬件故障等。慢速设备现象如下图:

 

 

在SAN网络中,当服务器H2不发送R_RDY给交换机时,会导致交换机将去往H2的数据帧缓存于接口队列中。该现象持续存在的情况下,交换机接口队列会被占满,然后导致交换机ISL级联接口队列占满,最后导致数据流入向接口队列占满,并不会继续发送R_RDY到S2磁盘。

在此图中网络结构下,该慢速设备现象不仅仅影响了S2到H2的数据流,同样因为共用ISL级联链路,S1到H1的数据流也会受到影响。

 

1.2  监测慢速设备现象机制

Cisco MDS交换机产品有多种计数器可以对慢速设备现象进行监控,同时也有对应处理机制保护其他业务流量不受影响。此文档将详尽阐述TxWait, Tx Credit Not Available以及Slowport-monitor的相关定义、命令及区别等。

 

1.2.1  TxWait

TxWait是Cisco MDS 9000 系列交换机为检测slow-drain devices提供的一种新硬件辅助功能,即交换机通过递增内部计时器,以纳秒(ns)为精度单位监控Tx B2B(buffer to buffer) credit为0的持续时间。 这些内部计时器的累计信息由TxWait计数器记录,如果端口输出的Tx B2B credit为0的持续时间达2.5微秒(μs)且有等待传输的帧,则计数器递增1,以此类推。

       TxWait的累计计数功能只支持Gen4 LCs - DS-X92xx-256K9的16G和advance 8G平台,在Gen3 LCs - DS-X92xx-96K9没有此硬件计时功能。

 

 

配置命令及输出说明:

采用 (switch)# show interface counters 命令查看端口的TxWait的计数,例如:

查看fcY/x口的TxWait的计数,可看出计数为0,数据传输正常。

再如:

mds# show interface fc1/x counters | i fc|Wait   查看fc1/x口的TxWait的计数情况:

 

1.2.2   TX Credit Not Available

由于Gen3 LCs - DS-X92xx-96K9没有TxWait硬件计时功能,采用软件编程触发计时,当端口Tx  B2B credit0达到连续的100ms,相应counter(计数器)值加1

 

 

1.2.3  slowport-monitor原理

 

Slowport-monitor功能集成在端口硬件电路中用于检测接口接收R_RDY的时间间隔,即对端设备发送R_RDY的响应时间。它可以实时显示Tx B2B credit为0的连续持续时间,它可以在1ms(毫秒)的时间内监控Cisco MDS 9000系列交换机上的所有端口,而不会对性能产生任何影响。 如果Tx B2B credit为0持续时间超过配置的持续时间则会将事件与时间戳一起记入日志。

 

...... 未完 待续。。。。

 

 

创建
认可您的同行
Content for Community-Ad