1 MDS监测慢速设备现象机制
1.1 慢速设备现象原理
在SAN存储网络中,由于数据转发原理,会遇到慢速设备现象。常见原因包括服务器或磁盘CPU负载大,HBA卡driver兼容性,HBA卡硬件故障等。慢速设备现象如下图:
在SAN网络中,当服务器H2不发送R_RDY给交换机时,会导致交换机将去往H2的数据帧缓存于接口队列中。该现象持续存在的情况下,交换机接口队列会被占满,然后导致交换机ISL级联接口队列占满,最后导致数据流入向接口队列占满,并不会继续发送R_RDY到S2磁盘。
在此图中网络结构下,该慢速设备现象不仅仅影响了S2到H2的数据流,同样因为共用ISL级联链路,S1到H1的数据流也会受到影响。
1.2 监测慢速设备现象机制
Cisco MDS交换机产品有多种计数器可以对慢速设备现象进行监控,同时也有对应处理机制保护其他业务流量不受影响。此文档将详尽阐述TxWait, Tx Credit Not Available以及Slowport-monitor的相关定义、命令及区别等。
1.2.1 TxWait
TxWait是Cisco MDS 9000 系列交换机为检测slow-drain devices提供的一种新硬件辅助功能,即交换机通过递增内部计时器,以纳秒(ns)为精度单位监控Tx B2B(buffer to buffer) credit为0的持续时间。 这些内部计时器的累计信息由TxWait计数器记录,如果端口输出的Tx B2B credit为0的持续时间达2.5微秒(μs)且有等待传输的帧,则计数器递增1,以此类推。
TxWait的累计计数功能只支持Gen4 LCs - DS-X92xx-256K9的16G和advance 8G平台,在Gen3 LCs - DS-X92xx-96K9没有此硬件计时功能。
配置命令及输出说明:
采用 (switch)# show interface counters 命令查看端口的TxWait的计数,例如:
查看fcY/x口的TxWait的计数,可看出计数为0,数据传输正常。
再如:
mds# show interface fc1/x counters | i fc|Wait 查看fc1/x口的TxWait的计数情况:
1.2.2 TX Credit Not Available
由于Gen3 LCs - DS-X92xx-96K9没有TxWait硬件计时功能,采用软件编程触发计时,当端口Tx B2B credit为0达到连续的100ms,相应counter(计数器)值加1。
1.2.3 slowport-monitor原理
Slowport-monitor功能集成在端口硬件电路中用于检测接口接收R_RDY的时间间隔,即对端设备发送R_RDY的响应时间。它可以实时显示Tx B2B credit为0的连续持续时间,它可以在1ms(毫秒)的时间内监控Cisco MDS 9000系列交换机上的所有端口,而不会对性能产生任何影响。 如果Tx B2B credit为0持续时间超过配置的持续时间则会将事件与时间戳一起记入日志。
...... 未完 待续。。。。