大约是上周5的时候,一个客户打电话询问我说7K的配置保存不了,并且存在报错,当时的log如下:switch_admin# copy running-config startup-config
[########################################] 100%
Configuration update aborted: request was aborted
根据故障现象查了手册,发现是sup主被之间的raid阵列寄存器故障
并找到了相关支持手册:
https://www.cisco.com/c/en/us/support/docs/switches/nexus-7000-series-switches/200540-Nexus-7000-Supervisor-2-2E-Compact-Flash.html同时7K这边show system internal raid | no
的log如下:
# show system internal raid | no
Current RAID status info:
RAID data from CMOS = 0xa5 0xc3 <<<<<<<<<<<<<<<<<<<<<<<<<<******
RAID data from driver disks 2 bad 2 name sdd3
Bootflash: /dev/sdd
Mirrorflash: /dev/sdc
Current RAID status:
Personalities : [raid1]
md6 : active raid1 sdd6[0] sdc6[2](F)
77888 blocks [2/1] [U_]
md5 : active raid1 sdd5[0] sdc5[2](F)
78400 blocks [2/1] [U_]
md4 : active raid1 sdd4[0] sdc4[2](F)
39424 blocks [2/1] [U_]
md3 : active raid1 sdd3[0] sdc3[2](F)
1802240 blocks [2/1] [U_]
slot-2
MCB_DC_C7009_ADMIN# Slot 2 show system internal raid
RAID data from CMOS = 0xa5 0xe1 <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
RAID data from driver disks 2 bad 1 name sdc3
Current RAID status info:
Bootflash: /dev/sdc
Mirrorflash: /dev/sdd
Personalities : [raid1]
md6 : active raid1 sdc6[2](F) sdd6[1]
77888 blocks [2/1] [_U]
md5 : active raid1 sdc5[2](F) sdd5[1]
78400 blocks [2/1] [_U]
md4 : active raid1 sdc4[2](F) sdd4[1]
39424 blocks [2/1] [_U]
md3 : active raid1 sdc3[2](F) sdd3[1]
1802240 blocks [2/1] [_U]
接着就开了case,TAC工程师与客户经行了联系和沟通,发了邮件指导解决:
首先,通过TFTP或者usb把现有的running-config文件导出进行备份,
将主被sup切换:
(config)# out-of-service module
(config)# no poweroff module x
这个过程很短,当备用sup切换成主sup后,
TAC工程给了一个修复工具的连接:
下载后解压上传到bootflash中
用命令# load bootflash:n7000-s2-flash-recovery-tool.10.0.2.gbin运行修复工具
工具会运行一段时间
期间可以用# show system internal file /proc/mdstat查看进度
switch# show system internal file /proc/mdstat
Personalities : [raid1]
md6 : active raid1 sdd6[2] sdc6[0]
77888 blocks [2/1] [U_] <-- "U_" represents the broken state
resync=DELAYED
md5 : active raid1 sdd5[2] sdc5[0]
78400 blocks [2/1] [U_]
resync=DELAYED
md4 : active raid1 sdd4[2] sdc4[0]
39424 blocks [2/1] [U_]
resync=DELAYED
md3 : active raid1 sdd3[2] sdc3[0]
1802240 blocks [2/1] [U_]
[=>...................] recovery = 8.3% (151360/1802240) finish=2.1min s peed=12613K/sec
unused devices:
当77888 blocks [2/1] [U_] 变成UU状态的时候,就修复好了,修复完7K很可能会重启,并且当前running-config的配置会丢失
,这时候就要把原先备份的running-config倒回来,之前out-of-service的sup需要一会切换到standby状态,如果切不回来卡在powered-up状态,需要手工起来: (config)# system standby manual-boot
(config)# reload module x force-dnld
大概等5-10分钟左右会到HA状态,然后把manual boot关掉即可
(config)# system no standby manual-boot
这时候故障消除,copy run start vdc-all就可以保存配置了。
客户的7K NX-OS版本为6.2,TAC同时也建议在合适的时间升到目前比较稳定的OS版本。