记一次N7K running-config无法保存到startup-config故障恢复

zhengwei272 · ‎01-16-2018

大约是上周5的时候，一个客户打电话询问我说7K的配置保存不了，并且存在报错，当时的log如下：switch_admin# copy running-config startup-config
[########################################] 100%
Configuration update aborted: request was aborted
根据故障现象查了手册，发现是sup主被之间的raid阵列寄存器故障
并找到了相关支持手册：
https://www.cisco.com/c/en/us/support/docs/switches/nexus-7000-series-switches/200540-Nexus-7000-Supervisor-2-2E-Compact-Flash.html
同时7K这边

show system internal raid | no

的log如下：

# show system internal raid | no

Current RAID status info:

RAID data from CMOS = 0xa5 0xc3 <<<<<<<<<<<<<<<<<<<<<<<<<<******

RAID data from driver disks 2 bad 2 name sdd3

Bootflash: /dev/sdd

Mirrorflash: /dev/sdc

Current RAID status:

Personalities : [raid1]

md6 : active raid1 sdd6[0] sdc6[2](F)

77888 blocks [2/1] [U_]

md5 : active raid1 sdd5[0] sdc5[2](F)

78400 blocks [2/1] [U_]

md4 : active raid1 sdd4[0] sdc4[2](F)

39424 blocks [2/1] [U_]

md3 : active raid1 sdd3[0] sdc3[2](F)

1802240 blocks [2/1] [U_]

slot-2

MCB_DC_C7009_ADMIN# Slot 2 show system internal raid

RAID data from CMOS = 0xa5 0xe1 <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<

RAID data from driver disks 2 bad 1 name sdc3

Current RAID status info:

Bootflash: /dev/sdc

Mirrorflash: /dev/sdd

Personalities : [raid1]

md6 : active raid1 sdc6[2](F) sdd6[1]

77888 blocks [2/1] [_U]

md5 : active raid1 sdc5[2](F) sdd5[1]

78400 blocks [2/1] [_U]

md4 : active raid1 sdc4[2](F) sdd4[1]

39424 blocks [2/1] [_U]

md3 : active raid1 sdc3[2](F) sdd3[1]

1802240 blocks [2/1] [_U]

接着就开了case，TAC工程师与客户经行了联系和沟通，发了邮件指导解决：

首先，通过TFTP或者usb把现有的running-config文件导出进行备份，

将主被sup切换：

(config)# out-of-service module
(config)# no poweroff module x

这个过程很短，当备用sup切换成主sup后，

TAC工程给了一个修复工具的连接：

https://software.cisco.com/download/release.html?mdfid=284472710&flowid=&softwareid=282088132&relind=AVAILABLE&rellifecycle=&reltype=latest

下载后解压上传到bootflash中

用命令# load bootflash:n7000-s2-flash-recovery-tool.10.0.2.gbin运行修复工具

工具会运行一段时间

期间可以用# show system internal file /proc/mdstat查看进度

switch# show system internal file /proc/mdstat
Personalities : [raid1]
md6 : active raid1 sdd6[2] sdc6[0]
77888 blocks [2/1] [U_] <-- "U_" represents the broken state
resync=DELAYED

md5 : active raid1 sdd5[2] sdc5[0]
78400 blocks [2/1] [U_]
resync=DELAYED

md4 : active raid1 sdd4[2] sdc4[0]
39424 blocks [2/1] [U_]
resync=DELAYED
md3 : active raid1 sdd3[2] sdc3[0]
1802240 blocks [2/1] [U_]
[=>...................] recovery = 8.3% (151360/1802240) finish=2.1min s peed=12613K/sec
unused devices:

当77888 blocks [2/1] [U_] 变成UU状态的时候，就修复好了，

修复完7K很可能会重启，并且当前running-config的配置会丢失

，这时候就要把原先备份的running-config倒回来，之前out-of-service的sup需要一会切换到standby状态，如果切不回来卡在powered-up状态，需要手工起来：

(config)# system standby manual-boot
(config)# reload module x force-dnld

大概等5-10分钟左右会到HA状态，然后把manual boot关掉即可

(config)# system no standby manual-boot

这时候故障消除，copy run start vdc-all就可以保存配置了。

客户的7K NX-OS版本为6.2，TAC同时也建议在合适的时间升到目前比较稳定的OS版本。

Walter.wu · ‎01-16-2018

6666666666666666666
感谢分享，学习了。

Yanli Sun · ‎01-16-2018

很棒的分享，感谢楼主, 必须给5星评分

HakinXu · ‎01-17-2018

感谢分享，CSCus22805 这个bug算是6.2(16)之前NX-OS版本中触发次数最多的了 :(

Yanli Sun · ‎01-17-2018

hakxu 发表于 2018-1-18 09:46
感谢分享，CSCus22805 这个bug算是6.2(16)之前NX-OS版本中触发次数最多的了

辛苦同学们了。
这篇小M要好好扩散一下，希望可以为大家降低几个case量

cpmld-199 · ‎01-20-2018

学习了。谢谢楼主分享。

13nash · ‎01-21-2018

这样有点给客户带来心跳

epli · ‎01-22-2018

售后很实用的资料，收藏咯，感谢分享

xuxianda7 · ‎03-09-2018

好案例，trouble shooting！ mark 一下，遇到的时候可以参考

aa8521862 · ‎05-21-2018

:)学习了！不服不行！

IceFire_Ken · ‎06-22-2020

感谢分享，学习到了

weijun.duan · ‎01-27-2021

昨天我93180YC-EX遇到一样的问题。配置更新终止。也没修复，直接重新刷配置，重新保存，又好了。

weijun.duan · ‎01-27-2021

hakxu 发表于 2018-1-18 09:46
感谢分享，CSCus22805 这个bug算是6.2(16)之前NX-OS版本中触发次数最多的了

我昨天93180YC-EX是NX-OS版本是7.0（3）。也遇到了。

jiahao xian · ‎01-29-2021

这好经验分享，谢谢！