取消
显示结果 
搜索替代 
您的意思是: 
cancel
公告

December 2020

December 2020

记一次N7K running-config无法保存到startup-config故障恢复

11241
查看次数
62
有帮助
13
评论
大约是上周5的时候,一个客户打电话询问我说7K的配置保存不了,并且存在报错,当时的log如下:switch_admin# copy running-config startup-config
[########################################] 100%
Configuration update aborted: request was aborted
根据故障现象查了手册,发现是sup主被之间的raid阵列寄存器故障
并找到了相关支持手册:
https://www.cisco.com/c/en/us/support/docs/switches/nexus-7000-series-switches/200540-Nexus-7000-Supervisor-2-2E-Compact-Flash.html
同时7K这边
show system internal raid | no
的log如下:

# show system internal raid | no
Current RAID status info:
RAID data from CMOS = 0xa5 0xc3 <<<<<<<<<<<<<<<<<<<<<<<<<<******
RAID data from driver disks 2 bad 2 name sdd3
Bootflash: /dev/sdd
Mirrorflash: /dev/sdc
Current RAID status:
Personalities : [raid1]
md6 : active raid1 sdd6[0] sdc6[2](F)
77888 blocks [2/1] [U_]
md5 : active raid1 sdd5[0] sdc5[2](F)
78400 blocks [2/1] [U_]
md4 : active raid1 sdd4[0] sdc4[2](F)
39424 blocks [2/1] [U_]
md3 : active raid1 sdd3[0] sdc3[2](F)
1802240 blocks [2/1] [U_]
slot-2
MCB_DC_C7009_ADMIN# Slot 2 show system internal raid
RAID data from CMOS = 0xa5 0xe1 <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
RAID data from driver disks 2 bad 1 name sdc3
Current RAID status info:
Bootflash: /dev/sdc
Mirrorflash: /dev/sdd
Personalities : [raid1]
md6 : active raid1 sdc6[2](F) sdd6[1]
77888 blocks [2/1] [_U]
md5 : active raid1 sdc5[2](F) sdd5[1]
78400 blocks [2/1] [_U]
md4 : active raid1 sdc4[2](F) sdd4[1]
39424 blocks [2/1] [_U]
md3 : active raid1 sdc3[2](F) sdd3[1]
1802240 blocks [2/1] [_U]

接着就开了case,TAC工程师与客户经行了联系和沟通,发了邮件指导解决:
首先,通过TFTP或者usb把现有的running-config文件导出进行备份,
将主被sup切换:
(config)# out-of-service module
(config)# no poweroff module x
这个过程很短,当备用sup切换成主sup后,
TAC工程给了一个修复工具的连接:
下载后解压上传到bootflash中
用命令# load bootflash:n7000-s2-flash-recovery-tool.10.0.2.gbin运行修复工具
工具会运行一段时间
期间可以用# show system internal file /proc/mdstat查看进度
switch# show system internal file /proc/mdstat
Personalities : [raid1]
md6 : active raid1 sdd6[2] sdc6[0]
77888 blocks [2/1] [U_] <-- "U_" represents the broken state
resync=DELAYED

md5 : active raid1 sdd5[2] sdc5[0]
78400 blocks [2/1] [U_]
resync=DELAYED

md4 : active raid1 sdd4[2] sdc4[0]
39424 blocks [2/1] [U_]
resync=DELAYED
md3 : active raid1 sdd3[2] sdc3[0]
1802240 blocks [2/1] [U_]
[=>...................] recovery = 8.3% (151360/1802240) finish=2.1min s peed=12613K/sec
unused devices:

77888 blocks [2/1] [U_] 变成UU状态的时候,就修复好了,
修复完7K很可能会重启,并且当前running-config的配置会丢失
,这时候就要把原先备份的running-config倒回来,之前out-of-service的sup需要一会切换到standby状态,如果切不回来卡在powered-up状态,需要手工起来:
(config)# system standby manual-boot
(config)# reload module x force-dnld
大概等5-10分钟左右会到HA状态,然后把manual boot关掉即可
(config)# system no standby manual-boot

这时候故障消除,copy run start vdc-all就可以保存配置了。

客户的7K NX-OS版本为6.2,TAC同时也建议在合适的时间升到目前比较稳定的OS版本。





评论
Walter.wu
Collaborator
6666666666666666666
感谢分享,学习了。
Yanli Sun
Community Manager
很棒的分享,感谢楼主, 必须给5星评分
HakinXu
Beginner
感谢分享,CSCus22805 这个bug算是6.2(16)之前NX-OS版本中触发次数最多的了 :(
Yanli Sun
Community Manager
hakxu 发表于 2018-1-18 09:46
感谢分享,CSCus22805 这个bug算是6.2(16)之前NX-OS版本中触发次数最多的了

辛苦同学们了。
这篇小M要好好扩散一下,希望可以为大家降低几个case量
cpmld-199
Community Member
学习了。谢谢楼主分享。
13nash
Collaborator
这样有点给客户带来心跳
epli
Beginner
售后很实用的资料,收藏咯,感谢分享
xuxianda7
Engager
好案例,trouble shooting! mark 一下,遇到的时候可以参考
aa8521862
Beginner
:)学习了!不服不行!
IceFire_Ken
Beginner
感谢分享,学习到了
weijun.duan
Beginner
昨天我93180YC-EX遇到一样的问题。配置更新终止。也没修复,直接重新刷配置,重新保存,又好了。
weijun.duan
Beginner
hakxu 发表于 2018-1-18 09:46
感谢分享,CSCus22805 这个bug算是6.2(16)之前NX-OS版本中触发次数最多的了

我昨天93180YC-EX是NX-OS版本是7.0(3)。也遇到了。
jiahao xian
Beginner
这好经验分享,谢谢!