磁盘架模块突然重新启动,导致两个节点崩溃
适用场景
- NS224 磁盘架
- NVMe 磁盘架模块( NSM )固件版本低于 0151
问题描述
- ONTAP 升级到 9.8P6/P7 后不久,由于多磁盘崩溃,两个节点都会重新启动
- 定期
NoPathToNSMA_Alert
报告多个 -
NSM100 固件升级 0141 -> 0151 导致崩溃
-
12 月 26 日,所有 NSM 固件的版本均为 0141
Shelf 0: NS224NSM100 Firmware rev. NSM100 A: 0141 NSM100 B: 0141
Shelf 1: NS224NSM100 Firmware rev. NSM100 A: 0141 NSM100 B: 0141 -
NSM-A 固件升级已启动 0141 -> 0151
Mon Dec 27 06:03:19 +0100 [node_name: dsa_worker0: sfu.downloadingController:info]: [storage download shelf]: Downloading NSM100.0151.SFW on disk shelf controller module A on 0x.shelf
-
发生节点崩溃
Mon Dec 27 06:05:25 +0100 [node_name: config_thread: sk.panic:alert]: Panic String: aggr aggr_root: raid volfsm, fatal multi-disk error.. Raid type - raid_dp Group name plex0/rg0 state NORMAL. 10 disks failed in the group.
-
HA 节点已重新启动
Mon Dec 27 06:11:48 +0100 [node_name2: send_boot_msg_thread: mgr.boot.reason_ok:notice]: System rebooted after power-on.
-
12 月 28 日修订版 0151 上的所有 NSM 固件
Shelf 0: NS224NSM100 Firmware rev. NSM100 A: 0151 NSM100 B: 0151
Shelf 1: NS224NSM100 Firmware rev. NSM100 A: 0151 NSM100 B: 0151