ONTAP 升级后显示重复的聚合

最后更新
另存为PDF

Views:: 46

Visibility:: Public

Votes:: 0

Category:: fas-systems

Specialty:: hw

Last Updated:

适用于

FAS2750
自动无中断升级 (ANDU)
后台磁盘固件更新 (BDFU)

问题描述

在 ONTAP 升级期间，磁盘 (0b.00.11) 脱机并被标记为缺失。
- 磁盘固件更新导致磁盘脱机。
- 聚合 aggr01 已降级并缺少磁盘。

node04 EMS 日志：

[?] Thu Dec 12 21:17:46 +0900 [node04: cf_giveback: ha.giveback.sysCommit:info]: Subsystem qos_ll_sfo_giveback took 151 msecs to commit giveback of aggregate 'aggr01'. [?] Thu Dec 12 21:17:46 +0900 [node04: config_thread: raid.disk.assign.offline_ref:debug]: aggregate /aggr01/plex0/rg0/0b.00.5 assigned as an offline reference storage for /aggr01/plex0/rg0/0b.00.11. [?] Thu Dec 12 21:17:46 +0900 [node04: config_thread: raid.disk.assign.offline_ref:debug]: aggregate /aggr01/plex0/rg0/0a.01.3 assigned as an offline reference storage for /aggr01/plex0/rg0/0b.00.11. [?] Thu Dec 12 21:17:46 +0900 [node04: config_thread: raid.rg.degraded:notice]: : Raid group /aggr01/plex0/rg0 is degraded [?] Thu Dec 12 21:17:46 +0900 [node04: config_thread: raid.disk.offline:notice]: Marking Disk /aggr01/plex0/rg0/0b.00.11 Shelf 0 Bay 11 [NETAPP X343_SSKBE1T8A10 NA02] S/N [WXXXXXXN] UID [5000C500:DE81263B:00000000:00000000:00000000:00000000:00000000:00000000:00000000:00000000] offline. [?] Thu Dec 12 21:17:46 +0900 [node04: bg_disk_fw_update_admin: bdfu.selected:info]: Disk 0b.00.11 [NETAPP X343_SSKBE1T8A10 NA02] S/N [WXXXXXXN] selected for background disk firmware update. [?] Thu Dec 12 21:17:46 +0900 [node04: config_thread: raid.disk.online:notice]: Onlining Disk /aggr01/plex0/rg0/0b.00.11 Shelf 0 Bay 11 [NETAPP X343_SSKBE1T8A10 NA02] S/N [WXXXXXXN] UID [5000C500:DE81263B:00000000:00000000:00000000:00000000:00000000:00000000:00000000:00000000]

Givback 后，将使用备用磁盘进行重建0b.00.23

node03 EMS 日志：

[?] Thu Dec 12 21:17:47 +0900 [node03: config_thread: raid.rg.recons.missing:notice]: RAID group /aggr01/plex0/rg0 is missing 1 disk(s). [?] Thu Dec 12 21:17:47 +0900 [node03: config_thread: raid.rg.recons.info:notice]: Spare disk 0b.00.23 will be used to reconstruct one missing disk in RAID group /aggr01/plex0/rg0. [?] Thu Dec 12 21:17:47 +0900 [node03: config_thread: raid.rg.recons.start:notice]: Disk /aggr01/plex0/rg0/0b.00.23 Shelf 0 Bay 23 [NETAPP X343_SSKBE1T8A10 NA02] S/N [WXXXXXXG] UID [5000C500:DE8204D7:00000000:00000000:00000000:00000000:00000000:00000000:00000000:00000000]: starting reconstruction, using disk 0b.00.23, disk block 5248. [?] Thu Dec 12 21:17:47 +0900 [node03: config_thread: raid.vol.undestroy.info.missing:info]: params: {'disk_info': 'Disk /aggr01/plex0/rg0/0b.00.23 Shelf 0 Bay 23 [NETAPP X343_SSKBE1T8A10 NA02] S/N [WXXXXXXG] UID [5000C500:DE8204D7:00000000:00000000:00000000:00000000:00000000:00000000:00000000:00000000]', 'shelf': '0', 'bay': '23', 'vendor': 'NETAPP ', 'model': 'X343_SSKBE1T8A10', 'firmware_revision': 'NA02', 'serialno': 'WXXXXXXG', 'disk_type': '4', 'disk_rpm': '10000', 'carrier': '', 'site': 'Local'}

更换另一个故障磁盘后，node04故障转移状态已更改为部分交还。

::> storage failover show Takeover Node Partner Possible State Description -------------- -------------- -------- ------------------------------------- node03 node04 true Connected to node04 node04 node03 true Connected to node03, Partial giveback 2 entries were displayed.

在两个 HA 节点上显示 aggr01，并且在 node04 上仅显示缺少的磁盘，而其他磁盘标记为 FAILED

node04 sysconfig -r：

Aggregate aggr01 (failed, raid_dp, partial, fast zeroed) (block checksums) Plex /aggr01/plex0 (offline, failed, inactive) RAID group /aggr01/plex0/rg0 (partial, block checksums)

RAID Disk Device HA SHELF BAY CHAN Pool Type RPM Used (MB/blks) Phys (MB/blks) --------- ------ ------------- ---- ---- ---- ----- -------------- -------------- dparity FAILED N/A 1713523/ - parity FAILED N/A 1713523/ - data FAILED N/A 1713523/ - data FAILED N/A 1713523/ - data FAILED N/A 1713523/ - data FAILED N/A 1713523/ - data FAILED N/A 1713523/ - data 0b.00.11 0b 0 11 SA:B 0 SAS 10000 1713523/3509295616 1716957/3516328368 (fast zeroed) data FAILED N/A 1713523/ - data FAILED N/A 1713523/ - data FAILED N/A 1713523/ - data FAILED N/A 1713523/ - data FAILED N/A 1713523/ - data FAILED N/A 1713523/ - data FAILED N/A 1713523/ - data FAILED N/A 1713523/ - data FAILED N/A 1713523/ - data FAILED N/A 1713523/ - data FAILED N/A 1713523/ - Raid group is missing 18 disks.