由于源集群上的测试 SMBC 关系不同步,ANDU Ontap 升级在节点上暂停
适用场景
- ONTAP 9.11.x
- SMBC
- 一致性组
- FC
- ISCSI
- ANDU 进程
- ESXi 主机
问题描述
- Ontap 升级失败,出现以下错误。
cluster::> ::> storage failover show
Takeover
Node Partner Possible State Description
-------------- -------------- -------- -------------------------------------
cluster-01 cluster-02 true Connected to cluster-02, Partial giveback
cluster-02 cluster-01 true Connected to cluster-01. Waiting for cluster applications to come online on the local node. Offline applications:scsi blade.
- 节点 2 上的升级已完成,从 9.11P5 升级到 9.11P8,但节点 2 尚未完全交还给节点 1。只有控制器和根聚合交还给了节点 2,但数据聚合仍在节点 1 上,因为节点 2 上的集群应用程序由于 SCSI 刀片处于离线状态而未联机。
- 由于节点 2 上的虚拟服务器卡在初始化状态,节点 2 上的所有 FCP LIF 均处于关闭
- 状态。由于节点 1 持有节点 2 的数据聚合,因此节点 1 上的 ANDU 处于暂停状态。
- 中止虚拟服务器初始化有助于完全交还节点 2。但是,虚拟服务器在节点 2 上恢复到初始化状态,节点 2 上的 FC LIF 仍然处于关闭状态。
- 节点 2 完全交还完成后,它接管了节点 1 以完成升级,之后节点 1 上的升级从 9.11.1P5 完成到 9.11.1P8。
- 但两个节点上的虚拟服务器都进入了初始化状态,并且两个节点上的 FCP LIF 都处于运行故障状态。
- 我们可以看到
SAN SMBC cache to be initialized
错误bcomd logs
这表明scsit_san_asa_table
没有按预期填充。
From node 1, repeated errors:
00000018.0180bd01 070c61f6 Sat Jun 03 2023 09:34:24 +02:00 [kern_bcomd:info:6792] 0x8114ed600: 8503e8000174b44d: INFO: SAN::KACOMM::KADISPATCH: src/ka_communication/kaDispatch.cc:dispatch:953 did: 40c4a - command dispatch to node cluster-02 result: (408/9) BCOMKA internal error: operation on non-empty resource
From node 2, repeated errors:
Sat Jun 03 2023 09:33:28 +02:00 [kern_bcomd:info:6705] 0x80a035f00: 8303e90000000007: ERR: SAN::VSERVER::WORKSPACE: src/bcomd/vsWorkspace.cc:scsitCacheVolumes:1219 SCSIT asa cache verification failed: entry doesn't exist
Sat Jun 03 2023 09:33:28 +02:00 [kern_bcomd:info:6705] 0x80a035f00: 8303e90000000007: ERR: SAN::VSERVER::WORKSPACE: src/bcomd/vsWorkspace.cc:get_zrto_relationships:1272 returning: 408/92 - Internal error. Waiting for the SAN SMBC cache to be initialized.
- 在此源集群上创建的测试 SMBC 关系位于
out of sync
状态。 - 半配置的测试 SMBC 配置导致所有 ESXI 主机宕机,从而导致完全中断。