CONTAP-449185:恐慌:故障转移监视器:无法传输 - 接管过程在版本 9.9.1P16 (C) 的 SK 进程 cf_main 中挂起(wafl)
问题描述
在SnapMirror更新过程中,源节点多次遇到“内存不足”(OOM) 错误,导致后续SnapMirror故障。最终,故障转移尝试导致配对节点出现问题。
CPU#10 出现紧急情况:紧急情况:故障转移监视器:无法传输 - 接管过程在 SK 进程 cf_main 中挂起(wafl),版本 9.9.1P16 (C) 于 2025 年 4 月 29 日星期二 15:40:36 CST
由于恐慌,该节点开始接管其伙伴节点。
4 月 29 日星期二 15:30:34 +0800 [node01:cf_firmware:cf.fm.partnerFwTransition:info]:params:{'prevstate':'SF_UP','newstate':'SF_SPARECORE','progresscounter':'2'}
4 月 29 日星期二 15:30:34 +0800 [node01: cf_main: cf.fsm.firmwareStatus:info]: 故障转移监视器:合作伙伴转储备用核心
4 月 29 日星期二 15:30:34 +0800 [node01:cf_main:cf.fsm.takeover.panic:alert]:故障转移监视器:合作伙伴崩溃后尝试接管。
4 月 29 日星期二 15:30:34 +0800 [node01: cf_main: cf.fsm.stateTransit:info]: 故障转移监视器:启动 --> 接管
4 月 29 日星期二 15:30:34 +0800 [node01:cf_takeover:ha.takeover.stateChng:debug]:params:{'old_state':'NOT_IN_TAKEOVER','new_state':'IN_CFO_TAKEOVER'}
4 月 29 日星期二 15:30:34 +0800 [node01: cf_takeover: cf.fm.takeoverStarted:notice]: 故障转移监视器:接管已开始
...
4 月 29 日星期二 15:30:34 +0800 [node01:cf_takeover:cf.fm.takeoverCommitted:debug]:故障转移监视器:接管已提交
4 月 29 日星期二 15:30:34 +0800 [node01:ThreadHandlerun:clam.update.partner.state:info]: 节点 (ID=1000) 上的 CLAM 将合作伙伴 (ID=1001) 的故障转移状态更新为。
...
4 月 29 日星期二 15:31:00 +0800 [node01:monitor:monitor.globalStatus.ok:notice]:此节点正尝试接管 node02。
然而,传输事件在 10 分钟后超时,导致该节点陷入恐慌。