CFBMC-3996:由于 SP HBT 在 BMC 13.10P1 上停止,节点重新启动
问题描述
- AFF A400、AFF C400、ASA A400、ASA C400、FAS8300 或 FAS8700 节点由于心跳停止/丢失而意外重新启动
- 以下事件是此问题的示例:
[Node-01: spmgrd: sp.heartbeat.stopped:error]: 在过去 600 秒内未收到来自服务处理器 (SP) 的 IPMI 心跳
[Node-01: spmgrd: callhome.sp.hbt.missed:notice]: 为错过 SP HBT 而致电
[Node-01: spmgrd: callhome.sp.hbt.stopped:alert]: 为 SP HBT 停止而致电
[Node-01: env_mgr: sp.ipmi.lost.shutdown:EMERGENCY]: SP 心跳停止,无法恢复为防止硬件损坏和数据丢失,系统将在 10 分钟内关闭
[Node-01: env_mgr: monitor.shutdown.emergency:EMERGENCY]: 紧急关闭:环境原因关闭(系统重新启动以恢复 BMC)
- IPMI_KCS_ERR 消息在 sktrace.log 中的重新启动时间戳处观察到:
2024-03-10T01:30:58Z 2180899785867098 [5:0] IPMI_KCS_ERR: kcs_start_write: cmd 0x31 nf 0x36 state 3 not write
2024-03-10T01:30:58Z 2180899785870130 [5:0] IPMI_KCS_ERR: KCS cmd 0x31 nf 0x36: Failed to start write
2024-03-10T01:30:59Z 2180900784460092 [15:0] IPMI_KCS_ERR: kcs_error: cmd 0x31 nf 0x36 IBF not 0
2024-03-10T01:30:59Z 2180901778714878 [18:0] IPMI_KCS_ERR: kcs_error abort: cmd 0x31 nf 0x36 IBF not 0
2024-03-10T01:31:00Z 2180902760811516 [18:0] IPMI_KCS_ERR: kcs_error cmd 0x31 nf 0x36 not idle
2024-03-10T01:31:00Z 2180903779141166 [2:0] IPMI_KCS_ERR: kcs_error: cmd 0x31 nf 0x36 IBF not 0
- 此节点将重新启动并恢复联机。