CFBMC-3251:许多 IO 卡被报告为已降级,并通过 BMC 重新启动恢复
问题描述
许多 IO 卡被报告为已降级,并通过 BMC 重新启动进行恢复
- 多个传感器同时出现退化,导致传感器处于"不可读"状态
[?]Wed Jul 10 19:06:17 +0900 [node-1: env_mgr: monitor.ioCard.degraded:alert]: IO 卡降级:IO1 SAS 流入温度不可读
[?]Wed Jul 10 19:06:20 +0900 [node-1: env_mgr: monitor.ioCard.degraded:alert]: IO 卡降级:IO1 SAS 流出温度不可读
・
・
[?]Wed Jul 10 19:06:33 +0900 [node-1: env_mgr: monitor.ioCard.degraded:alert]: IO 卡降级:IO11 SAS P12V HS 不可读
[?]Wed Jul 10 19:06:33 +0900 [node-1: env_mgr: monitor.ioCard.degraded:alert]: IO 卡降级:IO11 SAS 热插拔 Cur 不可读
- SP 重新启动后立即触发,并显示消息"机箱温度过高",状态为"monitor.globalStatus.critical: EMERGENCY"。
[?]Wed Jul 10 19:06:33 +0900 [node-1: env_mgr: sp.reboot.sensor.unreadable:notice]: 正在重启 BMC,因为一个或多个传感器无法读取。
[?]Wed Jul 10 19:07:00 +0900 [node-1: monitor: monitor.globalStatus.critical:EMERGENCY]: 机箱温度过高。
[?]Wed Jul 10 19:07:48 +0900 [node-1: cf_worker: cf.hwassist.notifyCfgSuccess:debug]: 参数: {'hwtype': 'BMC'}
- 但是,"hm.alert.critical: alert" 的 ASUP 被触发。
[?]Wed Jul 10 19:18:45 +0900 [node-1: mgwd: callhome.hm.alert.critical:alert]: 针对 Health Monitor 进程 cphm 的 Call home:CriticalFruMultiFaultAlert[033243222222]。