AFF A700s CECC :针对错误的 DIMM 报告可更正的计算机检查错误
适用场景
- AFF A700s
- ONTAP 9
- ONTAP 9.1P17 及更早版本
- ONTAP 9.3P11 及更早版本
- ONTAP 9.4P6 及更早版本
问题描述
即使在更换之后,也会在同一 DIMM 中报告 CECC 错误:
- 此
system health alert show
命令会在集群上报告类似以下内容的错误:
Node xxxxxx
Monitor controller
Alert ID CriticalCECCCountMemErrAlert
Alerting Resource DIMM-x
Subsystem Memory
Indication Time Tue Oct 09 12:24:36 2018
Perceived Severity Critical
Probable Cause DIMM_Degraded
Description The DIMM has degraded, leading to memory errors.
- EMS日志会显示一条类似以下内容的消息、 报告特定DIMM上的CECC错误:
[?] Tue Oct 09 12:24:36 IST [xxxx: mgwd: callhome.hm.alert.critical:alert]: Call home for Health Monitor process nphm: CriticalCECCCountMemErrAlert[DIMM-x].
- 通常、建议更换此DIMM。
- 但是、即使在更换后、集群也可能会报告同一DIMM中的错误。