如何解决 FAS 和 AFF 系统上可修复的内存错误
适用场景
- ONTAP 9
- Data ONTAP 8
- AFF / FAS 平台
- 《DIMM更换指南》
问题解答
检查 Active IQ 以查看 CECC 内存是否会影响您的系统。
根据平台和ONTAP 版本选择相应的指南。
平台 | 系统或NVRAM | ONTAP 版本 | 指南 |
---|---|---|---|
|
系统DIMM |
|
|
|
在具有静态阈值的ONTAP 版本中报告可更正的内存错误 | ||
NVRAM DIMM |
9.1及更高版本 |
||
|
系统或NVRAM | 9.1及更高版本 | ONTAP 中62XX、32XX、25xx和22XX系统上的可更正内存错误 |
|
系统或NVRAM |
Data ONTAP 8 7-模式 |
|
追加信息
注:
- 仅当EMS日志中显示可更正的ECC错误或出现"CriticalCECCCountMemErrAlert"系统事件和AutoSupport 消息时、才应更换报告可更正ECC错误的DIMM。
- NetApp 存储系统使用主系统内存和 NVRAM/NVMEM 子系统的纠错码( ECC )内存模块( DIMM )。如果可能、内存子系统硬件会在运行时纠正内存错误、对系统性能几乎没有影响。
- 以前、在AFF/FAS存储系统上运行的ONTAP 会采用一种长期策略、根据自上次重新启动系统以来500个错误的阈值向系统管理员发出有关"过多"CECC内存错误的警报。
- 在NetApp及其硬件组件供应商对可更正的ECC (CECC)内存错误进行大量分析之后、 经确定、CECC内存错误通常不能很好地预测因不可更正的ECC (UECC)内存错误而导致的系统中断、尤其是在最新一代的内存控制器和动态随机存取存储器(DRAM)中。
- 此外、用于监控、记录和纠正大量内存错误的 CPU 周期对系统性能的影响微乎其微。
- 因此、NetApp将ONTAP 在当前支持的许多AFF/FAS系统上使用的CECC内存错误监控算法更改为动态监控算法、并将阈值配置为更高、以触发" CriticalCECCCountMemErrAlert "控制器运行状况监控器警报以及相应的"运行状况监控器" AutoSupport 消息。
- 使用旧策略触发的警报可能被视为误报,因此不应将其作为内存更换的指示,因为这会导致不必要的硬件维护而不会带来任何实际好处。
- 在使用动态算法的 ONTAP 版本上, CECC 内存错误仍会定期记录在 ONTAP 事件日志中。但是,它们在确定是否需要更换 DIMM 时不再相关。
- 可纠正的 ECC 错误并不表示将出现不可纠正的 ECC 错误。 如果发生不可更正的内存错误,则会导致系统中断(崩溃)。如果发生系统中断,崩溃消息将调用发生不可更正错误的 DIMM 或 DIMM 。有关详细信息、请参见:
- 当前发售的 ONTAP 平台的最新 BIOS/ 加载程序版本包含内存管理增强功能。这些更新可提高对不可更正的 ECC 错误的故障恢复能力,并减少在启动期间可以映射 DIMM 的情形,例如错误 1195242, 1195243或 1195423。如果您的 BIOS 版本不是适用于 AFF 或 FAS 系统的最新版本, NetApp 建议将 BIOS 更新为最新版本。 在 系统固件和诊断下载 页面上查找适用于您的系统的最新 BIOS/ 加载程序版本。
- 以下平台使用JEDEC标准NVDIMM模块:
- AFF A800、AFF A400、AFF A320
- FAS8700、FAS8300