如何解决 FAS 和 AFF 系统上可修复的内存错误
适用场景
- ONTAP 版本
- 9.5 及更高版本的标准功能
- 9.4p6 和更高版本 9.4 发行版
- 9.3P11 和更高版本 9.3 发行版
- 9.1P18 和更高版本 9.1 发行版
- 除 FAS25xx 、 FAS22xx 、 FAS/V32xx 和 FAS/V62xx 之外的任何 FAS 和 AFF 平台
问题解答
对于 FAS25xx 、 FAS22xx 、 FAS/V32xx 和 FAS/V62xx 以外的所有 ONTAP FAS 和 AFF 平台,本文将取代知识库文章 How to troubleshoot Correctable Memory Errors 。 如何解决可修复的内存错误
- 为什么 NetApp 在 ONTAP 中更改可纠正的内存错误监控?
- NetApp 存储系统使用主系统内存和 NVRAM/NVMEM 子系统的纠错码( ECC )内存模块( DIMM )。如果可能、内存子系统硬件会在运行时纠正内存错误、对系统性能几乎没有影响。
- 直到最近、在 AFF/FAS 存储系统上运行的 ONTAP 一直采用一个长期策略来提醒系统管理员自上次重新启动系统以来,根据 500 个错误的阈值发生“过度”的 CECC 内存错误。
- 在 NetApp 及其硬件组件供应商最近对可纠正 ECC ( CECC )内存错误进行了全面分析之后、 确定 CECC 内存错误通常不是由于不可纠正的 ECC ( UECC )内存错误导致系统中断的良好预测因素—尤其是对于最新一代的内存控制器和动态随机存取存储器( DRAM )。
- 此外、用于监控、记录和纠正大量内存错误的 CPU 周期对系统性能的影响微乎其微。
- 因此, NetApp 已将 ONTAP 在当前支持的许多 AFF/FAS 系统上使用的 CECC 内存错误监控算法更改为动态监控算法,并配置了更高的阈值来触发 " CriticalCECCCountMemErrAlert " 控制器运行状况监控器警报和相应的 " 运行状况监控器 " AutoSupport 消息。
- 使用旧策略触发的警报可能被视为误报,因此不应将其作为内存更换的指示,因为这会导致不必要的硬件维护而不会带来任何实际好处。
- NVRAM DIMM 具有可纠正的 ECC 更换准则、但不适用于 ONTAP 版本。 有关详细信息,请参阅更换指南表。
- 采用动态监控算法后、如何确定由于可更正或不可更正的内存错误过多而需要更换DIMM或NVDIMM?
有关内存更换准则,请参见下表。
ECC 类型 | 类别 | 更换标准 | |
可修复( CECC ) (动态算法) |
DIMM、NVDIMM ONTAP 版本:
|
示例: cluster-01 发出 HA 组通知(运行状况监控进程 nphm : CriticalCECCCountMemErrAlert.DIMM-14] )警报。
|
|
可修复( CECC ) |
DIMM ONTAP 之前的版本 :
|
|
|
可修复( CECC ) |
NVRAM DIMM 、所有 ONTAP 版本
|
原始 <asup:ROW col_time_us="3423606694499"> |
|
Uncorrectable ( UECC ) Panic 或 Uncorrectable Machine Check Error ( UMCE ) Panic |
所有平台、 ONTAP 版本 |
从 SP 或 BMC 检查系统控制台日志。检查控制台日志以查看崩溃消息详细信息以及后软件包修复( PPR )操作结果。 如果 PPR 信息 不可用,请更换与崩溃相关的 DIMM 。 如果 PPR 信息结果可用:
|
检查 Active IQ 以查看 CECC 内存是否会影响您的系统。
注意:
- 在使用动态算法的 ONTAP 版本上, CECC 内存错误仍会定期记录在 ONTAP 事件日志中。但是,它们在确定是否需要更换 DIMM 时不再相关。
- 可纠正的 ECC 错误并不表示将出现不可纠正的 ECC 错误。 如果发生不可更正的内存错误,则会导致系统中断(崩溃)。如果发生系统中断,崩溃消息将调用发生不可更正错误的 DIMM 或 DIMM 。可能需要更换这些 DIMM (请参见上表)。
- 当前发售的 ONTAP 平台的最新 BIOS/ 加载程序版本包含内存管理增强功能。这些更新可提高对不可更正的 ECC 错误的故障恢复能力,并减少在启动期间可以映射 DIMM 的情形,例如错误 1195242, 1195243或 1195423。如果您的 BIOS 版本不是适用于 AFF 或 FAS 系统的最新版本, NetApp 建议将 BIOS 更新为最新版本。 在 系统固件和诊断下载 页面上查找适用于您的系统的最新 BIOS/ 加载程序版本。
- 以下平台使用JEDEC标准NVDIMM模块:
- AFF A800、AFF A400、AFF A320
- FAS8700、FAS8300