跳转到主内容

如何解决 FAS 和 AFF 系统上可修复的内存错误

Views:
198
Visibility:
Public
Votes:
0
Category:
ontap-9
Specialty:
hw
Last Updated:

适用场景

  • ONTAP 版本
    • 9.5 及更高版本的标准功能
    • 9.4p6 和更高版本 9.4 发行版
    • 9.3P11 和更高版本 9.3 发行版
    • 9.1P18 和更高版本 9.1 发行版
  • 除 FAS25xx 、 FAS22xx 、 FAS/V32xx 和 FAS/V62xx 之外的任何 FAS 和 AFF 平台

问题解答

对于 FAS25xx 、 FAS22xx 、 FAS/V32xx 和 FAS/V62xx 以外的所有 ONTAP FAS 和 AFF 平台,本文将取代知识库文章 How to troubleshoot Correctable Memory Errors 。 如何解决可修复的内存错误

  1. 为什么 NetApp 在 ONTAP 中更改可纠正的内存错误监控?
  • NetApp 存储系统使用主系统内存和 NVRAM/NVMEM 子系统的纠错码( ECC )内存模块( DIMM )。如果可能、内存子系统硬件会在运行时纠正内存错误、对系统性能几乎没有影响。
    • 直到最近、在 AFF/FAS 存储系统上运行的 ONTAP 一直采用一个长期策略来提醒系统管理员自上次重新启动系统以来,根据 500 个错误的阈值发生“过度”的 CECC 内存错误。
    • 在 NetApp 及其硬件组件供应商最近对可纠正 ECC ( CECC )内存错误进行了全面分析之后、 确定 CECC 内存错误通常不是由于不可纠正的 ECC ( UECC )内存错误导致系统中断的良好预测因素—尤其是对于最新一代的内存控制器和动态随机存取存储器( DRAM )。
    • 此外、用于监控、记录和纠正大量内存错误的 CPU 周期对系统性能的影响微乎其微。
  • 因此, NetApp 已将 ONTAP 在当前支持的许多 AFF/FAS 系统上使用的 CECC 内存错误监控算法更改为动态监控算法,并配置了更高的阈值来触发 " CriticalCECCCountMemErrAlert " 控制器运行状况监控器警报和相应的 " 运行状况监控器 " AutoSupport 消息。
    • 使用旧策略触发的警报可能被视为误报,因此不应将其作为内存更换的指示,因为这会导致不必要的硬件维护而不会带来任何实际好处。
  • NVRAM DIMM 具有可纠正的 ECC 更换准则、但不适用于 ONTAP 版本。  有关详细信息,请参阅更换指南表。 
  1. 采用动态监控算法后,如何确定由于可更正或不可更正的内存错误过多而需要更换 DIMM ?

有关内存更换准则,请参见下表。

ECC 类型 类别 更换标准

可修复( CECC )

(动态算法)

ONTAP 版本:

  • 9.1P18 和更高版本 9.1 发行版
  • 9.3P11 和更高版本 9.3 发行版
  • 9.4p6 和更高版本 9.4 发行版
  • 9.5 和更高版本的主要版本
  • 请勿根据高 cECC 内存错误计数更换内存 DIMM 。
  • 只有在 ONTAP 明确触发以下情况下,才适合更换 DIMM :
    • EMS 中的 "CriticalCECCCountMemErrAler" 警报
    • AutoSupport 的 " 运行状况监控器 " 消息 
    • 并生成相应的 AutoSupport 消息

示例:

cluster-01 发出 HA 组通知(运行状况监控进程 nphm : CriticalCECCCountMemErrAlert.DIMM-14] )警报。

  • 仅当看到此警报时才应更换内存。
可修复( CECC )

ONTAP 之前的版本

  • 9.1P18
  • 9.3p11.
  • 9.4p6.
  • 9.5
  • 仅当 EMS 日志中显示可更正的 ECC 错误或显示 "CriticalCECCCountMemErrAler" 系统事件和 AutoSupport 消息时,才应更换报告可更正 ECC 错误的 DIMM 。
    • DIMM 未处于故障状态
    • 可以生成使用旧算法策略的早期 ONTAP 版本 误报
  • 要主动监控 DIMM ,建议升级到 建议的 ONTAP 版本
可修复( CECC )

NVRAM DIMM 、所有 ONTAP 版本

  • NVRAM11 ( AFF A900 )
  • NVRAM 10 ( FAS9000 、 AFF A700 )
  • NVRAM10P ( AFF A700s )
  • NVRAM 9 ( AFF/FAS80X0 )
  • NVRAM DIMM 为 FRU ( NVRAM10P 除外)。如果 CECC 计数大于每周 2 个或大于每月 5 个,请更换 NVRAM DIMM (或 NVRAMUP 卡)。
  • 使用 system node environment sensors show 命令查看 NV CECC Error 计数器。
    • NV CECC 错误计数器名称因 NVRAM 类型而异:
      • NVRAM11 : NV DIMM1 CECC 计数, NV DIMM2 CECC 计数
      • NVRAM10 : NV DIMM0 CECC 计数, NV DIMM1 CECC 计数(更多信息
      • NVRAM10P : NVRAM CECC 计数
      • NVRAM9 : NV 可更正 ECC 计数
  • 您还可以读取 platform-sensors.XML AutoSupport文件中的 NV CECC 错误计数器( last-sensor-value )。

原始 PLATFORM-SENSORS.XML 示例:

<asup:ROW col_time_us="3423606694499">  
  <name>NV Correctable ECC count</name> 
  <sensor-type>counter</sensor-type>   
  <sensor-state>normal</sensor-state>  
  <last-sensor-value>24</last-sensor-value>  
  <value-units></value-units>   
  <discrete-sensor-state /> 
  <discrete-sensor-value /> 
  <critical-low-threshold /> 
  <warning-low-threshold /> 
  <warning-high-threshold /> 
 <critical-high-threshold />
</asup:ROW>
Uncorrectable ( UECC ) Panic 或 Uncorrectable Machine

Check Error ( UMCE ) Panic
所有平台、 ONTAP 版本
如果有 PPR 结果,则在考虑更换部件之前必须先对其进行检查。

从 SP 或 BMC 检查系统控制台日志。检查控制台日志以查看崩溃消息详细信息以及后软件包修复( PPR )操作结果。

如果 PPR 信息 不可用,请更换与崩溃相关的 DIMM 。

如果 PPR 信息结果可用:

  • 无需更换
    如果 PPR 可以检测到有问题的内存段,它将修复它。
    • 如果系统可以恢复,它将提供有关事件的消息。 PPR:Sequence PASS.
    • 无需执行其他操作
  • 需要更换
    如果内存出现故障或无法修复,系统将无法启动 ONTAP ,需要更换 DIMM 。
    • 如果 同一 DIMM 发生第二次 UECC 错误和崩溃,请联系 NetApp 订购 DIMM 更换

请参见 : BIOS 更新以了解内存可靠性和 PPR 功能

 检查 Active IQ 以查看 CECC 内存是否会影响您的系统

注意

  • 在使用动态算法的 ONTAP 版本上, CECC 内存错误仍会定期记录在 ONTAP 事件日志中。但是,它们在确定是否需要更换 DIMM 时不再相关。
  • 可纠正的 ECC 错误并不表示将出现不可纠正的 ECC 错误。   如果发生不可更正的内存错误,则会导致系统中断(崩溃)。如果发生系统中断,崩溃消息将调用发生不可更正错误的 DIMM 或 DIMM 。可能需要更换这些 DIMM (请参见上表)。
  • 当前发售的 ONTAP 平台的最新 BIOS/ 加载程序版本包含内存管理增强功能。这些更新可提高对不可更正的 ECC 错误的故障恢复能力,并减少在启动期间可以映射 DIMM 的情形,例如错误 119524211952431195423。如果您的 BIOS 版本不是适用于 AFF 或 FAS 系统的最新版本, NetApp 建议将 BIOS 更新为最新版本。  在 系统固件和诊断下载 页面上查找适用于您的系统的最新 BIOS/ 加载程序版本。
Scan to view the article on your device