处理监视程序重置( WDR )
不可不使用
适用于
看门狗复位
解答
什么是看门狗复位?
看门狗是一个独立的计时器,用于监控运行 Data ONTAP 的主控制器的进度。它的功能是在系统遇到不可恢复的系统错误时作为自动服务器重新启动。
NetApp 实施的监视程序使用两级计时器以及与每个时间级别相关的不同操作。
- 级别 1 :超时:存储设备会尝试紧急并转储核心以响应不可屏蔽中断。一旦成功发布 L1 监督程序、系统将返回服务并写入核心文件、从而允许 NetApp 确定挂起的根本原因。如果在 1.5 秒内未重置计时器,则会发出 L1 监视器。
- 级别 2 :重置:存储设备通过计时器发送的硬重置信号进行重置。如果在 L1 看门狗后的两秒钟内没有重置看门狗计时器,则会发出 L2 看门狗。
不必从看门狗超时或看门狗重置中“覆盖”,因为这两个事件都是其他故障的恢复机制。目的是确定导致监视程序事件的故障。
监视程序超时( L1 监视程序事件)的正确响应是什么?
监视程序超时应与任何其他系统紧急情况一样处理。应根据可能的根本原因分析关联的回退跟踪和 / 或核心。如有必要,应执行恢复。
对看门狗复位( L2 看门狗事件)的正确响应是什么?
不要简单地进行恢复和监控、因为需要数据收集 |
请收集以下数据以帮助诊断监视器重置的原因:
- AutoSupport 消息
- 监视程序事件之前、期间和之后的控制台日志(如果可能)
- SRAM 日志( /etc/log/ssram/ssram.log 或 /mroot /etc/log/ssram/ssram.log )—仅适用于 FAS62xx 、 FAS80x0
- 在具有服务处理器的系统上:
- system sensors
- system log
- events all
- sp status -d
注:除非根本原因是基于可用日志和 / 或核心文件分析的硬件问题、否则不应更换硬件。
其他信息
要获得更多帮助[1]、请联系 NetApp 技术支持并参考本文以及收集的数据。