跳转到主内容

如何处理监视程序重置(WDR)

Views:
117
Visibility:
Public
Votes:
0
Category:
fas-systems
Specialty:
hw
Last Updated:

 

适用场景

  • ONTAP 9
  • 所有FAS或AFF系统
  • 看门狗重置重新启动事件
  • 从节点发出HA组通知(重新启动(崩溃))警报
    • panic :CPU上的监视程序NMI
  • HA组通知(重新启动(看门狗重置))警报

描述

什么是看门狗重置?

看门狗重置是大多数计算机系统使用的一种机制,当系统遇到无法恢复的错误或无响应时,它可以自动重新启动系统。

看门狗定时器的概念在计算机硬件和网络行业广泛应用,并非仅限于一家公司。它是一种标准做法,因为它有助于确保系统能够在无人干预的情况下从意外问题中恢复。 

如果发生看门狗重置,务必使用下面列出的程序了解重启的原因,并且除非根据可用的日志分析发现根本原因是硬件问题,否则不应更换任何硬件。

  • 其功能是、在系统遇到不可恢复的系统错误时、自动重新启动服务器。
  • NetApp实施的监视程序使用一个两级计时器、其中每个级别的时间都有不同的关联操作。
  • 1级/ 2级监视程序操作并非NetApp专有、在整个硬件行业均有使用。
层类型 描述
级别1:超时

此存储设备会尝试崩溃并转储核心、以响应不可阻止的中断。

  • 如果计时器未在1.5秒内重置、则会发出L1监视器。
  • 成功发出L1监视器后、系统将恢复运行并写入核心文件、从而使NetApp可以确定挂起的根发生原因。 
级别2:重置

存储设备会通过计时器发送的硬重置信号进行重置。 

  • 如果在L1监视器之后的两秒内未重置监视器计时器、则会发出L2监视器。
  • L2监视程序不会生成核心转储。
  • 不必‘re“掩盖”监视程序超时或监视程序重置,因为这两个事件都是其他故障的恢复机制。
    • 而是确定导致看门狗事件的故障。
如何识别看门狗NMI Panic (如何识别看门狗NMI Panic)

可以在如下所示的 Ontap 事件日志中或 SP/BMC“系统日志”命令输出中找到恐慌消息。

event log show -severity * -message-name panic*

  • 已启动执行接管的节点

Fri Nov 18 01:20:54 -0600 [NetApp01: cf_main: cf.fsm.takeover.panic:alert]: Failover monitor: takeover attempted after partner panic.
Fri Nov 18 01:21:37 -0600 [NetApp01: cf_main: callhome.sfo.takeover.panic:EMERGENCY]: Call home for CONTROLLER TAKEOVER COMPLETE PANIC

  • 配对节点、在重新启动后

Fri Nov 18 01:42:35 -0600 [NetApp02: splog_main: mgr.stack.string:notice]: Panic string: watchdog nmi on cpu 3, hang cpu is 0 in SK process wafl_scan_exempt on release 9.9.1P7 (C)

平台 文章

FAS8020/FAS8040/FAS8060/FAS8080/AFF8020/AFF8040/AFF8060/AFF8080

处理FAS8020/FAS8040/FAS8060/FAS8080/AFF8020/AFF8040/AFF8060/AFF8080上的L2监视器重置

FAS2520/FAS2552/FAS2554

处理FAS2520/FAS2552/FAS2554上的L2监视器重置
AFF A700/FAS9000 在AFF A700和FAS9000平台上处理L2监视程序重置

FAS2620 / FAS2650 /   AFF A200

处理FAS2620 / FAS2650 / AFF A200上的L2监视程序重置

AFF A220 / AFF A150 / AFF C190 / FAS2750 / FAS2720

处理AFF A220 / FAS2720 / AFF C190 / FAS2750 / AFF A150上的L2监视器重置

AFF A400 / AFF C400 / FAS8700 / FAS8300

处理AFF A400 / AFF C400 / FAS8700 / FAS8300上的L2监视器重置
AFF A700 在AFF A700s平台上处理L2监视器重置
AFF A300/FAS8200 在FAS8200和AFF A300平台上处理L2监视器重置

AFF A800/ AFF C800

处理AFF A800和AFF C800平台上的L2监视器重置
AFF A320 在AFF A320平台上处理L2监视器重置
AFF A900/FAS9500 在AFF A900和FAS9500平台上处理L2监视程序重置
AFF A250 / FAS500f / AFF C250 处理AFF A250 / FAS500f / AFF C250上的L2监视程序重置
FAS3250 处理FAS3250上的L2监视器重置
FAS90 / FAS70 / ASA A1K / ASA A90 / ASA A70 / AFF A1K / AFF A90 / AFF A70 / AFF C80 处理AFF A90 ASA AFF A1K AFF / ASA / ASA AFF A70 C80上的L2监控重置

执行

追加信息

要获得更多帮助、请联系NetApp技术支持、并参考本文以及收集的数据。

 

NetApp provides no representations or warranties regarding the accuracy or reliability or serviceability of any information or recommendations provided in this publication or with respect to any results that may be obtained by the use of the information or observance of any recommendations provided herein. The information in this document is distributed AS IS and the use of this information or the implementation of any recommendations or techniques herein is a customer's responsibility and depends on the customer's ability to evaluate and integrate them into the customer's operational environment. This document and the information contained herein may be used solely in connection with the NetApp products discussed in this document.