跳转到主内容

如何处理看门狗重置 (WDR)

Views:
119
Visibility:
Public
Votes:
0
Category:
fas-systems
Specialty:
HW
Last Updated:

 

适用于

  • ONTAP 9
  • 所有 FAS/AFF 系统
  • watchdog 计时器重置重启事件
  • 来自节点的 HA 组通知(重启(恐慌))警报
    • 恐慌:watchdog nmi on cpu
  • HA 组通知(重启(watchdog 计时器重置))警报

描述

什么是 watchdog 计时器重置?

watchdog 重置是大多数计算机系统使用的一种机制,当系统遇到无法恢复的错误或无响应时,它可以自动重新启动系统。

watchdog 计时器的概念在计算机硬件和网络行业广泛应用,并非仅限于一家公司。它是一种标准做法,因为它有助于确保系统能够在无人干预的情况下从意外问题中恢复。 

如果发生 watchdog 计时器重置,务必使用下面列出的程序了解重启的原因,并且 除非根据可用的日志分析发现根本原因是硬件问题,否则不应更换任何硬件。

  • 其功能是在系统遇到不可恢复的系统错误时充当自动服务器重启。
  • NetApp 实现的 watchdog 计时器使用两级计时器,每级时间对应不同的操作。
  • Level 1/Level 2 Watchdog 操作并非 NetApp 专有,而是在整个硬件行业中广泛使用。
级别类型 描述
级别 1:超时

存储设备尝试响应不可屏蔽的中断而发生崩溃并转储核心。

  • 如果计时器未在 1.5 秒内重置,则会发出 L1 watchdog 指令。
  • 成功发出 L1 watchdog 指令后,系统将恢复服务并写入核心文件,以便 NetApp 确定系统挂起的根本原因。 
第 2 级:重置

存储设备通过计时器发送的硬复位信号进行复位。 

  • 如果在 L1 watchdog 触发后两秒内未重置 watchdog 计时器,则会触发 L2 watchdog
  • L2 watchdog 不会生成 Core 转储
  • 无需'recover'从 watchdog 超时或 watchdog 重置中恢复,因为这两个事件都是其他故障的恢复机制
    • 其目的是识别导致 watchdog 计时器事件的故障。
如何识别 watchdog NMI 崩溃

可以在如下所示的 Ontap 事件日志中或 SP/BMC "系统日志"命令输出中找到崩溃消息。

event log show -severity * -message-name panic*

  • 执行接管的上行节点

Fri Nov 18 01:20:54 -0600 [NetApp01: cf_main: cf.fsm.takeover.panic:alert]: Failover monitor: takeover attempted after partner panic.
Fri Nov 18 01:21:37 -0600 [NetApp01: cf_main: callhome.sfo.takeover.panic:EMERGENCY]: Call home for CONTROLLER TAKEOVER COMPLETE PANIC

  • 重启后伙伴节点

Fri Nov 18 01:42:35 -0600 [NetApp02: splog_main: mgr.stack.string:notice]: Panic string: watchdog nmi on cpu 3, hang cpu is 0 in SK process wafl_scan_exempt on release 9.9.1P7 (C)

平台 文章

FAS8020 / FAS8040 / FAS8060 / FAS8080 / AFF8020 / AFF8040 / AFF8060 / AFF8080

处理 FAS8020 / FAS8040 / FAS8060 / FAS8080 / AFF8020 / AFF8040 / AFF8060 / AFF8080 上的 L2 watchdog 重置

FAS2520 / FAS2552 / FAS2554

处理 FAS2520/FAS2552/FAS2554 上的 L2 watchdog 重置
AFF A700 / FAS9000 处理 AFF A700 和 FAS9000 平台上的 L2 watchdog 重置

FAS2620 / FAS2650 / AFF A200

处理 FAS2620/FAS2650/AFF A200 上的 L2 watchdog 重置

AFF A220 / AFF A150 / AFF C190 / FAS2750 / FAS2720 / FAS2820

处理 AFF A220/AFF A150/AFF C190/FAS2750/FAS2720 上的 L2 watchdog 重置

AFF A400 / AFF C400 / FAS8700 / FAS8300

处理 AFF A400/AFF C400/FAS8700/FAS8300 上的 L2 watchdog 重置
AFF A700 处理 AFF A700s 平台上的 L2 watchdog 重置
AFF A300 / FAS8200 在 FAS8200 和 AFF A300 平台上处理二级看门狗复位

AFF A800 / AFF C800

处理 AFF A800 和 AFF C800 平台上的 L2 watchdog 重置
AFF A320 在 AFF A320 平台上处理 L2 watchdog 重置
AFF A900 / FAS9500 在 AFF A900 和 FAS9500 平台上处理 L2 watchdog 计时器重置
AFF A250 / FAS500f / AFF C250 在 AFF A250 / FAS500f / AFF C250 上处理 L2 看门狗复位
FAS3250 处理 FAS3250 上的 L2 watchdog 计时器重置
FAS90 / FAS70 / ASA A1K / ASA A90 / ASA A70 / AFF A1K / AFF A90 / AFF A70 / AFF C80 处理 FAS90 / FAS70 / ASA A1K / ASA A90 / ASA A70 / AFF A1K / AFF A90 / AFF A70 / AFF C80 上的 L2 watchdog 计时器重置

追加信息

要获得更多帮助,请联系 NetApp 技术支持并参考本文以及收集的数据。

 

NetApp provides no representations or warranties regarding the accuracy or reliability or serviceability of any information or recommendations provided in this publication or with respect to any results that may be obtained by the use of the information or observance of any recommendations provided herein. The information in this document is distributed AS IS and the use of this information or the implementation of any recommendations or techniques herein is a customer's responsibility and depends on the customer's ability to evaluate and integrate them into the customer's operational environment. This document and the information contained herein may be used solely in connection with the NetApp products discussed in this document.