跳转到主内容

如何处理监视程序重置(WDR)

Views:
99
Visibility:
Public
Votes:
0
Category:
fas-systems
Specialty:
HW
Last Updated:

可不使用  

适用场景

  • ONTAP 9
  • 所有FAS/AFA系统
  • 看门狗重置重新启动事件
  • 从节点发出HA组通知(重新启动(崩溃))警报
    • panic :CPU上的监视程序NMI
  • HA组通知(重新启动(看门狗重置))警报

问题描述

什么是看门狗重置?

监视程序是一个独立的计时器、用于监控运行ONTAP的主控制器的进度。

  • 其功能是、在系统遇到不可恢复的系统错误时、自动重新启动服务器。
  • NetApp实施的监视程序使用一个两级计时器、其中每个级别的时间都有不同的关联操作。
  • 1级/ 2级监视程序操作并非NetApp专有、在整个硬件行业均有使用。

 

层类型 问题描述
级别1:超时

此存储设备会尝试崩溃并转储核心、以响应不可阻止的中断。

  • 如果计时器未在1.5秒内重置、则会发出L1监视器。
  • 成功发出L1监视器后、系统将恢复运行并写入核心文件、从而使NetApp可以确定挂起的根发生原因。 
级别2:重置

存储设备会通过计时器发送的硬重置信号进行重置。 

  • 如果在L1监视器之后的两秒内未重置监视器计时器、则会发出L2监视器。
  • L2监视程序不会生成核心转储。
  • ‘re不必“掩盖” 监视程序超时或监视程序重置,因为这两个事件都是其他故障的恢复机制。
    • 而是确定导致看门狗事件的故障。
如何识别看门狗NMI Panic (如何识别看门狗NMI Panic)

event log show -severity * -message-name panic*

  • 已启动执行接管的节点

Fri Nov 18 01:20:54 -0600 [NetApp01: cf_main: cf.fsm.takeover.panic:alert]: Failover monitor: takeover attempted after partner panic.
Fri Nov 18 01:21:37 -0600 [NetApp01: cf_main: callhome.sfo.takeover.panic:EMERGENCY]: Call home for CONTROLLER TAKEOVER COMPLETE PANIC

  • 配对节点、在重新启动后

Fri Nov 18 01:42:35 -0600 [NetApp02: splog_main: mgr.stack.string:notice]: Panic string: watchdog nmi on cpu 3, hang cpu is 0 in SK process wafl_scan_exempt on release 9.9.1P7 (C)

平台 文章

FAS8020/FAS8040/FAS8060/FAS8080/AFF8020/AFF8040/AFF8060/AFF8080

处理FAS8020/FAS8040/FAS8060/FAS8080/AFF8020/AFF8040/AFF8060/AFF8080上的L2监视器重置

FAS2520/FAS2552/FAS2554

处理FAS2520/FAS2552/FAS2554上的L2监视器重置
AFF A700/FAS9000 在AFF A700和FAS9000平台上处理L2监视器重置

 FAS2620/FAS2650/FASA200 AFF

处理FAS2620/FAS2650/FASA200上的L2监视器重置AFF

AFF A220/FASA150/ AFF AFF C190/FAS2750/FAS2720

处理AFF A220/FASA150/ AFF AFF C190/FAS2750/FAS2720上的L2监视器重置

AFF A400/FASC400/FAS8700/FAS9300 AFF

处理AFF A400/FASC400/FAS8700/FAS9300上的L2监视器重置AFF
AFF A700 处理AFF A700s平台上的L2监视器重置
AFF A300/FAS8200 在FAS8200和AFF A300平台上处理L2监视器重置

AFF A800/ AFF C800

处理AFF A800和AFF C800平台上的L2监视器重置
AFF A320 处理AFF A320平台上的L2监视器重置
AFF A900/FAS9500 在AFF A900和FAS9500平台上处理L2监视器重置
AFF A250/FAS500f/ AFF C250 处理AFF A250/FAS500f/ AFF C250上的L2监视程序重置

执行

追加信息

要获得更多帮助、请联系 NetApp技术支持 、并参考本文以及收集的数据。

 

NetApp provides no representations or warranties regarding the accuracy or reliability or serviceability of any information or recommendations provided in this publication or with respect to any results that may be obtained by the use of the information or observance of any recommendations provided herein. The information in this document is distributed AS IS and the use of this information or the implementation of any recommendations or techniques herein is a customer's responsibility and depends on the customer's ability to evaluate and integrate them into the customer's operational environment. This document and the information contained herein may be used solely in connection with the NetApp products discussed in this document.