如何处理监视程序重置(WDR)
不可不使用
适用场景
- ONTAP 9
- 所有FAS/AFA系统
- 看门狗重置重新启动事件
- 从节点发出HA组通知(重新启动(崩溃))警报
- panic :CPU上的监视程序NMI
- HA组通知(重新启动(看门狗重置))警报
问题描述
什么是看门狗重置?
监视程序是一个独立的计时器、用于监控运行ONTAP的主控制器的进度。
- 其功能是、在系统遇到不可恢复的系统错误时、自动重新启动服务器。
- NetApp实施的监视程序使用一个两级计时器、其中每个级别的时间都有不同的关联操作。
- 1级/ 2级监视程序操作并非NetApp专有、在整个硬件行业均有使用。
层类型 | 问题描述 |
级别1:超时 |
此存储设备会尝试崩溃并转储核心、以响应不可阻止的中断。
|
级别2:重置 |
存储设备会通过计时器发送的硬重置信号进行重置。
|
如何识别看门狗NMI Panic (如何识别看门狗NMI Panic)
event log show -severity * -message-name panic*
- 已启动执行接管的节点
Fri Nov 18 01:20:54 -0600 [NetApp01: cf_main: cf.fsm.takeover.panic:alert]: Failover monitor: takeover attempted after partner panic.
Fri Nov 18 01:21:37 -0600 [NetApp01: cf_main: callhome.sfo.takeover.panic:EMERGENCY]: Call home for CONTROLLER TAKEOVER COMPLETE PANIC
- 配对节点、在重新启动后
Fri Nov 18 01:42:35 -0600 [NetApp02: splog_main: mgr.stack.string:notice]: Panic string: watchdog nmi on cpu 3, hang cpu is 0 in SK process wafl_scan_exempt on release 9.9.1P7 (C)
平台 | 文章 |
---|---|
FAS8020/FAS8040/FAS8060/FAS8080/AFF8020/AFF8040/AFF8060/AFF8080 |
处理FAS8020/FAS8040/FAS8060/FAS8080/AFF8020/AFF8040/AFF8060/AFF8080上的L2监视器重置 |
FAS2520/FAS2552/FAS2554 |
处理FAS2520/FAS2552/FAS2554上的L2监视器重置 |
AFF A700/FAS9000 | 在AFF A700和FAS9000平台上处理L2监视器重置 |
FAS2620/FAS2650/FASA200 AFF |
处理FAS2620/FAS2650/FASA200上的L2监视器重置AFF |
AFF A220/FASA150/ AFF AFF C190/FAS2750/FAS2720 |
处理AFF A220/FASA150/ AFF AFF C190/FAS2750/FAS2720上的L2监视器重置 |
AFF A400/FASC400/FAS8700/FAS9300 AFF |
处理AFF A400/FASC400/FAS8700/FAS9300上的L2监视器重置AFF |
AFF A700 | 处理AFF A700s平台上的L2监视器重置 |
AFF A300/FAS8200 | 在FAS8200和AFF A300平台上处理L2监视器重置 |
AFF A800/ AFF C800 |
处理AFF A800和AFF C800平台上的L2监视器重置 |
AFF A320 | 处理AFF A320平台上的L2监视器重置 |
AFF A900/FAS9500 | 在AFF A900和FAS9500平台上处理L2监视器重置 |
AFF A250/FAS500f/ AFF C250 | 处理AFF A250/FAS500f/ AFF C250上的L2监视程序重置 |
执行
追加信息
要获得更多帮助、请联系 NetApp技术支持 、并参考本文以及收集的数据。