什么是 cf_hwassist_missedKeepAlive 超时和容错期限?
适用场景
- NetApp AFF和FAS系统
- ONTAP 9
问题解答
cf_hwassist_missedKeepAlive
发送硬件辅助数据包后、60秒后、EMS会记录意外事件。
硬件辅助数据包 每 180秒通过UDP发送一次、因此、 如果数据包 是发送的、而不是接收的、则不会重新传输数据包。如果UDP数据包被丢弃、阻止、截住、重定向等。如果某个节点未收到该消息、则该节点将仅等待180秒、直到发送下一个节点为止。
因此,如果 cf_hwassist_recvKeepAlive
事件 在120秒后显示 cf_hwassist_missedKeepAlive
,则 可以安全地忽略它。
Sat Nov 04 22:07:44 +0900 [Nodename-02: cf_hwassist: cf.hwassist.missedKeepAlive:debug]: HW-assisted takeover missing keep-alive messages from HA partner (Nodename-01).
Sat Nov 04 22:09:14 +0900 [Nodename-02: cf_hwassist: cf.hwassist.recvKeepAlive:debug]: hw_assist: Received hw_assist KeepAlive alert from partner(Nodename-01).
追加信息
- 对于的发生原因
cf_hwassist_missedKeepAlive
,由于 在e0M上配置了硬件配置并使用IP和端口(默认值为4444)进行传输(通过客户网络环境),因此几乎每一个此类故障实例都是由网络丢弃的数据包引起的。 - 通过命令检查hwassist-Health-check-interval"。
aff200-2n-dal-1::> storage failover show -fields hwassist,hwassist-partner-ip,hwassist-partner-port,hwassist-health-check-interval,hwassist-retry-count,hwassist-status
node hwassist hwassist-partner-ip hwassist-partner-port hwassist-health-check-interval hwassist-retry-count hwassist-status
------------- -------- ------------------- --------------------- ------------------------------ -------------------- ---------------
aff200-dal-1a true 10.128.227.184 4444 180 2 active
aff200-dal-1b true 10.128.227.183 4444 180 2 active
2 entries were displayed.