什么是 cf_hwassist_missedKeepAlive 超时和容忍期?
适用于
- NetApp AFF和FAS系统
- ONTAP 9
问题解答
cf_hwassist_missedKeepAlive
事件在 60 秒后记录在 EMS 中,在发送 hw-assist 数据包- hw-assist 数据包每 180 秒由 UDP 发送一次:
- 如果发送和未接收数据包,则不会重传数据包
- 如果 UDP 数据包被丢弃、阻塞、楔入、重定向等,并且节点未收到,则节点将仅等待 180 秒,直到下一个数据包被发送
- 因此,如果
cf_hwassist_recvKeepAlive
事件在cf_hwassist_missedKeepAlive
之后 120 秒内显示,则可以安全地忽略
[Nodename-02: cf_hwassist: cf.hwassist.missedKeepAlive:debug]: HW-assisted takeover missing keep-alive messages from HA partner (Nodename-01).
[Nodename-02: cf_hwassist: cf.hwassist.recvKeepAlive:debug]: hw_assist: Received hw_assist KeepAlive alert from partner(Nodename-01).
追加信息
- 对于
cf_hwassist_missedKeepAlive
的原因,由于 hw-assist 配置并在通过客户网络环境的 e0M 上使用 IP 和端口进行传输,因此几乎所有此类故障的实例都是由于网络丢包造成的。- 根据平台的不同,默认 hwassist 端口将为 4444 或 162(Hwassist IP 地址设置为 192.0.2.84 和 192.0.2.85 - NetApp 知识库)
- 通过命令检查hwassist-health-check-interval
aff200-2n-dal-1::> storage failover show -fields hwassist,hwassist-partner-ip,hwassist-partner-port,hwassist-health-check-interval,hwassist-retry-count,hwassist-status
node hwassist hwassist-partner-ip hwassist-partner-port hwassist-health-check-interval hwassist-retry-count hwassist-status
------------- -------- ------------------- --------------------- ------------------------------ -------------------- ---------------
aff200-dal-1a true 10.128.227.184 4444 180 2 active
aff200-dal-1b true 10.128.227.183 4444 180 2 active
2 entries were displayed.