EMS 事件 "netif.tcp.conn.bad.checksum"
适用于
ONTAP 9.11.1 及更高版本
问题描述
- 将显示以下 EMS 消息:
Mon Sep 26 02:09:05 +0900 [node01: kernel: netif.tcp.conn.bad.checksum:error]: TCP packet with bad checksum detected on port e0c. The packet arrived on connection with source address xx.xx.xx.xx and destination_address xx.xx.x.xx.
- 错误的 TCP cksum 也在端口上递增
::> system node run -node node_name -command ifstat port_name
:
-- interface e0c (40 days, 5 hours, 34 minutes, 37 seconds) --
RECEIVE
Total frames: 2047m | Frames/second: 589 | Total bytes: 2625g
Bytes/second: 755k | Total errors: 0 | Errors/minute: 0
...
LRO bytes: 2527g | LRO6 segments: 0 | LRO6 bytes: 0
Bad UDP cksum: 0 | Bad UDP6 cksum: 0 | Bad TCP cksum: 21
Bad TCP6 cksum: 0 | Mcast v6 solicit: 0 | Lagg errors: 0
...
- 在继续解决方案之前,可以执行以下故障排除步骤:
- 验证
ifstat
下方的任何 CRC 错误,如果可见 CRC 错误,则对连接到端口的电缆/SFP 进行故障排除。 - 如果在
ifstat
中未报告 CRC 错误:- 如果在 EMS 消息中报告了单个客户端,请调查该客户端。
- 否则,如果客户端没有趋势,请调查 EMS 消息中提到的客户端 IP 和 LIF 之间的设备。
- 确保在所有接口(存储、交换机、主机)上设置了正确的 MTU
- 验证
- 注意:从存储、连接的交换机端口和客户端的受影响端口同时收集 tcpdumps 或数据包跟踪,以确认 TCP 错误校验和。当前没有其他已知方法来排除贡献者或确定原因。