由于交换机端 sfp 故障,在单个 NIC 端口上接收到 CRC 错误
适用于
- ONTAP 9
- FAS / AFF 系统
- 在单个端口上报告 CRC 错误
问题描述
Event
记录物理和/或逻辑端口上的硬件错误。
[node-01: vifmgr: vifmgr.cluscheck.crcerrors]: Port a0b on node node-01 is reporting a high number of observed hardware errors, possibly CRC errors
[node-02: vifmgr: vifmgr.cluscheck.crcerrors]: Port e0d on node node-02 is reporting a high number of observed hardware errors, possibly CRC errors
[node-02: vifmgr: vifmgr.cluscheck.hwerrors:alert]: Port e0d on node node-02 is reporting a high number (at least 1 per 1000 packets) of observed hardware errors (CRC, length, alignment, dropped)
[node-02: vifmgr: callhome.clus.net.degraded:alert]: Call home for CLUSTER NETWORK DEGRADED: CRC Errors Detected - High CRC errors detected on port e0d node node-02
ifstat
output showCRC
如果 ONTAP 接收到错误。
RECEIVE
Total frames: 36418m | Frames/second: 23646 | Total bytes: 179t
Bytes/second: 116m | Total errors: 170k | Errors/minute: 7
Total discards: 0 | Discards/minute: 0 | Multi/broadcast: 1686k
Non-primary u/c: 0 | CRC errors: 159k | Long frames: 0
- CRC错误可能会在交换机端口或客户端上观察到,并且由于数据包丢失可能会出现延迟
2022-03-20T17:39:36.443Z cpu36:2098075)WARNING: ScsiDeviceIO: 1498: Device naa.600a09803830574c4d5d53ddf26c4543 performance has deteriorated. I/O latency increased from average value of 18171 microseconds to 1816780 microseconds.
- 在 NetApp 端运行
ifstat -z
以清除受影响节点上的统计信息,并检查是否存在递增错误。
- 可按照以下步骤进一步隔离此问题:
- CRC 错误表示介质出现问题(例如电缆和 SFP 安装不良、损坏)
- 执行端口隔离测试,以确保端口处于良好状态。
- 验证端口报告错误与链路中下一个设备之间连接的运行状况。
- 尝试重新拔插电缆的两端。
- 切换端口以确定问题是否已解决
- 重新拔插两端的 SFP(一次一个)。
- 更换连接电缆。
- 如果更换 SFP 或电缆后未解决问题,请继续解决方案。