Windows 客户操作系统报告事件 129 重置为设备、 \Device\RAIDPort 0
适用场景
- Windows Server 2008 及更高版本
- VMware ESXi 6.5
- E 系列
- FAS/AFF
- NetApp HCI
- iSCSI
问题描述
- 当报告事件 ID 129 并自动恢复时,多个 Windows Server 2016 VM 将变为 Unresponsive (无响应)状态。
- 受影响的虚拟机主要用于 CCTV 视频录像(写入密集型)。
- 这种环境混合了 E 系列和 FAS 存储控制器、其中 E 系列主要用于 CCTV 视频录像。因此、基于 E 系列的数据存储库主要受到影响。
- 在基于 FAS 的虚拟机上也会观察到事件 ID 129 ,但频率较低。
- ESXi 主机和 E 系列控制器之间的数据包捕获显示启动程序正在中止 SCSI 读取请求(约 7 毫秒)。
示例:
VMkernel 日志中的代码片段:
2020-05-04T14:43:08.215Z cpu54:65940)NMP: nmp_ThrottleLogForDevice:3616: Cmd 0x88 (0x43959767ba40, 9089744) to dev "naa.600a098000fb3005000004355d6f1da3" on path "vmhba64:C2:T1:L5" Failed: H:0x8 D:0x0 P:0x0 Invalid sense data: 0x0 0x0 0x0. Act:EVAL
2020-05-04T14:43:08.215Z cpu54:65940)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "naa.600a098000fb3005000004355d6f1da3" state in doubt; requested fast path state update...
2020-05-04T14:43:08.215Z cpu54:65940)ScsiDeviceIO: 2965: Cmd(0x43959767ba40) 0x88, CmdSN 0xffffd2880bfd9210 from world 9089744 to dev "naa.600a098000fb3005000004355d6f1da3" failed H:0x8 D:0x0 P:0x0
2020-05-04T14:43:11.216Z cpu11:9089750)WARNING: VSCSI: 3502: handle 170795(vscsi1:2):WaitForCIF: Issuing reset; number of CIF:16
2020-05-04T14:43:11.216Z cpu11:9089750)WARNING: VSCSI: 2650: handle 170795(vscsi1:2):Ignoring double reset
来自数据包跟踪的代码片段:
211411 May 4, 2020 14:43:07.493525000 UTC 192.168.20.32 192.168.20.21 44468,3260 SCSI: Read(16) LUN: 0x05 (LBA: 40408422656, Len: 128)
211412 May 4, 2020 14:43:07.500645000 UTC 192.168.20.32 192.168.20.21 44468,3260 Task Management Function (Abort Task)
211413 May 4, 2020 14:43:07.501001000 UTC 192.168.20.21 192.168.20.32 3260,44468 Task Management Function Response (Function complete)