适配器超时导致 LUN 断开
适用于
- ONTAP 9
- Brocade 交换机上的端口
- 光纤通道协议 (FCP)
- Windows 主机
- ESXi 主机
- 存储上的 QLogic 适配器
- 结构性能影响通知 (FPIN)
问题描述
- LIF 在 Fabric 名称服务器管理器中的注册未"NS 注册完成",可能会看到超时或失败
net int show -vserver * -data-protocol fcp -fields status-oper,status-extended
- 主机在重新启动后丢失 LUN
- 主机配置有四个存储路径,但 LUN 仅通过一个路径可见
- 分区和配置遵循 NetApp 的建议,交换机和存储端口上的接收(Rx)和传输(Tx)速率都在最佳范围内
- 尽管 FC 端口在 NetApp 端显示为在线,但不会通过这些端口进行数据传输:
cluster::*> statistics port fcp show
cluster : 4/12/2024 11:14:02
NVMf NVMf NVMf NVMf NVMf NVMf NVMf NVMf NVMf NVMf
*Read Write Other Total Read Write CAW Other Remote Remote CAW Remote Total Remote
Port Ops Ops Ops Ops Ops Ops Ops Ops Read Ops Write Ops Ops Other Ops Ops Total Ops
------- ----- ----- ----- ----- ---- ----- ---- ----- -------- --------- ---- --------- ----- ---------
port.1b 45 160 30 236 0 0 0 0 0 0 0 0 0 0
port.1a 19 676 26 721 0 0 0 0 0 0 0 0 0 0
port.1b 14 43 47 105 0 0 0 0 0 0 0 0 0 0
port.1a 14 149 19 183 0 0 0 0 0 0 0 0 0 0
port.10b
0 0 0 0 0 0 0 0 0 0 0 0 0 0
port.10b
0 0 0 0 0 0 0 0 0 0 0 0 0 0
port.10a
0 0 0 0 0 0 0 0 0 0 0 0 0 0
port.10a
0 0 0 0 0 0 0 0 0 0 0 0 0 0
- 在没有 I/O 操作的端口上,LUN 通过这些端口在主机端不可见
- 新创建的 FC LIF 不会出现
operational status up - 在 ONTAP 上完成接管(TO)/回馈(GB)之前,主机无法连接到 LUN
- LUN 在 ONTAP 升级后与主机断开连接
- 重新启动主机未解决问题
- 启动程序将报告
not logged in状态:
A22xxxG1::*> igroup show COKHCH1xx10 -v
Vserver Name: sxx0
Igroup Name: COKHCxxL10
Protocol: mixed
OS Type: vmware
Portset Binding Igroup: -
Initiators: 50:0x:0x:00:0x:cx:7e:2x
50:0x:0x:00:0x:cx:7e:2x
Child Igroups: -
Igroup UUID: c5ec904e-18xx-11ed-bbxx-d039ea903bxx
ALUA: true
Initiators: 50:0x:0x:00:0x:cx:7e:2x (not logged in)
50:0x:0x:00:0x:cx:7e:2x (logged in)
Vserver UUID: 2ef579xx-18b5-11xx-bbxx-d039ea903bxx
...
Igroup Comment:
- ONTAP 上的几个适配器报告timeout导致多个主机断开连接:
cluster01::> network fcp adapter show -node node1 -adapter XaError: show failed: Timeout while getting fabric informationcluster01::> network fcp adapter show -node node01 -adapter XbError: show failed: Timeout while getting fabric informationMGWD.log超时消息:
示例:[kern_mgwd:info:2548] 0x83771bf00: 0: ERR: SAN::FCP::ADAPTER_KERNEL: src/tables/san/fcp_adapter_internal.cc:get_imp:95 returning: 418/24 - Timeout while getting fabric information
[kern_mgwd:info:2548] 0x83771bf00: 0: ERR: SAN::FCP::ADAPTER: src/tables/san/fcp_adapter.cc:get_imp:719 returning: 418/24 - Timeout while getting fabric information
[kern_mgwd:info:2548] 0x83771bf00: 0: ERR: NET::VIF::SAN: src/tables/san/net_vif_san.cc:populateFcpPortmap:991 Failed getting the FCP port on node netapp01 for lif lif01: Timeout while getting fabric information
- ONTAP 的 Down/UP 端口暂时解决,但问题在一两个小时后重现
- 交换机端的 Down/UP 端口无法解决问题
- 主机可能记录类似于以下内容的错误消息:
May 16 15:41:28 Host_name: qla2xxx [0000:b1:00.0]-5037:11: Async-login failed: handle=d pid=011703 wwpn=XX:XX:XX:XX:XX:XX:XX:XX comp_status=31 iop0=18 iop1=92900