主机启动程序未使用某些路径登录到NetApp集群
适用场景
- ONTAP 9
- FCP
- SAN
- VMware ESXi
问题描述
- 主机启动程序已分区、但未登录到NetApp、从而导致主机端的路径不匹配
- NetApp端的LIFs和物理端口已启动且联机、可以使用fcp adapter show和net int show命令验证这两者。
- SFP TX和Rx电源在存储端处于最佳范围
- 某些ESXi主机启动程序未登录到所有目标LIF。
fcp initiator.xml log
显示未使用集群中所有节点的LIF登录的主机。 - 其他未受影响的主机使用相同的NetApp登录到相同的LUN端口。
- 每次重新启动主机时、我们都会看到某些或其他路径缺失。这表明重新启动后、主机无法启动会话以返回到存储。
vserver fcp ping-igroup
show显示了某些路径的zone-info-not available。
fcp ping-igroup show -vserver abc -igroup xyz -check-fabric true
AFF250::> vserver fcp ping-igroup show
Igroup Logical Node Ping Extended
Vserver Name WWPN Interface Name Status Status
--------- ----------- -------------- ---------- --------- -------- -----------
AFFVS01
ESX01 10:00:00:10:9b:xx:xx:dc AFFA250-01_fc_lif_1 AFFA250-01 reachable wwpn-logged-in
ESX01 10:00:00:10:9b:xx:xx:dc AFFA250-01_fc_lif_2 AFFA250-01 reachable wwpn-logged-in
ESX01 10:00:00:10:9b:xx:xx:dc AFFA250-01_fc_lif_3 AFFA250-01 not-zoned -
ESX01 10:00:00:10:9b:xx:xx:dc AFFA250-01_fc_lif_4 AFFA250-01 not-zoned -
ESX01 10:00:00:10:9b:xx:xx:dc AFFA250-02_fc_lif_1 AFFA250-02 zone-info-not-available -
ESX01 10:00:00:10:9b:xx:xx:dc AFFA250-02_fc_lif_2 AFFA250-02 reachable wwpn-logged-in
- 在交换机端,主机和存储端口都将在
nsshow
日志输出下以FC4类型登录。
N 685546; 3;10:00:00:10:9b:cc:xy:xx;20:00:00:10:9b:cc:yy:xx; 0x00000003
SCR: Fabric-Detected Nx-Port-Detected
FC4s: FCP FC-NVMe
PortSymb: [34] "Emulex PPN-10:00:00:10:9b:cc:ab:xx"
NodeSymb: [94] "Emulex LPm32002-D FV14.0.539.26 DV14.0.622.0 HN:abcc.hbcxxm.com OS:VMware ESXi 7.0.3"
Fabric Port Name: 20:55:88:94:71:a2:88:xx
Permanent Port Name: 20:11:d8:1f:cc:69:75:xx
Device type: NPIV Initiator
Port Index: 85
Redirect: No
Partial: No
LSAN: No
Slow Drain Device: No
Device link speed: 32G
Connected through AG: Yes
Real device behind AG: Yes
FCoE: No
Connected through FC-LAG: No
FC4 Features [FCP]: Initiator
FC4 Features [FC-NVMe]: Initiator
N 68fb41; 3;20:07:00:a0:98:f3:yy:xy;20:08:00:a0:98:f3:xx:xx; 0x00000003
SCR: Fabric-Detected Nx-Port-Detected
FC4s: FCP Application-Services
PortSymb: [63] "NetApp FC Target Port (LPe16000) VVMxxx_DATA_SVM:lif"
NodeSymb: [34] "NetApp Vserver SVM"
Fabric Port Name: 20:fb:88:94:71:a2:88:ab
Permanent Port Name: 50:0a:09:81:80:61:fa:aa
Device type: NPIV Target
Port Index: 251
Redirect: No
Partial: No
LSAN: No
Slow Drain Device: No
Device link speed: 16G
Connected through AG: No
Real device behind AG: No
FCoE: No
Connected through FC-LAG: No
FC4 Features [FCP]: Target
- 确保 ONTAP命令行界面上下文正确,以防止出现虚假的possive输出fcp ping-Initiator。
- 要 进一步隔离问题描述、需要执行以下步骤:
- 重新扫描存储适配器(
# esxcli storage core adapter rescan -A vmhbaX )
- 切换连接到主机启动程序的交换机端口并进行验证、可以在Brocade交换机上使用
portdisable
命令、在Cisco交换机上使用shutdown
命令。 - 重置VMware上的主机HBA (
# esxcli storage san fc reset -A vmhbaX )
- 使用以下命令重置NetApp端的LUN:
注意:如果存储lifs已与任何其他主机进行分区,请确保这些主机已配置适当的冗余路径和多路径。 |
::> net int modify -vserver <vserver_name> -lif <lif_name> -status-admin down
::> net int modify -vserver <vserver_name> -lif <lif_name> -status-admin up