A300/FAS8200、A200/FAS2600、A220/FAS2700、C190上的e0a/e0b链路盖可能会发生发生原因A接管

最后更新
另存为PDF

Views:: 346

Visibility:: Public

Votes:: 0

Category:: fas-systems

Specialty:: HW

Last Updated:

适用场景

AFF A300、FAS8200.
AFF A200、FAS2650、FAS2620
AFF A220、AFF C190、FAS2750、FAS2720
ONTAP 9

问题描述

集群端口e0a或e0b (或这两个端口)同时发生链路翻盖或关闭。

Tue Oct 03 11:08:31 CEST [node1: ixgbe/e0b: snmp.link.down:info]: Interface 2 is down. Tue Oct 03 11:08:31 CEST [node1: ixgbe/e0b: netif.linkDown:info]: Ethernet e0b: Link down, check cable. Tue Oct 03 11:08:31 CEST [node1: ixgbe/e0a: snmp.link.down:info]: Interface 1 is down. Tue Oct 03 11:08:31 CEST [node1: ixgbe/e0a: netif.linkDown:info]: Ethernet e0a: Link down, check cable.

Tue Oct 03 11:08:32 CEST [node2: ixgbe/e0b: snmp.link.down:info]: Interface 2 is down. Tue Oct 03 11:08:32 CEST [node2: ixgbe/e0b: netif.linkDown:info]: Ethernet e0b: Link down, check cable. Tue Oct 03 11:08:32 CEST [node2: ixgbe/e0a: snmp.link.down:info]: Interface 1 is down. Tue Oct 03 11:08:32 CEST [node2: ixgbe/e0a: netif.linkDown:info]: Ethernet e0a: Link down, check cable.

检查集群端口状态和存储故障转移状态：

cluster1::>network port show -ipspace Cluster

Node: cluster1-01 Speed(Mbps) Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status --------- ------------ ---------------- ---- ---- ----------- -------- e0a Cluster Cluster down 9000 1000/- - e0b Cluster Cluster down 9000 1000/- -

Node: cluster1-02 Speed(Mbps) Health Port IPspace Broadcast Domain Link MTU Admin/Oper Status --------- ------------ ---------------- ---- ---- ----------- -------- e0a Cluster Cluster down 9000 1000/- - e0b Cluster Cluster down 9000 1000/- - 4 entries were displayed.

cluster1::>storage failover show
Takeover Node Partner Possible State Description ------------- -------------- -------- ------------------------------------- cluster1-01 cluster1-02 false Connected to cluster-02, Partial giveback, Takeover is not possible: The version of software running on each node of the SFO pair is incompatible, NVRAM log not synchronized cluster1-02 cluster1-01 - Waiting for cluster applications to come online on the local node Offline applications: mgmt, vldb, vifmgr, bcomd, crs.

如果端口未恢复正常、并且启用了连接、流明度和可用性监控(vl和平等)

其中一个节点将发生"仲裁不足"崩溃。

PANIC : Received PANIC packet from partner, receiving message is (Coredump and takeover initiated because Connectivity, Liveliness and Availability Monitor (CLAM) has determined this node is out of quorum.

发生故障的节点将被接管、正常运行的节点将提供所有数据。

如果端口未恢复正常、并且未启用连接、流明度和可用性监控(vl和平等)

不会发生存储接管、并且两个节点都将丢失仲裁。两个节点均不提供数据。
请参见：SU436：[Impact：critical]已更改管理接管默认配置
在EMS日志中可以找到类似消息：

Jun 08 12:30:09 [xxx-02:vifmgr.clus.linkdown:EMERGENCY]: The cluster port e0b on node naptp06c-02 has gone down unexpectedly. Jun 08 12:30:10 [xxxc-02:vifmgr.clus.linkdown:EMERGENCY]: The cluster port e0a on node naptp06c-02 has gone down unexpectedly. Jun 08 12:31:00 [xxx-02:monitor.globalStatus.critical:EMERGENCY]: Controller failover of xxx-01 is not possible: partner mailbox disks not accessible or invalid. One or more mirrored aggregates are degraded. Jun 08 12:31:02 [xxx:callhome.clam.node.ooq:EMERGENCY]: Call home for NODE(S) OUT OF CLUSTER QUORUM.

适用场景

问题描述

如果端口未恢复正常、并且启用了连接、流明度和可用性监控(vl和平 等)

如果端口未恢复正常、并且未启用连接、流明度和可用性监控(vl和平 等)

如果端口未恢复正常、并且启用了连接、流明度和可用性监控(vl和平等)

如果端口未恢复正常、并且未启用连接、流明度和可用性监控(vl和平等)