Csm.ontapNoMemory错误可能会导致发生原因延迟或完全挂起
适用场景
- ONTAP 9.10.1、9.11.1
- AFF A400系统的大型集群(超过20个节点)
问题描述
- 集群会话管理器(Cluster Session Manager、CSM)可能发生内存不足错误、导致需要节点间通信的进程出现延迟或挂起
- EMS通过以下消息指示问题描述:
- Csm.createSessionFailed: CSM无法创建连接... transportType = RDMA_RoCEv2
- csm.ontapNoMemory: (非常长的消息详细信息-不包括)
- Csm.ctFallbackActiveOpen: 集群会话管理器(Cluster Session Manager、CSM)无法成功为会话"0005face6e3a9d46"创建RDMA连接、即使多次重试也是如此。CSM将使用TCP连接作为默认值(实际不会发生TCP回退)