CONTAP-64446: FlexGroup 过度使用 CSM 代理线程可能会导致延迟为本地连接传递数据包
问题描述
- 配置包括 FlexGroups。
- 卷移动作业正在运行。
- 记录 CSM 连接超时错误:
1月19日星期五 XX:XX:XX -0X00 [XXXXX: CsmMpAgentThread: csm.createSessionFailed:debug]: 集群会话管理器 (CSM) 无法创建传输类型为 NULL、会话标签 WAFL_REMOTE、记录状态 ACTIVE、CSM 错误 CSM_CONNABORTED、低级错误 UNKNOWN、套接字错误 0 和 TLS 错误 0 的会话(req=XXXXX:dblade, rsp=scc111n09a:dblade, uniquifier=11060f4e7cae0ff5)。 - 由于软件崩溃,出现意外接管:
1月19日星期五 XX:XX:XX -0X00 [XXXXX: nodewatchdog: nodewatchdog.monitor.history:debug]: mgwd null[mgwd] S0 0,5? -31,5? -61,5? -91,5? -121,5? -151,5? -211,0 -241,0 -270,0 -301,0 -331,0 -360,0 -391,0 -421,0 -451,0 -481,0 -511,0 -541,0 -571,0 -600,0
1月19日星期五 XX:XX:XX -0X00 [XXXXX: nodewatchdog: nodewatchdog.node.panic:alert]: Data ONTAP 遇到严重内部错误:Process mgwd unresponsive for 225 seconds (mgwd startup: "(2357)")。这可能导致遇到问题的节点对数据访问没有响应。此节点已崩溃,以防止此情况继续。
1月19日星期五 XX:XX:XX -0X00 [XXXXX: send_boot_msg_thread: mgr.stack.string:notice]: Panic string: Process mgwd unresponsive for 225 seconds (mgwd startup: "(2357)") in process nodewatchdog on release 9.10.1P12 (C) - 崩溃后,回馈成功,节点运行正常。