CONTAP-64446:FlexGroup 过度使用 CSM 代理线程可能会导致本地连接数据包传输延迟
问题描述
- 配置包含 FlexGroups。
- 卷移动作业正在运行。
- 记录了 CSM 连接超时错误:
1 月 19 日星期五 XX:XX:XX -0X00 [XXXXX: CsmMpAgentThread: csm.createSessionFailed:debug]: 集群会话管理器 (CSM) 无法创建会话 (req=XXXXX:dblade、rsp=scc111n09a:dblade、uniquifier=11060f4e7cae0ff5),传输类型为 NULL,会话标签为 WAFL_REMOTE,记录状态为 ACTIVE,CSM 错误为 CSM_CONNABORTED,低级错误为 UNKNOWN,套接字错误为 0,TLS 错误为 0。 - 由于软件恐慌,出现了意外的接管:
1月19日星期五 XX:XX:XX -0X00 [XXXXX: nodewatchdog: nodewatchdog.monitor.history:debug]: mgwd null[mgwd] S0 0,5? -31,5? -61,5? -91,5? -121,5? -151,5? -211,0 -241,0 -270,0 -301,0 -331,0 -360,0 -391,0 -421,0 -451,0 -481,0 -511,0 -541,0 -571,0 -600,0
1 月 19 日,星期五 XX:XX:XX -0X00 [XXXXX: nodewatchdog: nodewatchdog.node.panic:alert]: Data ONTAP 发生严重内部错误:进程 mgwd 无响应 225 秒(mgwd 启动:“(2357)”)。这可能会导致出现问题的节点无法访问数据。为了防止这种情况持续下去,已使该节点处于混乱状态。
1 月 19 日星期五 XX:XX:XX -0X00 [XXXXX:send_boot_msg_thread:mgr.stack.string:notice]:紧急字符串:在版本 9.10.1P12 (C) 上的进程 nodewatchdog 中,进程 mgwd 无响应 225 秒(mgwd 启动:“(2357)”) - 恐慌过后,恢复成功,节点恢复健康。