仅连接到节点的控制台电缆可能会导致健康警报,阻止 SP 访问并防止故障转移
适用于
- AFF 型号
- ASA 型号
- FAS 型号
- ONTAP 9
- 控制台连接
问题描述
可以观察到以下症状:
- 无法使用任何帐户 SSH 进入 SP 或 BMC(无响应)
- 可能会报告各种错误的健康警报,这可能导致硬件故障假设:
- 风扇故障
- 高/低温度警告
- 各种"传感器不可读"消息
- 电池故障等。
Record 2508: Mon Apr 24 11:01:20 2023 [SP.notice]: SP load is high: 5.22 4.10 2.12 Record 2513: Mon Apr 24 11:03:16 2023 [IPMI.emergency]: triggered OS halt: Multiple fans failed
- 通过 SSH 的控制台输出非常慢("滞后")或无响应
- 接管或回馈失败
注: 此问题最有可能发生在串行控制台端口运行为 115200 波特的较新系统上
示例:
Log Collection from: SERIALNUM=xxxxxxxxxxx SEQ=31 HOSTNAME=node01-1
================ Log #1 start time Thu Jan 1 00:00:56 1970
================ Log #1 truncated at Wed Apr 29 09:06:18 2020 ?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????!
????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????!
??????????????????????????????????????????????????????????????!
????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????!
???????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????
================ Log #1 end time Wed Apr 29 09:06:35 2020
使用 Active IQ 仪表板中的 AutoSupport 日志进行验证:
- 查看 SP-LATEST-CONSOLE-LOGS 文件以查找垃圾字符,如上所示
- 查看 SP-LATEST-RUNTIME 文件:
- 在
"top"小节中,找到 getty 进程(根据 ONTAP 版本,将是 ngetty 或 agetty),并查找串行端口活动迹象和可能的串行端口过载情况(如高 CPU% 所示):
- 在
PID PPID USER STAT VSZ %VSZ CPU %CPU COMMAND
993 1 root D 6304 2.2% 0 22.4% /sbin/ngetty 115200 parallel
2408 1 sysadmin S 1912 2.5 0 23.7% /sbin/agetty --nohostname -L console 115200 vt100注:getty 可能并不总是列在某些 ONTAP 版本的 Top 下方
- 在
"top"或"uptime"小节中,查看"load average"的值。
Load average: 5.22 4.10 2.12 13/218 26338 02:10:24 up 76 days, 5:07, 0 users, load average: 5.22, 4.10, 2.12
- 上面突出显示的三个值分别表示 SP 在过去 1、5 和 15 分钟内的负载平均值。