工作负载的突发延迟和 CPU 利用率
适用于
- ONTAP 9
- ONTAP Select v9.12.1 或更高版本
- FAS/AFF 系统
- 集群卷 ONTAP (CVO)
问题描述
- 中央处理单元(CPU)处于高位,接近或持续处于 100%,或 CPU 利用率高于预期水平,即使在节点接管和回馈时,也可以在固件升级过程中看到
- 在节点上触发性能容量警报。
- WAFL
WAFL_Ex
可能是最繁忙的域之一(Data Processing 发生的地方)。 - 主机报告在一天中的特定时间内 IO 等待时间过长。
- 命令
sysstat -M 1
可用于检查最繁忙的域。 - 对于 NFS 客户端,这可能由"NFS 服务器未响应"错误指示。
- 当 Active IQ Unified Manager 监控集群时,可以触发以下警报。
Incident - Node Utilization Critical Threshold Breached
Impact Area - Performance
Severity - Critical
State - New
Source - Cluster01-02
Cluster Name - Cluster01
Cluster FQDN - 10.0.0.X
Trigger Condition - Utilization value of 98% on Cluster01-02 has triggered a CRITICAL event based on threshold setting of 90%.
- 虚拟桌面基础架构(VDI)用户将遇到从受影响卷的活动 IQ 图中看到的读/写/其他延迟问题,如下所示。
示例:sysstat
输出显示由于用户工作负载增加导致的 CPU 上升(为了可读性而删除的列)
Cluster::> node run -node <node> -command sysstat -x 1 CPU NFS CIFS HTTP Total Net kB/s HDD kB/s in out read write 11% 1324 0 0 1324 169 131 5300 0 28% 72 0 0 72 483 526 4928 12 53% 175 0 0 175 254 407 5176 24 23% 143 0 0 143 146 72 4752 0 12% 230 0 0 230 134 259 5808 24 40% 5766 0 0 5766 207 720 44336 36956 53% 108 0 0 108 15698 14391 32340 24 46% 30 0 0 30 30975 30269 29900 0 87% 32124 0 0 32124 576397 53287 203513 12 99% 44334 0 0 44334 659406 45518 256931 251353 99% 43692 0 0 43692 609739 16930 263599 565448 99% 44492 0 0 44492 633509 41562 261366 116257