如何测量CPU利用率
适用场景
- ONTAP 9
- 集群模式 Data ONTAP 8
- Data ONTAP 8 7-模式
- Data ONTAP 7 及更早版本
问题解答
在系统整体视图中,使用命令行实时查看 CPU 利用率:
注意:CPU域在文章 中作为计算资源列出、CPU域在ONTAP 9中进行了说明
集群模式 Data ONTAP
netapp::> set diag
Warning: These diagnostic commands are for use by NetApp personnel only.
Do you want to continue? {y|n}: y
netapp::*> node run -node netapp-01 sysstat -M 1
ANY1+ ANY2+ ANY3+ ANY4+ ANY5+ ANY6+ ANY7+ ANY8+ ANY9+ ANY10+ ANY11+ ANY12+ ANY13+ ANY14+ ANY15+ ANY16+ AVG
100% 100% 100% 99% 98% 96% 94% 91% 86% 81% 76% 70% 64% 57% 48% 37% 81%
CPU0 CPU1 CPU2 CPU3 CPU4 CPU5 CPU6 CPU7 CPU8 CPU9 CPU10 CPU11 CPU12 CPU13 CPU14 CPU15
78% 76% 77% 83% 82% 83% 82% 82% 82% 82% 83% 84% 83% 82% 83% 82%
Nwk_Excl Nwk_Lg Nwk_Exmpt Protocol Cluster Storage Raid Raid_Ex Target Kahuna WAFL_Ex(Kahu)
3% 2% 450% 0% 0% 49% 2% 136% 0% 4% 511%( 94%)
WAFL_XClean SM_Exempt Cifs Exempt SSAN_Ex Intr Host Ops/s CP
0% 0% 0% 112% 0% 28% 8% 47111 0%
在此示例中, 16 个核心的平均 CPU 利用率为 81% 。
最繁忙的域:
- WAFL 免除了 511% 的限制
- 网络免除了 450% 的限制
- RAID 免除 136% 的限制,而免除 120% 的限制。
- WAFL 在示例间隔中处于活动状态的占 98% 、在串行处理中花费 4% 、在并行处理中花费 94% 。
- WAFL 串行处理能力很低,并行化 WAFL 可能会完成更多的工作
- 如果没有其他性能指标,则在样本间隔内保持 98% 的活动状态不是一个问题。
- 整体 CPU 资源越来越少,从而增加了 CPU 排队工作的可能性,可能会影响客户端延迟。
Data ONTAP 7-模式
netapp> priv set diag
netapp*> sysstat -M 1
ANY1+ ANY2+ ANY3+ ANY4+ AVG CPU0 CPU1 CPU2 CPU3
93% 80% 36% 15% 56% 38% 32% 82% 72%
Nwk_Excl Nwk_Lg Nwk_Exmpt Protocol Cluster Storage Raid Raid_Ex Target Kahuna
1% 68% 1% 0% 0% 4% 0% 19% 0% 11%
WAFL_Ex(Kahu) WAFL_XClean SM_Exempt Cifs Exempt SSAN_Ex Intr Host Ops/s CP
80%( 75%) 14% 0% 0% 24% 0% 1% 1% 0 83%
在此示例中,平均 CPU 利用率为 56% 、 Network _Legacy 域(最大并发率为 1 )为 68% 。
- 要分析 WAFL 瓶颈, Kahuna 为 11% ,
WAFL_Ex
为 75% ,总计 86% :- 由于这低于 100% 、因此不会成为瓶颈。但是,如果它接近 100% 、那么如果没有其他贡献绩效指标、它可能仍然不是一个问题。
- 虽然 Data ONTAP 会公开 CPU (逻辑和物理)利用率,但不应将 CPU 利用率用作评估系统整体性能的一级指标。
- 与请求的用户工作相关的输入和输出应是第一级指标。
- 建议重点关注所处理工作的实际延迟(响应时间)以及根据 IO 请求或字节(吞吐量)处理的操作数量。
- 此性能衡量指标与给定工作负载相关,并抽象化了逻辑和物理 CPU 计划变化的复杂性。