用于分析CPU系统性能的指标是什么?
适用场景
- ONTAP 9
- Data ONTAP 8 7-模式
- Data ONTAP 7及更早版本
问题解答
- CPU 是Data ONTAP可用的物理资源类型之一。
- 分析系统性能时,需要从整体上审视系统。
- 分析瓶颈的一般策略是同时使用服务指标(协议/卷/lun 延迟/工作负载)和组件指标(CPU、磁盘 IO、网络 IO)
- 这提供了系统的完整视图并减少了错误的结论。
- 具体来看 CPU 资源,工作按优先级分为:
- 某些类型的工作被认定为背景性或非必要性/机会性工作:
- 这意味着当后台工作使用一个或多个 CPU 核心时,它将在请求到达时有效地让位于更高优先级的工作。
- 某些类型的工作被认定为背景性或非必要性/机会性工作:
- 此外,随着系统负载的增加,处理优化可能会导致物理 CPU 核心利用率和逻辑 CSMP 域利用率的指标出现非线性变化。这在复杂的计算系统中很正常。
CPU 瓶颈类型
由于 CSMP 模型,可能存在以下三种 CPU 瓶颈类型:
- 平均CPU核心利用率:所有核心的CPU核心利用率平均达到100%。
- 逻辑域瓶颈:
- 逻辑域已达到其并发限制。
- 例如,假设某个逻辑域的并发数为 1 个 CPU 核心,并且其利用率已达到 100%。
- 逻辑域之间的交互:
- 某些逻辑域是互斥的,不能与另一个相关的逻辑域同时运行。
- 例如,
WAFL_ex
表示并行WAFL处理,而 Kahuna 表示串行WAFL处理。 - 这两个逻辑域是互斥的,这意味着 Kahuna 可以在 1 个 CPU 上处于活动状态,或者
WAFL_ex
可以在 1+ CPU 上激活,但 Kahuna 和WAFL_Ex
不能同时处于活动状态。
- 例如,
- 根据工作量,Kahuna 可以限制
WAFL_ex
。- 注意:这种瓶颈是前一种情况的简单变体。
- 某些逻辑域是互斥的,不能与另一个相关的逻辑域同时运行。
注意:如果没有达到域瓶颈或平均 CPU 瓶颈,则物理 CPU 核心不可能出现瓶颈。因此,将物理 CPU 利用率监控作为直接衡量指标并不有效。
注意:从Data ONTAP 8.2.1 开始,表示 CPU 利用率的算法(cpu_busy
) 已发生改变,并根据 CPU 核心总数采用不同的算法。
- <= 20 个 CPU 核心,
cpu_busy
返回以下两个值中较高的一个:所有 CPU 核心的平均 CPU 利用率(
avg_processor_busy
)并发数为 1 的最繁忙域的 CPU 利用率
> 20 个 CPU 核心,
cpu_busy
返回以下三个值中的最高值。对于具有超过 20 个 CPU 核心的平台,这些 CPU 核心将被分别均匀地划分到两个分区中。第一个分区(非WAFL分区)的平均 CPU 利用率
第二个分区(WAFL分区)的平均 CPU 利用率
并发数为 1 的最繁忙域的 CPU 利用率