我的控制器是否超载?
适用于
ONTAP 9
回答
- 此问题的答案可以从资源余量统计中确定,以便快速测量或从Active IQ Unified Manager 的性能容量中确定
- 资源余量统计包括特定资源的余量指导背景下的利用率、操作和延迟的详细信息,以提供:
- 工作负载放置规划
- 工作负载平衡
- 资源性能容量的可见性
- 帮助识别对于给定节点过高的工作负载。
资源净空
- ONTAP 资源余量对象统计有助于了解 CPU 和聚合资源的资源利用率和可用余量。
- 对于 CPU 资源:
resource_headroom_cpu。 - 对于存储聚合资源:
resource_headroom_aggr。
- 对于 CPU 资源:
current_[ops|latency|utilization]和相应的optimal_point_*计数器提供当前利用率与最佳点的时间点统计信息optimal_point是指利用率或工作负载的增加导致延迟不成比例地大幅增加的点。- 从这些计数器可以计算物理净空或性能容量
- 物理余量是当前利用率和最佳点之间的差值
- 如果当前利用率超过最佳点,则资源被视为"过载。"
- 置信系数用于衡量给定资源的最佳点的准确性。
- 采用以下值表示:
- 1 - 低 - 种子值用于最佳点。没有足够的数据来预测最佳点。
- 2 - 中 - 一些数据来推断最佳点。
- 3 - 高 - 达到或超过最佳点的大量数据,因此已知"最佳点"。
- 0 - 未知 - 资源不可用或未使用,或存在内部错误以至于无法检索数据。
- 采用以下值表示:
示例:查看超出 CPU 和聚合资源的节点的净空间统计信息
cluster::> set -privilege advanced cluster::*> statistics start -object resource_headroom_cpu|resource_headroom_aggr cluster::*> statistics show -object resource_headroom_cpu -counter current_ops|current_latency|current_utilization|optimal_point_latency|optimal_point_ops|optimal_point_utilization|optimal_point_confidence_factor Object: resource_headroom_cpu Instance: CPU_node_2 Start-time: 6/17/2020 12:31:57 End-time: 6/17/2020 13:31:57 Elapsed-time: 3600s Scope: node_2 Counter Value -------------------------------- -------------------------------- current_ops 1506 optimal_point_ops 1264 current_latency 3761 optimal_point_latency 1446 current_utilization 82 optimal_point_utilization 57 optimal_point_confidence_factor 3 cluster::*> statistics show -object resource_headroom_aggr -counter current_ops|current_latency|current_utilization|optimal_point_latency|optimal_point_ops|optimal_point_utilization|optimal_point_confidence_factor Object: resource_headroom_aggr Instance: DISK_HDD_node_2_aggr1_fb7a0d4f-9d65-4211-b651-b4cd422ee11d Start-time: 6/17/2020 12:37:57 End-time: 6/17/2020 13:37:57 Elapsed-time: 3600s Scope: node_2 Counter Value -------------------------------- -------------------------------- current_ops 1488 optimal_point_ops 1156 current_latency 38924 optimal_point_latency 28913 current_utilization 67 optimal_point_utilization 52 optimal_point_confidence_factor 3
- 更高时间范围的资源统计信息可从 Active-IQ 性能仪表板获得,这对于容量规划更有用。
- 图表中的
peak_performance指标表示来自 resource_headroom 统计数据的optimal_point_utilization计数器。- Active-IQ 性能图的更多详细信息

工作负载利用率
- 使用工作负载或 QoS 统计数据可以确定给定资源的详细信息
- QoS 统计可以提供每个节点工作负载资源利用率的时间点统计
示例: volume vol4test 同时占用大量 CPU 和聚合资源。
cluster::> qos statistics volume resource cpu show -node node_1 Workload ID CPU --------------- ----- ----- -total- (400%) - 69% vol4test-wid2.. 23350 69% -total- (400%) - 73% vol4test-wid2.. 23350 73% -total- (400%) - 73% vol4test-wid2.. 23350 73% -total- (400%) - 70% vol4test-wid2.. 23350 70% cluster::> qos statistics volume resource disk show -node node_1 Workload ID Disk Number of HDD Disks Disk Number of SSD Disks --------------- ------ ------ ------------------- ------ ------------------- -total- - 32% 26 0% 0 vol4test-wid2.. 23350 92% 9 0% 0 -total- - 33% 26 0% 0 vol4test-wid2.. 23350 96% 9 0% 0 -total- - 33% 26 0% 0 vol4test-wid2.. 23350 97% 9 0% 0 -total- - 31% 26 0% 0 vol4test-wid2.. 23350 91% 9 0% 0
追加信息
- 使用 node shell wafltop 命令还可以帮助确定哪些卷/工作负载是各种资源的最大消费者
- 什么是性能容量
- 高 CPU 利用率 - 解决路径