我的控制器是否过载？

最后更新
另存为PDF

Views:: 65

Visibility:: Public

Votes:: 0

Category:: ontap-9

Specialty:: perf

Last Updated:

适用场景

ONTAP 9

问题解答

此问题的问题解答可通过用于快速测量的资源余量统计信息或 Active IQ Unified Manager的性能容量来确定
资源性能余量统计信息包括特定资源的性能余量指导背景下的利用率、操作和延迟详细信息、以提供：
- 工作负载放置规划
- 工作负载平衡
- 资源性能容量可见性
- 帮助确定对于给定节点来说过高的工作负载。

资源余量

ONTAP 资源余量对象统计信息有助于了解 CPU和聚合资源的资源利用率和可用余量。
- 对于CPU资源： resource_headroom_cpu。
- 对于存储聚合资源： resource_headroom_aggr。

current_[ops|latency|utilization] 和相应的 optimal_point_* 计数器可提供当前利用率与最佳点的时间点统计信息
- optimal_point 此时、利用率或工作负载的增加会导致延迟增加不成比例。
- 通过这些计数器、可以计算物理性能余量或性能容量
  - 物理余量是指当前利用率与最佳点之间的差异
  - 如果当前利用率超过最佳点、则资源将被视为"已过载"。
- 置信系数用于衡量给定资源的最佳点的准确性。
  - 由以下值表示：
    - 1-低- 用于最佳点的种数值。没有足够的数据来预测最佳点。
    - 2 -中-一些数据用于推断最佳点。
    - 3 -高-达到或超过最佳点的大量数据、因此"最佳点"是已知的。
    - 0 - 未知-资源不可用或未使用、或者存在内部错误、导致无法检索数据。

示例： 查看超出CPU和聚合资源限制的节点的性能余量统计信息

cluster::> set -privilege advanced cluster::*> statistics start -object resource_headroom_cpu|resource_headroom_aggr cluster::*> statistics show -object resource_headroom_cpu -counter current_ops|current_latency|current_utilization|optimal_point_latency|optimal_point_ops|optimal_point_utilization|optimal_point_confidence_factor Object: resource_headroom_cpu Instance: CPU_node_2 Start-time: 6/17/2020 12:31:57 End-time: 6/17/2020 13:31:57 Elapsed-time: 3600s Scope: node_2 Counter Value -------------------------------- -------------------------------- current_ops 1506 optimal_point_ops 1264 current_latency 3761 optimal_point_latency 1446 current_utilization 82 optimal_point_utilization 57 optimal_point_confidence_factor 3 cluster::*> statistics show -object resource_headroom_aggr -counter current_ops|current_latency|current_utilization|optimal_point_latency|optimal_point_ops|optimal_point_utilization|optimal_point_confidence_factor Object: resource_headroom_aggr Instance: DISK_HDD_node_2_aggr1_fb7a0d4f-9d65-4211-b651-b4cd422ee11d Start-time: 6/17/2020 12:37:57 End-time: 6/17/2020 13:37:57 Elapsed-time: 3600s Scope: node_2 Counter Value -------------------------------- -------------------------------- current_ops 1488 optimal_point_ops 1156 current_latency 38924 optimal_point_latency 28913 current_utilization 67 optimal_point_utilization 52 optimal_point_confidence_factor 3

Active-IQ 性能信息板可提供较高的时间范围资源统计信息、这些信息板对容量规划更有用。
peak_performance 图形中的度量指标表示 optimal_point_utilization 资源余量统计信息中的计数器。
- Active-IQ性能图的更多详细信息

工作负载利用率

可使用工作负载或QoS 统计信息确定给定资源的容量详细信息
- QoS统计信息可以按节点提供有关工作负载资源利用率的时间点统计信息

示例： 卷 vol4test 占用大量CPU和聚合资源。

cluster::> qos statistics volume resource cpu show -node node_1 Workload ID CPU --------------- ----- ----- -total- (400%) - 69% vol4test-wid2.. 23350 69% -total- (400%) - 73% vol4test-wid2.. 23350 73% -total- (400%) - 73% vol4test-wid2.. 23350 73% -total- (400%) - 70% vol4test-wid2.. 23350 70% cluster::> qos statistics volume resource disk show -node node_1 Workload ID Disk Number of HDD Disks Disk Number of SSD Disks --------------- ------ ------ ------------------- ------ ------------------- -total- - 32% 26 0% 0 vol4test-wid2.. 23350 92% 9 0% 0 -total- - 33% 26 0% 0 vol4test-wid2.. 23350 96% 9 0% 0 -total- - 33% 26 0% 0 vol4test-wid2.. 23350 97% 9 0% 0 -total- - 31% 26 0% 0 vol4test-wid2.. 23350 91% 9 0% 0

追加信息

CLI から WAFLTOP 出力を収集する方法此外、还可以使用node shell wafltop命令来帮助确定哪些卷/工作负载是各种资源的最大使用者
什么是性能容量