我的控制器是否过载?
适用场景
ONTAP 9
问题解答
- 可通过 Active IQ Unified Manager 的资源余量统计信息或性能容量来确定此问题的问题解答
- 资源性能余量统计信息包括特定资源在性能余量指导背景下的利用率、操作和延迟详细信息、可提供:
- 工作负载放置规划
- 工作负载平衡
- 资源性能容量的可见性
- 帮助确定对于给定节点来说过高的工作负载。
资源余量
- ONTAP 资源余量对象统计信息有助于了解资源利用率以及CPU和聚合资源的可用余量。
- 对于CPU资源:
resource_headroom_cpu
。 - 对于存储聚合资源:
resource_headroom_aggr
。
- 对于CPU资源:
current_[ops|latency|utilization]
和相应optimal_point_*
的计数器可提供当前利用率与最佳点的时间点统计信息optimal_point
此时、利用率或工作负载的增加会导致延迟的增加不成比例地增加。- 通过这些计数器、可以计算物理余量或性能容量
- 物理余量是指当前利用率与最佳点之间的差异
- 如果当前利用率超过最佳点、则会将此资源视为"过载"。
- 置信因子用于测量给定资源的最佳点的准确性。
- 由以下值表示:
- 1 -低-种子值用于获得最佳点。没有足够的数据来预测最佳点。
- 2 -中-一些数据用于推断最佳点。
- 3—高—达到或超过最佳点的大量数据、因此"最佳点"是已知的。
- 0 -未知-资源不可用或未使用、或者存在内部错误、无法检索数据。
- 由以下值表示:
示例: 查看超过CPU和聚合资源的节点的性能余量统计信息
cluster::> set -privilege advanced cluster::*> statistics start -object resource_headroom_cpu|resource_headroom_aggr cluster::*> statistics show -object resource_headroom_cpu -counter current_ops|current_latency|current_utilization|optimal_point_latency|optimal_point_ops|optimal_point_utilization|optimal_point_confidence_factor Object: resource_headroom_cpu Instance: CPU_node_2 Start-time: 6/17/2020 12:31:57 End-time: 6/17/2020 13:31:57 Elapsed-time: 3600s Scope: node_2 Counter Value -------------------------------- -------------------------------- current_ops 1506 optimal_point_ops 1264 current_latency 3761 optimal_point_latency 1446 current_utilization 82 optimal_point_utilization 57 optimal_point_confidence_factor 3 cluster::*> statistics show -object resource_headroom_aggr -counter current_ops|current_latency|current_utilization|optimal_point_latency|optimal_point_ops|optimal_point_utilization|optimal_point_confidence_factor Object: resource_headroom_aggr Instance: DISK_HDD_node_2_aggr1_fb7a0d4f-9d65-4211-b651-b4cd422ee11d Start-time: 6/17/2020 12:37:57 End-time: 6/17/2020 13:37:57 Elapsed-time: 3600s Scope: node_2 Counter Value -------------------------------- -------------------------------- current_ops 1488 optimal_point_ops 1156 current_latency 38924 optimal_point_latency 28913 current_utilization 67 optimal_point_utilization 52 optimal_point_confidence_factor 3
- 可以从Active-IQ 性能信息板获得更长的时间范围资源统计信息、这些信息对于容量规划更有用。
peak_performance
图形中的度量指标表示optimal_point_utilization
resource_余 量统计信息中的计数器。- 有关Active-IQ性能图的更多详细信息
工作负载利用率
- 通过使用工作负载或QoS统计信息、可以确定给定资源的容量的详细信息
- QoS统计信息可以按节点提供工作负载资源利用率的时间点统计信息
示例: 卷 vol4test
占用了CPU和聚合资源的资源。
cluster::> qos statistics volume resource cpu show -node node_1 Workload ID CPU --------------- ----- ----- -total- (400%) - 69% vol4test-wid2.. 23350 69% -total- (400%) - 73% vol4test-wid2.. 23350 73% -total- (400%) - 73% vol4test-wid2.. 23350 73% -total- (400%) - 70% vol4test-wid2.. 23350 70% cluster::> qos statistics volume resource disk show -node node_1 Workload ID Disk Number of HDD Disks Disk Number of SSD Disks --------------- ------ ------ ------------------- ------ ------------------- -total- - 32% 26 0% 0 vol4test-wid2.. 23350 92% 9 0% 0 -total- - 33% 26 0% 0 vol4test-wid2.. 23350 96% 9 0% 0 -total- - 33% 26 0% 0 vol4test-wid2.. 23350 97% 9 0% 0 -total- - 31% 26 0% 0 vol4test-wid2.. 23350 91% 9 0% 0