Active IQ 健康:影响极高—此系统的性能容量已接近极限
不可不使用
适用场景
ONTAP 9
问题解答
查看此信息的价值:
- 性能容量或余量用于衡量在工作负载性能开始受延迟影响之前,您可以在节点或聚合上执行的工作量。
- 了解并管理可用性能容量有助于确保配置和平衡工作负载以获得预期响应时间。
如何验证此健康检查?
当前性能容量可通过 3 种不同的方法访问和查看:
- 按照 ONTAP 9 文档:确定剩余性能容量中所述的步骤进行操作
- 此方法利用在 ONTAP 系统上维护的 1 个月的启发式数据。
- Active IQ Unified Manager
- 此方法利用 Active IQ Unified Manager 以 CM_Archive 格式收集的 3 个月数据。
- 此方法利用 Active IQ Unified Manager 以 CM_Archive 格式收集的 3 个月数据。
- Active IQ
- (节点 - CPU ) CPU 性能容量是 pease_performance 计数器与 current_utilization 计数器之间的差值:
- (本地层 - 聚合利用率 % )请注意, Active IQ 未提供峰值,因此无法用于聚焦可用性能容量,但可以查看当前利用率峰值:
- 请注意,由于驱动器数量较少或定期执行的卷顺序 IO 较高,没有数据聚合或具有备份 / 灾难恢复角色的系统可能会显示较低的聚合利用率性能余量。
- 如果相关系统不关心每 IO 延迟增加的问题,则可以忽略此风险的实例。
- 通过在每日性能数据通知 AutoSupport 消息中发送给 NetApp 的 AutoSupport 计数器管理器数据,可以验证此风险。
- 评估的数据与 ONTAP 9 命令行界面 1 个月的计算结果一致。
- 在所有现有 NetApp 系统中查看可用性能容量、以确定此警报的影响级别:
- 如果值大于 99.5 分位数或前 0.5% ,则会导致高风险
- 从第 99 位到第 99.5 位的值将生成 中等风险
- (节点 - CPU ) CPU 性能容量是 pease_performance 计数器与 current_utilization 计数器之间的差值:
对于此活动 IQ 健康规则提供的信息,我该怎么办?
- 如果您已经制定了此主动主动主动主动主动主动主动主动主动式 IQ 警告的计划、请在活动 IQ 仪表板中确认该计划。
- 这将确保您看到的健康警告是您没有计划解决的问题。
- 要解决此类方案:
- 如果可用性能容量不足以处理工作负载、并且当前工作负载不能承受更高的延迟、请勿尝试增加工作负载。
- 确保您正在监控工作负载指示器(例如以 XBps/IOPS/ 为单位的吞吐量和利用率)、以便在达到性能影响的程度之前做出响应和计划。
良好的开端是性能管理指南、其中包括使用 Active IQ Unified Manager 、设置阈值和警报。
可以监视以下计数器:
- 如果在监视选定阈值时检测到有关超出容量阈值的警告、请根据需要将工作负载减少或重新定位到较少占用的节点,以确保持续的预期性能。
- 使用 Unified Manager 的“使用概述”面板可以识别最耗用的工作负载,并尝试确保它们不共享同一个控制器。
- 使用 Active IQ 查看当前和峰值性能( CPU )或平均利用率峰值( aggr )之间的差异,该差异与 AutoSupport 提供的性能容量信息相关。
如果当前利用率接近峰值性能或出现峰值,建议查看工作负载,如果出现问题,请将工作负载重新定位到不太繁忙的节点。 - 请查看知识库:如何使用监控工具纠正性能问题
追加信息
在哪里可以找到有关此主题的更多信息?