跳转到主内容

OnCommand Unified Manager —什么是节点资源过度利用以及如何解决该问题?

Views:
10
Visibility:
Public
Votes:
0
Category:
oncommand-unified-manager
Specialty:
om
Last Updated:

适用于

  • ONTAP 9 , 9.1 至 9.6
  • 集群模式 Data ONTAP 8.2
  • OnCommand Unified Manager 6.x , 7.2 , 7.3 , 9.4 , 9.5
  • AIQ
  • Unified Manager 9.6

解答

什么是节点资源过度利用以及如何解决该问题?

OnCommand Unified Manager 提供了一些标准阈值策略、可以自动监控性能并生成事件。默认情况下会启用这些策略、如果在 6 个连续的收集期间( 30 分钟)违反了受监视的阈值,则这些策略将生成警告事件。节点资源过度利用可以确定单个节点在超出其运营效率范围的情况、从而可能影响工作负载延迟。它通过查找使用超过 85% CPU 资源的节点来实现此目的。

在 OnCommand Unified Manager 中,此计算基于使用以下计数器的复杂算法:

 avg_processor_busy cpu_elapsed_time1 total_cp_msecs cp_phase_times[P2_FLUSH] domain_busy{kahuna] processor_elapsed_time 

此警报仅表示存储控制器正忙 30 分钟或更长时间。可能不需要采取纠正措施、或者您可以继续提供无问题的数据。但是,在某些情况下、生成此警报时、控制器上的工作负载可能会影响性能。在打开 NetApp 技术支持案例之前,请确认以下内容:

  • 生成警报时是否有卷 / LUN 面临延迟?
  • 您的环境 / 应用程序的延迟是否超过可接受的阈值?
  • 受影响的操作类型是什么?读取或写入?
  • 环境是否发生了任何变化、包括用户工作负载和基础架构?
  • 性能影响是否可重现?活动或工作负载是否会触发性能影响?

如果您可以确认在生成此警报时工作负载受到影响、请打开 NetApp 技术支持案例以进行进一步调查。同时,收集性能数据以进行故障排除:

如果工作负载没有受到影响、或者您正在正常提供数据、则可以安全地忽略警报、尽管您应该密切监视节点性能。

有关 Data ONTAP 中 CPU 调度和利用率的详细信息,请参见 KB : CPU Utilization in Data ONTAP : Scheduling and Monitoring 。

其他信息