OnCommand Unified Manager —什么是节点资源过度利用以及如何解决该问题?
适用于
- ONTAP 9 , 9.1 至 9.6
- 集群模式 Data ONTAP 8.2
- OnCommand Unified Manager 6.x , 7.2 , 7.3 , 9.4 , 9.5
- AIQ
- Unified Manager 9.6
解答
什么是节点资源过度利用以及如何解决该问题?
OnCommand Unified Manager 提供了一些标准阈值策略、可以自动监控性能并生成事件。默认情况下会启用这些策略、如果在 6 个连续的收集期间( 30 分钟)违反了受监视的阈值,则这些策略将生成警告事件。节点资源过度利用可以确定单个节点在超出其运营效率范围的情况、从而可能影响工作负载延迟。它通过查找使用超过 85% CPU 资源的节点来实现此目的。
在 OnCommand Unified Manager 中,此计算基于使用以下计数器的复杂算法:
avg_processor_busy cpu_elapsed_time1 total_cp_msecs cp_phase_times[P2_FLUSH] domain_busy{kahuna] processor_elapsed_time
此警报仅表示存储控制器正忙 30 分钟或更长时间。可能不需要采取纠正措施、或者您可以继续提供无问题的数据。但是,在某些情况下、生成此警报时、控制器上的工作负载可能会影响性能。在打开 NetApp 技术支持案例之前,请确认以下内容:
- 生成警报时是否有卷 / LUN 面临延迟?
- 您的环境 / 应用程序的延迟是否超过可接受的阈值?
- 受影响的操作类型是什么?读取或写入?
- 环境是否发生了任何变化、包括用户工作负载和基础架构?
- 性能影响是否可重现?活动或工作负载是否会触发性能影响?
如果您可以确认在生成此警报时工作负载受到影响、请打开 NetApp 技术支持案例以进行进一步调查。同时,收集性能数据以进行故障排除:
- 对于运行集群模式 Data ONTAP 8.2.x 或更低版本的存储控制器、请在性能影响事件期间收集 perfstat 。
- 对于运行集群模式 Data ONTAP 8.3+ 的存储控制器、在性能影响事件期间收集 perfstat 、并在生成警报时首次对性能产生影响时触发性能归档。
- 性能和统计数据收集器( Perfstat 集群模式 Data ONTAP )
- 请参见 KB : Performance Archives : Performance First Failure Data Collection for Clustered Data ONTAP 8.3 and 更高版本
如果工作负载没有受到影响、或者您正在正常提供数据、则可以安全地忽略警报、尽管您应该密切监视节点性能。
有关 Data ONTAP 中 CPU 调度和利用率的详细信息,请参见 KB : CPU Utilization in Data ONTAP : Scheduling and Monitoring 。
其他信息
- OnCommand Unified Manager 会在高节点利用率时发出警告
- 中节点的 OnCommand Unified Manager 节点利用率显著变化 已升级到 ONTAP 9.4 或更高版本的集群
- 在 ActiveIQ Unified Manager 9.7 和 9.8 中,此事件的警报功能已显著改进。如果您遇到有关节点资源过度利用的过度警报,请升级到其中一个版本。