批量删除 LUN 后系统性能下降
适用于
- NetApp AFF-A300
- ONTAP 9.13.1P9 (集群模式)
- iSCSI 协议环境
- 经历大规模 LUN 删除和高聚合利用率的系统
问题描述
- 删除了大量 LUN(约 106TB,约占聚合的 40%),导致:
- 高 CPU 利用率(后台删除工作负载飙升至 30%)
- WAFL_CP(一致性点)工作负载提升至约 50%
- 客户端工作负载的大规模延迟(WAFLSuspOther 延迟达数百秒)
- 许多实例的卷访问超时和失败
- EMS 日志示例:
Mon Dec 01 1:00:00+0000 [Node01:VdomAsyncTh_03:LUN.destroy:notice]: LUN /vol/vol_01/volume-d7s8d9s0-d8s7-7744-7283-875b7b6b9b5b destroyed (UUID:d7s8d9s0-d8s7-7744-7283-875b7b6b9b5b). - 业务影响:受影响的客户端无法访问写入/读取卷。