ファイル記述子のリークによって「 Too many open files 」エラーが原因で、 Active IQ Unified Manager Web インターフェイスが応答しなくなりました
環境
Active IQ Unified Manager(AIQUM)9.9以前
問題
- AIQUM WebUIが応答しない
- トリガーされたAPI呼び出しが失敗する
Error 500 - Internal Server Error
- GrafanaがAIQUMのレポートを作成できない
server.log
Too many open files
エラーを表示:
ERROR [org.jboss.as.server.deployment.scanner] (DeploymentScanner-threads - 1) WFLYDS0012: Scan of /opt/netapp/essentials/jboss/standalone/deployments threw Exception: java.lang.RuntimeException: WFLYDS0032: Failed to list files in directory /opt/netapp/essentials/jboss/standalone/deployments. Check that the contents of the directory are readable.
...
Caused by: java.nio.file.FileSystemException: /opt/netapp/essentials/jboss/standalone/deployments: Too many open files
Exception handling request to /apis/XMLrequest: java.lang.RuntimeException: java.io.IOException: Cannot run program "/opt/netapp/essentials/jboss/bin/native/lib64/authenticate": error=24, Too many open files
ocumserver.log
Got IO exception while processing access_log
Too many open files
Duringで示されますAccess Log Task
INFO [oncommand] [Access Log Task] [com.netapp.ipc.util.AccessLogTask] <YEAR>-<MONTH>-<DATE> is older than 30 days
ERROR [oncommand] [Access Log Task] [com.netapp.ipc.util.AccessLogTask] Got IO exception while processing access_log
java.nio.file.FileSystemException: /var/log/ocie/<YEAR>-<MONTH>-<DATE>: Too many open files
- コマンドを
lsof -p `cat /var/run/ocie.pid` | awk '{print $9}' | sort | grep "/var/log/ocie/20" | uniq -c
実行すると、/var/log/ocie/<YEAR>-<MONTH>-<DATE>
30日以上経過したディレクトリの多数のファイル記述子が表示されます。
174 /var/log/ocie/2019-08-26
172 /var/log/ocie/2019-08-27
:
34 /var/log/ocie/2021-07-13
98 /var/log/ocie/2021-07-14
98 /var/log/ocie/2021-07-15
40 /var/log/ocie/2021-07-16