如何确定要在 Active 中订阅的 ONTAP EMS 事件 IQ Unified Manager
适用场景
- ONTAP 9.3.x及更高版本
- ONTAP EMS
- OnCommand统一管理器7.x - 9.5.x
- Active IQ Unified Manager 9.6.x及更高版本
问题描述
从9.6 版开始、OnCommand Unified Manager已更名为Active IQ Unified Manager。 在本文中、Unified Manager将指OnCommand Unified Manager 7.x - 9.5.x和Active IQ Unified Manager 9.6.x及更高版本。Unified Manager在7.0 版中引入了一项功能、允许Unified Manager订阅特定的ONTAP EMS事件。在这种情况下、Unified Manager可作为一个中央位置来接收严重EMS事件、并通过针对EMS事件配置的警报向管理员发送通知。集中式监控和管理可简化根据这些关键EMS事件配置关键EMS事件和警报通知的过程。
操作步骤
正在查询Data ONTAP 9.x上的EMS事件
Unified Manager需要输入特定的文本字符串来配置EMS订阅。此文本字符串是EMS消息名称。可以通过在正在运行的集群上发出集群Shell (CLI)命令来直接查询EMS目录来确定消息名称。
前提条件:- 您必须具有允许集群Shell (CLI)访问(通过SSH客户端)的角色、才能
event*
对Unified Manager支持的ONTAP版本运行命令。 - 作为示例运行的所有命令均来自集群Shell、不需要提升Privileges。
要简化命令输入并最大程度地减少输入错误、请在输入部分文本字符串后使用Tab键补全。
小心 请勿在Unified Manager中的EMS订阅配置或集群上的直接配置中使用标记为已弃用的事件。 弃用的事件可能会随时删除。 |
严重性和严重性定义是什么?
- ONTAP 9.3及更高版本
clu93::> event catalog show -severity ?
EMERGENCY Disruption
ALERT Single point of failure
ERROR Degradation
NOTICE Information
INFORMATIONAL Information
DEBUG Debug information
哪些类型的事件会callhome
asup
为磁盘架故障生成AutoSupport (""、目标为"")(shlf*
是否为通配符搜索)?这些是其他需要关注的高严重性事件(请参见 EMS配置快速指南)。请注意下面输出的第一列中的消息名称。此消息名称是配置Unified Manager EMS订阅功能时所需的字符串。通配符可用于搜索事件。
- ONTAP 9.3及更高版本
clu93::> event catalog show -message-name callhome.shlf*
Message Severity SNMP Trap Type
-------------------------------- ---------------- -----------------
callhome.shlf.fan EMERGENCY Severity-based
callhome.shlf.fan.warn ERROR Severity-based
callhome.shlf.fault ERROR Severity-based
callhome.shlf.overtemp ERROR Severity-based
callhome.shlf.power.intr ERROR Severity-based
callhome.shlf.ps.fault ERROR Severity-based
6 entries were displayed.
运行 event catalog show -message-name
以查看有关EMS事件的详细信息。
- ONTAP 9.3及更高版本
clu93::> event catalog show -message-name callhome.shlf.fan
Message Name: callhome.shlf.fan
Severity: EMERGENCY
Description: This message occurs when the system detects faulty hardware on the disk shelf, such as a fan, power supply unit (PSU), or failing temperature sensor. The problem might be environmental (temperature or faulty power) or hardware-related. If your system is configured to do so, it generates and transmits an AutoSupport (or 'call home') message to NetApp technical support and to the configured destinations. Successful delivery of an AutoSupport message significantly improves problem determination and resolution.
Corrective Action: Evaluate the environment in which your system is operating and identify whether the problem is environmental or hardware-related. Your system should be in a room with an operating temperature of 18C to 24C (65F to 75F). If faulty hardware caused the error, such as a bad temperature sensor or a broken fan, replace the faulty part as soon as possible. If you need assistance, contact NetApp technical support.
SNMP Trap Type: Severity-based
Is Deprecated: false
另一个事件呢?示例:SnapMirror备份对业务至关重要、监控状态非常重要。
- ONTAP 9.3及更高版本
clu93::> event catalog show -message-name snapmirror*
Message Severity SNMP Trap Type
-------------------------------- ---------------- -----------------
snapmirror.block.on.reconstruct NOTICE Severity-based
snapmirror.block.reconstructErr ERROR Severity-based
snapmirror.conf.depre.cpsync ERROR Severity-based
snapmirror.conf.full ERROR Severity-based
snapmirror.conf.invalidStr ERROR Severity-based
snapmirror.conf.obsolete.nvsync ERROR Severity-based
…
"状态"项是业务需要监控的事件、尤其是SnapMirror更新中的错误:
- ONTAP 9.3及更高版本
clu93::> event catalog show -message-name snapmirror.status*
Message Severity SNMP Trap Type
-------------------------------- ---------------- -----------------
snapmirror.status.dstUpdateSnapErr
ERROR Severity-based
snapmirror.status.illegalSrcPath ERROR Severity-based
snapmirror.status.noBaseSnapshot ERROR Severity-based
snapmirror.status.updateStatusErr
ERROR Severity-based
4 entries were displayed.
snapmirror.status.updateStatusErr
事件详细信息用于确认何时触发事件进行监控、以及可能的更正操作、以便在遇到此事件时对问题描述进行修复:
- ONTAP 9.3及更高版本
clu93::> event catalog show -message-name snapmirror.status.updateStatusErr
Message Name: snapmirror.status.updateStatusErr
Severity: ERROR
Description: This event is generated when Data ONTAP cannot update the ONTAP system registry with upgraded snapmirror status information. Insufficient disk space on the root volume is the most common reason for this failure.
Corrective Action: Check if the root volume is out of disk space by issuing the 'df' command from the appliance CLI. If the root volume is full, either free up space or add more disks on the volume.
SNMP Trap Type: Severity-based
Is Deprecated: false
检查Data ONTAP 9.x EMS目录文件
可以通过三种方式检查EMS目录:
- 基于文件、使用打开文件的应用程序中的搜索功能。每个正在运行的ONTAP集群都有一份EMS目录副本,位于以下集群节点上:
/etc/ems/ems_catalog.ems
。 此ems_catalog.ems
文件可下载并在任何文本编辑器中打开(文件格式为XML)以供检查。本文还提供了XML文件。 请参阅下面的"EMS"部分、下载按ONTAP版本组织的追加信息目录。 - [1] docs.netapp.com中的EMS参考。 可以查看特定事件类型、例如"CallHome"或将特定事件类型导出为PDF。
- 查看EMS目录文档(PDF格式)。EMS目录PDF文件可从产品库文档: ONTAP 9的 "更多资源"部分中获得、或者访问以下特定版本链接:
- ONTAP 9.151 EMS事件目录
- ONTAP 9.14.1 EMS事件目录
- ONTAP 9.131 EMS事件目录
- ONTAP 9.12.1 EMS事件目录
- ONTAP 9.11.1 EMS事件目录
- ONTAP 9.10.1 EMS事件目录
- ONTAP 9.9.1 EMS事件目录
- ONTAP 9.8 EMS事件目录
- ONTAP 9.7 EMS事件目录
- ONTAP 9.6 EMS事件目录
- ONTAP 9.5 EMS事件目录
- ONTAP 9.4 EMS事件目录
- ONTAP 9.3 EMS事件目录
- ONTAP 9.2 EMS事件目录
- ONTAP 9.1 EMS事件目录
- ONTAP 9.0 EMS事件目录
小心 请勿在Unified Manager中的EMS订阅配置或 集群上的直接配置中使用标记为已弃用的事件。 弃用的事件可能会随时删除。 对于ONTAP 9.0、请勿使用信息性严重性类、因为它已弃用。 |
EMS目录文件、XML格式:
- ONTAP 9.9.1、9.10.1 - GA版本: ems_catalog_991-9101_GA.zip
- ONTAP 9.6、9.7、9.8 - GA版本: ems_catalog_96-97-98_GA.zip
- ONTAP 9.3、9.4、9.5—GA版本: ems_catalog_93-94-95_GA.zip
- ONTAP 9.0、9.1、 9.2—GA版本: ems_catalog_90-91-92_GA.zip
追加信息
有关在Active IQ Unified Manager中设置ONTAP EMS订阅的其他知识库文章: