跳转到主内容

高可用性“无法接管”事件的常见原因是什么?

Views:
75
Visibility:
Public
Votes:
0
Category:
ontap-9
Specialty:
core
Last Updated:

适用于

  • ONTAP 9
  • Data ONTAP 8
  • Data ONTAP 7 及更早版本

解答

如果在接管尝试之前确定接管操作将失败、 Data ONTAP 将不会尝试进行合作伙伴接管。

最终的 AUP 将自动打开客户支持案例,并在症状字段中显示“无法接管”。  问题症状文本的格式为:

CLTFLT: Cluster Notification from (PARTNER DOWN, TAKEOVER IMPOSSIBLE) ERROR

本文介绍了如何诊断接管不可能发生的事件的五个常见原因以及纠正发现的问题所需的操作。  重点是从 AUP 日志进行远程诊断、主要是消息和集群监控日志。

大约 70% 的 NetApp FAS3000 、 FAS3100 和 FAS6000 系统都部署为高可用性( HA )配置。  正确配置 HA 系统需要安装所有必需的 HA 硬件、启用集群软件许可证、设置 HA 相关选项等。

如果在接管尝试之前确定接管操作将失败、 Data ONTAP 将不会尝试进行合作伙伴接管。   最终的 AUP 将自动打开客户支持案例,并在症状字段中显示“无法接管”。问题症状文本的格式为:

CLTFLT: Cluster Notification from (PARTNER DOWN, TAKEOVER IMPOSSIBLE) ERROR 

在许多情况下、如果 HA 系统配置不正确且无法由合作伙伴系统接管,则每小时的警报消息会发布到控制台。  这些消息的格式为: "Statd:Alert Cluster is licensed but takeover of partner is disabled" 。 本文介绍更正配置问题所需的几种常见消息和操作。  重点是从 AUP 日志进行远程诊断、主要是消息和集群监控日志。

集群已获得许可、但已禁用接管合作伙伴

ASUP 消息日志中的每小时消息格式如下:

[: statd:ALERT]: Cluster is licensed but takeover of partner is disabled.

系统报告此消息的最常见原因是操作员已手动禁用接管功能。  操作员已从控制台命令行输入了 cf disable 。  输入 cf enable 将重新启用接管并清除每小时警报消息。

要确认操作人员已禁用接管功能、请检查 AUP 集群监控日志。  日志中的第五个条目以 "TakeOverbyPartner" 开头。  如果已手动禁用接管、该条目将包含文本字符串:

"NVRAM_DOWN,CLUSTER_DISABLE"

示例:
===== CLUSTER MONITOR =====
cf: Current monitor status (28Jun2009 00:00:02):
partner 'NetApp1' VIA Interconnect is up (link 0 up, link 1 up)
state UP, time 90788045660, event CHECK_FSM, elem ChkMbValid (12)
mirrorConsistencyRequired TRUE
takeoverByPartner 0x2041
<< 请查看此处

集群已获得许可、但由于以下原因而禁用接管合作伙伴:互连错误

ASUP 消息日志将以小时为单位记录以下表单: 

[: statd:ALERT]: Cluster is licensed but takeover of partner is disabled due to reason : interconnect error 

互连链路状态显示为集群监控日志中的第二行。  在下面的示例中、互连不存在或两个链接均已关闭。

===== CLUSTER MONITOR =====
cf: Current monitor status (28Jun2009 00:00:01):
partner 'NetApp1', Interconnect not present <<< look here

===== CLUSTER MONITOR =====
cf: Current monitor status (28Jun2009 00:00:02):
partner 'NetApp1', VIA Interconnect is down (link 0 down, link 1 down)   
<<< 请看此处

另一个常见异常情况显示“合作伙伴”为“未知”。

===== CLUSTER MONITOR =====
cf: Current monitor status (28Jun2009 00:00:02):
partner 'unknown', VIA Interconnect is down (link 0 down, link 1 down)
   <<< 请看此处

所需的纠正措施是验证互连电缆 / 链路是否已连接并处于活动状态。  当合作伙伴报告为 " 未知 " 时、请验证合作伙伴文件管理器 / 平台是否存在且处于活动状态。  如果没有合作伙伴系统、则系统可能是 HA 对的一部分、并且未正确地重新配置为独立系统。  有关[1]如何正确拆分集群和清除“未知”合作伙伴消息的详细信息,请参见文档(删除活动 / 活动配置)。

集群已获得许可、但由于以下原因而禁用接管合作伙伴:合作伙伴邮箱磁盘不可访问或无效

ASUP 消息日志将以小时为单位记录以下表单:[ statd:ALERT]: Cluster is licensed but takeover of partner is disabled due to reason : partner mailbox disks not accessible or invalid

邮箱磁盘的状态显示在距集群监控日志顶部大约 15 行的位置。  正常条目将显示所有邮箱磁盘的磁盘路径。  下面提供了一个示例以供参考。  磁盘标识符(示例中为 4a.17 、 4a.29 、 8b.34 、 8b.35 )会因系统配置而异。

mailbox disks:
Disk 4a.17 is a primary mailbox disk
Disk 4a.29 is a primary mailbox disk
Disk 8b.34 is a partner mailbox disk
Disk 8b.35 is a partner mailbox disk

两种常见异常情况:

  1. 没有合作伙伴磁盘条目。  而是日志包含 ''<<<No partner disks attached!

    mailbox disks:
    Disk 8a.20 is a local mailbox disk
    Disk 8a.19 is a local mailbox disk
    No partner disks attached! 
    查看此处 

  2. 某些伙伴磁盘的路径显示为 "?.?" 。

    mailbox disks:
    Disk 4a.17 is a primary mailbox disk
    Disk 4a.29 is a primary mailbox disk
    Disk ?.? is a partner mailbox disk
        <<< 查看此处
    Disk ?.? is a partner mailbox disk  <<< 查看此处

要纠正这些故障情况、请首先检查合作伙伴系统是否存在且处于活动状态。  然后检查 Filer/Platforms (文件管理器 / 平台)中的 FC 适配器以及每个邮箱磁盘架的磁盘架布线。

If the problem continues, check if 'partner-sysid' shows a correct partner-sysid.

CFE> printenv
Variable Name        Value
-------------------- --------------------------------------------------
BOOT_CONSOLE         rlm0a
fcal-host-id         7
partner-sysid        0101183784


然后尝试执行以下步骤、这应该在两个 HA 控制器上执行:

  1. 键入以下命令禁用群集cf disable
  2. 重新启动
  3. Ctrl-C 引导顺序期间按键以转至特殊引导菜单。
  4. 选择选项 5 以进入Maintenance模式。
  5. 类型: mailbox destroy local
  6. 类型: mailbox destroy partner
  7. 类型: halt
  8. 重新启动头。
  9. 类型: cf enable
  10. 类型: ic stats error -v

注意:本地 / 远程站点上可能会出现陈旧的邮箱实例,并在存储系统上显示以下消息:[ds-dt01terra: fmmbx_instanceWorke:info]: missing lock disks, possibly stale mailbox。在升级过程中重新分配驱动器后、不会显示邮箱磁盘。缺少邮箱磁盘。需要重新初始化邮箱磁盘的本地和远程实例。在两个节点上执行上面的步骤 1 至 10 。

帮助诊断磁盘路径问题的一个有用工具是 Config Advisor ( Wiregauge 重命名)、该工具可从 NOW ToolChest 获得。

通过输入 ASUP ID ,可以远程运行 Wiregauge 。  (通过选择“ File > Get AUP ”(文件 > 获取 AUP )输入 AUP ID 。)  比较两个 HA 合作伙伴的 Wiregauge 结果通常会指出邮箱磁盘路径问题的原因。

集群已获得许可、但由于以下原因而导致无法接管合作伙伴: CFO 未获得许可

ASUP 消息日志将以小时为单位记录以下表单:

[: statd:ALERT]: Cluster is licensed but takeover of partner is disabled due to reason : CFO not licensed

如果群集监视器日志包含以下信息、则表示未启用群集许可证。

===== CLUSTER MONITOR =====
Clustered failover is now unlicensed
cf: option 'monitor' requires that cluster licensing is enabled

重新启用集群许可证将清除此错误。  有关[2]详细信息,请参见 Enabling Licenses 。

一个常见原因是系统曾经是高可用性对的一部分、未正确地重新配置为独立。  有关[3]如何正确拆分高可用性对的更多信息、请参见删除主动 / 主动配置。

集群已获得许可、但由于以下原因而禁用接管合作伙伴:未同步日志

ASUP 消息日志将以小时为单位记录以下表单:

[: statd:ALERT]: Cluster is licensed but takeover of partner is disabled due to reason : unsynchronized log 

这通常与互连布线问题有关。

首先,验证互连电缆是否未交叉连接。  在 FAS3000 和 FAS6000 系统上、两个互连端口位于 NVRAM 卡上。  验证端口 0 是否连接到 HA 对中每个系统的端口 0 和端口 1 到端口 1 。

在某些情况下、暂时拔下并重新拔插每个互连电缆将清除此错误。  断开并重新建立互连链路将强制日志重新同步。 

Data ONTAP 8.x 中高可用性“无法接管”事件的变化

  1. 另外还有一些 EMS 消息说明了无法接管的原因。消息以“ha.takeoverImp”开头。
    ha.takeoverImpIC:warning]:由于互连错误,无法接管伙伴节点。
    ha.takeoverImpNotDef:warning]:由于无法确定备份邮箱的状态,因此无法接管伙伴节点。
    ha.takeoverImpNotDef:warning]:由于合作伙伴启动的原因,无法接管合作伙伴节点。
    ha.takeoverImpUnsync:warning]:由于缺少伙伴 NVRAM 数据、无法接管伙伴节点。
    ha.takeoverImpNotDef:warning]:由于合作伙伴在 NoTakeover 模式下停止运行、因此无法接管合作伙伴节点。
  2. Data ONTAP 8 中的每小时接管被禁用消息已更改。请参见以下链接:
    syslog Translator
     
    • Controller Failover is licensed but takeover of partner is disabled due to reason : Controller Failover not initialized
    • Controller Failover is licensed but takeover of partner is disabled due to reason : Controller Failover not licensed
    • Controller Failover is licensed but takeover of partner is disabled due to reason : interconnect error
    • Controller Failover is licensed but takeover of partner is disabled due to reason : local halt in progress
    • Controller Failover is licensed but takeover of partner is disabled due to reason : NVRAM size mismatch
    • Controller Failover is licensed but takeover of partner is disabled due to reason : partner booting
    • Controller Failover is licensed but takeover of partner is disabled due to reason : partner halted in notakeover mode
    • Controller Failover is licensed but takeover of partner is disabled due to reason : partner mailbox disks not accessible or invalid
    • Controller Failover is licensed but takeover of partner is disabled due to reason : status of backup mailbox is uncertain
    • Controller Failover is licensed but takeover of partner is disabled due to reason : takeover disabled by partner
    • Controller Failover is licensed but takeover of partner is disabled due to reason : unsynchronized log
    • Controller Failover is licensed but takeover of partner is disabled due to reason : version mismatch
    • Controller Failover is licensed but takeover of partner is disabled due to reason : waiting for partner to recover
    • Controller Failover is licensed but takeover of partner is disabled: partner identification not accessible or invalid
  3. AUP 日志之一的名称在 8.x 中更改为 CF-Monitor 。

 相关链接:

其他信息

附加信息 _text