跳转到主内容

如何正常关闭和启动集群中的所有 ONTAP 节点

Views:
241
Visibility:
Public
Votes:
0
Category:
ontap-9
Specialty:
hw
Last Updated:

适用场景

  • ONTAP 9
  • AFF 型号
  • FAS 型号
  • 排除 MetroCluster

问题描述

简介

以下几个事件可能需要正常关闭 ONTAP 设备:

  • 计划内站点断电
  • 数据中心范围内的维护
  • 物理系统移动
  • 准备将来重新利用设备
前提条件
  • 此操作步骤 仅适用于非 MetroCluster 配置
  • ONTAP 9 的本地管理员密码
  • 如果使用 NetApp 板载密钥管理( OKM ),则使用集群范围的密码短语 可用
  • 确保 每个控制器的 SP/BMC 均可访问
  • 停止所有客户端 / 主机访问 NetApp 系统上的数据
  • 暂停外部备份作业
  • 现场人员执行物理设备任务
  • 现场维护的一般准备工作
关闭之前的最佳实践
确定硬件组件

ONTAP 系统由以下一个或多个组件组成。使用以下链接可查看有用的详细信息和图片,以帮助现场人员查找和识别设备。

操作步骤

执行正常关闭
重要信息:此操作步骤将关闭集群中的所有节点,并使无法访问集群上的数据,直到系统重新启动为止。
  1. 通过SSH 登录到集群。否则,请使用 本地控制台缆线从集群中的任何节点登录
  2. 如何在计划维护时段解决指南中禁止自动创建案例 关闭事件的预期持续时间生成案例禁止 AutoSupport 以及任何描述性文本:

cluster1::> system node autosupport invoke -node * -type all -message "MAINT=8h Power Maintenance"

  1. 确定所有节点的 SP/BMC IP 地址:

cluster1::> system service-processor show -node * -fields address
node address
-------------- ------------
cluster1-01 10.10.10.10
cluster1-02 10.10.10.20
cluster1-03 10.10.10.30
cluster1-04 10.10.10.40

  1. 退出集群 Shell :

cluster1::> exit

  1. [1] 使用步骤 3 中任何节点的 IP 地址通过 SSH 连接到 SP/BMC 。否则,请将 本地控制台缆线连接 到节点。使用相同的集群管理员凭据登录。 

如果通过 SP/BMC 提示符访问,请切换到 system console并提供集群管理员凭据:

SP-login: login:
login as: admin
admin@10.10.10.10's password:
SP cluster1-01> system console
Type Ctrl-D to exit.
SP-login: admin
Password:
cluster1::>​​​​

注意: 打开每个 SP 的 SSH 会话窗口以进行监控,如本步骤所述。

  1. 暂停集群中的所有节点:

对于大多数集群配置 -

cluster1::> system node halt -node * -skip-lif-migration-before-shutdown true -ignore-quorum-warnings true -inhibit-takeover true

对于具有 StrictSync SnapMirror 关系的集群 -

 cluster1::> system node halt -node * -skip-lif-migration-before-shutdown true -ignore-quorum-warnings true -inhibit-takeover true -ignore-strict-sync-warnings true 
  1. 响应每个节点的提示:

Warning: Are you sure you want to halt node "cluster1-01"?
{y|n}: y

Warning: Are you sure you want to halt node "cluster1-02"?
{y|n}: y

Warning: Are you sure you want to halt node "cluster1-03"?
{y|n}: y

Warning: Are you sure you want to halt node "cluster1-04"?
{y|n}: y

4 entries were acted on.

  1. 通过达到 LOADER 提示符,等待节点完全暂停:

LOADER-A/B>

  1. 通过SP/BMC (如果尚未连接)或 使用本地控制台缆线连接到集群中的每个节点 ,并确认每个节点均处于 LOADER 提示符处(如步骤 8 中所述)。
  2. (可选)从 SP/BMC 提示符处关闭每个控制器:

SP> system power off

有关 How to perform graceful shutdown and power up of all ONTAP nodes in a cluster#Additional_Information 详细信息和警告,请参见 " 其他信息 " 一节。

物理活动
此处的物理活动可确保在系统关闭时不会发生设备损坏,并确保按照正确的设备启动顺序执行操作,以便 ONTAP 系统能够在事件完成后提供数据。
  1. 记下系统上当前存在的任何故障—控制器,磁盘架, IOM ,磁盘, PSU 上的琥珀色 LED 等
  2. 将每个 PSU 切换开关切换到每个设备上的 OFF 位置。

注意:某些 PSU 没有切换开关。

  1. 拔下将每个 PSU 连接到 PDU 的电源线。
  2. 目视确认每个组件已成功关闭。
  3. 确保与集群关联的所有控制器,磁盘架和交换机均已关闭。
正在执行系统启动

必须按以下顺序启动操作步骤:

  1. 交换机(网络 /FC/storage )
  2. 磁盘架
  3. 控制器
交换机通电
  1. 重新插入从 PDU 到 PSU 的每个电源线。
  2. 将每个摇臂开关翻转到 ON 位置(如果适用)。
  3. 等待交换机启动。
  4. 检查交换机(正面和背面)上是否存在任何故障指示灯。
  5. 通过管理 IP 地址连接到交换机。
  6. 确认交换机运行状况(有关详细信息,请参见交换机供应商文档)。
  7. 对每个交换机重复上述步骤,直到所有交换机均已启动且运行正常为止。
磁盘架已启动
  1. 重新插入从 PDU 到 PSU 的每个电源线。
  2. 将每个摇臂开关翻转到 ON 位置(如果适用)。
  3. 等待所有磁盘架启动,并等待驱动器启动。
  4. 确保所有磁盘架 ID 均为正确值。
  5. 检查磁盘架(正面和背面)上在关闭之前是否存在任何故障指示灯。
控制器已启动
  1. 重新插入从 PDU 到 PSU 的每个电源线。
  2. 将每个摇臂开关翻转到 ON 位置(如果适用)。不在同一机箱中的 HA 对应同时启动。
  3. 等待机箱中的控制器启动。
  4. 检查机箱和控制器(正面和背面)上是否存在任何故障指示灯。
  5. 对每个控制器 / 机箱交换机重复上述步骤,直到所有交换机都启动为止。
  6. 通过 SSH 连接到集群管理 IP 地址。
  7. 执行其他 系统运行状况检查
  8. 生成 维护任务完成 (步骤 4 ) AutoSupport 。

cluster1::> system node autosupport invoke -node * -type all -message MAINT=end

启动后的最佳实践
故障排除
交换机无法启动
  • 请联系第三方支持 部门,联系受损交换机的相应供应商。
  • 在修复受损交换机之前,请勿继续启动操作步骤。
磁盘架无法启动
  • 请联系NetApp 技术支持并参考此文章,以获得对磁盘架进行故障排除的进一步帮助。
  • 在修复受损磁盘架之前,请勿继续启动操作步骤。
控制器无法启动

如果其中一个控制器无法启动(例如主板故障),则 HA 配对-inhibit-takeover true 节点不会接管,因为该标志是在关闭时使用的。系统状态将类似于:

cluster1::*> storage failover show
Takeover
Node Partner Possible State Description
-------------- -------------- -------- -------------------------------------
cluster1-01 cluster1-02 - Unknown
cluster1-02 cluster1-01 false Waiting for cluster1-01. Waiting
for cluster applications to come
online on the local node. Offline
applications: mgmt, vldb, vifmgr,
bcomd, crs., Takeover is not
possible: Partner node halted after
disabling takeover, Disk inventory
not exchanged
2 entries were displayed.

如果无法启动控制器,要从此情况中恢复,请执行以下步骤:

  1. 请联系NetApp 技术支持并参考此文章,以获得对受损控制器进行故障排除的进一步帮助。
  2. 输入高级权限:

cluster1::> set -privilege advanced

  1. 强制接管受损节点:

cluster1::*> storage failover takeover -option force -ofnode cluster1-01 -skip-lif-migration-before-takeover true

  1. 受损节点中的任何 LIF 最终将出现在可用节点上(如果有可用的广播域端口)。
  2. 修复受损节点后,执行正常交还。

追加信息

提示

要远程关闭控制器,请执行以下操作:

 SP> system power off This will cause a dirty shutdown of your appliance. Continue? [y/n] y SP> system power status Chassis Power is off 

只有在完全关闭且节点处于 LOADER 提示符处后,才能忽略此警告。任何其他用途都可能导致发生原因数据丢失。

从同一机箱中的其他 SP 重复上述步骤(如果适用)。

 

Sign in to view the entire content of this KB article.

New to NetApp?

Learn more about our award-winning Support

Scan to view the article on your device