如何正常关闭和启动集群中的所有ONTAP节点

最后更新
另存为PDF

Views:: 1,827

Visibility:: Public

Votes:: 3

Category:: ontap-9

Specialty:: HW

Last Updated:

适用场景

ONTAP 9
AFF系统
FAS系统
不包括MetroCluster配置

问题描述

一些事件可能需要正常关闭ONTAP设备、例如：

计划内站点断电。
数据中心范围内的维护。
物理系统移动。
准备将来重新利用设备。

要求

ONTAP的本地管理员凭据。
确保每个控制器的SP/BMC均可访问。
停止所有客户端/主机和外部备份作业访问NetApp系统上的数据-请参阅如何在ONTAP中按协议查看活动客户端连接。
现场人员在准备现场维护后执行物理设备任务。
如果使用MetroCluster：
- 请勿使用此操作步骤、 [1] [2] 而是关闭整个MetroCluster FC配置或整个MetroCluster IP配置。
如果使用SSD：
- 请参阅 SU490：[影响：关键] SSD最佳实践：避免关闭电源超过两个月后发生驱动器故障和数据丢失的风险。
如果使用NetApp板载密钥管理(OKM)并配置为CC模式：
- 可用且经过测试的集群范围密码短语。
如果使用 NetApp StorageGRID或ONTAP S3作为FabricPool云层：
- What is the procedure for graceful shutdown and power up of a storage system during scheduled power outage# 有关在执行后正常关闭这些系统的操作步骤、请参见操作步骤本文中的《正常关闭和启动存储系统解决方案指南》。
如果使用 FlexArray阵列LUN：
- 请按照特定供应商的存储阵列文档进行操作、以了解在执行操作步骤后要对这些系统执行的关闭操作步骤。

关机前
(最佳实践)

执行其他系统运行状况检查。
将ONTAP升级到建议版本。
解决任何 Active IQ健康度警报和风险。
运行 Active IQ Config Advisor。
记下系统上当前的任何故障-控制器、磁盘架、IOM、磁盘、PSU上的琥珀色LED 等等

确定硬件组件

ONTAP系统由以下一个或多个组件组成。请使用以下链接获取有用的详细信息和图片、以帮助现场人员查找和识别设备。

控制器：
磁盘架
交换机：
- 集群互连
- 集群管理
- 存储
- FC

操作步骤

警告

此操作步骤将关闭集群中的所有节点、在系统重新启动之前、无法访问集群上的数据。

ONTAP关闭过程

通过 SSH登录到集群。否则、请使用本地控制台缆线从集群中的任何节点登录。
如何在计划维护时段解决指南中禁止自动创建案例为关闭事件的预期持续时间生成案例禁止AutoSupport消息以及任何描述性文本：

cluster1::>system node autosupport invoke -node * -type all -message "MAINT=8h Power Maintenance"

确定所有节点的SP/BMC IP地址：

cluster1::>system service-processor show -node * -fields address

node address -------------- ------------ cluster1-01 10.10.10.10 cluster1-02 10.10.10.20 cluster1-03 10.10.10.30 cluster1-04 10.10.10.40

退出"体内shell：

cluster1::>exit

[3] 使用步骤3中任一节点的IP地址通过SSH连接到SP/BMC。否则、请将本地控制台缆线连接到此节点。使用相同的集群管理员凭据登录。

如果通过SP或BMC提示符进行访问、请切换到system console 并提供集群管理员凭据：

login as: admin admin@10.10.10.10's password: <password> SP cluster1-01>system console Type Ctrl-D to exit. SP-login: admin Password: <password> cluster1::>

注意： 打开每个SP/BMC的SSH会话窗口、以便按照本步骤所述进行监控。

暂停集群中的所有节点：

对于大多数集群配置：

cluster1::>system node halt -node * -skip-lif-migration-before-shutdown true -ignore-quorum-warnings true -inhibit-takeover true

对于在StrictSync 模式下运行SnapMirror同步的集群：

cluster1::>system node halt -node * -skip-lif-migration-before-shutdown true -ignore-quorum-warnings true -inhibit-takeover true -ignore-strict-sync-warnings true

对每个节点的提示符做出响应：

Warning: Are you sure you want to halt node "cluster1-01"? {y|n}: y Warning: Are you sure you want to halt node "cluster1-02"? {y|n}: y Warning: Are you sure you want to halt node "cluster1-03"? {y|n}: y Warning: Are you sure you want to halt node "cluster1-04"? {y|n}: y 4 entries were acted on.

进入加载程序提示符，等待每个节点完全暂停：

loader-A>

通过 SP/BMC (如果尚未连接)或使用本地控制台缆线连接到集群中的每个节点、并确认每个节点都位于加载程序提示符处(如步骤8中所示)。

关闭电源活动

警告

在 How to perform graceful shutdown and power up of all ONTAP nodes in a cluster#ONTAP_Shutdown_Process 完成完全ONTAP关闭过程之前、请勿继续操作。

本地关闭电源(首选)

此处的物理活动可确保系统断电时不会发生设备损坏、并确保遵循正确的设备启动顺序、以便ONTAP系统准备好在事件完成后提供数据。

将每台设备上的每个PSU摇臂开关切换到关闭位置。

注：某些PSU没有摇臂开关。

拔下将每个PSU连接到PDU的电源线。
目视确认每个组件均已成功关闭电源。
确保与集群关联的所有控制器、磁盘架和交换机均已关闭。

远程关闭电源

[4] 通过SSH连接到SP/BMC。
切换到以确认节点已到达加载程序提示符 system console:

login as: admin admin@10.10.10.10's password: <password> SP cluster1-01>system console Type Ctrl-D to exit. LOADER-A>

可选： 要防止开机后意外启动、请禁用自动启动：

LOADER-A>printenv AUTOBOOT AUTOBOOT true

LOADER-A>setenv AUTOBOOT false

LOADER-A>saveenv

返回到SP/BMC提示符、然后远程关闭节点。

SP/BMC>system power off

确认关闭。警告“这将发生原因a dirty shutdown of your Appliance (这将导致设备异常关闭)”。只有在完全关闭且节点位于加载程序提示符处后才能忽略此问题， 任何其他使用均可发生原因丢失数据。

This will cause a dirty shutdown of your appliance. Continue? [y/n] y

确认电源显示为OFF：

SP/BMC>system power status

Chassis Power is off

在某些型号上运行命令" system power status "时、可能会返回" Host Power is off "、而不是"Chassis Power is off"

对要关闭的其他节点重复上述步骤。

启动活动

当系统准备好重新启动时、请按照How to power all ONTAP node in a cluster (如何在正常关闭后启动集群中的所有节点)中的步骤进行操作

追加信息

在计划内断电期间正常关闭和启动存储系统的操作步骤是什么？
如果我们无法控制客户端来停止I/O操作、则客户可以选择执行Vserver停止