跳转到主内容

对 ONTAP 升级进行故障排除

Views:
69
Visibility:
Public
Votes:
0
Category:
ontap-9
Specialty:
core
Last Updated:

适用场景

  • ONTAP 9
  • 集群模式 Data ONTAP 8

问题解答

  • 本文包含 ONTAP 升级操作和故障排除工作流列表。但是,这并不是一个全面的列表。
  • 这可用于缩小搜索范围,使其搜索范围更广泛,更广泛地使用故障排除知识库文章,并细分为特定类别。
解决升级问题
完成集群擦除和重新初始化
  • 在有限的情况下,存储管理员会完全擦除 ONTAP 软件,销毁所有卷上的所有用户数据并在存储控制器上安装其他版本的 ONTAP 。
  • 可以安装 ONTAP 软件,而不是利用 ONTAP 升级过程来完成此操作,而是可以完全擦除连接到存储控制器的磁盘,并使用 ONTAP 专用启动菜单重新初始化这些磁盘。  

此操作步骤会造成系统中断,并会擦除存储控制器中的所有数据。

有关详细信息,请参见 如何从 Data ONTAP 启动菜单执行软件安装

从可访问的 Web 服务器将 ONTAP 软件包文件下载到集群时出现问题
  • ONTAP 利用每个存储控制器的节点管理逻辑推理( LIF )连接到可访问的 Web 服务器以下载 ONTAP 软件包文件。如果 "system image get, "system image update -package" 或 "cluster image package get命令出现问题,可能表示以下问题:
  • 在 DNS 中查找 Web 服务器的 IP 地址:
    • 验证是否为管理 SVM 配置了可解析 Web 服务器 IP 地址的正确 DNS 服务器: cluster1::> dns show -vserver
    • 测试 Web 服务器主机名是否可解析:
cluster1::> set advanced
cluster1::*> vserver services name-service getxxbyyy gethostbyname -node
-vserver -hostname
  • 无法连接到 Web 服务器:
    使用 ping 实用程序确保可从节点管理 LIF
    临时解决策访问 Web 服务器:使用system image getIPv6 运行 " " 命令或cluster image package get使用 IPv4 运行 "" 命令。
集群映像软件包获取失败
  • 如果运行'cluster image package get' 下载 ONTAP 软件包文件的命令失败,请尝试运行 "system image get" (手动升级方法)命令以查看是否可以通过手动方法下载该软件包。
  • 如果是,这可能表示管理自动升级方法的 ONTAP 子系统出现故障。
  • 要继续执行自动化无中断升级( ANDU ),请运行 "cluster image update -version x.x" 命令,但将保存的映像保存到集群映像存储库中。
  • 为此,请运行以下命令将映像从 etc/software 目录移动到存储库:
1. 将系统映像下载到集群存储库
示例: ::*> cluster image package get -url file:///mroot/etc/software/93P7_q_image.tgz
2. 检查以确保集群映像存储库现在显示 ONTAP 9.3P7 映像
::*> cluster image package show-repository
3. 检查每个节点是否都安装了映像
::>system node package show
4. 如果某些节点缺少此映像,请直接登录任一节点的管理界面以下载此集群映像。例如,登录到 node02 的 mgmt lif 。
::> set advanced
::*> cluster image package get -url file:///mroot/etc/software/93P7_q_image.tgz)
  1. 继续执行自动集群升级 'cluster image update -version x.x'
  • 虽然使用手动升级方法可以作为临时解决策来升级集群,但建议您联系 NetApp 技术支持 ,以进一步帮助您通过自动更新方法排除故障。
对来自 ""cluster image validate命令的验证警告消息进行故障排除
  • ""cluster image validate(自动升级方法)命令执行一系列集群范围的检查,以确保集群可以无中断升级。
  • 验证操作报告的任何错误或警告将阻止自动升级开始。必须先解决这些问题,然后才能继续升级。
  • 请参阅 "cluster image validate" 输出中的 " 错误操作 " 字段,确定解决错误或警告所需采取的更正操作。
  • 存储管理员确定可以安全地忽略任何剩余错误或警告后,可以运行以下命令:
cluster1::> cluster image update -ignore-validation-warning true

错误:

错误 问题描述 解决方案
" 确保要更新的节点运行相同版本的 Data ONTAP 。 " 在 MC 配置中从 9.3 升级到 9.x 时显示 错误 1142709

对默认启动映像设置进行故障排除
  • ONTAP 操作系统安装在存储控制器的启动介质设备上。
  • 默认启动介质设备最多可存储两个 ONTAP 软件映像,一个用作主(默认)启动映像,另一个用作二级启动映像。通常,当系统启动默认启动映像时,即正在使用的活动(当前)启动映像。
  • 命令system image show'可列出每个启动映像的信息,以及该映像是否为默认启动映像和当前启动映像。
cluster1::> system image show
         Is    Is                 Install
Node    Image   Default Current Version           Date
-------- ------- ------- ------- ------------------------- -------------------
cluster1-01
     image1  false   false   9.1P4            8/12/2017 09:11:43
     image2  true   true   9.1P7            8/31/2017 14:34:30
cluster1-02
     image1  false   false   9.1P4            8/12/2017 09:15:21
     image2  true   true   9.1P7            8/31/2017 14:34:52
4 entries were displayed.
  • 在升级期间, ONTAP 软件包将安装到非活动启动映像中,然后标记为默认启动映像。但是,只有在存储控制器的存储故障转移接管期间完全关闭 ONTAP 操作系统后,此操作才会生效。
  • Setting default boot image toONTAP 关闭之前正在升级的控制台存储控制器上应显示 "" 消息。
显示的消息示例:
Waiting for PIDS:  1244.
Terminated
.
Setting default boot image to image2... done.
Uptime: 7d2h51m23s
  • 如果从未Setting default boot image to显示 "" 消息,则可能表示 ONTAP 无法正常关闭。后续重新启动不会加载设置为默认映像的映像,存储控制器不会进行升级。
  • 如果发生这种情况,请联系 NetApp 技术支持 以获得进一步帮助,以确定存储控制器无法正常关闭的原因。
恢复因错误而暂停的自动升级
  • 如果遇到错误情况,自动更新过程将暂停。例如,如果某个存储控制器的存储交还因某种原因(例如交还否决)失败,则自动更新过程将显示 "pause-on-error" " 。
  • 存储管理员必须更正错误情况,才能继续升级。运行 "cluster image show-update-progress" 命令以确定自动更新过程为何暂停。
  • "注释" 字段将确定自动更新过程暂停的原因,并可能建议要采取的更正操作。
  • 采取更正操作后,可以通过运行 "cluster image resume-update" 命令恢复自动更新过程。

注:

  • 升级处于 "pause-on-error" 状态的原因有多种。请确保通过控制台或 SP/BMC 登录到当前正在升级的节点以确认其状态。

  •  如果节点处于 LOADER 提示 boot_ontap 符处,则可以运行命令以尝试使节点联机。如果节点无法启动或处于启动 / 崩溃环路 [1] 中,请联系 NetApp 技术支持以获得进一步帮助。  

对 ONTAP 升级任务失败进行故障排除
  • 在 ONTAP 升级期间,存储控制器完成重新启动后,系统将开始升级控制器的软件配置,以便在整个集群完全升级后可以使用新的软件功能。这些任务会自动在后台运行。
重新启动后登录到存储控制器时,您可能会看到一条系统消息,指示控制器正在运行这些后台任务
The upgrade of this node is in progress or not completed. The ability to provide
data service to clients is not affected while the upgrade completes. You can
check on the status of the upgrade by running "system node upgrade-revert show"
in advanced privilege mode. The status for this node should be listed as
'complete'. If the upgrade has stopped, you can restart the upgrade by running
"system node upgrade-revert upgrade" in advanced privilege mode. If this command
does not complete the node's upgrade, contact technical support immediately. The
node will be ready for management operations once the upgrade is completed
successfully.
如果这些升级任务中断或遇到错误,则可能会看到系统消息
The upgrade is not complete: an upgrade task aborted. This node is not fully
operational. Contact support personnel for the upgrade repair procedure.

or 

One or more upgrade tasks on this node failed. This node is not fully
operational. Contact support personnel for the upgrade repair procedure.
要查找这些升级任务的状态,请运行高级权限级别命令
cluster1::> set advanced
cluster1::*> system node upgrade-revert show
cluster1::*> system node upgrade-revert show -task-status
如果升级任务失败或中止,可以使用命令重新启动或重新运行这些任务
cluster1::*> system node upgrade-revert upgrade -node
对升级期间显示的混合版本消息进行故障排除
  • 在升级两个以上存储控制器的集群配置上的 ONTAP 的过程中,如果升级过程中某些存储控制器已完成升级,而另一些存储控制器仍有待升级,则会将集群视为混合版本状态。
登录到集群时,您可能会看到显示的系统消息
Warning: The cluster is in a mixed version state. Update all of the nodes to
the same version as soon as possible.
  • 当集群处于混合版本状态时,集群将继续运行,并像安装的旧版本一样运行,而不会使用较新 ONTAP 版本的新功能。只有在所有存储控制器成功升级到新版本后,才会将整个集群视为已升级,并可使用新功能。

ONTAP 软件的版本通过三种方式进行跟踪:

软件在存储控制器上启动的 ONTAP 版本。
可以使用以下命令检查此问题: cluster1::> node run -node * -command version
节点配置已升级到的 ONTAP 的有效版本
可以使用以下命令检查此问题: cluster1::> version -node *
已将集群配置升级到的 ONTAP 的有效版本。
可以使用以下命令检查此问题: cluster1::> version
  • ONTAP 旨在在混合版本状态下保持运行和提供数据服务,但建议不要将其保持在混合版本状态的时间超过升级整个集群所需的时间。此外,强烈建议不要在集群处于混合版本状态时对集群进行任何配置更改。
  • 如果使用较新版本的 ONTAP 的存储控制器加入较旧版本的集群,则集群也可以进入混合版本状态。如果发生这种情况,请将集群的其余部分升级到较新的 ONTAP 版本。

追加信息

不适用