跳转到主内容

什么是超级逻辑单元重置( SLur )?如何从挂起状态中恢复?

Views:
26
Visibility:
Public
Votes:
0
Category:
clustered-data-ontap-8
Specialty:
san
Last Updated:

可不使用  

适用场景

  • ONTAP 9.x

问题解答

在集群模式 Data ONTAP 中,逻辑单元号( Logical Unit Number , LUN )是跨集群中一个或多个节点的分布式对象。超级逻辑单元重置( slur )是一种由集群模式 Data ONTAP SCSI 目标触发的内部 LUN 重置机制。在极少数情况下,如果先前的分布式操作超时,则会在 ONTAP 内部启动 SLur 。执行此操作是为了将自身重新初始化为一致状态。

什么是 SLur ?
  • 超级逻辑单元重置( slur )
  • 在 Data ONTAP 中自动触发
  • 如果要将自身重新初始化为一致状态,则由 SCSIT 触发
  • 分布式操作也可能超时
在资源削减期间会发生什么情况?
  • 不允许任何新成员加入此 LUN 组
  • 现有成员可以离开 LUN 组
  • 终止所有正在运行的命令和新命令(直到命令完成为止)
  • 逻辑单元清理

触发 SLURS 的原因有多种。以下 EMS 消息指示每个状态,可用于确定是否发生了错误:

开始 SLur

slur 的起始点由 scsiblade.lu.int.rst.start EMS 字符串表示

Wed May 27 2015 14:32:11 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.start:DEBUG]: Internal reset started on LUN AvV7z?Cl-tME for reason: initiated by peer

结束 SLur

slur 的末尾由 scsiblade.lu.int.loc.rst.end EMS 字符串表示

Wed May 27 2015 14:36:53 GMT [node-1: scsit_lu: scsiblade.lu.int.loc.rst.end:DEBUG]: Internal reset of LUN AvV7z?Cl-tME was completed on node node-1

SLur 完成时间:

要使 SLur 在整个集群范围内完全完成,应在所有节点上完成。SLur 完成 scsiblade.lu.int.rst.end EMS 情况由字符串表示。

Wed May 27 2015 14:36:53 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.end:DEBUG]: Internal reset of LUN AvV7z?Cl-tME was completed cluster-wide.

停滞的斜线:

如果 slur 操作未完成,则逻辑单元将进入挂起状态,并由 scsiblade.lu.int.rst.hung EMS 字符串表示。

Wed May 27 2015 14:32:41 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.hung:ALERT]: Access to LUN AvV7z?Cl-tME is restricted because an internal reset of the LUN was not completed in 30 seconds. Perform a takeover followed by a giveback for the following nodes: node-1
 

集群中的每个节点都将发出一个 EMS ,用于启动 slur 。消息字符串包含原因部分。未执行 slur 的节点将报告已由对等方启动。

示例: [scsit_lu: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN D1dyo]E5t9p5 for reason: initiated by peer.

执行 slur 的节点以及需要重新启动的节点将说明以下原因之一。

示例: [scsit_lu: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN D1dyo]E5t9p0 for reason: PR OUT bb owner died.

如何验证挂起的 SLur 是否存在:

您可以使用以下命令在命令行中检查 slur 是否已停止。如果响应为空,则不会出现挂起的 slurs :

cluster1::> event log show -messagename *scsiblade.lu*

There are no entries matching your query.

在以下示例中,您可以看到一个 LUN 的多条消息。在某些情况下, slur 可以在事件挂起后完成。如果出现这种情况,并且不存在 LUN 访问问题,则无需执行到 /GB 。

cluster1::> event log show -messagename *scsiblade.lu*
Wed Jun 15 20:20:13 PDT [node-1: scsit_lu_1: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN AvV7z?Cl-tME for reason: tmr deadman timer expired.
Wed Jun 15 20:21:43 PDT [node-1: scsit_lu_0: scsiblade.lu.int.rst.hung:alert]: Access to LUN AvV7z?Cl-tME is restricted because an internal reset of the LUN was not
Wed Jun 15 20:22:39 PDT [node-1: scsit_lu_0: scsiblade.lu.int.loc.rst.end:debug]: Internal reset of LUN AvV7z?Cl-tME was completed on node node-1.
Wed Jun 15 20:22:39 PDT [node-1: scsit_lu_0: scsiblade.lu.int.rst.end:debug]: Internal reset of LUN AvV7z?Cl-tME was completed cluster-wide.

从挂起的 slur 中恢复:

注意: 如果在发生挂起事件后发生 SLur 完成且 LUN 当前不存在访问问题请勿执行接管 / 交还

注意: 如果已知或可能存在集群中的停滞组,请勿执行接管 / 交还。如果不清楚是否发生这种情况,请创建支持案例以验证执行接管 /交还是否安全

如果 slur 操作无响应,则 EMS 消息将指示应重新启动哪个节点以清除停滞的 slur 。在迄今为止的所有情况下,单节点重新启动足以清除挂起的 SLur 。EMS 消息将清晰地说明从挂起的 Slur 状况中恢复的补救措施。在上面的示例 Stuck slur EMS 中,此消息告诉我们需要重新启动哪个节点才能完成 Stuck slur 操作。

注意: 如果需要根发生原因 分析( RCA ),请按照知识库文章 Howto Collect data for an RCA of a SAN event that occurred in the past
before continue.请参见 Data ONTAP 部分下的步骤 1 。

要解决问题描述 ,请先对scsiblade.lu.int.rst.hung:ALERT EMS 事件中指示的 LUN 执行接管,然后再执行交还。在上面的示例
中,对以下节点执行接管 / 交还: node-1 。

追加信息

不适用

 

NetApp provides no representations or warranties regarding the accuracy or reliability or serviceability of any information or recommendations provided in this publication or with respect to any results that may be obtained by the use of the information or observance of any recommendations provided herein. The information in this document is distributed AS IS and the use of this information or the implementation of any recommendations or techniques herein is a customer's responsibility and depends on the customer's ability to evaluate and integrate them into the customer's operational environment. This document and the information contained herein may be used solely in connection with the NetApp products discussed in this document.