什么是超级逻辑单元重置（ SLur ）？如何从挂起状态中恢复？

最后更新
另存为PDF

Views:: 58

Visibility:: Public

Votes:: 0

Category:: clustered-data-ontap-8

Specialty:: san

Last Updated:

不可不使用

适用场景

ONTAP 9.x

问题解答

在集群模式 Data ONTAP 中，逻辑单元号（ Logical Unit Number ， LUN ）是跨集群中一个或多个节点的分布式对象。超级逻辑单元重置（ slur ）是一种由集群模式 Data ONTAP SCSI 目标触发的内部 LUN 重置机制。在极少数情况下，如果先前的分布式操作超时，则会在 ONTAP 内部启动 SLur 。执行此操作是为了将自身重新初始化为一致状态。

什么是 SLur ？

超级逻辑单元重置（ slur ）
在 Data ONTAP 中自动触发
如果要将自身重新初始化为一致状态，则由 SCSIT 触发
分布式操作也可能超时

在资源削减期间会发生什么情况？

不允许任何新成员加入此 LUN 组
现有成员可以离开 LUN 组
终止所有正在运行的命令和新命令（直到命令完成为止）
逻辑单元清理

触发 SLURS 的原因有多种。以下 EMS 消息指示每个状态，可用于确定是否发生了错误：

开始 SLur：

slur 的起始点由 scsiblade.lu.int.rst.start EMS 字符串表示

Wed May 27 2015 14:32:11 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.start:DEBUG]: Internal reset started on LUN AvV7z?Cl-tME for reason: initiated by peer。

结束 SLur：

slur 的末尾由 scsiblade.lu.int.loc.rst.end EMS 字符串表示

Wed May 27 2015 14:36:53 GMT [node-1: scsit_lu: scsiblade.lu.int.loc.rst.end:DEBUG]: Internal reset of LUN AvV7z?Cl-tME was completed on node node-1。

SLur 完成时间：

要使 SLur 在整个集群范围内完全完成，应在所有节点上完成。SLur 完成 scsiblade.lu.int.rst.end EMS 情况由字符串表示。

Wed May 27 2015 14:36:53 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.end:DEBUG]: Internal reset of LUN AvV7z?Cl-tME was completed cluster-wide.

停滞的斜线：

如果 slur 操作未完成，则逻辑单元将进入挂起状态，并由 scsiblade.lu.int.rst.hung EMS 字符串表示。

Wed May 27 2015 14:32:41 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.hung:ALERT]: Access to LUN AvV7z?Cl-tME is restricted because an internal reset of the LUN was not completed in 30 seconds. Perform a takeover followed by a giveback for the following nodes: node-1。

集群中的每个节点都将发出一个 EMS ，用于启动 slur 。消息字符串包含原因部分。未执行 slur 的节点将报告已由对等方启动。

示例： [scsit_lu: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN D1dyo]E5t9p5 for reason: initiated by peer.

执行 slur 的节点以及需要重新启动的节点将说明以下原因之一。

示例： [scsit_lu: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN D1dyo]E5t9p0 for reason: PR OUT bb owner died.

如何验证挂起的 SLur 是否存在：

您可以使用以下命令在命令行中检查 slur 是否已停止。如果响应为空，则不会出现挂起的 slurs ：

cluster1::> event log show -messagename *scsiblade.lu*

There are no entries matching your query.

在以下示例中，您可以看到一个 LUN 的多条消息。在某些情况下， slur 可以在事件挂起后完成。如果出现这种情况，并且不存在 LUN 访问问题，则无需执行到 /GB 。

cluster1::> event log show -messagename *scsiblade.lu* Wed Jun 15 20:20:13 PDT [node-1: scsit_lu_1: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN AvV7z?Cl-tME for reason: tmr deadman timer expired. Wed Jun 15 20:21:43 PDT [node-1: scsit_lu_0: scsiblade.lu.int.rst.hung:alert]: Access to LUN AvV7z?Cl-tME is restricted because an internal reset of the LUN was not Wed Jun 15 20:22:39 PDT [node-1: scsit_lu_0: scsiblade.lu.int.loc.rst.end:debug]: Internal reset of LUN AvV7z?Cl-tME was completed on node node-1. Wed Jun 15 20:22:39 PDT [node-1: scsit_lu_0: scsiblade.lu.int.rst.end:debug]: Internal reset of LUN AvV7z?Cl-tME was completed cluster-wide.

从挂起的 slur 中恢复：

注意： 如果在发生挂起事件后发生 SLur 完成且 LUN 当前不存在访问问题，请勿执行接管 / 交还。

注意： 如果已知或可能存在集群中的停滞组，请勿执行接管 / 交还。如果不清楚是否发生这种情况，请创建支持案例以验证执行接管 /交还是否安全。

如果 slur 操作无响应，则 EMS 消息将指示应重新启动哪个节点以清除停滞的 slur 。在迄今为止的所有情况下，单节点重新启动足以清除挂起的 SLur 。EMS 消息将清晰地说明从挂起的 Slur 状况中恢复的补救措施。在上面的示例 Stuck slur EMS 中，此消息告诉我们需要重新启动哪个节点才能完成 Stuck slur 操作。

注意： 如果需要根发生原因分析（ RCA ），请按照知识库文章 Howto Collect data for an RCA of a SAN event that occurred in the past
before continue.请参见 Data ONTAP 部分下的步骤 1 。

要解决问题描述，请先对scsiblade.lu.int.rst.hung:ALERT EMS 事件中指示的 LUN 执行接管，然后再执行交还。在上面的示例
中，对以下节点执行接管 / 交还： node-1 。

追加信息

不适用