什么是超级逻辑单元重置( SLur )?如何从挂起状态中恢复?
不可不使用
适用场景
- ONTAP 9.x
问题解答
在集群模式 Data ONTAP 中,逻辑单元号( Logical Unit Number , LUN )是跨集群中一个或多个节点的分布式对象。超级逻辑单元重置( slur )是一种由集群模式 Data ONTAP SCSI 目标触发的内部 LUN 重置机制。在极少数情况下,如果先前的分布式操作超时,则会在 ONTAP 内部启动 SLur 。执行此操作是为了将自身重新初始化为一致状态。
什么是 SLur ?
- 超级逻辑单元重置( slur )
- 在 Data ONTAP 中自动触发
- 如果要将自身重新初始化为一致状态,则由 SCSIT 触发
- 分布式操作也可能超时
在资源削减期间会发生什么情况?
- 不允许任何新成员加入此 LUN 组
- 现有成员可以离开 LUN 组
- 终止所有正在运行的命令和新命令(直到命令完成为止)
- 逻辑单元清理
触发 SLURS 的原因有多种。以下 EMS 消息指示每个状态,可用于确定是否发生了错误:
开始 SLur:
slur 的起始点由 scsiblade.lu.int.rst.start
EMS 字符串表示
Wed May 27 2015 14:32:11 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.start:DEBUG]: Internal reset started on LUN AvV7z?Cl-tME for reason: initiated by peer
。
结束 SLur:
slur 的末尾由 scsiblade.lu.int.loc.rst.end
EMS 字符串表示
Wed May 27 2015 14:36:53 GMT [node-1: scsit_lu: scsiblade.lu.int.loc.rst.end:DEBUG]: Internal reset of LUN AvV7z?Cl-tME was completed on node node-1
。
SLur 完成时间:
要使 SLur 在整个集群范围内完全完成,应在所有节点上完成。SLur 完成 scsiblade.lu.int.rst.end EMS
情况由字符串表示。
Wed May 27 2015 14:36:53 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.end:DEBUG]: Internal reset of LUN AvV7z?Cl-tME was completed cluster-wide.
停滞的斜线:
如果 slur 操作未完成,则逻辑单元将进入挂起状态,并由 scsiblade.lu.int.rst.hung
EMS 字符串表示。
Wed May 27 2015 14:32:41 GMT [node-1: scsit_lu: scsiblade.lu.int.rst.hung:ALERT]: Access to LUN AvV7z?Cl-tME is restricted because an internal reset of the LUN was not completed in 30 seconds. Perform a takeover followed by a giveback for the following nodes: node-1
。
集群中的每个节点都将发出一个 EMS ,用于启动 slur 。消息字符串包含原因部分。未执行 slur 的节点将报告已由对等方启动。
示例: [scsit_lu: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN D1dyo]E5t9p5 for reason: initiated by peer.
执行 slur 的节点以及需要重新启动的节点将说明以下原因之一。
示例: [scsit_lu: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN D1dyo]E5t9p0 for reason: PR OUT bb owner died.
如何验证挂起的 SLur 是否存在:
您可以使用以下命令在命令行中检查 slur 是否已停止。如果响应为空,则不会出现挂起的 slurs :
cluster1::> event log show -messagename *scsiblade.lu*
There are no entries matching your query.
在以下示例中,您可以看到一个 LUN 的多条消息。在某些情况下, slur 可以在事件挂起后完成。如果出现这种情况,并且不存在 LUN 访问问题,则无需执行到 /GB 。
cluster1::> event log show -messagename *scsiblade.lu*
Wed Jun 15 20:20:13 PDT [node-1: scsit_lu_1: scsiblade.lu.int.rst.start:debug]: Internal reset started on LUN AvV7z?Cl-tME for reason: tmr deadman timer expired.
Wed Jun 15 20:21:43 PDT [node-1: scsit_lu_0: scsiblade.lu.int.rst.hung:alert]: Access to LUN AvV7z?Cl-tME is restricted because an internal reset of the LUN was not
Wed Jun 15 20:22:39 PDT [node-1: scsit_lu_0: scsiblade.lu.int.loc.rst.end:debug]: Internal reset of LUN AvV7z?Cl-tME was completed on node node-1.
Wed Jun 15 20:22:39 PDT [node-1: scsit_lu_0: scsiblade.lu.int.rst.end:debug]: Internal reset of LUN AvV7z?Cl-tME was completed cluster-wide.
从挂起的 slur 中恢复:
注意: 如果在发生挂起事件后发生 SLur 完成且 LUN 当前不存在访问问题,请勿执行接管 / 交还。
注意: 如果已知或可能存在集群中的停滞组,请勿执行接管 / 交还。如果不清楚是否发生这种情况,请创建支持案例以验证执行接管 /交还是否安全。
如果 slur 操作无响应,则 EMS 消息将指示应重新启动哪个节点以清除停滞的 slur 。在迄今为止的所有情况下,单节点重新启动足以清除挂起的 SLur 。EMS 消息将清晰地说明从挂起的 Slur 状况中恢复的补救措施。在上面的示例 Stuck slur EMS 中,此消息告诉我们需要重新启动哪个节点才能完成 Stuck slur 操作。
注意: 如果需要根发生原因 分析( RCA ),请按照知识库文章 Howto Collect data for an RCA of a SAN event that occurred in the past
before continue.请参见 Data ONTAP 部分下的步骤 1 。
要解决问题描述 ,请先对scsiblade.lu.int.rst.hung:ALERT
EMS 事件中指示的 LUN 执行接管,然后再执行交还。在上面的示例
中,对以下节点执行接管 / 交还: node-1 。
追加信息
不适用