跳转到主内容

故障排除工作流: MHost RDB 应用程序超出法定要求

Views:
4
Visibility:
Public
Votes:
0
Category:
data-ontap-8
Specialty:
core
Last Updated:

状态信息

适用于

  • 集群模式 Data ONTAP 8
  • 集群模式 Data ONTAP 8.2

 

问题

当 RDB 应用程序超出法定人数(即“本地单元脱机”)时、命令和服务可能会停止运行或以有限的容量运行。

由于网络分区、远程节点的运行状况或本地节点的运行状况等原因,这通常是一种过渡状态。

RDB 集群配置由一组定义的复制站点(节点)组成、所有这些站点彼此都知道。集群成员资格和配置存储在复制的文件中/var/rdb/_sitelist。所有 RDB 应用程序或环( MGWD 、 VLDB 、 VIFMGR 、 BCOMD 等)环共享 SiteList 配置。

_sitelist (集群配置数据)会自动复制到系统中。内容包括:

  • 版本
  • 集群 UUID
  • 站点列表。

每个站点都有一个 ID 、一个主机名、一对集群 IP 地址和一个状态(符合条件 / 不符合条件)。资格设置决定此站点是否参与法定人数构成—这是一个管理选择。此外,一个站点可能被指定为持有“ Epsilon ”,这是一种额外的部分投票,允许仅使用一半站点形成法定人数。“ Epsilon ”与“ Master ”不同。在双节点 HA 模式下_sitelist ,包含HA_CONFIG该属性;这意味着仲裁处理的规则完全不同。

仲裁是与 RDB 应用程序类似的大多数连接,其中一个实例被选为主实例。主服务器通常是中的前几个实例之一_sitelist。每个复制环的运行完全独立于其他环。不同的振铃具有不同的主环是正常的、但通常位于同一节点上。

超出法定数 (OOQ) 的节点不是法定成员。即,它尚未参与仲裁构成(只是启动)或与主服务器失去联系、这是因为它自己已接管 OOQ 或主服务器已推动了 OOQ 。

在脱机状态下、仲裁的主管理员无法写入或更新数据库。但是,数据库的本地时间点只读副本可用。只读副本的用途取决于特定的 RDB 应用程序。例如, VLDB 在脱机时可能会继续应答来自 N-Blade 的查询。需要咨询各种应用程序的所有者。

在 CPU 和 I/O 周期方面、 RDB 应用程序与 D-Blade 和 N-Blade 竞争。该系统不是实时系统、也没有为将来的版本计划服务级别协议( SLA )。因此, RDB 应用程序偶尔会在负载较重的系统上运行 OOQ 。此条件不是错误。

当本地或远程节点为 OOQ 时、 CLI 命令调用会在错误消息中显示“ Local Unit Offline ”(本地设备脱机)失败(在管理员不知道脱机时,某些命令会自动重试)。发生这种情况时、应在深入挖掘之前重试命令、因为这种情况通常是暂时的。

如果主服务器上出现以下任何问题、所有应用程序都将立即脱机、直到选出新主服务器。

诊断命令
要调查所有环的法定状态、请使用诊断级别命令cluster ring show

csiptc-2240-091341002218::*> cluster ring show
Node      UnitName Epoch    DB Epoch DB Trnxs Master    Online
--------- -------- -------- -------- -------- --------- ---------
csiptc-2240-09
          mgmt     29       29       102      csiptc-2240-09
                                                        master
csiptc-2240-09
          vldb     26       26       3        csiptc-2240-09
                                                        master
csiptc-2240-09
          vifmgr   53       53       37       csiptc-2240-09
                                                        master
csiptc-2240-09
          bcomd    26       26       1        csiptc-2240-09
                                                        master
csiptc-2240-10
          mgmt     29       29       102      csiptc-2240-09
                                                        secondary
csiptc-2240-10
          vldb     26       26       3        csiptc-2240-09
                                                        secondary
csiptc-2240-10
          vifmgr   53       53       37       csiptc-2240-09
                                                        secondary
csiptc-2240-10
          bcomd    26       26       1        csiptc-2240-09
                                                        secondary
8 entries were displayed.

csiptc-2240-091341002218::*>


cluster show该命令仅显示 MGWD 的法定状态(用于cluster ring showrdb_dump所有环)。

csiptc-2240-091341002218::*> cluster show
Node                 Health  Eligibility   Epsilon
-------------------- ------- ------------  ------------
csiptc-2240-09       true    true          false
csiptc-2240-10       true    true          false
2 entries were displayed.


要在 MGWD 未运行时调查法定状态、请在rdb_dump FreeBSD Shell 上运行。从任何集群节点中、使用该工具提取任意或所有 RDB 应用程序的当前状态信息。典型的技术是使用 cat 、 /var/rdb/_sitelist然后使用rdb_dump该工具将其定向到感兴趣的 IP 地址(或本地主机)进行调查。 rdb_dump 能够显示:

  • 总体健康状况
  • 事务流
  • 数据库版本
  • 各种组件和内部组件。

键入rdb_dump -h选项列表。请注意,所有rdb_dump输出都是从要查询的进程的角度出发的。

csiptc-2240-10% rdb_dump -h

rdb_dump [<host>] [options] <unit>*
   -h       - help
   -c [n]   - continuous with n sec delay (default 3)
   -v       - verbose; all options other than 'c'
   -e       - environment vars
   -f       - configuration info
   -x       - internal developer info on selected components
   -u       - Local Unit
   -d       - individual database summary
   -q       - Quorum Mgr
   -r       - Recovery Mgr
   -t       - Transaction Mgr
   -z       - Call exportHealth API to query health at a node.
   [<host>] - Name or IP, default localhost.
  <unit>*  - select from: vldb, management, vifmgr, bcomd, t1, smfpilot (test units).
              if omitted, dumps all product units on the host.
   Options may be combined, e.g., '-qrtx'.


rdb_dump 从单个单元的角度显示集群配置和运行状况信息。

 注意

  • "Master" 是动态角色、 "EpsilOn" 是配置设置。通常情况下,主站点和 Epsilon 站点会有所不同。
  • 复制组( VLDB 、 VIFMGR 、 BCOMD 、 MGWD )独立运行。每个系统可能有不同的主服务器和健康信息。但是,应共享配置信息。

用于
分析包装箱间问题的配置:

  1. 检查环境和配置( -e 和 -f )是否符合预期。 
  2. 检查各个单元实例是否同意配置。

运行状况(默认情况
下)如果配置正确、运行状况信息将总结复制组的状态。 
:从主节点获得的健康状况始终是最准确的;在向其他辅助节点传播辅助信息方面有轻微的延迟,但它们将会达成一致。

监控
用于-c 在正常操作下连续监控一个盒。另外、重新启动框时、用于-c在应用程序启动并联机时显示这些应用程序。

CUSTOMER EXCLUSIVE CONTENT

Registered NetApp customers get unlimited access to our dynamic Knowledge Base.

New authoritative content is published and updated each day by our team of experts.

Current Customer or Partner?

Sign In for unlimited access

New to NetApp?

Learn more about our award-winning Support