集群故障代码

如果存储集群出现可能需要引起管理员注意的错误或状况,它会生成集群故障。您可以使用 ListClusterFaults 方法检索存储集群中当前已解决和未解决的故障列表。

以下列表提供了有关 NetApp Element 存储集群故障以及可能的解决方案的详细信息:

AuthenticationServiceDefault
一个或多个集群节点上的验证服务无法正常工作。
请联系 NetApp 支持部门获得帮助。
availableVirtualNetworkIPAddressesLow
IP 地址块中的虚拟网络地址数量较少。
要解决此故障,请向虚拟网络地址块添加更多 IP 地址。
blockClusterFull
没有足够的可用块存储空间可用于支持单节点丢失。有关GetClusterFullThreshold集群完全级别的详细信息,请参见 API 方法。此集群故障表示出现以下情况之一:
  • 第 3 阶段低(警告):用户定义的阈值已超过。调整“集群已满”设置,或者添加更多节点。
  • 阶段 4 严重(错误):没有足够的空间从 1 节点故障中恢复。不允许创建卷、快照和克隆。
  • 第 5 阶段完全消耗(严重) 1 ;不允许写入或新的 iSCSI 连接。将保持当前的 iSCSI 连接。向集群添加更多容量之前,写入将失败。
要解决此故障,请清除或删除卷,或者向存储集群再添加一个存储节点。
块降级
由于故障,块数据不再完全复制。
严重性 说明
错误 只有一个完整块数据副本仍然可用。
严重 没有完整的块数据副本可用。
要解决此故障、请恢复任何脱机节点或块服务、或联系 NetApp 支持。
blockServiceTooFull
块服务当前所用空间过多。
要解决此故障,请清除或删除卷,或者向存储集群再添加一个存储节点。
时钟偏移超出故障阈值
集群主节点和呈现令牌的节点之间的时间偏差超出了建议的阈值。
存储集群无法自动纠正节点之间的时间偏差。要解决此故障,请使用您网络内部的 NTP 服务器,而不是默认安装的 NTP 服务器。如果您已经在使用内部 NTP 服务器、请联系 NetApp 支持以获得帮助。
clusterCannotSync
集群块数据处于降级状态、恢复完全块数据冗余的自动修复过程无法继续;太多节点或块服务脱机或集群块服务太满。
要解决此故障、请添加更多块容量或联系 NetApp 支持。
clusterFull
此存储集群没有更多可用存储空间。
要解决此故障,请添加更多存储。
clusterIOPSAreOverProvisioned
存储集群 IOPS 配置过度。所有最小 QoS IOPS 的总和超过集群的预期 IOPS。系统无法同时对所有卷保持最小 QoS。
要解决此故障,请减小卷的最低 QoS IOPS 设置。
disableDriveSecurityFailed
在空闲加密功能处于关闭的情况下,无法对驱动器禁用安全保护。此驱动器仍会启用驱动器安全保护。
故障详细信息会显示无法禁用驱动器安全保护的原因;您可能需要根据此原因调查问题所在。如果您需要恢复未成功禁用安全保护的磁盘,请执行以下步骤:
  1. 将此驱动器移至“available”状态以逻辑删除此驱动器。
  2. 对此驱动器执行安全擦除。
  3. 将此驱动器移至“active”状态。
如果上述步骤仍无法解决此问题,请更换此驱动器。
disconnectedClusterPair
集群对已断开或配置不正确。
检查集群的网络连接。
disconnectedRemoteNode
远程节点已断开或配置不正确。检查节点之间的网络连通性。
disconnectedSnapMirrorEndpoint
远程 SnapMirror 端点已断开或配置不正确。检查集群和远程 SnapMirrorEndpoint 之间的网络连接。
driveAvailable
可将一个或多个驱动器添加存储集群中。一般来说,所有存储集群均应已添加所有驱动器,并且任何驱动器均不处于可用状态。如果意外出现此故障,请联系 NetApp 支持部门。
要解决此故障,请向存储集群添加任何可用驱动器。
driveFailed
当一个或多个驱动器出现故障时、群集将返回此故障、表明以下情况之一:
  • 驱动器管理器无法访问驱动器。
  • 片或块服务失败次数太多、可能是由于驱动器读取或写入故障、无法重新启动。
  • 驱动器丢失。
  • 无法访问节点的主服务(节点中的所有驱动器均被视为丢失 / 失败)。
  • 驱动器已锁定、无法获取驱动器的身份验证密钥。
  • 驱动器已锁定、解锁操作失败。
要解决此问题:
  • 检查节点的网络连接性。
  • 更换驱动器。
  • 确保身份验证密钥可用。
driveWearFault
驱动器的剩余寿命已降到阈值以下、但仍在运行。此故障有两种可能的严重级别:严重和警告:
  • 带有串行端口的驱动器: < 节点插槽 >< 驱动器插槽 > 具有严重的磨损级别。
  • 带有串行端口的驱动器: < 节点插槽 > 具有低磨损预留空间。
要解决此故障,请尽快更换驱动器。
duplicateClusterMasterCandidates
存储集群存在多个候选主节点。
请联系 NetApp 支持部门获得帮助。
enableDriveSecurityFailed
在空闲加密功能处于打开的情况下,无法对驱动器启用安全保护。
确保用于启用安全保护的密钥正确无误。如果您需要恢复无法成功启用安全保护的磁盘,请执行以下步骤:
  1. 将此驱动器移至“available”状态以逻辑删除此驱动器。
  2. 对此驱动器执行安全擦除。
  3. 将此驱动器移至“active”状态。
如果上述步骤仍无法解决此问题,请更换此驱动器。
ensembleDegraded
某个集合节点已断开网络连接或电源。
要解决此故障,请为受影响的节点还原网络连接或电源。
exception
发生异常故障。这些故障不会自动从故障队列中清除。
请联系 NetApp 支持部门获得帮助。
failedSpaceTooFull
块服务未对数据写入请求做出响应。这会导致分区服务空间不足,从而无法存储失败的写入。
请联系 NetApp 支持部门获得帮助。
fanSensor
风扇传感器出现故障或丢失。
请联系 NetApp 支持部门获得帮助。
fibreChannelAccessDegraded
光纤通道节点无法通过其存储 IP 地址对存储集群中的其他节点做出响应。
检查集群的网络连接。
fibreChannelAccessUnavailable
所有光纤通道节点均无响应。此时将显示节点 ID。
检查集群的网络连接。
FibreChannelActiveXL
每个光纤通道节点的 IXL Nexus 计数接近支持的 8000 个活动会话数限制。
  • 最佳实践限制为 5500 。
  • 警告限制为 7500 。
  • 最大限制(非强制)为 8192 。
要解决此故障、请将 IXL Nexus 计数降低到最佳实践限制 5500 以下。
fibreChannelConfig
此集群故障表示出现以下情况之一:
  • 在 PCI 插槽上存在意外的光纤通道端口。
  • 存在意外的光纤通道 HBA 型号。
  • 光纤通道 HBA 固件出现问题。
  • 某个光纤通道端口未联机。
  • 配置光纤通道直通时出现持久性问题。
请联系 NetApp 支持部门获得帮助。
FibreChannelStaticXL
每个光纤通道节点的 IXL Nexus 计数接近支持的 16000 个静态会话数限制。
  • 最佳实践限制为 11000 。
  • 警告限制为 15000 。
  • 最大限制(强制)为 16384 。
要解决此故障、请将 IXL Nexus 计数降低到最佳实践限制 11000 以下。
fileSystemCapacityLow
某个文件系统空间不足。
要解决此故障,请向此文件系统添加更多容量。
fipsDrivesMismatch
将非 FIPS 驱动器插入了 FIPS 存储节点中,或者将 FIPS 驱动器插入了非 FIPS 存储节点中。
请卸下或更换有问题的驱动器。
fipsDrivesOutOfCompliance
系统检测到已禁用空闲加密或存储集群中存在非 FIPS 硬件。
请启用空闲加密或从此存储集群中卸下非 FIPS 硬件。
fipsSelfTestFailure
系统在 FIPS 自检期间检测到故障。
请联系 NetApp 支持部门获得帮助。
hardwareConfigMismatch
此集群故障表示出现以下情况之一:
  • 此配置与此节点定义不匹配。
  • 此类节点的驱动器大小不正确。
  • 节点正在使用不受支持的驱动器。
  • 驱动器固件不匹配。
  • 驱动器加密功能状态与其父节点不匹配。
请联系 NetApp 支持部门获得帮助。
IDPCertificateExpiration
与第三方身份认证提供者一起使用的集群的服务提供商 SSL 证书即将过期或已过期。此故障会根据紧急程度采用以下严重性:
严重性 说明
警告 证书将在 30 天内到期。
错误 证书将在 7 天内到期。
严重 证书将在 3 天内过期或已过期。
要解决此问题、请在 SSL 证书过期之前更新该证书。将UpdateIdpConfiguration方法与 RefreshCertificateExpirationtime=true 一起使用以提供更新的 SSL 证书。
inconsistentBondModes
VLAN 设备上缺少绑定模式。此故障将显示预期的绑定模式和当前正在使用的绑定模式。
要解决此故障,请在每节点 Web UI 中修改绑定模式。
inconsistentInterfaceConfiguration
接口配置不一致。
要解决此故障,请确保存储集群中的节点接口配置一致。
inconsistentMtus
此集群故障表示出现以下情况之一:
  • Bond1G mismatch:在绑定 1G 接口上检测到 MTU 不一致。
  • Bond10G mismatch:在绑定 10G 接口上检测到 MTU 不一致。
此故障将显示存在问题的节点以及关联的 MTU 值。
要解决此故障,请在每节点 Web UI 中修改 MTU 设置。
inconsistentRoutingRules
此接口的路由规则不一致。
inconsistentSubnetMasks
VLAN 设备上的网络掩码与内部记录的 VLAN 网络掩码不匹配。此故障将显示预期网络掩码与当前使用的网络掩码。
要解决此故障,请在 Element(存储集群)Web UI 中修改子网掩码。
incorrectBondPortCount
绑定端口数不正确。
invalidConfiguredFibreChannelNodeCount
所需的两个光纤通道节点连接之一性能下降。如果仅连接了一个光纤通道节点,则会出现此故障。
要解决此故障,请检查集群网络连接和网络布线,并查看是否存在服务故障。如果网络或服务均无问题,请联系 NetApp 支持部门更换光纤通道节点。
irqBalanceFailed
尝试平衡中断时出现异常。
请联系 NetApp 支持部门获得帮助。
kmipCertificateFault(根证书颁发机构 [Certification Authority, CA] 证书即将到期)
根证书颁发机构 (Certification Authority, CA) 证书即将到期。此故障会根据紧急程度采用以下严重性:
严重性 说明
警告 证书将在 30 天内到期。
错误 证书将在 7 天内到期。
严重 证书将在 3 天内到期。
要解决此故障,请在证书到期前更新此证书。从根 CA 获取一个新证书,此证书至少在未来 30 天后到期。使用 ModifyKeyServerKmip API 方法提供更新后的根 CA 证书。
kmipCertificateFault(客户端证书即将到期)
客户端证书即将到期。此故障会根据紧急程度采用以下严重性:
严重性 说明
警告 证书将在 30 天内到期。
错误 证书将在 7 天内到期。
严重 证书将在 3 天内到期。
要解决此故障,请使用 GetClientCertificateSigningRequest 方法创建一个新的 CSR。对此 CSR 进行签名并使其在 30 天后到期,然后使用 ModifyKeyServerKmip API 方法将即将到期的 KMIP 客户端证书替换为此新证书。
kmipCertificateFault(根证书颁发机构 [Certification Authority, CA] 证书已到期)
根 CA 证书已到期。
从根 CA 获取一个新证书,此证书至少在未来 30 天后到期。使用 ModifyKeyServerKmip API 方法提供更新后的根 CA 证书。
kmipCertificateFault(客户端证书已到期)
客户端证书已到期。
使用 GetClientCertificateSigningRequest API 方法创建一个新的 CSR 并对其进行签名,确保新的到期日期至少在未来 30 天后。使用 ModifyKeyServerKmip API 方法将已到期的客户端证书替换为此新证书。
kmipCertificateFault(根证书颁发机构 [Certification Authority, CA] 证书无效)
根 CA 证书无效。
确保提供的证书正确无误。如果需要,请从根 CA 重新获取此证书。使用 ModifyKeyServerKmip API 方法安装此正确的证书。
kmipCertificateFault(客户端证书无效)
客户端证书无效。
确保安装的 KMIP 客户端证书正确无误。应将此客户端证书的根 CA 安装在外部密钥管理服务器上。如果需要更新此客户端证书,请使用 ModifyKeyServerKmip API 方法。
kmipServerFault(连接失败)
一个或多个节点无法访问外部密钥管理服务器。
故障详细信息会提供此密钥服务器 ID。确保此服务器运行正常并可通过管理网络访问。如果只有部分节点无法访问此外部密钥管理服务器,则故障详细信息会列出这些无法访问此密钥服务器的节点。在网络或特定节点级别执行故障排除,以确定为什么只有部分节点可以访问此外部密钥管理服务器。
kmipServerFault(身份验证失败)
一个或多个节点无法向外部密钥管理服务器进行身份验证。
确保使用的根 CA 证书和 KMIP 客户端证书正确无误。如果需要更新任何证书,请使用 ModifyKeyServerKmip 方法安装正确的证书。
kmipServerFault(服务器错误)
外部密钥管理服务器出现错误。
故障详细信息会提供此错误的详细信息。您可能需要根据此错误对外部密钥管理服务器进行故障排除。
内存阈值
检测到大量可纠正或不可纠正的 ECC 错误。如果返回类型为 Error 的严重级别、则可能是由于 DIMM 故障造成的。
请联系 NetApp 支持部门获得帮助。
memoryUsageThreshold
内存利用率超过正常值。
请联系 NetApp 支持部门获得帮助。
metadataClusterFull
没有足够的可用元数据存储空间来支持单个节点丢失。有关GetClusterFullThreshold集群完全级别的详细信息,请参见 API 方法。此集群故障表示出现以下情况之一:
  • 第 3 阶段低(警告):用户定义的阈值已超过。调整“集群已满”设置,或者添加更多节点。
  • 阶段 4 严重(错误):没有足够的空间从 1 节点故障中恢复。不允许创建卷、快照和克隆。
  • 第 5 阶段完全消耗(严重) 1 ;不允许写入或新的 iSCSI 连接。将保持当前的 iSCSI 连接。向集群添加更多容量之前,写入将失败。清除或删除数据或添加更多节点。
有关更多信息,请参见 Understanding Cluster Fullness Levels 。
要解决此故障,请清除或删除卷,或者向存储集群再添加一个存储节点。
mtuCheckFailure
没有为网络设备设置正确的 MTU 大小。
要解决此故障,请确保已为所有网络接口和交换机端口配置巨型帧(MTU 大小高达 9000 字节)。
networkConfig
此集群故障表示出现以下情况之一:
  • 不存在预期网络接口。
  • 存在重复网络接口。
  • 已配置网络接口,但它已关闭。
  • 需要重新启动网络接口。
请联系 NetApp 支持部门获得帮助。
noAvailableVirtualNetworkIPAddresses
IP 地址块中没有可用的虚拟网络地址。无法向存储集群添加更多存储节点。
要解决此故障,请向虚拟网络地址块添加更多 IP 地址。
NodeHardwareFault (网络接口已关闭或电缆已断开)
网络接口已关闭或电缆已拔下。
要解决此故障、请检查节点或节点的网络连接性。
nodeHardwareFault (驱动器加密功能状态不匹配节点在插槽 < 节点插槽 > < 驱动器插槽 > 中的驱动器的加密功能状态)
驱动器与安装它的存储节点的加密功能不匹配。
节点硬件故障(对于此节点类型而言,插槽 < 节点插槽 > < 驱动器插槽 > 中的驱动器的驱动器大小 <actual size> 不正确 - 预期大小 > )
存储节点包含的驱动器大小不正确。
NodeHardwareFault (在插槽 < 节点插槽 > 中检测到不支持的驱动器;驱动器统计信息和运行状况信息将不可用)
存储节点包含不支持的驱动器。
nodeHardwareFault (插槽中的驱动器应使用固件版本 < 预期版本 > 、但使用的版本不受支持)
存储节点包含运行不支持的固件版本的驱动器。
nodeOffline
Element 软件无法与指定节点进行通信。
要解决此故障,请检查集群网络连接和网络布线。如果网络没有问题,请联系 NetApp 支持部门更换节点。
notUsingLACPBondMode
未配置 LACP 绑定模式。
要解决此故障,请在部署存储节点时使用 LACP 绑定;如果未启用并正确配置 LACP,客户端可能会出现性能问题。
ntpServerUnreachable
存储集群无法与指定 NTP 服务器进行通信。
要解决此故障,请检查 NTP 服务器配置、网络和防火墙。
ntpTimeNotInSync
存储集群时间和指定 NTP 服务器时间之间的时间差太大。存储集群无法自动更正此时间差。
要解决此故障,请使用您网络内部的 NTP 服务器,而不是默认安装的 NTP 服务器。如果在使用内部 NTP 服务器的情况下仍存在此问题,请联系 NetApp 支持部门获得帮助。
nvramDeviceStatus
NVRAM 设备存在错误、将要出现故障或已出现故障。此故障具有以下严重性:
严重性 说明
警告 硬件检测到警告。这种情况可能是暂时的,例如温度警告。
错误 硬件检测到错误或严重状态。Cluster Master 尝试从操作中删除片驱动器(这会生成驱动器删除事件)。如果辅助片服务不可用,则不会删除该驱动器。
严重 硬件检测到错误或严重状态。Cluster Master 尝试从操作中删除片驱动器(这会生成驱动器删除事件)。如果辅助片服务不可用,则不会删除该驱动器。
更换节点中所有出现故障的硬件。如果这不能解决问题、请联系 NetApp 支持以获得帮助。
powerSupplyError
此集群故障表示出现以下情况之一:
  • 电源不存在。
  • 电源出现故障。
  • 缺少电源输入或电源输入超出范围。
要解决此故障,请确认已为所有节点提供冗余电源。如果仍存在此问题,请联系 NetApp 支持部门。
provisionedSpaceTooFull
存储集群的已配置总容量过满。
要解决此故障,请添加更多已配置空间,或者删除并清除卷或快照。
remoteRepAsyncDelayExceeded
已超过为复制配置的异步延迟。
remoteRepClusterFull
卷已暂停远程复制,因为目标存储集群太满。
要解决此故障,请释放目标存储集群上的部分空间。
remoteRepSnapshotClusterFull
卷已暂停快照远程复制,因为目标存储集群太满。
要解决此故障,请释放目标存储集群上的部分空间。
remoteRepSnapshotsExceededLimit
卷已暂停快照远程复制,因为目标存储集群卷已超过其快照限制。
要解决此故障,请从远程集群上删除一些快照。
scheduleActionError
运行的一个或多个计划活动失败。
在以下情况下,此故障会清除:计划活动再次运行并且成功,删除了计划活动,先暂停再继续该活动。
sensorReadingFailed
基板管理控制器 (BMC) 自检失败或传感器无法与 BMC 通信。
请联系 NetApp 支持部门获得帮助。
serviceNotRunning
所需服务未运行。
请联系 NetApp 支持部门获得帮助。
sliceServiceTooFull
为分区服务分配的已配置容量太少。
要解决此故障,请添加更多存储节点或联系 NetApp 支持部门。
sliceServiceUnhealthy
系统已检测到分区服务运行状况不正常,并且正在自动停用该服务。
  • 严重性 = 警告:未采取任何操作。此警告期限将在 6 分钟后过期。
  • 严重性 = 错误:系统将自动停用数据并将其数据重新复制到其他正常驱动器。
检查网络连接问题和硬件错误。如果特定硬件组件出现故障,则会出现其它故障。当可访问分片服务或服务已停用时、该故障将会清除。
sshEnabled
已在存储集群中的一个或多个节点上启用 SSH 服务。
要解决此故障,请禁用节点上的 SSH 服务。
sslCertificateExpiration
与此节点关联的 SSL 证书即将过期或已过期。此故障会根据紧急程度采用以下严重性:
严重性 说明
警告 证书将在 30 天内到期。
错误 证书将在 7 天内到期。
严重 证书将在 3 天内过期或已过期。
要解决此故障,请续订 SSL 证书。如果需要,请联系 NetApp 支持部门以获得帮助。
传输容量
单个节点占存储集群容量的一半以上。
为了保持数据冗余性、系统会减少最大节点的容量、从而使其部分块容量处于闲置状态(未使用)。要解决此故障、请向现有存储节点添加更多驱动器或向集群添加存储节点。
tempSensor
温度传感器报告的温度高于正常值。此故障可能会与 powerSupplyError 或 fanSensor 故障同时触发。
要解决此故障,请检查存储集群附近是否存在影响气流的障碍物。如果需要,请联系 NetApp 支持部门以获得帮助。
upgrade
升级已进行了超过 24 小时。
要解决此故障,请继续此升级或联系 NetApp 支持部门以获得帮助。
unbalancedMixedNodes
单个节点占用的存储集群容量超过三分之一。
请联系 NetApp 支持部门获得帮助。
unresponsiveService
系统服务已停止响应。
请联系 NetApp 支持部门获得帮助。
virtualNetworkConfig
此集群故障表示出现以下情况之一:
  • 某个接口不存在。
  • 某个接口上的命名空间不正确。
  • 网络掩码不正确。
  • IP 地址不正确。
  • 某个接口未启动并正常运行。
  • 某个节点上存在多余接口。
请联系 NetApp 支持部门获得帮助。
volumesDegraded
二级卷未完全复制并同步。
同步完成后,此故障将会清除。
如果此故障仍然存在,请检查是否存在网络连接问题和硬件错误。
volumesOffline
此存储集群中的一个或多个卷已脱机。
请联系 NetApp 支持部门获得帮助。