如果存储集群出现可能需要引起管理员注意的错误或状况,它会生成集群故障。您可以使用 ListClusterFaults 方法检索存储集群中当前已解决和未解决的故障列表。
以下列表提供了有关 NetApp Element 存储集群故障以及可能的解决方案的详细信息:
- AuthenticationServiceDefault
- 一个或多个集群节点上的验证服务无法正常工作。
- 请联系 NetApp 支持部门获得帮助。
- availableVirtualNetworkIPAddressesLow
- IP 地址块中的虚拟网络地址数量较少。
- 要解决此故障,请向虚拟网络地址块添加更多 IP 地址。
- blockClusterFull
- 没有足够的可用块存储空间可用于支持单节点丢失。有关GetClusterFullThreshold集群完全级别的详细信息,请参见 API 方法。此集群故障表示出现以下情况之一:
- 第 3 阶段低(警告):用户定义的阈值已超过。调整“集群已满”设置,或者添加更多节点。
- 阶段 4 严重(错误):没有足够的空间从 1 节点故障中恢复。不允许创建卷、快照和克隆。
- 第 5 阶段完全消耗(严重) 1 ;不允许写入或新的 iSCSI 连接。将保持当前的 iSCSI 连接。向集群添加更多容量之前,写入将失败。
- 要解决此故障,请清除或删除卷,或者向存储集群再添加一个存储节点。
- 块降级
- 由于故障,块数据不再完全复制。
-
严重性 |
说明 |
错误 |
只有一个完整块数据副本仍然可用。 |
严重 |
没有完整的块数据副本可用。 |
- 要解决此故障、请恢复任何脱机节点或块服务、或联系 NetApp 支持。
- blockServiceTooFull
- 块服务当前所用空间过多。
- 要解决此故障,请清除或删除卷,或者向存储集群再添加一个存储节点。
- 时钟偏移超出故障阈值
- 集群主节点和呈现令牌的节点之间的时间偏差超出了建议的阈值。
- 存储集群无法自动纠正节点之间的时间偏差。要解决此故障,请使用您网络内部的 NTP 服务器,而不是默认安装的 NTP 服务器。如果您已经在使用内部 NTP 服务器、请联系 NetApp 支持以获得帮助。
- clusterCannotSync
- 集群块数据处于降级状态、恢复完全块数据冗余的自动修复过程无法继续;太多节点或块服务脱机或集群块服务太满。
- 要解决此故障、请添加更多块容量或联系 NetApp 支持。
- clusterFull
- 此存储集群没有更多可用存储空间。
- 要解决此故障,请添加更多存储。
- clusterIOPSAreOverProvisioned
- 存储集群 IOPS 配置过度。所有最小 QoS IOPS 的总和超过集群的预期 IOPS。系统无法同时对所有卷保持最小 QoS。
- 要解决此故障,请减小卷的最低 QoS IOPS 设置。
- disableDriveSecurityFailed
- 在空闲加密功能处于关闭的情况下,无法对驱动器禁用安全保护。此驱动器仍会启用驱动器安全保护。
- 故障详细信息会显示无法禁用驱动器安全保护的原因;您可能需要根据此原因调查问题所在。如果您需要恢复未成功禁用安全保护的磁盘,请执行以下步骤:
- 将此驱动器移至“available”状态以逻辑删除此驱动器。
- 对此驱动器执行安全擦除。
- 将此驱动器移至“active”状态。
如果上述步骤仍无法解决此问题,请更换此驱动器。
- disconnectedClusterPair
- 集群对已断开或配置不正确。
- 检查集群的网络连接。
- disconnectedRemoteNode
- 远程节点已断开或配置不正确。检查节点之间的网络连通性。
- disconnectedSnapMirrorEndpoint
- 远程 SnapMirror 端点已断开或配置不正确。检查集群和远程 SnapMirrorEndpoint 之间的网络连接。
- driveAvailable
- 可将一个或多个驱动器添加存储集群中。一般来说,所有存储集群均应已添加所有驱动器,并且任何驱动器均不处于可用状态。如果意外出现此故障,请联系 NetApp 支持部门。
- 要解决此故障,请向存储集群添加任何可用驱动器。
- driveFailed
- 当一个或多个驱动器出现故障时、群集将返回此故障、表明以下情况之一:
- 驱动器管理器无法访问驱动器。
- 片或块服务失败次数太多、可能是由于驱动器读取或写入故障、无法重新启动。
- 驱动器丢失。
- 无法访问节点的主服务(节点中的所有驱动器均被视为丢失 / 失败)。
- 驱动器已锁定、无法获取驱动器的身份验证密钥。
- 驱动器已锁定、解锁操作失败。
要解决此问题:
- 检查节点的网络连接性。
- 更换驱动器。
- 确保身份验证密钥可用。
- driveWearFault
- 驱动器的剩余寿命已降到阈值以下、但仍在运行。此故障有两种可能的严重级别:严重和警告:
- 带有串行端口的驱动器: < 节点插槽 >< 驱动器插槽 > 具有严重的磨损级别。
- 带有串行端口的驱动器: < 节点插槽 > 具有低磨损预留空间。
要解决此故障,请尽快更换驱动器。
- duplicateClusterMasterCandidates
- 存储集群存在多个候选主节点。
- 请联系 NetApp 支持部门获得帮助。
- enableDriveSecurityFailed
- 在空闲加密功能处于打开的情况下,无法对驱动器启用安全保护。
- 确保用于启用安全保护的密钥正确无误。如果您需要恢复无法成功启用安全保护的磁盘,请执行以下步骤:
- 将此驱动器移至“available”状态以逻辑删除此驱动器。
- 对此驱动器执行安全擦除。
- 将此驱动器移至“active”状态。
如果上述步骤仍无法解决此问题,请更换此驱动器。
- ensembleDegraded
- 某个集合节点已断开网络连接或电源。
- 要解决此故障,请为受影响的节点还原网络连接或电源。
- exception
- 发生异常故障。这些故障不会自动从故障队列中清除。
- 请联系 NetApp 支持部门获得帮助。
- failedSpaceTooFull
- 块服务未对数据写入请求做出响应。这会导致分区服务空间不足,从而无法存储失败的写入。
- 请联系 NetApp 支持部门获得帮助。
- fanSensor
- 风扇传感器出现故障或丢失。
- 请联系 NetApp 支持部门获得帮助。
- fibreChannelAccessDegraded
- 光纤通道节点无法通过其存储 IP 地址对存储集群中的其他节点做出响应。
- 检查集群的网络连接。
- fibreChannelAccessUnavailable
- 所有光纤通道节点均无响应。此时将显示节点 ID。
- 检查集群的网络连接。
- FibreChannelActiveXL
- 每个光纤通道节点的 IXL Nexus 计数接近支持的 8000 个活动会话数限制。
- 最佳实践限制为 5500 。
- 警告限制为 7500 。
- 最大限制(非强制)为 8192 。
- 要解决此故障、请将 IXL Nexus 计数降低到最佳实践限制 5500 以下。
- fibreChannelConfig
- 此集群故障表示出现以下情况之一:
- 在 PCI 插槽上存在意外的光纤通道端口。
- 存在意外的光纤通道 HBA 型号。
- 光纤通道 HBA 固件出现问题。
- 某个光纤通道端口未联机。
- 配置光纤通道直通时出现持久性问题。
- 请联系 NetApp 支持部门获得帮助。
- FibreChannelStaticXL
- 每个光纤通道节点的 IXL Nexus 计数接近支持的 16000 个静态会话数限制。
- 最佳实践限制为 11000 。
- 警告限制为 15000 。
- 最大限制(强制)为 16384 。
- 要解决此故障、请将 IXL Nexus 计数降低到最佳实践限制 11000 以下。
- fileSystemCapacityLow
- 某个文件系统空间不足。
- 要解决此故障,请向此文件系统添加更多容量。
- fipsDrivesMismatch
- 将非 FIPS 驱动器插入了 FIPS 存储节点中,或者将 FIPS 驱动器插入了非 FIPS 存储节点中。
- 请卸下或更换有问题的驱动器。
- fipsDrivesOutOfCompliance
- 系统检测到已禁用空闲加密或存储集群中存在非 FIPS 硬件。
- 请启用空闲加密或从此存储集群中卸下非 FIPS 硬件。
- fipsSelfTestFailure
- 系统在 FIPS 自检期间检测到故障。
- 请联系 NetApp 支持部门获得帮助。
- hardwareConfigMismatch
- 此集群故障表示出现以下情况之一:
- 此配置与此节点定义不匹配。
- 此类节点的驱动器大小不正确。
- 节点正在使用不受支持的驱动器。
- 驱动器固件不匹配。
- 驱动器加密功能状态与其父节点不匹配。
- 请联系 NetApp 支持部门获得帮助。
- IDPCertificateExpiration
- 与第三方身份认证提供者一起使用的集群的服务提供商 SSL 证书即将过期或已过期。此故障会根据紧急程度采用以下严重性:
严重性 |
说明 |
警告 |
证书将在 30 天内到期。 |
错误 |
证书将在 7 天内到期。 |
严重 |
证书将在 3 天内过期或已过期。 |
- 要解决此问题、请在 SSL 证书过期之前更新该证书。将UpdateIdpConfiguration方法与 RefreshCertificateExpirationtime=true 一起使用以提供更新的 SSL 证书。
- inconsistentBondModes
- VLAN 设备上缺少绑定模式。此故障将显示预期的绑定模式和当前正在使用的绑定模式。
- 要解决此故障,请在每节点 Web UI 中修改绑定模式。
- inconsistentInterfaceConfiguration
- 接口配置不一致。
- 要解决此故障,请确保存储集群中的节点接口配置一致。
- inconsistentMtus
- 此集群故障表示出现以下情况之一:
- Bond1G mismatch:在绑定 1G 接口上检测到 MTU 不一致。
- Bond10G mismatch:在绑定 10G 接口上检测到 MTU 不一致。
- 此故障将显示存在问题的节点以及关联的 MTU 值。
- 要解决此故障,请在每节点 Web UI 中修改 MTU 设置。
- inconsistentRoutingRules
- 此接口的路由规则不一致。
- inconsistentSubnetMasks
- VLAN 设备上的网络掩码与内部记录的 VLAN 网络掩码不匹配。此故障将显示预期网络掩码与当前使用的网络掩码。
- 要解决此故障,请在 Element(存储集群)Web UI 中修改子网掩码。
- incorrectBondPortCount
- 绑定端口数不正确。
- invalidConfiguredFibreChannelNodeCount
- 所需的两个光纤通道节点连接之一性能下降。如果仅连接了一个光纤通道节点,则会出现此故障。
- 要解决此故障,请检查集群网络连接和网络布线,并查看是否存在服务故障。如果网络或服务均无问题,请联系 NetApp 支持部门更换光纤通道节点。
- irqBalanceFailed
- 尝试平衡中断时出现异常。
- 请联系 NetApp 支持部门获得帮助。
- kmipCertificateFault(根证书颁发机构 [Certification Authority, CA] 证书即将到期)
- 根证书颁发机构 (Certification Authority, CA) 证书即将到期。此故障会根据紧急程度采用以下严重性:
严重性 |
说明 |
警告 |
证书将在 30 天内到期。 |
错误 |
证书将在 7 天内到期。 |
严重 |
证书将在 3 天内到期。 |
- 要解决此故障,请在证书到期前更新此证书。从根 CA 获取一个新证书,此证书至少在未来 30 天后到期。使用 ModifyKeyServerKmip API 方法提供更新后的根 CA 证书。
- kmipCertificateFault(客户端证书即将到期)
- 客户端证书即将到期。此故障会根据紧急程度采用以下严重性:
严重性 |
说明 |
警告 |
证书将在 30 天内到期。 |
错误 |
证书将在 7 天内到期。 |
严重 |
证书将在 3 天内到期。 |
- 要解决此故障,请使用 GetClientCertificateSigningRequest 方法创建一个新的 CSR。对此 CSR 进行签名并使其在 30 天后到期,然后使用 ModifyKeyServerKmip API 方法将即将到期的 KMIP 客户端证书替换为此新证书。
- kmipCertificateFault(根证书颁发机构 [Certification Authority, CA] 证书已到期)
- 根 CA 证书已到期。
- 从根 CA 获取一个新证书,此证书至少在未来 30 天后到期。使用 ModifyKeyServerKmip API 方法提供更新后的根 CA 证书。
- kmipCertificateFault(客户端证书已到期)
- 客户端证书已到期。
- 使用 GetClientCertificateSigningRequest API 方法创建一个新的 CSR 并对其进行签名,确保新的到期日期至少在未来 30 天后。使用 ModifyKeyServerKmip API 方法将已到期的客户端证书替换为此新证书。
- kmipCertificateFault(根证书颁发机构 [Certification Authority, CA] 证书无效)
- 根 CA 证书无效。
- 确保提供的证书正确无误。如果需要,请从根 CA 重新获取此证书。使用 ModifyKeyServerKmip API 方法安装此正确的证书。
- kmipCertificateFault(客户端证书无效)
- 客户端证书无效。
- 确保安装的 KMIP 客户端证书正确无误。应将此客户端证书的根 CA 安装在外部密钥管理服务器上。如果需要更新此客户端证书,请使用 ModifyKeyServerKmip API 方法。
- kmipServerFault(连接失败)
- 一个或多个节点无法访问外部密钥管理服务器。
- 故障详细信息会提供此密钥服务器 ID。确保此服务器运行正常并可通过管理网络访问。如果只有部分节点无法访问此外部密钥管理服务器,则故障详细信息会列出这些无法访问此密钥服务器的节点。在网络或特定节点级别执行故障排除,以确定为什么只有部分节点可以访问此外部密钥管理服务器。
- kmipServerFault(身份验证失败)
- 一个或多个节点无法向外部密钥管理服务器进行身份验证。
- 确保使用的根 CA 证书和 KMIP 客户端证书正确无误。如果需要更新任何证书,请使用 ModifyKeyServerKmip 方法安装正确的证书。
- kmipServerFault(服务器错误)
- 外部密钥管理服务器出现错误。
- 故障详细信息会提供此错误的详细信息。您可能需要根据此错误对外部密钥管理服务器进行故障排除。
- 内存阈值
- 检测到大量可纠正或不可纠正的 ECC 错误。如果返回类型为 Error 的严重级别、则可能是由于 DIMM 故障造成的。
- 请联系 NetApp 支持部门获得帮助。
- memoryUsageThreshold
- 内存利用率超过正常值。
- 请联系 NetApp 支持部门获得帮助。
- metadataClusterFull
- 没有足够的可用元数据存储空间来支持单个节点丢失。有关GetClusterFullThreshold集群完全级别的详细信息,请参见 API 方法。此集群故障表示出现以下情况之一:
- 第 3 阶段低(警告):用户定义的阈值已超过。调整“集群已满”设置,或者添加更多节点。
- 阶段 4 严重(错误):没有足够的空间从 1 节点故障中恢复。不允许创建卷、快照和克隆。
- 第 5 阶段完全消耗(严重) 1 ;不允许写入或新的 iSCSI 连接。将保持当前的 iSCSI 连接。向集群添加更多容量之前,写入将失败。清除或删除数据或添加更多节点。
- 有关更多信息,请参见 Understanding Cluster Fullness Levels 。
- 要解决此故障,请清除或删除卷,或者向存储集群再添加一个存储节点。
- mtuCheckFailure
- 没有为网络设备设置正确的 MTU 大小。
- 要解决此故障,请确保已为所有网络接口和交换机端口配置巨型帧(MTU 大小高达 9000 字节)。
- networkConfig
- 此集群故障表示出现以下情况之一:
- 不存在预期网络接口。
- 存在重复网络接口。
- 已配置网络接口,但它已关闭。
- 需要重新启动网络接口。
- 请联系 NetApp 支持部门获得帮助。
- noAvailableVirtualNetworkIPAddresses
- IP 地址块中没有可用的虚拟网络地址。无法向存储集群添加更多存储节点。
- 要解决此故障,请向虚拟网络地址块添加更多 IP 地址。
- NodeHardwareFault (网络接口已关闭或电缆已断开)
- 网络接口已关闭或电缆已拔下。
- 要解决此故障、请检查节点或节点的网络连接性。
- nodeHardwareFault (驱动器加密功能状态不匹配节点在插槽 < 节点插槽 > < 驱动器插槽 > 中的驱动器的加密功能状态)
- 驱动器与安装它的存储节点的加密功能不匹配。
- 节点硬件故障(对于此节点类型而言,插槽 < 节点插槽 > < 驱动器插槽 > 中的驱动器的驱动器大小 <actual size> 不正确 - 预期大小 > )
- 存储节点包含的驱动器大小不正确。
- NodeHardwareFault (在插槽 < 节点插槽 > 中检测到不支持的驱动器;驱动器统计信息和运行状况信息将不可用)
- 存储节点包含不支持的驱动器。
- nodeHardwareFault (插槽中的驱动器应使用固件版本 < 预期版本 > 、但使用的版本不受支持)
- 存储节点包含运行不支持的固件版本的驱动器。
- nodeOffline
- Element 软件无法与指定节点进行通信。
- 要解决此故障,请检查集群网络连接和网络布线。如果网络没有问题,请联系 NetApp 支持部门更换节点。
- notUsingLACPBondMode
- 未配置 LACP 绑定模式。
- 要解决此故障,请在部署存储节点时使用 LACP 绑定;如果未启用并正确配置 LACP,客户端可能会出现性能问题。
- ntpServerUnreachable
- 存储集群无法与指定 NTP 服务器进行通信。
- 要解决此故障,请检查 NTP 服务器配置、网络和防火墙。
- ntpTimeNotInSync
- 存储集群时间和指定 NTP 服务器时间之间的时间差太大。存储集群无法自动更正此时间差。
- 要解决此故障,请使用您网络内部的 NTP 服务器,而不是默认安装的 NTP 服务器。如果在使用内部 NTP 服务器的情况下仍存在此问题,请联系 NetApp 支持部门获得帮助。
- nvramDeviceStatus
- NVRAM 设备存在错误、将要出现故障或已出现故障。此故障具有以下严重性:
严重性 |
说明 |
警告 |
硬件检测到警告。这种情况可能是暂时的,例如温度警告。 |
错误 |
硬件检测到错误或严重状态。Cluster Master 尝试从操作中删除片驱动器(这会生成驱动器删除事件)。如果辅助片服务不可用,则不会删除该驱动器。 |
严重 |
硬件检测到错误或严重状态。Cluster Master 尝试从操作中删除片驱动器(这会生成驱动器删除事件)。如果辅助片服务不可用,则不会删除该驱动器。 |
- 更换节点中所有出现故障的硬件。如果这不能解决问题、请联系 NetApp 支持以获得帮助。
- powerSupplyError
- 此集群故障表示出现以下情况之一:
- 电源不存在。
- 电源出现故障。
- 缺少电源输入或电源输入超出范围。
- 要解决此故障,请确认已为所有节点提供冗余电源。如果仍存在此问题,请联系 NetApp 支持部门。
- provisionedSpaceTooFull
- 存储集群的已配置总容量过满。
- 要解决此故障,请添加更多已配置空间,或者删除并清除卷或快照。
- remoteRepAsyncDelayExceeded
- 已超过为复制配置的异步延迟。
- remoteRepClusterFull
- 卷已暂停远程复制,因为目标存储集群太满。
- 要解决此故障,请释放目标存储集群上的部分空间。
- remoteRepSnapshotClusterFull
- 卷已暂停快照远程复制,因为目标存储集群太满。
- 要解决此故障,请释放目标存储集群上的部分空间。
- remoteRepSnapshotsExceededLimit
- 卷已暂停快照远程复制,因为目标存储集群卷已超过其快照限制。
- 要解决此故障,请从远程集群上删除一些快照。
- scheduleActionError
- 运行的一个或多个计划活动失败。
- 在以下情况下,此故障会清除:计划活动再次运行并且成功,删除了计划活动,先暂停再继续该活动。
- sensorReadingFailed
- 基板管理控制器 (BMC) 自检失败或传感器无法与 BMC 通信。
- 请联系 NetApp 支持部门获得帮助。
- serviceNotRunning
- 所需服务未运行。
- 请联系 NetApp 支持部门获得帮助。
- sliceServiceTooFull
- 为分区服务分配的已配置容量太少。
- 要解决此故障,请添加更多存储节点或联系 NetApp 支持部门。
- sliceServiceUnhealthy
- 系统已检测到分区服务运行状况不正常,并且正在自动停用该服务。
- 严重性 = 警告:未采取任何操作。此警告期限将在 6 分钟后过期。
- 严重性 = 错误:系统将自动停用数据并将其数据重新复制到其他正常驱动器。
检查网络连接问题和硬件错误。如果特定硬件组件出现故障,则会出现其它故障。当可访问分片服务或服务已停用时、该故障将会清除。
- sshEnabled
- 已在存储集群中的一个或多个节点上启用 SSH 服务。
- 要解决此故障,请禁用节点上的 SSH 服务。
- sslCertificateExpiration
- 与此节点关联的 SSL 证书即将过期或已过期。此故障会根据紧急程度采用以下严重性:
严重性 |
说明 |
警告 |
证书将在 30 天内到期。 |
错误 |
证书将在 7 天内到期。 |
严重 |
证书将在 3 天内过期或已过期。 |
- 要解决此故障,请续订 SSL 证书。如果需要,请联系 NetApp 支持部门以获得帮助。
- 传输容量
- 单个节点占存储集群容量的一半以上。
- 为了保持数据冗余性、系统会减少最大节点的容量、从而使其部分块容量处于闲置状态(未使用)。要解决此故障、请向现有存储节点添加更多驱动器或向集群添加存储节点。
- tempSensor
- 温度传感器报告的温度高于正常值。此故障可能会与 powerSupplyError 或 fanSensor 故障同时触发。
- 要解决此故障,请检查存储集群附近是否存在影响气流的障碍物。如果需要,请联系 NetApp 支持部门以获得帮助。
- upgrade
- 升级已进行了超过 24 小时。
- 要解决此故障,请继续此升级或联系 NetApp 支持部门以获得帮助。
- unbalancedMixedNodes
- 单个节点占用的存储集群容量超过三分之一。
- 请联系 NetApp 支持部门获得帮助。
- unresponsiveService
- 系统服务已停止响应。
- 请联系 NetApp 支持部门获得帮助。
- virtualNetworkConfig
- 此集群故障表示出现以下情况之一:
- 某个接口不存在。
- 某个接口上的命名空间不正确。
- 网络掩码不正确。
- IP 地址不正确。
- 某个接口未启动并正常运行。
- 某个节点上存在多余接口。
- 请联系 NetApp 支持部门获得帮助。
- volumesDegraded
- 二级卷未完全复制并同步。
- 同步完成后,此故障将会清除。
- 如果此故障仍然存在,请检查是否存在网络连接问题和硬件错误。
- volumesOffline
- 此存储集群中的一个或多个卷已脱机。
- 请联系 NetApp 支持部门获得帮助。