如果存储集群出现可能需要引起管理员注意的错误或状况,它会生成集群故障。您可以使用 ListClusterFaults 方法检索存储集群中当前已解决和未解决的故障列表。
以下列表提供了有关 NetApp Element 存储集群故障以及可能的解决方案的详细信息:
- availableVirtualNetworkIPAddressesLow
- IP 地址块中的虚拟网络地址数量较少。
- 要解决此故障,请向虚拟网络地址块添加更多 IP 地址。
- blockClusterFull
- 没有足够的可用块存储空间来支持单节点丢失。
- 要解决此故障,请清除或删除卷,或者向存储集群再添加一个存储节点。
- blockServiceTooFull
- 块服务当前所用空间过多。
- 要解决此故障,请清除或删除卷,或者向存储集群再添加一个存储节点。
- clusterCannotSync
- 存储集群空间不足,系统无法将脱机块存储驱动器上的数据同步到仍处于活动状态的驱动器。
- 要解决此故障,请添加更多存储。
- clusterFull
- 此存储集群没有更多可用存储空间。
- 要解决此故障,请添加更多存储。
- clusterIOPSAreOverProvisioned
- 存储集群 IOPS 配置过度。所有最小 QoS IOPS 的总和超过集群的预期 IOPS。系统无法同时对所有卷保持最小 QoS。
- 要解决此故障,请减小卷的最低 QoS IOPS 设置。
- disableDriveSecurityFailed
- 在空闲加密功能处于关闭的情况下,无法对驱动器禁用安全保护。此驱动器仍会启用驱动器安全保护。
- 故障详细信息会显示无法禁用驱动器安全保护的原因;您可能需要根据此原因调查问题所在。如果您需要恢复未成功禁用安全保护的磁盘,请执行以下步骤:
- 将此驱动器移至“available”状态以逻辑删除此驱动器。
- 对此驱动器执行安全擦除。
- 将此驱动器移至“active”状态。
如果上述步骤仍无法解决此问题,请更换此驱动器。
- disconnectedClusterPair
- 集群对已断开或配置不正确。
- 检查集群的网络连接。
- disconnectedRemoteNode
- 远程节点已断开或配置不正确。
- disconnectedSnapMirrorEndpoint
- 远程 SnapMirror 端点已断开或配置不正确。
- driveAvailable
- 可将一个或多个驱动器添加存储集群中。一般来说,所有存储集群均应已添加所有驱动器,并且任何驱动器均不处于可用状态。如果意外出现此故障,请联系 NetApp 支持部门。
- 要解决此故障,请向存储集群添加任何可用驱动器。
- driveFailed
- 一个或多个驱动器出现故障。
- 请联系 NetApp 支持部门以更换驱动器。
- driveWearFault
- 驱动器的剩余使用寿命已低于阈值,但它仍在运行。
- 要解决此故障,请尽快更换驱动器。
- duplicateClusterMasterCandidates
- 存储集群存在多个候选主节点。
- 请联系 NetApp 支持部门获得帮助。
- enableDriveSecurityFailed
- 在空闲加密功能处于打开的情况下,无法对驱动器启用安全保护。
- 确保用于启用安全保护的密钥正确无误。如果您需要恢复无法成功启用安全保护的磁盘,请执行以下步骤:
- 将此驱动器移至“available”状态以逻辑删除此驱动器。
- 对此驱动器执行安全擦除。
- 将此驱动器移至“active”状态。
如果上述步骤仍无法解决此问题,请更换此驱动器。
- ensembleDegraded
- 某个集合节点已断开网络连接或电源。
- 要解决此故障,请为受影响的节点还原网络连接或电源。
- exception
- 发生异常故障。这些故障不会自动从故障队列中清除。
- 请联系 NetApp 支持部门获得帮助。
- failedSpaceTooFull
- 块服务未对数据写入请求做出响应。这会导致分区服务空间不足,从而无法存储失败的写入。
- 请联系 NetApp 支持部门获得帮助。
- fanSensor
- 风扇传感器出现故障或丢失。
- 请联系 NetApp 支持部门获得帮助。
- fibreChannelAccessDegraded
- 光纤通道节点无法通过其存储 IP 地址对存储集群中的其他节点做出响应。
- 检查集群的网络连接。
- fibreChannelAccessUnavailable
- 所有光纤通道节点均无响应。此时将显示节点 ID。
- 检查集群的网络连接。
- fibreChannelConfig
- 此集群故障表示出现以下情况之一:
- 在 PCI 插槽上存在意外的光纤通道端口。
- 存在意外的光纤通道 HBA 型号。
- 光纤通道 HBA 固件出现问题。
- 某个光纤通道端口未联机。
- 配置光纤通道直通时出现持久性问题。
- 请联系 NetApp 支持部门获得帮助。
- fileSystemCapacityLow
- 某个文件系统空间不足。
- 要解决此故障,请向此文件系统添加更多容量。
- fipsDrivesOutOfCompliance
- 系统检测到已禁用空闲加密或存储集群中存在非 FIPS 硬件。
- 请启用空闲加密或从此存储集群中卸下非 FIPS 硬件。
- fipsDrivesMismatch
- 将非 FIPS 驱动器插入了 FIPS 存储节点中,或者将 FIPS 驱动器插入了非 FIPS 存储节点中。
- 请卸下或更换有问题的驱动器。
- fipsSelfTestFailure
- 系统在 FIPS 自检期间检测到故障。
- 请联系 NetApp 支持部门获得帮助。
- hardwareConfigMismatch
- 此集群故障表示出现以下情况之一:
- 此配置与此节点定义不匹配。
- 此类节点的驱动器大小不正确。
- 节点正在使用不受支持的驱动器。
- 驱动器固件不匹配。
- 驱动器加密功能状态与其父节点不匹配。
- 请联系 NetApp 支持部门获得帮助。
- inconsistentBondModes
- VLAN 设备上缺少绑定模式。此故障将显示预期的绑定模式和当前正在使用的绑定模式。
- 要解决此故障,请在每节点 Web UI 中修改绑定模式。
- inconsistentInterfaceConfiguration
- 接口配置不一致。
- 要解决此故障,请确保存储集群中的节点接口配置一致。
- inconsistentMtus
- 此集群故障表示出现以下情况之一:
- Bond1G mismatch:在绑定 1G 接口上检测到 MTU 不一致。
- Bond10G mismatch:在绑定 10G 接口上检测到 MTU 不一致。
- 此故障将显示存在问题的节点以及关联的 MTU 值。
- 要解决此故障,请在每节点 Web UI 中修改 MTU 设置。
- inconsistentRoutingRules
- 此接口的路由规则不一致。
- inconsistentSubnetMasks
- VLAN 设备上的网络掩码与内部记录的 VLAN 网络掩码不匹配。此故障将显示预期网络掩码与当前使用的网络掩码。
- 要解决此故障,请在 Element(存储集群)Web UI 中修改子网掩码。
- incorrectBondPortCount
- 绑定端口数不正确。
- invalidConfiguredFibreChannelNodeCount
- 所需的两个光纤通道节点连接之一性能下降。如果仅连接了一个光纤通道节点,则会出现此故障。
- 要解决此故障,请检查集群网络连接和网络布线,并查看是否存在服务故障。如果网络或服务均无问题,请联系 NetApp 支持部门更换光纤通道节点。
- irqBalanceFailed
- 尝试平衡中断时出现异常。
- 请联系 NetApp 支持部门获得帮助。
- kmipCertificateFault(根证书颁发机构 [Certification Authority, CA] 证书即将到期)
- 根证书颁发机构 (Certification Authority, CA) 证书即将到期。此故障会根据紧急程度采用以下严重性:
严重性 |
说明 |
警告 |
证书将在 30 天内到期。 |
错误 |
证书将在 7 天内到期。 |
严重 |
证书将在 3 天内到期。 |
- 要解决此故障,请在证书到期前更新此证书。从根 CA 获取一个新证书,此证书至少在未来 30 天后到期。使用 ModifyKeyServerKmip API 方法提供更新后的根 CA 证书。
- kmipCertificateFault(客户端证书即将到期)
- 客户端证书即将到期。此故障会根据紧急程度采用以下严重性:
严重性 |
说明 |
警告 |
证书将在 30 天内到期。 |
错误 |
证书将在 7 天内到期。 |
严重 |
证书将在 3 天内到期。 |
- 要解决此故障,请使用 GetClientCertificateSigningRequest 方法创建一个新的 CSR。对此 CSR 进行签名并使其在 30 天后到期,然后使用 ModifyKeyServerKmip API 方法将即将到期的 KMIP 客户端证书替换为此新证书。
- kmipCertificateFault(根证书颁发机构 [Certification Authority, CA] 证书已到期)
- 根 CA 证书已到期。
- 从根 CA 获取一个新证书,此证书至少在未来 30 天后到期。使用 ModifyKeyServerKmip API 方法提供更新后的根 CA 证书。
- kmipCertificateFault(客户端证书已到期)
- 客户端证书已到期。
- 使用 GetClientCertificateSigningRequest API 方法创建一个新的 CSR 并对其进行签名,确保新的到期日期至少在未来 30 天后。使用 ModifyKeyServerKmip API 方法将已到期的客户端证书替换为此新证书。
- kmipCertificateFault(根证书颁发机构 [Certification Authority, CA] 证书无效)
- 根 CA 证书无效。
- 确保提供的证书正确无误。如果需要,请从根 CA 重新获取此证书。使用 ModifyKeyServerKmip API 方法安装此正确的证书。
- kmipCertificateFault(客户端证书无效)
- 客户端证书无效。
- 确保安装的 KMIP 客户端证书正确无误。应将此客户端证书的根 CA 安装在外部密钥管理服务器上。如果需要更新此客户端证书,请使用 ModifyKeyServerKmip API 方法。
- kmipServerFault(连接失败)
- 一个或多个节点无法访问外部密钥管理服务器。
- 故障详细信息会提供此密钥服务器 ID。确保此服务器运行正常并可通过管理网络访问。如果只有部分节点无法访问此外部密钥管理服务器,则故障详细信息会列出这些无法访问此密钥服务器的节点。在网络或特定节点级别执行故障排除,以确定为什么只有部分节点可以访问此外部密钥管理服务器。
- kmipServerFault(身份验证失败)
- 一个或多个节点无法向外部密钥管理服务器进行身份验证。
- 确保使用的根 CA 证书和 KMIP 客户端证书正确无误。如果需要更新任何证书,请使用 ModifyKeyServerKmip 方法安装正确的证书。
- kmipServerFault(服务器错误)
- 外部密钥管理服务器出现错误。
- 故障详细信息会提供此错误的详细信息。您可能需要根据此错误对外部密钥管理服务器进行故障排除。
- memoryUsageThreshold
- 内存利用率超过正常值。
- 请联系 NetApp 支持部门获得帮助。
- metadataClusterFull
- 没有足够的可用元数据空间可用于支持单节点丢失。
- 要解决此故障,请向存储集群再添加一个存储节点。
- mtuCheckFailure
- 没有为网络设备设置正确的 MTU 大小。
- 要解决此故障,请确保已为所有网络接口和交换机端口配置巨型帧(MTU 大小高达 9000 字节)。
- networkConfig
- 此集群故障表示出现以下情况之一:
- 不存在预期网络接口。
- 存在重复网络接口。
- 已配置网络接口,但它已关闭。
- 需要重新启动网络接口。
- 请联系 NetApp 支持部门获得帮助。
- networkErrorsExceedThreshold
- 此集群故障表示出现以下情况之一:
- 网络接口帧错误数量超过正常值。
- 网络接口 CRC 错误数量超过正常值。
- 更换报告这些错误的网络接口所连接的网络缆线。如果仍存在此问题,请联系 NetApp 支持部门。
- noAvailableVirtualNetworkIPAddresses
- IP 地址块中没有可用的虚拟网络地址。无法向存储集群添加更多存储节点。
- 要解决此故障,请向虚拟网络地址块添加更多 IP 地址。
- nodeOffline
- Element 软件无法与指定节点进行通信。
- 要解决此故障,请检查集群网络连接和网络布线。如果网络没有问题,请联系 NetApp 支持部门更换节点。
- notUsingLACPBondMode
- 未配置 LACP 绑定模式。
- 要解决此故障,请在部署存储节点时使用 LACP 绑定;如果未启用并正确配置 LACP,客户端可能会出现性能问题。
- ntpServerUnreachable
- 存储集群无法与指定 NTP 服务器进行通信。
- 要解决此故障,请检查 NTP 服务器配置、网络和防火墙。
- ntpTimeNotInSync
- 存储集群时间和指定 NTP 服务器时间之间的时间差太大。存储集群无法自动更正此时间差。
- 要解决此故障,请使用您网络内部的 NTP 服务器,而不是默认安装的 NTP 服务器。如果在使用内部 NTP 服务器的情况下仍存在此问题,请联系 NetApp 支持部门获得帮助。
- nvramDeviceStatus
- NVRAM 设备存在错误、将要出现故障或已出现故障。
- 请联系 NetApp 支持部门获得帮助。
- powerSupplyError
- 此集群故障表示出现以下情况之一:
- 电源不存在。
- 电源出现故障。
- 缺少电源输入或电源输入超出范围。
- 要解决此故障,请确认已为所有节点提供冗余电源。如果仍存在此问题,请联系 NetApp 支持部门。
- provisionedSpaceTooFull
- 存储集群的已配置总容量过满。
- 要解决此故障,请添加更多已配置空间,或者删除并清除卷或快照。
- remoteRepAsyncDelayExceeded
- 已超过为复制配置的异步延迟。
- remoteRepClusterFull
- 卷已暂停远程复制,因为目标存储集群太满。
- 要解决此故障,请释放目标存储集群上的部分空间。
- remoteRepSnapshotClusterFull
- 卷已暂停快照远程复制,因为目标存储集群太满。
- 要解决此故障,请释放目标存储集群上的部分空间。
- remoteRepSnapshotsExceededLimit
- 卷已暂停快照远程复制,因为目标存储集群卷已超过其快照限制。
- 要解决此故障,请从远程集群上删除一些快照。
- scheduleActionError
- 运行的一个或多个计划活动失败。
- 在以下情况下,此故障会清除:计划活动再次运行并且成功,删除了计划活动,先暂停再继续该活动。
- sensorReadingFailed
- 基板管理控制器 (BMC) 自检失败或传感器无法与 BMC 通信。
- 请联系 NetApp 支持部门获得帮助。
- serviceNotRunning
- 所需服务未运行。
- 请联系 NetApp 支持部门获得帮助。
- sliceServiceTooFull
- 为分区服务分配的已配置容量太少。
- 要解决此故障,请添加更多存储节点或联系 NetApp 支持部门。
- sshEnabled
- 已在存储集群中的一个或多个节点上启用 SSH 服务。
- 要解决此故障,请禁用节点上的 SSH 服务。
- sslCertificateExpiration
- 与此节点关联的 SSL 证书已过期。
- 要解决此故障,请续订 SSL 证书。如果需要,请联系 NetApp 支持部门以获得帮助。
- tempSensor
- 温度传感器报告的温度高于正常值。此故障可能会与 powerSupplyError 或 fanSensor 故障同时触发。
- 要解决此故障,请检查存储集群附近是否存在影响气流的障碍物。如果需要,请联系 NetApp 支持部门以获得帮助。
- upgrade
- 升级已进行了超过 24 小时。
- 要解决此故障,请继续此升级或联系 NetApp 支持部门以获得帮助。
- unbalancedMixedNodes
- 单个节点占用的存储集群容量超过三分之一。
- 请联系 NetApp 支持部门获得帮助。
- unresponsiveService
- 系统服务已停止响应。
- 请联系 NetApp 支持部门获得帮助。
- virtualNetworkConfig
- 此集群故障表示出现以下情况之一:
- 某个接口不存在。
- 某个接口上的命名空间不正确。
- 网络掩码不正确。
- IP 地址不正确。
- 某个接口未启动并正常运行。
- 某个节点上存在多余接口。
- 请联系 NetApp 支持部门获得帮助。
- volumesDegraded
- 二级卷未完全复制并同步。
- 同步完成后,此故障将会清除。
- 如果此故障仍然存在,请检查是否存在网络连接问题和硬件错误。
- volumesOffline
- 此存储集群中的一个或多个卷已脱机。
- 请联系 NetApp 支持部门获得帮助。