系统会在Alerts页面上报告每个警报的错误代码。此错误代码有助于您确定系统中生成警报的组件以及生成警报的原因。
- AuthenticationServiceDefault
- 一个或多个集群节点上的验证服务无法正常工作。
- 请联系 NetApp 支持部门获得帮助。
- availableVirtualNetworkIPAddressesLow
- IP 地址块中的虚拟网络地址数量较少。
- 要解决此故障,请向虚拟网络地址块添加更多 IP 地址。
- blockClusterFull
- 没有足够的可用块存储空间可用于支持单节点丢失。有关GetClusterFullThreshold集群完全级别的详细信息,请参见 API 方法。此集群故障表示出现以下情况之一:
- 第 3 阶段低(警告):用户定义的阈值已超过。调整“集群已满”设置,或者添加更多节点。
- 阶段 4 严重(错误):没有足够的空间从 1 节点故障中恢复。不允许创建卷、快照和克隆。
- 第 5 阶段完全消耗(严重) 1 ;不允许写入或新的 iSCSI 连接。将保持当前的 iSCSI 连接。向集群添加更多容量之前,写入将失败。
- 要解决此故障,请清除或删除卷,或者向存储集群再添加一个存储节点。
- 块降级
- 由于故障,块数据不再完全复制。
-
严重性 |
说明 |
错误 |
只有一个完整块数据副本仍然可用。 |
严重 |
没有完整的块数据副本可用。 |
- 要解决此故障、请恢复任何脱机节点或块服务、或联系 NetApp 支持。
- blockServiceTooFull
- 块服务当前所用空间过多。
- 要解决此故障,请添加更多已配置容量。
- blockServiceUnhealthy
- 已检测到块服务不健康:
- 严重性 = 警告:未采取任何操作。此警告期限将以 ctimeUntilbSisSkilleDMSec =330000 毫秒为单位过期。
- 严重性 = 错误:系统将自动停用数据并将其数据重新复制到其他正常驱动器。
- Severity=Critical :多个节点上的块服务出现故障、大于或等于复制计数(双 Helix 为 2 )。数据不可用且无法完成容器同步。
检查网络连接问题和硬件错误。如果特定硬件组件出现故障,则会出现其它故障。当块服务可访问或服务已停用时、故障将会清除。
- 时钟偏移超出故障阈值
- 集群主节点和呈现令牌的节点之间的时间偏差超过了建议的阈值。存储集群无法自动更正节点之间的时间偏差。
- 要解决此故障,请使用您网络内部的 NTP 服务器,而不是默认安装的 NTP 服务器。如果您使用的是内部 NTP 服务器、请联系 NetApp 支持以获得帮助。
- clusterCannotSync
- 出现空间不足状况,并且无法将脱机块存储驱动器上的数据同步到仍处于活动状态的驱动器。
- 要解决此故障,请添加更多存储。
- clusterFull
- 此存储集群没有更多可用存储空间。
- 要解决此故障,请添加更多存储。
- clusterIOPSAreOverProvisioned
- 集群 IOPS 配置过度。所有最小 QoS IOPS 的总和超过集群的预期 IOPS。无法同时为所有卷保持最小 QoS。
- 要解决此问题、请降低卷的最低 QoS IOPS 设置。
- disableDriveSecurityFailed
- 未将集群配置为启用驱动器安全保护(空闲加密),但至少有一个驱动器启用了驱动器安全保护,也就是说,对这些驱动器禁用驱动器安全保护失败。此故障会记录为“警告”严重性。
- 要解决此故障,请查看故障详细信息以了解无法禁用驱动器安全保护的原因。可能的原因包括:
- 无法获取加密密钥,请调查此密钥或外部密钥服务器的访问问题。
- 对此驱动器执行禁用操作失败,请确定获取的密钥是否可能有误。
如果这两者均非此故障的原因,则可能需要更换此驱动器。 您可以尝试恢复在提供了正确身份验证密钥的情况下仍未成功禁用安全保护的驱动器。要执行此操作,请将此驱动器移至“Available”并从系统中删除,对此驱动器执行安全擦除,然后将其重新移回“Active”。
- disconnectedClusterPair
- 集群对已断开或配置不正确。检查集群之间的网络连接。
- disconnectedRemoteNode
- 远程节点已断开或配置不正确。检查节点之间的网络连通性。
- disconnectedSnapMirrorEndpoint
- 远程 SnapMirror 端点已断开或配置不正确。检查集群和远程 SnapMirrorEndpoint 之间的网络连接。
- driveAvailable
- 集群中的一个或多个驱动器可用。一般来说,所有集群应添加了所有驱动器,并且所有驱动器都不应处于可用状态。如果意外出现此故障,请联系 NetApp 支持部门。
- 要解决此故障,请向存储集群添加任何可用驱动器。
- driveFailed
- 当一个或多个驱动器出现故障时、群集将返回此故障、表明以下情况之一:
- 驱动器管理器无法访问驱动器。
- 片或块服务失败次数太多、可能是由于驱动器读取或写入故障、无法重新启动。
- 驱动器丢失。
- 无法访问节点的主服务(节点中的所有驱动器均被视为丢失 / 失败)。
- 驱动器已锁定、无法获取驱动器的身份验证密钥。
- 驱动器已锁定、解锁操作失败。
要解决此问题:
- 检查节点的网络连接性。
- 更换驱动器。
- 确保身份验证密钥可用。
- driveWearFault
- 驱动器的剩余寿命已降到阈值以下、但仍在运行。此故障有两种可能的严重级别:严重和警告:
- 带有串行端口的驱动器: < 节点插槽 >< 驱动器插槽 > 具有严重的磨损级别。
- 带有串行端口的驱动器: < 节点插槽 > 具有低磨损预留空间。
要解决此故障,请尽快更换驱动器。
- duplicateClusterMasterCandidates
- 检测到多个存储集群候选主节点。请联系 NetApp 支持部门获得帮助。
- enableDriveSecurityFailed
- 已将集群配置为需要驱动器安全保护(空闲加密),但至少有一个驱动器无法启用驱动器安全保护。此故障会记录为“警告”严重性。
- 要解决此故障,请查看故障详细信息以了解无法启用驱动器安全保护的原因。可能的原因包括:
- 无法获取加密密钥,请调查此密钥或外部密钥服务器的访问问题。
- 对此驱动器执行启用操作失败,请确定获取的密钥是否可能有误。
如果这两者均非此故障的原因,则可能需要更换此驱动器。 您可以尝试恢复在提供了正确身份验证密钥的情况下仍未成功启用安全保护的驱动器。要执行此操作,请将此驱动器移至“Available”并从系统中删除,对此驱动器执行安全擦除,然后将其重新移回“Active”。
- ensembleDegraded
- 一个或多个集合节点已断开网络连接或已断电。
- 要解决此故障,请还原网络连接或恢复供电。
- exception
- 报告了常规故障以外的其他故障。这些故障不会自动从故障队列中清除。请联系 NetApp 支持部门获得帮助。
- failedSpaceTooFull
- 块服务未对数据写入请求做出响应。这会导致分区服务空间不足,从而无法存储失败的写入。
- 要解决此故障,请还原块服务功能,以便继续正常写入并从分区服务刷新失败的空间。
- fanSensor
- 风扇传感器出现故障或丢失。
- 要解决此故障、请更换任何出现故障的硬件。
- fibreChannelAccessDegraded
- 光纤通道节点在一段时间内未通过其存储 IP 对存储集群中的其他节点做出响应。在此状态下,节点会被视为无响应并生成集群故障。检查网络连通性。
- fibreChannelAccessUnavailable
- 所有光纤通道节点均无响应。此时将显示节点 ID。检查网络连通性。
- FibreChannelActiveXL
- 每个光纤通道节点的 IXL Nexus 计数接近支持的 8000 个活动会话数限制。
- 最佳实践限制为 5500 。
- 警告限制为 7500 。
- 最大限制(非强制)为 8192 。
- 要解决此故障、请将 IXL Nexus 计数降低到最佳实践限制 5500 以下。
- fibreChannelConfig
- 此集群故障表示出现以下情况之一:
- 在 PCI 插槽上存在意外的光纤通道端口。
- 存在意外的光纤通道 HBA 型号。
- 光纤通道 HBA 固件出现问题。
- 某个光纤通道端口未联机。
- 配置光纤通道直通时出现持久性问题。
请联系 NetApp 支持部门获得帮助。
- FibreChannelStaticXL
- 每个光纤通道节点的 IXL Nexus 计数接近支持的 16000 个静态会话数限制。
- 最佳实践限制为 11000 。
- 警告限制为 15000 。
- 最大限制(强制)为 16384 。
- 要解决此故障、请将 IXL Nexus 计数降低到最佳实践限制 11000 以下。
- fileSystemCapacityLow
- 某个文件系统空间不足。
- 要解决此故障,请向此文件系统添加更多容量。
- FipsDriveMismatch
-
将非 FIPS 驱动器物理插入了支持 FIPS 的存储节点中,或者将 FIPS 驱动器物理插入了非 FIPS 存储节点中。每个节点会生成一个故障,此故障会列出所有受影响的驱动器。
要解决此故障、请卸下或更换有问题的驱动器或驱动器不匹配的驱动器。
- fipsDrivesOutOfCompliance
-
在启用 FIPS 驱动器功能后,系统检测到已禁用空闲加密。如果启用了 FIPS 驱动器功能,但存储集群中存在非 FIPS 驱动器或节点,则也会生成此故障。
要解决此故障,请启用空闲加密或从存储集群中卸下非 FIPS 硬件。
- fipsSelfTestFailure
- FIPS 子系统在自检期间检测到故障。
- 请联系 NetApp 支持部门获得帮助。
- hardwareConfigMismatch
- 此集群故障表示出现以下情况之一:
- 此配置与此节点定义不匹配。
- 此类节点的驱动器大小不正确。
- 检测到不受支持的驱动器。一个可能的原因是安装的元素版本无法识别此驱动器。建议更新此节点上的 Element 软件。
- 驱动器固件不匹配。
- 驱动器加密功能状态与此节点不匹配。
请联系 NetApp 支持部门获得帮助。
- IDPCertificateExpiration
- 与第三方身份认证提供者( IDP )一起使用的集群的服务提供商 SSL 证书即将过期或已过期。此故障会根据紧急程度采用以下严重性:
严重性 |
说明 |
警告 |
证书将在 30 天内到期。 |
错误 |
证书将在 7 天内到期。 |
严重 |
证书将在 3 天内过期或已过期。 |
- 要解决此问题、请在 SSL 证书过期之前更新该证书。将UpdateIdpConfiguration API 方法与 RefreshCertificateExpirationtime=true 一起使用以提供更新的 SSL 证书。
- inconsistentBondModes
- VLAN 设备上缺少绑定模式。此故障将显示预期的绑定模式和当前正在使用的绑定模式。
- inconsistentInterfaceConfiguration
- 接口配置不一致。
- 要解决此故障,请确保存储集群中的节点接口配置一致。
- inconsistentMtus
- 此集群故障表示出现以下情况之一:
- Bond1G mismatch:在绑定 1G 接口上检测到 MTU 不一致。
- Bond10G mismatch:在绑定 10G 接口上检测到 MTU 不一致。
此故障将显示存在问题的节点以及关联的 MTU 值。
- inconsistentRoutingRules
- 此接口的路由规则不一致。
- inconsistentSubnetMasks
- VLAN 设备上的网络掩码与内部记录的 VLAN 网络掩码不匹配。此故障将显示预期网络掩码与当前使用的网络掩码。
- incorrectBondPortCount
- 绑定端口数不正确。
- invalidConfiguredFibreChannelNodeCount
- 所需的两个光纤通道节点连接之一性能下降。如果仅连接了一个光纤通道节点,则会出现此故障。
- 要解决此故障,请检查集群网络连接和网络布线,并查看是否存在服务故障。如果网络或服务均无问题,请联系 NetApp 支持部门更换光纤通道节点。
- irqBalanceFailed
- 尝试平衡中断时出现异常。
- 请联系 NetApp 支持部门获得帮助。
- kmipCertificateFault
-
-
-
-
-
- kmipServerFault
-
-
-
- 内存阈值
- 检测到大量可纠正或不可纠正的 ECC 错误。如果返回类型为 Error 的严重级别、则可能是由于 DIMM 故障造成的。
- 请联系 NetApp 支持部门获得帮助。
- memoryUsageThreshold
- 内存利用率超过正常值。
- 请联系 NetApp 支持部门获得帮助。
- metadataClusterFull
- 没有足够的可用元数据存储空间来支持单个节点丢失。有关GetClusterFullThreshold集群完全级别的详细信息,请参见 API 方法。此集群故障表示出现以下情况之一:
- 第 3 阶段低(警告):用户定义的阈值已超过。调整“集群已满”设置,或者添加更多节点。
- 阶段 4 严重(错误):没有足够的空间从 1 节点故障中恢复。不允许创建卷、快照和克隆。
- 第 5 阶段完全消耗(严重) 1 ;不允许写入或新的 iSCSI 连接。将保持当前的 iSCSI 连接。向集群添加更多容量之前,写入将失败。清除或删除数据或添加更多节点。
- 要解决此故障,请清除或删除卷,或者向存储集群再添加一个存储节点。
- mtuCheckFailure
- 没有为网络设备设置正确的 MTU 大小。
- 要解决此故障,请确保已为所有网络接口和交换机端口配置巨型帧(MTU 大小高达 9000 字节)。
- networkConfig
- 此集群故障表示出现以下情况之一:
- 预期接口不存在。
- 存在重复接口。
- 配置的接口已关闭。
- 需要重新启动网络。
请联系 NetApp 支持部门获得帮助。
- noAvailableVirtualNetworkIPAddresses
- IP 地址块中没有可用的虚拟网络地址。没有更多存储节点可添加到集群中。
- 要解决此故障,请向虚拟网络地址块添加更多 IP 地址。
- NodeHardwareFault (网络接口已关闭或电缆已断开)
- 网络接口已关闭或电缆已拔下。
- 要解决此故障、请检查节点或节点的网络连接性。
- nodeHardwareFault (驱动器加密功能状态不匹配节点在插槽 < 节点插槽 > < 驱动器插槽 > 中的驱动器的加密功能状态)
- 驱动器与安装它的存储节点的加密功能不匹配。
- 节点硬件故障(对于此节点类型而言,插槽 < 节点插槽 > < 驱动器插槽 > 中的驱动器的驱动器大小 <actual size> 不正确 - 预期大小 > )
- 存储节点包含的驱动器大小不正确。
- NodeHardwareFault (在插槽 < 节点插槽 > 中检测到不支持的驱动器;驱动器统计信息和运行状况信息将不可用)
- 存储节点包含不支持的驱动器。
- nodeHardwareFault (插槽中的驱动器应使用固件版本 < 预期版本 > 、但使用的版本不受支持)
- 存储节点包含运行不支持的固件版本的驱动器。
- nodeOffline
- Element 软件无法与指定节点进行通信。检查网络连通性。
- notUsingLACPBondMode
- 未配置 LACP 绑定模式。
- 要解决此故障,请在部署存储节点时使用 LACP 绑定;如果未启用并正确配置 LACP,客户端可能会出现性能问题。
- ntpServerUnreachable
- 存储集群无法与指定 NTP 服务器进行通信。
- 要解决此故障,请检查 NTP 服务器、网络和防火墙的配置。
- ntpTimeNotInSync
- 存储集群时间和指定 NTP 服务器时间之间的时间差太大。存储集群无法自动更正此时间差。
- 要解决此故障,请使用您网络内部的 NTP 服务器,而不是默认安装的 NTP 服务器。如果在使用内部 NTP 服务器的情况下仍存在此问题,请联系 NetApp 支持部门获得帮助。
- nvramDeviceStatus
- NVRAM 设备存在错误、将要出现故障或已出现故障。此故障会根据紧急程度采用以下严重性:
严重性 |
说明 |
警告 |
硬件检测到警告。这种情况可能是暂时的,例如温度过高警告。 |
错误 |
硬件检测到错误状态。Cluster Master 尝试从操作中删除片驱动器。如果辅助片服务不可用,则不会删除该驱动器。 |
严重 |
硬件已检测到严重状态。Cluster Master 尝试从操作中删除片驱动器。如果辅助片服务不可用,则不会删除该驱动器。 |
- 要解决此问题,请更换任何出现故障的硬件。
- powerSupplyError
- 此集群故障表示出现以下情况之一:
- 电源不存在。
- 电源出现故障。
- 缺少电源输入或电源输入超出范围。
要解决此故障,请确认已为所有节点提供冗余电源。请联系 NetApp 支持部门获得帮助。
- provisionedSpaceTooFull
- 集群总的已配置容量过满。
- 要解决此故障,请添加更多已配置空间或删除并清除卷。
- remoteRepAsyncDelayExceeded
- 已超过为复制配置的异步延迟。检查集群之间的网络连通性。
- remoteRepClusterFull
- 卷已暂停远程复制,因为目标存储集群太满。
- 要解决此故障,请释放目标存储集群上的部分空间。
- remoteRepSnapshotClusterFull
- 卷已暂停快照远程复制,因为目标存储集群太满。
- 要解决此故障,请释放目标存储集群上的部分空间。
- remoteRepSnapshotsExceededLimit
- 卷已暂停快照远程复制,因为目标存储集群卷已超过其快照限制。
- 要解决此故障、请增加目标存储集群上的快照限制。
- scheduleActionError
- 运行的一个或多个计划活动失败。
- 在以下情况下,此故障会清除:计划活动再次运行并且成功,删除了计划活动,先暂停再继续该活动。
- sensorReadingFailed
- 基板管理控制器 (BMC) 自检失败或传感器无法与 BMC 通信。
- 请联系 NetApp 支持部门获得帮助。
- serviceNotRunning
- 所需服务未运行。
- 请联系 NetApp 支持部门获得帮助。
- sliceServiceTooFull
- 为分区服务分配的已配置容量太少。
- 要解决此故障,请添加更多已配置容量。
- sliceServiceUnhealthy
- 系统已检测到分区服务运行状况不正常,并且正在自动停用该服务。
- 严重性 = 警告:未采取任何操作。此警告期限将在 6 分钟后过期。
- 严重性 = 错误:系统将自动停用数据并将其数据重新复制到其他正常驱动器。
检查网络连接问题和硬件错误。如果特定硬件组件出现故障,则会出现其它故障。当可访问分片服务或服务已停用时、该故障将会清除。
- sshEnabled
- 已在存储集群中的一个或多个节点上启用 SSH 服务。
- 要解决此故障,请在适当节点上禁用 SSH 服务或联系 NetApp 支持部门以获得帮助。
- sslCertificateExpiration
- 与此节点关联的 SSL 证书即将过期或已过期。此故障会根据紧急程度采用以下严重性:
严重性 |
说明 |
警告 |
证书将在 30 天内到期。 |
错误 |
证书将在 7 天内到期。 |
严重 |
证书将在 3 天内过期或已过期。 |
- 要解决此故障,请续订 SSL 证书。如果需要,请联系 NetApp 支持部门以获得帮助。
- 传输容量
- 单个节点占存储集群容量的一半以上。
- 为了保持数据冗余性、系统会减少最大节点的容量、从而使其部分块容量处于闲置状态(未使用)。
- 要解决此故障、请向现有存储节点添加更多驱动器或向集群添加存储节点。
- tempSensor
- 温度传感器报告的温度高于正常值。此故障可能会与 powerSupplyError 或 fanSensor 故障同时触发。
- 要解决此故障,请检查存储集群附近是否存在影响气流的障碍物。如果需要,请联系 NetApp 支持部门以获得帮助。
- upgrade
- 升级已进行了超过 24 小时。
- 要解决此故障,请继续此升级或联系 NetApp 支持部门以获得帮助。
- unresponsiveService
- 某个服务已停止响应。
- 请联系 NetApp 支持部门获得帮助。
- virtualNetworkConfig
- 此集群故障表示出现以下情况之一:
- 某个接口不存在。
- 某个接口上的命名空间不正确。
- 网络掩码不正确。
- IP 地址不正确。
- 某个接口未启动并正常运行。
- 某个节点上存在多余接口。
请联系 NetApp 支持部门获得帮助。
- volumeDegraded
- 二级卷尚未完成复制和同步。同步完成后,此消息将被清除。
- volumesOffline
- 此存储集群中的一个或多个卷已脱机。卷降级故障也将出现。
- 请联系 NetApp 支持部门获得帮助。