Skip to main content
Data Infrastructure Insights
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

系统监控器

贡献者

Data Infrastructure Insight包括许多系统定义的指标和日志监控器。可用的系统监控器取决于租户上的数据收集器。因此、Data Infrastructure Insight中的监控器可能会随着数据收集器的添加或其配置的更改而发生变化。

备注 默认情况下、许多系统监控器处于_Paused.状态。您可以通过为系统监视器选择_Resume_选项来启用该监视器。确保在数据收集器中启用了_Advanced Counter Data Collection _和_Enable ONTAP EMS log Collection _。这些选项可在ONTAP数据收集器的_Advanced Configuration_下找到:为 ONTAP 启用高级计数器和 EMS 日志收集

监控器说明

系统定义的监控器由预定义的指标和条件以及默认说明和更正操作组成,这些内容无法修改。您可以修改系统定义的监控器的通知收件人列表。要查看指标,条件,问题描述和更正操作,或者修改收件人列表,请打开系统定义的监控组,然后单击列表中的监控器名称。

无法修改或删除系统定义的监控组。

以下系统定义的监控器可在所记录的组中使用。

  • * ONTAP Infrastructure* 可监控 ONTAP 集群中与基础架构相关的问题。

  • * ONTAP 工作负载示例 * 包括与工作负载相关的问题的监控器。

  • 两个组中的监控器默认为 _Paused_state 。

以下是Data Infrastructure Insight当前附带的系统监控器:

指标监控器

监控器名称

严重性

监控问题描述

更正操作

光纤通道端口利用率高

严重

光纤通道协议端口用于在客户主机系统和 ONTAP LUN 之间接收和传输 SAN 流量。如果端口利用率较高, 然后,它将成为瓶颈,并最终影响光纤通道协议敏感工作负载的性能。…警告警报表示应采取计划内的操作来平衡网络流量。…严重警报表示服务中断即将发生,应采取紧急措施来平衡网络 流量以确保服务连续性。

如果违反严重阈值,请考虑立即采取措施,最大限度地减少服务中断: 1.将工作负载移动到利用率较低的另一个 FCP 端口。2.通过ONTAP中的QoS策略或主机端配置、将某些LUN的流量限制为只能用于基本工作、以减轻FCP端口的利用率。…如果违反警告阈值,请计划采取以下措施: 1.配置更多 FCP 端口以处理数据流量,以便在更多端口之间分配端口利用率。2.将工作负载移动到利用率较低的另一个 FCP 端口。3.通过ONTAP中的QoS策略或主机端配置将某些LUN的流量限制为只能用于基本工作、以降低FCP端口的利用率。

LUN 延迟高

严重

LUN 是指通常由性能敏感型应用程序(如数据库)驱动的为 I/O 流量提供服务的对象。高 LUN 延迟意味着应用程序本身可能会受到影响,无法完成其任务。…警告警报表示应采取计划内操作将 LUN 移动到适当的节点或聚合。…严重警报表示服务中断即将发生,应采取紧急措施 确保服务连续性。以下是基于介质类型的预期延迟: SSD 最长 1-2 毫秒; SAS 最长 8-10 毫秒; SATA HDD 17 至 20 毫秒

如果违反严重阈值、请考虑执行以下操作以最大限度地减少服务中断:如果LUN或其卷具有关联的QoS策略、则评估其阈值限制并验证它们是否导致LUN工作负载受到限制。…如果违反警告阈值,请计划采取以下措施: 1.如果聚合的利用率也较高,请将此 LUN 移动到另一个聚合。2.如果此节点的利用率也较高,请将此卷移至另一个节点或减少此节点的总工作负载。3.如果LUN或其卷具有关联的QoS策略、请评估其阈值限制并验证它们是否导致LUN工作负载受到限制。

网络端口利用率高

严重

网络端口用于在客户主机系统和 ONTAP 卷之间接收和传输 NFS , CIFS 和 iSCSI 协议流量。如果端口利用率较高,则会成为瓶颈,并最终影响 NFS 的性能, CIFS 和 iSCSI 工作负载。…警告警报表示应采取计划内操作来平衡网络流量。…严重警报表示服务中断即将发生,应采取紧急措施来平衡网络流量以确保服务连续性。

如果违反严重阈值,请考虑立即采取措施,以最大限度地减少服务中断: 1.通过 ONTAP 中的 QoS 策略或主机端分析将某些卷的流量限制为只能执行基本工作,以降低网络端口的利用率。2.将一个或多个卷配置为使用另一个利用率较低的网络端口。…如果违反警告阈值,请考虑立即采取以下措施: 1.配置更多网络端口以处理数据流量,以便在更多端口之间分配端口利用率。2.配置一个或多个卷以使用另一个利用率较低的网络端口。

NVMe 命名空间延迟高

严重

NVMe 命名空间是指提供由性能敏感型应用程序(如数据库)驱动的 I/O 流量的对象。NVMe 命名空间延迟较高意味着应用程序本身可能会受到影响,无法完成其任务。…警告警报表示应采取计划内操作将 LUN 移动到适当的节点或聚合。…严重警报表示服务中断即将发生,应采取紧急措施 以确保服务连续性。

如果违反严重阈值、请考虑立即采取措施以最大限度地减少服务中断:如果NVMe命名空间或其卷已分配QoS策略、则评估其限制阈值、以防它们导致NVMe命名空间工作负载受到限制。…如果违反警告阈值,请考虑采取以下措施: 1.如果聚合的利用率也较高,请将此 LUN 移动到另一个聚合。2.如果此节点的利用率也较高,请将此卷移至另一个节点或减少此节点的总工作负载。3.如果为NVMe命名空间或其卷分配了QoS策略、请评估其限制阈值、以防它们导致NVMe命名空间工作负载受到限制。

qtree 容量已满

严重

qtree 是一种逻辑上定义的文件系统,可以作为卷中根目录的一个特殊子目录存在。每个 qtree 都有一个默认空间配额或一个由配额策略定义的配额,用于限制卷容量内存储在树中的数据量。…警告警报表示应采取计划的操作来增加空间。…严重警报表示服务即将中断 应采取紧急措施来释放空间,以确保服务连续性。

如果违反严重阈值,请考虑立即采取措施,最大限度地减少服务中断: 1.增加 qtree 的空间以适应增长。2.删除不需要的数据以释放空间。…如果违反警告阈值,计划立即采取以下措施: 1.增加 qtree 的空间以适应增长。2.删除不需要的数据以释放空间。

qtree 容量硬限制

严重

qtree 是一种逻辑上定义的文件系统,可以作为卷中根目录的一个特殊子目录存在。每个 qtree 都有一个以 KB 为单位的空间配额,用于存储数据,以控制卷中用户数据的增长且不超过其总容量。…qtree 保留一个软存储容量配额,在达到总数之前主动向用户发出警报 qtree 中的容量配额限制,并且无法再存储数据。监控 qtree 中存储的数据量可确保用户接收到无中断的数据服务。

如果违反严重阈值,请考虑立即采取措施,以最大限度地减少服务中断: 1.增加树空间配额以适应增长 2 。指示用户删除树中不需要的数据以释放空间

qtree 容量软限制

警告

qtree 是一种逻辑上定义的文件系统,可以作为卷中根目录的一个特殊子目录存在。每个 qtree 都有一个以 KB 为单位的空间配额,可用于存储数据,以控制卷中用户数据的增长且不超过其总容量。…qtree 保留一个软存储容量配额,在达到之前主动向用户发出警报 qtree 中的总容量配额限制,并且无法再存储数据。监控 qtree 中存储的数据量可确保用户接收到无中断的数据服务。

如果违反警告阈值,请考虑立即采取以下措施: 1.增加树空间配额以适应增长。2.指示用户删除树中不需要的数据以释放空间。

qtree 文件硬限制

严重

qtree 是一种逻辑上定义的文件系统,可以作为卷中根目录的一个特殊子目录存在。每个 qtree 都有一个可包含的文件数配额,用于在卷中保持可管理的文件系统大小。…qtree 保留一个硬文件数配额,超过该配额,树中的新文件将被拒绝。监控 qtree 中的文件数量可确保用户获得无中断的数据服务。

如果违反严重阈值,请考虑立即采取措施,最大限度地减少服务中断: 1.增加 qtree 的文件数量配额。2.从qtree文件系统中删除不需要的文件。

qtree 文件软限制

警告

qtree 是一种逻辑上定义的文件系统,可以作为卷中根目录的一个特殊子目录存在。每个 qtree 都有一个可包含的文件数配额,以便在卷中保持可管理的文件系统大小。…qtree 保留一个软文件数配额,以便在达到 qtree 和中的文件限制之前主动向用户发出警报 无法存储任何其他文件。监控 qtree 中的文件数量可确保用户获得无中断的数据服务。

如果违反警告阈值,计划立即采取以下措施: 1.增加 qtree 的文件数量配额。2.从qtree文件系统中删除不需要的文件。

Snapshot 预留空间已满

严重

存储应用程序和客户数据需要卷的存储容量。其中一部分空间称为 Snapshot 预留空间,用于存储快照,以便在本地保护数据。ONTAP 卷中存储的新数据和更新数据越多,快照容量就越多,未来的新数据或更新数据可用的快照存储容量也就越少。如果卷中的快照数据容量达到总快照预留空间,可能会导致客户无法存储新的快照数据,并降低卷中数据的保护级别。监控卷已用快照容量可确保数据服务的连续性。

如果违反严重阈值,请考虑立即采取措施,最大限度地减少服务中断: 1.将快照配置为在快照预留空间已满时使用卷中的数据空间。2.删除一些旧的不需要的快照以释放空间。…如果违反警告阈值,计划立即采取以下措施: 1.增加卷中的快照预留空间以适应增长。2.将快照配置为在快照预留空间已满时使用卷中的数据空间。

存储容量限制

严重

当存储池(聚合)填满时, I/O 操作会减慢并最终停止,从而导致存储中断意外事件。警告警报表示应尽快采取计划内的操作来还原最小可用空间。严重警报表示服务即将中断,应采取紧急措施释放空间以确保服务连续性。

如果违反严重阈值,请立即考虑以下操作,以最大限度地减少服务中断: 1.删除非关键卷上的快照。2.删除属于非基本工作负载且可从已关闭的存储副本还原的卷或LUN。……如果违反警告阈值、请立即规划以下操作:1.将一个或多个卷移动到其他存储位置。2.添加更多存储容量。3.更改存储效率设置或将非活动数据分层到云存储。

存储性能限制

严重

当存储系统达到性能限制时,操作会减慢,延迟会增加,工作负载和应用程序可能会开始出现故障。ONTAP 会评估工作负载的存储池利用率并估计已消耗的性能百分比。…警告警报表示应采取计划内操作来减少存储池负载,以确保剩余的存储池性能足以满足工作负载峰值要求。…严重警报表示此情况 性能缩减即将完成,应采取紧急措施来减少存储池负载,以确保服务连续性。

如果违反严重阈值,请考虑立即采取措施,以最大限度地减少服务中断: 1.暂停计划的任务,例如 Snapshot 或 SnapMirror 复制。2.空闲的非基本工作负载。…如果违反警告阈值,请立即执行以下操作: 1.将一个或多个工作负载移动到其他存储位置。2.添加更多存储节点(AFF)或磁盘架(FAS)并重新分配工作负载3.更改工作负载特征(块大小,应用程序缓存)。

用户配额容量硬限制

严重

ONTAP 可识别有权访问卷中的卷,文件或目录的 Unix 或 Windows 系统用户。因此, ONTAP 允许客户为其 Linux 或 Windows 系统的用户或用户组配置存储容量。用户或组策略配额会限制用户可用于自己数据的空间量。…此配额的硬限制允许在达到总容量配额之前,在卷中已用容量正确时通知用户。监控用户配额或组配额中存储的数据量可确保用户获得不间断的数据服务。

如果违反严重阈值,请考虑立即采取措施,以最大限度地减少服务中断: 1.增加用户或组配额的空间以适应增长。2.指示用户或组删除不需要的数据以释放空间。

用户配额容量软限制

警告

ONTAP 可识别有权访问卷中的卷,文件或目录的 Unix 或 Windows 系统的用户。因此, ONTAP 允许客户为其 Linux 或 Windows 系统的用户或用户组配置存储容量。用户或组策略配额会限制用户可用于自己数据的空间量。…此配额的软限制允许在卷中使用的容量达到总容量配额时主动向用户发出通知。监控用户配额或组配额中存储的数据量可确保用户获得不间断的数据服务。

如果违反警告阈值,计划立即采取以下措施: 1.增加用户或组配额的空间以适应增长。2.删除不需要的数据以释放空间。

卷容量已满

严重

存储应用程序和客户数据需要卷的存储容量。ONTAP 卷中存储的数据越多,未来数据的存储可用性就越低。如果卷中的数据存储容量达到总存储容量,则可能会导致客户由于缺少存储容量而无法存储数据。监控卷已用存储容量可确保数据服务的连续性。

如果违反严重阈值,请考虑立即采取措施,以最大限度地减少服务中断: 1.增加卷的空间以适应增长。2.删除不需要的数据以释放空间。3.如果Snapshot副本占用的空间超过Snapshot预留空间、请删除旧Snapshot或启用卷Snapshot自动删除。…如果违反警告阈值、请计划立即采取以下操作:1.增加卷的空间以适应增长 2 。如果 Snapshot 副本占用的空间超过 Snapshot 预留空间,请删除旧 Snapshot 或启用卷快照自动删除。……

卷索引节点限制

严重

存储文件的卷使用索引节点(索引节点)来存储文件元数据。当卷用尽其索引节点分配时, 无法向其中添加更多文件。…警告警报表示应采取计划内操作来增加可用索引节点的数量。…严重警报表示文件限制即将耗尽,应采取紧急措施来释放索引节点,以确保服务连续性。

如果违反严重阈值,请考虑立即采取措施,以最大限度地减少服务中断: 1.增加卷的索引节点值。如果索引节点值已达到最大值,则将卷拆分为两个或更多卷,因为文件系统已超出最大大小。2.使用FlexGroup,因为它有助于容纳大型文件系统。…如果违反警告阈值,计划立即采取以下措施: 1.增加卷的索引节点值。如果索引节点值已达到最大值,则将卷拆分为两个或更多卷,因为文件系统已超出最大大小。2.请使用FlexGroup、因为它有助于容纳大型文件系统

卷延迟高

严重

卷是指通常由性能敏感型应用程序(包括 DevOps 应用程序,主目录和数据库)驱动的 I/O 流量提供服务的对象。高卷延迟意味着应用程序本身可能会受到影响,无法完成其任务。监控卷延迟对于保持应用程序一致的性能至关重要。以下是基于介质类型的预期延迟 - SSD 最长 1-2 毫秒; SAS 最长 8-10 毫秒; SATA HDD 17 至 20 毫秒

如果违反严重阈值、请考虑立即执行以下操作、以最大限度地减少服务中断:如果为卷分配了QoS策略、请评估其限制阈值、以防它们导致卷工作负载受到限制。…如果违反警告阈值,请考虑立即采取以下措施: 1.如果聚合的利用率也较高,请将卷移动到另一个聚合。2.如果为卷分配了QoS策略、请评估其限制阈值、以防它们导致卷工作负载受到限制。3.如果此节点的利用率也较高,请将此卷移至另一个节点或减少此节点的总工作负载。

监控器名称

严重性

监控问题描述

更正操作

节点高延迟

警告 / 严重

节点延迟已达到可能影响节点上应用程序性能的级别。较低的节点延迟可确保应用程序的性能稳定一致。根据介质类型,预期延迟为: SSD 最长 1-2 毫秒; SAS 最长 8-10 毫秒; SATA HDD 17 至 20 毫秒。

如果违反严重阈值,则应立即采取措施以最大限度地减少服务中断: 1.暂停已计划的任务,快照或 SnapMirror 复制 2.通过 QoS 限制降低低优先级工作负载的需求 3.停用非基本工作负载考虑在违反警告阈值时立即采取措施: 1.将一个或多个工作负载移动到其他存储位置 2.通过 QoS 限制降低低优先级工作负载的需求 3.添加更多存储节点( AFF )或磁盘架( FAS )并重新分配工作负载 4.更改工作负载特征(块大小,应用程序缓存等)

节点性能限制

警告 / 严重

节点性能利用率已达到可能影响此节点所支持的 IOS 和应用程序性能的水平。低节点性能利用率可确保应用程序的性能稳定一致。

如果违反严重阈值,应立即采取措施,最大限度地减少服务中断: 1.暂停已计划的任务,快照或 SnapMirror 复制 2.通过 QoS 限制降低低优先级工作负载的需求 3.如果违反警告阈值,则停用非基本工作负载应考虑以下操作: 1.将一个或多个工作负载移动到其他存储位置 2.通过 QoS 限制降低低优先级工作负载的需求 3.添加更多存储节点( AFF )或磁盘架( FAS )并重新分配工作负载 4.更改工作负载特征(块大小,应用程序缓存等)

Storage VM 高延迟

警告 / 严重

Storage VM ( SVM )延迟已达到可能影响 Storage VM 上应用程序性能的级别。较低的 Storage VM 延迟可确保应用程序的性能稳定一致。根据介质类型,预期延迟为: SSD 最长 1-2 毫秒; SAS 最长 8-10 毫秒; SATA HDD 17 至 20 毫秒。

如果违反严重阈值,则立即评估分配了 QoS 策略的 Storage VM 卷的阈值限制,以验证这些卷是否正在导致卷工作负载受到限制。如果违反警告阈值,请考虑立即执行以下操作: 1.如果聚合的利用率也较高,请将 Storage VM 的某些卷移动到另一个聚合。2.对于已分配QoS策略的Storage VM中的卷、如果阈值限制导致卷工作负载受到限制、请评估这些阈值限制3.如果节点的利用率较高,请将 Storage VM 的某些卷移动到另一个节点或减少节点的总工作负载

用户配额文件硬限制

严重

卷中创建的文件数已达到严重限制,无法创建其他文件。监控存储的文件数量可确保用户获得无中断的数据服务。

如果违反严重阈值,则需要立即采取措施,以最大限度地减少服务中断。…请考虑采取以下措施: 1.增加特定用户的文件数量配额 2.删除不需要的文件以减少特定用户对文件配额的压力

用户配额文件软限制

警告

卷中创建的文件数已达到配额的阈值限制,并且接近严重限制。如果配额达到严重限制,则无法创建其他文件。监控用户存储的文件数量可确保用户获得无中断的数据服务。

如果违反警告阈值,请考虑立即采取措施: 1.增加特定用户配额 2 的文件数量配额。删除不需要的文件以减少特定用户对文件配额的压力

卷缓存未命中率

警告 / 严重

卷缓存未命中率是指从磁盘返回而不是从缓存返回的客户端应用程序读取请求的百分比。这意味着卷已达到设置的阈值。

如果违反严重阈值,则应立即采取措施以最大限度地减少服务中断: 1.将某些工作负载移出卷的节点以减少 IO 负载 2 。如果尚未位于卷的节点上,请通过购买和添加 Flash Cache 3 来增加 WAFL 缓存。通过 QoS 限制降低同一节点上较低优先级工作负载的需求如果违反警告阈值,请考虑立即采取措施: 1.将某些工作负载移出卷的节点以减少 IO 负载 2 。如果尚未位于卷的节点上,请通过购买和添加 Flash Cache 3 来增加 WAFL 缓存。通过 QoS 限制 4 降低同一节点上较低优先级工作负载的需求。更改工作负载特征(块大小,应用程序缓存等)

卷 qtree 配额过量提交

警告 / 严重

卷 qtree 配额过量使用指定 qtree 配额将卷视为过量使用时的百分比。已达到为卷设置的 qtree 配额阈值。监控卷 qtree 配额过量提交可确保用户接收到无中断的数据服务。

如果违反严重阈值,则应立即采取措施以最大限度地减少服务中断: 1.增加卷 2 的空间。违反警告阈值时删除不需要的数据,然后考虑增加卷的空间。

日志监控器

监控器名称

严重性

说明

更正操作

AWS 凭据未初始化

信息

如果模块在初始化之前尝试从云凭据线程访问 Amazon Web Services ( AWS )身份和访问管理( IAM )基于角色的凭据,则会发生此事件。

" 等待云凭据线程以及系统完成初始化。

无法访问云层

严重

存储节点无法连接到 Cloud Tier 对象存储 API 。某些数据将无法访问。

如果您使用内部产品,请执行以下更正操作: …使用 network interface show 命令验证集群间 LIF 是否联机且正常运行。…通过对目标节点集群间 LIF 使用 "ping" 命令检查与对象存储服务器的网络连接。…确保以下事项:…对象存储的配置未更改。…登录和连接信息为 仍然有效。…如果问题描述仍然存在,请联系 NetApp 技术支持。如果使用Cloud Volumes ONTAP、请执行以下更正操作:…确保对象存储的配置未更改。…确保登录和连接信息仍然有效。…如果问题仍然存在、请联系NetApp技术支持。

磁盘已停止服务

信息

" 如果磁盘因标记为故障,正在清理或已进入维护中心而从服务中删除,则会发生此事件。 "

无。

FlexGroup 成分卷完整

严重

" FlexGroup 卷中的成分卷已满,这可能发生原因会导致服务中断。您仍然可以在 FlexGroup 卷上创建或扩展文件。但是,不能修改成分卷上存储的任何文件。因此,在尝试对 FlexGroup 卷执行写入操作时,可能会出现随机的空间不足错误。 "

建议您使用 volume modify -files +X 命令向 FlexGroup 卷添加容量。…或者,也可以从 FlexGroup 卷中删除文件。但是,很难确定哪些文件已登录到成分卷上。 "

FlexGroup 成分卷已接近全满

警告

" FlexGroup 卷中的成分卷空间几乎用尽,这可能会导致发生原因服务中断。可以创建和扩展文件。但是,如果成分卷用尽空间,您可能无法附加到成分卷上的文件或对其进行修改。

建议您使用 volume modify -files +X 命令向 FlexGroup 卷添加容量。…或者,也可以从 FlexGroup 卷中删除文件。但是,很难确定哪些文件已登录到成分卷上。 "

FlexGroup 成分卷接近索引节点数

警告

" FlexGroup 卷中的成分卷几乎没有索引节点,这可能会导致发生原因服务中断。成分卷收到的创建请求小于平均值。这可能会影响 FlexGroup 卷的整体性能,因为请求会路由到索引节点数更多的成分卷。 "

建议您使用 volume modify -files +X 命令向 FlexGroup 卷添加容量。…或者,也可以从 FlexGroup 卷中删除文件。但是,很难确定哪些文件已登录到成分卷上。 "

FlexGroup 成分卷已用尽索引节点

严重

" FlexGroup 卷的成分卷已用尽索引节点,这可能会导致发生原因服务中断。您不能在此成分卷上创建新文件。这可能会导致整个 FlexGroup 卷中的内容分布不平衡。 "

建议您使用 volume modify -files +X 命令向 FlexGroup 卷添加容量。…或者,也可以从 FlexGroup 卷中删除文件。但是,很难确定哪些文件已登录到成分卷上。 "

LUN 脱机

信息

手动使 LUN 脱机时会发生此事件。

将 LUN 恢复联机。

主单元风扇出现故障

警告

一个或多个主单元风扇出现故障。系统仍可正常运行。…但是,如果此情况持续时间过长,则过热可能会触发自动关闭。

" 重新拔插故障风扇。如果此错误仍然存在,请更换它们。

主单元风扇处于警告状态

信息

如果一个或多个主设备风扇处于警告状态,则会发生此事件。

更换指示的风扇以避免过热。

NVRAM 电池电量低

警告

NVRAM 电池容量严重不足。如果电池电量耗尽,可能会丢失数据。…如果配置了 AutoSupport 或 "call home" 消息,则系统会生成此消息并将其传输到 NetApp 技术支持和已配置的目标。成功传送 AutoSupport 消息可显著提高问题的确定和解决能力。

执行以下更正操作:…使用 system node environment sensors show 命令查看电池的当前状态,容量和充电状态。…如果最近更换了电池或系统长时间不运行, 监控电池以验证其是否正在正常充电。…如果电池运行时间继续降低到临界水平以下,并且存储系统自动关闭,请联系 NetApp 技术支持。

未配置服务处理器

警告

" 此事件每周发生一次,提醒您配置服务处理器( SP )。SP 是一种物理设备,集成在您的系统中,用于提供远程访问和远程管理功能。您应将 SP 配置为使用其全部功能。

执行以下更正操作:…使用 system service-processor network modify 命令配置 SP 。…可选, 使用 system service-processor network show 命令获取 SP 的 MAC 地址。…使用 system service-processor network show 命令验证 SP 网络配置。…使用 system service-processor network show AutoSupport 命令验证 SP 是否可以发送 AutoSupport 电子邮件。注意:在问题描述此命令之前,应在 ONTAP 中配置 AutoSupport 电子邮件主机和收件人。

服务处理器脱机

严重

ONTAP 不再从服务处理器( SP )接收检测信号,即使已执行所有 SP 恢复操作也是如此。如果没有 SP , ONTAP 将无法监控硬件的运行状况。…系统将关闭,以防止硬件损坏和数据丢失。设置崩溃警报,以便在 SP 脱机时立即收到通知。

通过执行以下操作重新启动系统:…将控制器从机箱中拉出。…将控制器推回。…重新打开控制器。…如果问题仍然存在,请更换控制器模块。

磁盘架风扇出现故障

严重

' 磁盘架中指示的散热风扇或风扇模块出现故障。磁盘架中的磁盘可能无法获得足够的散热气流,从而可能导致磁盘故障。 "

执行以下更正操作:…验证风扇模块是否已完全就位并牢固。注:风扇集成在某些磁盘架的电源模块中。…如果问题描述仍然存在,请更换风扇模块。…如果问题描述仍然存在,请联系 NetApp 技术支持以获得帮助。

由于主单元风扇故障,系统无法运行

严重

" 一个或多个主单元风扇发生故障,导致系统运行中断。这可能会导致数据丢失。

更换发生故障的风扇。

未分配的磁盘

信息

系统具有未分配的磁盘 - 正在浪费容量,并且您的系统可能会应用某些配置错误或部分配置更改。

执行以下更正操作:…使用 disk show -n 命令确定哪些磁盘已取消分配。…使用 disk assign 命令将这些磁盘分配给系统。

防病毒服务器繁忙

警告

防病毒服务器太忙,无法接受任何新的扫描请求。

如果此消息频繁出现,请确保有足够的防病毒服务器来处理 SVM 生成的病毒扫描负载。

IAM 角色的 AWS 凭据已过期

严重

无法访问云卷 ONTAP 。基于身份和访问管理( IAM )角色的凭据已过期。这些凭据是使用 IAM 角色从 Amazon Web Services ( AWS )元数据服务器获取的,用于对发送到 Amazon Simple Storage Service ( Amazon S3 )的 API 请求进行签名。

执行以下操作:…登录到 AWS EC2 管理控制台。…导航到 " 实例 " 页面。…查找 Cloud Volumes ONTAP 部署的实例并检查其运行状况。…验证与此实例关联的 AWS IAM 角色是否有效,以及是否已为该实例授予适当的权限。

未找到 IAM 角色的 AWS 凭据

严重

云凭据线程无法从 AWS 元数据服务器获取 Amazon Web Services ( AWS )身份和访问管理( IAM )基于角色的凭据。凭据用于对发送到 Amazon Simple Storage Service ( Amazon S3 )的 API 请求进行签名。无法访问云卷 ONTAP 。…

执行以下操作:…登录到 AWS EC2 管理控制台。…导航到 " 实例 " 页面。…查找 Cloud Volumes ONTAP 部署的实例并检查其运行状况。…验证与此实例关联的 AWS IAM 角色是否有效,以及是否已为该实例授予适当的权限。

IAM 角色的 AWS 凭据无效

严重

基于身份和访问管理( IAM )角色的凭据无效。这些凭据是使用 IAM 角色从 Amazon Web Services ( AWS )元数据服务器获取的,用于对发送到 Amazon Simple Storage Service ( Amazon S3 )的 API 请求进行签名。无法访问云卷 ONTAP 。

执行以下操作:…登录到 AWS EC2 管理控制台。…导航到 " 实例 " 页面。…查找 Cloud Volumes ONTAP 部署的实例并检查其运行状况。…验证与此实例关联的 AWS IAM 角色是否有效,以及是否已为该实例授予适当的权限。

未找到 AWS IAM 角色

严重

身份和访问管理( IAM )角色线程无法在 AWS 元数据服务器上找到 Amazon Web Services ( AWS ) IAM 角色。要获取用于向 Amazon Simple Storage Service ( Amazon S3 )签署 API 请求的基于角色的凭据,需要使用 IAM 角色。无法访问云卷 ONTAP 。…

执行以下操作:…登录到 AWS EC2 管理控制台。…导航到 " 实例 " 页面。…查找 Cloud Volumes ONTAP 部署的实例并检查其运行状况。…验证与此实例关联的 AWS IAM 角色是否有效。

AWS IAM 角色无效

严重

AWS 元数据服务器上的 Amazon Web Services ( AWS )身份和访问管理( IAM )角色无效。无法访问云卷 ONTAP 。…

执行以下操作:…登录到 AWS EC2 管理控制台。…导航到 " 实例 " 页面。…查找 Cloud Volumes ONTAP 部署的实例并检查其运行状况。…验证与此实例关联的 AWS IAM 角色是否有效,以及是否已为该实例授予适当的权限。

AWS 元数据服务器连接失败

严重

身份和访问管理( IAM )角色线程无法与 Amazon Web Services ( AWS )元数据服务器建立通信链路。应建立通信以获取必要的 AWS IAM 基于角色的凭据,用于向 Amazon Simple Storage Service ( Amazon S3 )签署 API 请求。无法访问云卷 ONTAP 。…

执行以下操作:…登录到 AWS EC2 管理控制台。…导航到 " 实例 " 页面。…查找 Cloud Volumes ONTAP 部署的实例并检查其运行状况。…

已接近 FabricPool 空间使用量限制

警告

已获得容量许可的提供程序中对象存储在集群范围内的 FabricPool 总空间使用量已接近许可限制。

执行以下更正操作:…使用 "storage aggregate object-store show-space" 命令检查每个 FabricPool 存储层使用的许可容量百分比。…使用 "volume snapshot delete" 命令从分层策略为 "snapshot" 或 "backup" 的卷中删除 Snapshot 副本以清除空间。…安装新许可证 以增加许可容量。

已达到 FabricPool 空间使用量限制

严重

已获得容量许可的提供程序中对象存储在集群范围内的 FabricPool 总空间使用量已达到许可证限制。

执行以下更正操作:…使用 "storage aggregate object-store show-space" 命令检查每个 FabricPool 存储层使用的许可容量百分比。…使用 "volume snapshot delete" 命令从分层策略为 "snapshot" 或 "backup" 的卷中删除 Snapshot 副本以清除空间。…安装新许可证 以增加许可容量。

聚合交还失败

严重

在存储故障转移( SFO )交还过程中迁移聚合期间,如果目标节点无法访问对象存储,则会发生此事件。

执行以下更正操作:…使用 network interface show 命令验证集群间 LIF 是否联机且正常运行。…通过对目标节点集群间 LIF 使用 "ping" 命令检查与对象存储服务器的网络连接。…使用 "aggregate object-store config show" 命令验证对象存储的配置是否未更改,以及登录和连接信息是否仍然准确。…或者, 您可以通过为 giveback 命令的 "require-partner-waiting " 参数指定 false 来覆盖此错误。…请联系 NetApp 技术支持以获取详细信息或帮助。

HA 互连已关闭

警告

高可用性( HA )互连已关闭。故障转移不可用时存在服务中断的风险。

更正操作取决于平台支持的 HA 互连链路的数量和类型,以及互连关闭的原因。…如果链路已关闭:…确认 HA 对中的两个控制器均正常运行。…对于外部连接的链路,请确保互连缆线已正确连接,并且两个控制器上的小型可插拔模块( SFP )(如果适用)均已正确就位。…对于内部连接的链路,请禁用并重新启用链路。 使用 "IC link off" 和 "IC link on" 命令逐个执行。…如果禁用了链路,请使用 "ic link on" 命令启用这些链路。…如果未连接对等方,请使用 "IC link off" 和 "IC link on" 命令逐个禁用并重新启用链路。…如果问题描述仍然存在,请联系 NetApp 技术支持。

已超过每个用户的最大会话数

警告

您已超过每个用户在 TCP 连接上允许的最大会话数。在释放某些会话之前,建立会话的任何请求都将被拒绝。…

执行以下更正操作: …检查客户端上运行的所有应用程序,并终止任何运行不正常的应用程序。…重新启动客户端。…检查问题描述是由新的还是现有的应用程序引起的:…如果此应用程序是新的,请使用 "cifs option modify -max-opson-same-file-per-tree" 命令为客户端设置更高的阈值。在某些情况下,客户端会按预期运行,但需要更高的阈值。您应具有高级权限来为客户端设置更高的阈值。…如果问题描述是由现有应用程序引起的,则客户端可能存在问题描述。有关详细信息或帮助,请联系 NetApp 技术支持。

已超过每个文件的最大打开时间

警告

您已超过通过 TCP 连接打开文件的最大次数。任何打开此文件的请求都将被拒绝,直到您关闭该文件的某些打开实例为止。这通常表示应用程序行为异常。…

执行以下更正操作:…检查使用此 TCP 连接在客户端上运行的应用程序。客户端可能因其上运行的应用程序而运行不正确。…重新启动客户端。…检查问题描述是由新应用程序还是现有应用程序引起的:…如果此应用程序是新应用程序,请使用 "cifs option modify -max-ops-same-file-per-tree" 命令为客户端设置更高的阈值。在某些情况下,客户端会按预期运行,但需要更高的阈值。您应具有高级权限来为客户端设置更高的阈值。…如果问题描述是由现有应用程序引起的,则客户端可能存在问题描述。有关详细信息或帮助,请联系 NetApp 技术支持。

NetBIOS 名称冲突

严重

NetBIOS 名称服务已从远程计算机收到对名称注册请求的否定响应。这通常是由 NetBIOS 名称或别名冲突引起的。因此,客户端可能无法访问数据或连接到集群中提供数据的正确节点。

执行以下任一更正操作:…如果 NetBIOS 名称或别名发生冲突, 执行以下操作之一:…使用 "vserver cifs delete -aliases alias -vserver vserver" 命令删除重复的 NetBIOS 别名。…使用 "vserver cifs create -aliases alias -vserver vserver" 命令删除重复的名称并使用新名称添加别名来重命名 NetBIOS 别名。…如果未配置别名,并且 NetBIOS 名称存在冲突,请使用 "vserver cifs delete -vserver vserver" 和 "vserver cifs create -cifs-server netbiosname" 命令重命名 CIFS 服务器。注意:删除 CIFS 服务器可能会使数据无法访问。…删除 NetBIOS 名称或重命名远程计算机上的 NetBIOS 。

NFSv4 存储池已用尽

严重

NFSv4 存储池已用尽。

如果 NFS 服务器在此事件发生后响应时间超过 10 分钟,请联系 NetApp 技术支持。

没有已注册的扫描引擎

严重

防病毒连接器通知 ONTAP ,它没有注册的扫描引擎。如果启用了 "scan-mandatory " 选项,则发生原因数据可能不可用。

执行以下更正操作:…确保安装在防病毒服务器上的扫描引擎软件与 ONTAP 兼容。…确保扫描引擎软件正在运行并配置为通过本地环回连接到防病毒连接器。

无 Vscan 连接

严重

ONTAP 与服务病毒扫描请求没有 Vscan 连接。如果启用了 "scan-mandatory " 选项,则发生原因数据可能不可用。

确保扫描程序池已正确配置,防病毒服务器处于活动状态并连接到 ONTAP 。

节点根卷空间不足

严重

系统已检测到根卷空间极低,这是一种危险的现象。此节点未完全正常运行。数据 LIF 可能已在集群中进行故障转移,因此,节点上的 NFS 和 CIFS 访问受到限制。管理功能仅限于节点在本地恢复过程中清除根卷上的空间。

执行以下更正操作:…通过删除旧 Snapshot 副本,从 /mroot 目录删除不再需要的文件或扩展根卷容量来清除根卷上的空间。…重新启动控制器。…请联系 NetApp 技术支持以获取详细信息或帮助。

管理共享不存在

严重

Vscan 问题描述:客户端已尝试连接到不存在的 ontap_admin$ 共享。

确保已为所述 SVM ID 启用 Vscan 。在 SVM 上启用 Vscan 会自动为 SVM 创建 ontap_admin$ 共享。

NVMe 命名空间不足

严重

由于空间不足导致写入失败, NVMe 命名空间已脱机。

向卷添加空间,然后使用 "vserver nvme namespace modify" 命令使 NVMe 命名空间联机。

NVMe-oF 宽限期处于活动状态

警告

如果使用基于网络结构的 NVMe ( NVMe-oF )协议且许可证宽限期处于活动状态,则每天都会发生此事件。在许可证宽限期到期后, NVMe-oF 功能需要许可证。许可证宽限期结束后, NVMe-oF 功能将被禁用。

请联系您的销售代表以获取 NVMe-oF 许可证并将其添加到集群中,或者从集群中删除 NVMe-oF 配置的所有实例。

NVMe-oF宽限期已到期

警告

基于网络结构的 NVMe ( NVMe-oF )许可证宽限期已结束, NVMe-oF 功能已禁用。

请联系您的销售代表以获取 NVMe-oF 许可证并将其添加到集群中。

NVMe-oF 宽限期开始

警告

在升级到 ONTAP 9.5 软件期间检测到基于网络结构的 NVMe ( NVMe-oF )配置。在许可证宽限期到期后, NVMe-oF 功能需要许可证。

请联系您的销售代表以获取 NVMe-oF 许可证并将其添加到集群中。

无法解析对象存储主机

严重

无法将对象存储服务器主机名解析为 IP 地址。如果未解析为 IP 地址,对象存储客户端将无法与对象存储服务器进行通信。因此,数据可能无法访问。

检查 DNS 配置以验证是否已使用 IP 地址正确配置主机名。

对象存储集群间 LIF 已关闭

严重

对象存储客户端找不到可与对象存储服务器通信的可正常运行的 LIF 。在集群间 LIF 正常运行之前,节点不允许对象存储客户端流量。因此,数据可能无法访问。

执行以下更正操作:…使用 "network interface show -role intercluster" 命令检查集群间 LIF 状态。…验证集群间 LIF 是否已正确配置且可正常运行。…如果未配置集群间 LIF ,请使用 "network interface create -role intercluster" 命令添加此 LIF 。

对象存储签名不匹配

严重

发送到对象存储服务器的请求签名与客户端计算的签名不匹配。因此,数据可能无法访问。

验证是否已正确配置机密访问密钥。如果配置正确,请联系 NetApp 技术支持以获得帮助。

添加项超时

严重

READDIR 文件操作已超过允许在 WAFL 中运行的超时时间。这可能是因为目录非常大或非常稀疏。建议采取更正操作。

执行以下更正操作:…使用以下 "DIAG" privilege nodeshell 命令行界面命令查找 READDIR 文件操作已过期的最近目录的特定信息: WAFL readdir notice show.…检查目录是否显示为稀疏:…如果某个目录显示为稀疏,建议将该目录的内容复制到新目录以删除该目录文件的稀疏。…如果某个目录未指示为稀疏目录且该目录很大,建议您通过减少该目录中的文件条目数量来减小该目录文件的大小。

重新定位聚合失败

严重

在重新定位聚合期间,当目标节点无法访问对象存储时,会发生此事件。

执行以下更正操作:…使用 network interface show 命令验证集群间 LIF 是否联机且正常运行。…通过对目标节点集群间 LIF 使用 "ping" 命令检查与对象存储服务器的网络连接。…使用 aggregate object-store config show 命令验证对象存储的配置是否未更改,以及登录和连接信息是否仍然准确。…或者,您也可以使用 relocation 命令的 override-destination-checks 参数来覆盖此错误。…请联系 NetApp 技术支持以获取更多信息或帮助。

卷影复制失败

严重

卷影复制服务( Volume Shadow Copy Service , VSS )( Microsoft 服务器备份和还原服务操作)失败。

使用事件消息中提供的信息检查以下内容:…是否已启用卷影复制配置?…是否已安装相应的许可证?…在哪些共享上执行卷影复制操作?…共享名称是否正确?…共享路径是否存在?…卷影副本集及其卷影副本的状态是什么?

存储交换机电源出现故障

警告

集群交换机中缺少电源。减少冗余,并降低因电源故障而发生中断的风险。

执行以下更正操作:…确保已打开为集群交换机供电的电源。…确保电源线已连接到电源。…如果问题描述仍然存在,请联系 NetApp 技术支持。

CIFS 身份验证太多

警告

许多身份验证协商同时进行。此客户端发出 256 个未完成的新会话请求。

调查客户端创建 256 个或更多新连接请求的原因。您可能需要联系客户端或应用程序的供应商来确定发生错误的原因。

未经授权的用户访问管理共享

警告

客户端已尝试连接到具有特权的 ontap_admin$ 共享,即使其登录用户不是允许的用户也是如此。

执行以下更正操作:…确保已在一个活动 Vscan 扫描程序池中配置所述的用户名和 IP 地址。…使用 "vserver vscan scanner pool show-active" 命令检查当前处于活动状态的扫描程序池配置。

检测到病毒

警告

Vscan 服务器已向存储系统报告错误。这通常表示已发现病毒。但是, Vscan 服务器上的其他错误可能会发生原因此事件。…客户端对文件的访问被拒绝。Vscan 服务器可能会根据其设置和配置清理文件,隔离或删除文件。

检查 "syslog" 事件中报告的 Vscan 服务器的日志,查看它是否能够成功清理,隔离或删除受感染的文件。如果无法执行此操作,系统管理员可能需要手动删除此文件。

卷脱机

信息

此消息指示卷已脱机。

使卷重新联机。

卷受限

信息

此事件指示灵活卷已设置为受限。

使卷重新联机。

Storage VM停止成功

信息

如果"vserver stop"操作成功、则会显示此消息。

使用"vserver start"命令在Storage VM上启动数据访问。

节点崩溃

警告

发生崩溃时会发出此事件

请联系NetApp客户支持。

反勒索软件日志监控器

监控器名称

严重性

说明

更正操作

已禁用 Storage VM 反勒索软件监控

警告

已禁用 Storage VM 的反勒索软件监控。启用反勒索软件以保护 Storage VM 。

已启用 Storage VM 反勒索软件监控(学习模式)

信息

在学习模式下为 Storage VM 启用了反勒索软件监控。

已启用卷反勒索软件监控

信息

已为卷启用反勒索软件监控。

已禁用卷反勒索软件监控

警告

已禁用卷的反勒索软件监控。启用反勒索软件以保护卷。

已启用卷反勒索软件监控(学习模式)

信息

卷的反勒索软件监控在学习模式下启用。

已暂停卷反勒索软件监控(学习模式)

警告

卷的反勒索软件监控将在学习模式下暂停。

已暂停卷反勒索软件监控

警告

卷的反勒索软件监控已暂停。

卷反勒索软件监控正在禁用

警告

正在禁用卷的反勒索软件监控。

检测到勒索软件活动

严重

为了保护数据免受检测到的勒索软件的影响,我们创建了一个 Snapshot 副本,可用于还原原始数据。您的系统会生成 AutoSupport 或 " 回电 " 消息并将其传输到 NetApp 技术支持和任何已配置的目标。AutoSupport 消息可改进问题的确定和解决。

请参见 " 最终文档名称 " ,对勒索软件活动采取补救措施。

适用于 NetApp ONTAP 的 FSX 监控器

监控器名称

阈值

监控问题描述

更正操作

FSX 卷容量已满

警告@> 85%…严重@>95%

存储应用程序和客户数据需要卷的存储容量。ONTAP 卷中存储的数据越多,未来数据的存储可用性就越低。如果卷中的数据存储容量达到总存储容量,则可能会导致客户由于缺少存储容量而无法存储数据。监控卷已用存储容量可确保数据服务的连续性。

如果违反严重阈值:…1 ,则需要立即采取措施以最大限度地减少服务中断。请考虑删除不再需要的数据以释放空间

FSX 卷高延迟

警告 @ > 1000 µs…严重 @ > 2000 µs

卷是指通常由性能敏感型应用程序(包括 DevOps 应用程序,主目录和数据库)驱动的 IO 流量提供服务的对象。高卷延迟意味着应用程序本身可能会受到影响,无法完成其任务。监控卷延迟对于保持应用程序一致的性能至关重要。

如果违反严重阈值:…1 ,则需要立即采取措施以最大限度地减少服务中断。如果为卷分配了 QoS 策略,请评估其限制阈值,以防其导致卷工作负载受到限制……如果违反警告阈值,请立即计划采取以下操作:…1 。如果卷已分配 QoS 策略,请评估其限制阈值,以防其导致卷工作负载受到限制。…2.如果此节点的利用率也较高,请将此卷移至另一个节点或减少此节点的总工作负载。

FSX 卷索引节点限制

警告@> 85%…严重@>95%

存储文件的卷使用索引节点(索引节点)来存储文件元数据。当卷用尽其索引节点分配时,无法再向其添加文件。警告警报表示应采取计划内操作来增加可用索引节点的数量。严重警报表示文件限制即将耗尽,应采取紧急措施释放索引节点以确保服务连续性

如果违反严重阈值:…1 ,则需要立即采取措施以最大限度地减少服务中断。请考虑增加卷的索引节点值。如果索引节点值已达到最大值,请考虑将卷拆分成两个或更多卷,因为文件系统已超出最大大小……如果违反警告阈值,请计划立即采取以下操作:…1 。请考虑增加卷的索引节点值。如果索引节点值已达到最大值,请考虑将卷拆分成两个或更多卷,因为文件系统已超出最大大小

FSX 卷 qtree 配额过量提交

警告@> 95%…严重@>100%

卷 qtree 配额过量使用指定 qtree 配额将卷视为过量使用时的百分比。已达到为卷设置的 qtree 配额阈值。监控卷 qtree 配额过量提交可确保用户接收到无中断的数据服务。

如果违反严重阈值,则应立即采取措施以最大限度地减少服务中断: 1.删除不需要的数据…违反警告阈值时,请考虑增加卷的空间。

FSX Snapshot 预留空间已满

警告@> 90%…严重@>95%

存储应用程序和客户数据需要卷的存储容量。其中一部分空间称为 Snapshot 预留空间,用于存储快照,以便在本地保护数据。ONTAP 卷中存储的新数据和更新数据越多,快照容量就越多,未来的新数据或更新数据可用的快照存储容量也就越少。如果卷中的快照数据容量达到总快照预留空间,可能会导致客户无法存储新的快照数据,并降低卷中数据的保护级别。监控卷已用快照容量可确保数据服务的连续性。

如果违反严重阈值:…1 ,则需要立即采取措施以最大限度地减少服务中断。请考虑将快照配置为在快照预留已满…2 时使用卷中的数据空间。考虑删除一些可能不再需要的旧快照以释放空间……如果违反警告阈值,计划立即采取以下操作:…1 。请考虑增加卷中的快照预留空间以适应增长…2 。请考虑将快照配置为在快照预留空间已满时使用卷中的数据空间

FSX 卷缓存未命中率

警告@> 95%…严重@>100%

卷缓存未命中率是指从磁盘返回而不是从缓存返回的客户端应用程序读取请求的百分比。这意味着卷已达到设置的阈值。

如果违反严重阈值,则应立即采取措施以最大限度地减少服务中断: 1.将某些工作负载移出卷的节点以减少 IO 负载 2 。通过 QoS 限制降低同一节点上较低优先级工作负载的需求…在违反警告阈值时考虑立即采取措施: 1.将某些工作负载移出卷的节点以减少 IO 负载 2 。通过 QoS 限制 3 降低同一节点上较低优先级工作负载的需求。更改工作负载特征(块大小,应用程序缓存等)

K8s 监控器

监控器名称

说明

更正操作

严重性/阈值

永久性卷延迟高

高持久卷延迟意味着应用程序本身可能会受到影响,无法完成其任务。监控持久卷延迟对于保持应用程序一致的性能至关重要。以下是基于介质类型的预期延迟 - SSD 最长 1-2 毫秒; SAS 最长 8-10 毫秒; SATA HDD 17 至 20 毫秒

立即操作如果违反严重阈值,请考虑立即操作,以最大限度地减少服务中断:如果为卷分配了QoS策略,请评估其限制阈值,以防它们导致卷工作负载受到限制。即将采取的行动如果违反警告阈值,请立即计划以下行动:1.如果存储池的利用率也较高,请将此卷移动到另一个存储池。2.如果为卷分配了QoS策略、请评估其限制阈值、以防它们导致卷工作负载受到限制。3.如果控制器的利用率也很高、请将卷移至另一个控制器或减少控制器的总工作负载。

警告@> 6、000 μs严重@> 12、000 μs

集群内存饱和高

集群可分配内存饱和较高。集群CPU饱和计算方法是、内存使用量之和除以所有K8s节点上可分配的内存之和。

添加节点。修复任何计划外节点。大小合适的Pod以释放节点上的内存。

警告 @ > 80% 严重 @ > 90%

POD 连接失败

如果使用 Pod 连接卷失败,则会出现此警报。

警告

重新传输速率高

高TCP重新传输速率

检查网络拥塞-确定占用大量网络带宽的工作负载。检查Pod CPU利用率是否高。检查硬件网络性能。

警告 @ > 10% 严重 @ > 25%

节点文件系统容量高

节点文件系统容量高

-增加节点磁盘的大小以确保有足够的空间来容纳应用程序文件。-减少应用程序文件使用量。

警告 @ > 80% 严重 @ > 90%

工作负载网络抖动高

高TCP抖动(高延迟/响应时间变化)

检查网络拥塞。确定占用大量网络带宽的工作负载。检查Pod CPU利用率是否高。检查硬件网络性能

警告@> 30 ms严重@> 50 ms

永久性卷吞吐量

当永久性卷超过预定义的性能预期时,可以使用永久性卷上的 MBps 阈值向管理员发出警报,从而可能影响其他永久性卷。激活此监控器将生成适用于 SSD 上永久性卷的典型吞吐量配置文件的警报。此监控器将覆盖租户上的所有永久性卷。可以根据监控目标调整警告阈值和严重阈值,方法是复制此监控器并设置适合您的存储类的阈值。复制的监控器还可以定向到租户上的一部分永久性卷。

立即行动如果违反严重阈值,请立即计划行动,以最大限度地减少服务中断:1.为卷引入 QoS MBps 限制。2.查看在卷上运行工作负载的应用程序是否存在异常。*立即执行的操作*如果违反警告阈值、请计划立即执行以下操作:1.为卷引入 QoS MBps 限制。2.查看在卷上运行工作负载的应用程序是否存在异常。

警告@> 10、000 MB/秒严重@> 15、000 MB/秒

容器可能会被炸死

容器的内存限制设置得过低。此容器存在被逐出(内存不足导致强制终止)的风险。

增加容器内存限制。

警告@> 95%

工作负载已关闭

工作负载没有运行正常的Pod。

严重@< 1.

永久性卷声明绑定失败

如果 PVC 绑定失败,则会出现此警报。

警告

ResourceQuota内存限制即将超过

命名空间的内存限制即将超过ResourceQuota

警告 @ > 80% 严重 @ > 90%

ResourceQuota内存请求即将超过

命名空间的内存请求即将超过ResourceQuota

警告 @ > 80% 严重 @ > 90%

节点创建失败

由于配置错误、无法计划此节点。

检查Kubnetes事件日志中是否存在配置失败的发生原因。

关键

永久性卷回收失败

此卷的自动回收失败。

警告@> 0 B

容器CPU吞吐量降低

容器的CPU限制设置得过低。容器流程速度较慢。

增加容器CPU限制。

警告 @ > 95% 严重 @ > 98%

无法删除服务负载平衡器

警告

永久性卷 IOPS

当永久性卷超过预定义的性能预期时,可以使用永久性卷上的 IOPS 阈值向管理员发出警报。激活此监控器将生成适用于永久性卷的典型 IOPS 配置文件的警报。此监控器将覆盖租户上的所有永久性卷。可以根据监控目标调整警告阈值和严重阈值,方法是复制此监控器并设置适合您的工作负载的阈值。

立即行动如果违反严重阈值,请立即计划行动,以最大限度地减少服务中断:1.为卷引入QoS IOPS限制。2.查看在卷上运行工作负载的应用程序是否存在异常。即将采取的行动如果违反警告阈值,请立即计划以下行动:1.为卷引入QoS IOPS限制。2.查看在卷上运行工作负载的应用程序是否存在异常。

警告@> 20、000 IO/s严重@> 25、000 IO/s

无法更新服务负载平衡器

警告

POD 挂载失败

如果 Pod 上的挂载失败,则会出现此警报。

警告

节点PID压力

(Linux)节点上的可用进程标识符已降至逐出阈值以下。

查找并修复生成多个进程并使节点缺少可用进程ID的Pod。设置PodPidsLimit以防止节点受到产生过多进程的Pod或容器的影响。

严重@> 0.

POD映像拉拔失败

Kubnetes无法提取Pod容器映像。

-确保POD配置中的POD映像拼写正确。-检查注册表中是否存在图像标记。-验证映像注册表的凭据。-检查注册表连接问题。-验证您是否未达到公共注册提供商规定的速率限制。

警告

作业运行时间太长

作业运行时间太长

警告@> 1小时严重@> 5小时

节点内存高

节点内存使用率较高

添加节点。修复任何计划外节点。大小合适的Pod以释放节点上的内存。

警告 @ > 85% 严重 @ > 90%

ResourceQuota CPU限制即将超过

命名空间的CPU限制即将超过ResourceQuota

警告 @ > 80% 严重 @ > 90%

Pod碰撞回路回退

POD已崩溃并多次尝试重新启动。

严重@> 3.

节点CPU高

节点CPU使用率较高。

添加节点。修复任何计划外节点。大小合适的Pod、可释放节点上的CPU。

警告 @ > 80% 严重 @ > 90%

工作负载网络延迟RTT高

高TCP RTT (往返时间)延迟

检查网络拥塞▒确定占用大量网络带宽的工作负载。检查Pod CPU利用率是否高。检查硬件网络性能。

警告@> 150 ms严重@> 300 ms

作业失败

由于节点崩溃或重新启动、资源耗尽、作业超时或POD计划失败、作业未成功完成。

检查Kubbernetes事件日志以了解故障原因。

警告@> 1.

几天后永久性卷已满

永久性卷将在几天后用尽空间

增加卷大小以确保有足够的空间来容纳应用程序文件。减少应用程序中存储的数据量。

警告@< 8天严重@< 3天

节点内存压力

节点内存即将用尽。可用内存已达到逐出阈值。

添加节点。修复任何计划外节点。大小合适的Pod以释放节点上的内存。

严重@> 0.

节点未就绪

节点已取消准备5分钟

验证节点是否具有足够的CPU、内存和磁盘资源。检查节点网络连接。检查Kubbernetes事件日志以了解故障原因。

严重@< 1.

永久性卷容量高

永久性卷后端已用容量较高。

-增加卷大小以确保有足够的空间容纳应用程序文件。-减少应用程序中存储的数据量。

警告 @ > 80% 严重 @ > 90%

无法创建服务负载平衡器

服务负载平衡器创建失败

关键

工作负载副本不匹配

某些Pod当前不可用于部署或DemonSet。

警告@> 1.

ResourceQuota CPU请求即将超过

命名空间的CPU请求即将超过ResourceQuota

警告 @ > 80% 严重 @ > 90%

重新传输速率高

高TCP重新传输速率

检查网络拥塞-确定占用大量网络带宽的工作负载。检查Pod CPU利用率是否高。检查硬件网络性能。

警告 @ > 10% 严重 @ > 25%

节点磁盘压力

节点的根文件系统或映像文件系统上的可用磁盘空间和节点已满足逐出阈值。

-增加节点磁盘的大小以确保有足够的空间来容纳应用程序文件。-减少应用程序文件使用量。

严重@> 0.

集群CPU饱和度高

集群可分配CPU饱和较高。集群CPU饱和计算方法是CPU使用量之和除以所有K8s节点上可分配的CPU之和。

添加节点。修复任何计划外节点。大小合适的Pod、可释放节点上的CPU。

警告 @ > 80% 严重 @ > 90%

更改日志监控器

监控器名称

严重性

监控问题描述

已发现内部卷

信息性

发现内部卷时会出现此消息。

已修改内部卷

信息性

修改内部卷时会出现此消息。

已发现存储节点

信息性

发现存储节点时会出现此消息。

已删除存储节点

信息性

删除存储节点时会显示此消息。

已发现存储池

信息性

发现存储池时会显示此消息。

已发现Storage Virtual Machine

信息性

发现Storage Virtual Machine后会显示此消息。

已修改Storage Virtual Machine

信息性

修改Storage Virtual Machine时会出现此消息。

数据收集监控器

监控器名称

说明

更正操作

采集单元关闭

在升级过程中、Data Infrastructure Insight采集单元会定期重新启动以引入新功能。在典型环境中、此情况每月发生一次或更少。解决后、应立即发出警告、指出采集单元已关闭、并指出新重新启动的采集单元已完成Data Infrastructure Insight注册。通常、关闭注册周期需要5到15分钟。

如果警报频繁出现或持续时间超过15分钟、请检查托管采集单元的系统、网络以及将AU连接到Internet的任何代理的运行情况。

收集器失败

对数据收集器的轮询遇到意外故障情况。

请访问Data Infrastructure Insight中的数据收集器页面、了解有关这种情况的更多信息。

收集器警告

通常、由于数据收集器或目标系统配置不正确、可能会出现此警报。重新访问配置以防止将来出现警报。这也可能是因为数据收集器在检索不完全的数据时收集了所有可能的数据。如果数据收集期间的情况发生变化(例如、在数据收集期间以及在捕获数据之前删除数据收集开始时存在的虚拟机)、则可能会发生这种情况。

检查数据收集器或目标系统的配置。请注意、收集器警告监控器可以发送比其他监控器类型更多的警报、因此建议不要设置任何警报收件人、除非您正在进行故障排除。

安全监控器

监控器名称

阈值

监控问题描述

更正操作

已禁用 AutoSupport HTTPS 传输

警告@< 1.

对于传输协议, AutoSupport 支持 HTTPS , HTTP 和 SMTP 。由于 AutoSupport 消息的敏感性, NetApp 强烈建议使用 HTTPS 作为向 NetApp 支持部门发送 AutoSupport 消息的默认传输协议。

要将HTTPS设置为AutoSupport 消息的传输协议、请运行以下ONTAP 命令:…system node AutoSupport modify -transport https

SSH的集群不安全密码

警告@< 1.

表示SSH正在使用不安全的密码、例如以* CBC开头的密码。

要删除CBC密码、请运行以下ONTAP 命令:…security ssh remove -vserver <admin vserver>-ciphers aes256-cbc、aes192-cbc、aes128-cbc、3des-cbc

已禁用集群登录横幅

警告@< 1.

表示已为访问ONTAP 系统的用户禁用登录横幅。显示登录横幅有助于确定对系统访问和使用的预期。

要为集群配置登录横幅、请运行以下ONTAP 命令:…security login banner modify -vserver <admin SVM>-message "Access restricted to authorized users"

集群对等通信未加密

警告@< 1.

在为灾难恢复、缓存或备份复制数据时、您必须在通过线缆从一个ONTAP 集群传输到另一个集群期间保护这些数据。必须在源集群和目标集群上配置加密。

要对ONTAP 9 6之前创建的集群对等关系启用加密、必须将源集群和目标集群升级到9.6版。然后、使用"cluster peer modify"命令更改源和目标集群对等方以使用集群对等加密。…有关详细信息、请参见《适用于ONTAP 9的NetApp安全加固指南》。

已启用默认本地管理员用户

警告@> 0.

NetApp建议使用lock命令锁定(禁用)任何不需要的默认管理员用户(内置)帐户。它们主要是默认帐户、密码从未更新或更改过。

要锁定内置的"admin"帐户、请运行以下ONTAP 命令:…security login lock -username admin

已禁用FIPS模式

警告@< 1.

启用FIPS 140-2合规性后、TLSv1和SSLv3将被禁用、只有TLSv1.1和TLSv1.2保持启用状态。启用FIPS 140-2合规性后、ONTAP 会阻止您启用TLSv1和SSLv3。

要在集群上启用FIPS 140-2合规性、请在高级权限模式下运行以下ONTAP 命令:…security config modify -interface ssl -is-fips-enabled true

日志转发未加密

警告@< 1.

要将违规范围或占用空间限制为单个系统或解决方案 、必须卸载系统日志信息。因此、NetApp建议将系统日志信息安全地卸载到安全的存储或保留位置。

创建日志转发目标后、其协议将无法更改。要更改为加密协议、请使用以下ONTAP 命令删除并重新创建日志转发目标:…cluster log-forwarding create -destination <destination IP>-protocol tcp-encrypted

MD5哈希密码

警告@> 0.

NetApp强烈建议对ONTAP 用户帐户密码使用更安全的SHA-512哈希函数。使用不太安全的MD5哈希函数的帐户应迁移到SHA-512哈希函数。

NetApp强烈建议用户通过更改密码将用户帐户迁移到更安全的SHA-512解决方案。…要锁定密码使用MD5哈希函数的帐户、请运行以下ONTAP 命令:…security login lock -vserver *-username *-hash-function md5

未配置任何NTP服务器

警告@< 1.

表示集群未配置任何NTP服务器。为了实现冗余和最佳服务、NetApp建议至少将三个NTP服务器与集群相关联。

要将NTP服务器与集群关联、请运行以下ONTAP 命令:cluster time-service ntp server create -server <ntp server host name or IP address>

NTP服务器计数不足

警告@< 3.

表示集群配置的NTP服务器少于3个。为了实现冗余和最佳服务、NetApp建议至少将三个NTP服务器与集群相关联。

要将NTP服务器与集群关联、请运行以下ONTAP 命令:…cluster time-service ntp server create -server <ntp server host name or IP address>

已启用远程Shell

警告@> 0.

远程Shell不是建立对ONTAP 解决方案 的命令行访问的安全方法。要实现安全远程访问、应禁用远程Shell。

NetApp建议使用安全Shell (SSH)进行安全远程访问。…要在集群上禁用远程Shell、请在高级权限模式下运行以下ONTAP 命令:…security protocol modify -application rsh- enabled false

已禁用Storage VM审核日志

警告@< 1.

表示已对SVM禁用审核日志记录。

要为SVM配置审核日志、请运行以下ONTAP 命令:…vserver audit enable -vserver <SVM>

Storage VM的SSH不安全密码

警告@< 1.

表示SSH正在使用不安全的密码、例如以* CBC开头的密码。

要删除CBC密码、请运行以下ONTAP 命令:…security ssh remove -vserver <vserver>-ciphers aes256-cbc、aes192-cbc、aes128-cbc、3des-cbc

已禁用Storage VM登录横幅

警告@< 1.

表示已为访问系统上SVM的用户禁用登录横幅。显示登录横幅有助于确定对系统访问和使用的预期。

要为集群配置登录横幅、请运行以下ONTAP 命令:…security login banner modify -vserver <svm>-message "Access restricted to authorized users"

已启用Telnet协议

警告@> 0.

Telnet不是建立对ONTAP 解决方案 的命令行访问的安全方法。要实现安全远程访问、应禁用Telnet。

NetApp 建议使用安全 Shell ( SSH )进行安全远程访问。要在集群上禁用Telnet、请在高级权限模式下运行以下ONTAP 命令:…security protocol modify -application telnet -enabled false

数据保护监控器

监控器名称

阈值

监控问题描述

更正操作

用于LUN Snapshot副本的空间不足

(筛选器包含_LUN =是)警告@> 95%…严重@> 100%

存储应用程序和客户数据需要卷的存储容量。其中一部分空间称为 Snapshot 预留空间,用于存储快照,以便在本地保护数据。ONTAP 卷中存储的新数据和更新数据越多,快照容量就越多,未来的新数据或更新数据可用的快照存储容量也就越少。如果卷中的快照数据容量达到总快照预留空间、可能会导致客户无法存储新的快照数据、并降低卷中LUN中数据的保护级别。监控卷已用快照容量可确保数据服务的连续性。

如果违反严重阈值、请考虑立即采取措施以最大限度地减少服务中断:1.将快照配置为在快照预留空间已满时使用卷中的数据空间。2.删除一些旧的不需要的快照以释放空间。*立即执行的操作*如果违反警告阈值、请计划立即执行以下操作:1.增加卷中的快照预留空间以适应增长。2.将快照配置为在快照预留空间已满时使用卷中的数据空间。

SnapMirror关系滞后

警告@> 150%…严重@>300%

SnapMirror关系滞后是指快照时间戳与目标系统上的时间之间的差值。lag_time_percent是滞后时间与SnapMirror策略计划间隔的比率。如果滞后时间等于计划间隔、则lag_time_percent将为100%。如果SnapMirror策略没有计划、则不会计算lag_time_percent。

使用"snapmirror show"命令监控SnapMirror状态。使用"snapmirror show-history"命令检查SnapMirror传输历史记录

Cloud Volume (CVO)监控器

监控器名称

CI 严重性

监控问题描述

更正操作

CVO磁盘已停止服务

信息

" 如果磁盘因标记为故障,正在清理或已进入维护中心而从服务中删除,则会发生此事件。 "

存储池的CVO交还失败

严重

在存储故障转移( SFO )交还过程中迁移聚合期间,如果目标节点无法访问对象存储,则会发生此事件。

执行以下更正操作:使用"network interface show"命令验证集群间LIF是否联机且正常运行。在目标节点集群间LIF上使用"ping"命令检查与对象存储服务器的网络连接。使用"aggregate object-store config show"命令验证对象存储的配置是否未更改、以及登录和连接信息是否仍然准确。或者,您也可以通过为 giveback 命令的 "require-partner-waiting " 参数指定 false 来覆盖此错误。有关详细信息或帮助,请联系 NetApp 技术支持。

CVO HA互连已关闭

警告

高可用性( HA )互连已关闭。故障转移不可用时存在服务中断的风险。

更正操作取决于平台支持的 HA 互连链路的数量和类型,以及互连关闭的原因。如果链路已关闭:验证HA对中的两个控制器是否均正常运行。对于外部连接的链路、请确保已正确连接互连缆线、并且小型可插拔模块(SFP)(如果适用)已正确安装在两个控制器上。对于内部连接的链路、使用"IC link off"和"IC link on"命令逐个禁用并重新启用链路。如果禁用了链路、请使用"ic link on"命令启用链路。如果未连接对等方、请使用"IC link off"和"IC link on"命令逐个禁用并重新启用链路。如果问题描述仍然存在,请联系 NetApp 技术支持。

已超过每个用户的CVO最大会话数

警告

您已超过每个用户在 TCP 连接上允许的最大会话数。在释放某些会话之前,建立会话的任何请求都将被拒绝。

执行以下更正操作:检查客户端上运行的所有应用程序、并终止任何未正常运行的应用程序。重新启动客户端。检查问题描述 是由新应用程序还是现有应用程序引起的:如果此应用程序是新应用程序、请使用"cifs option modify -max-ops-same-file-per-tree"命令为客户端设置更高的阈值。在某些情况下,客户端会按预期运行,但需要更高的阈值。您应具有高级权限来为客户端设置更高的阈值。如果问题描述 是由现有应用程序引起的,则客户端可能存在问题描述 。有关详细信息或帮助,请联系 NetApp 技术支持。

CVO NetBIOS名称冲突

严重

NetBIOS 名称服务已从远程计算机收到对名称注册请求的否定响应。这通常是由 NetBIOS 名称或别名冲突引起的。因此,客户端可能无法访问数据或连接到集群中提供数据的正确节点。

执行以下任一更正操作:如果NetBIOS名称或别名发生冲突、请执行以下操作之一:使用vserver cifs delete -aliases alias -vserver vserver命令删除重复的NetBIOS别名。通过使用"vserver cifs create -aliases alias -vserver vserver"命令删除重复名称并添加新名称的别名来重命名NetBIOS别名。如果未配置任何别名、并且NetBIOS名称存在冲突、请使用"vserver cifs delete -vserver vserver"和"vserver cifs create -cifs-server netbiosname"命令重命名CIFS服务器。注意:删除 CIFS 服务器可能会使数据无法访问。删除NetBIOS名称或重命名远程计算机上的NetBIOS。

CVO NFSv4存储池已用尽

严重

NFSv4 存储池已用尽。

如果 NFS 服务器在此事件发生后响应时间超过 10 分钟,请联系 NetApp 技术支持。

CVO节点崩溃

警告

发生崩溃时会发出此事件

请联系NetApp客户支持。

CVO节点根卷空间不足

严重

系统已检测到根卷空间极低,这是一种危险的现象。此节点未完全正常运行。数据 LIF 可能已在集群中进行故障转移,因此,节点上的 NFS 和 CIFS 访问受到限制。管理功能仅限于节点在本地恢复过程中清除根卷上的空间。

执行以下更正操作:通过删除旧Snapshot副本、从/mroot目录中删除不再需要的文件或扩展根卷容量来清除根卷上的空间。重新启动控制器。有关详细信息或帮助,请联系 NetApp 技术支持。

CVO不存在管理共享

严重

Vscan 问题描述:客户端已尝试连接到不存在的 ontap_admin$ 共享。

确保已为所述 SVM ID 启用 Vscan 。在 SVM 上启用 Vscan 会自动为 SVM 创建 ontap_admin$ 共享。

无法解析CVO对象存储主机

严重

无法将对象存储服务器主机名解析为 IP 地址。如果未解析为 IP 地址,对象存储客户端将无法与对象存储服务器进行通信。因此,数据可能无法访问。

检查 DNS 配置以验证是否已使用 IP 地址正确配置主机名。

CVO对象存储集群间LIF已关闭

严重

对象存储客户端找不到可与对象存储服务器通信的可正常运行的 LIF 。在集群间 LIF 正常运行之前,节点不允许对象存储客户端流量。因此,数据可能无法访问。

执行以下更正操作:使用network interface show -role intercluster命令检查集群间LIF状态。验证集群间LIF配置是否正确且正常运行。如果未配置集群间LIF、请使用"network interface create -role intercluster"命令添加此LIF。

CVO对象存储签名不匹配

严重

发送到对象存储服务器的请求签名与客户端计算的签名不匹配。因此,数据可能无法访问。

验证是否已正确配置机密访问密钥。如果配置正确,请联系 NetApp 技术支持以获得帮助。

CVO QoS监控内存已达到上限

严重

QoS 子系统的动态内存已达到当前平台硬件的限制。某些 QoS 功能可能在有限容量下运行。

删除某些活动工作负载或流以释放内存。使用"statistics show -object workload -counter ops"命令确定哪些工作负载处于活动状态。活动工作负载显示非零操作。然后多次使用"workload delete <workload_name>"命令删除特定工作负载。或者、也可以使用"stream delete -workload <workload name>*"命令从活动工作负载中删除关联的流。

CVO READDIR超时

严重

READDIR 文件操作已超过允许在 WAFL 中运行的超时时间。这可能是因为目录非常大或非常稀疏。建议采取更正操作。

执行以下更正操作:使用以下"DIAG "权限nodeshell命令行界面命令查找READDIR文件操作已过期的最新目录的特定信息:WAFL readdir notice show。检查目录是否显示为稀疏:如果某个目录显示为稀疏、建议将该目录的内容复制到新目录以删除该目录文件的稀疏。如果某个目录未指示为稀疏目录且目录很大,建议通过减少目录中的文件条目数量来减小目录文件的大小。

存储池的CVO重新定位失败

严重

在重新定位聚合期间,当目标节点无法访问对象存储时,会发生此事件。

执行以下更正操作:使用"network interface show"命令验证集群间LIF是否联机且正常运行。在目标节点集群间LIF上使用"ping"命令检查与对象存储服务器的网络连接。使用"aggregate object-store config show"命令验证对象存储的配置是否未更改、以及登录和连接信息是否仍然准确。或者,您也可以使用 relocation 命令的 override-destination-checks 参数来覆盖此错误。有关详细信息或帮助,请联系 NetApp 技术支持。

CVO卷影复制失败

严重

卷影复制服务( Volume Shadow Copy Service , VSS )( Microsoft 服务器备份和还原服务操作)失败。

使用事件消息中提供的信息检查以下内容:Is shadow copy configuration enabled?是否安装了相应的许可证?在哪些共享上执行卷影复制操作?共享名称是否正确?共享路径是否存在?卷影副本集及其卷影副本的状态是什么?

CVO Storage VM停止成功

信息

如果"vserver stop"操作成功、则会显示此消息。

使用"vserver start"命令在Storage VM上启动数据访问。

CVO CIFS身份验证太多

警告

许多身份验证协商同时进行。此客户端发出 256 个未完成的新会话请求。

调查客户端创建 256 个或更多新连接请求的原因。您可能需要联系客户端或应用程序的供应商来确定发生错误的原因。

CVO未分配磁盘

信息

系统具有未分配的磁盘 - 正在浪费容量,并且您的系统可能会应用某些配置错误或部分配置更改。

执行以下更正操作:使用disk show -n命令确定哪些磁盘未分配。使用"disk assign"命令将磁盘分配给系统。

CVO未授权用户访问管理共享

警告

客户端已尝试连接到具有特权的 ontap_admin$ 共享,即使其登录用户不是允许的用户也是如此。

执行以下更正操作:确保已在一个活动Vscan扫描程序池中配置所述的用户名和IP地址。使用"vserver vscan scanner pool show-active"命令检查当前处于活动状态的扫描程序池配置。

检测到CVO病毒

警告

Vscan 服务器已向存储系统报告错误。这通常表示已发现病毒。但是, Vscan 服务器上的其他错误也可以对此事件进行发生原因 处理。客户端对文件的访问被拒绝。Vscan 服务器可能会根据其设置和配置清理文件,隔离或删除文件。

检查 "syslog" 事件中报告的 Vscan 服务器的日志,查看它是否能够成功清理,隔离或删除受感染的文件。如果无法执行此操作,系统管理员可能需要手动删除此文件。

CVO卷脱机

信息

此消息指示卷已脱机。

使卷重新联机。

CVO卷受限

信息

此事件指示灵活卷已设置为受限。

使卷重新联机。

SnapMirror for Business Continuity (SMBC)调解器日志监控器

监控器名称

严重性

监控问题描述

更正操作

已添加ONTAP 调解器

信息

在集群上成功添加ONTAP 调解器时、会显示此消息。

无法访问ONTAP 调解器

严重

如果调整了ONTAP 调解器的用途或调解器服务器上不再安装调解器软件包、则会显示此消息。因此、无法执行SnapMirror故障转移。

使用"snapmirror mediator remove"命令删除当前ONTAP 调解器的配置。使用"snapmirror mediator add"命令重新配置对ONTAP 调解器的访问。

已删除ONTAP 调解器

信息

从集群中成功删除ONTAP 调解器时、会显示此消息。

无法访问ONTAP 调解器

警告

如果集群上无法访问ONTAP 调解器、则会显示此消息。因此、无法执行SnapMirror故障转移。

使用"network ping"和"network traceroute "命令检查与ONTAP 调解器的网络连接。如果问题描述 仍然存在、请使用"snapmirror mediator remove"命令删除当前ONTAP 调解器的配置。使用"snapmirror mediator add"命令重新配置对ONTAP 调解器的访问。

SMBC CA证书已过期

严重

如果ONTAP 调解器证书颁发机构(CA)证书已过期、则会显示此消息。因此、无法再与ONTAP 调解器进行任何通信。

使用"snapmirror mediator remove"命令删除当前ONTAP 调解器的配置。更新ONTAP 调解器服务器上的新CA证书。使用"snapmirror mediator add"命令重新配置对ONTAP 调解器的访问。

SMBC CA证书即将过期

警告

如果ONTAP 调解器证书颁发机构(CA)证书将在未来30天内过期、则会显示此消息。

在此证书过期之前、请使用"snapmirror mediator remove"命令删除当前ONTAP 调解器的配置。更新ONTAP 调解器服务器上的新CA证书。使用"snapmirror mediator add"命令重新配置对ONTAP 调解器的访问。

SMBC客户端证书已过期

严重

当ONTAP 调解器客户端证书已过期时、会显示此消息。因此、无法再与ONTAP 调解器进行任何通信。

使用"snapmirror mediator remove"命令删除当前ONTAP 调解器的配置。使用"snapmirror mediator add"命令重新配置对ONTAP 调解器的访问。

SMBC客户端证书即将过期

警告

如果ONTAP 调解器客户端证书将在未来30天内过期、则会显示此消息。

在此证书过期之前、请使用"snapmirror mediator remove"命令删除当前ONTAP 调解器的配置。使用"snapmirror mediator add"命令重新配置对ONTAP 调解器的访问。

SMBC关系不同步注意:UM没有此关系

严重

如果SnapMirror for Business Continuity (SMBC)关系的状态从"in-sync"更改为"out-of-sync"、则会显示此消息。由于此RPO=0、数据保护将中断。

检查源卷和目标卷之间的网络连接。在目标上使用"snapmirror show"命令、在源上使用"snapmirror list-destinations"命令、以监控SMBC关系状态。自动重新同步将尝试将关系恢复为"同步"状态。如果重新同步失败、请验证集群中的所有节点是否都处于仲裁状态且运行状况良好。

SMBC服务器证书已过期

严重

如果ONTAP 调解器服务器证书已过期、则会显示此消息。因此、无法再与ONTAP 调解器进行任何通信。

使用"snapmirror mediator remove"命令删除当前ONTAP 调解器的配置。更新ONTAP 调解器服务器上的新服务器证书。使用"snapmirror mediator add"命令重新配置对ONTAP 调解器的访问。

SMBC服务器证书即将过期

警告

如果ONTAP 调解器服务器证书将在未来30天内过期、则会显示此消息。

在此证书过期之前、请使用"snapmirror mediator remove"命令删除当前ONTAP 调解器的配置。更新ONTAP 调解器服务器上的新服务器证书。使用"snapmirror mediator add"命令重新配置对ONTAP 调解器的访问。

其他电源、检测信号和其他系统监控器

监控器名称 严重性 监控问题描述 更正操作

已发现磁盘架电源

信息性

将电源设备添加到磁盘架时会出现此消息。

已卸下磁盘架电源

信息性

从磁盘架中卸下电源设备时会出现此消息。

已禁用MetroCluster自动计划外切换

严重

如果禁用了自动计划外切换功能、则会显示此消息。

对集群中的每个节点运行MetroCluster modify -node-name <nodename> -auto-switchover-onfailure true命令以启用自动切换。

无法访问MetroCluster 存储网桥

严重

无法通过管理网络访问存储网桥

1)如果网桥由SNMP监控、请使用"network interface show"命令验证节点管理LIF是否已启动。使用"network ping"命令验证网桥是否处于活动状态。2)如果网桥受带内监控、请检查网桥的网络结构布线、然后验证网桥是否已启动。

MetroCluster 网桥温度异常—低于严重值

严重

光纤通道网桥上的传感器报告温度低于严重阈值。

1)检查存储网桥上风扇的运行状态。2)验证网桥是否在建议的温度条件下运行。

MetroCluster 网桥温度异常—高于严重级别

严重

光纤通道网桥上的传感器报告温度高于严重阈值。

1)使用storage bridge show -cooling命令检查存储网桥上机箱温度传感器的运行状态。2)验证存储网桥是否在建议的温度条件下运行。

遗留了MetroCluster聚合

警告

在切回期间、聚合被遗留。

1)使用命令aggr show检查聚合状态。2)如果聚合处于联机状态、请使用命令MetroCluster switchback将其返回给其原始所有者。

MetroCluster 配对节点之间的所有链路已关闭

严重

RDMA互连适配器和集群间LIF已断开与对等集群的连接或对等集群已关闭。

1)确保集群间LIF已启动且正在运行。如果集群间LIF已关闭、请予以修复。2)使用cluster peer ping命令验证对等集群是否已启动且正在运行。如果对等集群已关闭、请参见《MetroCluster 灾难恢复指南》。3)对于光纤MetroCluster 、验证后端网络结构ISL是否已启动且正在运行。如果后端网络结构ISL已关闭、请予以修复。4)对于非光纤MetroCluster 配置、请验证RDMA互连适配器之间的布线是否正确。如果链路已关闭、请重新配置布线。

无法通过对等网络访问MetroCluster配对节点

严重

与对等集群的连接已断开。

1)确保端口已连接到正确的网络/交换机。2)确保集群间LIF已连接到对等集群。3)使用"cluster peer ping"命令确保对等集群已启动且正在运行。如果对等集群已关闭、请参见《MetroCluster 灾难恢复指南》。

MetroCluster 交换机间的所有链路已关闭

严重

存储交换机上的所有交换机间链路(ISL)均已关闭。

1)修复存储交换机上的后端网络结构ISL。2)确保配对交换机已启动且其ISL正常运行。3)确保xWDM设备等中间设备正常运行。

MetroCluster 节点到存储堆栈的SAS链路已关闭

警告

SAS适配器或其连接的缆线可能发生故障。

1.验证SAS适配器是否联机且正在运行。2.验证物理电缆连接是否牢固且正常运行、并在必要时更换电缆。3.如果SAS适配器已连接到磁盘架、请确保IOM和磁盘已正确就位。

MetroClusterFC启动程序链路已关闭

严重

FC启动程序适配器出现故障。

1.确保FC启动程序链路未被篡改。2.使用命令"system node run -node local -command storage show adapter "验证FC启动程序适配器的运行状态。

FC-VI互连链路已关闭

严重

FC-VI端口上的物理链路已脱机。

1.确保FC-VI链路未被篡改。2.使用命令"FC-VI MetroCluster互连适配器show"验证FC-VI适配器的物理状态是否为"UP "。3.如果此配置包含光纤交换机、请确保已正确布线和配置这些交换机。

MetroCluster遗留了备用磁盘

警告

备用磁盘在切回期间被遗留。

如果磁盘未出现故障、请使用命令MetroCluster switchback将其返回给原始所有者。

MetroCluster 存储网桥端口已关闭

严重

存储网桥上的端口已脱机。

1)使用命令"storage bridge show -ports"检查存储网桥上端口的运行状态。2)验证与端口的逻辑和物理连接。

MetroCluster 存储交换机风扇出现故障

严重

存储交换机上的风扇出现故障。

1)使用命令storage switch show -cooling确保交换机中的风扇正常运行。2)确保风扇FRU已正确插入并正常运行。

无法访问MetroCluster 存储交换机

严重

无法通过管理网络访问存储交换机。

1)使用命令network interface show确保节点管理LIF已启动。2)使用命令"network ping"确保交换机处于活动状态。3)登录到交换机后、通过检查其SNMP设置来确保交换机可通过SNMP访问。

MetroCluster 交换机电源出现故障

严重

存储交换机上的电源设备无法正常运行。

1)使用命令"storage switch show -error -switch-name <swtich name> "检查错误详细信息。2)使用命令"storage switch show -power -switch-name <switch name> "确定出现故障的电源设备。3)确保电源正确插入存储交换机的机箱并完全正常运行。

MetroCluster 交换机温度传感器出现故障

严重

光纤通道交换机上的传感器出现故障。

1)使用命令"storage switch show -cooling"检查存储交换机上温度传感器的运行状态。2)验证交换机是否在建议的温度条件下运行。

MetroCluster 交换机温度异常

严重

光纤通道交换机上的温度传感器报告温度异常。

1)使用命令"storage switch show -cooling"检查存储交换机上温度传感器的运行状态。2)验证交换机是否在建议的温度条件下运行。

服务处理器检测信号丢失

信息性

如果ONTAP 未收到来自服务处理器(SP)的预期"检测信号"、则会出现此消息。除了此消息之外、还会发送SP的日志文件进行调试。ONTAP 将重置SP以尝试还原通信。重新启动时、SP将不可用长达两分钟。

请联系NetApp技术支持。

服务处理器检测信号已停止

警告

如果ONTAP 不再从服务处理器(SP)接收检测信号、则会出现此消息。根据硬件设计、系统可能会继续提供数据或确定关闭以防止数据丢失或硬件损坏。系统会继续提供数据、但由于SP可能无法正常工作、系统无法发送有关设备已关闭、启动错误或打开固件(OFW)开机自检(POST)错误的通知。如果您的系统已配置为执行此操作、则它会生成AutoSupport (或"致电")消息并将其传输到NetApp技术支持和已配置的目标。成功传送AutoSupport 消息可显著提高问题的确定和解决能力。

如果系统已关闭、请尝试重新启动硬电源:将控制器从机箱中拉出、将其推回机箱、然后打开系统电源。如果在重新启动后问题仍然存在、或者出现任何其他需要关注的情况、请联系NetApp技术支持。