对平台服务进行故障排除

平台服务中使用的端点由中的租户用户创建和维护;但是,如果租户 租户管理器在配置或使用平台服务时遇到问题,您可能可以使用帮助解决此问题。 网格管理器

新端点出现问题

租户必须先使用创建一个或多个端点,然后才能使用平台服务 租户管理器。每个端点表示一个平台服务的外部目标 StorageGRID ,例如 StorageGRID S3 存储分段, Amazon Web 服务分段,简单通知服务主题或本地或 AWS 上托管的 Elasticsearch 集群。每个端点都包括外部资源的位置以及访问该资源所需的凭据。

租户创建端点时, StorageGRID 系统会验证此端点是否存在,以及是否可以使用指定的凭据访问此端点。系统会从每个站点的一个节点验证与端点的连接。

如果端点验证失败,则会显示一条错误消息,说明端点验证失败的原因。租户用户应解决此问题,然后重新尝试创建端点。
注: 如果未为租户帐户启用平台服务,则端点创建将失败。

现有端点存在问题

如果 StorageGRID 尝试访问现有端点时发生错误,则信息板上的会显示一条消息 租户管理器
信息板上显示端点错误消息

租户用户可以转到 " 端点 " 页面查看每个端点的最新错误消息,并确定错误发生多长时间。Last Error 此列显示每个端点的最新错误消息,并指示错误发生多长时间前。过去 7 天内发生红色错误。


显示上次错误列的端点页面的屏幕截图
注: 如示例所示, Last Error 列中的某些错误消息可能会在圆括号中包含日志 ID 。网格管理员或技术支持可以使用此 ID 在 bycast.log中查找有关错误的更多详细信息。

确定是否发生错误

如果在过去 7 天内发生任何端点错误,中的信息板 租户管理器 将显示一条警报消息。您可以转到 " 端点 " 页面以查看有关此错误的更多详细信息。

客户端操作失败

某些平台服务问题可能会导致 S3 存储分段上的客户端操作失败。例如,如果内部复制状态计算机( RSM )服务停止,或者排队等待传送的平台服务消息太多, S3 客户端操作将失败。

要检查服务状态,请执行以下操作:
  1. 选择 Support > Grid Topology
  2. 选择 site > Storage Node > SSM > Services

可恢复和不可恢复的端点错误

创建端点后,平台服务请求错误可能会因各种原因而发生。某些错误可通过用户干预进行恢复。例如,可能会发生可恢复的错误,原因如下:
  • 用户凭据已删除或已过期。
  • 目标存储分段不存在。
  • 无法传送通知。

如果 StorageGRID 遇到可恢复的错误,将重试平台服务请求,直到成功。

其他错误不可恢复。例如,如果删除端点,则会发生不可恢复的错误。

如果 StorageGRID 遇到不可恢复的端点错误,则会在 网格管理器中触发事件总数( SMTT) 警报。要查看事件总数警报,请执行以下操作:
  1. 选择 Nodes
  2. 选择site > grid node > Events
  3. 在表顶部查看上次事件。

    事件消息也会在 /var/local/log/bycast-err.log中列出。

  4. 按照 SMTT" 警报内容 " 中提供的指导更正此问题。
  5. 单击 Reset event counts
  6. 将尚未传送平台服务消息的对象通知租户。
  7. 指示租户通过更新对象的元数据或标记来重新触发失败的复制或通知。

    租户可以重新提交现有值,以避免进行不必要的更改。

无法传送平台服务消息

如果目标遇到问题,无法接受平台服务消息,则在存储分段上执行的客户端操作将成功,但不会传送平台服务消息。例如 StorageGRID ,如果更新了目标上的凭据,使 StorageGRID 无法再向目标服务进行身份验证,则可能会发生此错误。

如果由于不可恢复的错误而无法传送平台服务消息,则会在 网格管理器中触发总事件( SMT )警报。

降低平台服务请求的性能

StorageGRID 如果发送请求的速率超过目标端点接收请求的速率, StorageGRID 软件可能会限制传入的存储分段 S3 请求。 只有在等待发送到目标端点的请求积压时,才会发生限制。

唯一明显的影响是,传入的 S3 请求执行时间较长。如果您开始检测到性能明显较慢,则应降低载入速率或使用容量较高的端点。 如果积压的请求持续增加,客户端 S3 操作(例如 PUT 请求)最终将失败。

CloudMirror 请求更有可能受到目标端点性能的影响,因为这些请求所涉及的数据传输通常多于搜索集成或事件通知请求。

平台服务请求失败

要查看平台服务的请求失败率,请执行以下操作:
  1. 选择 Nodes
  2. 选择site > Platform Services
  3. 查看请求故障率图表。

    节点页面站点级平台服务

平台服务不可用警报

" 平台服务不可用 " 警报指示无法在站点上执行平台服务操作,因为运行或可用的 RSM 服务存储节点太少。

RSM 服务可确保将平台服务请求发送到其各自的端点。

要解决此警报,请确定站点上的哪些存储节点包含 RSM 服务。( RSM 服务位于也包含此 ADC 服务的存储节点上。) 然后,确保这些存储节点中的大多数都在运行且可用。