Skip to main content
简体中文版经机器翻译而成,仅供参考。如与英语版出现任何冲突,应以英语版为准。

对平台服务进行故障排除

贡献者

平台服务中使用的端点由租户管理器中的租户用户创建和维护;但是,如果租户在配置或使用平台服务时遇到问题,您可能可以使用网格管理器帮助解决问题描述 。

新端点出现问题

租户必须先使用租户管理器创建一个或多个端点,才能使用平台服务。每个端点代表一个平台服务的外部目标、例如StorageGRID S3存储分段、Amazon Web Services存储分段、Amazon Simple Notification Service主题、Kafka主题或本地或AWS上托管的ElanicSearch集群。每个端点都包括外部资源的位置以及访问该资源所需的凭据。

租户创建端点时, StorageGRID 系统会验证此端点是否存在,以及是否可以使用指定的凭据访问此端点。系统会从每个站点的一个节点验证与端点的连接。

如果端点验证失败,则会显示一条错误消息,说明端点验证失败的原因。租户用户应解析问题描述 ,然后重新尝试创建端点。

备注 如果未为租户帐户启用平台服务、则端点创建将失败。

现有端点存在问题

如果在StorageGRID 尝试访问现有端点时发生错误、租户管理器的信息板上将显示一条消息。

信息板上的端点错误消息

租户用户可以转到 " 端点 " 页面查看每个端点的最新错误消息,并确定错误发生多长时间。"* 最后一个错误 * " 列显示每个端点的最新错误消息,并指示错误发生的时间。在过去7天内发生了包含图标的错误红色 X 图标

显示上次错误列的端点页面的屏幕截图
备注 * 最后一个错误 * 列中的某些错误消息可能会在圆括号中包含日志 ID 。网格管理员或技术支持可以使用此 ID 在 bycast.log 中查找有关此错误的更多详细信息。

与代理服务器相关的问题

如果已在存储节点和平台服务端点之间配置"存储代理"、则在代理服务不允许来自StorageGRID的消息时可能会发生错误。要解决这些问题、请检查代理服务器的设置、以确保不会阻止与平台服务相关的消息。

确定是否发生错误

如果在过去7天内发生任何端点错误、租户管理器中的信息板将显示警报消息。您可以转到 " 端点 " 页面以查看有关此错误的更多详细信息。

客户端操作失败

某些平台服务问题可能会导致 S3 存储分段上的发生原因 客户端操作失败。例如,如果内部复制状态计算机( RSM )服务停止,或者排队等待传送的平台服务消息太多, S3 客户端操作将失败。

要检查服务状态,请执行以下操作:

  1. 选择 * 支持 * > * 工具 * > * 网格拓扑 * 。

  2. 选择 * 站点 _* > * 存储节点 _* > * SSM* > * 服务 * 。

可恢复和不可恢复的端点错误

创建端点后,平台服务请求错误可能会因各种原因而发生。某些错误可通过用户干预进行恢复。例如,可能会发生可恢复的错误,原因如下:

  • 用户凭据已删除或已过期。

  • 目标存储分段不存在。

  • 无法传送通知。

如果 StorageGRID 遇到可恢复的错误,将重试平台服务请求,直到成功。

其他错误不可恢复。例如,如果删除端点,则会发生不可恢复的错误。

如果StorageGRID遇到不可恢复的端点错误:

  • 在网格管理器中,转至*Support*>*Tools*>*Metrics *>*Grafana *>*Platform Services Overview*以查看错误详细信息。

  • 在租户管理器中,转至*存储(S3)*>*平台服务端点*以查看错误详细信息。

  • 检查 `/var/local/log/bycast-err.log`是否存在相关错误。具有ADC服务的存储节点包含此日志文件。

无法传送平台服务消息

如果目标遇到的问题描述 阻止其接受平台服务消息,则在存储分段上执行的客户端操作将成功,但不会传送平台服务消息。例如,如果更新了目标上的凭据,使 StorageGRID 无法再向目标服务进行身份验证,则可能会发生此错误。

检查相关警报。

降低平台服务请求的性能

如果发送请求的速率超过目标端点接收请求的速率, StorageGRID 软件可能会限制传入的存储分段 S3 请求。只有在等待发送到目标端点的请求积压时,才会发生限制。

唯一明显的影响是,传入的 S3 请求执行时间较长。如果您开始检测到性能明显较慢,则应降低载入速率或使用容量较高的端点。如果积压的请求持续增加,客户端 S3 操作(例如 PUT 请求)最终将失败。

CloudMirror 请求更有可能受到目标端点性能的影响,因为这些请求所涉及的数据传输通常多于搜索集成或事件通知请求。

平台服务请求失败

要查看平台服务的请求失败率,请执行以下操作:

  1. 选择 * 节点 * 。

  2. 选择 site > * 平台服务 * 。

  3. 查看请求错误率图表。

    节点页面站点级平台服务

平台服务不可用警报

" 平台服务不可用 * " 警报表示无法在站点上执行平台服务操作,因为运行或可用的 RSM 服务存储节点太少。

RSM 服务可确保将平台服务请求发送到其各自的端点。

要解决此警报,请确定站点上的哪些存储节点包含 RSM 服务。(RSM服务位于同时包含ADC服务的存储节点上。)然后、确保这些存储节点中的大多数节点正在运行且可用。

备注 如果某个站点上有多个包含 RSM 服务的存储节点出现故障,则该站点的任何待定平台服务请求都将丢失。

有关平台服务端点的其他故障排除指南