平台服务故障排除
平台服务中使用的端点由租户用户在租户管理器中创建和维护;但是,如果租户在配置或使用平台服务时遇到问题,您可能能够使用网格管理器来帮助解决问题。
新端点的问题
在租户可以使用平台服务之前,他们必须使用租户管理器创建一个或多个端点。每个端点代表一个平台服务的外部目标,例如StorageGRID S3 存储桶、Amazon Web Services 存储桶、Amazon Simple Notification Service 主题、Kafka 主题或在本地或 AWS 上托管的 Elasticsearch 集群。每个端点都包括外部资源的位置和访问该资源所需的凭据。
当租户创建端点时, StorageGRID系统会验证该端点是否存在以及是否可以使用指定的凭据访问该端点。每个站点的一个节点都会验证与端点的连接。
如果端点验证失败,错误消息会解释端点验证失败的原因。租户用户应解决该问题,然后尝试再次创建端点。
|
|
如果未为租户帐户启用平台服务,则端点创建将失败。 |
现有端点的问题
如果StorageGRID尝试访问现有端点时发生错误,则会在租户管理器的仪表板上显示一条消息。
租户用户可以转到“端点”页面查看每个端点的最新错误消息,并确定错误发生的时间。 *上次错误*列显示每个端点的最新错误消息,并指示错误发生的时间。错误包括
图标出现在过去 7 天内。
|
|
Last error 列中的某些错误消息可能包含括号中的 logID。网格管理员或技术支持可以使用此 ID 在 bycast.log 中查找有关错误的更多详细信息。 |
与代理服务器相关的问题
如果您已配置"存储代理"存储节点和平台服务端点之间,如果您的代理服务不允许来自StorageGRID的消息,则可能会发生错误。要解决这些问题,请检查代理服务器的设置,以确保平台服务相关的消息不会被阻止。
确定是否发生错误
如果过去 7 天内发生任何端点错误,租户管理器中的仪表板将显示一条警报消息。您可以前往“端点”页面查看有关该错误的更多详细信息。
客户端操作失败
某些平台服务问题可能会导致 S3 存储桶上的客户端操作失败。例如,如果内部复制状态机 (RSM) 服务停止,或者排队等待传送的平台服务消息太多,S3 客户端操作将会失败。
检查服务状态:
-
选择*支持* > 工具 > 网格拓扑。
-
选择 site > Storage Node > SSM > Services。
可恢复和不可恢复的端点错误
端点创建后,平台服务请求可能会因各种原因而发生错误。某些错误可以通过用户干预来恢复。例如,可恢复的错误可能由于以下原因而发生:
-
用户的凭证已被删除或已过期。
-
目标存储桶不存在。
-
通知无法送达。
如果StorageGRID遇到可恢复的错误,则将重试平台服务请求,直到成功为止。
其他错误是无法恢复的。例如,如果删除端点,则会发生不可恢复的错误。
如果StorageGRID遇到无法恢复的端点错误:
-
在网格管理器中,转到 支持 > 工具 > 指标 > Grafana > 平台服务概述 查看错误详情。
-
在租户管理器中,转到 存储 (S3) > 平台服务端点 查看错误详情。
-
检查 `/var/local/log/bycast-err.log`相关错误。具有 ADC 服务的存储节点包含此日志文件。
平台服务消息无法传递
如果目标遇到无法接受平台服务消息的问题,则存储桶上的客户端操作会成功,但平台服务消息不会被传递。例如,如果在目标上更新凭据,使得StorageGRID无法再对目标服务进行身份验证,则可能会发生此错误。
检查相关警报。
平台服务请求性能较慢
如果发送请求的速率超过目标端点接收请求的速率, StorageGRID软件可能会限制存储桶的传入 S3 请求。仅当有大量请求等待发送到目标端点时才会发生限制。
唯一可见的效果是传入的 S3 请求将需要更长时间才能执行。如果您开始检测到性能明显变慢,则应降低摄取率或使用容量更高的端点。如果积压的请求持续增加,客户端 S3 操作(例如 PUT 请求)最终将失败。
CloudMirror 请求更有可能受到目标端点性能的影响,因为这些请求通常涉及比搜索集成或事件通知请求更多的数据传输。
平台服务请求失败
查看平台服务的请求失败率:
-
选择*NODES*。
-
选择 site > 平台服务。
-
查看请求错误率图表。
平台服务不可用警报
*平台服务不可用*警报表示站点上无法执行任何平台服务操作,因为正在运行或可用的具有 RSM 服务的存储节点太少。
RSM 服务确保平台服务请求发送到各自的端点。
要解决此警报,请确定站点中的哪些存储节点包含 RSM 服务。 (RSM 服务存在于也包含 ADC 服务的存储节点上。)然后,确保这些存储节点中的大多数都在运行并且可用。
|
|
如果某个站点上包含 RSM 服务的多个存储节点发生故障,您将丢失该站点的所有待处理的平台服务请求。 |
平台服务端点的其他故障排除指南
有关更多信息,请参阅"使用租户帐户 > 平台服务端点故障排除"。