对平台服务进行故障排除
平台服务中使用的端点由租户管理器中的租户用户创建和维护;但是,如果租户在配置或使用平台服务时遇到问题,您可能可以使用网格管理器帮助解决问题描述 。
新端点出现问题
租户必须先使用租户管理器创建一个或多个端点,才能使用平台服务。每个端点代表一个平台服务的外部目标、例如StorageGRID S3存储分段、Amazon Web Services存储分段、Amazon Simple Notification Service主题、Kafka主题或本地或AWS上托管的ElanicSearch集群。每个端点都包括外部资源的位置以及访问该资源所需的凭据。
租户创建端点时, StorageGRID 系统会验证此端点是否存在,以及是否可以使用指定的凭据访问此端点。系统会从每个站点的一个节点验证与端点的连接。
如果端点验证失败,则会显示一条错误消息,说明端点验证失败的原因。租户用户应解析问题描述 ,然后重新尝试创建端点。
如果未为租户帐户启用平台服务、则端点创建将失败。 |
现有端点存在问题
如果在StorageGRID 尝试访问现有端点时发生错误、租户管理器的信息板上将显示一条消息。
租户用户可以转到 " 端点 " 页面查看每个端点的最新错误消息,并确定错误发生多长时间。"* 最后一个错误 * " 列显示每个端点的最新错误消息,并指示错误发生的时间。在过去7天内发生了包含图标的错误。
* 最后一个错误 * 列中的某些错误消息可能会在圆括号中包含日志 ID 。网格管理员或技术支持可以使用此 ID 在 bycast.log 中查找有关此错误的更多详细信息。 |
与代理服务器相关的问题
如果已在存储节点和平台服务端点之间配置"存储代理"、则在代理服务不允许来自StorageGRID的消息时可能会发生错误。要解决这些问题、请检查代理服务器的设置、以确保不会阻止与平台服务相关的消息。
确定是否发生错误
如果在过去7天内发生任何端点错误、租户管理器中的信息板将显示警报消息。您可以转到 " 端点 " 页面以查看有关此错误的更多详细信息。
客户端操作失败
某些平台服务问题可能会导致 S3 存储分段上的发生原因 客户端操作失败。例如,如果内部复制状态计算机( RSM )服务停止,或者排队等待传送的平台服务消息太多, S3 客户端操作将失败。
要检查服务状态,请执行以下操作:
-
选择 * 支持 * > * 工具 * > * 网格拓扑 * 。
-
选择 * 站点 _* > * 存储节点 _* > * SSM* > * 服务 * 。
可恢复和不可恢复的端点错误
创建端点后,平台服务请求错误可能会因各种原因而发生。某些错误可通过用户干预进行恢复。例如,可能会发生可恢复的错误,原因如下:
-
用户凭据已删除或已过期。
-
目标存储分段不存在。
-
无法传送通知。
如果 StorageGRID 遇到可恢复的错误,将重试平台服务请求,直到成功。
其他错误不可恢复。例如,如果删除端点,则会发生不可恢复的错误。
如果StorageGRID遇到不可恢复的端点错误:
-
在网格管理器中,转至*Support*>*Tools*>*Metrics *>*Grafana *>*Platform Services Overview*以查看错误详细信息。
-
在租户管理器中,转至*存储(S3)*>*平台服务端点*以查看错误详细信息。
-
检查 `/var/local/log/bycast-err.log`是否存在相关错误。具有ADC服务的存储节点包含此日志文件。
无法传送平台服务消息
如果目标遇到的问题描述 阻止其接受平台服务消息,则在存储分段上执行的客户端操作将成功,但不会传送平台服务消息。例如,如果更新了目标上的凭据,使 StorageGRID 无法再向目标服务进行身份验证,则可能会发生此错误。
检查相关警报。
降低平台服务请求的性能
如果发送请求的速率超过目标端点接收请求的速率, StorageGRID 软件可能会限制传入的存储分段 S3 请求。只有在等待发送到目标端点的请求积压时,才会发生限制。
唯一明显的影响是,传入的 S3 请求执行时间较长。如果您开始检测到性能明显较慢,则应降低载入速率或使用容量较高的端点。如果积压的请求持续增加,客户端 S3 操作(例如 PUT 请求)最终将失败。
CloudMirror 请求更有可能受到目标端点性能的影响,因为这些请求所涉及的数据传输通常多于搜索集成或事件通知请求。
平台服务请求失败
要查看平台服务的请求失败率,请执行以下操作:
-
选择 * 节点 * 。
-
选择 site > * 平台服务 * 。
-
查看请求错误率图表。
平台服务不可用警报
" 平台服务不可用 * " 警报表示无法在站点上执行平台服务操作,因为运行或可用的 RSM 服务存储节点太少。
RSM 服务可确保将平台服务请求发送到其各自的端点。
要解决此警报,请确定站点上的哪些存储节点包含 RSM 服务。(RSM服务位于同时包含ADC服务的存储节点上。)然后、确保这些存储节点中的大多数节点正在运行且可用。
如果某个站点上有多个包含 RSM 服务的存储节点出现故障,则该站点的任何待定平台服务请求都将丢失。 |
有关平台服务端点的其他故障排除指南
有关更多信息,请参见"使用租户帐户gt;对平台服务端点进行故障排除"。