对平台服务进行故障排除
平台服务中使用的端点由租户管理器中的租户用户创建和维护;但是,如果租户在配置或使用平台服务时遇到问题,您可能可以使用网格管理器帮助解决问题描述 。
新端点出现问题
租户必须先使用租户管理器创建一个或多个端点,才能使用平台服务。每个端点表示一个平台服务的外部目标,例如 StorageGRID S3 存储分段, Amazon Web 服务分段,简单通知服务主题或本地或 AWS 上托管的 Elasticsearch 集群。每个端点都包括外部资源的位置以及访问该资源所需的凭据。
租户创建端点时, StorageGRID 系统会验证此端点是否存在,以及是否可以使用指定的凭据访问此端点。系统会从每个站点的一个节点验证与端点的连接。
如果端点验证失败,则会显示一条错误消息,说明端点验证失败的原因。租户用户应解析问题描述 ,然后重新尝试创建端点。
如果未为租户帐户启用平台服务,则端点创建将失败。 |
现有端点存在问题
如果在 StorageGRID 尝试访问现有端点时发生错误,则租户管理器的信息板上将显示一条消息。
租户用户可以转到 " 端点 " 页面查看每个端点的最新错误消息,并确定错误发生多长时间。"* 最后一个错误 * " 列显示每个端点的最新错误消息,并指示错误发生的时间。包含的错误 图标在过去 7 天内出现。
* 最后一个错误 * 列中的某些错误消息可能会在圆括号中包含日志 ID 。网格管理员或技术支持可以使用此 ID 在 bycast.log 中查找有关此错误的更多详细信息。 |
与代理服务器相关的问题
如果您在存储节点和平台服务端点之间配置了存储代理,则如果您的代理服务不允许来自 StorageGRID 的消息,则可能会发生错误。要解决这些问题,请检查代理服务器的设置,以确保不会阻止与平台服务相关的消息。
确定是否发生错误
如果在过去 7 天内发生任何端点错误,则租户管理器中的信息板将显示一条警报消息。您可以转到 " 端点 " 页面以查看有关此错误的更多详细信息。
客户端操作失败
某些平台服务问题可能会导致 S3 存储分段上的发生原因 客户端操作失败。例如,如果内部复制状态计算机( RSM )服务停止,或者排队等待传送的平台服务消息太多, S3 客户端操作将失败。
要检查服务状态,请执行以下操作:
-
选择*支持*>*工具*>*网格拓扑*。
-
选择 * 站点 _* > * 存储节点 _* > * SSM* > * 服务 * 。
可恢复和不可恢复的端点错误
创建端点后,平台服务请求错误可能会因各种原因而发生。某些错误可通过用户干预进行恢复。例如,可能会发生可恢复的错误,原因如下:
-
用户凭据已删除或已过期。
-
目标存储分段不存在。
-
无法传送通知。
如果 StorageGRID 遇到可恢复的错误,将重试平台服务请求,直到成功。
其他错误不可恢复。例如,如果删除端点,则会发生不可恢复的错误。
如果StorageGRID 遇到不可恢复的端点错误、则会在网格管理器中触发总事件(SMTT)警报。要查看事件总数警报、请执行以下操作:
-
选择*节点*。
-
选择*站点_*>*网格节点_*>*事件*。
-
在表顶部查看上次事件。
事件消息也会在中列出
/var/local/log/bycast-err.log
。 -
按照 SMT 警报内容中提供的指导更正问题描述 。
-
单击*重置事件计数*。
-
将尚未传送平台服务消息的对象通知租户。
-
指示租户通过更新对象的元数据或标记来重新触发失败的复制或通知。
租户可以重新提交现有值,以避免进行不必要的更改。
无法传送平台服务消息
如果目标遇到的问题描述 阻止其接受平台服务消息,则在存储分段上执行的客户端操作将成功,但不会传送平台服务消息。例如,如果更新了目标上的凭据,使 StorageGRID 无法再向目标服务进行身份验证,则可能会发生此错误。
如果由于不可恢复的错误而无法传送平台服务消息、则会在网格管理器中触发总事件(SMT)警报。
降低平台服务请求的性能
如果发送请求的速率超过目标端点接收请求的速率, StorageGRID 软件可能会限制传入的存储分段 S3 请求。只有在等待发送到目标端点的请求积压时,才会发生限制。
唯一明显的影响是,传入的 S3 请求执行时间较长。如果您开始检测到性能明显较慢,则应降低载入速率或使用容量较高的端点。如果积压的请求持续增加,客户端 S3 操作(例如 PUT 请求)最终将失败。
CloudMirror 请求更有可能受到目标端点性能的影响,因为这些请求所涉及的数据传输通常多于搜索集成或事件通知请求。
平台服务请求失败
要查看平台服务的请求失败率,请执行以下操作:
-
选择*节点*。
-
选择 site > * 平台服务 * 。
-
查看请求故障率图表。
平台服务不可用警报
" 平台服务不可用 * " 警报表示无法在站点上执行平台服务操作,因为运行或可用的 RSM 服务存储节点太少。
RSM 服务可确保将平台服务请求发送到其各自的端点。
要解决此警报,请确定站点上的哪些存储节点包含 RSM 服务。( RSM 服务位于也包含此 ADC 服务的存储节点上。) 然后,确保这些存储节点中的大多数都在运行且可用。
如果某个站点上有多个包含 RSM 服务的存储节点出现故障,则该站点的任何待定平台服务请求都将丢失。 |