对StorageGRID系统进行故障排除
如果您在使用StorageGRID系统时遇到问题,请参阅本节中的提示和指南,以帮助确定和解决问题。
通常,您可以自行解决问题;但是,您可能需要将某些问题上报给技术支持。
定义问题
解决问题的第一步是明确定义问题。
下表提供了您可能收集的用于定义问题的信息类型的示例:
问题 | 示例响应 |
---|---|
StorageGRID系统正在做什么或不做什么?它的症状是什么? |
客户端应用程序报告无法将对象提取到StorageGRID中。 |
问题何时开始的? |
对象摄取首次被拒绝是在 2020 年 1 月 8 日 14:50 左右。 |
您是如何第一次注意到这个问题的? |
由客户端应用程序通知。还收到了警报电子邮件通知。 |
该问题是持续发生还是只是偶尔发生? |
问题仍在继续。 |
如果问题经常发生,哪些步骤会导致该问题发生 |
每次客户端尝试摄取对象时都会发生问题。 |
如果问题间歇性发生,那么它何时发生?记录您所知道的每个事件的时间。 |
问题不是间歇性的。 |
您以前见过这个问题吗?您过去多久遇到一次这个问题? |
这是我第一次看到这个问题。 |
评估风险和对系统的影响
定义问题后,评估其风险和对StorageGRID系统的影响。例如,出现严重警报并不一定意味着系统没有提供核心服务。
下表总结了示例问题对系统操作的影响:
问题 | 示例响应 |
---|---|
StorageGRID系统可以提取内容吗? |
目标卷 |
客户端应用程序可以检索内容吗? |
有些对象可以检索,有些则不能。 |
数据有风险吗? |
目标卷 |
开展业务的能力是否受到严重影响? |
是的,因为客户端应用程序无法将对象存储到StorageGRID系统,并且无法一致地检索数据。 |
收集数据
定义问题并评估其风险和影响后,收集数据进行分析。收集最有用的数据类型取决于问题的性质。
要收集的数据类型 | 为什么要收集这些数据 | AutoSupport |
---|---|---|
创建最近更改的时间线 |
对StorageGRID系统、其配置或环境的更改可能会导致新的行为。 |
|
查看警报 |
警报可以提供有关可能导致问题的根本问题的重要线索,从而帮助您快速确定问题的根本原因。 查看当前警报列表,了解StorageGRID是否已为您确定问题的根本原因。 审查过去触发的警报以获取更多见解。 |
|
监视事件 |
事件包括节点的任何系统错误或故障事件,包括网络错误等错误。监控事件以了解有关问题的更多信息或帮助进行故障排除。 |
|
使用图表和文本报告识别趋势 |
趋势可以提供有关问题首次出现时间的宝贵线索,并可以帮助您了解事物变化的速度。 |
|
建立基线 |
收集有关各种操作值的正常水平的信息。这些基线值以及与这些基线的偏差可以提供有价值的线索。 |
|
执行摄取和检索测试 |
要解决摄取和检索的性能问题,请使用工作站来存储和检索对象。将结果与使用客户端应用程序时看到的结果进行比较。 |
|
审查审计消息 |
查看审计消息以详细跟踪StorageGRID操作。审计消息中的详细信息对于解决许多类型的问题(包括性能问题)很有用。 |
|
检查对象位置和存储完整性 |
如果您遇到存储问题,请验证对象是否放置在您预期的位置。检查存储节点上对象数据的完整性。 |
|
收集数据以提供技术支持 |
技术支持可能会要求您收集数据或查看特定信息以帮助解决问题。 |
创建最近更改的时间线
当出现问题时,您应该考虑最近发生了什么变化以及这些变化何时发生。
-
对StorageGRID系统、其配置或环境的更改可能会导致新的行为。
-
变更的时间线可以帮助您确定哪些变更可能导致问题,以及每个变更可能如何影响问题的发展。
创建一个系统最近更改的表格,其中包括每个更改发生的时间信息以及有关更改的任何相关详细信息,例如有关更改进行过程中发生的其他情况的信息:
变革的时间 | 变更类型 | 详细信息 |
---|---|---|
例如:
|
发生了什么?你做了什么? |
记录有关变更的任何相关细节。例如:
请务必注意是否同时发生多项变化。例如,此更改是在升级过程中进行的吗? |
近期重大变化的例子
以下是一些可能产生重大变化的例子:
-
StorageGRID系统是否最近安装、扩展或恢复?
-
最近系统有升级吗?是否应用了修补程序?
-
最近是否有任何硬件被修理或更换?
-
ILM 政策是否已更新?
-
客户的工作量有变化吗?
-
客户端应用程序或其行为是否发生了变化?
-
您是否更改了负载均衡器,或者添加或删除了管理节点或网关节点的高可用性组?
-
是否已开始任何可能需要很长时间才能完成的任务?示例包括:
-
故障存储节点的恢复
-
存储节点退役
-
-
用户身份验证是否发生了任何变化,例如添加租户或更改 LDAP 配置?
-
是否正在进行数据迁移?
-
平台服务最近是否启用或更改?
-
最近是否启用了合规性?
-
云存储池是否已添加或删除?
-
存储压缩或加密有任何变化吗?
-
网络基础设施有任何变化吗?例如,VLAN、路由器或 DNS。
-
NTP 源有任何变化吗?
-
网格、管理或客户端网络接口是否有任何变化?
-
StorageGRID系统或其环境是否进行了任何其他更改?
建立基线
您可以通过记录各种操作值的正常水平来为您的系统建立基线。将来,您可以将当前值与这些基线进行比较,以帮助检测和解决异常值。
财产 | 值 | 如何获取 |
---|---|---|
平均存储消耗 |
每日消耗 GB 每日消耗百分比 |
转到网格管理器。在“节点”页面上,选择整个网格或站点,然后转到“存储”选项卡。 在“已用存储 - 对象数据”图表上,找到线条相当稳定的时期。将光标放在图表上,估算每天消耗的存储空间 您可以为整个系统或特定数据中心收集此信息。 |
平均元数据消耗 |
每日消耗 GB 每日消耗百分比 |
转到网格管理器。在“节点”页面上,选择整个网格或站点,然后转到“存储”选项卡。 在“已用存储 - 对象元数据”图表上,找到线条相当稳定的时期。将光标放在图表上,估算每天消耗多少元数据存储空间 您可以为整个系统或特定数据中心收集此信息。 |
S3/Swift 操作率 |
每秒操作数 |
在网格管理器仪表板上,选择*性能* > S3 操作*或*性能 > Swift 操作。 要查看特定站点或节点的提取和检索速率和计数,请选择 NODES > site 或 Storage Node > Objects。将光标放在 S3 的“提取和检索”图表上。 |
S3/Swift 操作失败 |
操作 |
选择*支持* > 工具 > 网格拓扑。在 API 操作部分的概览选项卡上,查看 S3 操作 - 失败或 Swift 操作 - 失败的值。 |
ILM 评估率 |
对象/秒 |
从节点页面中,选择 grid > ILM。 在 ILM 队列图上,找到线路相当稳定的时期。将光标放在图表上以估算系统的*评估率*的基线值。 |
ILM 扫描速率 |
对象/秒 |
选择 NODES > grid > ILM。 在 ILM 队列图上,找到线路相当稳定的时期。将光标放在图表上以估算系统的*扫描率*的基线值。 |
来自客户端操作的排队对象 |
对象/秒 |
选择 NODES > grid > ILM。 在 ILM 队列图上,找到线路相当稳定的时期。将光标放在图表上,以估算系统的*排队对象(来自客户端操作)*的基线值。 |
平均查询延迟 |
毫秒 |
选择 NODES > Storage Node > Objects。在查询表中,查看平均延迟的值。 |
分析数据
使用您收集的信息来确定问题的原因和潜在的解决方案。
分析取决于具体问题,但一般来说:
-
使用警报定位故障点和瓶颈。
-
使用警报历史和图表重建问题历史。
-
使用图表查找异常并将问题情况与正常操作进行比较。
升级信息清单
如果您无法自行解决问题,请联系技术支持。在联系技术支持之前,请收集下表中列出的信息以便于解决问题。
![]() |
物品 | 笔记 |
---|---|---|
问题陈述 |
问题症状是什么?问题何时开始的?它是持续发生还是间歇性发生?如果是间歇性的,发生过几次? |
|
影响评估 |
问题的严重性如何?对客户端应用程序有何影响?
|
|
StorageGRID系统 ID |
选择*维护* > 系统 > 许可证。StorageGRID系统 ID 显示为当前许可证的一部分。 |
|
软件版本 |
从网格管理器的顶部,选择帮助图标并选择*关于*以查看StorageGRID版本。 |
|
定制 |
总结您的StorageGRID系统的配置方式。例如,列出以下内容:
|
|
日志文件和系统数据 |
收集系统的日志文件和系统数据。选择 支持 > 工具 > 日志。 您可以收集整个网格或选定节点的日志。 如果您仅收集选定节点的日志,请确保至少包含一个具有 ADC 服务的存储节点。(站点的前三个存储节点包括 ADC 服务。) |
|
基线信息 |
收集有关摄取操作、检索操作和存储消耗的基线信息。 |
|
近期变化的时间表 |
创建一个时间线,总结系统或其环境的任何近期变化。 |
|
诊断问题的努力历史 |
如果您已采取措施自行诊断或解决问题,请务必记录您采取的步骤和结果。 |