对 SVST (服务:状态 - Cassandra )警报进行故障排除

SVST 警报指示您可能需要为存储节点重建 Cassandra 数据库。Cassandra 用作 StorageGRID

开始之前

关于本任务

如果 Cassandra 停止超过 15 天(例如,存储节点已关闭),则在节点恢复联机后, Cassandra 将无法启动。您必须为受影响的 DDS 服务重建 Cassandra 数据库。
注意: 如果两个或多个 Cassandra 数据库服务关闭超过 15 天,请联系技术支持,不要继续执行以下步骤。

过程

  1. 选择 Support > Grid Topology
  2. 选择 site > Storage Node > SSM > Services > Alarms > Main 以显示警报。
    此示例显示已触发 SVST 警报。

    警报: SSM :服务页面

    "SSM 服务主页 " 页面还指示 Cassandra 未运行。


    概述: SSM :服务页面
  3. 尝试从存储节点重新启动 Cassandra :
    1. 登录到网格节点:
      1. 输入以下命令: SSH admin@grid_node_IP
      2. 输入 Passwords.txt 文件中列出的密码。
      3. 输入以下命令切换到 root : su -
      4. 输入 Passwords.txt 文件中列出的密码。
      以 root 用户身份登录时,提示符将从 $ 更 改为 #
    2. 输入: /etc/init.d/cassandra status
    3. 如果 Cassandra 未运行,请重新启动它: /etc/init.d/cassandra restart
  4. 如果 Cassandra 未重新启动,请确定 Cassandra 已关闭多长时间。如果 Cassandra 已关闭超过 15 天,则必须重建 Cassandra 数据库。
    注意: 如果两个或更多 Cassandra 数据库服务已关闭,请联系技术支持,不要继续执行以下步骤。

    您可以通过绘制 Cassandra 图表或查看 servermanager.log 文件来确定 Cassandra 已关闭多长时间。

  5. 绘制 Cassandra 图表:
    1. 选择 Support > Grid Topology 然后选择 site > Storage Node > SSM > Services > Reports > Charts
    2. 选择Attribute > Service: Status - Cassandra
    3. 对于 Start Date,输入至少早于当前日期 16 天的日期。对于 End Date,输入当前日期。
    4. 单击 Update
    5. 如果图表显示 Cassandra 关闭超过 15 天,请重建 Cassandra 数据库。
    以下图表示例显示 Cassandra 已关闭至少 17 天。

    概述: SSM :服务页面
  6. 要查看 servermanager.log 存储节点上的文件,请执行以下操作:
    1. 登录到网格节点:
      1. 输入以下命令: SSH admin@grid_node_IP
      2. 输入 Passwords.txt 文件中列出的密码。
      3. 输入以下命令切换到 root : su -
      4. 输入 Passwords.txt 文件中列出的密码。
      以 root 用户身份登录时,提示符将从 $ 更 改为 #
    2. 输入: cat /var/local/log/servermanager.log
      servermanager.log 此时将显示文件的内容。
      如果 Cassandra 已关闭超过 15 天, servermanager.log 则文件中将显示以下消息:
      "2014-08-14 21:01:35 +0000 | cassandra | cassandra not 
      started because it has been offline for longer than 
      its 15 day grace period - rebuild cassandra
    3. 确保此消息的时间戳是您按照步骤 3 中的说明尝试重新启动 Cassandra 的时间。
      Cassandra 可以有多个条目;您必须找到最新的条目。
    4. 如果 Cassandra 已关闭超过 15 天,则必须重建 Cassandra 数据库。
      有关说明,请参见 恢复和维护说明中的从单个存储节点恢复 15 天以上的故障。
    5. 如果重建 Cassandra 后无法清除警报,请联系技术支持。