日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

コンピューティングノードの DIMM を交換します

寄稿者 netapp-amitha netapp-dbagwell このページの PDF をダウンロード

ノード全体を交換する代わりに、 NetApp HCI コンピューティングノード内の障害のある Dual Inline Memory Module ( DIMM )を交換することができます。

必要なもの
  • この手順を開始する前に、ネットアップサポートに連絡して交換用パーツを入手しておく必要があります。交換作業にはサポートが必要です。まだ行っていない場合は、にお問い合わせください "サポート"

  • ノードの電源をオフにするか再投入して NetApp セーフモードでノードをブートしてターミナルユーザインターフェイス( TUI )にアクセスする必要があるため、システムを停止することを検討しておきます。

この手順は、次のコンピューティングノードモデルに該当します。

  • H410C ノード。2U NetApp HCI シャーシに H410C ノードを挿入しておきます。

  • H610C ノード:H610C ノードはシャーシに組み込まれています。

  • H615C ノード:H615C ノードはシャーシに内蔵されています。

    重要 H410C ノードと H615C ノードには、ベンダーの異なる DIMM が搭載されています。異なるベンダーの DIMM を 1 つのシャーシに混在させないようにします。
    注記 H610C および H615C では、ノードとシャーシが別々のコンポーネントではないため、「シャーシ」と「ノード」は同じ意味で使用されます。

コンピューティングノードの DIMM の交換手順は次のとおりです。

DIMM を交換する準備をします

DIMM に問題が発生すると、 VMware ESXi は「メモリ構成エラー」、「メモリ訂正不能 ECC 」、「重大への移行」、「メモリ重大な過熱」などのアラートを表示します。しばらくするとアラートが消えた場合でも、ハードウェアの問題が解決しないことがあります。障害が発生した DIMM の診断と対処を行う必要があります。障害のある DIMM に関する情報は vCenter Server から入手できます。vCenter Server で確認できる情報よりも多くの情報が必要な場合は、 TUI でハードウェアチェックを実行する必要があります。

手順
  1. エラーを記録したスロットを次のように特定します。

    1. H615C の場合は、次の手順を実行します。

      1. BMC UI にログインします。

      2. [ ログとレポート *>*IPMI イベントログ *] を選択します。

      3. イベントログで、メモリエラーを探し、エラーが記録されているスロットを特定します。

        に、の BMC UI で修正不可能なメモリエラーを示します H615C ノード
    2. H410C の場合は、次の手順を実行します。

      1. BMC UI にログインします。

      2. [ * サーバーの正常性 * > * 正常性イベントログ * ] を選択します。

      3. イベントログで、メモリエラーを探し、エラーが記録されているスロットを特定します。

        に、 H410C ノードの BMC UI のメモリエラーを示します。
  2. DIMM メーカーのパーツ番号を確認する手順を実行します。

    重要 H410C ノードと H615C ノードにはメーカーが異なる DIMM が搭載されています。同じシャーシ内に異なるタイプの DIMM を混在させないでください。障害が発生した DIMM のメーカーを特定し、同じタイプの交換用 DIMM を注文する必要があります。
    1. BMC にログインして、ノードでコンソールを起動します。

    2. キーボードの * F2 * を押して、 * システムのカスタマイズ / ログの表示 * メニューを表示します。

    3. プロンプトが表示されたら、パスワードを入力します。

      注記 このパスワードは、 NetApp HCI のセットアップ時に NetApp Deployment Engine で設定したパスワードと同じである必要があります。
    ノードのコンソールにログインするためのパスワードを入力するウィンドウが表示されます。
    1. [ システムのカスタマイズ ] メニューから下矢印を押して [ トラブルシューティングオプション ] に移動し、 Enter キーを押します。

      に、 [ システムのカスタマイズ ] メニューを示します。
    2. Troubleshooting Mode Options メニューから、上矢印または下矢印を使用して ESXi シェルおよび SSH を有効にします。これらは、デフォルトでは無効になっています。

    3. Esc> キーを 2 回押して、トラブルシューティングオプションを終了します。

    4. 次のいずれかのオプションを使用して 'biosDump' コマンドを実行します

      オプション 手順

      オプション A

      1. ホストの IP アドレスと定義したルートクレデンシャルを使用して、 ESXi ホスト(コンピューティングノード)に接続します。

      2. 「 biosDump 」コマンドを実行します。次の出力例を参照してください。

      `Memory Device:#30
      Location: "P1-DIMMA1"
      Bank: "P0_Node0_Channel0_Dimm0"
      Manufacturer:"Samsung"
      Serial: "38EB8380"
      Asset Tag: "P1-DIMMA1_AssetTag (date:18/15)"
      Part Number: "M393A4K40CB2-CTD"
      Memory Array: #29
      Form Factor: 0x09(DIMM)
      Type: 0x1a (DDR4)
      Type Detail: 0x0080 (Synchronous)
      Data Width: 64 bits (+8 ECC bits)
      Size: 32 GB`

      オプション B

      1. Alt + F1 * キーを押してシェルに入り、ノードにログインしてコマンドを実行します。

  3. 次の手順については、ネットアップサポートにお問い合わせください。ネットアップサポートでパーツの交換を処理するには、次の情報が必要です。

    • ノードのシリアル番号

    • クラスタ名

    • BMC UI からシステムイベントログの詳細を取得します

    • 「 biosDump 」コマンドの出力

シャーシから DIMM を交換します

シャーシ内の障害のある DIMM を物理的に取り外して交換する前に、すべての作業が完了していることを確認します "準備手順"

重要 DIMM は、取り外したスロットと同じスロットで交換する必要があります。
手順
  1. vCenter Server にログインしてノードにアクセスします。

  2. エラーを報告しているノードを右クリックし、ノードをメンテナンスモードにするオプションを選択します。

  3. 仮想マシン( VM )を使用可能な別のホストに移行します。

    注記 移行手順については、 VMware のドキュメントを参照してください。
  4. シャーシまたはノードの電源をオフにします。

    注記 H610C または H615C シャーシの場合は、シャーシの電源をオフにします。2U / 4 ノードシャーシに配置された H410C ノードでは、障害のある DIMM を搭載したノードの電源のみをオフにします。
  5. 電源ケーブルとネットワークケーブルを外し、ノードまたはシャーシをラックから慎重に引き出して、静電気防止処置を施した平らな場所に置きます。

    ヒント ケーブルにねじれタイを使用することを検討してください。
  6. シャーシカバーを開いて DIMM を交換する前に、静電気防止処置を施します。

  7. 使用しているノードモデルに関連する手順を実行します。

    ノードモデル 手順

    H410C

    1. 前の手順でメモしたスロット番号とマザーボードの番号を照合して、障害が発生した DIMM を特定します。マザーボード上の DIMM スロット番号を示すサンプルイメージを次に示します。

      に、 H410C ノードのマザーボード上の DIMM スロット番号を示します。
      に、 H410C ノードマザーボード上の DIMM スロット番号のクローズアップ図を示します。
    2. 2 つの固定クリップを外側に押し、 DIMM を慎重に引き上げます。保持クリップを示すサンプル画像を次に示します。

      に、 H410C ノードの DIMM の固定クリップを示します。
    3. 交換用 DIMM を正しく取り付けます。DIMM をスロットに正しく挿入すると、 2 つのクリップが所定の位置に固定されます。

      重要 DIMM の背面のみに触れてください。DIMM の他の部分を押すと、ハードウェアが破損する可能性があります。
    4. ノードを NetApp HCI シャーシに取り付けます。ノードを所定の位置にスライドさせたら、カチッという音がして固定されたことを確認します。

    H610C

    1. 次の図に示すように、カバーを持ち上げます。

      に、 H610C ノード上で持ち上げられたカバーを示します。
    2. ノード背面の 4 本の青色のロックネジを緩めます。2 本のロックネジの位置を示すサンプルイメージを次に示します。他の 2 本はノードの反対側にあります。

      に、 H610C ノードの背面にあるロックネジを示します。
    3. 両方の PCI カードダミーを取り外します。

    4. GPU とエアフローカバーを取り外します。

    5. 前の手順でメモしたスロット番号とマザーボードの番号を照合して、障害が発生した DIMM を特定します。以下は、マザーボード上の DIMM スロット番号の位置を示すサンプル画像です。

      に、 H610C マザーボード上の DIMM スロット番号を示します。
    6. 2 つの固定クリップを外側に押し、 DIMM を慎重に引き上げます。

    7. 交換用 DIMM を正しく取り付けます。DIMM をスロットに正しく挿入すると、 2 つのクリップが所定の位置に固定されます。

      重要 DIMM の背面のみに触れてください。DIMM の他の部分を押すと、ハードウェアが破損する可能性があります。
    8. 取り外したコンポーネント( GPU 、通気カバー、 PCI ダミー)をすべて交換します。

    9. ロックネジを締めます。

    10. カバーをノードに戻します。

    11. H610C シャーシをラックに設置して、シャーシを所定の位置にスライドさせたときにカチッと音がすることを確認します。

    H615C

    1. 次の図に示すように、カバーを持ち上げます。

      は、 H615C ノード上のカバーを持ち上げた状態を示しています。
    2. GPU ( H615C ノードに GPU が搭載されている場合)と通気カバーを取り外します。

      に、 H615C ノードから取り外した通気カバーを示します。
    3. 前の手順でメモしたスロット番号とマザーボードの番号を照合して、障害が発生した DIMM を特定します。以下は、マザーボード上の DIMM スロット番号の位置を示すサンプル画像です。

      に、 H615C マザーボード上の DIMM スロット番号を示します。
    4. 2 つの固定クリップを外側に押し、 DIMM を慎重に引き上げます。

    5. 交換用 DIMM を正しく取り付けます。DIMM をスロットに正しく挿入すると、 2 つのクリップが所定の位置に固定されます。

      重要 DIMM の背面のみに触れてください。DIMM の他の部分を押すと、ハードウェアが破損する可能性があります。
    6. エアーフローカバーを取り付けます。

    7. カバーをノードに戻します。

    8. H610C シャーシをラックに設置して、シャーシを所定の位置にスライドさせたときにカチッと音がすることを確認します。

  8. 電源ケーブルとネットワークケーブルを差し込みます。すべてのポートのライトが点灯していることを確認します。

  9. ノードの設置時に電源が自動的にオンにならない場合は、ノード前面の電源ボタンを押します。

  10. vSphere にノードが表示されたら、名前を右クリックして、ノードの保守モードを解除します。

  11. ハードウェア情報を次のように確認します。

    1. ベースボード管理コントローラ( BMC ) UI にログインします。

    2. [ システム ]>[ ハードウェア情報 *] を選択し、リストされている DIMM を確認します。

ノードが通常動作に戻ったら、 vCenter で [Summary] タブをチェックして、メモリ容量が期待どおりであることを確認します。

注記 DIMM が正しく取り付けられていないと、ノードは正常に動作しますが、メモリ容量は想定よりも少なくなります。
ヒント DIMM の交換手順が完了したら、 vCenter の Hardware Status タブで警告とエラーをクリアできます。これは、交換したハードウェアに関連するエラーの履歴を消去する場合に行います。 "詳細はこちら。"