DIMM-AFF A700 と FAS9000 を交換してください
寄稿者
システムで登録される修正可能なエラー修正コード( ECC )の数が増え続けている場合は、コントローラモジュールの DIMM を交換する必要があります。そのままにしているとシステムがパニック状態になります。
システムのその他のコンポーネントがすべて正常に動作している必要があります。問題がある場合は、必ずテクニカルサポートにお問い合わせください。
障害が発生したコンポーネントは、プロバイダから受け取った交換用 FRU コンポーネントと交換する必要があります。
手順 1 :障害のあるコントローラをシャットダウンします
ストレージシステムのハードウェア構成に応じた手順を使用して、障害のあるコントローラをシャットダウンまたはテイクオーバーできます。
障害のあるコントローラをシャットダウンするには、コントローラのステータスを確認し、必要に応じて正常なコントローラが障害のあるコントローラストレージからデータを引き続き提供できるようにコントローラをテイクオーバーする必要があります。
-
NetApp Storage Encryptionを使用している場合は、の手順に従ってMSIDをリセットしておく必要があります "SEDを非保護モードに戻します"。
-
SANシステムを使用している場合は、イベントメッセージを確認しておく必要があります
cluster kernel-service show
)を参照してください。。cluster kernel-service show
コマンドは、ノード名、そのノードのクォーラムステータス、ノードの可用性ステータス、およびノードの動作ステータスを表示します。各 SCSI ブレードプロセスは、クラスタ内の他のノードとクォーラムを構成している必要があります。交換を進める前に、すべての問題を解決しておく必要があります。
-
ノードが 3 つ以上あるクラスタは、クォーラムを構成している必要があります。クラスタがクォーラムを構成していない場合、または正常なコントローラで適格性と正常性についてfalseと表示される場合は、障害のあるコントローラをシャットダウンする前に問題 を修正する必要があります。を参照してください "ノードをクラスタと同期します"。
-
AutoSupport が有効になっている場合は、 AutoSupport メッセージを呼び出してケースの自動作成を抑制します。「 system node AutoSupport invoke -node * -type all -message MAINT=number_OF_hours_downh
次のAutoSupport メッセージは、ケースの自動作成を2時間停止します。
cluster1:> system node autosupport invoke -node * -type all -message MAINT=2h
-
正常なコントローラのコンソールから自動ギブバックを無効にします。 storage failover modify – node local-auto-giveback false
自動ギブバックを無効にしますか?_と表示されたら’y’を入力します -
障害のあるコントローラに LOADER プロンプトを表示します。
障害のあるコントローラの表示 作業 LOADER プロンプト
コントローラモジュールの取り外しに進みます。
ギブバックを待っています
Ctrl キーを押しながら C キーを押し ' プロンプトが表示されたら y と入力します
システムプロンプトまたはパスワードプロンプト
正常なコントローラから障害のあるコントローラをテイクオーバーまたは停止します。「 storage failover takeover -ofnode impaired_node_name _
障害のあるコントローラに「 Waiting for giveback… 」と表示されたら、 Ctrl+C キーを押し、「 y 」と入力します。
障害のあるコントローラをシャットダウンするには、コントローラのステータスを確認し、必要に応じて正常なコントローラが障害のあるコントローラストレージからデータを引き続き提供できるようにコントローラをスイッチオーバーする必要があります。
-
NetApp Storage Encryption を使用している場合は、の「 FIPS ドライブまたは SED を非保護モードに戻す」セクションの手順に従って MSID をリセットしておく必要があります "CLI での NetApp Encryption の概要"。
-
正常なコントローラに電力を供給するために、この手順 の最後で電源装置をオンのままにしておく必要があります。
-
MetroCluster ステータスをチェックして、障害のあるコントローラが正常なコントローラに自動的にスイッチオーバーしたかどうかを確認します。「 MetroCluster show 」
-
自動スイッチオーバーが発生したかどうかに応じて、次の表に従って処理を進めます。
障害のあるコントローラの状況 作業 自動的にスイッチオーバーした
次の手順に進みます。
自動的にスイッチオーバーしていない
正常なコントローラから計画的なスイッチオーバー操作を実行します : MetroCluster switchover
スイッチオーバーは自動的には行われておらず、 MetroCluster switchover コマンドを使用してスイッチオーバーを試みたが、スイッチオーバーは拒否された
拒否メッセージを確認し、可能であれば問題を解決してやり直します。問題を解決できない場合は、テクニカルサポートにお問い合わせください。
-
サバイバークラスタから MetroCluster heal-phase aggregates コマンドを実行して、データアグリゲートを再同期します。
controller_A_1::> metrocluster heal -phase aggregates [Job 130] Job succeeded: Heal Aggregates is successful.
修復が拒否された場合は '-override-vetoes パラメータを指定して MetroCluster heal コマンドを再実行できますこのオプションパラメータを使用すると、修復処理を妨げるソフトな拒否はすべて無視されます。
-
MetroCluster operation show コマンドを使用して、処理が完了したことを確認します。
controller_A_1::> metrocluster operation show Operation: heal-aggregates State: successful Start Time: 7/25/2016 18:45:55 End Time: 7/25/2016 18:45:56 Errors: -
-
「 storage aggregate show 」コマンドを使用して、アグリゲートの状態を確認します。
controller_A_1::> storage aggregate show Aggregate Size Available Used% State #Vols Nodes RAID Status --------- -------- --------- ----- ------- ------ ---------------- ------------ ... aggr_b2 227.1GB 227.1GB 0% online 0 mcc1-a2 raid_dp, mirrored, normal...
-
「 MetroCluster heal-phase root-aggregates 」コマンドを使用して、ルートアグリゲートを修復します。
mcc1A::> metrocluster heal -phase root-aggregates [Job 137] Job succeeded: Heal Root Aggregates is successful
修復が拒否された場合は '-override-vetoes パラメータを指定して MetroCluster heal' コマンドを再実行できますこのオプションパラメータを使用すると、修復処理を妨げるソフトな拒否はすべて無視されます。
-
デスティネーションクラスタで「 MetroCluster operation show 」コマンドを使用して、修復処理が完了したことを確認します。
mcc1A::> metrocluster operation show Operation: heal-root-aggregates State: successful Start Time: 7/29/2016 20:54:41 End Time: 7/29/2016 20:54:42 Errors: -
-
障害のあるコントローラモジュールで、電源装置の接続を解除します。
手順 2 :コントローラモジュールを取り外す
コントローラ内部のコンポーネントにアクセスするには、まずコントローラモジュールをシステムから取り外し、続いてコントローラモジュールのカバーを外す必要があります。
-
接地対策がまだの場合は、自身で適切に実施します。
-
障害のあるコントローラモジュールからケーブルを外し、どのケーブルが何に接続されていたかを記録します。
-
カムハンドルのオレンジ色のボタンを下にスライドさせてロックを解除します。
カムハンドルのリリースボタン
カムハンドル
-
カムハンドルを回転させて、コントローラモジュールをシャーシから完全に外し、コントローラモジュールをシャーシから引き出します。
このとき、空いている手でコントローラモジュールの底面を支えてください。
-
コントローラモジュールのふた側を上にして、平らで安定した場所に置きます。カバーの青いボタンを押し、コントローラモジュールの背面にカバーをスライドさせてから、カバーを上に動かしてコントローラモジュールから外します。
コントローラモジュールのカバーの固定ボタン
手順 3 : DIMM を交換します
DIMM を交換するには、コントローラ内で DIMM の場所を確認し、特定の手順を実行します。
-
接地対策がまだの場合は、自身で適切に実施します。
-
コントローラモジュールで DIMM の場所を確認します。

-
DIMM の両側にある 2 つのツメをゆっくり押し開いて DIMM をスロットから外し、そのままスライドさせてスロットから取り出します。
DIMM 回路基板のコンポーネントに力が加わらないように、 DIMM の両端を慎重に持ちます。 DIMM のツメ
DIMM
-
交換用 DIMM を静電気防止用の梱包バッグから取り出し、 DIMM の端を持ってスロットに合わせます。
DIMM のピンの間にある切り欠きを、ソケットの突起と揃える必要があります。
-
コネクタにある DIMM のツメが開いた状態になっていることを確認し、 DIMM をスロットに対して垂直に挿入します。
DIMM のスロットへの挿入にはある程度の力が必要です。簡単に挿入できない場合は、 DIMM をスロットに正しく合わせてから再度挿入してください。
DIMM がスロットにまっすぐ差し込まれていることを目で確認してください。 -
DIMM の両端のノッチにツメがかかるまで、 DIMM の上部を慎重にしっかり押し込みます。
-
コントローラモジュールのカバーを閉じます。
手順 4 :コントローラを取り付ける
コンポーネントをコントローラモジュールに取り付けたら、コントローラモジュールをシステムシャーシに取り付け直してオペレーティングシステムをブートする必要があります。
2 台のコントローラモジュールを同じシャーシに搭載する HA ペアでは、シャーシへの設置が完了すると同時にリブートが試行されるため、コントローラモジュールの取り付け順序が特に重要です。
-
接地対策がまだの場合は、自身で適切に実施します。
-
コントローラモジュールのカバーをまだ取り付けていない場合は取り付けます。
-
コントローラモジュールの端をシャーシの開口部に合わせ、コントローラモジュールをシステムに半分までそっと押し込みます。
指示があるまでコントローラモジュールをシャーシに完全に挿入しないでください。 -
システムにアクセスして以降のセクションのタスクを実行できるように、管理ポートとコンソールポートのみをケーブル接続します。
残りのケーブルは、この手順の後半でコントローラモジュールに接続します。 -
コントローラモジュールの再取り付けを完了します。
-
ケーブルマネジメントデバイスをまだ取り付けていない場合は、取り付け直します。
-
コントローラモジュールをシャーシに挿入し、ミッドプレーンまでしっかりと押し込んで完全に装着します。
コントローラモジュールが完全に装着されると、ロックラッチが上がります。
コネクタの破損を防ぐため、コントローラモジュールをスライドしてシャーシに挿入する際に力を入れすぎないでください。
コントローラモジュールは、シャーシに完全に装着されるとすぐにブートを開始します。ブートプロセスを中断できるように準備しておきます。
-
ロックラッチを上に回転させてロックピンが外れるように傾け、ロックされるまで下げます。
-
「 Press Ctrl-C for Boot Menu 」 ( ブートメニューに Ctrl キーを押して C キーを押してください ) と表示されたら、 Ctrl+C キーを押して起動プロセスを中断します。
-
表示されたメニューからメンテナンスモードでブートするオプションを選択します。
-
手順 5 :システムレベルの診断を実行します
新しい DIMM を取り付けたら、診断を実行する必要があります。
システムレベルの診断を開始するには、システムに LOADER プロンプトが表示されている必要があります。
診断手順のコマンドは、すべてコンポーネントを交換するノードから実行します。
-
作業をするノードに LOADER プロンプトが表示されていない場合は、次の手順を実行します。
-
表示されたメニューからメンテナンスモードオプションを選択します。
-
ノードが保守モードでブートしたら ' ノードを停止します
コマンドを問題したら、システムが LOADER プロンプトで停止するまで待ちます。
起動プロセス中に 'y' をプロンプトに安全に応答できます -
HA 構成でメンテナンスモードに切り替えたときに表示される、正常なノードが停止したままであることの確認を求めるプロンプト。
-
-
-
LOADER プロンプトで、システムレベルの診断用に特別に設計されたドライバ「 boot_diags 」にアクセスします
ブート・プロセス中に 'Maintenance] モードのプロンプト( *> )が表示されるまで 'y とプロンプトを入力しても安全です
-
システムメモリの診断を実行します。 'lddiag device run -dev mem'
-
DIMM の交換が原因でハードウェアの問題が発生していないことを確認します。 'lddiag device status -dev mem-long-state failed
テストに失敗した場合は、プロンプトに戻ります。失敗した場合は、そのステータスがすべて表示されます。
-
前述の手順の結果に応じて、次に進みます。
システムレベルの診断のテスト結果 作業 は失敗なしで完了しました
-
ステータスログ「
diag device clearstatus
」を消去します -
ログがクリアされたことを確認します。「 diag device status 」
次のデフォルトの応答が表示されます。
_SLDIAG :ログメッセージがありません。 _
-
保守モードを終了します :halt
ノードに LOADER プロンプトが表示されます。
-
LOADER プロンプトからノードをブートします。 bye
-
ノードを通常動作に戻します。
HA ペア
ギブバックを実行します。「 storage failover giveback -ofnode replacement_node_name _
自動ギブバックを無効にした場合は、 storage failover modify コマンドを使用して再度有効にします。 2 ノード MetroCluster 構成
次の手順に進みます。
MetroCluster スイッチバック手順は、交換プロセスの次のタスクで実行します。
スタンドアロン構成です
次の手順に進みます。
対処は不要です。
これで、システムレベルの診断が完了しました。
テストが失敗しました
問題の原因を特定します。
-
保守モードを終了します :halt
コマンドを問題したら、システムが LOADER プロンプトで停止するまで待ちます。
-
シャーシ内のコントローラモジュールの数に応じて、電源装置をオフにするか、オンのままにします。
-
シャーシ内にコントローラモジュールが 2 つある場合は、他のコントローラモジュールに電力を供給するために、電源装置をオンのままにします。
-
シャーシ内にコントローラモジュールが 1 つしかない場合は、電源装置をオフにして電源から取り外します。
-
-
システムレベルの診断を実行するための考慮事項をすべて確認するとともに、ケーブルがしっかりと接続されているか、ハードウェアコンポーネントがストレージシステムに適切に取り付けられているかを確認します。
-
対象となるコントローラモジュールをブートし、ブートメニューを表示するよう求められたら Ctrl+C キーを押してブートを中断します。
-
シャーシ内にコントローラモジュールが 2 つある場合は、対象となるコントローラモジュールをシャーシに完全に取り付けます。
コントローラモジュールを完全に取り付けると、モジュールがブートします。
-
シャーシ内にコントローラモジュールが 1 つしかない場合は、電源装置を接続して電源をオンにします。
-
-
メニューから、メンテナンスモードでのブートを選択します。
-
次のコマンドを入力して保守モードを終了します :halt
コマンドを問題したら、システムが LOADER プロンプトで停止するまで待ちます。
-
システムレベルの診断テストを再実行します。
-
手順 6 : 2 ノード MetroCluster 構成のアグリゲートをスイッチバックする
2 ノード MetroCluster 構成で FRU の交換が完了したら、 MetroCluster スイッチバック処理を実行できます。これにより構成が通常の動作状態に戻ります。また、障害が発生していたサイトの同期元 Storage Virtual Machine ( SVM )がアクティブになり、ローカルディスクプールからデータを提供します。
このタスクでは、環境の 2 ノード MetroCluster 構成のみを実行します。
-
すべてのノードの状態が「 enabled 」であることを確認します。 MetroCluster node show
cluster_B::> metrocluster node show DR Configuration DR Group Cluster Node State Mirroring Mode ----- ------- -------------- -------------- --------- -------------------- 1 cluster_A controller_A_1 configured enabled heal roots completed cluster_B controller_B_1 configured enabled waiting for switchback recovery 2 entries were displayed.
-
すべての SVM で再同期が完了したことを確認します。「 MetroCluster vserver show 」
-
修復処理によって実行される LIF の自動移行が正常に完了したことを確認します。 MetroCluster check lif show
-
サバイバークラスタ内の任意のノードから MetroCluster switchback コマンドを使用して、スイッチバックを実行します。
-
スイッチバック処理が完了したことを確認します MetroCluster show
クラスタの状態が waiting-for-switchback の場合は、スイッチバック処理がまだ実行中です。
cluster_B::> metrocluster show Cluster Configuration State Mode -------------------- ------------------- --------- Local: cluster_B configured switchover Remote: cluster_A configured waiting-for-switchback
クラスタが「 normal 」状態のとき、スイッチバック処理は完了しています。
cluster_B::> metrocluster show Cluster Configuration State Mode -------------------- ------------------- --------- Local: cluster_B configured normal Remote: cluster_A configured normal
スイッチバックが完了するまでに時間がかかる場合は、「 MetroCluster config-replication resync-status show 」コマンドを使用することで、進行中のベースラインのステータスを確認できます。
-
SnapMirror 構成または SnapVault 構成があれば、再確立します。
手順 7 :障害が発生したパーツをネットアップに返却する
障害のある部品は、キットに付属する RMA 指示書に従ってネットアップに返却してください。を参照してください "パーツの返品と交換" 詳細については、を参照してください。