Skip to main content
日本語は機械翻訳による参考訳です。内容に矛盾や不一致があった場合には、英語の内容が優先されます。

NVIDIA SN2100 クラスタスイッチを交換する

共同作成者 netapp-yvonneo netapp-jolieg

クラスター ネットワーク内の故障したNVIDIA SN2100 スイッチを交換するには、次の手順に従ってください。これは非中断手順 (NDU) です。

要件の確認

既存のクラスタとネットワークインフラストラクチャ

次のことを確認してください。

  • 既存のクラスターは、少なくとも 1 つの完全接続されたクラスター スイッチを備え、完全に機能していることが検証されています。

  • すべてのクラスター ポートが稼働しています。

  • すべてのクラスタ論理インターフェイス (LIF) が起動しており、ホーム ポート上にあります。

  • ONTAP `cluster ping-cluster -node node1`コマンドは、すべてのパスで基本的な接続と PMTU より大きい通信が成功したことを示します。

NVIDIA SN2100 交換スイッチ

次のことを確認してください。

  • 交換スイッチ上の管理ネットワーク接続は機能しています。

  • 交換用スイッチへのコンソール アクセスが確立されています。

  • ノード接続はポート swp1 から swp14 です。

  • ポート swp15 および swp16 のすべての Inter-Switch Link (ISL) ポートが無効になっています。

  • 必要な参照構成ファイル (RCF) と Cumulus オペレーティング システム イメージ スイッチがスイッチにロードされます。

  • スイッチの初期カスタマイズが完了しました。

また、STP、SNMP、SSH などの以前のサイトのカスタマイズが新しいスイッチにコピーされていることを確認します。

メモ クラスタLIFを移行するコマンドは、そのクラスタLIFがホストされているノードで実行する必要があります。

コンソールログを有効にする

NetApp、使用しているデバイスでコンソール ログを有効にし、スイッチを交換するときに次のアクションを実行することを強くお勧めします。

スイッチを交換する

例について

この手順の例で使用するスイッチとノードの名前は次のとおりです。

  • 既存のNVIDIA SN2100 スイッチの名前は sw1sw2 です。

  • 新しいNVIDIA SN2100 スイッチの名前は nsw2 です。

  • ノード名は node1node2 です。

  • 各ノードのクラスター ポートの名前は e3ae3b です。

  • クラスター LIF 名は、node1 の場合は node1_clus1node1_clus2、node2 の場合は node2_clus1node2_clus2 です。

  • すべてのクラスタノードへの変更を求めるプロンプトは cluster1::*>

  • ブレイクアウト ポートの形式は、swp[ポート]s[ブレイクアウト ポート 0-3] です。たとえば、swp1 の 4 つのブレークアウト ポートは、swp1s0swp1s1swp1s2、および swp1s3 です。

クラスタネットワークトポロジについて

この手順は、次のクラスター ネットワーク トポロジに基づいています。

トポロジ例を表示
cluster1::*> network port show -ipspace Cluster

Node: node1
                                                                        Ignore
                                                  Speed(Mbps)  Health   Health
Port      IPspace      Broadcast Domain Link MTU  Admin/Oper   Status   Status
--------- ------------ ---------------- ---- ---- ------------ -------- ------
e3a       Cluster      Cluster          up   9000  auto/100000 healthy  false
e3b       Cluster      Cluster          up   9000  auto/100000 healthy  false

Node: node2
                                                                        Ignore
                                                  Speed(Mbps)  Health   Health
Port      IPspace      Broadcast Domain Link MTU  Admin/Oper   Status   Status
--------- ------------ ---------------- ---- ---- ------------ -------- ------
e3a       Cluster      Cluster          up   9000  auto/100000 healthy  false
e3b       Cluster      Cluster          up   9000  auto/100000 healthy  false


cluster1::*> network interface show -vserver Cluster

            Logical    Status     Network            Current       Current Is
Vserver     Interface  Admin/Oper Address/Mask       Node          Port    Home
----------- ---------- ---------- ------------------ ------------- ------- ----
Cluster
            node1_clus1  up/up    169.254.209.69/16  node1         e3a     true
            node1_clus2  up/up    169.254.49.125/16  node1         e3b     true
            node2_clus1  up/up    169.254.47.194/16  node2         e3a     true
            node2_clus2  up/up    169.254.19.183/16  node2         e3b     true


cluster1::*> network device-discovery show -protocol lldp
Node/       Local  Discovered
Protocol    Port   Device (LLDP: ChassisID)  Interface     Platform
----------- ------ ------------------------- ------------  ----------------
node1      /lldp
            e3a    sw1 (b8:ce:f6:19:1a:7e)   swp3          -
            e3b    sw2 (b8:ce:f6:19:1b:96)   swp3          -
node2      /lldp
            e3a    sw1 (b8:ce:f6:19:1a:7e)   swp4          -
            e3b    sw2 (b8:ce:f6:19:1b:96)   swp4          -

+

cumulus@sw1:~$ net show lldp

LocalPort  Speed  Mode        RemoteHost         RemotePort
---------  -----  ----------  -----------------  -----------
swp3       100G   Trunk/L2    sw2                e3a
swp4       100G   Trunk/L2    sw2                e3a
swp15      100G   BondMember  sw2                swp15
swp16      100G   BondMember  sw2                swp16


cumulus@sw2:~$ net show lldp

LocalPort  Speed  Mode        RemoteHost         RemotePort
---------  -----  ----------  -----------------  -----------
swp3       100G   Trunk/L2    sw1                e3b
swp4       100G   Trunk/L2    sw1                e3b
swp15      100G   BondMember  sw1                swp15
swp16      100G   BondMember  sw1                swp16

ステップ1: 交換の準備

  1. このクラスタでAutoSupportが有効になっている場合は、AutoSupportメッセージを呼び出してケースの自動作成を抑制します。

    system node autosupport invoke -node * -type all -message MAINT=xh

    ここで、x はメンテナンス ウィンドウの期間 (時間単位) です。

  2. 続行するかどうかを尋ねられたら y と入力して、権限レベルを「advanced」に変更します。

    set -privilege advanced

    advancedのプロンプト(*>)が表示されます。

  3. 適切なRCFとイメージをスイッチnsw2にインストールし、必要なサイトの準備を行います。

    必要に応じて、新しいスイッチに適したバージョンの RCF および Cumulus ソフトウェアを確認し、ダウンロードしてインストールします。

    1. クラスター スイッチに適した Cumulus ソフトウェアは、NVIDIA サポート サイトからダウンロードできます。ダウンロード ページの手順に従って、インストールするONTAPソフトウェアのバージョンに応じた Cumulus Linux をダウンロードします。

    2. 適切なRCFは、"NVIDIA クラスターおよびストレージ スイッチ"ページ。[Download]ページの手順に従って、インストールするONTAPソフトウェアのバージョンに対応したRCFをダウンロードします。

ステップ2: ポートとケーブルを構成する

キュムラス・リナックス 4.4.3
  1. 新しいスイッチ nsw2 で、管理者としてログインし、ノード クラスタ インターフェイスに接続されるすべてのポート (ポート swp1 ~ swp14) をシャットダウンします。

    クラスタ ノードのLIFは、各ノードのもう一方のクラスタ ポートにすでにフェイルオーバーされている必要があります。

    cumulus@nsw2:~$ net add interface swp1s0-3, swp2s0-3, swp3-14 link down
    cumulus@nsw2:~$ net pending
    cumulus@nsw2:~$ net commit
  2. クラスタ LIF の自動復帰を無効にします。

    network interface modify -vserver Cluster -lif * -auto-revert false

    cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false
    
    Warning: Disabling the auto-revert feature of the cluster logical interface may effect the availability of your cluster network. Are you sure you want to continue? {y|n}: y
  3. すべてのクラスタ LIF で自動復帰が無効になっていることを確認します。

    net interface show -vserver Cluster -fields auto-revert

  4. SN2100 スイッチ sw1 の ISL ポート swp15 と swp16 をシャットダウンします。

    cumulus@sw1:~$ net add interface swp15-16 link down
    cumulus@sw1:~$ net pending
    cumulus@sw1:~$ net commit
  5. SN2100 sw1 スイッチからすべてのケーブルを取り外し、それらを SN2100 nsw2 スイッチの同じポートに接続します。

  6. sw1 スイッチと nsw2 スイッチ間の ISL ポート swp15 と swp16 を起動します。

    次のコマンドは、スイッチ sw1 上の ISL ポート swp15 と swp16 を有効にします。

    cumulus@sw1:~$ net del interface swp15-16 link down
    cumulus@sw1:~$ net pending
    cumulus@sw1:~$ net commit

    次の例は、スイッチ sw1 で ISL ポートが起動していることを示しています。

    cumulus@sw1:~$ net show interface
    
    State  Name         Spd   MTU    Mode        LLDP           Summary
    -----  -----------  ----  -----  ----------  -------------- ----------------------
    ...
    ...
    UP     swp15        100G  9216   BondMember  nsw2 (swp15)   Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  nsw2 (swp16)   Master: cluster_isl(UP)

    次の例は、スイッチ nsw2 で ISL ポートが起動していることを示しています。

    cumulus@nsw2:~$ net show interface
    
    State  Name         Spd   MTU    Mode        LLDP           Summary
    -----  -----------  ----  -----  ----------  -------------  -----------------------
    ...
    ...
    UP     swp15        100G  9216   BondMember  sw1 (swp15)    Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  sw1 (swp16)    Master: cluster_isl(UP)
  7. ポートを確認する `e3b`すべてのノードで起動します:

    network port show -ipspace Cluster

    次のような出力が表示されます。

    cluster1::*> network port show -ipspace Cluster
    
    Node: node1
                                                                             Ignore
                                                       Speed(Mbps)  Health   Health
    Port      IPspace      Broadcast Domain Link MTU   Admin/Oper   Status   Status
    --------- ------------ ---------------- ---- ----- ------------ -------- -------
    e3a       Cluster      Cluster          up   9000  auto/100000  healthy  false
    e3b       Cluster      Cluster          up   9000  auto/100000  healthy  false
    
    
    Node: node2
                                                                             Ignore
                                                       Speed(Mbps) Health    Health
    Port      IPspace      Broadcast Domain Link MTU   Admin/Oper  Status    Status
    --------- ------------ ---------------- ---- ----- ----------- --------- -------
    e3a       Cluster      Cluster          up   9000  auto/100000  healthy  false
    e3b       Cluster      Cluster          up   9000  auto/100000  healthy  false
  8. 各ノード上のクラスター ポートは、ノードの観点から見ると、次のようにクラスター スイッチに接続されます。

    cluster1::*> network device-discovery show -protocol lldp
    Node/       Local  Discovered
    Protocol    Port   Device (LLDP: ChassisID)  Interface     Platform
    ----------- ------ ------------------------- ------------  ----------------
    node1      /lldp
                e3a    sw1  (b8:ce:f6:19:1a:7e)   swp3          -
                e3b    nsw2 (b8:ce:f6:19:1b:b6)   swp3          -
    node2      /lldp
                e3a    sw1  (b8:ce:f6:19:1a:7e)   swp4          -
                e3b    nsw2 (b8:ce:f6:19:1b:b6)   swp4          -
  9. すべてのノード クラスタ ポートが稼働していることを確認します。

    net show interface

    cumulus@nsw2:~$ net show interface
    
    State  Name         Spd   MTU    Mode        LLDP              Summary
    -----  -----------  ----  -----  ----------  ----------------- ----------------------
    ...
    ...
    UP     swp3         100G  9216   Trunk/L2                      Master: bridge(UP)
    UP     swp4         100G  9216   Trunk/L2                      Master: bridge(UP)
    UP     swp15        100G  9216   BondMember  sw1 (swp15)       Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  sw1 (swp16)       Master: cluster_isl(UP)
  10. 両方のノードが各スイッチにそれぞれ 1 つの接続を持っていることを確認します。

    net show lldp

    次の例は、両方のスイッチの適切な結果を示しています。

    cumulus@sw1:~$ net show lldp
    
    LocalPort  Speed  Mode        RemoteHost         RemotePort
    ---------  -----  ----------  -----------------  -----------
    swp3       100G   Trunk/L2    node1              e3a
    swp4       100G   Trunk/L2    node2              e3a
    swp15      100G   BondMember  nsw2               swp15
    swp16      100G   BondMember  nsw2               swp16
    
    
    cumulus@nsw2:~$ net show lldp
    
    LocalPort  Speed  Mode        RemoteHost         RemotePort
    ---------  -----  ----------  -----------------  -----------
    swp3       100G   Trunk/L2    node1                e3b
    swp4       100G   Trunk/L2    node2                e3b
    swp15      100G   BondMember  sw1                swp15
    swp16      100G   BondMember  sw1                swp16
  11. クラスタ LIF で自動復帰を有効にします。

    cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert true

  12. スイッチ nsw2 で、ノードのネットワーク ポートに接続されているポートを起動します。

    cumulus@nsw2:~$ net del interface swp1-14 link down
    cumulus@nsw2:~$ net pending
    cumulus@nsw2:~$ net commit
  13. クラスター内のノードに関する情報を表示します。

    cluster show

    この例では、このクラスター内の node1 と node2 のノード ヘルスが true であることを示しています。

    cluster1::*> cluster show
    
    Node          Health  Eligibility
    ------------- ------- ------------
    node1         true    true
    node2         true    true
  14. すべての物理クラスター ポートが稼働していることを確認します。

    network port show ipspace Cluster

    cluster1::*> network port show -ipspace Cluster
    
    Node node1                                                               Ignore
                                                        Speed(Mbps) Health   Health
    Port      IPspace     Broadcast Domain  Link  MTU   Admin/Oper  Status   Status
    --------- ----------- ----------------- ----- ----- ----------- -------- ------
    e3a       Cluster     Cluster           up    9000  auto/10000  healthy  false
    e3b       Cluster     Cluster           up    9000  auto/10000  healthy  false
    
    Node: node2
                                                                             Ignore
                                                        Speed(Mbps) Health   Health
    Port      IPspace      Broadcast Domain Link  MTU   Admin/Oper  Status   Status
    --------- ------------ ---------------- ----- ----- ----------- -------- ------
    e3a       Cluster      Cluster          up    9000  auto/10000  healthy  false
    e3b       Cluster      Cluster          up    9000  auto/10000  healthy  false
キュムラス Linux 5.x
  1. 新しいスイッチ nsw2 で、管理者としてログインし、ノード クラスタ インターフェイスに接続されるすべてのポート (ポート swp1 ~ swp14) をシャットダウンします。

    クラスタ ノードのLIFは、各ノードのもう一方のクラスタ ポートにすでにフェイルオーバーされている必要があります。

    cumulus@nsw2:~$ nv set interface swp15-16 link state down
    cumulus@nsw2:~$ nv config apply
  2. クラスタ LIF の自動復帰を無効にします。

    network interface modify -vserver Cluster -lif * -auto-revert false

    cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert false
    
    Warning: Disabling the auto-revert feature of the cluster logical interface may effect the availability of your cluster network. Are you sure you want to continue? {y|n}: y
  3. すべてのクラスタ LIF で自動復帰が無効になっていることを確認します。

    network interface show -vserver Cluster -fields auto-revert

  4. SN2100 スイッチ sw1 の ISL ポート swp15 と swp16 をシャットダウンします。

    cumulus@sw1:~$ nv set interface swp15-16 link state down
    cumulus@sw1:~$ nv config apply
  5. SN2100 sw1 スイッチからすべてのケーブルを取り外し、それらを SN2100 nsw2 スイッチの同じポートに接続します。

  6. sw1 スイッチと nsw2 スイッチ間の ISL ポート swp15 と swp16 を起動します。

    次のコマンドは、スイッチ sw1 上の ISL ポート swp15 と swp16 を有効にします。

    cumulus@sw1:~$ nv set interface swp15-16 link state down
    cumulus@sw1:~$ nv config apply

    次の例は、スイッチ sw1 で ISL ポートが起動していることを示しています。

    cumulus@sw1:~$ nv show interface
    
    State  Name         Spd   MTU    Mode        LLDP           Summary
    -----  -----------  ----  -----  ----------  -------------- ----------------------
    ...
    ...
    UP     swp15        100G  9216   BondMember  nsw2 (swp15)   Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  nsw2 (swp16)   Master: cluster_isl(UP)

    次の例は、スイッチ nsw2 で ISL ポートが起動していることを示しています。

    cumulus@nsw2:~$ nv show interface
    
    State  Name         Spd   MTU    Mode        LLDP           Summary
    -----  -----------  ----  -----  ----------  -------------  -----------------------
    ...
    ...
    UP     swp15        100G  9216   BondMember  sw1 (swp15)    Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  sw1 (swp16)    Master: cluster_isl(UP)
  7. ポートを確認する `e3b`すべてのノードで起動します:

    network port show -ipspace Cluster

    次のような出力が表示されます。

    cluster1::*> network port show -ipspace Cluster
    
    Node: node1
                                                                             Ignore
                                                       Speed(Mbps)  Health   Health
    Port      IPspace      Broadcast Domain Link MTU   Admin/Oper   Status   Status
    --------- ------------ ---------------- ---- ----- ------------ -------- -------
    e3a       Cluster      Cluster          up   9000  auto/100000  healthy  false
    e3b       Cluster      Cluster          up   9000  auto/100000  healthy  false
    
    
    Node: node2
                                                                             Ignore
                                                       Speed(Mbps) Health    Health
    Port      IPspace      Broadcast Domain Link MTU   Admin/Oper  Status    Status
    --------- ------------ ---------------- ---- ----- ----------- --------- -------
    e3a       Cluster      Cluster          up   9000  auto/100000  healthy  false
    e3b       Cluster      Cluster          up   9000  auto/100000  healthy  false
  8. 各ノード上のクラスター ポートは、ノードの観点から見ると、次のようにクラスター スイッチに接続されます。

    cluster1::*> network device-discovery show -protocol lldp
    Node/       Local  Discovered
    Protocol    Port   Device (LLDP: ChassisID)  Interface     Platform
    ----------- ------ ------------------------- ------------  ----------------
    node1      /lldp
                e3a    sw1  (b8:ce:f6:19:1a:7e)   swp3          -
                e3b    nsw2 (b8:ce:f6:19:1b:b6)   swp3          -
    node2      /lldp
                e3a    sw1  (b8:ce:f6:19:1a:7e)   swp4          -
                e3b    nsw2 (b8:ce:f6:19:1b:b6)   swp4          -
  9. すべてのノード クラスタ ポートが稼働していることを確認します。

    nv show interface

    cumulus@nsw2:~$ nv show interface
    
    State  Name         Spd   MTU    Mode        LLDP              Summary
    -----  -----------  ----  -----  ----------  ----------------- ----------------------
    ...
    ...
    UP     swp3         100G  9216   Trunk/L2                      Master: bridge(UP)
    UP     swp4         100G  9216   Trunk/L2                      Master: bridge(UP)
    UP     swp15        100G  9216   BondMember  sw1 (swp15)       Master: cluster_isl(UP)
    UP     swp16        100G  9216   BondMember  sw1 (swp16)       Master: cluster_isl(UP)
  10. 両方のノードが各スイッチにそれぞれ 1 つの接続を持っていることを確認します。

    nv show interface lldp

    次の例は、両方のスイッチの適切な結果を示しています。

    cumulus@sw1:~$ nv show interface lldp
    
    LocalPort  Speed  Mode        RemoteHost         RemotePort
    ---------  -----  ----------  -----------------  -----------
    swp3       100G   Trunk/L2    node1              e3a
    swp4       100G   Trunk/L2    node2              e3a
    swp15      100G   BondMember  nsw2               swp15
    swp16      100G   BondMember  nsw2               swp16
    
    
    cumulus@nsw2:~$ nv show interface lldp
    
    LocalPort  Speed  Mode        RemoteHost         RemotePort
    ---------  -----  ----------  -----------------  -----------
    swp3       100G   Trunk/L2    node1                e3b
    swp4       100G   Trunk/L2    node2                e3b
    swp15      100G   BondMember  sw1                swp15
    swp16      100G   BondMember  sw1                swp16
  11. クラスタ LIF で自動復帰を有効にします。

    cluster1::*> network interface modify -vserver Cluster -lif * -auto-revert true

  12. スイッチ nsw2 で、ノードのネットワーク ポートに接続されているポートを起動します。

    cumulus@nsw2:~$ nv set interface swp1-14 link state up
    cumulus@nsw2:~$ nv config apply
  13. クラスター内のノードに関する情報を表示します。

    cluster show

    この例では、このクラスター内の node1 と node2 のノード ヘルスが true であることを示しています。

    cluster1::*> cluster show
    
    Node          Health  Eligibility
    ------------- ------- ------------
    node1         true    true
    node2         true    true
  14. すべての物理クラスター ポートが稼働していることを確認します。

    network port show ipspace Cluster

    cluster1::*> network port show -ipspace Cluster
    
    Node node1                                                               Ignore
                                                        Speed(Mbps) Health   Health
    Port      IPspace     Broadcast Domain  Link  MTU   Admin/Oper  Status   Status
    --------- ----------- ----------------- ----- ----- ----------- -------- ------
    e3a       Cluster     Cluster           up    9000  auto/10000  healthy  false
    e3b       Cluster     Cluster           up    9000  auto/10000  healthy  false
    
    Node: node2
                                                                             Ignore
                                                        Speed(Mbps) Health   Health
    Port      IPspace      Broadcast Domain Link  MTU   Admin/Oper  Status   Status
    --------- ------------ ---------------- ----- ----- ----------- -------- ------
    e3a       Cluster      Cluster          up    9000  auto/10000  healthy  false
    e3b       Cluster      Cluster          up    9000  auto/10000  healthy  false

ステップ3: 構成を確認する

キュムラス・リナックス 4.4.3
  1. クラスター ネットワークが正常であることを確認します。

    cumulus@sw1:~$ net show lldp
    
    LocalPort  Speed  Mode        RemoteHost      RemotePort
    ---------  -----  ----------  --------------  -----------
    swp3       100G   Trunk/L2    node1           e3a
    swp4       100G   Trunk/L2    node2           e3a
    swp15      100G   BondMember  nsw2            swp15
    swp16      100G   BondMember  nsw2            swp16
キュムラス Linux 5.x
  1. クラスター ネットワークが正常であることを確認します。

    cumulus@sw1:~$ nv show interface lldp
    
    LocalPort  Speed  Mode        RemoteHost      RemotePort
    ---------  -----  ----------  --------------  -----------
    swp3       100G   Trunk/L2    node1           e3a
    swp4       100G   Trunk/L2    node2           e3a
    swp15      100G   BondMember  nsw2            swp15
    swp16      100G   BondMember  nsw2            swp16
  1. 権限レベルを管理者に戻します。

    set -privilege admin

  2. 自動ケース作成を抑制した場合は、 AutoSupportメッセージを呼び出して再度有効にします。

    system node autosupport invoke -node * -type all -message MAINT=END