解決策の概要
このアーキテクチャでは、 AI や機械学習( ML )の分散型トレーニングプロセスであるレーン検出において、最も演算負荷の高い部分に焦点が当てられています。車線検知は、自動運転で最も重要な作業の 1 つであり、車線区分線の位置を特定することで車両を誘導するのに役立ちます。車線標示などの静的コンポーネントは、車両を高速道路でインタラクティブかつ安全に走行させる。
畳み込みニューラルネットワーク( CNN )ベースのアプローチでは、シーンの理解とセグメント化が新たなレベルにまで押しつけられています。長い構造やリージョンが含まれているオブジェクト(ポール、車線の陰など)は適切に機能しませんが、空間的畳み込みニューラルネットワーク( SCNN )は、 CNN を豊かな空間レベルに一般化します。同一層のニューロン間で情報を伝播できるため、車線、ポール、トラックなどの構造化された物体(オ結論を含む)に最適です。この互換性は、空間情報を強化し、滑らかさと連続性を維持できるためです。
モデルがデータセット内のさまざまなコンポーネントを学習し、区別できるように、数千ものシーンイメージをシステムに挿入する必要があります。これらのイメージは天候、日中か夜、マルチレーンハイウェーの道および他の交通条件を含んでいる。
トレーニングには、質の高いデータと量のニーズがあります。1 つの GPU または複数の GPU でトレーニングを完了するには、数日から数週間かかることがあります。データ分散トレーニングは、マルチノードの GPU を複数使用することでプロセスを高速化できます。Horovod は、分散トレーニングを提供する一方で、 GPU のクラスタ間でデータを読み取ることは障害となる可能性があるフレームワークの 1 つです。Azure NetApp Files は、超高速、高スループット、一貫した低レイテンシを実現し、スケールアウト / スケールアップ機能を提供して、 GPU がコンピューティング容量の最適な値に活用されるようにします。当社の実験では、 SCNN を使用してレーン検出をトレーニングするために、クラスタ全体のすべての GPU が平均で 96% 以上使用されていることが確認されました。
対象読者
データサイエンスには、 IT とビジネスに関する複数の分野が組み込まれているため、ターゲットを絞ったオーディエンスには複数のペルソナが含まれます。
-
データサイエンティストは、選択したツールとライブラリを柔軟に使用する必要があります。
-
データエンジニアは、データフローの仕組みと、データが格納されている場所を把握する必要があります。
-
自動運転のユースケースエキスパート。
-
クラウド( Azure )リソースのセットアップと管理を担当するクラウド管理者およびアーキテクト。
-
DevOps エンジニアは、新しい AI / ML アプリケーションを継続的統合 / 継続的導入( CI / CD )パイプラインに統合するためのツールを必要としています。
-
ビジネスユーザは、 AI / ML アプリケーションにアクセスしたいと考えています。
このドキュメントでは、 Azure NetApp Files 、 Run : AI 、 Microsoft Azure の 3 つの役割がそれぞれビジネスにもたらす価値について説明します。
解決策テクノロジ
このセクションでは、 Azure クラウドで完全に稼働する規模の分散トレーニング解決策を実装することで、レーン検出のユースケースに必要なテクノロジについて説明します。次の図は、解決策アーキテクチャの概要を示しています。
この解決策で使用される要素は次のとおりです。
-
Azure Kubernetes Service ( AKS )
-
NVIDIA GPU を搭載した Azure コンピューティング SKU
-
Azure NetApp Files の特長
-
実行: AI
-
NetApp Trident
ここに記載されているすべての要素へのリンクをに示します "追加情報" セクション。
クラウドリソースとサービスの要件
次の表に、解決策の実装に必要なハードウェアコンポーネントを示します。解決策の実装で使用されるクラウドコンポーネントは、お客様の要件に応じて異なる場合があります。
クラウド | 数量 |
---|---|
AK |
少なくとも 3 つのシステムノードと 3 つの GPU ワーカーノードが必要です |
仮想マシン( VM ) SKU システムノード |
3 つの Standard_DS2_v2 |
VM SKU GPU ワーカーノード |
3 つの Standard_NC6s_v3 |
Azure NetApp Files の特長 |
4TB の標準ティア |
ソフトウェア要件
次の表に、解決策の実装に必要なソフトウェアコンポーネントを示します。解決策の実装で使用されるソフトウェアコンポーネントは、お客様の要件に応じて異なる場合があります。
ソフトウェア | バージョンまたはその他の情報 |
---|---|
AK - Kubernetes バージョン |
1.18.14 |
AI CLI を実行 |
v2.2.25 |
実行: AI Orchestration Kubernetes Operator バージョン |
1.0.109 |
ホロボド |
0.21.2 |
NetApp Trident |
20.01.1 |
Helm |
3.0.0 |