TR-4886:Edge的AI推斷-採用Lenovo ThinkSystem的NetApp解決方案設計
Sathish Thyagarajan、NetApp Miroslav Hodak、聯想
本文件說明運算與儲存架構、可在符合新興應用程式案例的邊緣環境中、於NetApp儲存控制器和Lenovo ThinkSystem伺服器上部署GPU型人工智慧(AI)。
摘要
許多新興的應用程式案例(例如進階驅動程式輔助系統(ADAS)、Industry 4.0、智慧城市和物聯網(IoT))、都需要在接近零延遲的情況下處理持續的資料流。本文件說明運算與儲存架構、可在符合這些需求的邊緣環境中、於NetApp儲存控制器和Lenovo ThinkSystem伺服器上部署GPU型人工智慧(AI)提示。本文件也提供業界標準MLPerf推斷基準測試的效能資料、以評估配備NVIDIA T4 GPU之邊際伺服器上的各種推斷工作。我們會調查離線、單一串流和多重串流推斷案例的效能、並顯示採用具成本效益的共享網路儲存系統的架構具有高效能、可為多個邊緣伺服器提供資料和模型管理的集中點。
簡介
公司越來越多地在網路邊緣產生大量資料。為了從智慧型感應器和IoT資料中獲得最大價值、企業組織正在尋求能夠實現邊緣運算的即時事件串流解決方案。因此、運算需求嚴苛的工作會越來越多地在資料中心以外的邊緣執行。AI推斷是這種趨勢的驅動因素之一。邊緣伺服器可為這些工作負載提供足夠的運算能力、尤其是在使用加速器時、但有限的儲存設備通常是個問題、尤其是在多伺服器環境中。在本文件中、我們將說明如何在邊緣環境中部署共享儲存系統、以及它如何在不影響效能的情況下、為AI推斷工作負載帶來好處。
本文件說明邊緣AI推斷的參考架構。它結合多部Lenovo ThinkSystem邊緣伺服器與NetApp儲存系統、打造易於部署和管理的解決方案。本指南旨在作為在各種情況下實際部署的基礎指南、例如裝有多部攝影機和工業感測器的工廠場地、零售交易中的銷售點(POS)系統、或是能識別自主車輛視覺異常狀況的全自駕(FSD)系統。
本文件涵蓋由Lenovo ThinkSystem SE350 Edge Server和入門級NetApp AFF 支援中心與EF系列儲存系統所組成之運算與儲存組態的測試與驗證。參考架構為AI部署提供高效率且具成本效益的解決方案、同時也提供全方位的資料服務、整合式資料保護、無縫擴充性、以及採用NetApp ONTAP 功能與NetApp SANtricity 功能的NetApp資料管理軟體所提供的雲端連線資料儲存設備。
目標對象
本文適用於下列對象:
-
想要將邊緣AI產品化的企業領導者和企業架構設計師。
-
資料科學家、資料工程師、AI /機器學習(ML)研究人員、以及AI系統開發人員。
-
設計解決方案以開發AI/ML模型和應用程式的企業架構設計師。
-
資料科學家和AI工程師正在尋求有效方法來部署深度學習(DL)和ML模型。
-
負責部署及管理Edge推斷模型的Edge裝置管理員和Edge Server管理員。
解決方案架構
這款Lenovo ThinkSystem伺服ONTAP 器和NetApp的可靠性或NetApp SANtricity 的不二之選儲存解決方案、是專為處理大型資料集的AI推斷、使用GPU的處理能力、以及傳統的CPU。這項驗證可展現高效能與最佳資料管理、其架構使用單一或多部Lenovo SR350邊緣伺服器、並與單AFF 一NetApp效益儲存系統互連、如下圖所示。
下圖中的邏輯架構總覽顯示此架構中運算和儲存元素的角色。具體而言、它顯示下列內容:
-
邊緣運算裝置會對從攝影機、感應器等接收的資料執行推斷。
-
一種共享儲存元件、可滿足多種用途:
-
為執行推斷所需的推斷模型及其他資料提供集中位置。運算伺服器可直接存取儲存設備、並在整個網路上使用推斷模型、而不需要在本機複製。
-
更新的機型將在此推播。
-
歸檔邊緣伺服器接收的輸入資料、以供日後分析。例如、如果邊緣裝置連接至攝影機、儲存元件會保留攝影機拍攝的影片。
-
紅色 |
藍色 |
聯想運算系統 |
NetApp AFF 產品儲存系統 |
邊緣裝置會對來自攝影機、感應器等的輸入執行推斷。 |
共享儲存設備、保留來自邊緣裝置的推斷模型和資料、以供日後分析。 |
此NetApp與Lenovo解決方案提供下列主要效益:
-
GPU加速邊緣運算。
-
部署多部邊緣伺服器、從共享儲存設備進行備份與管理。
-
強大的資料保護功能、可滿足低恢復點目標(RPO)和恢復時間目標(RTO)、而且不會遺失資料。
-
利用NetApp Snapshot複本與複製技術來最佳化資料管理、以簡化開發工作流程。
如何使用此架構
本文件驗證所建議架構的設計與效能。不過、我們尚未測試某些軟體層級的元件、例如容器、工作負載、或模型管理、以及與內部部署的雲端或資料中心的資料同步、因為它們是針對部署案例而設計。這裡有多種選擇。
在容器管理層級、Kubernetes Container管理是一個不錯的選擇、無論是完整上游版本(Canonical)或是適合企業部署的修改版本(Red Hat)、都能獲得良好支援。。 "NetApp AI Control Plane" 使用NetApp Trident和新增的 "NetApp DataOps工具套件" 提供內建的可追蹤性、資料管理功能、介面和工具、讓資料科學家和資料工程師能夠與NetApp儲存設備整合。Kubernetes的ML工具套件Kubefflow提供額外的AI功能、並支援TensorFlow服務或NVIDIA Triton Inference伺服器等多種平台上的模型版本設定和KFServing。另一個選項是NVIDIA EGX平台、可提供工作負載管理功能、並可存取支援GPU的AI推斷容器目錄。不過、這些選項可能需要投入大量心力和專業知識才能投入生產、而且可能需要協力廠商獨立軟體廠商(ISV)或顧問的協助。
解決方案領域
AI推斷和邊緣運算的主要優點在於、裝置能夠以高品質、無延遲的方式來運算、處理及分析資料。本文件中有太多邊緣運算使用案例可說明、但以下是幾個主要案例:
汽車:自主車輛
典型的邊緣運算圖示為自動車輛(AV)的進階駕駛輔助系統(ADAS)。無磁碟汽車的AI必須迅速處理來自攝影機和感應器的大量資料、才能成為成功的安全駕駛者。在物件與人之間解讀太久可能意味著生命或死亡、因此盡可能將資料處理在車輛附近是非常重要的。在此情況下、一或多個邊緣運算伺服器會處理來自攝影機、雷達、LIDAR及其他感應器的輸入、而共享儲存設備則會保留推斷模型、並儲存來自感應器的輸入資料。
醫療:病患監控
AI和邊緣運算最大的影響之一、就是能夠強化對在家中照護和深切治療單位(ICU)長期病患的持續監控能力。來自監測胰島素水平、呼吸、神經活動、心臟心律和腸胃功能的邊際裝置的資料、需要即時分析資料、但必須立即採取行動、因為行動的時間有限、無法拯救某人的生命。
零售:無收銀員付款
邊緣運算可以推動AI和ML、協助零售商縮短結帳時間、並增加腳步流量。無收銀機系統支援各種元件、例如:
-
驗證與存取:將實體購物者連線至已驗證的帳戶、並允許存取零售空間。
-
庫存監控:使用感測器、RFID標籤和電腦視覺系統、協助確認購物者選擇或取消選擇商品。
在這裡、每個邊緣伺服器都會處理每個結帳櫃位、而共享儲存系統則是中央同步點。
金融服務:資訊站的人類安全與防範詐騙
銀行組織正使用AI和邊緣運算技術來創新及創造個人化的銀行體驗。互動式資訊站使用即時資料分析和AI推斷功能、現在可讓ATM不僅協助客戶提領資金、還能透過從攝影機擷取的影像主動監控資訊站、以識別人類安全或詐騙行為的風險。在此案例中、邊緣運算伺服器和共享儲存系統會連線至互動式多媒體資訊站和攝影機、以AI推斷模式協助銀行收集和處理資料。
製造業:產業4.0
第四次產業革命(產業4.0)已經開始、也伴隨著智慧工廠和3D列印等新興趨勢。為了準備迎接資料導向的未來、我們整合了大型機器對機器(M2M)通訊與IoT、無需人為介入、即可提升自動化程度。製造業已高度自動化、加上AI功能、自然是長期趨勢的延續。AI可實現自動化作業、並藉由電腦願景和其他AI功能來實現自動化。您可以自動化品質控制、或是仰賴人的願景或決策來執行更快速分析工廠內組裝線路上的材料、以協助製造廠符合所需的ISO安全與品質管理標準。在此處、每部運算邊緣伺服器都會連接到監控製造流程的感測器陣列、並視需要將更新的推斷模型推送至共享儲存設備。
電信:除鏽偵測、塔式檢查及網路最佳化
電信產業使用電腦願景和AI技術來處理影像、這些影像會自動偵測出各種生生除、並識別含有侵蝕的電池塔、因此需要進一步檢查。近年來、利用無人機影像和AI模型來識別塔內的不同區域、以分析鐵鏽、表面碎裂和侵蝕。AI技術的需求持續成長、可有效檢查電信基礎架構和電池塔、定期評估是否有老化問題、並在需要時立即修復。
此外、電信領域的另一項新興使用案例是使用AI和ML演算法來預測資料流量模式、偵測具備5G功能的裝置、以及自動化及強化多重輸入和多重輸出(MIMU)能源管理。在無線塔上使用的是多重可擴充網路容量的MIMO-硬體、但也會增加能源成本。部署於行動站台的「MIMO睡眠模式」有多種ML模式、可預測無線電的有效使用、並有助於降低行動網路營運者(MNO)的能源消耗成本。AI推斷與邊緣運算解決方案可協助MNO減少資料中心來回傳輸的資料量、降低TCO、最佳化網路作業、並改善終端使用者的整體效能。