Skip to main content
NetApp artificial intelligence solutions
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

技術概述

貢獻者 kevin-hoke

本節更詳細地介紹此解決方案的主要組件。

NetApp AFF系統

NetApp AFF儲存系統使企業能夠透過業界領先的效能、卓越的靈活性、雲端整合和一流的資料管理來滿足企業儲存需求。 AFF系統專為快閃記憶體設計,有助於加速、管理和保護關鍵業務資料。

該圖展示了NetApp AFF A400儲存控制器的正面。

該圖描繪了NetApp AFF A400儲存控制器的背面。

NetApp AFF A400是一款中階 NVMe 快閃儲存系統,具備以下功能:

  • 最大有效容量:~20PB

  • 最大橫向擴展:2-24 個節點(12 個 HA 對)

  • 25GbE 和 16Gb FC 主機支持

  • 透過融合乙太網路 (RoCE) 的 100GbE RDMA 連接到 NVMe 擴充儲存架

  • 如果未連接 NVMe 機架,則可使用 100GbE RoCE 連接埠進行主機網路連接

  • 全12Gbps SAS連接擴充儲存架

  • 有兩種配置可供選擇:

    • 乙太網路:4個25Gb乙太網路(SFP28)端口

    • 光纖通道:4x 16Gb FC(SFP+)端口

  • 100% 8KB 隨機讀取 @.4 毫秒 400k IOPS

NetApp AFF A250適用於入門級 AI/ML 部署的功能包括:

  • 最大有效容量:35PB

  • 最大橫向擴展:2-24 個節點(12 個 HA 對)

  • 440k IOPS 隨機讀取@1ms

  • 基於最新的NetApp ONTAP版本ONTAP 9.8 或更高版本

  • 兩個 25Gb 乙太網路端口,用於 HA 和群集互連

NetApp還提供其他儲存系統,例如AFF A800和AFF A700 ,它們為更大規模的 AI/ML 部署提供更高的效能和可擴充性。

NetApp ONTAP

ONTAP 9 是NetApp最新一代儲存管理軟體,它支援企業實現基礎架構現代化並過渡到雲端就緒資料中心。 ONTAP利用業界領先的數據管理功能,只需一套工具即可管理和保護數據,無論數據位於何處。資料還可以自由移動到任何需要的地方:邊緣、核心或雲端。 ONTAP 9 包含許多功能,可簡化資料管理、加速和保護關鍵資料以及跨混合雲架構的未來基礎架構。

簡化資料管理

資料管理對於企業 IT 營運至關重要,以便為應用程式和資料集使用適當的資源。 ONTAP包括以下功能,可簡化操作並降低整體營運成本:

  • *內聯資料壓縮和擴展重複資料刪除。 *資料壓縮減少了儲存區塊內部浪費的空間,重複資料刪除顯著增加了有效容量。這適用於本地儲存的資料和分層到雲端的資料。

  • *最小、最大和自適應服務品質 (QoS)。 *細粒度的 QoS 控制有助於在高度共享的環境中維持關鍵應用程式的效能水準。

  • * ONTAP FabricPool.*此功能可自動將冷資料分層到公有和私有雲端儲存選項,包括 Amazon Web Services (AWS)、Azure 和NetApp StorageGRID物件儲存。

加速並保護數據

ONTAP提供卓越等級的效能和資料保護,並透過以下方式擴展這些功能:

  • *性能和更低的延遲。 * ONTAP以盡可能低的延遲提供盡可能高的吞吐量。

  • 資料保護 ONTAP提供內建資料保護功能,並在所有平台上提供通用管理。

  • * NetApp磁碟區加密。 * ONTAP提供原生磁碟區級加密,並支援板載和外部金鑰管理。

面向未來的基礎設施

ONTAP 9 有助於滿足嚴苛且不斷變化的業務需求:

  • *無縫擴展和無中斷運行。 * ONTAP支援無中斷地向現有控制器以及橫向擴展叢集添加容量。客戶可以升級到最新技術,例如 NVMe 和 32Gb FC,而無需昂貴的資料遷移或中斷。

  • *雲端連線。 * ONTAP是與雲端連接最緊密的儲存管理軟體,在所有公有雲中均提供軟體定義儲存(ONTAP Select)和Google Cloud NetApp Volumes Volumes )的選項。

  • *與新興應用程式整合。 * ONTAP使用支援現有企業應用程式的相同基礎架構,為下一代平台和應用程式(如 OpenStack、Hadoop 和 MongoDB)提供企業級資料服務。

NetApp FlexGroup卷

訓練資料集通常是數十億個文件的集合。文件可以包括文字、音訊、視訊和其他形式的非結構化數據,這些數據必須儲存和處理才能並行讀取。儲存系統必須儲存許多小文件,並且必須並行讀取這些文件以實現順序和隨機 I/O。

FlexGroup磁碟區(下圖)是由多個組成成員磁碟區組成的單一命名空間,對儲存管理員而言,該磁碟區的管理方式和NetApp FlexVol volume類似。 FlexGroup卷中的檔案被指派給各個成員卷,並且不會跨卷或節點進行條帶化。它們支援以下功能:

  • 高達 20 PB 的容量和可預測的低延遲,適用於高元資料工作負載

  • 同一命名空間內最多可容納 4000 億個文件

  • 跨 CPU、節點、聚合體和組成FlexVol磁碟區的 NAS 工作負載的平行操作

該圖描繪了一對 HA 儲存控制器,其中包含FlexGroup內具有主檔案的多個磁碟區。

聯想 ThinkSystem 產品組合

聯想 ThinkSystem 伺服器採用創新的硬體、軟體和服務,可解決客戶當前面臨的挑戰,並提供革命性的、適合用途的模組化設計方法來應對未來的挑戰。這些伺服器利用一流的行業標準技術以及差異化的聯想創新,為 x86 伺服器提供最大的靈活性。

部署聯想 ThinkSystem 伺服器的主要優勢包括:

  • 高度可擴展的模組化設計,可隨著您的業務成長而成長

  • 業界領先的彈性,可節省數小時昂貴的計劃外停機時間

  • 快速快閃記憶體技術可實現更低的延遲、更快的回應時間和更智慧的即時資料管理

在人工智慧領域,聯想正在採取切實可行的方法來幫助企業了解並採用機器學習和人工智慧為其工作負載帶來的好處。聯想客戶可以在聯想人工智慧創新中心探索和評估聯想人工智慧產品,以充分了解其特定用例的價值。為了縮短價值實現時間,這種以客戶為中心的方法為客戶提供了可立即使用且針對 AI 進行最佳化的解決方案開發平台的概念驗證。

聯想SR670 V2

Lenovo ThinkSystem SR670 V2 機架式伺服器為加速 AI 和高效能運算 (HPC) 提供最佳效能。 SR670 V2 支援多達八個 GPU,適合 ML、DL 和推理的計算密集型工作負載要求。

此圖描繪了三種 SR670 配置。第一個顯示四個 SXM GPU,有八個 2.5 吋 HS 硬碟和 2 個 PCIe I/O 插槽。第二個顯示四個雙寬或八個單寬 GPU 插槽和兩個 PCIe I/O 插槽,帶有八個 2.5 吋或四個 3.5 吋 HS 硬碟。第三個顯示八個雙寬 GPU 插槽,其中有六個 EDSFF HS 驅動器和兩個 PCIe I/O 插槽。

ThinkSystem SR670 V2 配備支援高階 GPU(包括NVIDIA A100 80GB PCIe 8x GPU)的最新可擴充 Intel Xeon CPU,可為 AI 和 HPC 工作負載提供最佳化、加速的效能。

由於越來越多的工作負載需要使用加速器的效能,因此對 GPU 密度的需求也隨之增加。零售、金融服務、能源和醫療保健等行業正在使用 GPU 來獲取更深入的見解,並透過 ML、DL 和推理技術推動創新。

ThinkSystem SR670 V2 是一款最佳化的企業級解決方案,用於在生產中部署加速的 HPC 和 AI 工作負載,最大限度地提高系統效能,同時保持下一代平台超級運算叢集的資料中心密度。

其他功能包括:

  • 支援 GPU 直接 RDMA I/O,其中高速網路適配器直接連接到 GPU,以最大化 I/O 效能。

  • 支援 GPU 直接存儲,其中 NVMe 驅動器直接連接到 GPU,以最大限度地提高儲存效能。

MLPerf

MLPerf 是業界領先的評估 AI 效能的基準套件。在本次驗證中,我們將其影像分類基準與最受歡迎的 AI 框架之一 MXNet 一起使用。使用MXNet_benchmarks訓練腳本來驅動AI訓練。該腳本包含幾種流行的常規模型的實現,並且旨在盡可能快。它可以在單一機器上運行,也可以在多台主機上以分散式模式運行。