Skip to main content
NetApp artificial intelligence solutions
本繁體中文版使用機器翻譯,譯文僅供參考,若與英文版本牴觸,應以英文版本為準。

NetApp AIPod Mini - 利用NetApp和 Intel 進行企業 RAG 推理

貢獻者 Arpitamahajan01 kevin-hoke sathyaga

本文介紹了NetApp AIPod for Enterprise RAG 的經過驗證的參考設計,該設計採用了 Intel Xeon 6 處理器和NetApp資料管理解決方案的技術和組合功能。該解決方案演示了下游 ChatQnA 應用程式利用大型語言模型,為並髮用戶提供準確、上下文相關的回應。這些回應是透過隔離的 RAG 推理管道從組織的內部知識庫中檢索的。

英特爾標誌

Sathish Thyagarajan、Michael Oglesby、Arpita Mahajan、NetApp

執行摘要

越來越多的組織正在利用檢索增強生成(RAG)應用和大型語言模型(LLM)來解讀使用者提示並產生回應,從而提高生產力和業務價值。這些提示和回應可以包括文字、程式碼、圖像,甚至是治療性蛋白質結構,這些資訊可以從組織的內部知識庫、資料湖、程式碼庫和文件庫中檢索。本文介紹了 NetApp AIPod Mini 解決方案的參考設計,該方案包含 NetApp AFF 儲存和配備 Intel Xeon 6 處理器的伺服器。它包含 NetApp ONTAP 資料管理軟體,並結合了 Intel Advanced Matrix Extensions(Intel AMX)和基於 Open Platform for Enterprise AI(OPEA)建構的 Intel® AI for Enterprise RAG 軟體。NetApp AIPod Mini for enterprise RAG 使組織能夠將公共 LLM 增強為私有生成式人工智慧(GenAI)推理解決方案。此解決方案展示了高效且經濟的企業級 RAG 推理能力,旨在提高可靠性並讓您更好地控制您的專有資訊。

英特爾儲存合作夥伴驗證

搭載英特爾至強 6 處理器的伺服器專為處理要求苛刻的 AI 推理工作負載而設計,並使用英特爾 AMX 實現最佳效能。為了實現最佳的儲存效能和可擴展性,該解決方案已使用NetApp ONTAP成功驗證,使企業能夠滿足 RAG 應用程式的需求。該驗證是在配備 Intel Xeon 6 處理器的伺服器上進行的。英特爾和NetApp建立了強大的合作夥伴關係,致力於提供最佳化、可擴展且符合客戶業務需求的 AI 解決方案。

使用NetApp運行 RAG 系統的優勢

RAG 應用程式涉及從公司文件庫中檢索各種類型的知識,例如 PDF、文字、CSV 或 Excel 文件。這些資料通常儲存在 S3 物件儲存或本機 NFS 等解決方案中,作為資料來源。NetApp 一直是邊緣運算、資料中心和雲端生態系統中資料管理、資料移動性、資料治理和資料安全技術的領導者。NetApp ONTAP 資料管理提供企業級儲存,以支援各種類型的 AI 工作負載,包括批次和即時推理,並具有以下一些優勢:

  • 速度和可擴展性。您可以高速處理大型資料集以進行版本控制,並能夠獨立擴展效能和容量。

  • 數據存取。多協定支援允許客戶端應用程式使用 S3、NFS 和 SMB 檔案共用協定讀取資料。 ONTAP S3 NAS 儲存桶可以促進多模式 LLM 推理場景中的資料存取。

  • 可靠性和保密性。 ONTAP提供資料保護、內建NetApp自主勒索軟體保護 (ARP) 和動態儲存配置,並提供基於軟體和硬體的加密以增強機密性和安全性。 ONTAP 的所有 SSL 連線均符合 FIPS 140-2 標準。

目標受眾

本文檔適用於希望利用為提供企業 RAG 和 GenAI 解決方案而建構的基礎設施的 AI 決策者、資料工程師、業務領導者和部門主管。對 AI 推理、LLM、Kubernetes 以及網路及其元件的先前了解將有助於實施階段。

技術要求

硬體

Intel® AI 技術

使用 Xeon 6 作為主機 CPU,加速系統可受益於高單執行緒效能;更高的記憶體頻寬;更高的可靠性、可用性和可服務性 (RAS);以及更多的 I/O 通道。英特爾 AMX 加速了 INT8 和 BF16 的推理,並支援 FP16 訓練模型,INT8 每核每週期最多可進行 2,048 次浮點運算,BF16/FP16 每核每週期最多可進行 1,024 次浮點運算。要使用 Xeon 6 處理器部署 RAG 解決方案,通常建議至少使用 250GB 的 RAM 和 500GB 的磁碟空間。然而,這在很大程度上取決於 LLM 模型的大小。欲了解更多信息,請參閱英特爾 "Xeon 6處理器"產品簡介。

圖 1 - 搭載 Intel Xeon 6 處理器的運算伺服器300,300

NetApp AFF存儲

入門級和中級NetApp AFF A 系列系統提供更強大的效能、密度和更高的效率。 NetApp AFF A20、 AFF A30 和AFF A50 系統提供真正的統一存儲,支援區塊、檔案和對象,基於單一作業系統,可以以最低的成本在混合雲中無縫管理、保護和調動 RAG 應用程式的資料。

圖 2 - NetApp AFF A 系列系統。300,300

硬體 數量 評論

Intel Xeon 第 6 代(Granite Rapids)

2

RAG 推理節點-配備雙路 Intel Xeon 6900 系列(96 核心)或 Intel Xeon 6700 系列(64 核心)處理器,以及 250GB 至 3TB 的 DDR5(6400MHz)或 MRDIMM(8800MHz)記憶體。2U 伺服器。

帶有英特爾處理器的控制平面伺服器

1

Kubernetes 控制平面/1U 伺服器。

100Gb 乙太網路交換器的選擇

1

資料中心交換器。

NetApp AFF A20(或AFF A30; AFF A50)

1

最大儲存容量:9.3PB。注意:網路:10/25/100 GbE 連接埠。

為了驗證此參考設計,我們使用了 Supermicro 的 Intel Xeon 6 處理器伺服器(222HA-TN-OTO-37)和 Arista 的 100GbE 交換器(7280R3A)。

圖 3 - AIPod Mini 部署架構 300,300

軟體

企業AI開放平台

企業 AI 開放平台 (OPEA) 是由英特爾與生態系統合作夥伴共同主導的開源計畫。它提供了一個可組合構建塊的模組化平台,旨在加速尖端生成 AI 系統的開發,並專注於 RAG。 OPEA 包括一個綜合框架,該框架具有 LLM、資料儲存、提示引擎、RAG 架構藍圖以及基於效能、特性、可信度和企業準備度評估生成式 AI 系統的四步驟評估方法。

OPEA 的核心包括兩個關鍵部分:

  • GenAIComps:由微服務元件組成的基於服務的工具包

  • GenAIExamples:可立即部署的解決方案,例如 ChatQnA,可展示實際用例

有關詳細信息,請參閱 "OPEA專案文檔"

由 OPEA 支援的 Intel® AI for Enterprise RAG

OPEA for Intel® AI for Enterprise RAG 簡化了將企業資料轉化為可執行洞察的過程。它由 Intel Xeon 處理器驅動,並整合了來自行業合作夥伴的組件,從而提供了一種精簡的企業解決方案部署方法。它可與成熟的編排框架無縫擴展,為您的企業提供所需的靈活性和選擇。

基於 OPEA 的基礎,Intel® AI for Enterprise RAG 擴展了此基礎,並新增了多項關鍵功能,可提升擴充性、安全性和使用者體驗。這些功能包括服務網格功能,可與現代化服務型架構無縫整合、生產就緒驗證,可確保管線可靠性,以及功能豐富的 RAG 即服務 UI,可輕鬆管理和監控工作流程。此外,Intel 和合作夥伴支援可提供廣泛的解決方案生態系統存取權限,並結合整合式身分識別與存取管理(IAM)與 UI 和應用程式,以實現安全且合規的作業。可程式化的防護機制可對管線行為進行精細控制,以實現自訂的安全性和法規遵循設定。

NetApp ONTAP

NetApp ONTAP是 NetApp 關鍵資料儲存解決方案的基礎技術。 ONTAP包含各種資料管理和資料保護功能,例如針對網路攻擊的自動勒索軟體保護、內建資料傳輸功能和儲存效率功能。這些優勢適用於一系列架構,從本地到 NAS、SAN、物件和 LLM 部署的軟體定義儲存中的混合多雲。您可以在ONTAP叢集中使用ONTAP S3 物件儲存伺服器來部署 RAG 應用程序,從而利用透過授權使用者和客戶端應用程式提供的ONTAP的儲存效率和安全性。有關詳細信息,請參閱 "了解ONTAP S3 配置"

NetApp Trident

NetApp Trident軟體是一款開源且完全支援的儲存編排器,適用於容器和 Kubernetes 發行版,包括 Red Hat OpenShift。 Trident可與整個NetApp儲存產品組合搭配使用,包括NetApp ONTAP ,並且還支援 NFS 和 iSCSI 連線。有關詳細信息,請參閱 "Git 上的NetApp Trident"

軟體 版本 評論

OPEA - Intel® AI for Enterprise RAG

2.0

基於OPEA微服務的企業RAG平台

容器儲存介面(CSI驅動程式)

NetApp Trident 25.10

支援動態配置、 NetApp Snapshot 副本和磁碟區。

Ubuntu

22.04.5

雙節點叢集上的作業系統。

容器編排

Kubernetes 1.31.9(透過 Enterprise RAG 基礎架構 playbook 安裝)

運行 RAG 框架的環境

ONTAP

ONTAP 9.16.1P4 或更新版本

AFF A20 上的儲存作業系統。

解決方案部署

軟體堆疊

此解決方案部署在由基於 Intel Xeon 的應用節點組成的 Kubernetes 叢集上。至少需要三個節點才能實現 Kubernetes 控制平面的基本高可用性。我們使用以下叢集佈局驗證了該解決方案。

表 3 - Kubernetes 叢集佈局

節點 角色 數量

配備 Intel Xeon 6 處理器和 1TB RAM 的伺服器

應用節點、控制平面節點

2

通用伺服器

控制平面節點

1

下圖描述了該解決方案的「軟體堆疊視圖」。600,600

部署步驟

部署ONTAP儲存設備

部署並設定您的NetApp ONTAP儲存設備。請參閱 "ONTAP硬體系統文檔"了解詳情。

配置ONTAP SVM 以進行 NFS 和 S3 訪問

在 Kubernetes 節點可存取的網路上設定ONTAP儲存虛擬機器 (SVM) 以進行 NFS 和 S3 存取。

若要使用ONTAP系統管理員建立 SVM,請導覽至“儲存”>“儲存虛擬機器”,然後按一下“+ 新增”按鈕。為您的 SVM 啟用 S3 存取權時,請選擇使用外部 CA(憑證授權單位)簽署的證書,而不是系統產生的憑證。您可以使用自簽名憑證或由公眾信任的 CA 簽署的憑證。有關更多詳細信息,請參閱 "ONTAP文檔。"

以下螢幕截圖展示了使用ONTAP系統管理員建立 SVM 的過程。根據您的環境根據需要修改詳細資訊。

圖 5 - 使用 ONTAP System Manager 建立 SVM。600,600 600,600

配置 S3 權限

為您在上一個步驟中建立的 SVM 配置 S3 使用者/群組設定。確保您擁有對該 SVM 的所有 S3 API 操作具有完全存取權限的使用者。有關詳細信息,請參閱ONTAP S3 文件。

注意:Intel® AI for Enterprise RAG 應用程式的資料擷取服務需要此使用者。如果您使用 ONTAP System Manager 建立了 SVM,System Manager 會在您建立 SVM 時自動建立名為 `sm_s3_user`的使用者和一個名為 `FullAccess`的政策,但不會為 `sm_s3_user`指派任何權限。

若要編輯此使用者的權限,請導航至“儲存”>“儲存虛擬機器”,按一下您在上一個步驟中建立的 SVM 的名稱,按一下“設定”,然後按一下“S3”旁的鉛筆圖示。給予 `sm_s3_user`擁有所有 S3 API 操作的完全存取權限,建立一個關聯 `sm_s3_user`與 `FullAccess`策略如下面的螢幕截圖所示。

圖 6 - S3 權限。

600,600

建立 S3 儲存桶

在您先前建立的 SVM 內建立一個 S3 儲存桶。若要使用ONTAP系統管理員建立 SVM,請導航至“儲存”>“儲存桶”,然後按一下“+ 新增”按鈕。有關更多詳細信息,請參閱ONTAP S3 文件。

以下螢幕截圖展示了使用ONTAP系統管理員建立 S3 儲存桶的過程。

圖 7 - 建立 S3 儲存區。600,600

配置 S3 儲存桶權限

為您在上一個步驟中建立的 S3 儲存桶配置權限。確保您在上一個步驟中配置的使用者俱有以下權限: GetObject, PutObject, DeleteObject, ListBucket, GetBucketAcl, GetObjectAcl, ListBucketMultipartUploads, ListMultipartUploadParts, GetObjectTagging, PutObjectTagging, DeleteObjectTagging, GetBucketLocation, GetBucketVersioning, PutBucketVersioning, ListBucketVersions, GetBucketPolicy, PutBucketPolicy, DeleteBucketPolicy, PutLifecycleConfiguration, GetLifecycleConfiguration, GetBucketCORS, PutBucketCORS.

若要使用ONTAP系統管理員編輯 S3 儲存桶權限,請導覽至“儲存體”>“儲存桶”,按一下儲存桶的名稱,按一下“權限”,然後按一下“編輯”。請參閱 "ONTAP S3 文檔"了解更多詳細資訊。

以下螢幕截圖展示了ONTAP系統管理員中必要的儲存桶權限。

圖 8 - S3 儲存區權限。600,600

建立 bucket 跨域資源共享規則

使用ONTAP CLI,為您在上一個步驟中建立的儲存桶建立儲存桶跨域資源共用 (CORS) 規則:

ontap::> bucket cors-rule create -vserver erag -bucket erag-data -allowed-origins *erag.com -allowed-methods GET,HEAD,PUT,DELETE,POST -allowed-headers *

此規則允許 OPEA for Intel® AI for Enterprise RAG Web 應用程式從 Web 瀏覽器內部與儲存桶進行互動。

部署伺服器

部署您的伺服器並在每台伺服器上安裝 Ubuntu 22.04 LTS。安裝 Ubuntu 後,在每台伺服器上安裝 NFS 實用程式。若要安裝 NFS 實用程序,請執行以下命令:

 apt-get update && apt-get install nfs-common

部署企業 RAG 2.0

有關完整的逐步部署工作流程,請參閱下列文件:NetApp AIPod Mini for ERAG - 部署步驟 所有先決條件、基礎架構準備、設定參數和部署程序均已在上述部署指南中記錄。

存取適用於企業 RAG UI 的 Intel® AI 的 OPEA

存取適用於 Intel® AI for Enterprise 的 OPEA RAG 使用者介面。詳情請參閱 "Intel® AI for Enterprise RAG 部署文檔"

圖 9 - OPEA for Intel® AI for Enterprise RAG UI。600,600

為 RAG 提取數據

現在您可以提取文件以包含在基於 RAG 的查詢擴充中。有多種提取檔案的選項。根據您的需求選擇適當的選項。

注意:檔案匯入後,OPEA for Intel® AI for Enterprise RAG 應用程式會自動檢查檔案更新並相應地匯入更新。

*選項 1:直接上傳到您的 S3 儲存桶 要一次匯入多個檔案,我們建議您使用您選擇的 S3 用戶端將檔案上傳到您的 S3 儲存桶(您先前建立的儲存桶)。常用的 S3 用戶端包括 AWS CLI、Amazon SDK for Python (Boto3)、s3cmd、S3 Browser、Cyberduck 和 Commander One。如果檔案類型受支援,您上傳到 S3 儲存桶的任何檔案將由 OPEA for Intel® AI for Enterprise RAG 應用程式自動匯入。

注意:截至撰寫本文時,支援以下檔案類型:PDF、HTML、TXT、DOC、DOCX、ADOC、PPT、PPTX、MD、XML、JSON、JSONL、YAML、XLS、XLSX、CSV、TIFF、JPG、JPEG、PNG 和 SVG。

您可以使用 OPEA for Intel® AI for Enterprise RAG UI 來確認檔案是否已正確擷取。如需詳細資訊,請參閱 Intel® AI for Enterprise RAG UI 說明文件。請注意,應用程式擷取大量檔案可能需要一些時間。

*選項 2:使用 UI 上傳 如果您只需要擷取少量檔案,可以使用 OPEA for Intel® AI for Enterprise RAG UI 進行擷取。如需詳細資訊,請參閱 Intel® AI for Enterprise RAG UI 說明文件。

圖 10 - 資料擷取 UI。600,600

執行聊天查詢

現在,您可以使用內建的聊天介面與 OPEA for Intel® AI for Enterprise RAG 應用程式進行「聊天」。該應用程式在回覆您的查詢時,會使用您匯入的檔案執行 RAG 操作。這表示應用程式會自動搜尋您匯入檔案中的相關資訊,並在回覆您的查詢時納入這些資訊。

尺寸指南

作為驗證工作的一部分,我們與英特爾合作進行了性能測試。此次測試得出了下表中列出的尺寸指導。

特徵 價值 評論

模型尺寸

200億個參數

Llama-8B、Llama-13B、Mistral 7B、Qwen 14B、DeepSeek Distill 8B

輸入尺寸

約2000個代幣

約4頁

輸出尺寸

約2000個代幣

約4頁

並髮用戶

32

「並髮用戶」是指同時提交查詢的提示請求。

_附註:以上容量規劃指南是基於使用 96 核心 Intel Xeon 6 處理器進行的效能驗證和測試結果。對於具有類似 I/O 令牌和模型大小要求的客戶,我們建議使用配備 96 核心 Xeon 6 處理器的伺服器。有關容量規劃指南的更多詳細資訊,請參閱 "Intel® AI for Enterprise RAG 規模指南"

結論

企業級 RAG 系統和 LLM 是協同工作的技術,旨在幫助組織提供準確且具有上下文感知能力的回應。這些回應涉及基於海量私有和內部企業資料的資訊檢索。透過使用 RAG、API、向量嵌入和高效能儲存系統來查詢包含公司資料的文件庫,可以更快、更安全地處理資料。NetApp AIPod Mini 將 NetApp 的智慧資料基礎設施與 ONTAP 資料管理功能、Intel Xeon 6 處理器、Intel® AI for Enterprise RAG 以及 OPEA 軟體堆疊結合,協助部署高效能 RAG 應用,並協助組織邁向 AI 領導地位。

致謝

本文由 NetApp 解決方案工程團隊成員 Sathish Thyagarajan、Michael Oglesby 和 Arpita Mahajan 撰寫。作者也要感謝 Intel 企業 AI 產品團隊的成員——Ajay Mungara、Mikolaj Zyczynski、Igor Konopko、Ramakrishna Karamsetty、Michal Prostko、Anna Alberska、Maciej Cichocki、Shreejan Mistry、Nicholas Rago 和 Ned Fiori——以及 NetApp 的其他團隊成員——Lawrence Bunka、Bobby Oommen 和 Jeff Liborio,感謝他們在解決方案驗證過程中持續的支持和協助。

物料清單

以下是用於此解決方案功能驗證的BOM,可供參考。可以使用符合以下配置的任何伺服器或網路元件(甚至是最好具有 100GbE 頻寬的現有網路)。

對於應用程式伺服器:

零件編號 產品描述 數量

222HA-TN-OTO-37

超級伺服器 SYS-222HA-TN /2U

2

P4X-GNR6972P-SRPL2-UC

Intel® Xeon® 6972P 處理器 96 核心 2.40GHz 480MB 快取(500W)

4

記憶體

MEM-DR564MC-ER64(x16)64GB DDR5-6400 2RX4 (16Gb) ECC RDIMM

32

HDS-M2N4-960G0-E1-TXD-NON-080(x2) SSD M.2 NVMe PCIe4 960GB 1DWPD TLC D,80 毫米

2

WS-1K63A-1R(x2)1U 692W/1600W 冗餘單輸出電源。散熱量為 2361 BTU/Hr,最高溫度為 59 C(約)

4

對於控制伺服器:

零件編號

產品描述

數量

511R-M-OTO-17

優化了 1U X13SCH-SYS、CSE-813MF2TS-R0RCNBP、PWS-602A-1R

1

RPL-E 6369P IP 8C/16T 3.3G 24MB 95W 1700 BO

1

記憶體

MEM-DR516MB-EU48(x2)16GB DDR5-4800 1Rx8 (16Gb) ECC UDIMM

1

HDS-M2N4-960G0-E1-TXD-NON-080(x2) SSD M.2 NVMe PCIe4 960GB 1DWPD TLC D,80 毫米

2

對於網路交換器:

零件編號

產品描述

數量

DCS-7280CR3A

Arista 7280R3A 28x100 GbE

1

NetApp AFF儲存:

零件編號

產品描述

數量

AFF-A20A-100-C

AFF A20 HA 系統,-C

1

X800-42U-R6-C

跳線 Crd,駕駛室內,C13-C14,-C

2

X97602A-C

電源,1600W,鈦金,-C

2

X66211B-2-N-C

電纜,100GbE,QSFP28-QSFP28,銅,2米,-C

4

X66240A-05-N-C

電纜,25GbE,SFP28-SFP28,銅,0.5米,-C

2

X5532A-N-C

導軌,4 柱,薄,圓形/方孔,小,可調節,24-32,-C

1

X4024A-2-A-C

驅動器包 2X1.92TB,NVMe4,SED,-C

6

X60130A-C

IO 模組,2PT,100GbE,-C

2

X60132A-C

IO 模組,4PT,10/25GbE,-C

2

SW-ONTAPB-FLASH-A20-C

SW、 ONTAP基礎套件、每 TB、快閃記憶體、A20、-C

23

基礎架構就緒檢查清單

在哪裡可以找到更多信息

要了解有關本文檔中描述的信息的更多信息,請查看以下文檔和/或網站:

版本 * 日期 * 文件版本歷史記錄

版本 1.0

2025 年 9 月

初始版本

版本 2.0

2026 年 2 月

已更新,包含 OPEA-Intel® AI for Enterprise RAG 2.0