NetApp AIPod Mini - 利用NetApp和 Intel 進行企業 RAG 推理
本文介紹了NetApp AIPod for Enterprise RAG 的經過驗證的參考設計,該設計採用了 Intel Xeon 6 處理器和NetApp資料管理解決方案的技術和組合功能。該解決方案演示了下游 ChatQnA 應用程式利用大型語言模型,為並髮用戶提供準確、上下文相關的回應。這些回應是透過隔離的 RAG 推理管道從組織的內部知識庫中檢索的。

Sathish Thyagarajan、Michael Oglesby、Arpita Mahajan、NetApp
執行摘要
越來越多的組織正在利用檢索增強生成(RAG)應用和大型語言模型(LLM)來解讀使用者提示並產生回應,從而提高生產力和業務價值。這些提示和回應可以包括文字、程式碼、圖像,甚至是治療性蛋白質結構,這些資訊可以從組織的內部知識庫、資料湖、程式碼庫和文件庫中檢索。本文介紹了 NetApp AIPod Mini 解決方案的參考設計,該方案包含 NetApp AFF 儲存和配備 Intel Xeon 6 處理器的伺服器。它包含 NetApp ONTAP 資料管理軟體,並結合了 Intel Advanced Matrix Extensions(Intel AMX)和基於 Open Platform for Enterprise AI(OPEA)建構的 Intel® AI for Enterprise RAG 軟體。NetApp AIPod Mini for enterprise RAG 使組織能夠將公共 LLM 增強為私有生成式人工智慧(GenAI)推理解決方案。此解決方案展示了高效且經濟的企業級 RAG 推理能力,旨在提高可靠性並讓您更好地控制您的專有資訊。
英特爾儲存合作夥伴驗證
搭載英特爾至強 6 處理器的伺服器專為處理要求苛刻的 AI 推理工作負載而設計,並使用英特爾 AMX 實現最佳效能。為了實現最佳的儲存效能和可擴展性,該解決方案已使用NetApp ONTAP成功驗證,使企業能夠滿足 RAG 應用程式的需求。該驗證是在配備 Intel Xeon 6 處理器的伺服器上進行的。英特爾和NetApp建立了強大的合作夥伴關係,致力於提供最佳化、可擴展且符合客戶業務需求的 AI 解決方案。
使用NetApp運行 RAG 系統的優勢
RAG 應用程式涉及從公司文件庫中檢索各種類型的知識,例如 PDF、文字、CSV 或 Excel 文件。這些資料通常儲存在 S3 物件儲存或本機 NFS 等解決方案中,作為資料來源。NetApp 一直是邊緣運算、資料中心和雲端生態系統中資料管理、資料移動性、資料治理和資料安全技術的領導者。NetApp ONTAP 資料管理提供企業級儲存,以支援各種類型的 AI 工作負載,包括批次和即時推理,並具有以下一些優勢:
-
速度和可擴展性。您可以高速處理大型資料集以進行版本控制,並能夠獨立擴展效能和容量。
-
數據存取。多協定支援允許客戶端應用程式使用 S3、NFS 和 SMB 檔案共用協定讀取資料。 ONTAP S3 NAS 儲存桶可以促進多模式 LLM 推理場景中的資料存取。
-
可靠性和保密性。 ONTAP提供資料保護、內建NetApp自主勒索軟體保護 (ARP) 和動態儲存配置,並提供基於軟體和硬體的加密以增強機密性和安全性。 ONTAP 的所有 SSL 連線均符合 FIPS 140-2 標準。
目標受眾
本文檔適用於希望利用為提供企業 RAG 和 GenAI 解決方案而建構的基礎設施的 AI 決策者、資料工程師、業務領導者和部門主管。對 AI 推理、LLM、Kubernetes 以及網路及其元件的先前了解將有助於實施階段。
技術要求
硬體
Intel® AI 技術
使用 Xeon 6 作為主機 CPU,加速系統可受益於高單執行緒效能;更高的記憶體頻寬;更高的可靠性、可用性和可服務性 (RAS);以及更多的 I/O 通道。英特爾 AMX 加速了 INT8 和 BF16 的推理,並支援 FP16 訓練模型,INT8 每核每週期最多可進行 2,048 次浮點運算,BF16/FP16 每核每週期最多可進行 1,024 次浮點運算。要使用 Xeon 6 處理器部署 RAG 解決方案,通常建議至少使用 250GB 的 RAM 和 500GB 的磁碟空間。然而,這在很大程度上取決於 LLM 模型的大小。欲了解更多信息,請參閱英特爾 "Xeon 6處理器"產品簡介。
圖 1 - 搭載 Intel Xeon 6 處理器的運算伺服器
NetApp AFF存儲
入門級和中級NetApp AFF A 系列系統提供更強大的效能、密度和更高的效率。 NetApp AFF A20、 AFF A30 和AFF A50 系統提供真正的統一存儲,支援區塊、檔案和對象,基於單一作業系統,可以以最低的成本在混合雲中無縫管理、保護和調動 RAG 應用程式的資料。
圖 2 - NetApp AFF A 系列系統。
| 硬體 | 數量 | 評論 |
|---|---|---|
Intel Xeon 第 6 代(Granite Rapids) |
2 |
RAG 推理節點-配備雙路 Intel Xeon 6900 系列(96 核心)或 Intel Xeon 6700 系列(64 核心)處理器,以及 250GB 至 3TB 的 DDR5(6400MHz)或 MRDIMM(8800MHz)記憶體。2U 伺服器。 |
帶有英特爾處理器的控制平面伺服器 |
1 |
Kubernetes 控制平面/1U 伺服器。 |
100Gb 乙太網路交換器的選擇 |
1 |
資料中心交換器。 |
NetApp AFF A20(或AFF A30; AFF A50) |
1 |
最大儲存容量:9.3PB。注意:網路:10/25/100 GbE 連接埠。 |
為了驗證此參考設計,我們使用了 Supermicro 的 Intel Xeon 6 處理器伺服器(222HA-TN-OTO-37)和 Arista 的 100GbE 交換器(7280R3A)。
圖 3 - AIPod Mini 部署架構 
軟體
企業AI開放平台
企業 AI 開放平台 (OPEA) 是由英特爾與生態系統合作夥伴共同主導的開源計畫。它提供了一個可組合構建塊的模組化平台,旨在加速尖端生成 AI 系統的開發,並專注於 RAG。 OPEA 包括一個綜合框架,該框架具有 LLM、資料儲存、提示引擎、RAG 架構藍圖以及基於效能、特性、可信度和企業準備度評估生成式 AI 系統的四步驟評估方法。
OPEA 的核心包括兩個關鍵部分:
-
GenAIComps:由微服務元件組成的基於服務的工具包
-
GenAIExamples:可立即部署的解決方案,例如 ChatQnA,可展示實際用例
有關詳細信息,請參閱 "OPEA專案文檔"
由 OPEA 支援的 Intel® AI for Enterprise RAG
OPEA for Intel® AI for Enterprise RAG 簡化了將企業資料轉化為可執行洞察的過程。它由 Intel Xeon 處理器驅動,並整合了來自行業合作夥伴的組件,從而提供了一種精簡的企業解決方案部署方法。它可與成熟的編排框架無縫擴展,為您的企業提供所需的靈活性和選擇。
基於 OPEA 的基礎,Intel® AI for Enterprise RAG 擴展了此基礎,並新增了多項關鍵功能,可提升擴充性、安全性和使用者體驗。這些功能包括服務網格功能,可與現代化服務型架構無縫整合、生產就緒驗證,可確保管線可靠性,以及功能豐富的 RAG 即服務 UI,可輕鬆管理和監控工作流程。此外,Intel 和合作夥伴支援可提供廣泛的解決方案生態系統存取權限,並結合整合式身分識別與存取管理(IAM)與 UI 和應用程式,以實現安全且合規的作業。可程式化的防護機制可對管線行為進行精細控制,以實現自訂的安全性和法規遵循設定。
NetApp ONTAP
NetApp ONTAP是 NetApp 關鍵資料儲存解決方案的基礎技術。 ONTAP包含各種資料管理和資料保護功能,例如針對網路攻擊的自動勒索軟體保護、內建資料傳輸功能和儲存效率功能。這些優勢適用於一系列架構,從本地到 NAS、SAN、物件和 LLM 部署的軟體定義儲存中的混合多雲。您可以在ONTAP叢集中使用ONTAP S3 物件儲存伺服器來部署 RAG 應用程序,從而利用透過授權使用者和客戶端應用程式提供的ONTAP的儲存效率和安全性。有關詳細信息,請參閱 "了解ONTAP S3 配置"
NetApp Trident
NetApp Trident軟體是一款開源且完全支援的儲存編排器,適用於容器和 Kubernetes 發行版,包括 Red Hat OpenShift。 Trident可與整個NetApp儲存產品組合搭配使用,包括NetApp ONTAP ,並且還支援 NFS 和 iSCSI 連線。有關詳細信息,請參閱 "Git 上的NetApp Trident"
| 軟體 | 版本 | 評論 |
|---|---|---|
OPEA - Intel® AI for Enterprise RAG |
2.0 |
基於OPEA微服務的企業RAG平台 |
容器儲存介面(CSI驅動程式) |
NetApp Trident 25.10 |
支援動態配置、 NetApp Snapshot 副本和磁碟區。 |
Ubuntu |
22.04.5 |
雙節點叢集上的作業系統。 |
容器編排 |
Kubernetes 1.31.9(透過 Enterprise RAG 基礎架構 playbook 安裝) |
運行 RAG 框架的環境 |
ONTAP |
ONTAP 9.16.1P4 或更新版本 |
AFF A20 上的儲存作業系統。 |
解決方案部署
軟體堆疊
此解決方案部署在由基於 Intel Xeon 的應用節點組成的 Kubernetes 叢集上。至少需要三個節點才能實現 Kubernetes 控制平面的基本高可用性。我們使用以下叢集佈局驗證了該解決方案。
表 3 - Kubernetes 叢集佈局
| 節點 | 角色 | 數量 |
|---|---|---|
配備 Intel Xeon 6 處理器和 1TB RAM 的伺服器 |
應用節點、控制平面節點 |
2 |
通用伺服器 |
控制平面節點 |
1 |
下圖描述了該解決方案的「軟體堆疊視圖」。
部署步驟
部署ONTAP儲存設備
部署並設定您的NetApp ONTAP儲存設備。請參閱 "ONTAP硬體系統文檔"了解詳情。
配置ONTAP SVM 以進行 NFS 和 S3 訪問
在 Kubernetes 節點可存取的網路上設定ONTAP儲存虛擬機器 (SVM) 以進行 NFS 和 S3 存取。
若要使用ONTAP系統管理員建立 SVM,請導覽至“儲存”>“儲存虛擬機器”,然後按一下“+ 新增”按鈕。為您的 SVM 啟用 S3 存取權時,請選擇使用外部 CA(憑證授權單位)簽署的證書,而不是系統產生的憑證。您可以使用自簽名憑證或由公眾信任的 CA 簽署的憑證。有關更多詳細信息,請參閱 "ONTAP文檔。"
以下螢幕截圖展示了使用ONTAP系統管理員建立 SVM 的過程。根據您的環境根據需要修改詳細資訊。
圖 5 - 使用 ONTAP System Manager 建立 SVM。

配置 S3 權限
為您在上一個步驟中建立的 SVM 配置 S3 使用者/群組設定。確保您擁有對該 SVM 的所有 S3 API 操作具有完全存取權限的使用者。有關詳細信息,請參閱ONTAP S3 文件。
注意:Intel® AI for Enterprise RAG 應用程式的資料擷取服務需要此使用者。如果您使用 ONTAP System Manager 建立了 SVM,System Manager 會在您建立 SVM 時自動建立名為 `sm_s3_user`的使用者和一個名為 `FullAccess`的政策,但不會為 `sm_s3_user`指派任何權限。
若要編輯此使用者的權限,請導航至“儲存”>“儲存虛擬機器”,按一下您在上一個步驟中建立的 SVM 的名稱,按一下“設定”,然後按一下“S3”旁的鉛筆圖示。給予 `sm_s3_user`擁有所有 S3 API 操作的完全存取權限,建立一個關聯 `sm_s3_user`與 `FullAccess`策略如下面的螢幕截圖所示。
圖 6 - S3 權限。

建立 S3 儲存桶
在您先前建立的 SVM 內建立一個 S3 儲存桶。若要使用ONTAP系統管理員建立 SVM,請導航至“儲存”>“儲存桶”,然後按一下“+ 新增”按鈕。有關更多詳細信息,請參閱ONTAP S3 文件。
以下螢幕截圖展示了使用ONTAP系統管理員建立 S3 儲存桶的過程。
圖 7 - 建立 S3 儲存區。
配置 S3 儲存桶權限
為您在上一個步驟中建立的 S3 儲存桶配置權限。確保您在上一個步驟中配置的使用者俱有以下權限: GetObject, PutObject, DeleteObject, ListBucket, GetBucketAcl, GetObjectAcl, ListBucketMultipartUploads, ListMultipartUploadParts, GetObjectTagging, PutObjectTagging, DeleteObjectTagging, GetBucketLocation, GetBucketVersioning, PutBucketVersioning, ListBucketVersions, GetBucketPolicy, PutBucketPolicy, DeleteBucketPolicy, PutLifecycleConfiguration, GetLifecycleConfiguration, GetBucketCORS, PutBucketCORS.
若要使用ONTAP系統管理員編輯 S3 儲存桶權限,請導覽至“儲存體”>“儲存桶”,按一下儲存桶的名稱,按一下“權限”,然後按一下“編輯”。請參閱 "ONTAP S3 文檔"了解更多詳細資訊。
以下螢幕截圖展示了ONTAP系統管理員中必要的儲存桶權限。
圖 8 - S3 儲存區權限。
建立 bucket 跨域資源共享規則
使用ONTAP CLI,為您在上一個步驟中建立的儲存桶建立儲存桶跨域資源共用 (CORS) 規則:
ontap::> bucket cors-rule create -vserver erag -bucket erag-data -allowed-origins *erag.com -allowed-methods GET,HEAD,PUT,DELETE,POST -allowed-headers *
此規則允許 OPEA for Intel® AI for Enterprise RAG Web 應用程式從 Web 瀏覽器內部與儲存桶進行互動。
部署伺服器
部署您的伺服器並在每台伺服器上安裝 Ubuntu 22.04 LTS。安裝 Ubuntu 後,在每台伺服器上安裝 NFS 實用程式。若要安裝 NFS 實用程序,請執行以下命令:
apt-get update && apt-get install nfs-common
部署企業 RAG 2.0
有關完整的逐步部署工作流程,請參閱下列文件:NetApp AIPod Mini for ERAG - 部署步驟 所有先決條件、基礎架構準備、設定參數和部署程序均已在上述部署指南中記錄。
存取適用於企業 RAG UI 的 Intel® AI 的 OPEA
存取適用於 Intel® AI for Enterprise 的 OPEA RAG 使用者介面。詳情請參閱 "Intel® AI for Enterprise RAG 部署文檔"。
圖 9 - OPEA for Intel® AI for Enterprise RAG UI。
為 RAG 提取數據
現在您可以提取文件以包含在基於 RAG 的查詢擴充中。有多種提取檔案的選項。根據您的需求選擇適當的選項。
注意:檔案匯入後,OPEA for Intel® AI for Enterprise RAG 應用程式會自動檢查檔案更新並相應地匯入更新。
*選項 1:直接上傳到您的 S3 儲存桶 要一次匯入多個檔案,我們建議您使用您選擇的 S3 用戶端將檔案上傳到您的 S3 儲存桶(您先前建立的儲存桶)。常用的 S3 用戶端包括 AWS CLI、Amazon SDK for Python (Boto3)、s3cmd、S3 Browser、Cyberduck 和 Commander One。如果檔案類型受支援,您上傳到 S3 儲存桶的任何檔案將由 OPEA for Intel® AI for Enterprise RAG 應用程式自動匯入。
注意:截至撰寫本文時,支援以下檔案類型:PDF、HTML、TXT、DOC、DOCX、ADOC、PPT、PPTX、MD、XML、JSON、JSONL、YAML、XLS、XLSX、CSV、TIFF、JPG、JPEG、PNG 和 SVG。
您可以使用 OPEA for Intel® AI for Enterprise RAG UI 來確認檔案是否已正確擷取。如需詳細資訊,請參閱 Intel® AI for Enterprise RAG UI 說明文件。請注意,應用程式擷取大量檔案可能需要一些時間。
*選項 2:使用 UI 上傳 如果您只需要擷取少量檔案,可以使用 OPEA for Intel® AI for Enterprise RAG UI 進行擷取。如需詳細資訊,請參閱 Intel® AI for Enterprise RAG UI 說明文件。
圖 10 - 資料擷取 UI。
執行聊天查詢
現在,您可以使用內建的聊天介面與 OPEA for Intel® AI for Enterprise RAG 應用程式進行「聊天」。該應用程式在回覆您的查詢時,會使用您匯入的檔案執行 RAG 操作。這表示應用程式會自動搜尋您匯入檔案中的相關資訊,並在回覆您的查詢時納入這些資訊。
尺寸指南
作為驗證工作的一部分,我們與英特爾合作進行了性能測試。此次測試得出了下表中列出的尺寸指導。
| 特徵 | 價值 | 評論 |
|---|---|---|
模型尺寸 |
200億個參數 |
Llama-8B、Llama-13B、Mistral 7B、Qwen 14B、DeepSeek Distill 8B |
輸入尺寸 |
約2000個代幣 |
約4頁 |
輸出尺寸 |
約2000個代幣 |
約4頁 |
並髮用戶 |
32 |
「並髮用戶」是指同時提交查詢的提示請求。 |
_附註:以上容量規劃指南是基於使用 96 核心 Intel Xeon 6 處理器進行的效能驗證和測試結果。對於具有類似 I/O 令牌和模型大小要求的客戶,我們建議使用配備 96 核心 Xeon 6 處理器的伺服器。有關容量規劃指南的更多詳細資訊,請參閱 "Intel® AI for Enterprise RAG 規模指南"
結論
企業級 RAG 系統和 LLM 是協同工作的技術,旨在幫助組織提供準確且具有上下文感知能力的回應。這些回應涉及基於海量私有和內部企業資料的資訊檢索。透過使用 RAG、API、向量嵌入和高效能儲存系統來查詢包含公司資料的文件庫,可以更快、更安全地處理資料。NetApp AIPod Mini 將 NetApp 的智慧資料基礎設施與 ONTAP 資料管理功能、Intel Xeon 6 處理器、Intel® AI for Enterprise RAG 以及 OPEA 軟體堆疊結合,協助部署高效能 RAG 應用,並協助組織邁向 AI 領導地位。
致謝
本文由 NetApp 解決方案工程團隊成員 Sathish Thyagarajan、Michael Oglesby 和 Arpita Mahajan 撰寫。作者也要感謝 Intel 企業 AI 產品團隊的成員——Ajay Mungara、Mikolaj Zyczynski、Igor Konopko、Ramakrishna Karamsetty、Michal Prostko、Anna Alberska、Maciej Cichocki、Shreejan Mistry、Nicholas Rago 和 Ned Fiori——以及 NetApp 的其他團隊成員——Lawrence Bunka、Bobby Oommen 和 Jeff Liborio,感謝他們在解決方案驗證過程中持續的支持和協助。
物料清單
以下是用於此解決方案功能驗證的BOM,可供參考。可以使用符合以下配置的任何伺服器或網路元件(甚至是最好具有 100GbE 頻寬的現有網路)。
對於應用程式伺服器:
| 零件編號 | 產品描述 | 數量 |
|---|---|---|
222HA-TN-OTO-37 |
超級伺服器 SYS-222HA-TN /2U |
2 |
P4X-GNR6972P-SRPL2-UC |
Intel® Xeon® 6972P 處理器 96 核心 2.40GHz 480MB 快取(500W) |
4 |
記憶體 |
MEM-DR564MC-ER64(x16)64GB DDR5-6400 2RX4 (16Gb) ECC RDIMM |
32 |
HDS-M2N4-960G0-E1-TXD-NON-080(x2) SSD M.2 NVMe PCIe4 960GB 1DWPD TLC D,80 毫米 |
2 |
|
WS-1K63A-1R(x2)1U 692W/1600W 冗餘單輸出電源。散熱量為 2361 BTU/Hr,最高溫度為 59 C(約) |
4 |
對於控制伺服器:
零件編號 |
產品描述 |
數量 |
511R-M-OTO-17 |
優化了 1U X13SCH-SYS、CSE-813MF2TS-R0RCNBP、PWS-602A-1R |
1 |
RPL-E 6369P IP 8C/16T 3.3G 24MB 95W 1700 BO |
1 |
|
記憶體 |
MEM-DR516MB-EU48(x2)16GB DDR5-4800 1Rx8 (16Gb) ECC UDIMM |
1 |
HDS-M2N4-960G0-E1-TXD-NON-080(x2) SSD M.2 NVMe PCIe4 960GB 1DWPD TLC D,80 毫米 |
2 |
對於網路交換器:
零件編號 |
產品描述 |
數量 |
DCS-7280CR3A |
Arista 7280R3A 28x100 GbE |
1 |
NetApp AFF儲存:
零件編號 |
產品描述 |
數量 |
AFF-A20A-100-C |
AFF A20 HA 系統,-C |
1 |
X800-42U-R6-C |
跳線 Crd,駕駛室內,C13-C14,-C |
2 |
X97602A-C |
電源,1600W,鈦金,-C |
2 |
X66211B-2-N-C |
電纜,100GbE,QSFP28-QSFP28,銅,2米,-C |
4 |
X66240A-05-N-C |
電纜,25GbE,SFP28-SFP28,銅,0.5米,-C |
2 |
X5532A-N-C |
導軌,4 柱,薄,圓形/方孔,小,可調節,24-32,-C |
1 |
X4024A-2-A-C |
驅動器包 2X1.92TB,NVMe4,SED,-C |
6 |
X60130A-C |
IO 模組,2PT,100GbE,-C |
2 |
X60132A-C |
IO 模組,4PT,10/25GbE,-C |
2 |
SW-ONTAPB-FLASH-A20-C |
SW、 ONTAP基礎套件、每 TB、快閃記憶體、A20、-C |
23 |
基礎架構就緒檢查清單
詳情請參閱 NetApp AIPod Mini - 基礎架構就緒。
在哪裡可以找到更多信息
要了解有關本文檔中描述的信息的更多信息,請查看以下文檔和/或網站:
"OPEA Enterprise RAG 部署手冊" == 版本歷史
| 版本 | * 日期 * | 文件版本歷史記錄 |
|---|---|---|
版本 1.0 |
2025 年 9 月 |
初始版本 |
版本 2.0 |
2026 年 2 月 |
已更新,包含 OPEA-Intel® AI for Enterprise RAG 2.0 |