La versione in lingua italiana fornita proviene da una traduzione automatica. Per eventuali incoerenze, fare riferimento alla versione in lingua inglese.

Perché NetApp NFS per i carichi di lavoro Kafka?

08/18/2025 Collaboratori

PDF

Ora che esiste una soluzione per il problema di ridenominazione nello storage NFS con Kafka, puoi creare distribuzioni robuste che sfruttano lo storage NetApp ONTAP per il tuo carico di lavoro Kafka. Ciò non solo riduce significativamente i costi operativi, ma apporta anche i seguenti vantaggi ai cluster Kafka:

Utilizzo ridotto della CPU sui broker Kafka. L'utilizzo di storage NetApp ONTAP disaggregato separa le operazioni di I/O del disco dal broker, riducendo così l'ingombro della CPU.
Tempi di recupero del broker più rapidi. Poiché lo storage disaggregato NetApp ONTAP è condiviso tra i nodi broker Kafka, una nuova istanza di elaborazione può sostituire un broker non funzionante in qualsiasi momento e in una frazione del tempo rispetto alle distribuzioni Kafka convenzionali, senza dover ricostruire i dati.
Efficienza di archiviazione. Poiché il livello di storage dell'applicazione è ora fornito tramite NetApp ONTAP, i clienti possono usufruire di tutti i vantaggi dell'efficienza di storage offerti da ONTAP, come la compressione dei dati in linea, la deduplicazione e la compattazione.

Questi vantaggi sono stati testati e convalidati in casi di prova che analizzeremo in dettaglio in questa sezione.

Utilizzo ridotto della CPU sul broker Kafka

Abbiamo scoperto che l'utilizzo complessivo della CPU è inferiore rispetto alla controparte DAS quando abbiamo eseguito carichi di lavoro simili su due cluster Kafka separati, identici nelle specifiche tecniche ma diversi nelle tecnologie di archiviazione. Non solo l'utilizzo complessivo della CPU è inferiore quando il cluster Kafka utilizza l'archiviazione ONTAP , ma l'aumento dell'utilizzo della CPU ha mostrato un gradiente più graduale rispetto a un cluster Kafka basato su DAS.

Configurazione architettonica

La tabella seguente mostra la configurazione ambientale utilizzata per dimostrare un utilizzo ridotto della CPU.

Componente della piattaforma	Configurazione dell'ambiente
Strumento di benchmarking di Kafka 3.2.3: OpenMessaging	3 guardiani dello zoo – t2.small 3 server broker – i3en.2xlarge 1 x Grafana – c5n.2xlarge 4 x Produttore/Consumatore — c5n.2xlarge
Sistema operativo su tutti i nodi	RHEL 8.7 o successivo
Istanza ONTAP di NetApp Cloud Volumes ONTAP	Istanza a nodo singolo – M5.2xLarge

Componente della piattaforma

Configurazione dell'ambiente

Strumento di benchmarking di Kafka 3.2.3: OpenMessaging

3 guardiani dello zoo – t2.small
3 server broker – i3en.2xlarge
1 x Grafana – c5n.2xlarge
4 x Produttore/Consumatore — c5n.2xlarge

Sistema operativo su tutti i nodi

RHEL 8.7 o successivo

Istanza ONTAP di NetApp Cloud Volumes ONTAP

Istanza a nodo singolo – M5.2xLarge

Strumento di benchmarking

Lo strumento di benchmarking utilizzato in questo caso di prova è il "OpenMessaging" struttura. OpenMessaging è indipendente dal fornitore e dal linguaggio; fornisce linee guida di settore per finanza, e-commerce, IoT e big data e aiuta a sviluppare applicazioni di messaggistica e streaming su sistemi e piattaforme eterogenei. La figura seguente illustra l'interazione dei client OpenMessaging con un cluster Kafka.

Questa immagine illustra l'interazione dei client OpenMessaging con un cluster Kafka.

Calcolare. Abbiamo utilizzato un cluster Kafka a tre nodi con un ensemble zookeeper a tre nodi in esecuzione su server dedicati. Ogni broker aveva due punti di montaggio NFSv4.1 su un singolo volume sull'istanza NetApp CVO tramite un LIF dedicato.
Monitoraggio. Abbiamo utilizzato due nodi per una combinazione Prometheus-Grafana. Per generare carichi di lavoro, disponiamo di un cluster separato a tre nodi che può produrre e consumare da questo cluster Kafka.
Magazzinaggio. Abbiamo utilizzato un'istanza ONTAP NetApp Cloud Volumes a nodo singolo con sei volumi GP2 AWS-EBS da 250 GB montati sull'istanza. Questi volumi sono stati quindi esposti al cluster Kafka come sei volumi NFSv4.1 tramite LIF dedicati.
Configurazione. I due elementi configurabili in questo caso di test erano i broker Kafka e i carichi di lavoro OpenMessaging.
- Configurazione del broker. Per i broker Kafka sono state selezionate le seguenti specifiche. Abbiamo utilizzato un fattore di replicazione pari a 3 per tutte le misurazioni, come evidenziato di seguito.

Questa immagine illustra le specifiche selezionate per i broker Kafka.

Configurazione del carico di lavoro del benchmark OpenMessaging (OMB). Sono state fornite le seguenti specifiche. Abbiamo specificato un tasso di produzione target, evidenziato di seguito.

Questa immagine illustra le specifiche selezionate per la configurazione del carico di lavoro del benchmark OpenMessaging.

Metodologia di test

Sono stati creati due cluster simili, ciascuno con il proprio set di swarm di cluster di benchmarking.
- Gruppo 1. Cluster Kafka basato su NFS.
- Gruppo 2. Cluster Kafka basato su DAS.

Utilizzando un comando OpenMessaging, sono stati attivati carichi di lavoro simili su ciascun cluster.

sudo bin/benchmark --drivers driver-kafka/kafka-group-all.yaml workloads/1-topic-100-partitions-1kb.yaml

La configurazione della velocità di produzione è stata aumentata in quattro iterazioni e l'utilizzo della CPU è stato registrato con Grafana. Il tasso di produzione è stato fissato ai seguenti livelli:
- 10.000
- 40.000
- 80.000
- 100.000

Osservazione

L'utilizzo dello storage NFS NetApp con Kafka offre due vantaggi principali:

È possibile ridurre l'utilizzo della CPU di quasi un terzo. L'utilizzo complessivo della CPU con carichi di lavoro simili è risultato inferiore per NFS rispetto agli SSD DAS; i risparmi vanno dal 5% per tassi di produzione inferiori al 32% per tassi di produzione superiori.
Una riduzione tripla dell'utilizzo della CPU a velocità di produzione più elevate. Come previsto, si è registrato un aumento dell'utilizzo della CPU con l'aumento dei tassi di produzione. Tuttavia, l'utilizzo della CPU sui broker Kafka che utilizzano DAS è aumentato dal 31% per il tasso di produzione più basso al 70% per il tasso di produzione più alto, con un incremento del 39%. Tuttavia, con un backend di archiviazione NFS, l'utilizzo della CPU è aumentato dal 26% al 38%, con un incremento del 12%.

Questo grafico illustra il comportamento di un cluster basato su DAS.

Questo grafico illustra il comportamento di un cluster basato su NFS.

Inoltre, a 100.000 messaggi, DAS mostra un utilizzo della CPU maggiore rispetto a un cluster NFS.

Questo grafico illustra il comportamento di un cluster basato su DAS con 100.000 messaggi.

Questo grafico illustra il comportamento di un cluster basato su NFS con 100.000 messaggi.

Recupero più rapido del broker

Abbiamo scoperto che i broker Kafka ripristinano più velocemente quando utilizzano lo storage NetApp NFS condiviso. Quando un broker si blocca in un cluster Kafka, può essere sostituito da un broker funzionante con lo stesso ID broker. Dopo aver eseguito questo caso di test, abbiamo scoperto che, nel caso di un cluster Kafka basato su DAS, il cluster ricostruisce i dati su un broker funzionante appena aggiunto, il che richiede molto tempo. Nel caso di un cluster Kafka basato su NetApp NFS, il broker sostitutivo continua a leggere i dati dalla directory di registro precedente e ripristina molto più rapidamente.