La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Pourquoi NetApp NFS pour les charges de travail Kafka ?

08/18/2025 Contributeurs

Maintenant qu’il existe une solution au problème de renommage stupide dans le stockage NFS avec Kafka, vous pouvez créer des déploiements robustes qui exploitent le stockage NetApp ONTAP pour votre charge de travail Kafka. Non seulement cela réduit considérablement les frais opérationnels, mais cela apporte également les avantages suivants à vos clusters Kafka :

Utilisation réduite du processeur sur les courtiers Kafka. L'utilisation d'un stockage NetApp ONTAP désagrégé sépare les opérations d'E/S de disque du courtier et réduit ainsi son empreinte CPU.
Temps de récupération du courtier plus rapide. Étant donné que le stockage NetApp ONTAP désagrégé est partagé entre les nœuds de courtier Kafka, une nouvelle instance de calcul peut remplacer un courtier défectueux à tout moment en une fraction du temps par rapport aux déploiements Kafka conventionnels sans reconstruire les données.
Efficacité de stockage. Étant donné que la couche de stockage de l'application est désormais provisionnée via NetApp ONTAP, les clients peuvent bénéficier de tous les avantages de l'efficacité du stockage offerts par ONTAP, tels que la compression des données en ligne, la déduplication et le compactage.

Ces avantages ont été testés et validés dans des cas de test que nous discutons en détail dans cette section.

Utilisation réduite du processeur sur le courtier Kafka

Nous avons découvert que l'utilisation globale du processeur est inférieure à celle de son homologue DAS lorsque nous avons exécuté des charges de travail similaires sur deux clusters Kafka distincts qui étaient identiques dans leurs spécifications techniques mais différaient dans leurs technologies de stockage. Non seulement l’utilisation globale du processeur est plus faible lorsque le cluster Kafka utilise le stockage ONTAP , mais l’augmentation de l’utilisation du processeur a démontré un gradient plus doux que dans un cluster Kafka basé sur DAS.

Configuration architecturale

Le tableau suivant montre la configuration environnementale utilisée pour démontrer l’utilisation réduite du processeur.

Composant de la plateforme	Configuration de l'environnement
Outil d'analyse comparative Kafka 3.2.3 : OpenMessaging	3 x gardiens de zoo – t2.small 3 serveurs courtiers – i3en.2xlarge 1 x Grafana – c5n.2xlarge 4 x Producteur/Consommateur — c5n.2xlarge
Système d'exploitation sur tous les nœuds	RHEL 8.7 ou version ultérieure
Instance NetApp Cloud Volumes ONTAP	Instance à nœud unique – M5.2xLarge

Composant de la plateforme

Configuration de l'environnement

Outil d'analyse comparative Kafka 3.2.3 : OpenMessaging

3 x gardiens de zoo – t2.small
3 serveurs courtiers – i3en.2xlarge
1 x Grafana – c5n.2xlarge
4 x Producteur/Consommateur — c5n.2xlarge

Système d'exploitation sur tous les nœuds

RHEL 8.7 ou version ultérieure

Instance NetApp Cloud Volumes ONTAP

Instance à nœud unique – M5.2xLarge

Outil d'analyse comparative

L'outil d'analyse comparative utilisé dans ce cas de test est le "OpenMessaging" cadre. OpenMessaging est indépendant des fournisseurs et de la langue ; il fournit des directives sectorielles pour la finance, le commerce électronique, l'IoT et le big data ; et il aide à développer des applications de messagerie et de streaming sur des systèmes et des plates-formes hétérogènes. La figure suivante illustre l’interaction des clients OpenMessaging avec un cluster Kafka.

Cette image illustre l’interaction des clients OpenMessaging avec un cluster Kafka.

Calculer. Nous avons utilisé un cluster Kafka à trois nœuds avec un ensemble zookeeper à trois nœuds exécuté sur des serveurs dédiés. Chaque courtier disposait de deux points de montage NFSv4.1 sur un seul volume sur l'instance NetApp CVO via un LIF dédié.
Surveillance. Nous avons utilisé deux nœuds pour une combinaison Prometheus-Grafana. Pour générer des charges de travail, nous disposons d'un cluster distinct à trois nœuds qui peut produire et consommer à partir de ce cluster Kafka.
Stockage. Nous avons utilisé une instance ONTAP de volumes NetApp Cloud à nœud unique avec six volumes AWS-EBS GP2 de 250 Go montés sur l'instance. Ces volumes ont ensuite été exposés au cluster Kafka sous forme de six volumes NFSv4.1 via des LIF dédiés.
Configuration. Les deux éléments configurables dans ce cas de test étaient les courtiers Kafka et les charges de travail OpenMessaging.
- Configuration du courtier. Les spécifications suivantes ont été sélectionnées pour les courtiers Kafka. Nous avons utilisé un facteur de réplication de 3 pour toutes les mesures, comme indiqué ci-dessous.

Cette image illustre les spécifications sélectionnées pour les courtiers Kafka.

Configuration de la charge de travail du benchmark OpenMessaging (OMB). Les spécifications suivantes ont été fournies. Nous avons spécifié un taux de producteur cible, mis en évidence ci-dessous.

Cette image illustre les spécifications sélectionnées pour la configuration de la charge de travail de référence OpenMessaging.

Méthodologie des tests

Deux clusters similaires ont été créés, chacun disposant de son propre ensemble d'essaims de clusters d'analyse comparative.
- Groupe 1. Cluster Kafka basé sur NFS.
- Groupe 2. Cluster Kafka basé sur DAS.
À l’aide d’une commande OpenMessaging, des charges de travail similaires ont été déclenchées sur chaque cluster.
```
sudo bin/benchmark --drivers driver-kafka/kafka-group-all.yaml workloads/1-topic-100-partitions-1kb.yaml
```
La configuration du taux de production a été augmentée en quatre itérations et l'utilisation du processeur a été enregistrée avec Grafana. Le taux de production a été fixé aux niveaux suivants :
- 10 000
- 40 000
- 80 000
- 100 000

Observation

L’utilisation du stockage NetApp NFS avec Kafka présente deux avantages principaux :

Vous pouvez réduire l’utilisation du processeur de près d’un tiers. L'utilisation globale du processeur sous des charges de travail similaires était inférieure pour NFS par rapport aux SSD DAS ; les économies varient de 5 % pour des taux de production inférieurs à 32 % pour des taux de production plus élevés.
Une réduction de trois fois de la dérive d'utilisation du processeur à des taux de production plus élevés. Comme prévu, il y a eu une tendance à la hausse de l’utilisation du processeur à mesure que les taux de production ont augmenté. Cependant, l'utilisation du processeur sur les courtiers Kafka utilisant DAS est passée de 31 % pour le taux de production inférieur à 70 % pour le taux de production supérieur, soit une augmentation de 39 %. Cependant, avec un backend de stockage NFS, l'utilisation du processeur est passée de 26 % à 38 %, soit une augmentation de 12 %.

Ce graphique illustre le comportement d’un cluster basé sur DAS.

Ce graphique illustre le comportement d’un cluster basé sur NFS.

De plus, à 100 000 messages, DAS affiche une utilisation du processeur supérieure à celle d'un cluster NFS.

Ce graphique illustre le comportement d’un cluster basé sur DAS à 100 000 messages.

Ce graphique illustre le comportement d’un cluster basé sur NFS à 100 000 messages.

Récupération plus rapide des courtiers

Nous avons découvert que les courtiers Kafka récupèrent plus rapidement lorsqu’ils utilisent un stockage NetApp NFS partagé. Lorsqu'un courtier tombe en panne dans un cluster Kafka, ce courtier peut être remplacé par un courtier sain avec le même ID de courtier. Après avoir effectué ce cas de test, nous avons constaté que, dans le cas d'un cluster Kafka basé sur DAS, le cluster reconstruit les données sur un courtier sain nouvellement ajouté, ce qui prend du temps. Dans le cas d'un cluster Kafka basé sur NetApp NFS, le courtier de remplacement continue de lire les données du répertoire de journaux précédent et récupère beaucoup plus rapidement.