Se proporciona el idioma español mediante traducción automática para su comodidad. En caso de alguna inconsistencia, el inglés precede al español.

¿Por qué NetApp NFS para cargas de trabajo de Kafka?

08/18/2025 Colaboradores

PDF

Ahora que existe una solución para el problema del cambio de nombre tonto en el almacenamiento NFS con Kafka, puede crear implementaciones sólidas que aprovechen el almacenamiento NetApp ONTAP para su carga de trabajo de Kafka. Esto no solo reduce significativamente los gastos operativos, sino que también aporta los siguientes beneficios a sus clústeres de Kafka:

Utilización reducida de CPU en los brókers de Kafka. El uso de almacenamiento desagregado de NetApp ONTAP separa las operaciones de E/S de disco del agente y, de este modo, reduce su huella de CPU.
Tiempo de recuperación del corredor más rápido. Dado que el almacenamiento desagregado de NetApp ONTAP se comparte entre los nodos del agente de Kafka, una nueva instancia de cómputo puede reemplazar a un agente defectuoso en cualquier momento en una fracción del tiempo en comparación con las implementaciones convencionales de Kafka sin reconstruir los datos.
Eficiencia de almacenamiento. Como la capa de almacenamiento de la aplicación ahora se aprovisiona a través de NetApp ONTAP, los clientes pueden aprovechar todos los beneficios de eficiencia de almacenamiento que viene con ONTAP, como compresión de datos en línea, deduplicación y compactación.

Estos beneficios fueron probados y validados en casos de prueba que discutimos en detalle en esta sección.

Uso reducido de la CPU en el bróker de Kafka

Descubrimos que la utilización general de la CPU es menor que la de su contraparte DAS cuando ejecutamos cargas de trabajo similares en dos clústeres de Kafka separados que eran idénticos en sus especificaciones técnicas pero diferían en sus tecnologías de almacenamiento. No solo la utilización general de la CPU es menor cuando el clúster de Kafka usa almacenamiento ONTAP , sino que el aumento en la utilización de la CPU demostró un gradiente más suave que en un clúster de Kafka basado en DAS.

Configuración arquitectónica

La siguiente tabla muestra la configuración ambiental utilizada para demostrar una utilización reducida de la CPU.

Componente de plataforma	Configuración del entorno
Herramienta de evaluación comparativa de Kafka 3.2.3: OpenMessaging	3 x cuidadores del zoológico – t2.small 3 servidores intermediarios – i3en.2xlarge 1 x Grafana – c5n.2xgrande 4 x Productor/Consumidor — c5n.2xlarge
Sistema operativo en todos los nodos	RHEL 8.7 o posterior
Instancia NetApp Cloud Volumes ONTAP	Instancia de nodo único – M5.2xLarge

Componente de plataforma

Configuración del entorno

Herramienta de evaluación comparativa de Kafka 3.2.3: OpenMessaging

3 x cuidadores del zoológico – t2.small
3 servidores intermediarios – i3en.2xlarge
1 x Grafana – c5n.2xgrande
4 x Productor/Consumidor — c5n.2xlarge

Sistema operativo en todos los nodos

RHEL 8.7 o posterior

Instancia NetApp Cloud Volumes ONTAP

Instancia de nodo único – M5.2xLarge

Herramienta de evaluación comparativa

La herramienta de evaluación comparativa utilizada en este caso de prueba es la "Mensajería abierta" estructura. OpenMessaging es neutral respecto de proveedores e independiente del lenguaje; proporciona pautas industriales para finanzas, comercio electrónico, IoT y big data; y ayuda a desarrollar aplicaciones de mensajería y transmisión en sistemas y plataformas heterogéneos. La siguiente figura muestra la interacción de los clientes de OpenMessaging con un clúster de Kafka.

Esta imagen muestra la interacción de los clientes de OpenMessaging con un clúster de Kafka.

Calcular. Utilizamos un clúster Kafka de tres nodos con un conjunto Zookeeper de tres nodos ejecutándose en servidores dedicados. Cada agente tenía dos puntos de montaje NFSv4.1 en un solo volumen en la instancia CVO de NetApp a través de un LIF dedicado.
Escucha. Utilizamos dos nodos para una combinación Prometheus-Grafana. Para generar cargas de trabajo, tenemos un clúster separado de tres nodos que puede producir y consumir desde este clúster de Kafka.
Almacenamiento. Utilizamos una instancia de NetApp Cloud Volumes ONTAP de un solo nodo con seis volúmenes AWS-EBS GP2 de 250 GB montados en la instancia. Luego, estos volúmenes se expusieron al clúster de Kafka como seis volúmenes NFSv4.1 a través de LIF dedicados.
Configuración. Los dos elementos configurables en este caso de prueba fueron los agentes de Kafka y las cargas de trabajo de OpenMessaging.
- Configuración del corredor. Se seleccionaron las siguientes especificaciones para los corredores de Kafka. Utilizamos un factor de replicación de 3 para todas las mediciones, como se destaca a continuación.

Esta imagen muestra las especificaciones seleccionadas para los brokers de Kafka.

Configuración de carga de trabajo de referencia de OpenMessaging (OMB). Se proporcionaron las siguientes especificaciones: Especificamos una tasa de productor objetivo, resaltada a continuación.

Esta imagen muestra las especificaciones seleccionadas para la configuración de la carga de trabajo de referencia de OpenMessaging.

Metodología de pruebas

Se crearon dos clústeres similares, cada uno con su propio conjunto de enjambres de clústeres de evaluación comparativa.
- Grupo 1. Clúster Kafka basado en NFS.
- Grupo 2. Clúster Kafka basado en DAS.

Usando un comando OpenMessaging, se activaron cargas de trabajo similares en cada clúster.

sudo bin/benchmark --drivers driver-kafka/kafka-group-all.yaml workloads/1-topic-100-partitions-1kb.yaml

La configuración de la tasa de producción se incrementó en cuatro iteraciones y la utilización de la CPU se registró con Grafana. La tasa de producción se fijó en los siguientes niveles:
- 10.000
- 40.000
- 80.000
- 100.000

Observación

Hay dos beneficios principales de usar almacenamiento NFS de NetApp con Kafka:

Puede reducir el uso de la CPU en casi un tercio. El uso general de la CPU bajo cargas de trabajo similares fue menor para NFS en comparación con los SSD DAS; los ahorros varían del 5 % para tasas de producción más bajas al 32 % para tasas de producción más altas.
Una reducción de tres veces en la deriva de utilización de la CPU a tasas de producción más altas. Como era de esperar, hubo una tendencia ascendente en el aumento de la utilización de la CPU a medida que aumentaron las tasas de producción. Sin embargo, la utilización de la CPU en los brókers de Kafka que usan DAS aumentó del 31 % para la tasa de producción más baja al 70 % para la tasa de producción más alta, un aumento del 39 %. Sin embargo, con un backend de almacenamiento NFS, la utilización de la CPU aumentó del 26% al 38%, un aumento del 12%.

Este gráfico representa el comportamiento de un clúster basado en DAS.

Este gráfico representa el comportamiento de un clúster basado en NFS.

Además, con 100.000 mensajes, DAS muestra una mayor utilización de la CPU que un clúster NFS.

Este gráfico representa el comportamiento de un clúster basado en DAS con 100.000 mensajes.

Este gráfico representa el comportamiento de un clúster basado en NFS con 100.000 mensajes.

Recuperación más rápida del corredor

Descubrimos que los agentes de Kafka se recuperan más rápido cuando utilizan almacenamiento NFS compartido de NetApp . Cuando un broker falla en un clúster de Kafka, este broker puede ser reemplazado por un broker en buen estado con el mismo ID de broker. Al realizar este caso de prueba, descubrimos que, en el caso de un clúster de Kafka basado en DAS, el clúster reconstruye los datos en un agente en buen estado recién agregado, lo que consume mucho tiempo. En el caso de un clúster Kafka basado en NFS de NetApp , el agente de reemplazo continúa leyendo datos del directorio de registro anterior y se recupera mucho más rápido.