Se proporciona el idioma español mediante traducción automática para su comodidad. En caso de alguna inconsistencia, el inglés precede al español.

¿Por qué NFS de NetApp para las cargas de trabajo de Kafka?

09/23/2024 Colaboradores

PDF

Ahora que hay una solución para el tonto problema de cambio de nombre del almacenamiento NFS con Kafka, se pueden crear puestas en marcha sólidas que aprovechan el almacenamiento ONTAP de NetApp para su carga de trabajo Kafka. Esto no solo reduce significativamente los gastos operativos, sino que también aporta las siguientes ventajas a los clústeres de Kafka:

* Reducción del uso de la CPU en los intermediarios de Kafka.* utilizando el almacenamiento desagregado de ONTAP de NetApp separa las operaciones de I/o de disco del intermediario y, por tanto, reduce el espacio físico utilizado de la CPU.
Tiempo de recuperación de broker más rápido. desde que el almacenamiento desagregado de ONTAP de NetApp se comparte en los nodos de broker de Kafka, una nueva instancia informática puede sustituir a un intermediario defectuoso en cualquier momento, en comparación con las puestas en marcha convencionales de Kafka sin tener que volver a crear los datos.
* Eficiencia del almacenamiento.* como la capa de almacenamiento de la aplicación se aprovisiona ahora a través de ONTAP de NetApp, los clientes pueden aprovechar las ventajas de la eficiencia del almacenamiento que incluye ONTAP, como la compresión de datos inline, la deduplicación y la compactación.

Estas ventajas se probaron y validaron en casos de prueba que comentamos detalladamente en esta sección.

Reducción del uso de CPU en Kafka Broker

Descubrimos que el aprovechamiento de la CPU general es inferior al de su homólogo de DAS, cuando ejecutamos cargas de trabajo similares en dos clústeres de Spermiate Kafka que eran idénticas en sus especificaciones técnicas, pero que diferían en sus tecnologías de almacenamiento. El uso general de la CPU no sólo es inferior cuando el clúster Kafka utiliza almacenamiento ONTAP, sino que, además, el aumento del uso de la CPU ha mostrado un gradiente más suave que en un clúster Kafka basado en DAS.

Configuración de la arquitectura

La siguiente tabla muestra la configuración del entorno utilizada para demostrar la reducción del uso de CPU.

Componente de plataforma	Configuración del entorno
Kafka 3.2.3 herramienta de Benchmarking: OpenMessaging	3 zookeepers – t2.pequeño 3 servidores de broker: i3en.2xlarge 1 x Grafana – c5n.2xgrande 4 x productor/consumidor — c5n.2xgrande
Sistema operativo en todos los nodos	RHEL 8.7 o posterior
Instancia de Cloud Volumes ONTAP de NetApp	Instancia de un solo nodo: M5.2xLarge

Componente de plataforma

Configuración del entorno

Kafka 3.2.3 herramienta de Benchmarking: OpenMessaging

3 zookeepers – t2.pequeño
3 servidores de broker: i3en.2xlarge
1 x Grafana – c5n.2xgrande
4 x productor/consumidor — c5n.2xgrande

Sistema operativo en todos los nodos

RHEL 8.7 o posterior

Instancia de Cloud Volumes ONTAP de NetApp

Instancia de un solo nodo: M5.2xLarge

Herramienta de evaluación comparativa

La herramienta de evaluación comparativa utilizada en este caso de prueba es la "Mensajería abierta" marco. OpenMessaging es independiente del lenguaje y está neutral en todos los proveedores; proporciona directrices del sector para finanzas, comercio electrónico, Internet de las cosas y Big Data; además, ayuda a desarrollar aplicaciones de mensajería y transmisión de datos en sistemas y plataformas heterogéneos. La figura siguiente muestra la interacción de los clientes de OpenMessaging con un clúster Kafka.

Esta imagen muestra la interacción de los clientes de OpenMessaging con un clúster Kafka.

Compute. utilizamos un clúster Kafka de tres nodos con un conjunto de zoomkeeper de tres nodos que se ejecuta en servidores dedicados. Cada agente tenía dos puntos de montaje de NFSv4.1 en un único volumen de la instancia de CVO de NetApp a través de un LIF dedicado.
Supervisión. utilizamos dos nodos para una combinación Prometheus-Grafana. Para generar cargas de trabajo, tenemos un clúster de tres nodos separado que puede producir y consumir a partir de este clúster Kafka.
Almacenamiento. utilizamos una instancia Cloud Volumes ONTAP de NetApp de un solo nodo con seis volúmenes AWS-EBS de 250 GB montados en la instancia. Estos volúmenes se expusieron entonces al clúster Kafka como seis volúmenes de NFSv4.1 mediante LIF dedicadas.
Configuración. los dos elementos configurables en este caso de prueba fueron los agentes Kafka y las cargas de trabajo de OpenMessaging.
- Broker config. las siguientes especificaciones fueron seleccionadas para los corredores Kafka. Utilizamos el factor de replicación 3 para todas las mediciones, tal y como se destaca a continuación.

Esta imagen muestra las especificaciones seleccionadas para los corredores Kafka.

Configuración de carga de trabajo de OpenMessaging Benchmark (OMB). se proporcionaron las siguientes especificaciones. Hemos especificado una tasa de producción objetivo, que se destaca a continuación.

Esta imagen muestra las especificaciones seleccionadas para la configuración de carga de trabajo del punto de referencia de OpenMessaging.

Metodología de las pruebas

Se crearon dos grupos similares, cada uno con su propio conjunto de enjambres de racimo de benchmarking.
- Cluster 1. clúster Kafka basado en NFS.
- Cluster 2. clúster Kafka basado en DAS.

Con un comando OpenMessaging, se activaron cargas de trabajo similares en cada clúster.

sudo bin/benchmark --drivers driver-kafka/kafka-group-all.yaml workloads/1-topic-100-partitions-1kb.yaml

La configuración de la tasa de producción se aumentó en cuatro iteraciones, y se registró un aprovechamiento de la CPU en Grafana. La tasa de producción se ha establecido en los siguientes niveles:
- 10,000
- 40,000
- 80,000
- 100,000

Observación

Se obtienen dos principales ventajas de usar el almacenamiento NFS de NetApp con Kafka:

Puede reducir el uso de la CPU en casi un tercio. el uso general de la CPU en cargas de trabajo similares fue menor para NFS en comparación con los SSD DAS; los ahorros varían de un 5% para tasas de producción más bajas a un 32% para tasas de producción más altas.
* Una reducción de tres veces en la deriva de la utilización de la CPU a tasas de producción más altas.* como se esperaba, hubo una deriva ascendente para el aumento de la utilización de la CPU a medida que se aumentaron las tasas de producción. Sin embargo, el uso de la CPU en los agentes Kafka que utilizan DAS ha aumentado del 31% con la tasa de producción inferior al 70% con la tasa de producción más alta, lo que representa un aumento del 39%. Sin embargo, con un back-end de almacenamiento NFS, el uso de CPU ha aumentado del 26 % al 38 %, lo que representa un aumento del 12 %.

Este gráfico muestra el comportamiento de un clúster basado en DAS.

Este gráfico muestra el comportamiento de un clúster basado en NFS.

Asimismo, en 100,000 mensajes, el almacenamiento DAS muestra más uso de CPU que un clúster NFS.

Este gráfico muestra el comportamiento de un clúster basado en DAS en 100,000 mensajes.

Este gráfico muestra el comportamiento de un clúster basado en NFS en 100,000 mensajes.

Recuperación de agentes más rápida

Descubrimos que los agentes de Kafka se recuperan con mayor rapidez cuando se utiliza el almacenamiento NFS compartido de NetApp. Cuando un agente se bloquea en un clúster de Kafka, este agente se puede reemplazar por un agente en buen estado con un mismo ID de agente. Tras realizar este caso de prueba, descubrimos que, en el caso de un clúster Kafka basado en DAS, el clúster recompila los datos en un nuevo agente de buena salud añadido, lo cual requiere mucho tiempo. En el caso de un clúster Kafka basado en NFS de NetApp, el agente de sustitución sigue leyendo datos del directorio de registros anterior y recupera mucho más rápido.