O português é fornecido por meio de tradução automática para sua conveniência. O inglês precede o português em caso de inconsistências.

Por que usar o NetApp NFS para cargas de trabalho do Kafka?

08/18/2025 Colaboradores

PDFs

Agora que há uma solução para o problema bobo de renomeação no armazenamento NFS com o Kafka, você pode criar implantações robustas que aproveitam o armazenamento NetApp ONTAP para sua carga de trabalho do Kafka. Isso não apenas reduz significativamente a sobrecarga operacional, mas também traz os seguintes benefícios aos seus clusters Kafka:

Utilização reduzida da CPU em corretores Kafka. O uso do armazenamento NetApp ONTAP desagregado separa as operações de E/S de disco do broker e, portanto, reduz sua pegada de CPU.
Tempo de recuperação mais rápido do corretor. Como o armazenamento desagregado do NetApp ONTAP é compartilhado entre os nós do broker do Kafka, uma nova instância de computação pode substituir um broker defeituoso a qualquer momento em uma fração do tempo em comparação às implantações convencionais do Kafka, sem reconstruir os dados.
Eficiência de armazenamento. Como a camada de armazenamento do aplicativo agora é provisionada pelo NetApp ONTAP, os clientes podem aproveitar todos os benefícios da eficiência de armazenamento que vem com o ONTAP, como compactação, desduplicação e compactação de dados em linha.

Esses benefícios foram testados e validados em casos de teste que discutimos em detalhes nesta seção.

Utilização reduzida da CPU no broker Kafka

Descobrimos que a utilização geral da CPU é menor do que a do DAS quando executamos cargas de trabalho semelhantes em dois clusters Kafka separados que eram idênticos em suas especificações técnicas, mas diferiam em suas tecnologias de armazenamento. Não apenas a utilização geral da CPU é menor quando o cluster Kafka usa armazenamento ONTAP , mas o aumento na utilização da CPU demonstrou um gradiente mais suave do que em um cluster Kafka baseado em DAS.

Configuração arquitetônica

A tabela a seguir mostra a configuração ambiental usada para demonstrar a utilização reduzida da CPU.

Componente de plataforma	Configuração do ambiente
Ferramenta de benchmarking do Kafka 3.2.3: OpenMessaging	3 tratadores de zoológico – t2.small 3 servidores de corretor – i3en.2xlarge 1 x Grafana – c5n.2xgrande 4 x Produtor/Consumidor — c5n.2xlarge
Sistema operacional em todos os nós	RHEL 8.7 ou posterior
Instância NetApp Cloud Volumes ONTAP	Instância de nó único – M5.2xLarge

Componente de plataforma

Configuração do ambiente

Ferramenta de benchmarking do Kafka 3.2.3: OpenMessaging

3 tratadores de zoológico – t2.small
3 servidores de corretor – i3en.2xlarge
1 x Grafana – c5n.2xgrande
4 x Produtor/Consumidor — c5n.2xlarge

Sistema operacional em todos os nós

RHEL 8.7 ou posterior

Instância NetApp Cloud Volumes ONTAP

Instância de nó único – M5.2xLarge

Ferramenta de benchmarking

A ferramenta de benchmarking usada neste caso de teste é a "Mensagens abertas" estrutura. O OpenMessaging é neutro em relação a fornecedores e independente de linguagem; ele fornece diretrizes do setor para finanças, comércio eletrônico, IoT e big data; e ajuda a desenvolver aplicativos de mensagens e streaming em sistemas e plataformas heterogêneos. A figura a seguir descreve a interação de clientes do OpenMessaging com um cluster Kafka.

Esta imagem descreve a interação de clientes OpenMessaging com um cluster Kafka.

Calcular. Usamos um cluster Kafka de três nós com um conjunto zookeeper de três nós em execução em servidores dedicados. Cada broker tinha dois pontos de montagem NFSv4.1 em um único volume na instância NetApp CVO por meio de um LIF dedicado.
Monitoramento. Usamos dois nós para uma combinação Prometheus-Grafana. Para gerar cargas de trabalho, temos um cluster separado de três nós que pode produzir e consumir deste cluster Kafka.
Armazenar. Usamos uma instância ONTAP de volumes NetApp Cloud de nó único com seis volumes GP2 AWS-EBS de 250 GB montados na instância. Esses volumes foram então expostos ao cluster Kafka como seis volumes NFSv4.1 por meio de LIFs dedicados.
Configuração. Os dois elementos configuráveis neste caso de teste foram os corretores Kafka e as cargas de trabalho do OpenMessaging.
- Configuração do corretor As seguintes especificações foram selecionadas para os corretores Kafka. Utilizamos um fator de replicação de 3 para todas as medições, conforme destacado abaixo.

Esta imagem descreve as especificações selecionadas para os corretores Kafka.

Configuração de carga de trabalho do benchmark OpenMessaging (OMB). As seguintes especificações foram fornecidas. Especificamos uma taxa de produtor alvo, destacada abaixo.

Esta imagem descreve as especificações selecionadas para a configuração da carga de trabalho do benchmark OpenMessaging.

Metodologia de testes

Dois clusters semelhantes foram criados, cada um com seu próprio conjunto de enxames de clusters de referência.
- Grupo 1. Cluster Kafka baseado em NFS.
- Grupo 2. Cluster Kafka baseado em DAS.

Usando um comando OpenMessaging, cargas de trabalho semelhantes foram acionadas em cada cluster.

sudo bin/benchmark --drivers driver-kafka/kafka-group-all.yaml workloads/1-topic-100-partitions-1kb.yaml

A configuração da taxa de produção foi aumentada em quatro iterações, e a utilização da CPU foi registrada com o Grafana. A taxa de produção foi definida nos seguintes níveis:
- 10.000
- 40.000
- 80.000
- 100.000

Observação

Há dois benefícios principais em usar o armazenamento NetApp NFS com o Kafka:

Você pode reduzir o uso da CPU em quase um terço. O uso geral da CPU em cargas de trabalho semelhantes foi menor para NFS em comparação aos SSDs DAS; a economia variou de 5% para taxas de produção mais baixas a 32% para taxas de produção mais altas.
Uma redução de três vezes no desvio de utilização da CPU em taxas de produção mais altas. Como esperado, houve um aumento na utilização da CPU à medida que as taxas de produção foram aumentadas. No entanto, a utilização da CPU em corretores Kafka usando DAS aumentou de 31% para a menor taxa de produção para 70% para a maior taxa de produção, um aumento de 39%. No entanto, com um backend de armazenamento NFS, a utilização da CPU aumentou de 26% para 38%, um aumento de 12%.

Este gráfico descreve o comportamento de um cluster baseado em DAS.

Este gráfico descreve o comportamento de um cluster baseado em NFS.

Além disso, com 100.000 mensagens, o DAS mostra mais utilização de CPU do que um cluster NFS.

Este gráfico descreve o comportamento de um cluster baseado em DAS em 100.000 mensagens.

Este gráfico descreve o comportamento de um cluster baseado em NFS em 100.000 mensagens.

Recuperação mais rápida do corretor

Descobrimos que os corretores do Kafka se recuperam mais rápido quando usam armazenamento NFS compartilhado da NetApp . Quando um broker falha em um cluster do Kafka, esse broker pode ser substituído por um broker íntegro com o mesmo ID de broker. Ao executar este caso de teste, descobrimos que, no caso de um cluster Kafka baseado em DAS, o cluster reconstrói os dados em um broker saudável recém-adicionado, o que consome tempo. No caso de um cluster Kafka baseado em NetApp NFS, o broker substituto continua lendo dados do diretório de log anterior e se recupera muito mais rápido.