Skip to main content
Data Infrastructure Insights
La version française est une traduction automatique. La version anglaise prévaut sur la française en cas de divergence.

Collecteur de données Hadoop

Contributeurs netapp-alavoie

Data Infrastructure Insights utilise ce collecteur de données pour collecter des métriques à partir de Hadoop.

Installation

  1. Depuis Observabilité > Collecteurs, cliquez sur +Collecteur de données. Choisissez Hadoop.

    Sélectionnez le système d’exploitation ou la plate-forme sur laquelle l’agent Telegraf est installé.

  2. Si vous n'avez pas encore installé d'agent pour la collecte, ou si vous souhaitez installer un agent pour un autre système d'exploitation ou une autre plate-forme, cliquez sur Afficher les instructions pour développer le"Installation de l'agent" instructions.

  3. Sélectionnez la clé d’accès de l’agent à utiliser avec ce collecteur de données. Vous pouvez ajouter une nouvelle clé d'accès d'agent en cliquant sur le bouton + Clé d'accès d'agent. Meilleure pratique : utilisez une clé d’accès d’agent différente uniquement lorsque vous souhaitez regrouper des collecteurs de données, par exemple par système d’exploitation/plateforme.

  4. Suivez les étapes de configuration pour configurer le collecteur de données. Les instructions varient en fonction du type de système d’exploitation ou de plate-forme que vous utilisez pour collecter des données.

Configuration Hadoop Configuration Hadoop

Installation

Un déploiement Hadoop complet implique les composants suivants :

  • NameNode : le système principal du système de fichiers distribué Hadoop (HDFS). Coordonne une série de DataNodes.

  • NameNode secondaire : un basculement à chaud pour le NameNode principal. Dans Hadoop, la promotion vers NameNode ne se produit pas automatiquement. Le NameNode secondaire collecte les informations du NameNode pour être prêt à être promu en cas de besoin.

  • DataNode : propriétaire actuel des données.

  • ResourceManager : le système de calcul principal (Yarn). Coordonne une série de NodeManagers.

  • NodeManager : la ressource pour le calcul. Emplacement réel d'exécution des applications.

  • JobHistoryServer : responsable du traitement de toutes les demandes liées à l'historique des tâches.

Le plugin Hadoop est basé sur le plugin Jolokia de Telegraf. En tant qu'exigence de collecte d'informations à partir de tous les composants Hadoop, JMX doit être configuré et exposé via Jolokia sur tous les composants.

Compatibilité

La configuration a été développée sur la version Hadoop 2.9.2.

Installation

Agent Jar Jolokia

Pour tous les composants individuels, une version du fichier jar de l'agent Jolokia doit être téléchargée. La version testée était"Agent Jolokia 1.6.0" .

Les instructions ci-dessous supposent que le fichier jar téléchargé (jolokia-jvm-1.6.0-agent.jar) est placé sous l'emplacement « /opt/hadoop/lib/ ».

NomNode

Pour configurer NameNode afin d'exposer l'API Jolokia, vous pouvez configurer les éléments suivants dans <HADOOP_HOME>/etc/hadoop/hadoop-env.sh :

export HADOOP_NAMENODE_OPTS="$HADOOP_NAMENODE_OPTS -javaagent:/opt/hadoop/lib/jolokia-jvm-1.6.0-agent.jar=port=7800,host=0.0.0.0 -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=8000 -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.password.file=$HADOOP_HOME/conf/jmxremote.password"
You can choose a different port for JMX (8000 above) and Jolokia (7800). If you have an internal IP to lock Jolokia onto you can replace the "catch all" 0.0.0.0 by your own IP. Notice this IP needs to be accessible from the telegraf plugin. You can use the option '-Dcom.sun.management.jmxremote.authenticate=false' if you don't want to authenticate. Use at your own risk.

Nom du nœud secondaire

Pour configurer le NameNode secondaire afin d'exposer l'API Jolokia, vous pouvez configurer les éléments suivants dans <HADOOP_HOME>/etc/hadoop/hadoop-env.sh :

export HADOOP_SECONDARYNAMENODE_OPTS="$HADOOP_SECONDARYNAMENODE_OPTS -javaagent:/opt/hadoop/lib/jolokia-jvm-1.6.0-agent.jar=port=7802,host=0.0.0.0 -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=8002 -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.password.file=$HADOOP_HOME/conf/jmxremote.password"
You can choose a different port for JMX (8002 above) and Jolokia (7802). If you have an internal IP to lock Jolokia onto you can replace the "catch all" 0.0.0.0 by your own IP. Notice this IP needs to be accessible from the telegraf plugin. You can use the option '-Dcom.sun.management.jmxremote.authenticate=false' if you don't want to authenticate. Use at your own risk.

Nœud de données

Pour configurer les DataNodes afin d'exposer l'API Jolokia, vous pouvez configurer les éléments suivants dans <HADOOP_HOME>/etc/hadoop/hadoop-env.sh :

export HADOOP_DATANODE_OPTS="$HADOOP_DATANODE_OPTS -javaagent:/opt/hadoop/lib/jolokia-jvm-1.6.0-agent.jar=port=7801,host=0.0.0.0 -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=8001 -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.password.file=$HADOOP_HOME/conf/jmxremote.password"
You can choose a different port for JMX (8001 above) and Jolokia (7801). If you have an internal IP to lock Jolokia onto you can replace the "catch all" 0.0.0.0 by your own IP. Notice this IP needs to be accessible from the telegraf plugin. You can use the option '-Dcom.sun.management.jmxremote.authenticate=false' if you don't want to authenticate. Use at your own risk.

Gestionnaire de ressources

Pour configurer le ResourceManager afin d'exposer l'API Jolokia, vous pouvez configurer les éléments suivants dans <HADOOP_HOME>/etc/hadoop/hadoop-env.sh :

export YARN_RESOURCEMANAGER_OPTS="$YARN_RESOURCEMANAGER_OPTS -javaagent:/opt/hadoop/lib/jolokia-jvm-1.6.0-agent.jar=port=7803,host=0.0.0.0 -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=8003 -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.password.file=$HADOOP_HOME/conf/jmxremote.password"
You can choose a different port for JMX (8003 above) and Jolokia (7803). If you have an internal IP to lock Jolokia onto you can replace the "catch all" 0.0.0.0 by your own IP. Notice this IP needs to be accessible from the telegraf plugin. You can use the option '-Dcom.sun.management.jmxremote.authenticate=false' if you don't want to authenticate. Use at your own risk.

Gestionnaire de nœuds

Pour configurer les NodeManagers afin d'exposer l'API Jolokia, vous pouvez configurer les éléments suivants dans <HADOOP_HOME>/etc/hadoop/hadoop-env.sh :

export YARN_NODEMANAGER_OPTS="$YARN_NODEMANAGER_OPTS -javaagent:/opt/hadoop/lib/jolokia-jvm-1.6.0-agent.jar=port=7804,host=0.0.0.0 -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=8004 -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.password.file=$HADOOP_HOME/conf/jmxremote.password"
You can choose a different port for JMX (8004 above) and Jolokia (7804). If you have an internal IP to lock Jolokia onto you can replace the "catch all" 0.0.0.0 by your own IP. Notice this IP needs to be accessible from the telegraf plugin. You can use the option '-Dcom.sun.management.jmxremote.authenticate=false' if you don't want to authenticate. Use at your own risk.

Serveur d'historique des tâches

Pour configurer le JobHistoryServer afin d'exposer l'API Jolokia, vous pouvez configurer les éléments suivants dans <HADOOP_HOME>/etc/hadoop/hadoop-env.sh :

export HADOOP_JOB_HISTORYSERVER_OPTS="$HADOOP_JOB_HISTORYSERVER_OPTS -javaagent:/opt/hadoop/lib/jolokia-jvm-1.6.0-agent.jar=port=7805,host=0.0.0.0 -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=8005 -Dcom.sun.management.jmxremote.password.file=$HADOOP_HOME/conf/jmxremote.password"
You can choose a different port for JMX (8005 above) and Jolokia (7805). If you have an internal IP to lock Jolokia onto you can replace the "catch all" 0.0.0.0 by your own IP. Notice this IP needs to be accessible from the telegraf plugin. You can use the option '-Dcom.sun.management.jmxremote.authenticate=false' if you don't want to authenticate. Use at your own risk.

Objets et compteurs

Les objets suivants et leurs compteurs sont collectés :

Objet: Identifiants : Attributs:

Nom du nœud secondaire Hadoop

Serveur d'espace de noms de cluster

Nom du nœud IP du nœud Informations de compilation Version

Gestionnaire de nœuds Hadoop

Serveur d'espace de noms de cluster

Nom du nœud IP du nœud

Gestionnaire de ressources Hadoop

Serveur d'espace de noms de cluster

Nom du nœud IP du nœud

Nœud de données Hadoop

Serveur d'espace de noms de cluster

Nom du nœud IP du nœud ID du cluster Version

Nom du nœud Hadoop

Serveur d'espace de noms de cluster

Nom du nœud IP du nœud ID de transaction Dernière heure d'écriture depuis le dernier chargement Modifications État HA État du système de fichiers ID du pool de blocs ID du cluster Informations de compilation Nombre de versions distinctes Version

Serveur d'historique des tâches Hadoop

Serveur d'espace de noms de cluster

Nom du nœud IP du nœud

Dépannage

Des informations complémentaires peuvent être trouvées à partir du"Support" page.