Apache Ambari : Un outil qui simplifie la gestion des clusters Hadoop

-
3
 m de lecture
-

Apache Ambari est un programme de la fondation Apache visant à simplifier la gestion, le provisionning et l’audit de clusters Hadoop. Ambari met à disposition une interface web se voulant intuitive et facile d’utilisation, s’appuyant sur ses APIs RESTful.

Qu’est-ce qu’un cluster Hadoop ?

Afin de comprendre Ambari, il est nécessaire de comprendre ce qu’est un cluster Hadoop

Un cluster Hadoop est par définition un groupe d’ordinateurs (appelés nœuds) qui travaillent conjointement pour le stockage et le traitement de données massives non structurées dans un environnement distribué. S’appuyant sur le framework open-source Hadoop, ces données sont traitées en parallèle avec une très grande performance.

Comment est structuré Apache Ambari ?

Ambari est constitué des éléments suivants :

Le serveur Ambari

Il s’agit du point d’entrée pour toutes les tâches administratives sur Ambari. Il s’agit ni plus ni moins que d’un script shell qui utilise du code Python (ambari-server.py).

L’agent Ambari

Un agent est en cours d’exécution sur tous les nœuds que vous souhaitez gérer. Il envoie régulièrement un signal (appelé Heartbeat) au nœud principal. Les différentes tâches envoyées par le serveur transitent via l’agent.

L’interface web Ambari

Une des principale fonctionnalité et également un des point d’orgue d’Ambari est son interface web. Lorsqu’elle est déployée, elle est exposée sur le port 8080, et est protégée par un système d’authentification. Une fois connecté, vous pouvez bien sûr avoir une visualisation et un contrôle total sur vos clusters Hadoop.

La base de données

Ambari prend en charge plusieurs systèmes de gestion de bases de données relationnelles afin de pouvoir suivre l’évolution et l’état de santé de votre infrastructure Hadoop. Lors de la configuration initiale de Ambari, vous serez amené à choisir la base de données que vous souhaitez utiliser. Les bases de données suivantes sont supportées : 

  • PostgreSQL
  • Embedded PostgreSQL
  • Oracle
  • MySQL
  • MariaDb
  • SQL Server
  • SQL Anywhere
  • BerkeleyDB

Fonctionnalités et bénéfices de Ambari

Apache Ambari est riche en fonctionnalités.

image3-3

Apache Ambari peut s’exécuter sur un grand nombre de plateformes (Windows, Mac, Ubuntu, Red Hat, Suse, etc.). Ceci est rendu possible grâce à son architecture indépendante des spécifications hardwares et softwares.

image5-4

Toutes les applications de Ambari peuvent être personnalisées, et les outils et technologies spécifiques doivent être encapsulés dans des composants enfichables.

image7-4

Les versions d’Ambari sont autogérées, et ne nécessitent donc pas d’outils externe de versionning, tel que Git. Il est donc aisé de mettre à jour une application Ambari ou Ambari lui-même.

image4-4

Il est possible d’étendre les fonctionnalités des applications Ambari existantes en ajoutant simplement différents composants de vue.

image8

En cas de panne, votre travail reprendra là où il s’est arrêté, un peu à l’instar d’un document Office suite à un plantage par exemple.

image6-4

Ambari dispose d’une sécurité élevée, pouvant également se synchroniser à un annuaire de type LDAP ou Active Directory.

Utilisation de Ambari

Ambari supporte les principaux composants Hadoop, tels que Hive, Pig, MapReduce, HBase, HDFS, etc. Cependant, il y a également d’autres possibilités d’utilisation, que nous allons voir rapidement : 

  • Provisionning de cluster Hadoop : le provisionning est très aisé grâce à l’assistant et les processus simplifiés
  • Surveillance de vos clusters : la collecte de métriques permet de mettre à disposition un dashboard détaillé de l’état de santé de vos clusters
  • Gestion de vos clusters : via l’interface web, Ambari vous offre une plateforme centrale pour la gestion de vos clusters

Conclusion

Comme nous venons de le voir, Apache Ambari est un outil simple et puissant pour la gestion de vos clusters Hadoop. Son interface utilisateur user-friendly, les étapes d’installations facilitées et son dashboard offrent une expérience intuitive pour les administrateurs système et développeurs d’applications.

Il simplifie grandement la gestion de clusters Hadoop et améliore votre efficacité dans l’ensemble des processus afférant à vos clusters.

Maintenant que vous savez tout sur Apache Ambari et que vous désirez en apprendre un peu plus sur cet outil, choisissez DataScientest. Découvrez nos formations !

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?