12 Rue de l’Europe

31850 Montrabé

05 34 48 92 23

Administration de clusters Hadoop

Public concerné : Architectes et urbanistes SI, administrateurs systèmes.

Objectifs : A l’issue de ce cours, vous connaîtrez les différents composants d’un cluster Hadoop et saurez dimensionner une solution répondant aux besoins de vos services. Vous saurez mettre en oeuvre les différentes façons de déployer Hadoop, et opérer les outils d’administration et de surveillance pour maintenir un cluster en condition opérationnelle.

Durée : 3 jours

Pré-requis : Connaissance Java, langages de script.

Moyens pédagogiques :
 Support de cours fourni à chaque stagiaire.

Contenu de formation

Introduction aux technologies Big Data :

  • Stockage et traitement de données massives : problèmes et solutions
  • Panorama des technologies NoSQL, bases de données distribuées et en colonnes

Présentation de l’écosystème Hadoop :

  • Coût, performance et evolutivité: promesses et gains effectifs
  • Les composants logiciels majeurs: Zookeeper, HDFS, HBase
  • Les différentes utilisations: comme solution de stockage, d’ETL, de traitement batch

Hadoop par la pratique :

  • Notions de base : HDFS et programmation Map/Reduce
  • TP: Prise en main d’une installation en mode pseudodistribué, commandes de base et manipulation de fichiers sous HDFS

Design d’un cluster Hadoop :

  • Topologie: les différents serveurs et leurs rôles
  • Configuration matérielle
  • Les différentes distributions Hadoop
  • Choix des briques logicielles selon l’usage du cluster
  • Dimensionnement

Provisionnement et déploiement :

  • Déploiement manuel
  • Outils d’automatisation (Chef/Puppet, Whirr/Pallet)
  • Installation d’Hive, Pig, Hbase
  • Configuration et paramétrage
  • TP: Provisionnement et déploiement d’un cluster de taille moyenne

Administration et opération :

  • Gestion des données (backup, localisation et réplication)
  • Gestion des jobs et schedulers
  • Monitoring du cluster
  • Ajout et décommission de noeuds
  • Benchmarks, tuning et optimisation
  • Résolution de problèmes, logging et debugging

Intégration au SI :

  • Stratégies et étapes d’intégration
  • Les différentes couches d’abstraction selon le public utilisateur
  • Connection aux bases de données relationnelles via Sqoop et JDBC
  • Ingestion de données via Flume
  • Interfacer avec les services avals

Hadoop et ses compléments :

  • Forces et faiblesses de la plateforme selon les cas d’utilisation
  • Alternatives et compléments
  • Comment intégrer Hadoop à Storm, Cassandra, Mongo, Giraph.
DEMANDER UN DEVIS ÊTRE RAPPELÉ

Dates inter-entreprises

Top