18, Avenue de l’Europe – Parc technologique du Canal

31520 Ramonville-Saint-Agne

05 61 32 99 49

Administration de clusters Hadoop

Référence F172061
Prix par personne en présentiel ou distanciel 1950 €
Session ouverte A partir de 2 personnes
Intra-entreprise Nous consulter

Public concerné : Architectes et urbanistes SI, administrateurs systèmes.

Objectifs : A l’issue de ce cours, vous connaîtrez les différents composants d’un cluster Hadoop et saurez dimensionner une solution répondant aux besoins de vos services. Vous saurez mettre en oeuvre les différentes façons de déployer Hadoop, et opérer les outils d’administration et de surveillance pour maintenir un cluster en condition opérationnelle.

Durée : 3 jours

Prérequis : Connaissance Java, langages de script.

Méthodes et moyens pédagogiques : Formation réalisée en présentiel ou en distanciel (Choix à définir). Exposés, cas pratiques, synthèse. Matériel : 1 poste par stagiaire, vidéoprojecteur, tableau.

Support de cours fourni à chaque stagiaire.

Modalités de suivi et d’évaluation : Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires. Questionnaire d’évaluation de la satisfaction en fin de stage.  Feuille de présence émargée par demi-journée par les stagiaires et le formateur. Attestation de fin de formation.

Informations pratiques : Accessibilité , modalités et délais d’accès.

Contenu de formation

Introduction aux technologies Big Data :

  • Stockage et traitement de données massives : problèmes et solutions
  • Panorama des technologies NoSQL, bases de données distribuées et en colonnes

Présentation de l’écosystème Hadoop :

  • Coût, performance et evolutivité: promesses et gains effectifs
  • Les composants logiciels majeurs: Zookeeper, HDFS, HBase
  • Les différentes utilisations: comme solution de stockage, d’ETL, de traitement batch

Hadoop par la pratique :

  • Notions de base : HDFS et programmation Map/Reduce
  • TP: Prise en main d’une installation en mode pseudodistribué, commandes de base et manipulation de fichiers sous HDFS

Design d’un cluster Hadoop :

  • Topologie: les différents serveurs et leurs rôles
  • Configuration matérielle
  • Les différentes distributions Hadoop
  • Choix des briques logicielles selon l’usage du cluster
  • Dimensionnement

Provisionnement et déploiement :

  • Déploiement manuel
  • Outils d’automatisation (Chef/Puppet, Whirr/Pallet)
  • Installation d’Hive, Pig, Hbase
  • Configuration et paramétrage
  • TP: Provisionnement et déploiement d’un cluster de taille moyenne

Administration et opération :

  • Gestion des données (backup, localisation et réplication)
  • Gestion des jobs et schedulers
  • Monitoring du cluster
  • Ajout et décommission de noeuds
  • Benchmarks, tuning et optimisation
  • Résolution de problèmes, logging et debugging

Intégration au SI :

  • Stratégies et étapes d’intégration
  • Les différentes couches d’abstraction selon le public utilisateur
  • Connection aux bases de données relationnelles via Sqoop et JDBC
  • Ingestion de données via Flume
  • Interfacer avec les services avals

Hadoop et ses compléments :

  • Forces et faiblesses de la plateforme selon les cas d’utilisation
  • Alternatives et compléments
  • Comment intégrer Hadoop à Storm, Cassandra, Mongo, Giraph.

Demandes intra-entreprise et en distanciel

DEMANDER UN DEVIS ÊTRE RAPPELÉ
Top