Référence | F172061 |
Prix par personne en présentiel ou distanciel | 1550 € |
Session ouverte | A partir de 2 personnes |
Intra-entreprise | Nous consulter |
Public concerné : Architectes et urbanistes SI, administrateurs systèmes.
Objectifs : A l’issue de ce cours, vous connaîtrez les différents composants d’un cluster Hadoop et saurez dimensionner une solution répondant aux besoins de vos services. Vous saurez mettre en oeuvre les différentes façons de déployer Hadoop, et opérer les outils d’administration et de surveillance pour maintenir un cluster en condition opérationnelle.
Durée : 3 jours
Prérequis : Connaissance Java, langages de script.
Méthodes et moyens pédagogiques : Formation réalisée en présentiel ou en distanciel (Choix à définir). Exposés, cas pratiques, synthèse. Matériel : 1 poste par stagiaire, vidéoprojecteur, tableau.
Support de cours fourni à chaque stagiaire.
Modalités de suivi et d’évaluation : Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires. Questionnaire d’évaluation de la satisfaction en fin de stage. Feuille de présence émargée par demi-journée par les stagiaires et le formateur. Attestation de fin de formation.
Informations pratiques : Accessibilité , modalités et délais d’accès.
Contenu de formation
Introduction aux technologies Big Data :
- Stockage et traitement de données massives : problèmes et solutions
- Panorama des technologies NoSQL, bases de données distribuées et en colonnes
Présentation de l’écosystème Hadoop :
- Coût, performance et evolutivité: promesses et gains effectifs
- Les composants logiciels majeurs: Zookeeper, HDFS, HBase
- Les différentes utilisations: comme solution de stockage, d’ETL, de traitement batch
Hadoop par la pratique :
- Notions de base : HDFS et programmation Map/Reduce
- TP: Prise en main d’une installation en mode pseudodistribué, commandes de base et manipulation de fichiers sous HDFS
Design d’un cluster Hadoop :
- Topologie: les différents serveurs et leurs rôles
- Configuration matérielle
- Les différentes distributions Hadoop
- Choix des briques logicielles selon l’usage du cluster
- Dimensionnement
Provisionnement et déploiement :
- Déploiement manuel
- Outils d’automatisation (Chef/Puppet, Whirr/Pallet)
- Installation d’Hive, Pig, Hbase
- Configuration et paramétrage
- TP: Provisionnement et déploiement d’un cluster de taille moyenne
Administration et opération :
- Gestion des données (backup, localisation et réplication)
- Gestion des jobs et schedulers
- Monitoring du cluster
- Ajout et décommission de noeuds
- Benchmarks, tuning et optimisation
- Résolution de problèmes, logging et debugging
Intégration au SI :
- Stratégies et étapes d’intégration
- Les différentes couches d’abstraction selon le public utilisateur
- Connection aux bases de données relationnelles via Sqoop et JDBC
- Ingestion de données via Flume
- Interfacer avec les services avals
Hadoop et ses compléments :
- Forces et faiblesses de la plateforme selon les cas d’utilisation
- Alternatives et compléments
- Comment intégrer Hadoop à Storm, Cassandra, Mongo, Giraph.