Cette formation est terminée !

Développer des applications pour Hadoop 2.X Hortonworks avec Java (HWJAV)

Du 8 au 11 Décembre 2014

Hortonworks certified training partner 2

lundi 8 décembre 2014

DESCRIPTION

Ce module de formation présente les grands outils de l’écosystème Hadoop d’un point de vue technique et est orienté développement Java. Les objectifs principaux sont d’avoir une parfaite compréhension et pratique du framework d’exécution de calculs MapReduce ainsi que d’être capable de développer des modules d’extensions de Pig et Hive.

OBJECTIFS PÉDAGOGIQUES

  • Identifier et définir les différents composants de l’écosystème Hadoop
  • Appréhender l’architecture de Hadoop 2.X
  • Mettre en application les techniques avancées MapReduce
  • Analyser un use case métier et valoriser les données correspondantes

PUBLIC CIBLE

  • Architecte
  • Développeur
  • Analyste

PRÉ-REQUIS

  • Bonne connaissance du langage Java.

MÉTHODE PÉDAGOGIQUE

Formation avec d’importants apports théoriques, des retours d’expérience du formateur complétés de travaux pratiques sous forme d’exercices d’application et d’analyse de uses cases métier.

PROGRAMME :

Jour 1

  • Comprendre Hadoop 2.X et HDFS

    • Hadoop et Hadoop 2.X

    • Le système de gestion de ressources et de cluster YARN

    • Le système de fichiers distribué HDFS

      • Prise en main de l’environnement de développement Hadoop et accès aux fichiers HDFS

  • Ecrire des applications MapReduce

    • Illustration avec un exemple simple

    • Grands principes du framework MapReduce

    • MapReduce sur YARN

      • Développement de programmes MapReduce

  • Les agrégations avec MapReduce

    • Utilisation des combiners

    • Utilisation de l’in-map agrégation

      • Mise en pratique de l’agrégation à travers deux exemples

Jour 2

  • Partitionnement et tri

    • Le partitioner de MapReduce

    • Analyse et compréhension du Secondary Sort

      • Implémentation de deux types de Partitioner

      • Implémentation du Secondary Sort à travers un cas pratique

  • Input et Output formats

    • Récapitulatifs des formats d’entrée et de sortie standards MapReduce

    • Analyse du fonctionnement d’un input format

      • Implémentations d’un input format et d’un output format

  • Optimiser les jobs MapReduce

    • Optimisation des différentes phases d’un programme MapReduce

    • Utilisation et paramétrage de la compression

    • Utilisation des comparateurs de données non sérialisées

      • Illustration du principe de la compression de données

      • Implémentation d’un RawComparator

Jour 3

  • Fonctionnalités avancées de MapReduce

    • Localisation partagée des données

    • Les différents types de jointure

    • Les filtres de Bloom

      • Illustration d’une jointure côté Map

      • Illustration de l’utilisation d’un filtre de Bloom

  • Tester unitairement son code

    • Présentation de la librairie MRUnit

      • Ecriture de tests unitaires

  • Programmation HBase

    • Architecture de HBase

    • Interactions avec HBase

      • Import de données avec HBase

      • Illustration d’un job MapReduce avec HBase

Jour 4

  • Programmation Pig

    • Types et mots-clés dans Pig

    • Extension de Pig via les classes définies par l’utilisateur (UDF)

      • Implémentation d’une UDF

  • Programmation Hive

    • Types et mots-clés dans Hive

    • Extension de Hive via les classes définies par l’utilisateur (UDF)

      • Implémentation d’une UDF

  • Créer et utiliser un workflow Oozie

    • Workflow et coordinateur Oozie

    • Actions possibles avec Oozie

Lieu
OCTO Technology
50, avenue des Champs Elysées
75008 Paris

Durée : 4 jours

Nombre de participants : 16 max

Intervenants : 1 formateur certifié par Hortonworks

Tarif public / personne* : 2 395 € HT
* OCTO se réserve le droit d’annuler en cas de participation insuffisante.

Voir toutes les formations sur www.octo.academy