Administración de Hadoop

La demanda de técnicos y administradores de Hadoop se ha disparado en los últimos años, dada la necesidad de las empresas de incorporar un departamento de análisis de datos a su estrategia de negocio. Big Data es una gran promesa para mejorar la competitividad y Hadoop es una opción asequible y eficaz para conseguirlo.

El problema es que Hadoop es un conjunto de aplicaciones de servidor, elaboradas en torno a un mecanismo común de comunicación. Es decir, no se trata de un programa desarrollado de forma coherente por una sola entidad, sino la acumulación de proyectos independientes que agregan funciones a dos o tres componentes básicos. Comprender las relaciones, dependencias y funcionalidad de todos esos elementos, así como su instalación y puesta en marcha puede ser bastante complejo.

Este curso está pensado para aquellos que se acercan por primera vez a Hadoop y tienen pocos o ningún conocimiento de esta distribución de software, por lo que nos centramos en las características de Hadoop 1, que introduce los componentes fundamentales (FHDS y MapReduce), así como las tareas más importantes: abstracción de tareas con Pig, instalación del cluster, gestión distribuida con Ambari, etc…

Todos los módulos tienen un enfoque práctico, de forma que el alumno empiece con la instalación y vaya atravesando las tareas típicas de un administrador que deba poner en marcha una infraestructura Big Data con Hadoop.

Objetivo

Proporcionar al alumno una comprensión clara de la arquitectura de Hadoop, el funcionamiento de sus componentes principales y la forma de combinarlos con otros elementos para poner en marcha un sistema funcional.

Requisitos

Es imprescindible tener un conocimiento medio de administración de sistemas UNIX y redes TCP/IP. Las prácticas del curso incluyen numerosos ejercicios de instalación y configuración de componentes, por lo que hay que tener soltura en el trabajo con el shell, así como el editor Vi. También es importante, aunque no tan crítico, algunos conocimientos de bases de datos SQL.

Duración

Se recomienda una duración de 60 horas a impartir en dos semanas intensivas o tres semanas en sesiones de media jornada.

Contenidos

  • Arquitectura de Hadoop
  • Creación del cluster básico en AWS
  • Recolección de datos (Nutch, Solr)
  • Procesamiento de datos (MapReduce, Pig)
  • Coordinación de trabajos (Oozie)
  • Movimiento de datos (Squoop, Flume)
  • Administración distribuida (Ambari, Zookeeper)
  • Monitorización del sistema (Ganglia)
  • Infraestructuras Data Warehouse con Hadoop (Hive)
  • Análisis de datos (Impala)
  • Informes (Talend Reports)
  • Seguridad del sistema (Knox)
  • Operaciones ETL (Pentaho, Talend)
  • Virtualización de Hadoop (VMWare ESX)
  • Alternativas a MapReduce (Spark)

Material recomendado

El libro de referencia principal es Big Data Made Easy, de Michael Frampton. Las partes del temario no cubiertas en el libro las complemento con material y presentaciones de preparación propia.

Opciones de certificación

No hay opciones de certificación para este temario.