Certificación en Big Data y Análisis de datos

El Científico de Datos (Data Scientist) es un perfil profesional de reciente aparición, relacionado con el mundo del análisis masivo de datos (Big Data). Es uno de los perfiles más demandados y mejor remunerados en el sector informático y, por sus características, está abierto a candidatos de una amplia gama de procedencias y perfiles, ya que la cualidad más apreciada es saber razonar y resolver problemas.

En esencia, el científico de datos es la persona encargada de valorar los problemas que se presentan, comprender sus detalles y proponer una estrategia de resolución que pueda implantarse en una rejilla de procesamiento masivo en paralelo, como las creadas con Hadoop.

Este curso está diseñado para proporcionar los conocimientos necesarios para empezar a trabajar como Científico de Datos y proporcionar los fundamentos de cualquier especialización posterior en Big Data, especialmente en los perfiles de desarrollo. Para ello se centra en tres grandes puntos: el proyecto de Big Data, fundamentos de técnicas de análisis y aprendizaje automático y conceptos básicos en la infraestructura de explotación.

Objetivo

Proporcionar al asistente una visión clara de la naturaleza de los proyectos de Big Data, sus posibilidades, limitaciones y un esquema claro de cómo abordarlos. Adquirir un conocimiento básico de las principales técnicas de análisis numérico y su posterior ejecución en entornos de proceso distribuido con Hadoop y sistemas SQL/NoSQL.

Requisitos

No es necesario tener conocimientos previos de programación en ningún lenguaje. Conviene tener una mínima base de matemáticas, equivalente a la de bachiller o acceso a la universidad. No es obligatorio, pero también conviene tener un conocimiento básico de sistemas UNIX.

Duración

Se recomienda una duración de 40 horas a impartir en una semana intensiva o dos semanas en sesiones de media jornada.

Contenidos

  • Introducción a Big Data.
  • El ciclo de proyecto en el análisis de datos.
  • Introducción a R.
  • Técnicas de análisis: Agrupaciones (Clustering).
  • Técnicas de análisis: Reglas de asociación.
  • Técnicas de análisis: Regresión.
  • Técnicas de análisis: Clasificación.
  • Técnicas de análisis: Análisis temporales.
  • Técnicas de análisis: Análisis de texto.
  • Arquitectura de Hadoop / MapReduce.
  • Análisis en SQL.
  • Fundamentos de visualización en Big Data.
  • Directrices de implantación del proyecto en Big Data.

Material recomendado

El libro de referencia principal es Data Science and Big Data Analytics, de EMC Education Services. Las partes del temario no cubiertas en el libro las complemento con material y presentaciones de preparación propia.

Opciones de certificación

Aunque este temario abarca más temas de los reflejados en la propuesta oficial, prepara por completo a los asistentes para obtener la certificación E20-007 Data Science and Big Data Analytics de Dell EMC.