Cursos ONLINE

Curso en Arquitecturas distribuidas de Big Data

Impartido por Alejandro Pérez Pérez, Jefe técnico de proyectos en Fujitshu
Inicio: 3 Abril 2025
1 mes
5

Presentación del curso

Como ya hemos estado viendo a lo largo de todo el curso, el principal objetivo del Big Data es el análisis y procesamiento de grandes cantidades de datos que no se puede realizar de manera convencional. Por ello, es tan importante que realicemos un estudio extra del ecosistema donde queremos realizar todos estos procesos, moviéndonos de entornos convencionales a entornos específicos para el tratamiento de estos datos.

Durante este Curso en Arquitecturas distribuidas de Big Data seremos capaces de evaluar las diferentes herramientas disponibles para la obtención de los datos y el tratamiento de estos, y las diferentes combinaciones que podemos hacer entre estas herramientas para conseguir un mayor beneficio de nuestros objetivos.

Este curso forma parte del Master en Data Science y Big Data. Si quieres ampliar tu formación, consulta el programa completo.

Como ya hemos estado viendo a lo largo de todo el curso, el principal objetivo del Big Data es el análisis y procesamiento de grandes cantidades de datos que no se puede realizar de manera convencional. Por ello, es tan importante que realicemos un estudio extra del ecosistema donde queremos realizar todos estos procesos, moviéndonos de entornos convencionales a entornos específicos para el tratamiento de estos datos.

Durante este Curso en Arquitecturas distribuidas de Big Data seremos capaces de evaluar las diferentes herramientas disponibles para la obtención de los datos y el tratamiento de estos, y las diferentes combinaciones que podemos hacer entre estas herramientas para conseguir un mayor beneficio de nuestros objetivos.

Este curso forma parte del Master en Data Science y Big Data. Si quieres ampliar tu formación, consulta el programa completo.

¿Qué aprenderás en este curso?

Al finalizar el Curso en Arquitecturas distribuidas de Big Data serás perfectamente capaz de:

  • Saber analizar y seleccionar las arquitecturas apropiadas y los recursos necesarios para realizar proyectos de Big Data eficientes y ágiles.
  • Saber evaluar herramientas en el mercado y cómo se podrían combinar para la mejora de proceso de los datos en nuestro ecosistema

¿Para quién es este curso?

El Curso en Arquitecturas distribuidas de Big Data proporciona formación específicamente orientada a los siguientes perfiles:

  • Ingenieros que tengan por objetivo una actualización de sus conocimientos y el desarrollo de nuevas competencias dentro de la Inteligencia Artificial
  • Programadores que tengan por objetivo ampliar sus conocimientos y capacidades en el mundo de la ciencia de datos para su desarrollo profesional
  • Analistas de datos con experiencia que quieran dar el salto a los aspectos más profundos de la tecnología

El curso incluye:

  • 3 clases (1 mes)

  • 3 sprint semanales

  • Masterclass y/o tutorias

  • 1 proyecto

  • Diploma IEBS

  • Bolsa de empleo

Plan de estudios

Contenidos del curso:

  • Bienvenida y presentación
Tema 1: Introducción a las Arquitecturas Distribuidas: Paralelización y Map Reduce

Resumen

En esta primera clase, nos sumergimos en los fundamentos de las arquitecturas distribuidas, centrándonos en la paralelización y el modelo Map Reduce. Desde los objetivos generales del módulo hasta definiciones clave y tipos de computación, exploramos conceptos cruciales que forman la base del entendimiento de las arquitecturas distribuidas.

Objetivos

  • Presentar los objetivos generales del módulo y proporcionar una introducción al mundo del Big Data.
  • Analizar conceptos clave como escalabilidad, tolerancia a fallos, distribución geográfica de clústeres, latencia y otros términos relevantes.
  • Diferenciar entre los modelos de computación On Premise, Cloud y Híbrida, explorando sus ventajas y desventajas.
  • Conceptualizar la importancia de la paralelización en arquitecturas distribuidas.
  • Explorar en detalle el paradigma de programación Map Reduce y su papel en el procesamiento distribuido.

Temario

  • Introducción
    • Introducción
  • Definiciones relevantes
    • Definiciones relevantes I
    • Definiciones relevantes II
  • Tipos de Computación
    • Tipos de Computación
  • Paralelización
    • Paralelización
  • ¿Cómo dibujar diagramas de Arquitecturas?
    • ¿Cómo dibujar diagramas de Arquitecturas?
Tema 2: Arquitecturas Lambda y Kappa. Batch vs Streaming.

Resumen

La Clase 2 se centra en explorar las arquitecturas Lambda y Kappa, abordando la dicotomía entre procesamiento Batch y Streaming en el contexto del análisis de datos. Además, se examinan las ventajas e inconvenientes de estas arquitecturas, respaldadas por un estudio de caso real en el entorno de Netflix.

Objetivos

  • Analizar las diferencias entre procesamiento Batch y Streaming.
  • Explorar la Arquitectura Lambda, comprendiendo su estructura y casos de uso.
  • Examinar los principios fundamentales de la Arquitectura Kappa y situaciones en las que destaca.
  • Evaluar las ventajas e inconvenientes de las arquitecturas Lambda y Kappa.
  • Estudiar un caso real: analizar la arquitectura de datos de Netflix desde las perspectivas de Lambda y Kappa.
  • Aplicar queries prácticas en HIVE para procesar y analizar datos.
  • Explorar estrategias de optimización del rendimiento en el uso de HIVE.

Temario

  • Batch vs Streaming
    • Batch vs Streaming
  • Arquitectura Lambda
    • Arquitectura Lambda
  • Ventajas e Inconvenientes de Lambda
    • Ventajas e Inconvenientes de Lambda
  • Arquitectura Kappa
    • Arquitectura Kappa
  • Ventajas e Inconvenientes de Kappa
    • Ventajas e Inconvenientes de Kappa
  • Arquitectura de un caso real: Netflix
    • Arquitectura de un caso real: Netflix
  • HQL y Hive
    • HQL y Hive
  • HQL: Ejemplo práctico de cómo hacer queries en HIVE con datos ficticios
    • HQL: Ejemplo práctico de cómo hacer queries en HIVE con datos ficticios
Tema 3: Gestión de recursos en Arquitecturas Distribuidas

Resumen

Este módulo se centra en el dominio de herramientas fundamentales de la Fundación Apache, con énfasis en HDFS, HIVE, YARN, y ZooKeeper. Cada clase presenta aspectos prácticos y teóricos clave para comprender y aplicar estas herramientas en el contexto del análisis de Big Data. A continuación, se destacan los tres principales objetivos de cada clase. 

Objetivos

  • Comprender las funciones y arquitecturas de HDFS, YARN, y ZooKeeper.
  • Analizar la integración de herramientas para mejorar la eficiencia en el análisis de Big Data.
  • Comprender la importancia de la distribución eficiente de recursos en entornos distribuidos.
  • Analizar las partes clave de un diagrama de YARN y su impacto en la asignación de recursos.
  • Estudiar el enfoque de Netflix como un caso práctico de implementación de arquitecturas distribuidas.
  • Extraer lecciones aprendidas de la experiencia de Netflix en la gestión de Big Data.
  • Recapitular y consolidar los conocimientos adquiridos durante todo el curso.
  • Explorar perspectivas futuras y posibles aplicaciones en el ámbito de arquitecturas distribuidas de Big Data.

Temario

  • Herramientas de la Fundación Apache I
    • Herramientas de la Fundación Apache I
  • Herramientas de la Fundación Apache II
    • Herramientas de la Fundación Apache II
  • Diagramas de colas de YARN
    • Diagramas de colas de YARN
  • Profundizando en YARN
    • Profundizando en YARN
  • Ejemplo de un diagrama real: Netflix
    • Ejemplo de un diagrama real: Netflix
  • Cierre del curso: Conclusiones y resumen del módulo
    • Cierre del curso: Conclusiones y resumen del módulo

Experto

Alejandro Pérez Pérez

Jefe técnico de proyectos en Fujitshu

Nuestros alumnos opinan

Juan Manuel Hernández Espinosa, Senior Petroleum Economist & Data Scientist  
¡He disfrutado mucho este viaje! Un logro más, ahora es el momento de aplicar todos los aprendizajes y aprovecharlos en todos los aspectos profesionales!, Gracias IEBS Business School.
Orlando Hernández Jiménez, Consultant, Data Scientist and Trainer in BI, ECM, BigData, ML & Blockchain  
Todos los objetivos claros en combinación con dedicación y esfuerzo, darán un extraordinario y satisfactorio resultado. Así que a seguir con los siguientes objetivos #iebs.
Roberto Esteves, Gerente General en Masapp  
Solamente pasaba para compartirles un pequeño éxito, haber terminado el postgrado en el IEBS Business School en "Data Science y Machine Learning", esto me sirve para poder seguir dando mejores capacitaciones.
Arantxa Martínez Capitán, Técnico BPO en Integra HCM  
En el Postgrado en Business Intelligence & BD he trabajado con herramientas como Alteryx, RapidMiner, MySQL y Microsoft Power BI. Con ellas he ido encajando piezas hasta crear el puzle completo mediante el desarrollo de casos prácticos reales.

¿Por qué elegirnos?

Descubre lo que nos diferencia

95%Empleo

El 95% de nuestros alumnos está trabajando o emprende cuando finaliza sus estudios

Empleo
175kAlumnos

Somos la mayor comunidad de profesionales digitales del mundo

Comunidad
13Años

Expertos en formación online: más de 10 años liderando la innovación del elearning

Experiencia
95%Satisfacción

El 95% de nuestros alumnos consiguen mejorar su situación al finalizar sus estudios

Seguridad

Curso en Arquitecturas distribuidas de Big Data

U$S 510

  • Big data & IA
Inicio: 3 Abril 2025
1 mes
Online
Ininterrumpido 24/7
Diploma de IEBS

Curso en Arquitecturas distribuidas de Big Data

U$S 510