Cursos ONLINE

Curso de Procesamiento de datos a gran escala: Spark

Impartido por Alejandro Pérez Pérez, Cofundador y CTO de HolaChatBot

Inicio: 5 Junio 2025

1 mes

4.7

Presentación del curso

Spark es un motor analítico para el procesamiento de datos a gran escala. Este motor analítico está compuesto por un framework con múltiples librerías que nos permiten tratar y transformar los datos desde múltiples perspectivas como el procesamiento batch, el procesamiento en streaming e incluso el ML.

En este Curso de Procesamiento de datos a gran escala: Spark conoceremos desde un punto de vista práctico cada uno de las librerías de este framework, lo que nos permitirá conocer las interrelaciones de este framework con otros entornos Big Data.

Este curso forma parte del Master en Data Science y Big Data. Si quieres ampliar tu formación, consulta el programa completo.

¿Qué aprenderás en este curso?

Al finalizar el Curso de Procesamiento de datos a gran escala: Spark serás perfectamente capaz de:

Saber realizar distintos procesamientos tanto en batch como en streaming para la resolución de problemas sobre datos a gran escala.
Saber utilizar modelos analíticos de Machine Learning disponibles en Spark.

¿Para quién es este curso?

El Curso de Procesamiento de datos a gran escala: Spark proporciona formación específicamente orientada a los siguientes perfiles:

Ingenieros que tengan por objetivo una actualización de sus conocimientos y el desarrollo de nuevas competencias dentro de la Inteligencia Artificial
Programadores que tengan por objetivo ampliar sus conocimientos y capacidades en el mundo de la ciencia de datos para su desarrollo profesional
Analistas de datos con experiencia que quieran dar el salto a los aspectos más profundos de la tecnología

El curso incluye:

3 clases (1 mes)
3 sprint semanales
Masterclass y/o tutorias
1 proyecto
Diploma IEBS
Bolsa de empleo

Plan de estudios

Contenidos del curso:

Bienvenida y presentación

Tema 1: Introducción a Spark y programación en Batch sobre RDDs

Resumen

En esta primera clase, nos sumergiremos en el fascinante mundo de Apache Spark, un motor analítico diseñado para el procesamiento de datos a gran escala. Comenzaremos explorando las diferentes librerías que componen Spark y aprenderemos los conceptos básicos de las RDD (Resilient Distributed Datasets). A lo largo de la sesión, abordaremos cómo realizar transformaciones, acciones, shuffle y el uso de variables compartidas con RDD. Además, nos adentraremos en la persistencia de las RDD y el despliegue en un clúster. Para poner en práctica lo aprendido, daremos los primeros pasos con Databricks y realizaremos un caso de uso utilizando esta herramienta.

Objetivos

Comprender qué es Apache Spark y sus diferentes librerías.
Utilizar las RDD (Resilient Distributed Datasets) para procesar datos a gran escala.
Aplicar transformaciones y acciones en Spark, incluyendo shuffle y variables compartidas.
Conocer y aplicar la persistencia de las RDD y su despliegue en un clúster.
Utilizar Databricks para realizar tareas de procesamiento de datos a gran escala.
Aplicar los conocimientos adquiridos en un caso de uso práctico utilizando Databricks.

Temario

Introducción a Spark y programación en Batch sobre RDD

Introducción a Apache Spark y sus diferentes librerías
Primeros pasos con Spark
Introducción a las RDD (Resilient Distributed Datasets)
Transformaciones, acciones, shuffle y variables compartidas con RDD
Persistencia de las RDD y despliegue en cluster
Introducción a Databricks
Primeros pasos con Databricks
Caso de uso con Databricks

Tema 2: Spark SQL, Dataframes y GraphX

Resumen

En esta clase, exploraremos las capacidades de Spark en el manejo de datos estructurados a través de Spark SQL y DataFrames. Comenzaremos entendiendo cómo funcionan las APIs estructuradas y aprenderemos a trabajar con DataFrames, tipos de datos y esquemas. Además, nos adentraremos en el motor SQL distribuido y en la creación de User Functions. Continuaremos explorando GraphX, la biblioteca de Spark para el análisis de grafos, donde aprenderemos a realizar operaciones con grafos y a trabajar en ejercicios prácticos.

Objetivos

Utilizar Spark SQL para el manejo de datos estructurados.
Trabajar con DataFrames, tipos de datos y esquemas en Spark.
Entender el funcionamiento del motor SQL distribuido en Spark.
Crear y aplicar User Functions en Spark.
Realizar análisis de grafos utilizando GraphX.
Aplicar operaciones con grafos y completar ejercicios prácticos.

Temario

Spark SQL, Dataframes y GraphX vista

Spark y las APIs Estructuradas
Dataframes, tipos de datos y esquemas
Motor SQL distribuido y User Functions
Ejercicio Práctico con DataFrames
Analítica de Grafos
Operaciones con Grafos
Ejercicios Prácticos con Grafos

Tema 3: Spark Streaming y MLlib

Resumen

En esta clase, exploraremos las capacidades de Spark en el ámbito del Machine Learning y el procesamiento de datos en streaming. Comenzaremos con una introducción a MLlib, la biblioteca de Spark para el aprendizaje automático, donde abordaremos algoritmos de aprendizaje supervisado y realizaremos un caso práctico. Continuaremos explorando Spark Streaming, donde aprenderemos a procesar datos en tiempo real. Además, realizaremos un caso práctico para aplicar los conocimientos adquiridos.

Objetivos

Utilizar MLlib para implementar algoritmos de aprendizaje supervisado en Spark.
Aplicar un caso práctico de algoritmos de aprendizaje supervisado utilizando MLlib.
Comprender el funcionamiento de Spark Streaming.
Procesar datos en tiempo real utilizando Spark Streaming.
Aplicar un caso práctico de procesamiento de datos en streaming con Spark.

Temario

Spark Streaming y MLlib

Introducción a MLlib
Caso Práctico de Algoritmos de Aprendizaje Supervisado y MLlib
Spark Streaming
Caso Práctico con Spark Streaming

Experto

Alejandro Pérez Pérez

Cofundador y CTO de HolaChatBot

Nuestros alumnos opinan

Arantxa Martínez Capitán, Técnico BPO en Integra HCM

En el Postgrado en Business Intelligence & BD he trabajado con herramientas como Alteryx, RapidMiner, MySQL y Microsoft Power BI. Con ellas he ido encajando piezas hasta crear el puzle completo mediante el desarrollo de casos prácticos reales.

Orlando Hernández Jiménez, Consultant, Data Scientist and Trainer in BI, ECM, BigData, ML & Blockchain

Todos los objetivos claros en combinación con dedicación y esfuerzo, darán un extraordinario y satisfactorio resultado. Así que a seguir con los siguientes objetivos #iebs.

Juan Manuel Hernández Espinosa, Senior Petroleum Economist & Data Scientist

¡He disfrutado mucho este viaje! Un logro más, ahora es el momento de aplicar todos los aprendizajes y aprovecharlos en todos los aspectos profesionales!, Gracias IEBS Business School.

Roberto Esteves, Gerente General en Masapp

Solamente pasaba para compartirles un pequeño éxito, haber terminado el postgrado en el IEBS Business School en "Data Science y Machine Learning", esto me sirve para poder seguir dando mejores capacitaciones.

¿Por qué elegirnos?

Descubre lo que nos diferencia

95%Empleo

El 95% de nuestros alumnos está trabajando o emprende cuando finaliza sus estudios

175kAlumnos

Somos la mayor comunidad de profesionales digitales del mundo

15Años

Expertos en formación online: más de 15 años liderando la innovación del elearning

95%Satisfacción

El 95% de nuestros alumnos consiguen mejorar su situación al finalizar sus estudios

Curso de Procesamiento de datos a gran escala: Spark

U$S 510

Big data & IA

Inicio: 5 Junio 2025

1 mes

Online

Ininterrumpido 24/7

Diploma de IEBS

Matricúlate en este curso Solicita información

Curso de Procesamiento de datos a gran escala: Spark

U$S 510

Matricúlate en este curso Solicita información

Los alumnos de este curso también compraron

250h -

Experto en
Analítica Web y Técnicas de Análisis

10h -

Curso en
Transformación digital: Inteligencia Artificial Generativa (genAI) y cloud computing

10h -

Curso en
Estrategia Digital: Cómo lograr ventajas diferenciales con tecnología digital

10h -

Curso en
IA aplicada al Customer experience

10h -

Curso en
Cómo crear agentes inteligentes de IA con Zapier Central

10h -

Curso en
Cómo utilizar la IA Generativa para obtener datos cualitativos de valor

250h -

Experto en
Analítica Web y Técnicas de Análisis

10h -

Curso en
Transformación digital: Inteligencia Artificial Generativa (genAI) y cloud computing

10h -

Cursos ONLINE

Curso de Procesamiento de datos a gran escala: Spark

Presentación del curso

¿Qué aprenderás en este curso?

Al finalizar el Curso de Procesamiento de datos a gran escala: Spark serás perfectamente capaz de:

¿Para quién es este curso?

El Curso de Procesamiento de datos a gran escala: Spark proporciona formación específicamente orientada a los siguientes perfiles:

El curso incluye:

Plan de estudios

Presentación del curso

Clase 1 . Introducción a Spark y programación en batch sobre RDDs

Resumen

Objetivos

Temario

Clase 2 . Spark SQL, Dataframes y GraphX

Resumen

Objetivos

Temario

Clase 3 . Spark Streaming y MLlib

Resumen

Objetivos

Temario

Proyecto: Monitoreo de Calidad del Aire en Ciudades Inteligentes

Experto

Nuestros alumnos opinan

¿Por qué elegirnos?

Descubre lo que nos diferencia

U$S 510

U$S 510

Los alumnos de este curso también compraron

Experto en
Analítica Web y Técnicas de Análisis

Curso en
Transformación digital: Inteligencia Artificial Generativa (genAI) y cloud computing

Curso en
Estrategia Digital: Cómo lograr ventajas diferenciales con tecnología digital

Curso en
IA aplicada al Customer experience

Curso en
Cómo crear agentes inteligentes de IA con Zapier Central

Curso en
Cómo utilizar la IA Generativa para obtener datos cualitativos de valor

Experto en
Analítica Web y Técnicas de Análisis

Curso en
Transformación digital: Inteligencia Artificial Generativa (genAI) y cloud computing

Curso en
Estrategia Digital: Cómo lograr ventajas diferenciales con tecnología digital

¡Participa en una sesión informativa y prueba una clase gratis!

Cursos ONLINE

Curso de Procesamiento de datos a gran escala: Spark

Presentación del curso

¿Qué aprenderás en este curso?

Al finalizar el Curso de Procesamiento de datos a gran escala: Spark serás perfectamente capaz de:

¿Para quién es este curso?

El Curso de Procesamiento de datos a gran escala: Spark proporciona formación específicamente orientada a los siguientes perfiles:

El curso incluye:

Plan de estudios

Presentación del curso

Clase 1 . Introducción a Spark y programación en batch sobre RDDs

Resumen

Objetivos

Temario

Clase 2 . Spark SQL, Dataframes y GraphX

Resumen

Objetivos

Temario

Clase 3 . Spark Streaming y MLlib

Resumen

Objetivos

Temario

Proyecto: Monitoreo de Calidad del Aire en Ciudades Inteligentes

Experto

Nuestros alumnos opinan

¿Por qué elegirnos?

Descubre lo que nos diferencia

U$S 510

U$S 510

Los alumnos de este curso también compraron

Experto en Analítica Web y Técnicas de Análisis

Curso en Transformación digital: Inteligencia Artificial Generativa (genAI) y cloud computing

Curso en Estrategia Digital: Cómo lograr ventajas diferenciales con tecnología digital

Curso en IA aplicada al Customer experience

Curso en Cómo crear agentes inteligentes de IA con Zapier Central

Curso en Cómo utilizar la IA Generativa para obtener datos cualitativos de valor

Experto en Analítica Web y Técnicas de Análisis

Curso en Transformación digital: Inteligencia Artificial Generativa (genAI) y cloud computing

Curso en Estrategia Digital: Cómo lograr ventajas diferenciales con tecnología digital

¡Participa en una sesión informativa y prueba una clase gratis!

Experto en
Analítica Web y Técnicas de Análisis

Curso en
Transformación digital: Inteligencia Artificial Generativa (genAI) y cloud computing

Curso en
Estrategia Digital: Cómo lograr ventajas diferenciales con tecnología digital

Curso en
IA aplicada al Customer experience

Curso en
Cómo crear agentes inteligentes de IA con Zapier Central

Curso en
Cómo utilizar la IA Generativa para obtener datos cualitativos de valor

Experto en
Analítica Web y Técnicas de Análisis

Curso en
Transformación digital: Inteligencia Artificial Generativa (genAI) y cloud computing

Curso en
Estrategia Digital: Cómo lograr ventajas diferenciales con tecnología digital