Curso ONLINE

Curso de Procesamiento de datos a gran escala: Spark

Impartido por Alejandro Pérez Pérez, Jefe técnico de proyectos en Fujitshu
Inicio: 16 Enero 2025
1 mes
4.9

Presentación del curso

Spark es un motor analítico para el procesamiento de datos a gran escala. Este motor analítico está compuesto por un framework con múltiples librerías que nos permiten tratar y transformar los datos desde múltiples perspectivas como el procesamiento batch, el procesamiento en streaming e incluso el ML.

En este Curso de Procesamiento de datos a gran escala: Spark conoceremos desde un punto de vista práctico cada uno de las librerías de este framework, lo que nos permitirá conocer las interrelaciones de este framework con otros entornos Big Data.

Este curso forma parte del Master en Data Science y Big Data. Si quieres ampliar tu formación, consulta el programa completo.

Spark es un motor analítico para el procesamiento de datos a gran escala. Este motor analítico está compuesto por un framework con múltiples librerías que nos permiten tratar y transformar los datos desde múltiples perspectivas como el procesamiento batch, el procesamiento en streaming e incluso el ML.

En este Curso de Procesamiento de datos a gran escala: Spark conoceremos desde un punto de vista práctico cada uno de las librerías de este framework, lo que nos permitirá conocer las interrelaciones de este framework con otros entornos Big Data.

Este curso forma parte del Master en Data Science y Big Data. Si quieres ampliar tu formación, consulta el programa completo.

¿Qué aprenderás en este curso?

Al finalizar el Curso de Procesamiento de datos a gran escala: Spark serás perfectamente capaz de:

  • Saber realizar distintos procesamientos tanto en batch como en streaming para la resolución de problemas sobre datos a gran escala.
  • Saber utilizar modelos analíticos de Machine Learning disponibles en Spark.

¿Para quién es este curso?

El Curso de Procesamiento de datos a gran escala: Spark proporciona formación específicamente orientada a los siguientes perfiles:

  • Ingenieros que tengan por objetivo una actualización de sus conocimientos y el desarrollo de nuevas competencias dentro de la Inteligencia Artificial
  • Programadores que tengan por objetivo ampliar sus conocimientos y capacidades en el mundo de la ciencia de datos para su desarrollo profesional
  • Analistas de datos con experiencia que quieran dar el salto a los aspectos más profundos de la tecnología

El curso incluye:

  • 3 clases (1 mes)

  • 3 sprint semanales

  • Masterclass y/o tutorias

  • 1 proyecto

  • Diploma IEBS

  • Bolsa de empleo

Plan de estudios

Contenidos del curso:

  • Bienvenida y presentación
Tema 1: Introducción a Spark y programación en Batch sobre RDDs

Resumen

En esta primera clase, nos sumergiremos en el fascinante mundo de Apache Spark, un motor analítico diseñado para el procesamiento de datos a gran escala. Comenzaremos explorando las diferentes librerías que componen Spark y aprenderemos los conceptos básicos de las RDD (Resilient Distributed Datasets). A lo largo de la sesión, abordaremos cómo realizar transformaciones, acciones, shuffle y el uso de variables compartidas con RDD. Además, nos adentraremos en la persistencia de las RDD y el despliegue en un clúster. Para poner en práctica lo aprendido, daremos los primeros pasos con Databricks y realizaremos un caso de uso utilizando esta herramienta.

Objetivos

  • Comprender qué es Apache Spark y sus diferentes librerías.

  • Utilizar las RDD (Resilient Distributed Datasets) para procesar datos a gran escala.

  • Aplicar transformaciones y acciones en Spark, incluyendo shuffle y variables compartidas.

  • Conocer y aplicar la persistencia de las RDD y su despliegue en un clúster.

  • Utilizar Databricks para realizar tareas de procesamiento de datos a gran escala.

  • Aplicar los conocimientos adquiridos en un caso de uso práctico utilizando Databricks.

Temario

  • Introducción a Spark y programación en Batch sobre RDD
    • Introducción a Apache Spark y sus diferentes librerías
    • Primeros pasos con Spark
    • Introducción a las RDD (Resilient Distributed Datasets)
    • Transformaciones, acciones, shuffle y variables compartidas con RDD
    • Persistencia de las RDD y despliegue en cluster
    • Introducción a Databricks
    • Primeros pasos con Databricks
    • Caso de uso con Databricks
Tema 2: Spark SQL, Dataframes y GraphX

Resumen

En esta clase, exploraremos las capacidades de Spark en el manejo de datos estructurados a través de Spark SQL y DataFrames. Comenzaremos entendiendo cómo funcionan las APIs estructuradas y aprenderemos a trabajar con DataFrames, tipos de datos y esquemas. Además, nos adentraremos en el motor SQL distribuido y en la creación de User Functions. Continuaremos explorando GraphX, la biblioteca de Spark para el análisis de grafos, donde aprenderemos a realizar operaciones con grafos y a trabajar en ejercicios prácticos.

Objetivos

  • Utilizar Spark SQL para el manejo de datos estructurados.

  • Trabajar con DataFrames, tipos de datos y esquemas en Spark.

  • Entender el funcionamiento del motor SQL distribuido en Spark.

  • Crear y aplicar User Functions en Spark.

  • Realizar análisis de grafos utilizando GraphX.

  • Aplicar operaciones con grafos y completar ejercicios prácticos.

Temario

  • Spark SQL, Dataframes y GraphX vista
    • Spark y las APIs Estructuradas
    • Dataframes, tipos de datos y esquemas
    • Motor SQL distribuido y User Functions
    • Ejercicio Práctico con DataFrames
    • Analítica de Grafos
    • Operaciones con Grafos
    • Ejercicios Prácticos con Grafos
Tema 3: Spark Streaming y MLlib

Resumen

En esta clase, exploraremos las capacidades de Spark en el ámbito del Machine Learning y el procesamiento de datos en streaming. Comenzaremos con una introducción a MLlib, la biblioteca de Spark para el aprendizaje automático, donde abordaremos algoritmos de aprendizaje supervisado y realizaremos un caso práctico. Continuaremos explorando Spark Streaming, donde aprenderemos a procesar datos en tiempo real. Además, realizaremos un caso práctico para aplicar los conocimientos adquiridos.

Objetivos

  • Utilizar MLlib para implementar algoritmos de aprendizaje supervisado en Spark.

  • Aplicar un caso práctico de algoritmos de aprendizaje supervisado utilizando MLlib.

  • Comprender el funcionamiento de Spark Streaming.

  • Procesar datos en tiempo real utilizando Spark Streaming.

  • Aplicar un caso práctico de procesamiento de datos en streaming con Spark.

Temario

  • Spark Streaming y MLlib
    • Introducción a MLlib
    • Caso Práctico de Algoritmos de Aprendizaje Supervisado y MLlib
    • Spark Streaming
    • Caso Práctico con Spark Streaming

Experto

Alejandro Pérez Pérez

Jefe técnico de proyectos en Fujitshu

Nuestros alumnos opinan

Orlando Hernández Jiménez, Consultant, Data Scientist and Trainer in BI, ECM, BigData, ML & Blockchain  
Todos los objetivos claros en combinación con dedicación y esfuerzo, darán un extraordinario y satisfactorio resultado. Así que a seguir con los siguientes objetivos #iebs.
Arantxa Martínez Capitán, Técnico BPO en Integra HCM  
En el Postgrado en Business Intelligence & BD he trabajado con herramientas como Alteryx, RapidMiner, MySQL y Microsoft Power BI. Con ellas he ido encajando piezas hasta crear el puzle completo mediante el desarrollo de casos prácticos reales.
Roberto Esteves, Gerente General en Masapp  
Solamente pasaba para compartirles un pequeño éxito, haber terminado el postgrado en el IEBS Business School en "Data Science y Machine Learning", esto me sirve para poder seguir dando mejores capacitaciones.
Juan Manuel Hernández Espinosa, Senior Petroleum Economist & Data Scientist  
¡He disfrutado mucho este viaje! Un logro más, ahora es el momento de aplicar todos los aprendizajes y aprovecharlos en todos los aspectos profesionales!, Gracias IEBS Business School.

¿Por qué elegirnos?

Descubre lo que nos diferencia

95%Empleo

El 95% de nuestros alumnos está trabajando o emprende cuando finaliza sus estudios

Empleo
175kAlumnos

Somos la mayor comunidad de profesionales digitales del mundo

Comunidad
13Años

Expertos en formación online: más de 10 años liderando la innovación del elearning

Experiencia
95%Satisfacción

El 95% de nuestros alumnos consiguen mejorar su situación al finalizar sus estudios

Seguridad

Curso de Procesamiento de datos a gran escala: Spark

U$S 510

  • Big data & IA
Inicio: 16 Enero 2025
1 mes
Online
Ininterrumpido 24/7
Diploma de IEBS

Curso de Procesamiento de datos a gran escala: Spark

U$S 510