Spark es un motor analítico para el procesamiento de datos a gran escala. Este motor analítico está compuesto por un framework con múltiples librerías que nos permiten tratar y transformar los datos desde múltiples perspectivas como el procesamiento batch, el procesamiento en streaming e incluso el ML.
En este Curso de Procesamiento de datos a gran escala: Spark conoceremos desde un punto de vista práctico cada uno de las librerías de este framework, lo que nos permitirá conocer las interrelaciones de este framework con otros entornos Big Data.
Este curso forma parte del Master en Data Science y Big Data. Si quieres ampliar tu formación, consulta el programa completo.
Spark es un motor analítico para el procesamiento de datos a gran escala. Este motor analítico está compuesto por un framework con múltiples librerías que nos permiten tratar y transformar los datos desde múltiples perspectivas como el procesamiento batch, el procesamiento en streaming e incluso el ML.
En este Curso de Procesamiento de datos a gran escala: Spark conoceremos desde un punto de vista práctico cada uno de las librerías de este framework, lo que nos permitirá conocer las interrelaciones de este framework con otros entornos Big Data.
Este curso forma parte del Master en Data Science y Big Data. Si quieres ampliar tu formación, consulta el programa completo.
Contenidos del curso:
En esta primera clase, nos sumergiremos en el fascinante mundo de Apache Spark, un motor analítico diseñado para el procesamiento de datos a gran escala. Comenzaremos explorando las diferentes librerías que componen Spark y aprenderemos los conceptos básicos de las RDD (Resilient Distributed Datasets). A lo largo de la sesión, abordaremos cómo realizar transformaciones, acciones, shuffle y el uso de variables compartidas con RDD. Además, nos adentraremos en la persistencia de las RDD y el despliegue en un clúster. Para poner en práctica lo aprendido, daremos los primeros pasos con Databricks y realizaremos un caso de uso utilizando esta herramienta.
Comprender qué es Apache Spark y sus diferentes librerías.
Utilizar las RDD (Resilient Distributed Datasets) para procesar datos a gran escala.
Aplicar transformaciones y acciones en Spark, incluyendo shuffle y variables compartidas.
Conocer y aplicar la persistencia de las RDD y su despliegue en un clúster.
Utilizar Databricks para realizar tareas de procesamiento de datos a gran escala.
Aplicar los conocimientos adquiridos en un caso de uso práctico utilizando Databricks.
En esta clase, exploraremos las capacidades de Spark en el manejo de datos estructurados a través de Spark SQL y DataFrames. Comenzaremos entendiendo cómo funcionan las APIs estructuradas y aprenderemos a trabajar con DataFrames, tipos de datos y esquemas. Además, nos adentraremos en el motor SQL distribuido y en la creación de User Functions. Continuaremos explorando GraphX, la biblioteca de Spark para el análisis de grafos, donde aprenderemos a realizar operaciones con grafos y a trabajar en ejercicios prácticos.
Utilizar Spark SQL para el manejo de datos estructurados.
Trabajar con DataFrames, tipos de datos y esquemas en Spark.
Entender el funcionamiento del motor SQL distribuido en Spark.
Crear y aplicar User Functions en Spark.
Realizar análisis de grafos utilizando GraphX.
Aplicar operaciones con grafos y completar ejercicios prácticos.
En esta clase, exploraremos las capacidades de Spark en el ámbito del Machine Learning y el procesamiento de datos en streaming. Comenzaremos con una introducción a MLlib, la biblioteca de Spark para el aprendizaje automático, donde abordaremos algoritmos de aprendizaje supervisado y realizaremos un caso práctico. Continuaremos explorando Spark Streaming, donde aprenderemos a procesar datos en tiempo real. Además, realizaremos un caso práctico para aplicar los conocimientos adquiridos.
Utilizar MLlib para implementar algoritmos de aprendizaje supervisado en Spark.
Aplicar un caso práctico de algoritmos de aprendizaje supervisado utilizando MLlib.
Comprender el funcionamiento de Spark Streaming.
Procesar datos en tiempo real utilizando Spark Streaming.
Aplicar un caso práctico de procesamiento de datos en streaming con Spark.
El 95% de nuestros alumnos está trabajando o emprende cuando finaliza sus estudios
Somos la mayor comunidad de profesionales digitales del mundo
Expertos en formación online: más de 10 años liderando la innovación del elearning
El 95% de nuestros alumnos consiguen mejorar su situación al finalizar sus estudios
Curso de Procesamiento de datos a gran escala: Spark
Curso de Procesamiento de datos a gran escala: Spark