Databricks (plataforma basada en la nube) y Apache Spark (framework de procesamiento de datos) son en conjunto una completa solución para abordar múltiples aspectos relacionados con el procesamiento y análisis de datos a gran escala. Compatibles con plataformas como Azure, AWS y Google Cloud, a través de las siguientes formaciones es posible conocer las claves para obtener el máximo rendimiento de ambas.
Databricks y Apache Spark para Big Data: de cero a experto
Contiene información teórica, guías de estudio descargables, ejercicios prácticos y casos de uso reales para entender los fundamentos, entornos y la visualización de datos con Databricks. También ofrece contenidos relacionados con Spark RDDs, streaming, dataframes y machine learning.
- Quién: Udemy
- Cuándo: en cualquier momento
- Tipo: online
- Duración: 3 horas 50 minutos
Bootcamp de data engineering con Databricks y Apache Spark
Se centra en el aprendizaje de todo lo relacionado con la ingeniería de datos en Databricks y Apache Spark: las bases de la ingeniería de datos, la programación ETLs, la ingesta de datos, SQL y la analítica avanzada. Repasa, además, otros contenidos como el streaming, delta lake y data warehouse.
- Quién: Udemy
- Cuándo: en cualquier momento
- Tipo: online
- Duración: 3 horas 50 minutos
Microsoft Azure Databricks para la ingeniería de datos
Explica cómo trabajar con grandes cantidades de datos procedentes de múltiples fuentes en diferentes formatos sin procesar. Así, expone los procesos necesarios para crear cargas de trabajo de producción en Azure Databricks con Azure Data Factory o cómo construir y consultar un lago Delta. La formación se completa con conceptos para realizar transformaciones en Data Frame y para entender la arquitectura de un clúster Spark de Azure Databricks y los Spark Jobs.
- Quién: Coursera
- Cuándo: en cualquier momento
- Tipo: online
- Duración: 47 horas
Programa especializado: ciencia de datos para analistas de datos
Su finalidad es formar a analistas que desean conocer estas herramientas para resolver situaciones empresariales reales asociadas a datos. Para ello, se divide en tres bloques con tareas y proyectos prácticos que muestran los flujos de trabajo más populares en la actualidad.
- Quién: Coursera
- Cuándo: en cualquier momento
- Tipo: online
- Duración: 47 horas