Curso Big Data. Hadoop. Spark
25 horas
Presencial / Virtual Class
Precio por alumno: consultar
Precio de grupo: consultar
Requisitos:
Los alumnos necesitarán tener conocimientos de Python, Linux y conocimientos básicos de Hadoop.
Dirigido a:
Personas que necesiten administrar un Spark en un entorno Hadoop.
Objetivos:
Aprender los componentes de Spark y su integración con Hadoop
Consultas avanzadas optimizadas en Spark sobre Hadoop
Fundamentos de IA en Apache Spark
Contenidos
1. Introducción y Arquitectura de Spark 3Evolución de Spark a Spark 3
1.1. Arquitectura general y componentes
1.2. Ecosistema Spark 3 (SQL, Structured Streaming, MLlib, GraphFrames)
1.3. Integración con YARN y Standalone
1.4. DAG Scheduler y ejecución distribuida
2. Motor interno y Optimización
2.1. Catalyst Optimizer.
2.2. Rule-Based y Cost-Based Optimization
2.3. Tungsten: vectorización, code generation, gestión de memoria
2.4. Shuffle: impacto y control
2.5. Adaptive Query Execution
3. Primeros pasos con Spark 3
3.1. Spark Session
3.2. Configuración Básica
3.3. Spark Shell
3.4. Trabajo desde IDE
3.5. Uso de Notebooks
4. RDDs
4.1. Concepto de RDD
4.2. Transformaciones y acciones básicas (conceptual)
4.3. PairRDD
4.4. Uso actual RDD
5. Spark SQL y DataFrames
5.1. Creación de Dataframes desde ficheros, BBDD y RDDs
5.2. Gestión de Esquemas
5.3. Funciones principales de los dataframes
5.4. Funciones Window
5.5. UDF
5.6. Cache y Persist
5.7. Particionamiento.
6. Structured Streaming
6.1. Arquitectura Structured Streaming
6.2. Microbatch vs Continuous Processing
6.3. Fuentes: Kafka, ficheros, sockets
6.4. Transformaciones stateless y stateful
6.5. Watermarks y manejo de datos tardíos
6.6. Window operations
6.7. Output sinks
6.8. Paralelismo y tolerancia a fallos
7. Integración con Hadoop, Hive y Cassandra.
7.1. Lectura y escritura sobre HDFS
7.2. Integración con Hive y uso del Metastore
7.3. Spark SQL sobre Hive
7.4. Conector Spark – Cassandra
7.5. Lectura, escritura, joins y pushdown predicates
8. IA y aprendizaje automático en Apache Spark
8.1. Principios y módulos de Machine Learning
8.2. Principios y módulos de Deep Learning
9. Optimización y Buenas Prácticas
9.1. Comprender y controlar el particionado
9.2. Manejo de skew
9.3. Broadcast joins
9.4. Uso moderno de Broadcast y Accumulators
9.5. Adaptive Query Execution tuning
Catálogo de cursos
Conoce nuestra oferta formativa para este año:
