Curso Big Data. Hadoop. Spark

25 horas

Presencial / Virtual Class

Precio por alumno: consultar

Precio de grupo: consultar

Requisitos:

  • Los alumnos necesitarán tener conocimientos de Python, Linux y conocimientos básicos de Hadoop.

Dirigido a:

  • Personas que necesiten administrar un Spark en un entorno Hadoop.

Objetivos:

  • Aprender los componentes de Spark y su integración con Hadoop

  • Consultas avanzadas optimizadas en Spark sobre Hadoop

  • Fundamentos de IA en Apache Spark

Contenidos

1. Introducción y Arquitectura de Spark 3Evolución de Spark a Spark 3

1.1. Arquitectura general y componentes

1.2. Ecosistema Spark 3 (SQL, Structured Streaming, MLlib, GraphFrames)

1.3. Integración con YARN y Standalone

1.4. DAG Scheduler y ejecución distribuida

2. Motor interno y Optimización

2.1. Catalyst Optimizer.

2.2. Rule-Based y Cost-Based Optimization

2.3. Tungsten: vectorización, code generation, gestión de memoria

2.4. Shuffle: impacto y control

2.5. Adaptive Query Execution

3. Primeros pasos con Spark 3

3.1. Spark Session

3.2. Configuración Básica

3.3. Spark Shell

3.4. Trabajo desde IDE

3.5. Uso de Notebooks

4. RDDs

4.1. Concepto de RDD

4.2. Transformaciones y acciones básicas (conceptual)

4.3. PairRDD

4.4. Uso actual RDD

5. Spark SQL y DataFrames

5.1. Creación de Dataframes desde ficheros, BBDD y RDDs

5.2. Gestión de Esquemas

5.3. Funciones principales de los dataframes

5.4. Funciones Window

5.5. UDF

5.6. Cache y Persist

5.7. Particionamiento.

6. Structured Streaming

6.1. Arquitectura Structured Streaming

6.2. Microbatch vs Continuous Processing

6.3. Fuentes: Kafka, ficheros, sockets

6.4. Transformaciones stateless y stateful

6.5. Watermarks y manejo de datos tardíos

6.6. Window operations

6.7. Output sinks

6.8. Paralelismo y tolerancia a fallos

7. Integración con Hadoop, Hive y Cassandra.

7.1. Lectura y escritura sobre HDFS

7.2. Integración con Hive y uso del Metastore

7.3. Spark SQL sobre Hive

7.4. Conector Spark – Cassandra

7.5. Lectura, escritura, joins y pushdown predicates

8. IA y aprendizaje automático en Apache Spark

8.1. Principios y módulos de Machine Learning

8.2. Principios y módulos de Deep Learning

9. Optimización y Buenas Prácticas

9.1. Comprender y controlar el particionado

9.2. Manejo de skew

9.3. Broadcast joins

9.4. Uso moderno de Broadcast y Accumulators

9.5. Adaptive Query Execution tuning

Descarga este curso:

Catálogo de cursos

Conoce nuestra oferta formativa para este año:

Solicítanos más información y/o como subvencionarte este curso con el siguiente formulario:

Curso: Big Data. Hadoop. Spark

Política de privacidad:

Comunicaciones:

6 + 9 =