Curso Análisis de datos con PYTHON
30 horas
Presencial / Virtual Class
Precio por alumno: consultar
Precio de grupo: consultar
Requisitos:
Profesionales que necesiten realizar análisis de datos con Python.
Dirigido a:
Este curso está dirigido a científicos de datos, analistas de datos, ingenieros de software y cualquier profesional tecnológico que tenga experiencia básica en programación y estadística y desee profundizar en el Aprendizaje Automático y la modelización predictiva.
Objetivos:
- Manejar arrays NumPy con indexación avanzada, broadcasting y operaciones vectorizadas.
- Construir y transformar DataFrames con selección robusta, limpieza y agregación.
- Crear Tablas Dinámicas con pivot_table para responder preguntas de negocio.
- Combinar datasets con merge/join/concat de forma segura y eficiente.
- Optimizar memoria/tiempo y trabajar con datos medianos a grandes mediante chunksize.
Contenidos
1. Preparación y repaso focalizado
1.1. Entorno: venv/uv, Jupyter/VS Code, organización de proyectos.
1.2. Repaso Python para data: comprensión de listas, funciones, módulos, f-strings.
1.3. Buenas prácticas: reproducibilidad, seeds, lectura eficiente.
2. NumPy: Arrays y operaciones
2.1. Arrays n-dimensionales: creación, dtype, shape, reshape, ravel, copias vs vistas.
2.2. Indexación y slicing avanzados: boolean masking, fancy indexing, np.where, np.take.
2.3. Operaciones matemáticas vectorizadas y broadcasting; ufuncs; agregaciones(sum, mean, axis).
2.4. Álgebra lineal básica: dot, matmul, linalg (normas, inversa, descomposiciones comunes).
2.5. Aleatoriedad y muestreo: numpy.random moderno, generación reproducible.
2.6. Rendimiento: memoria contigua, strides, evitar bucles, comparación con listas.
3. Pandas: Introducción operativa (Series/DataFrame)
3.1. Estructuras: Series vs DataFrame, índices, tipos (category, datetime64).
3.2. Creación y selección: loc, iloc, selección booleana, asignación segura (.loc).
3.3. E/S de datos: lectura y escritura de CSV, Excel, Parquet, JSON; opciones de parseo; compresión.
3.4. Exploración inicial: info, describe, value_counts, memory_usage.
4. Limpieza y manipulación de datos
4.1. Valores faltantes: isna, fillna, dropna, imputación simple; duplicados.
4.2. Transformaciones: assign, pipe, rename, astype, cut/qcut, strings (.str), fechas (.dt).
4.3. Reindexado y ordenación: set_index/reset_index, sort_values/index.
4.4. Agrupación y agregación: groupby con múltiples funciones; agg, transform, filter.
4.5. Pivoting: pivot, pivot_table (Tablas Dinámicas), margins, values, funciones de agregación.
4.6. Reshape y combinación: melt, stack/unstack, MultiIndex básico.
5. Combinación de DataFrames
5.1. Joins y merges: merge (inner/left/right/outer), on, left_on/right_on, suffixes.
5.2. join por índice; concat por filas/columnas; append deprecado y alternativas.
5.3. Resolución de claves duplicadas y conflictos; validación de cardinalidad
5.4. (validate=).
5.5. Comparación y alineación: compare, update, combine_first.
5.6. Patrones con datos grandes: concatenación incremental, esquemas de partición, tipos eficientes.
6. Rendimiento y escalado práctico
6.1. Tipificación eficiente (categoricals, Int64 nullable), memoria y inplace vs copia.
6.2. Vectorización en Pandas vs apply; cuándo usar NumPy directo.
6.3. Lectura por chunks, chunksize y pipelines; escritura a Parquet para velocidad.
6.4. Profiling básico: %%timeit, memory_usage, cuellos de botella comunes.
6.5. Ingesta multi-formato (CSV/Parquet), limpieza y normalización tipológica.
6.6. Enriquecimiento con merges y joins.
6.7. Análisis con groupby y pivot_table (KPIs, cohortes o panel por categorías/tiempo).
6.8. Exportación de resultados y breve visualización con Pandas (plot) o entrega tabular.
6.9. Revisión de buenas prácticas y checklist de calidad.
Catálogo de cursos
Conoce nuestra oferta formativa para este año:
