Apache Airflow es una plataforma en la que podemos crear flujos de datos de manera programática, planificarlos y monitorear de manera centralizada.
Por Yesi Díaz
3. Historia real
Equipo de finanzas
Script + BD
1:00 am 6:00 am
Actualizar la consulta
Descargar CSV
Ejecutar su script
8:00 am 9:00 am
Validación de los archivos
Generar reporte
Subir a S3
Enviar correo de
confirmación
4. ‣ “Es una plataforma que programáticamente puede crear, planificar y
monitorizar flujos de trabajo (DAGs).”
‣ Secuencias de tareas ejecutadas por una planificación o evento.
‣ Creado en 2014 por Maxime Beauchemin (@mistercrunch).
‣ Sistema de gestión de workflow de Airbnb.
¿Qué es Apache Airflow?
5. ‣ Airflow se unió al programa Incubator de Apache Software Foundation en
marzo de 2016
‣ Anunció Airflow como un proyecto de nivel superior en enero de 2019.
‣ En 2018 se integró en el stack de Google Cloud
¿Qué es Apache Airflow?
8. ‣ Python
‣ Ejecución, planificación y distribución de tareas
‣ Monitoreo, logging y alertas
‣ Pruebas unitarias
‣ Plugins
‣ Interface de línea de comandos (CLI) e Interface de usuario (UI)
Ventajas
9. ‣ No es intuitivo para usuarios nuevos
‣ Configuración del ambiente
‣ Sin soporte nativo para Windows
Desventajas
11. Operadores
‣ DAGs. Describen como ejecutan el flujo de trabajo
‣ Operadores determinan lo que realmente hace una tarea
‣ Pueden compartir comunicación (XComs)
15. Historia real
Equipo de finanzas
Script + BD
1:00 am 6:00 am
Actualizar la consulta
Descargar CSV
Ejecutar su script
8:00 am 9:00 am
Validación de los archivos
Generar reporte
Subir a S3
Enviar correo de
confirmación