conferences | speakers | series

FastETL, um pacote ETL para Airflow simples e prático

home

FastETL, um pacote ETL para Airflow simples e prático
Python Brasil 2022

O FastETL é o canivete suiço para o time de Engenharia de Dados. Possui métodos como o copy_db_to_db, simples assim, você informa as conexões de bancos de dados e o método faz a cópia para você.

O [**FastETL**](https://github.com/economiagovbr/FastETL) é um pacote de plugins do Airflow para construção de pipelines de dados para uma variedade de cenários comuns. Principais funcionalidades: * Replicação de tabelas por meio de cópia *full* ou incremental em bancos de dados SQL Server, Postgresql e MySQL * Carga de dados a partir do GSheets * Carga de arquivos na rede Samba/Windows * Extração de CSV a partir do SQL Server * Consulta à API do DOU Este framework é mantido por uma rede de desenvolvedores de diversas equipes do Ministério da Economia e é o resultado acumulado da utilização do Airflow, uma ferramenta de código aberto, desde 2019. ## Pré-requisitos 1. ter o Linux ou Windows WSL instalado 1. Ter o Docker instalado e executando. ## Tabela de Conteúdo 1. Sobre nosso time (5min) 1. Apache Airflow - explicação e instalação da imagem Airflow Docker(30min). 1. Conexão com BD origem (15 min) 1. Conexão com BD destino (15 min) 1. Exemplos cópias (55min)

Speakers: Lucas Benevides Eduardo Lauer