Projeto desenvolvido durante o Bootcamp Data Engineer para aplicar os conceitos de ETL em um conjunto de dados usando o Python.
Os dados usados nesse projeto foram obtidos da base de dados pública disponibilizada pelo CENIPA. Consiste em dados de ocorrências de acidentes aéreos registrados no período de 2010 a 2020, armazenados no formato CSV.
O processo de ETL está dividido em 3 notebooks neste projeto:
-Fase de extração e validação dos dados: extracao_e_validacao.ipynb
-Fase de limpeza: limpeza.ipynb
-Fase de transformação e agregação: transformacao.ipynb
Project developed during the Data Engineer Bootcamp to practice the ETL concepts in a dataset using Python.
The data used in the project was obtained from CENIPA public database. The data consists of air flight accidents registered between 2010 and 2020 stored in CSV file.
The ETL process is divided in 3 notebooks in this project:
-Extraction and validation fase: extracao_e_validacao.ipynb
-Cleaning fase: limpeza.ipynb
-Transformation and Aggregation fase: transformacao.ipynb