Skip to content

Latest commit

 

History

History
19 lines (10 loc) · 1011 Bytes

README.md

File metadata and controls

19 lines (10 loc) · 1011 Bytes

Artefatos do TCC da Pós-Graduação em Engenharia de Dados da PUC Minas

Conteúdo dos diretórios

dataform: Submódulo que aponta para https://github.com/allan-silva/DE-puc-tcc/tree/main , contendo os arquivos do Dataform, utilizado no workflow de transformação de dados e criação das camadas silver e gold.

referencias: Arquivos utilizados como referência para desenvolver esse trabalho.

spark: Projeto Scala, responsável por fazer a descoberta, conversão e carregamentos dos dados dos arquivos DBC/DBF no Data warehouse.

terraform: Arquivos de provisionamento da infraestrura na GCP.

datasets: Datasets utilizados: CNES(Cadastro Nacional dos estabelecimentos), SIA(Sistema de Informações Ambulatoriais), TabelaUnificada (Tabelas unificadas da complexidade e preço dos procedimentos ambulatoriais).

Libdatasus v1.0.7

Biblioteca de código aberto criada para realizar a conversão de arquivos DBC/DBF para parquet.

Repo: https://github.com/allan-silva/libdatasus