O conteúdo deste repositório tem como objetivo demonstrar um fluxo de dados para realizar a escrita de dataframes em AWS Bucket S3 dados utilizando como base a tecnologia Apache Spark. Para esta poc foi viabilizado um arquivo csv com informações geradas aleatóriamente.
Como destacado anteriormente, o case foi solucionado com base na tecnologia Spache Spark e outras tecnologias que viabilizaram esta POC:
A organização do código Pyspark utilizada nesta POC seguiu o padrão semelhante a Arquitetura Orientada a Serviços (SOA) evidenciado abaixo. Este padrão contribui para fácil manutenção do código fonte e principalmente para escalabilidade de análises sob o dado coletado.
Este componente tem a responsabilidade de fornecer as estruturas necessárias para a execução desta poc.
Este componente tem como principal responsabilidade extrair os dados necessários para a execução das implementações dadas via regra de negócio.
Este componente tem como principal objetivo padronizar a utilização da Sessão Spark.
Este componente tem como principal responsabilidade padronizar por meio de uma interface o acesso a diversos conjuntos de dados (inicialmente csv, tomado domo exemplo o arquivo alunos.csv)
O case em destaque transforma o a classe transformations.py
em um modelo de coleta, vizualização e disponibilização dos dados
em ambiente Cloud. Para a execução do modelo, foi dado x execuções e os dados para comparações estão armazenados
no diretório architecture/
desde repósitório, assim também como o csv para a viabilização dos dados.