Implemente o pipeline do PySpark que realiza operações de análise básica nos dados da vacina COVID-19. A amostra de dados para a análise necessária está disponível nos dados na pasta data
dentro de cada step (passo).
country_vaccinations.csv
- O arquivo CSV contém os dados da vacina COVID-19 que foram registrados de acordo com o progresso da vacinação em todo o mundo ao longo do tempo.
- O formato dos dados é
country,date,total_vaccinations,vaccines
country
: país para o qual as informações de vacinação são fornecidasdate
: data para a data de entrada com o formato:d/M/yy
total_vaccinations
: número absoluto de imunizações totais no paísvaccines
: nome da vacina (autoridade nacional, organização internacional, organização local)
- Passo 0 - Início do exercício de criar a pipeline, estrutura inicial -> ir para
- Passo 1 - Estrutura criada. Sessão Spark criada e a criação do primeiro teste -> ir para
- Passo 2 - Criação da primeira função para contar a quantidade de vacinas disponíveis -> ir para
- Passo 3 - Criação da segunda função para obter a primeira vacina dada oficialmente -> ir para
- Passo 4 - Criação da terceira função para obter o total de vacinas por país -> ir para