Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Add Parnamirim - RN spyder #732

Open
wants to merge 5 commits into
base: main
Choose a base branch
from

Conversation

maykon-oliveira
Copy link

AO ABRIR um Pull Request de um novo raspador (spider), marque com um X cada um dos items do checklist
abaixo. NÃO ABRA um novo Pull Request antes de completar todos os items abaixo.

Checklist - Novo spider

  • Você executou uma extração completa do spider localmente e os dados retornados estavam corretos.
  • Você executou uma extração por período (start_date e end_date definidos) ao menos uma vez e os dados retornados estavam corretos.
  • Você verificou que não existe nenhum erro nos logs (log/ERROR igual a zero).
  • Você definiu o atributo de classe start_date no seu spider com a data do Diário Oficial mais antigo disponível na página da cidade.
  • Você garantiu que todos os campos que poderiam ser extraídos foram extraídos de acordo com a documentação.

Descrição

Closes [#730]

Algumas ressalvas sobre a implementação.

  • Os diários oficias de Parnamirim estão disponíveis em dois domínios diferentes, a data de transição é 17/07/2018.

Após a data de transição, a forma como os diários são disponibilizados muda completamente. Existem dois serviços REST que compõem a arquitetura. O 1º deles serve para obter os meta dados dos diários; id, numero, data de publicação... Por mês. Esses dados são exibidos no frontend. O 2º serviço serve para baixar o PDF do diário, por meio de uma requisição tipo POST passando algumas informações do diário.

  • Ao executar o spyder, alguns logs de erros aparecem quando não é possível baixar o PDF, isso no site antes da transição, devido ao link para os PDF no próprio site do diário está errado, com null. É o caso do dia 03 de Agosto de 2012 por exemplo.
  • Outro caso especial é o dia 01 de Abril de 2014, que é um diário edição especial, mas não tem o numero da edição. Esse campo esta sendo salvo como nulo no banco.

@PolianaQueiroz
Copy link

Gostaria de trabalhar nesse projeto

@maykon-oliveira
Copy link
Author

Opa @PolianaQueiroz , toda ajuda é bem vinda. Acho que você poderia baixar a branch e da uma revisada se está tudo ok também.

@trevineju trevineju linked an issue Oct 17, 2022 that may be closed by this pull request
@trevineju trevineju added the hacktoberfest-accepted Pull Requests aprovados na Hacktoberfest label Oct 17, 2022
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
hacktoberfest-accepted Pull Requests aprovados na Hacktoberfest
Projects
None yet
Development

Successfully merging this pull request may close these issues.

Parnamirim-RN
3 participants