Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

new spider Monteiro Lobato/SP #1078

Merged
merged 1 commit into from
Mar 17, 2024

Conversation

almeidadm
Copy link
Contributor

AO ABRIR um Pull Request de um novo raspador (spider), marque com um X cada um dos items do checklist
abaixo. NÃO ABRA um novo Pull Request antes de completar todos os items abaixo.

Checklist - Novo spider

  • Você executou uma extração completa do spider localmente e os dados retornados estavam corretos.
  • Você executou uma extração por período (start_date e end_date definidos) ao menos uma vez e os dados retornados estavam corretos.
  • Você verificou que não existe nenhum erro nos logs (log_count/ERROR igual a zero).
  • Você definiu o atributo de classe start_date no seu spider com a data do Diário Oficial mais antigo disponível na página da cidade.
  • Você garantiu que todos os campos que poderiam ser extraídos foram extraídos de acordo com a documentação.

Descrição

O municipio disponibiliza através da plataforma imprensaoficialmunicipal.com.br, portanto foi utilizado a classe DospGazetteSpider.

Logs

log_sp_monteiro_lobato.txt
log_sp_monteiro_lobato.csv

resolve #1071

trevineju

This comment was marked as duplicate.

Copy link
Member

@trevineju trevineju left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Obrigada pela contribuição, @almeidadm! ❤️

Tem requisições para 3 semanas que dão erro 400, todas elas de períodos de virada de ano. Validei que, de fato, não tem diários para essas datas, não sendo um erro de coleta do raspador

2024-02-04 10:29:34 [scrapy.core.engine] DEBUG: Crawled (400) <GET https://dosp.com.br/api/index.php/dioedata.js/5006/2020-12-31/2021-01-06?callback=dioe> (referer: None)
2024-02-04 10:29:34 [scrapy.core.engine] DEBUG: Crawled (400) <GET https://dosp.com.br/api/index.php/dioedata.js/5006/2021-01-07/2021-01-13?callback=dioe> (referer: None)
2024-02-04 10:29:49 [scrapy.core.engine] DEBUG: Crawled (400) <GET https://dosp.com.br/api/index.php/dioedata.js/5006/2021-12-30/2022-01-05?callback=dioe> (referer: None)

@trevineju trevineju merged commit 70a28aa into okfn-brasil:main Mar 17, 2024
1 check passed
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

[Novo spider]: Vale do Paraíba e Litoral Norte (SP)
2 participants