-
-
Notifications
You must be signed in to change notification settings - Fork 407
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Novo spider base]: Barco Digital #1016
Labels
maintenance
Demanda de manutenção
priority
Issue endereça algo prioritário
spider-base
Adiciona robô raspador para um padrão
Milestone
Comments
trevineju
added
spider
Adiciona robô raspador para município(s)
enhancement
Melhoria, novo recurso ou ferramenta
labels
Nov 2, 2023
trevineju
added
production
Esse problema afeta o que está em produção
priority
Issue endereça algo prioritário
labels
Jun 17, 2024
Esta issue endereça também um problema de manutenção para o município de Araguaína-TO |
trevineju
added
maintenance
Demanda de manutenção
and removed
production
Esse problema afeta o que está em produção
labels
Jun 17, 2024
Boa noite! To trabalhando nessa issue. @trevineju |
14 tasks
ogecece
added a commit
that referenced
this issue
Aug 7, 2024
PR feito em colaboração com @adellylima, @r-lelis, @heitorado, @cjasm, @cacoze, @yamawakimiho **AO ABRIR** uma *Pull Request* de um novo raspador (*spider*), marque com um `X` cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo. #### Layout do site publicador de diários oficiais Marque apenas um dos itens a seguir: - [ ] O *layout* não se parece com nenhum caso [da lista de *layouts* padrão](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/lista-sistemas-replicaveis.html) - [X] É um *layout* padrão e esta PR adiciona a spider base do padrão ao projeto junto com alguns municípios que fazem parte do padrão. - [ ] É um *layout* padrão e todos os municípios adicionados usam a [classe de spider base](https://github.com/okfn-brasil/querido-diario/tree/main/data_collection/gazette/spiders/base) adequada para o padrão. #### Código da(s) spider(s) - [X] O(s) raspador(es) adicionado(s) tem os [atributos de classe exigidos](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#UFMunicipioSpider). - [x] O(s) raspador(es) adicionado(s) cria(m) objetos do tipo Gazette coletando todos [os metadados necessários](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#Gazette). - [x] O atributo de classe [start_date](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#UFMunicipioSpider.start_date) foi preenchido com a data da edição de diário oficial mais antiga disponível no site. - [x] Explicitar o atributo de classe [end_date](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#UFMunicipioSpider.end_date) não se fez necessário. - [x] Não utilizo `custom_settings` em meu raspador. #### Testes - [x] Uma coleta-teste **da última edição** foi feita. O arquivo de `.log` deste teste está anexado na PR. - [x] Uma coleta-teste **por intervalo arbitrário** foi feita. Os arquivos de `.log`e `.csv` deste teste estão anexados na PR. - [x] Uma coleta-teste **completa** foi feita. Os arquivos de `.log` e `.csv` deste teste estão anexados na PR. #### Verificações - [x] Eu experimentei abrir alguns arquivos de diários oficiais coletados pelo meu raspador e verifiquei eles [conforme a documentação](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#diarios-oficiais-coletados) não encontrando problemas. - [x] Eu verifiquei os arquivos `.csv` gerados pela minha coleta [conforme a documentação](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#arquivos-auxiliares) não encontrando problemas. - [x] Eu verifiquei os arquivos de `.log` gerados pela minha coleta [conforme a documentação](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#arquivos-auxiliares) não encontrando problemas. #### Descrição - Issue - BaseSpider: #1016 - Cria **BarcoDigital** base spider - Adiciona Spider da Cidade **Lagoa do Tocatins - TO** - Adiciona Spider da Cidade **Recursolândia - TO** **Erro na carga completa da cidade Recursolândia** A Edição 40 do diário oficial não encontra-se disponível no site. Ela foi publicada em 08-06-2020. **Nome do arquivo:** Edicao-n-040-de-08-06-2020.pdf **Link do aquivo pdf:** https://api-recursolandia.barcodigital.com.br/arquivo/recursolandia.to.gov.br/Diarios/040/Edicao-n-040-de-08-06-2020.pdf **Imagem do site:** ![image](https://github.com/okfn-brasil/querido-diario/assets/42525687/c2f5f21f-748e-4a81-97db-748bd2800fe2) ### Arquivos | **Lagoa do Tocatins** | File Link | |-----------------------------|-------------------------------------------------------------------------------------------------------------------------------| | Ultimo diário publicado | [to_lagoa_de_tocantins_last_edition-2024-07-01.csv](https://github.com/user-attachments/files/16087341/to_lagoa_de_tocantins_last_edition-2024-07-01.csv) | | | [to_lagoa_de_tocantins_last_edition-2024-07-01.log](https://github.com/user-attachments/files/16087342/to_lagoa_de_tocantins_last_edition-2024-07-01.log) | | Completo | [to_lagoa_de_tocantins_full.csv](https://github.com/user-attachments/files/16087336/to_lagoa_de_tocantins_full.csv) | | | [to_lagoa_de_tocantins_full.log](https://github.com/user-attachments/files/16087338/to_lagoa_de_tocantins_full.log) | | Intervalo |[to_lagoa_de_tocantins-2024-06-01_to_2024-07-01.csv](https://github.com/user-attachments/files/16088823/to_lagoa_de_tocantins-2024-06-01_to_2024-07-01.csv) | | | [to_lagoa_de_tocantins-2024-06-01_to_2024-07-01.log](https://github.com/user-attachments/files/16088824/to_lagoa_de_tocantins-2024-06-01_to_2024-07-01.log) | | **Recursolândia** | File Link | |-----------------------------|-------------------------------------------------------------------------------------------------------------------------------| | Ultimo diário publicado | [to_recursolandia_last_edition-2024-07-01.csv](https://github.com/user-attachments/files/16087659/to_recursolandia_last_edition-2024-07-01.csv) | | | [to_recursolandia_last_edition-2024-07-02.log](https://github.com/user-attachments/files/16087660/to_recursolandia_last_edition-2024-07-02.log) | | Completo | [to_recursolandia_full.csv](https://github.com/user-attachments/files/16087654/to_recursolandia_full.csv) | | | [to_recursolandia_full.log](https://github.com/user-attachments/files/16087656/to_recursolandia_full.log) | | Intervalo | [to_recursolandia_interval_-2024-06-01_to_2024-07-01.csv](https://github.com/user-attachments/files/16088854/to_recursolandia_interval_-2024-06-01_to_2024-07-01.csv)| | | [to_recursolandia_interval_-2024-06-01_to_2024-07-01.log](https://github.com/user-attachments/files/16088855/to_recursolandia_interval_-2024-06-01_to_2024-07-01.log) |
trevineju
added
spider-base
Adiciona robô raspador para um padrão
and removed
enhancement
Melhoria, novo recurso ou ferramenta
spider
Adiciona robô raspador para município(s)
dificuldade:media
Dificuldade média de desenvolver
labels
Sep 15, 2024
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Labels
maintenance
Demanda de manutenção
priority
Issue endereça algo prioritário
spider-base
Adiciona robô raspador para um padrão
URL
https://barcodigital.com.br/#projetos
Municípios replicados
Formato da publicação
Os diários oficiais são publicados em PDF (texto)
Detalhes do site de publicação
Possui paginação, Possui filtro por data
Observações
As edições extras e suplementos parecem bem demarcados
Não existe uma issue aberta sobre isso
The text was updated successfully, but these errors were encountered: