-
-
Notifications
You must be signed in to change notification settings - Fork 387
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Novo spider base]: Barco Digital #1016
Labels
dificuldade:media
Dificuldade média de desenvolver
manutencao
spider
Adiciona ou atualiza um robô raspador
status:priority
Issue endereça algo prioritário
type:enhancement
Novo recurso ou ferramenta
Milestone
Comments
Esta issue endereça também um problema de manutenção para o município de Araguaína-TO |
Boa noite! To trabalhando nessa issue. @trevineju |
14 tasks
ogecece
added a commit
that referenced
this issue
Aug 7, 2024
PR feito em colaboração com @adellylima, @r-lelis, @heitorado, @cjasm, @cacoze, @yamawakimiho **AO ABRIR** uma *Pull Request* de um novo raspador (*spider*), marque com um `X` cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo. #### Layout do site publicador de diários oficiais Marque apenas um dos itens a seguir: - [ ] O *layout* não se parece com nenhum caso [da lista de *layouts* padrão](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/lista-sistemas-replicaveis.html) - [X] É um *layout* padrão e esta PR adiciona a spider base do padrão ao projeto junto com alguns municípios que fazem parte do padrão. - [ ] É um *layout* padrão e todos os municípios adicionados usam a [classe de spider base](https://github.com/okfn-brasil/querido-diario/tree/main/data_collection/gazette/spiders/base) adequada para o padrão. #### Código da(s) spider(s) - [X] O(s) raspador(es) adicionado(s) tem os [atributos de classe exigidos](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#UFMunicipioSpider). - [x] O(s) raspador(es) adicionado(s) cria(m) objetos do tipo Gazette coletando todos [os metadados necessários](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#Gazette). - [x] O atributo de classe [start_date](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#UFMunicipioSpider.start_date) foi preenchido com a data da edição de diário oficial mais antiga disponível no site. - [x] Explicitar o atributo de classe [end_date](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#UFMunicipioSpider.end_date) não se fez necessário. - [x] Não utilizo `custom_settings` em meu raspador. #### Testes - [x] Uma coleta-teste **da última edição** foi feita. O arquivo de `.log` deste teste está anexado na PR. - [x] Uma coleta-teste **por intervalo arbitrário** foi feita. Os arquivos de `.log`e `.csv` deste teste estão anexados na PR. - [x] Uma coleta-teste **completa** foi feita. Os arquivos de `.log` e `.csv` deste teste estão anexados na PR. #### Verificações - [x] Eu experimentei abrir alguns arquivos de diários oficiais coletados pelo meu raspador e verifiquei eles [conforme a documentação](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#diarios-oficiais-coletados) não encontrando problemas. - [x] Eu verifiquei os arquivos `.csv` gerados pela minha coleta [conforme a documentação](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#arquivos-auxiliares) não encontrando problemas. - [x] Eu verifiquei os arquivos de `.log` gerados pela minha coleta [conforme a documentação](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#arquivos-auxiliares) não encontrando problemas. #### Descrição - Issue - BaseSpider: #1016 - Cria **BarcoDigital** base spider - Adiciona Spider da Cidade **Lagoa do Tocatins - TO** - Adiciona Spider da Cidade **Recursolândia - TO** **Erro na carga completa da cidade Recursolândia** A Edição 40 do diário oficial não encontra-se disponível no site. Ela foi publicada em 08-06-2020. **Nome do arquivo:** Edicao-n-040-de-08-06-2020.pdf **Link do aquivo pdf:** https://api-recursolandia.barcodigital.com.br/arquivo/recursolandia.to.gov.br/Diarios/040/Edicao-n-040-de-08-06-2020.pdf **Imagem do site:** ![image](https://github.com/okfn-brasil/querido-diario/assets/42525687/c2f5f21f-748e-4a81-97db-748bd2800fe2) ### Arquivos | **Lagoa do Tocatins** | File Link | |-----------------------------|-------------------------------------------------------------------------------------------------------------------------------| | Ultimo diário publicado | [to_lagoa_de_tocantins_last_edition-2024-07-01.csv](https://github.com/user-attachments/files/16087341/to_lagoa_de_tocantins_last_edition-2024-07-01.csv) | | | [to_lagoa_de_tocantins_last_edition-2024-07-01.log](https://github.com/user-attachments/files/16087342/to_lagoa_de_tocantins_last_edition-2024-07-01.log) | | Completo | [to_lagoa_de_tocantins_full.csv](https://github.com/user-attachments/files/16087336/to_lagoa_de_tocantins_full.csv) | | | [to_lagoa_de_tocantins_full.log](https://github.com/user-attachments/files/16087338/to_lagoa_de_tocantins_full.log) | | Intervalo |[to_lagoa_de_tocantins-2024-06-01_to_2024-07-01.csv](https://github.com/user-attachments/files/16088823/to_lagoa_de_tocantins-2024-06-01_to_2024-07-01.csv) | | | [to_lagoa_de_tocantins-2024-06-01_to_2024-07-01.log](https://github.com/user-attachments/files/16088824/to_lagoa_de_tocantins-2024-06-01_to_2024-07-01.log) | | **Recursolândia** | File Link | |-----------------------------|-------------------------------------------------------------------------------------------------------------------------------| | Ultimo diário publicado | [to_recursolandia_last_edition-2024-07-01.csv](https://github.com/user-attachments/files/16087659/to_recursolandia_last_edition-2024-07-01.csv) | | | [to_recursolandia_last_edition-2024-07-02.log](https://github.com/user-attachments/files/16087660/to_recursolandia_last_edition-2024-07-02.log) | | Completo | [to_recursolandia_full.csv](https://github.com/user-attachments/files/16087654/to_recursolandia_full.csv) | | | [to_recursolandia_full.log](https://github.com/user-attachments/files/16087656/to_recursolandia_full.log) | | Intervalo | [to_recursolandia_interval_-2024-06-01_to_2024-07-01.csv](https://github.com/user-attachments/files/16088854/to_recursolandia_interval_-2024-06-01_to_2024-07-01.csv)| | | [to_recursolandia_interval_-2024-06-01_to_2024-07-01.log](https://github.com/user-attachments/files/16088855/to_recursolandia_interval_-2024-06-01_to_2024-07-01.log) |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Labels
dificuldade:media
Dificuldade média de desenvolver
manutencao
spider
Adiciona ou atualiza um robô raspador
status:priority
Issue endereça algo prioritário
type:enhancement
Novo recurso ou ferramenta
URL
https://barcodigital.com.br/#projetos
Municípios replicados
Formato da publicação
Os diários oficiais são publicados em PDF (texto)
Detalhes do site de publicação
Possui paginação, Possui filtro por data
Observações
As edições extras e suplementos parecem bem demarcados
Não existe uma issue aberta sobre isso
The text was updated successfully, but these errors were encountered: