Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Novo spider base]: Barco Digital #1016

Closed
1 task done
trevineju opened this issue Nov 2, 2023 · 2 comments · Fixed by #1184
Closed
1 task done

[Novo spider base]: Barco Digital #1016

trevineju opened this issue Nov 2, 2023 · 2 comments · Fixed by #1184
Labels
dificuldade:media Dificuldade média de desenvolver manutencao spider Adiciona ou atualiza um robô raspador status:priority Issue endereça algo prioritário type:enhancement Novo recurso ou ferramenta

Comments

@trevineju
Copy link
Member

trevineju commented Nov 2, 2023

URL

https://barcodigital.com.br/#projetos

Municípios replicados

1. https://diariooficial.araguaina.to.gov.br/diario-oficial
2. https://diariooficial.pontealtadotocantins.to.gov.br/diario-oficial 
3. https://www.tocantinopolis.to.gov.br/diario-oficial
4. https://www.sitionovodotocantins.to.gov.br/diario-oficial

Formato da publicação

Os diários oficiais são publicados em PDF (texto)

Detalhes do site de publicação

Possui paginação, Possui filtro por data

Observações

As edições extras e suplementos parecem bem demarcados

Não existe uma issue aberta sobre isso

  • Eu verifiquei e não existe uma issue aberta ou marcada com incompatible para o mesmo sistema.
@trevineju trevineju added spider Adiciona ou atualiza um robô raspador type:enhancement Novo recurso ou ferramenta labels Nov 2, 2023
@trevineju trevineju added the dificuldade:media Dificuldade média de desenvolver label Mar 31, 2024
@trevineju trevineju added type:production Esse problema afeta o que está em produção status:priority Issue endereça algo prioritário labels Jun 17, 2024
@trevineju
Copy link
Member Author

Esta issue endereça também um problema de manutenção para o município de Araguaína-TO

@trevineju trevineju added manutencao and removed type:production Esse problema afeta o que está em produção labels Jun 17, 2024
@ddevdan
Copy link
Contributor

ddevdan commented Jun 26, 2024

Boa noite! To trabalhando nessa issue. @trevineju

@ddevdan ddevdan mentioned this issue Jul 3, 2024
14 tasks
@trevineju trevineju linked a pull request Jul 3, 2024 that will close this issue
14 tasks
ogecece added a commit that referenced this issue Aug 7, 2024
PR feito em colaboração com @adellylima, @r-lelis, @heitorado, @cjasm,
@cacoze, @yamawakimiho

**AO ABRIR** uma *Pull Request* de um novo raspador (*spider*), marque
com um `X` cada um dos items da checklist abaixo. Caso algum item não
seja marcado, JUSTIFIQUE o motivo.

#### Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
- [ ] O *layout* não se parece com nenhum caso [da lista de *layouts*
padrão](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/lista-sistemas-replicaveis.html)
- [X] É um *layout* padrão e esta PR adiciona a spider base do padrão ao
projeto junto com alguns municípios que fazem parte do padrão.
- [ ] É um *layout* padrão e todos os municípios adicionados usam a
[classe de spider
base](https://github.com/okfn-brasil/querido-diario/tree/main/data_collection/gazette/spiders/base)
adequada para o padrão.

#### Código da(s) spider(s)
- [X] O(s) raspador(es) adicionado(s) tem os [atributos de classe
exigidos](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#UFMunicipioSpider).
- [x] O(s) raspador(es) adicionado(s) cria(m) objetos do tipo Gazette
coletando todos [os metadados
necessários](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#Gazette).
- [x] O atributo de classe
[start_date](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#UFMunicipioSpider.start_date)
foi preenchido com a data da edição de diário oficial mais antiga
disponível no site.
- [x] Explicitar o atributo de classe
[end_date](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#UFMunicipioSpider.end_date)
não se fez necessário.
- [x] Não utilizo `custom_settings` em meu raspador.

#### Testes
- [x] Uma coleta-teste **da última edição** foi feita. O arquivo de
`.log` deste teste está anexado na PR.
- [x] Uma coleta-teste **por intervalo arbitrário** foi feita. Os
arquivos de `.log`e `.csv` deste teste estão anexados na PR.
- [x] Uma coleta-teste **completa** foi feita. Os arquivos de `.log` e
`.csv` deste teste estão anexados na PR.

#### Verificações
- [x] Eu experimentei abrir alguns arquivos de diários oficiais
coletados pelo meu raspador e verifiquei eles [conforme a
documentação](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#diarios-oficiais-coletados)
não encontrando problemas.
- [x] Eu verifiquei os arquivos `.csv` gerados pela minha coleta
[conforme a
documentação](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#arquivos-auxiliares)
não encontrando problemas.
- [x] Eu verifiquei os arquivos de `.log` gerados pela minha coleta
[conforme a
documentação](https://docs.queridodiario.ok.org.br/pt-br/latest/contribuindo/raspadores.html#arquivos-auxiliares)
não encontrando problemas.

#### Descrição
- Issue
- BaseSpider: #1016


- Cria **BarcoDigital** base spider
- Adiciona Spider da Cidade **Lagoa do Tocatins - TO** 
- Adiciona Spider da Cidade **Recursolândia - TO** 


**Erro na carga completa da cidade Recursolândia**
A Edição 40 do diário oficial não encontra-se disponível no site. Ela
foi publicada em 08-06-2020.
**Nome do arquivo:** Edicao-n-040-de-08-06-2020.pdf 
**Link do aquivo pdf:**
https://api-recursolandia.barcodigital.com.br/arquivo/recursolandia.to.gov.br/Diarios/040/Edicao-n-040-de-08-06-2020.pdf
**Imagem do site:**
![image](https://github.com/okfn-brasil/querido-diario/assets/42525687/c2f5f21f-748e-4a81-97db-748bd2800fe2)


### Arquivos

| **Lagoa do Tocatins** | File Link |

|-----------------------------|-------------------------------------------------------------------------------------------------------------------------------|
| Ultimo diário publicado |
[to_lagoa_de_tocantins_last_edition-2024-07-01.csv](https://github.com/user-attachments/files/16087341/to_lagoa_de_tocantins_last_edition-2024-07-01.csv)
|
| |
[to_lagoa_de_tocantins_last_edition-2024-07-01.log](https://github.com/user-attachments/files/16087342/to_lagoa_de_tocantins_last_edition-2024-07-01.log)
|
| Completo |
[to_lagoa_de_tocantins_full.csv](https://github.com/user-attachments/files/16087336/to_lagoa_de_tocantins_full.csv)
|
| |
[to_lagoa_de_tocantins_full.log](https://github.com/user-attachments/files/16087338/to_lagoa_de_tocantins_full.log)
|
| Intervalo
|[to_lagoa_de_tocantins-2024-06-01_to_2024-07-01.csv](https://github.com/user-attachments/files/16088823/to_lagoa_de_tocantins-2024-06-01_to_2024-07-01.csv)
|
| |
[to_lagoa_de_tocantins-2024-06-01_to_2024-07-01.log](https://github.com/user-attachments/files/16088824/to_lagoa_de_tocantins-2024-06-01_to_2024-07-01.log)
|










| **Recursolândia** | File Link |

|-----------------------------|-------------------------------------------------------------------------------------------------------------------------------|
| Ultimo diário publicado |
[to_recursolandia_last_edition-2024-07-01.csv](https://github.com/user-attachments/files/16087659/to_recursolandia_last_edition-2024-07-01.csv)
|
| |
[to_recursolandia_last_edition-2024-07-02.log](https://github.com/user-attachments/files/16087660/to_recursolandia_last_edition-2024-07-02.log)
|
| Completo |
[to_recursolandia_full.csv](https://github.com/user-attachments/files/16087654/to_recursolandia_full.csv)
|
| |
[to_recursolandia_full.log](https://github.com/user-attachments/files/16087656/to_recursolandia_full.log)
|
| Intervalo |
[to_recursolandia_interval_-2024-06-01_to_2024-07-01.csv](https://github.com/user-attachments/files/16088854/to_recursolandia_interval_-2024-06-01_to_2024-07-01.csv)|
| |
[to_recursolandia_interval_-2024-06-01_to_2024-07-01.log](https://github.com/user-attachments/files/16088855/to_recursolandia_interval_-2024-06-01_to_2024-07-01.log)
|
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
dificuldade:media Dificuldade média de desenvolver manutencao spider Adiciona ou atualiza um robô raspador status:priority Issue endereça algo prioritário type:enhancement Novo recurso ou ferramenta
Projects
Status: em produção
Development

Successfully merging a pull request may close this issue.

2 participants