Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Add new spider BarcoDigital #1184

Conversation

ddevdan
Copy link
Contributor

@ddevdan ddevdan commented Jul 3, 2024

PR feito em colaboração com @adellylima, @r-lelis, @heitorado, @cjasm, @cacoze, @yamawakimiho

AO ABRIR uma Pull Request de um novo raspador (spider), marque com um X cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.

Layout do site publicador de diários oficiais

Marque apenas um dos itens a seguir:

  • O layout não se parece com nenhum caso da lista de layouts padrão
  • É um layout padrão e esta PR adiciona a spider base do padrão ao projeto junto com alguns municípios que fazem parte do padrão.
  • É um layout padrão e todos os municípios adicionados usam a classe de spider base adequada para o padrão.

Código da(s) spider(s)

  • O(s) raspador(es) adicionado(s) tem os atributos de classe exigidos.
  • O(s) raspador(es) adicionado(s) cria(m) objetos do tipo Gazette coletando todos os metadados necessários.
  • O atributo de classe start_date foi preenchido com a data da edição de diário oficial mais antiga disponível no site.
  • Explicitar o atributo de classe end_date não se fez necessário.
  • Não utilizo custom_settings em meu raspador.

Testes

  • Uma coleta-teste da última edição foi feita. O arquivo de .log deste teste está anexado na PR.
  • Uma coleta-teste por intervalo arbitrário foi feita. Os arquivos de .loge .csv deste teste estão anexados na PR.
  • Uma coleta-teste completa foi feita. Os arquivos de .log e .csv deste teste estão anexados na PR.

Verificações

  • Eu experimentei abrir alguns arquivos de diários oficiais coletados pelo meu raspador e verifiquei eles conforme a documentação não encontrando problemas.
  • Eu verifiquei os arquivos .csv gerados pela minha coleta conforme a documentação não encontrando problemas.
  • Eu verifiquei os arquivos de .log gerados pela minha coleta conforme a documentação não encontrando problemas.

Descrição

Erro na carga completa da cidade Recursolândia
A Edição 40 do diário oficial não encontra-se disponível no site. Ela foi publicada em 08-06-2020.
Nome do arquivo: Edicao-n-040-de-08-06-2020.pdf
Link do aquivo pdf: https://api-recursolandia.barcodigital.com.br/arquivo/recursolandia.to.gov.br/Diarios/040/Edicao-n-040-de-08-06-2020.pdf
Imagem do site: image

Arquivos

Lagoa do Tocatins File Link
Ultimo diário publicado to_lagoa_de_tocantins_last_edition-2024-07-01.csv
to_lagoa_de_tocantins_last_edition-2024-07-01.log
Completo to_lagoa_de_tocantins_full.csv
to_lagoa_de_tocantins_full.log
Intervalo to_lagoa_de_tocantins-2024-06-01_to_2024-07-01.csv
to_lagoa_de_tocantins-2024-06-01_to_2024-07-01.log
Recursolândia File Link
Ultimo diário publicado to_recursolandia_last_edition-2024-07-01.csv
to_recursolandia_last_edition-2024-07-02.log
Completo to_recursolandia_full.csv
to_recursolandia_full.log
Intervalo to_recursolandia_interval_-2024-06-01_to_2024-07-01.csv
to_recursolandia_interval_-2024-06-01_to_2024-07-01.log

@ddevdan ddevdan changed the title [wip] Add new spider BarcoDigital Add new spider BarcoDigital Jul 3, 2024
@trevineju trevineju linked an issue Jul 3, 2024 that may be closed by this pull request
1 task
Copy link
Member

@ogecece ogecece left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Gente, muito legal ver essa contribuição em conjunto <3

Tá muito bom. Só implementei uma pequena melhoria na verificação de datas que explico abaixo.

Vou só adicionar esse commit, atualizar com a main e mesclar!

P.S. Fiz umas buscas aqui quanto ao power já que sempre desconfio quando explicitam "ATOS DO PODER EXECUTIVO" no diário que eventualmente irão aparecer atos do legislativo, mas não encontrei nada.

Copy link
Member

@ogecece ogecece left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Me liguei agora que o PR vem de outra org, então não temos como modificar o PR. Vocês podem atualizar a verificação de start_date?

@ddevdan
Copy link
Contributor Author

ddevdan commented Aug 7, 2024

Me liguei agora que o PR vem de outra org, então não temos como modificar o PR. Vocês podem atualizar a verificação de start_date?

Vou atualizar aqui, um segundo

@ogecece
Copy link
Member

ogecece commented Aug 7, 2024

Pode fazer um rebase com a main atualizada @ddevdan ?

Co-authored-by: Adelly Lima <adellylima@users.noreply.github.com>
Co-authored-by: Lélis <r-lelis@users.noreply.github.com>
Co-authored-by: Heitor Carvalho <heitorado@users.noreply.github.com>
Co-authored-by: Claudio Magalhães <cjasm@users.noreply.github.com>
Co-authored-by: José Carlos Menezes <jose@labcodes.com.br>
Co-authored-by: Miho Yamawaki <lmwy@hotmail.co.jp>
    Co-authored-by: Adelly Lima <adellylima@users.noreply.github.com>
    Co-authored-by: Lélis <r-lelis@users.noreply.github.com>
    Co-authored-by: Heitor Carvalho <heitorado@users.noreply.github.com>
    Co-authored-by: Claudio Magalhães <cjasm@users.noreply.github.com>
    Co-authored-by: José Carlos Menezes <jose@labcodes.com.br>
    Co-authored-by: Miho Yamawaki <lmwy@hotmail.co.jp>
@ddevdan ddevdan force-pushed the add-new-spider-barcodigital-mob-open-source-26-06-2024 branch from d3ecc26 to e25c8d3 Compare August 7, 2024 19:18
@ddevdan
Copy link
Contributor Author

ddevdan commented Aug 7, 2024

Pode fazer um rebase com a main atualizada @ddevdan ?

Acho que foi ne? N costumo usar rebase 😬

@ogecece
Copy link
Member

ogecece commented Aug 7, 2024

Isso mesmo. Perfeito! Muito obrigado!

@ogecece ogecece merged commit dd0a367 into okfn-brasil:main Aug 7, 2024
1 check passed
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
Status: em produção
Development

Successfully merging this pull request may close these issues.

[Novo spider base]: Barco Digital
2 participants