Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Ajustar regex de coleta de metadado #1187 #1188

Merged
merged 1 commit into from
Jul 16, 2024

Conversation

rochamatcomp
Copy link
Contributor

@rochamatcomp rochamatcomp commented Jul 12, 2024

Testes

  • Uma coleta-teste da última edição foi feita. O arquivo de .log deste teste está anexado na PR.
  • Uma coleta-teste por intervalo arbitrário foi feita. Os arquivos de .loge .csv deste teste estão anexados na PR.
  • Uma coleta-teste completa foi feita. Os arquivos de .log e .csv deste teste estão anexados na PR.

Verificações

  • Eu experimentei abrir alguns arquivos de diários oficiais coletados pelo meu raspador e verifiquei eles conforme a documentação não encontrando problemas.
  • Eu verifiquei os arquivos .csv gerados pela minha coleta conforme a documentação não encontrando problemas.
  • Eu verifiquei os arquivos de .log gerados pela minha coleta conforme a documentação não encontrando problemas.

Descrição

Resolve a issue #1187. Atualizar o código de adiarios_v1.py para que o fluxo de coleta dos metadados.

Classe base Adiarios V1:

  • edition_number com valor padrão como string vazia;
  • is_extra_edition verificada no título e também no texto.

Coletas

Foram feitas as coletas para os municípios com problemas encontrados na Validação #1185:

  • pb_jacarau
  • pb_marizopolis
  • pb_piloezinhos
  • pb_sertaozinho

✅ Depois da correção esses municípios passaram sem error.

Coleta última edição

coleta_ultima_edicao_pb_sertaozinho.csv
coleta_ultima_edicao_pb_sertaozinho.log
coleta_ultima_edicao_pb_piloezinhos.csv
coleta_ultima_edicao_pb_piloezinhos.log
coleta_ultima_edicao_pb_marizopolis.csv
coleta_ultima_edicao_pb_marizopolis.log
coleta_ultima_edicao_pb_jacarau.log
coleta_ultima_edicao_pb_jacarau.csv

Coleta intervalo

coleta_intervalo_pb_sertaozinho.csv
coleta_intervalo_pb_sertaozinho.log
coleta_intervalo_pb_piloezinhos.csv
coleta_intervalo_pb_piloezinhos.log
coleta_intervalo_pb_marizopolis.csv
coleta_intervalo_pb_marizopolis.log
coleta_intervalo_pb_jacarau.csv
coleta_intervalo_pb_jacarau.log

Coleta completa

coleta_completa_pb_sertaozinho.csv
coleta_completa_pb_sertaozinho.log
coleta_completa_pb_piloezinhos.csv
coleta_completa_pb_piloezinhos.log
coleta_completa_pb_marizopolis.csv
coleta_completa_pb_marizopolis.log
coleta_completa_pb_jacarau.csv
coleta_completa_pb_jacarau.log

@trevineju
Copy link
Member

trevineju commented Jul 16, 2024

show, @rochamatcomp! Só atualizei o histórico da branch com a main

Classe base Adiarios V1:
- `edition_number` com valor padrão como string vazia;
- `is_extra_edition` verificada no título e também no texto.
@trevineju trevineju merged commit 7a87087 into okfn-brasil:main Jul 16, 2024
1 check passed
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
Status: em produção
Development

Successfully merging this pull request may close these issues.

[Melhoria] Ajustar regex de coleta de metadado na classe base Adiarios
2 participants