Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Publicação de alguns municípios em produção são na verdade da associação de municípios FAMEM #1034

Closed
ogecece opened this issue Nov 16, 2023 · 3 comments
Labels
production Esse problema afeta o que está em produção

Comments

@ogecece
Copy link
Member

ogecece commented Nov 16, 2023

Descobri o problema a partir de Bacurituba (MA), onde baixando as publicações vemos que são arquivos da associação de municípios e não exclusivos ao município.

Fui investigar rapidamente outros municípios com o raspador siganet como base para ver se encontrava outro caso ou se seria apenas um caso isolado.

Não vi problemas em:

  • Nina Rodrigues (MA)
  • Boa Vista Do Gurupi (MA)
  • São José Dos Basílios (MA)
  • Coroatá (MA)
  • Bacuri (MA)
  • Viana (MA)
  • Maranhãozinho (MA)
  • Centro Do Guilherme (MA)
  • Duque Bacelar (MA)
  • Axixá (MA)
  • São Vicente Ferrer (MA)
  • Afonso Cunha (MA)
  • Zé Doca (MA)

Encontrei problemas em:

  • Bacurituba (MA) - Edição 3225 10/11/2023
  • Milagres do Maranhão (MA) - Edição 3209 18/10/2023
  • Feira Nova do Maranhão (MA) - Edição 3228 16/11/2023

Proponho que todos os municípios com problemas sejam retirados de produção imediatamente.

@ogecece ogecece added the production Esse problema afeta o que está em produção label Nov 16, 2023
trevineju added a commit that referenced this issue Nov 17, 2023
Alguns municípios do Maranhão estão publicando o diário da FAMEM #1034 

Signed-off-by: Juliana Trevine <44185775+trevineju@users.noreply.github.com>
@trevineju
Copy link
Member

trevineju commented Nov 17, 2023

Retirei as 3 em #1035, porém acho que temos algumas questões agora:

  1. Para Bacurituba e Milagres do Maranhão, verifiquei que desde o primeiro diário coletado estava como FAMEM. São casos que vamos ter que apagar todos os diários da Digital Ocean, do Postegre e ElasticSearch, tirando também a cidade da API e do site.
  1. Para Feira Nova do Maranhão, foi uma troca silenciosa. Apenas os diários de novembro de 2023 estão como FAMEM, porém os outros antes disso, não. É possível confirmar que a mudança aparece apenas em novembro/23 aqui: busca no QD
    O que fazemos nesse caso? Nas deleções, retiramos apenas de novembro/23? Mas não retira da API, avisando na página de cidades disponíveis que a série de diários vai apenas até outubro/2023?
  2. Já era sabido desde [Novo spider base]: Siganet #755 que nos sites SIGANET tinham casos de diários individuais e diários agregados, mas se podem mudar silenciosamente como foi com Feira Nova do Maranhão, como vamos conseguir acompanhar isso? Toda lista que está "sem problemas" pode passar a ter problemas discretamente...

@ogecece
Copy link
Member Author

ogecece commented Nov 21, 2023

@trevineju mudei um pouco a busca que foi feita nos municípios e achei diários da associação tão antigos quanto 2017 ou 2018 em todos os três: Bacurituba, Feira Nova do Maranhão, Milagres do Maranhão.

Podemos remover toda a cobertura desses municípios por enquanto.

Quanto ao ponto 3, por enquanto não vejo o que fazer do lado dos raspadores pra detectar essa mudança. Penso que um ponto de detecção seria no processamento do texto do documento.

trevineju added a commit to okfn-brasil/querido-diario-frontend that referenced this issue Nov 22, 2023
@ogecece
Copy link
Member Author

ogecece commented Dec 14, 2023

Dados foram removidos de produção. Fechando a issue.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
production Esse problema afeta o que está em produção
Projects
None yet
Development

No branches or pull requests

2 participants