-
-
Notifications
You must be signed in to change notification settings - Fork 387
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Adiciona novos 10 raspadores do Paraná #1167
base: main
Are you sure you want to change the base?
Conversation
Olá, peguei esse pull request para testar antes da integração com o site do Querido Diário mas não conseguia rodar o raspador. Para todas as cidades, aparecia o erro: ModuleNotFoundError: No module named 'gazette.spiders.base.atende_v2' Fui investigar e não há nenhum arquivo chamado "atende_v2" dentro do caminho "gazette/spiders/base". O nome mais próximo é "atende_layoutdois" que possui uma classe chamada "BaseAtendeL2Spider" mas os raspadores estão herdando da classe "BaseAtendeV2Spider". Editei o arquivo dos raspadores para tentar usar a classe "BaseAtendeL2Spider" contida no "atende_layoutdois" e consegui iniciar a coleta dos pdfs. Estou avisando para o caso de mais alguém ter o mesmo problema. |
boa, @marcospscruz! A branch estava desatualizada, de fato! |
Vou clonar o projeto novamente e refazer a coleta. |
O raspador de Araucária dá erro e não faz o download de nenhum arquivo. Segue o log: |
Em relação à Apucarana, seguem os logs e arquivos: log_pr_apucarana_ultima_edicao.txt Nos logs da coleta completa, consta um erro mas não consegui localizar o que seria. Aparecem alguns warnings de arquivo vazio mas ao acessar os links os arquivos realmente estavam vazios. Na coleta de intervalo arbitrário aparecem alguns erros de integridade do SQLite porque esses arquivos já haviam sido baixados na coleta completa. |
Em relação a Campo Largo, seguem os logs e arquivos: log_pr_campo_largo_ultima_edicao.txt |
Em relação a Campo Mourão, seguem os logs e arquivos: log_pr_campo_mourao_ultima_edicao.txt |
Em relação a Castro, seguem os logs e arquivos: log_pr_castro_ultima_edicao.txt |
Em relação a Clevelândia, seguem os logs e arquivos: log_pr_clevelandia_ultima_edicao.txt |
Em relação a Corbélia, seguem os logs e arquivos: log_pr_corbelia_ultima_edicao.txt |
Em relação a Guaraniaçu, seguem os logs e arquivos: log_pr_guaraniacu_ultima_edicao.txt |
Em relação a Mamborê, seguem os logs e arquivos: log_pr_mambore_ultima_edicao.txt |
Em relação a Ouro Verde do Oeste, seguem os logs e arquivos: log_pr_ouro_verde_do_oeste_ultima_edicao.txt |
Boa noite, pessoal. Recentemente eu estive numa correria e não tive tempo de levar esse pull request adiante. Como os logs estão antigos vou refazer as coletas. Começando por Apucarana, seguem os arquivos: Log última edição: log_apucarana.txt Minhas observações: Em relação à coleta da última edição e do intervalo parece estar tudo OK. Já em relação à coleta completa, ocorreu um erro: FAIL: Item Validation Monitor/test_stat_monitorTraceback (most recent call last): Não sei dizer qual é a gravidade deste erro. Analisando o arquivo CSV, percebi que a primeira edição aparece com a numeração 1 quando deveria ser um número bem maior mas isso parece ser um erro da pessoa que fez o upload do arquivo. Em determinados momentos as edições pulam alguns números mas olhando o site também tem esses intervalos. Há algumas edições com mais de um arquivo na planilha. Para registro fiz uma lista dos números de edições faltantes e duplicadas: Edições faltantes: 9198, 9203, 9230, 9240, 9248, 9249, 9254, 9256, 9282, 9287, 9292, 9317, 9331, 9340, 9343, 9359, 9362, 9367, 9376, 9381, 9388, 9389, 9391, 9393, 9400, 9411, 9414, 9418, 9425, 9427, 9428, 9437, 9442, 9445, 9447, 9460, 9463, 9464, 9465, 9480, 9489, 9494, 9499, 9507, 9533, 9537, 9543, 9550, 9559, 9594, 9597, 9610, 9633, 9635, 9639, 9640, 9645, 9646, 9651, 9653, 9654, 9657, 9662, 9669-9686, 9689, 9690, 9693, 9695, 9696, 9698, 9618, 9733, 9734, 9752, 9755, 9769, 9777 Favor dar um feedback se a análise está correta porque é a primeira vez que a estou fazendo. |
Beleza, @marcospscruz! Obrigada!
Na seção de estatísticas do coleta completa tem:
Ou seja, está denunciando que tentou obter o arquivo do dia 6/fev/24 e não conseguiu pois o arquivo estava vazio. Clicando no link que tem no log e navegando no site da prefeitura manualmente até essa data, realmente está vazio. Mas isso é verificar 1 de 14 ocorrências de "item abandonado", teoricamente teria que olhar os outros 13 pois podem ter sido abandonados por motivos diferentes, não só pelo arquivo estar vazio. Mas já pesquisei por
Não é grave. Não temos como coletar um arquivo vazio mesmo. Deve ter sido cadastro errado ou algum erro no site.
Sim, isso. Também não temos o que fazer.
Também não temos o que fazer aqui. Para os próximo casos de análise, pode adotar que não precisa informar cada edição que faltar pontualmente -- isso é algo que conseguimos recuperar por meio que pesquisa no banco de dados do QD. Só informa se forem edições sequenciais por muito tempo, deixando buracos de semanas ou meses. Isso chama atenção por ser mais grave, um município sem disponibilizar DO por muito tempo. Aí a avaliamos, dentro da OKBR, cobrar o município para disponibilizar esse buraco todo que falta.
Olhei só os dois primeiros casos, mas não parece exatamente duplicado. Uma é a edição normal e outras são suplementos. Então tudo certo
Tá excelente, Marcos. É por aí mesmo. Obrigada pelo cuidado! 💯 Qualquer coisa, segue perguntando ;) |
AO ABRIR uma Pull Request de um novo raspador (spider), marque com um
X
cada um dos items da checklist abaixo. Caso algum item não seja marcado, JUSTIFIQUE o motivo.Layout do site publicador de diários oficiais
Marque apenas um dos itens a seguir:
Código da(s) spider(s)
custom_settings
em meu raspador.Testes
.log
deste teste está anexado na PR..log
e.csv
deste teste estão anexados na PR..log
e.csv
deste teste estão anexados na PR.Verificações
.csv
gerados pela minha coleta conforme a documentação não encontrando problemas..log
gerados pela minha coleta conforme a documentação não encontrando problemas.Descrição
<Descreva o seu Pull Request informando a issue (caso exista) que está sendo solucionada ou uma descrição do código apresentado>