-
-
Notifications
You must be signed in to change notification settings - Fork 407
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Adiciona mapeador ATENDE #1043
Adiciona mapeador ATENDE #1043
Conversation
@AlexJBSilva, será que ao invés de enviar uma PR pra |
Aliás, não tem problema o mapeador não estar excelente. Você tem o arquivo de mapeamento que ele gerou? Das cidades contempladas? |
@trevineju, eu abri o PR para a branch
Tenho o arquivo de mapeamento sim. :) |
Atualiza o mapeador para 'mitigar' o problema de vincular a URL na cidade errada:
Extrai todos os links para 'diario' e insere logo após a URL da página de origem da informação. Destaques
Arquivos
|
Essa versão implementa a classe 'BaseAtendeT2Spider' para buscar os dirários nas páginas com layout 'Tipo 2', identificadas pelo Mapeador Atende desenvolvido em okfn-brasil#1043.
e3d47a2
to
3e0dffe
Compare
Implementa sugestão apresentada em okfn-brasil#919 okfn-brasil#919 W.I.P.: Ainda precisa de melhorias.
do estado encontrados nas páginas visitadas, para mitigar o problema de vinculr a URL na cidade errada. Inclui os links para 'diario' encontrados nas páginas visitadas, de forma a ajudar na identificação do link correto, já que a validação não está muito precisa.
59bdbc4
to
efd2658
Compare
Obrigada pela PR, @AlexJBSilva! |
Implementa a sugestão apresentada em 919 (comment)
Por não ser um domínio governamental (diferente de
.{uf}.gov.br
), apresenta o problema conhecido:encontra URLs de interesse, mas vincula na cidade errada
.Considerações sobre desempenho:
http
dos protocolos de mapeamento e não tentar mapear o link 'base' para a página de cada município{protocol}://{city}.atende.net
, o tempo para mapear 500 cidades (tempo entre backups parciais) foi reduzido de 2h40min para 25 minutos.AO ABRIR um Pull Request de um novo raspador (spider), marque com um
X
cada um dos items do checklistabaixo. NÃO ABRA um novo Pull Request antes de completar todos os items abaixo.
Checklist - Novo Mapeador
log_count/ERROR
igual a zero).[ N.A.: Não se aplica, pois ALGUNS erros são esperados no processo de mapeamento. ]
Descrição
Adiciona mapeador ATENDE
Amplia solução para #919