Eu queria pegar todos os meus certificados da utf para checar minha atividades complementares mas eu não sabia o que eu tinha participado então eu e um colega fizemos esse scraper que checa todos eventos de todos os anos (>2013).
Por padrão, o comando apenas mostra no terminal o nome do aluno, o papel que teve no evento e o link do documento. Logo abaixo tem um comando para baixar os documentos também.
usage: certi-finder [-h] [-v] [-w] [-s SEPARADOR] *Seu nome*
Lista os certificados de participação da utfpr.
positional arguments:
nome Nome a ser pesquisado
optional arguments:
-h, --help show this help message and exit
-v, --verbose Ativa saída prolixa (fala muito)
-w, --watch Inicia o navegador ~Com cabeça~
-s SEPARADOR, --separador SEPARADOR
Define o separador dos campos (default: ,)
$ python3 -u certi-finder.py "domingos" | grep -o '[^,]*$' | xargs wget -q
Se você tiver muitos certificados, baixe em paralelo:
$ python3 -u certi-finder.py "domingos" | grep -o '[^,]*$' | xargs -n 1 -P 20 wget -q
Nota que o terminal vai ficar limpo por causa da flag -q.
ou com o gnu parallel:
$ python3 -u certi-finder.py "aline" | grep -o '[^,]*$' | parallel -j 500% wget -q
Se quiser acompanhar a o processo, pode também usar:
$ python3 -u certi-finder.py "joao" | grep --line-buffered -o '[^,]*$' | tee /dev/stderr | xargs -P 20 -n 1 wget -q
ou
$ python3 -u certi-finder.py "joao" | grep --line-buffered -o '[^,]*$' | parallel -j 500% --bar wget -q
- É necessário ter o Firefox intalado (Testado na versão 61.0.1)
- Selenium, para controlar um navegador
$ sudo pip install -U selenium
- GeckoDriver para ligar o selenium no firefox
$ sudo pacman -S geckodriver
- Se quiser usar o parallel, precisa instalar também.
$ sudo pacman -S parallel #no arch linux
- Parametrizar por qualquer utf, por enquanto só busca a de campo mourão
- Colocar a possibilidade de usar o chrome
Os dados vem do site http://apl.utfpr.edu.br/extensao/certificados/listaPublica
$ python3 -u certi-finder.py "" | grep -o '[^,]*$' | tee /dev/stderr | parallel -j 500% wget -q
baixa todos os certificados de todo mundo, ótimo para encher o HD
DO WHAT THE FUCK YOU WANT TO PUBLIC LICENSE
Version 2, December 2004
Copyright (C) 2004 Sam Hocevar <sam@hocevar.net>
Everyone is permitted to copy and distribute verbatim or modified
copies of this license document, and changing it is allowed as long
as the name is changed.
DO WHAT THE FUCK YOU WANT TO PUBLIC LICENSE
TERMS AND CONDITIONS FOR COPYING, DISTRIBUTION AND MODIFICATION
0. You just DO WHAT THE FUCK YOU WANT TO.