Script que baixa os ZIPs relativos a gastos da cota parlamentar do site da Câmara dos Deputados, descompacta, extrai e limpa os registros e converte em um único CSV.
A licença do código é LGPL3 e dos dados convertidos Creative Commons Attribution ShareAlike. Caso utilize os dados, cite a fonte original e quem tratou os dados e caso compartilhe os dados, utilize a mesma licença. Exemplo de como os dados podem ser citados: Fonte: Portal da Transparência da Câmara dos Deputados, dados tratados por Álvaro Justen/Brasil.IO
Depois de coletados e checados os dados ficam disponíveis de 3 formas no Brasil.IO:
- Interface Web (feita para humanos)
- API (feita para humanos que desenvolvem programas)
- Download do dataset completo
Se esse programa e/ou os dados resultantes foram úteis a você ou à sua empresa, considere fazer uma doação ao projeto Brasil.IO, que é mantido voluntariamente.
Requer Python 3.7.
pip install -r requirements.txt
Para capturar todos os anos:
./run.sh
Você também pode executar diretamente o spider do scrapy:
scrapy runspider camara_federal.py --loglevel=INFO -o cota-parlamentar-camara-federal.csv
Caso queira apenas alguns anos, passe o parâmetro -a years=XXX
, com os
valores separados por vírgula, exemplo:
scrapy runspider camara_federal.py -a years=2015,2016,2017,2018 --loglevel=INFO -o cota-parlamentar-2015-2018.csv
Você pode utilizar a interface de linha de comando da rows para converter os dados gerados em CSV para um banco de dados SQLite - dessa forma a análise dos dados pode ser feita em cima do banco de dados gerado usando SQL.
rows csv2sqlite --schemas=schema/cota-parlamentar.csv data/output/cota-parlamentar.csv.gz data/gastos.sqlite