Timon-MA #869

ogecece · 2023-06-12T19:42:46Z

URL da forma de consulta

https://timon.ma.gov.br/semgov/diario/listagem.php?pagina=0

Período de publicação

20/03/2013 - atualmente

Formato da publicação

Os diários oficiais são publicados em PDF (texto)

Conteúdo da publicação

Diário único: documento publicado é uma edição completa do diário oficial

Algumas datas contém edições suplementares.

Detalhes do site de publicação

Site funciona como uma paginação simples (até um pouco demais pois é possível ver todas as páginas disponíveis).

Fazendo requisição GET para https://timon.ma.gov.br/semgov/diario/pesquisaP.php?editData_inicio=20/03/2013&editData_fim=12/06/2023&inputDiario=&pagina=1 (modificando as datas) é possível filtrar por data e o resultado é a mesma lista paginada que temos no listagem.php.

Observações

Talvez o link do arquivo baixado seja gerado dinamicamente e não fique disponível depois: teste

Não existe uma issue aberta para esse município

Eu verifiquei que não existe uma issue aberta ou marcada com incompatible para o mesmo município.

The text was updated successfully, but these errors were encountered:

peddrogomes · 2023-06-14T22:58:57Z

Pegando esse

Winzen · 2023-09-05T23:34:55Z

[Dicas para quem futuramente possa assumir]

Os diários agora estão localizados em https://timon.ma.gov.br/diario/

Verificando o novo site vi que se você mandar um POST para https://timon.ma.gov.br/diario/pesquisa_numerodiario.php com o parâmetro de inputDiario: "1" você consegue uma pagina com a lista de todos os diários disponíveis.

Acredito que isso possa facilitar adaptação do código ao novo site

engFelipeMonteiro · 2023-10-07T20:20:14Z

Irei atuar durante a hackoberfest 2023

engFelipeMonteiro · 2023-10-16T11:34:25Z

[Dicas para quem futuramente possa assumir]

Os diários agora estão localizados em https://timon.ma.gov.br/diario/

Verificando o novo site vi que se você mandar um POST para https://timon.ma.gov.br/diario/pesquisa_numerodiario.php com o parâmetro de inputDiario: "1" você consegue uma pagina com a lista de todos os diários disponíveis.

Acredito que isso possa facilitar adaptação do código ao novo site

Náo consegui replicar o 'inputDiario=1',

verificado que o novo site possui 3 modos de pesquisa, por data, por palavra e por numero do diario.

Por data (todos)

curl 'https://timon.ma.gov.br/diario/pesquisa.php' \
   -H 'content-type: application/x-www-form-urlencoded' \
 --data-raw 'TipoDiario_datas=Todos&editData_inicio=01%2F01%2F2000&editData_fim=31%2F12%2F2023' \
  --compressed

Por data executivo?

curl 'https://timon.ma.gov.br/diario/pesquisa.php' \
  -H 'content-type: application/x-www-form-urlencoded' \
	  --data-raw 'TipoDiario_datas=Executivo&editData_inicio=01%2F01%2F2000&editData_fim=31%2F12%2F2023' \
  --compressed

Por data Legislativo:

url 'https://timon.ma.gov.br/diario/pesquisa.php' \
 -H 'content-type: application/x-www-form-urlencoded' \
 --data-raw 'TipoDiario_datas=Legislativo&editData_inicio=01%2F01%2F2000&editData_fim=31%2F12%2F2023' \
  --compressed

Pro palavra:

curl 'https://timon.ma.gov.br/diario/pesquisa_palavra.php' \
  -H 'Content-Type: application/x-www-form-urlencoded' \
  --data-raw 'TipoDiario_palavra=Todos&inputPalavra=' \
  --compressed

Por diario:

curl 'https://timon.ma.gov.br/diario/pesquisa_numerodiario.php' \
  -H 'content-type: application/x-www-form-urlencoded' \
  --data-raw 'TipoDiario_numero=Todos&inputDiario=10' \
  --compressed

A requisição post retorna a pagina html com os links dos documentos em (/html/body/div/header/div[2]/header/div/div[1]/header/div[2]/div/div/table/tbody/tr[1]/td[6]/a[1]).

engFelipeMonteiro · 2023-10-16T11:38:52Z

Os diarios estão sendo mostrados de forma continua desde 20/03/2013(start date).
Porém ha alguns(4) anteriores a isso, de forma esparsa

engFelipeMonteiro · 2023-10-18T10:24:51Z

finalizado de desenvolver o crawler e após executar ele inteiro parece que trouxe todos os pdfs, realizei algumas verificações

segue o fim do log de execução, parece que deu 1 erro:

2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] ------------------------------ MONITORS ------------------------------
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] Comparison Between Executions/Days without gazettes... OK
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] Requests/Items Ratio/Ratio of requests over items scraped count... OK
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] Error Count Monitor/test_stat_monitor... SKIPPED (Unable to find 'log_count/ERROR' in job stats.)
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] Finish Reason Monitor/Should have the expected finished reason(s)... OK
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] Item Validation Monitor/test_stat_monitor... FAIL
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] ----------------------------------------------------------------------
2023-10-17 23:24:15 [ma_timon] ERROR: [Spidermon] 
======================================================================
FAIL: Item Validation Monitor/test_stat_monitor
----------------------------------------------------------------------
Traceback (most recent call last):
  File "/Users/felipemonteirojacome/workspace/querido-diario/venv/lib/python3.9/site-packages/spidermon/contrib/scrapy/monitors.py", line 144, in test_stat_monitor
    assertion_method(
AssertionError: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0'. Current value: '1'

2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] 5 monitors in 0.011s
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] FAILED (failures=1, skipped=1)
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] -------------------------- FINISHED ACTIONS --------------------------
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] ----------------------------------------------------------------------
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] 0 actions in 0.000s
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] OK
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] --------------------------- PASSED ACTIONS ---------------------------
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] ----------------------------------------------------------------------
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] 0 actions in 0.000s
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] OK
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] --------------------------- FAILED ACTIONS ---------------------------
2023-10-17 23:24:15 [spidermon.contrib.actions.discord] INFO: *ma_timon* finished
- Finish time: *2023-10-18 02:24:15.629638*
- Gazettes scraped: *3186*
- 🔥 1 failures 🔥
===== FAILURES =====
Item Validation Monitor/test_stat_monitor: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0'. Current value: '1'
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] CustomSendDiscordMessage... OK
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] ----------------------------------------------------------------------
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] 1 action in 0.000s
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] OK
2023-10-17 23:24:15 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 1184834,
 'downloader/request_count': 3153,
 'downloader/request_method_count/GET': 3152,
 'downloader/request_method_count/POST': 1,
 'downloader/response_bytes': 3646730267,
 'downloader/response_count': 3153,
 'downloader/response_status_count/200': 3152,
 'downloader/response_status_count/404': 1,
 'elapsed_time_seconds': 2212.466172,
 'file_count': 3186,
 'file_status_count/downloaded': 3151,
 'file_status_count/uptodate': 35,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2023, 10, 18, 2, 24, 15, 629638),
 'httpcompression/response_bytes': 4870196,
 'httpcompression/response_count': 2,
 'item_dropped_count': 1,
 'item_dropped_reasons_count/DropItem': 1,
 'item_scraped_count': 3186,
 'log_count/DEBUG': 9526,
 'log_count/ERROR': 1,
 'log_count/INFO': 71,
 'log_count/WARNING': 10,
 'memusage/max': 210485248,
 'memusage/startup': 99958784,
 'response_received_count': 3153,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'spidermon/validation/fields': 25496,
 'spidermon/validation/fields/errors': 1,
 'spidermon/validation/fields/errors/field_too_short': 1,
 'spidermon/validation/fields/errors/field_too_short/files': 1,
 'spidermon/validation/items': 3187,
 'spidermon/validation/items/dropped': 1,
 'spidermon/validation/items/errors': 1,
 'spidermon/validation/validators': 1,
 'spidermon/validation/validators/item/jsonschema': True,
 'start_time': datetime.datetime(2023, 10, 18, 1, 47, 23, 163466)}
2023-10-17 23:24:15 [scrapy.core.engine] INFO: Spider closed (finished)

pendente realizar testes com start_date e end_date

scrapy crawl  -a start_date=
scrapy crawl  -a end_date=

possivelmente rodar com o log:

scrapy crawl  -s LOG_FILE=log_.txt

engFelipeMonteiro · 2023-10-18T11:00:31Z

ja fiz o push pra minha branch

engFelipeMonteiro · 2023-10-28T17:21:01Z

Identificado que o arquivo referente ao arquivo do dia 12/05/2021 não foi encontrado, edição suplementar.
Reportado na pagina sobre o problema

talesmota · 2024-05-09T16:12:29Z

finalizado de desenvolver o crawler e após executar ele inteiro parece que trouxe todos os pdfs, realizei algumas verificações

segue o fim do log de execução, parece que deu 1 erro:

Traceback (most recent call last):
File "/Users/felipemonteirojacome/workspace/querido-diario/venv/lib/python3.9/site-packages/spidermon/contrib/scrapy/monitors.py", line 144, in test_stat_monitor
assertion_method(
AssertionError: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0'. Current value: '1'

2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] 5 monitors in 0.011s
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] FAILED (failures=1, skipped=1)
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] -------------------------- FINISHED ACTIONS --------------------------
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] ----------------------------------------------------------------------
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] 0 actions in 0.000s
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] OK
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] --------------------------- PASSED ACTIONS ---------------------------
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] ----------------------------------------------------------------------
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] 0 actions in 0.000s
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] OK
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] --------------------------- FAILED ACTIONS ---------------------------
2023-10-17 23:24:15 [spidermon.contrib.actions.discord] INFO: ma_timon finished

Finish time: 2023-10-18 02:24:15.629638

Gazettes scraped: 3186

🔥 1 failures 🔥
===== FAILURES =====
Item Validation Monitor/test_stat_monitor: Expecting 'spidermon/validation/fields/errors' to be '<=' to '0'. Current value: '1'
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] CustomSendDiscordMessage... OK
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] ----------------------------------------------------------------------
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] 1 action in 0.000s
2023-10-17 23:24:15 [ma_timon] INFO: [Spidermon] OK

pendente realizar testes com start_date e end_date

scrapy crawl -a start_date=
scrapy crawl -a end_date=
possivelmente rodar com o log:

scrapy crawl -s LOG_FILE=log_.txt

Oi @engFelipeMonteiro, conseguiu identificar a razão desse erro? Está acontecendo comigo também.

Abraços.

ogecece added spider Adiciona robô raspador para município(s) dificuldade:baixa Pouco desafiador de desenvolver labels Jun 12, 2023

trevineju added this to the 100 maiores cidades da Amazônia Legal milestone Jun 12, 2023

peddrogomes mentioned this issue Jun 19, 2023

adiciona spider timon-ma #886

Closed

5 tasks

trevineju linked a pull request Jun 20, 2023 that will close this issue

adiciona spider timon-ma #886

Closed

5 tasks

trevineju added the hacktoberfest label Oct 2, 2023

trevineju removed the hacktoberfest label Nov 2, 2023

engFelipeMonteiro linked a pull request Nov 4, 2023 that will close this issue

ma_timon #1012

Open

5 tasks

trevineju linked a pull request Nov 10, 2023 that will close this issue

ma_timon #1012

Open

5 tasks

trevineju modified the milestones: 100 maiores cidades da Amazônia Legal, Reduzir principais barreiras de contribuição | Reduce main barriers of contribution Mar 12, 2024

talesmota mentioned this issue May 9, 2024

[Novo spider]: Guaratuba-PR #1138 #1142

Open

14 tasks

trevineju added this to the Atingir cobertura de mil municípios milestone Sep 18, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Timon-MA #869

Timon-MA #869

ogecece commented Jun 12, 2023

peddrogomes commented Jun 14, 2023

Winzen commented Sep 5, 2023 •

edited

Loading

engFelipeMonteiro commented Oct 7, 2023

engFelipeMonteiro commented Oct 16, 2023

engFelipeMonteiro commented Oct 16, 2023

engFelipeMonteiro commented Oct 18, 2023

engFelipeMonteiro commented Oct 18, 2023

engFelipeMonteiro commented Oct 28, 2023

talesmota commented May 9, 2024

Timon-MA #869

Timon-MA #869

Comments

ogecece commented Jun 12, 2023

URL da forma de consulta

Período de publicação

Formato da publicação

Conteúdo da publicação

Detalhes do site de publicação

Observações

Não existe uma issue aberta para esse município

peddrogomes commented Jun 14, 2023

Winzen commented Sep 5, 2023 • edited Loading

engFelipeMonteiro commented Oct 7, 2023

engFelipeMonteiro commented Oct 16, 2023

engFelipeMonteiro commented Oct 16, 2023

engFelipeMonteiro commented Oct 18, 2023

engFelipeMonteiro commented Oct 18, 2023

engFelipeMonteiro commented Oct 28, 2023

talesmota commented May 9, 2024

Winzen commented Sep 5, 2023 •

edited

Loading