Fix - Spider de Caçapava-SP [Fixes #1131] #1274

jjpaulo2 · 2024-09-21T01:21:27Z

Testes

Uma coleta-teste por intervalo arbitrário foi feita. Os arquivos de .loge .csv deste teste estão anexados na PR.

Verificações

Eu experimentei abrir alguns arquivos de diários oficiais coletados pelo meu raspador e verifiquei eles conforme a documentação não encontrando problemas.
Eu verifiquei os arquivos .csv gerados pela minha coleta conforme a documentação não encontrando problemas.
Eu verifiquei os arquivos de .log gerados pela minha coleta conforme a documentação não encontrando problemas.

Anexos

scrapy crawl sp_cacapava -a start_date=2024-09-01 -a end_date=2024-09-19 -s LOG_FILE=sp_cacapava.log -o sp_cacapava.csv

Descrição

Faltava apenas chamar o .extract() para fazer o evaluate dos hrefs.

victorfernandesraton · 2024-09-22T15:39:08Z

@trevineju vou pegar esssa pra rever

jjpaulo2 · 2024-09-22T19:05:38Z

data_collection/gazette/spiders/sp/sp_cacapava.py


            yield Gazette(
                date=gazette_date,
                edition_number=edition_number,
                is_extra_edition=False,
                power="executive_legislative",
-                file_urls=[gazette_url],
+                territory_id=self.TERRITORY_ID,
+                file_urls=gazette_url,


Nesse caso, o objeto já é uma lista. Fiz o evalutate com .extract().

Vi que a maioria dos spiders usa sempre .extract_first() (esse só retorna um registro). Caso seja o padrão, ou o recomendável no projeto, posso alterar sem problemas.

trevineju · 2024-09-23T14:33:43Z

data_collection/gazette/spiders/sp/sp_cacapava.py


            yield Gazette(
                date=gazette_date,
                edition_number=edition_number,
                is_extra_edition=False,
                power="executive_legislative",
-                file_urls=[gazette_url],
+                territory_id=self.TERRITORY_ID,
+                file_urls=gazette_url,


Caso seja o padrão, ou o recomendável no projeto, posso alterar sem problemas.

Tem alguns raspadores bem antigos que ainda usam .extract_first() mesmo, mas temos passado a usar .get() e .getall() apenas, pq o próprio Scrapy fez essa mudança. Poderia atualizar a PR, @jjpaulo2?

Seria até uma boa contribuição essa de padronizar a base de código. Vou deixar uma issue.

jjpaulo2 · 2024-09-23T19:55:38Z

Fiz o ajuste @trevineju. Eu não havia testado o scrapping completo dessa cidade, mas parece que ele falha para algumas datas. Isso já é esperado?

trevineju · 2024-09-23T20:32:48Z

Fiz o ajuste @trevineju.

Show!

Eu não havia testado o scrapping completo dessa cidade, mas parece que ele falha para algumas datas. Isso já é esperado?
Não era, não.

Olhei rapidamente o log e, na linha 3124, quando começa um monte de redirect seguidos, a URL que estava sendo tentada era:

https://cacapava.sp.gov.br/diario-oficial?dataDe=27/04/2021&dataAte=23/09/2024&pagina=20&pagina=58

está com dois campos de paginação pagina=20 e pagina=58 e isso não faz sentido. Outras requisições tem essa duplicação também e dão certo. Achei estranho. Poderia seguir investigando, @jjpaulo2?

jjpaulo2 · 2024-09-23T20:59:20Z

Sigo sim @trevineju. Só dei essa olhadinha rápida. Vou tentar dar um retorno até quarta.

jjpaulo2 · 2024-09-25T15:43:17Z

@trevineju fiz um ajuste na paginação. Agora está funcionando 100%! 😄

jjpaulo2 · 2024-10-16T18:51:37Z

@trevineju fiz os ajustes mas esqueci de pedir o novo review.

victorfernandesraton · 2024-10-16T21:52:09Z

@trevineju fiz um ajuste na paginação. Agora está funcionando 100%! 😄

sp_cacapava.csv

sp_cacapava.log

Este log aqui aparentemente é para o raspador completo sem filtro de datas certo?
Com a correção feita, acredito que seria interessante ter tanbém os logs e csv gerado para um período aleatório

fix: extraindo href dos links (okfn-brasil#1131)

c22c4e3

jjpaulo2 changed the title ~~Fix - Spider de Caçapava-SP (Fixes #1131)~~ Fix - Spider de Caçapava-SP [Fixes #1131] Sep 21, 2024

jjpaulo2 mentioned this pull request Sep 21, 2024

[Manutenção] Caçapava-SP #1131

Open

fix: adicionando TERRITORY_ID a instância do Gazette

986ee98

trevineju linked an issue Sep 22, 2024 that may be closed by this pull request

[Manutenção] Caçapava-SP #1131

Open

jjpaulo2 commented Sep 22, 2024

View reviewed changes

victorfernandesraton approved these changes Sep 23, 2024

View reviewed changes

trevineju requested changes Sep 23, 2024

View reviewed changes

refact: usando nova interface do scrapy

0d881cc

jjpaulo2 added 2 commits September 25, 2024 12:41

fix: paginação de caçapava-sp

d10df0c

chore: removendo typing

1680b92

jjpaulo2 requested review from trevineju and victorfernandesraton October 16, 2024 18:51

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fix - Spider de Caçapava-SP [Fixes #1131] #1274

Fix - Spider de Caçapava-SP [Fixes #1131] #1274

jjpaulo2 commented Sep 21, 2024

victorfernandesraton commented Sep 22, 2024

jjpaulo2 Sep 22, 2024

trevineju Sep 23, 2024

jjpaulo2 commented Sep 23, 2024

trevineju commented Sep 23, 2024

jjpaulo2 commented Sep 23, 2024

jjpaulo2 commented Sep 25, 2024

jjpaulo2 commented Oct 16, 2024

victorfernandesraton commented Oct 16, 2024

Fix - Spider de Caçapava-SP [Fixes #1131] #1274

Are you sure you want to change the base?

Fix - Spider de Caçapava-SP [Fixes #1131] #1274

Conversation

jjpaulo2 commented Sep 21, 2024

Testes

Verificações

Anexos

Descrição

victorfernandesraton commented Sep 22, 2024

jjpaulo2 Sep 22, 2024

Choose a reason for hiding this comment

trevineju Sep 23, 2024

Choose a reason for hiding this comment

jjpaulo2 commented Sep 23, 2024

trevineju commented Sep 23, 2024

jjpaulo2 commented Sep 23, 2024

jjpaulo2 commented Sep 25, 2024

jjpaulo2 commented Oct 16, 2024

victorfernandesraton commented Oct 16, 2024