Spiders are based on Scrapy.
Create a file config.yml
with the following info:
CRAWLERA_USER: abc
CRAWLERA_PASS: abc
drivername: postgres
username: postgres
host: localhost
port: 5432
password: pass
database: manolo
api_key: scrapinghub's api key
sh_project: scrapinghub's project
scraping_past_number_of_days: 14
# spiders that are banned when working from scrapinghub.com
banned_spiders:
- inpe
The database credentials are needed so that the spider will upload data to the production database.
-
Ministerio de Transportes y Comunicaciones
-
Ministerio de la Mujer
-
Ministerio de Energia y Minas
-
Instituto Nacional Penitenciario
-
Ministerio de Defensa
-
Presidencial del Consejo de Ministros
-
Organismo Supervisor de las Contrataciones del Estado
-
Ministerio de Produccion
-
Tribunal Constitucional
-
Ministerio de Cultura
-
Ministerio de Justicia
-
Ministerio de Relaciones Exteriores
-
Ministerio del Trabajo
-
Ministerio de Educacion
-
Ministerio de Salud
-
Ministerio del Ambiente
-
Ministerio de Agricultura y Riesgo
-
Ministerio de Desarrollo e Inclusion social
-
Ministerio de Comercio Exterior y Turismo
-
Congreso de la Republica
-
Presidencia
-
Ministerio de Vivienda
scrapy crawl SPIDER_NAME -a date_start=DATE_ISO_FORMAT -a date_end=DATE_ISO_FORMAT