You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Para a construção dos crawlers, o pacote crawler pode ser de grande ajuda, pode-se reduzir o rateLimit para aumentando a velocidade entre duas requisições (Obtendo assim, respostas mais rapidas) e limitar as conexões do robô aos sites (Isso evita que seu bot seja bloqueado por suspeitas de DOS), alem de reduzir a complexidade do código e como o pacote usa o Cherrio, vocês não terão grandes problemas com a implementação
Show cara,eu comecei utilizando ele mas mudei para o request por 2 motivos:
A organização do crawler em callbacks deixa o código horrivel (sinceramente não procurei se existe um versao em promise)
Eu tive grande dificuldade de pegar uma url dentro da outra
CRAWLER: Globo
Pego todas as notícias
Vou em cada notícia e entro dentro da url buscando o conteúdo Esta parte que complicou
Pois como o cheerio utiliza o .each eu precisava de eventos async, o que acabou nao rolando pois ele nao deixava.
meus_elementos.each(asyncfunction(){//Esse async da problema pois ele não aceita uma promisseleturl=$(this).find('a').attr('href')letcontent=awaitminhaFuncaoTopQuePegaConteudo(url)})
Caso tu te sinta confortável com a ferramente pode mandar um pull request, logo que eu finalizar toda a base eu pretendo trabalhar em cima de um crawler mais parrudo como esse que tu mandou
Para a construção dos crawlers, o pacote crawler pode ser de grande ajuda, pode-se reduzir o rateLimit para aumentando a velocidade entre duas requisições (Obtendo assim, respostas mais rapidas) e limitar as conexões do robô aos sites (Isso evita que seu bot seja bloqueado por suspeitas de DOS), alem de reduzir a complexidade do código e como o pacote usa o Cherrio, vocês não terão grandes problemas com a implementação
https://github.com/bda-research/node-crawler
The text was updated successfully, but these errors were encountered: