久韦 发表于 2021-5-26 02:30:43

scrapy-redis爬虫跑了一阵子之后从队列中取不到url了

我在redis的队列中存储了两千条start_url,但是在进行爬取的时候,每次都是爬了几十条或者百来条,就会进入等待获取start_url的状态

有没有大佬帮忙分析一下,我百度查了好多了,但是没有找到能够解决的办法。
因为它能够从队列中拿数据进行爬取,就是会跑了一阵子之后拿不到数据了,重新启动爬虫,又会有一些start_url可以爬,但是不一会儿又会没有start_url了

红軍 发表于 2021-5-27 01:14:10

如何是在网络爬取最好就是伪装,以防万一IP给封访问不了,虽然说你是在自己的两个服务来回爬取,但也可能会给封IP。如何是你在本地这样弄倒不会出现问题。我只可以说有概率是IP给封了访问不了

明天早上喊我一声 发表于 2021-5-30 07:43:40

我也有相同的疑问,还以为是我程序挂了,结果是不运行了,是怎么一回事?

徐行记 发表于 2021-5-30 16:18:52

我想说我也还没解决,,,你们呢?
页: [1]
查看完整版本: scrapy-redis爬虫跑了一阵子之后从队列中取不到url了