scrapy-redis爬虫跑了一阵子之后从队列中取不到url了

久韦 · 发表于 2021-5-26 02:30:43

我在redis的队列中存储了两千条start_url，但是在进行爬取的时候，每次都是爬了几十条或者百来条，就会进入等待获取start_url的状态

有没有大佬帮忙分析一下，我百度查了好多了，但是没有找到能够解决的办法。
因为它能够从队列中拿数据进行爬取，就是会跑了一阵子之后拿不到数据了，重新启动爬虫，又会有一些start_url可以爬，但是不一会儿又会没有start_url了

红軍 · 发表于 2021-5-27 01:14:10

如何是在网络爬取最好就是伪装，以防万一IP给封访问不了，虽然说你是在自己的两个服务来回爬取，但也可能会给封IP。如何是你在本地这样弄倒不会出现问题。我只可以说有概率是IP给封了访问不了

明天早上喊我一声 · 发表于 2021-5-30 07:43:40

我也有相同的疑问,还以为是我程序挂了,结果是不运行了,是怎么一回事?

徐行记 · 发表于 2021-5-30 16:18:52

我想说我也还没解决，，，你们呢？

		自动登录	找回密码
密码			立即注册

scrapy-redis爬虫跑了一阵子之后从队列中取不到url了

本帖子中包含更多资源