scrapy-redis爬虫跑了一阵子之后从队列中取不到url了
我在redis的队列中存储了两千条start_url,但是在进行爬取的时候,每次都是爬了几十条或者百来条,就会进入等待获取start_url的状态有没有大佬帮忙分析一下,我百度查了好多了,但是没有找到能够解决的办法。
因为它能够从队列中拿数据进行爬取,就是会跑了一阵子之后拿不到数据了,重新启动爬虫,又会有一些start_url可以爬,但是不一会儿又会没有start_url了
如何是在网络爬取最好就是伪装,以防万一IP给封访问不了,虽然说你是在自己的两个服务来回爬取,但也可能会给封IP。如何是你在本地这样弄倒不会出现问题。我只可以说有概率是IP给封了访问不了 我也有相同的疑问,还以为是我程序挂了,结果是不运行了,是怎么一回事? 我想说我也还没解决,,,你们呢?
页:
[1]