小白教程

 找回密码
 立即注册
查看: 6574|回复: 3

scrapy-redis爬虫跑了一阵子之后从队列中取不到url了

[复制链接]

1

主题

3

帖子

7

积分

新手上路

Rank: 1

积分
7
发表于 2021-5-26 02:30:43 | 显示全部楼层 |阅读模式
我在redis的队列中存储了两千条start_url,但是在进行爬取的时候,每次都是爬了几十条或者百来条,就会进入等待获取start_url的状态

有没有大佬帮忙分析一下,我百度查了好多了,但是没有找到能够解决的办法。
因为它能够从队列中拿数据进行爬取,就是会跑了一阵子之后拿不到数据了,重新启动爬虫,又会有一些start_url可以爬,但是不一会儿又会没有start_url了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0

主题

2

帖子

4

积分

新手上路

Rank: 1

积分
4
发表于 2021-5-27 01:14:10 | 显示全部楼层
如何是在网络爬取最好就是伪装,以防万一IP给封访问不了,虽然说你是在自己的两个服务来回爬取,但也可能会给封IP。如何是你在本地这样弄倒不会出现问题。我只可以说有概率是IP给封了访问不了
回复

使用道具 举报

1

主题

5

帖子

10

积分

新手上路

Rank: 1

积分
10
发表于 2021-5-30 07:43:40 | 显示全部楼层
我也有相同的疑问,还以为是我程序挂了,结果是不运行了,是怎么一回事?
回复

使用道具 举报

1

主题

4

帖子

8

积分

新手上路

Rank: 1

积分
8
发表于 2021-5-30 16:18:52 | 显示全部楼层
我想说我也还没解决,,,你们呢?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|小白教程 ( 粤ICP备20019910号 )

GMT+8, 2024-9-20 12:39 , Processed in 0.028041 second(s), 27 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc. Template By 【未来科技】【 www.wekei.cn 】

快速回复 返回顶部 返回列表