小白教程

 找回密码
 立即注册
查看: 5173|回复: 3

本人小白爬取猫眼top100问题,求指点!

[复制链接]

1

主题

3

帖子

7

积分

新手上路

Rank: 1

积分
7
发表于 2021-3-31 01:29:13 | 显示全部楼层 |阅读模式
刚开始学习爬虫,再网上看到一个爬取猫眼top100的实例,跟着做,但是爬取的结果是' [] ',看了返回的网页,不是top100的源代码,有提到验证

  1. import requests
  2. from requests.exceptions import RequestException
  3. import re

  4. headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'}

  5. def get_one_page(url):
  6.     try:
  7.         response = requests.get(url, headers=headers)
  8.         if response.status_code == 200:
  9.             return response.text
  10.         return None
  11.     except RequestException:
  12.         return None

  13. def parse_one_page(html):
  14.     pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
  15.                          +'.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
  16.                           +'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
  17.     items = re.findall(pattern, html)
  18.     print(items)

  19. def main():
  20.     url = "https://maoyan.com/board/4?"
  21.     html = get_one_page(url)
  22.     parse_one_page(html)

  23. if __name__ == '__main__':
  24.     main()
复制代码


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0

主题

2

帖子

4

积分

新手上路

Rank: 1

积分
4
发表于 2021-4-4 06:53:59 | 显示全部楼层
猫眼设置防爬,数据显示前需要美团验证(页面有时会弹出验证,有时不会)我遇到过你的情况(头疼)
回复

使用道具 举报

1

主题

4

帖子

8

积分

新手上路

Rank: 1

积分
8
发表于 2021-4-21 13:40:24 | 显示全部楼层
你能发布返回的源代码吗
回复

使用道具 举报

0

主题

1

帖子

2

积分

新手上路

Rank: 1

积分
2
发表于 2021-5-9 07:59:29 | 显示全部楼层

可以爬的,使用xpath吧

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|小白教程 ( 粤ICP备20019910号 )

GMT+8, 2024-9-20 15:06 , Processed in 0.028578 second(s), 28 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc. Template By 【未来科技】【 www.wekei.cn 】

快速回复 返回顶部 返回列表