python3爬虫系列19之随机User-Agent 和ip代理池的使用
我们前面几篇讲了爬虫增速多进程,进程池的用法之类的,爬虫速度加快呢,也会带来一些坏事!!!
1. 前言
比如随着我们爬虫的速度越来越快,很多时候,有人发现,数据爬不了啦,打印出来一看。
不返回数据,而且还甩一句话
是不是很熟悉啊?
要想想看,人是怎么访问网站的? 发请求,对,那么就会带有
request.headers,
那么当你疯狂请求别人的网站时候,人家网站的管理人员就会 觉得有点不对劲了,
他看看请求的 header 信息,一看吓一跳,结果看到的 headers 信息是这样的:
Host: 127.0
更多推荐
python3爬虫系列19之反爬随机 User-Agent 和 ip代理池的使用
发布评论