python3爬虫系列19之随机User-Agent 和ip代理池的使用

我们前面几篇讲了爬虫增速多进程,进程池的用法之类的,爬虫速度加快呢,也会带来一些坏事!!!

1. 前言

比如随着我们爬虫的速度越来越快,很多时候,有人发现,数据爬不了啦,打印出来一看。

不返回数据,而且还甩一句话

是不是很熟悉啊?

要想想看,人是怎么访问网站的? 发请求,对,那么就会带有

request.headers,

那么当你疯狂请求别人的网站时候,人家网站的管理人员就会 觉得有点不对劲了,

他看看请求的 header 信息,一看吓一跳,结果看到的 headers 信息是这样的:

Host: 127.0

更多推荐

python3爬虫系列19之反爬随机 User-Agent 和 ip代理池的使用