二十九、scrapy构造并发送请求

1. 翻页请求的思路

对于要提取如下图中所有页面上的数据该怎么办？

回顾requests模块是如何实现翻页请求的：

（1）找到下一页的URL地址
（2）调用requests.get(url)调用requests.get(url)

scrapy实现翻页的思路：

（1）找到下一页的url地址
（2）构造url地址的请求对象，传递给引擎

2. 构造Request对象，并发送请求

2.1 实现方法

（1）确定url地址
（2）构造请求，scrapy.Request(url,callback)
callback：指定解析函数名称，表示该请求返回的响应使用哪一个函数进行解析
（3）把请求交给引擎：yield scrapy.Request(url,callback)

2.2 腾讯招聘爬虫

通过爬取腾讯招聘的页面的招聘信息,学习如何实现翻页请求
地址：http://hr.tencent/position.php

思路分析：

（1）获取首页的数据
（2）寻找下一页的地址，进行翻页，获取数据

注意：

可以在settings中设置ROBOTS协议

# False表示忽略网站的robots.txt协议，默认为True
ROBOTSTXT_OBEY = False

可以在settings中设置User-Agent：

# scrapy发送的每一个请求的默认UA都是设置的这个User-Agent
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'

2.3 代码实现

在爬虫文件的parse方法中：

    # 提取下一页的href并拼接url
    next_url = 'https://hr.tencent/' + response.xpath('//a[text()="下一页"]/@href').extract_first()
    # 判断是否是最后一页
    if response.xpath('//a[text()="下一页"]/@href').extract_first() != 'javascript:;':
        # 构造scrapy.Request对象，并yield给引擎
        # 利用callback参数指定该Request对象之后获取的响应用哪个函数进行解析
        # 利用meta参数将本函数中提取的数据传递给callback指定的函数
        # 注意这里是yield
        yield scrapy.Request(next_url, callback=self.parse)

2.4 scrapy.Request的更多参数

scrapy.Request(url[,callback,method="GET",headers,body,cookies,meta,dont_filter=False])

参数解释

中括号里的参数为可选参数

callback：表示当前的url的响应交给哪个函数去处理
meta：实现数据在不同的解析函数中传递，meta默认带有部分数据，比如下载延迟，请求深度等
dont_filter:默认为False，会过滤请求的url地址，即请求过的url地址不会继续被请求，对需要重复请求的url地址可以把它设置为Ture，比如贴吧的翻页请求，页面的数据总是在变化;start_urls中的地址会被反复请求，否则程序不会启动
method：指定POST或GET请求
headers：接收一个字典，其中不包括cookies
cookies：接收一个字典，专门放置cookies
body：接收一个字典，为POST的数据

3. meta参数的使用

meta的作用：meta可以实现数据在不同的解析函数中的传递

在爬虫文件的parse方法中，提取详情页之前增加callback指定的parse_detail函数：

def parse(self,response):
    ...
    yield scrapy.Request(detail_url, callback=self.parse_detail,meta={"item":item})
...

def parse_detail(self,response):
    #获取之前传入的item
    item = resposne.meta["item"]

特别注意

meta参数是一个字典
meta字典中有一个固定的键proxy，表示代理ip

4. BaseItem的使用

items.py中定义BaseItem

4.1 BaseItem能够做什么

定义item即提前规划好哪些字段需要抓取，防止手误；配合注释一起可以清晰的知道要抓取哪些字段；没有定义的字段不能抓取；在字段不多的情况下很少使用；可以在爬虫中自定义数据字典来代替
使用scrapy的一些特定组件需要BaseItem做支持，如scrapy的ImagesPipeline管道类，百度搜索了解更多
在python大多数框架中，大多数框架都会自定义自己的数据类型(在python自带的数据结构基础上进行封装)，目的是增加功能，增加自定义异常
如response.xpath()的返回对象具有extract()等方法

4.2 定义BaseItem

在items.py文件中定义要提取的字段：

class TencentItem(scrapy.Item): 
    name = scrapy.Field() # 招聘标题
    address = scrapy.Field() # 工作地址
    time = scrapy.Field() # 发布时间
    job_content = scrapy.Field() # 工作职责

4.3 使用BaseItem

BaseItem顶以后需要在爬虫中导入并且实例化，之后的使用方法和使用字典相同

修改爬虫文件tencent.py：

from Tencent.items import TencentItem # 导入Item，注意路径
...
    def parse_detail(self, response):
        meta_dict = response.meta # 获取传入的meta

        item = TencentItem() # 实例化后可直接使用
        item['name'] = meta_dict['name']
        item['address'] = meta_dict['address']
        item['time'] = meta_dict['time']

        # 加入岗位职责数据
        item['job_content'] = response.xpath('//ul[@class="squareli"]/li/text()').extract() 

        print(item)

4.4 注意：

from myspider.items import ItcastItem这一行代码中注意item的正确导入路径，忽略pycharm标记的错误
python中的导入路径要诀：从哪里开始运行，就从哪里开始导入

参考代码

Tencent/spiders/tencent.py

import scrapy
from Tencent.items import TencentItem # 导入Item，注意路径


class TencentSpider(scrapy.Spider):
    name = 'tencent'
    allowed_domains = ['hr.tencent']
    start_urls = ['http://hr.tencent/position.php']

    def parse(self, response):

        tr_list = response.xpath('//*[@class="tablelist"]//tr')[1:-1]
        for tr in tr_list:
            meta_dict = {}
            meta_dict['name'] = tr.xpath('.//a[1]/text()').extract_first()
            meta_dict['address'] = tr.xpath('./td[4]/text()').extract_first()
            meta_dict['time'] = tr.xpath('./td[5]/text()').extract_first()
            meta_dict['href'] = tr.xpath('.//a[1]/@href').extract_first()
            detail_url = 'https://hr.tencent/' + meta_dict['href']
            yield scrapy.Request(detail_url, callback=self.parse_detail, meta=meta_dict)

        # 提取下一页的href并拼接url
        next_url = 'https://hr.tencent/' + response.xpath('//a[text()="下一页"]/@href').extract_first()
        # 判断是否是最后一页
        if response.xpath('//a[text()="下一页"]/@href').extract_first() != 'javascript:;':
            # 构造scrapy.Request对象，并yield给引擎
            # 利用callback参数指定该Request对象之后获取的响应用哪个函数进行解析
            # 利用meta参数将本函数中提取的数据传递给callback指定的函数
            # 注意这里是yield
            yield scrapy.Request(next_url, callback=self.parse)


    def parse_detail(self,response):
        meta_dict = response.meta  # 获取传入的meta

        item = TencentItem()  # 实例化后可直接使用
        item['name'] = meta_dict['name']
        item['address'] = meta_dict['address']
        item['time'] = meta_dict['time']

        # 加入岗位职责数据
        item['job_content'] = response.xpath('//ul[@class="squareli"]/li/text()').extract()

        print(item)

Tencent/items.py

import scrapy

class TencentItem(scrapy.Item):
    name = scrapy.Field() # 招聘标题
    address = scrapy.Field() # 工作地址
    time = scrapy.Field() # 发布时间
    job_content = scrapy.Field() # 工作职责

Tencent/settings.py

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'

ROBOTSTXT_OBEY = False

更多推荐

二十九、scrapy构造并发送请求

二十九、scrapy构造并发送请求

1. 翻页请求的思路

2. 构造Request对象，并发送请求

2.1 实现方法

2.2 腾讯招聘爬虫

2.3 代码实现

2.4 scrapy.Request的更多参数

3. meta参数的使用

4. BaseItem的使用

4.1 BaseItem能够做什么

4.2 定义BaseItem

4.3 使用BaseItem

4.4 注意：

发布评论取消回复

最近发表

热门文章

标签列表

二十九、scrapy构造并发送请求

1. 翻页请求的思路

2. 构造Request对象，并发送请求

2.1 实现方法

2.2 腾讯招聘爬虫

2.3 代码实现

2.4 scrapy.Request的更多参数

3. meta参数的使用

4. BaseItem的使用

4.1 BaseItem能够做什么

4.2 定义BaseItem

4.3 使用BaseItem

4.4 注意：

相关文章

发布评论取消回复

最近发表

热门文章

标签列表