使用selenium自动爬取斗鱼直播平台的所有房间信息

文章目录

- - - 使用selenium自动爬取斗鱼直播平台的所有房间信息
    - - 使用selenium实现动态页面模拟点击
      - 什么是selenium？
      - selenium 介绍
      - 分析翻页操作：
      - 详情页面数据的爬取：
      - 保存数据的函数：

使用selenium实现动态页面模拟点击

什么是selenium？

selenium 介绍

selenium 是一个 web 的自动化测试工具，不少学习功能自动化的同学开始首选 selenium ，因为它相比 QTP 有诸多有点：

免费，也不用再为破解 QTP 而大伤脑筋小巧，对于不同的语言它只是一个包而已，而 QTP 需要下载安装1个多 G 的程序。这也是最重要的一点，不管你以前更熟悉 C、 java、ruby、python、或都是 C# ，你都可以通过 selenium 完成自动化测试，而 QTP 只支持 VBS支持多平台：windows、linux、MAC ，支持多浏览器：ie、ff、safari、opera、chrome支持分布式测试用例的执行，可以把测试用例分布到不同的测试机器的执行，相当于分发机的功能

今天我们就用selenium实现斗鱼直播平台的房间信息的爬取：

先确认网址：

这是网址：https://www.douyu/directory/all

图3

图4

分析翻页操作：

发现所有房间的信息都是保存在一个无序列表中的li中，所以我们可以先获取一个装有li的element对象的列表，然后在对每个element逐一操作

分析斗鱼的翻页，有一个下一页按钮，是个li，class="dy-Pagination-item-custom" ，但是当烦到最后一页的时候，class="dy-Pagination-disabled dy-Pagination-next"，所以我们要想利用selenium模拟点击这个按钮，我们应该利用

get_elements_by_xpath()这个函数，这样到最后一页就获取不到了，就可以终止程序了。而用elements的原因是当到最后一页的时候获取不到的话，element会报错

然后还是通用的套路：发送请求获取响应、提取数据和下一页的元素、保存数据、点击下一页的元素循环…

图5：

反爬措施：

需要用time.sleep()函数强制等待页面加载完再获取元素，否则报错，睡几秒就看你的网速了

所以我们要导入这个模块：

import time

下面开始代码的编写：

导入的模块：

import time
import json
from selenium import webdriver

初始化函数的编写：

  def __init__(self):
    self.start_rul = 'https://www.douyu/directory/all'
    self.driver = webdriver.Chrome()

这个样子就可以自动打开浏览器了，这个我们打开的是Chrome谷歌浏览器

详情页面数据的爬取：

  def get_content_list(self):
    time.sleep(10) # 强制等待10秒，否则可能报错
    li_list = self.driver.find_elements_by_xpath('//ul[@class="layout-Cover-list"]/li')
    content_list = []
    for li in li_list:
      item = {}
      item['room_img'] = li.find_element_by_xpath('.//img[@class="DyImg-content is-normal "]').get_attribute('src')
      item['room_title'] = li.find_element_by_xpath('.//h3[@class="DyListCover-intro"]').text
      item['root_category'] = li.find_element_by_xpath('.//span[@class="DyListCover-zone"]').text
      item['author_name'] = li.find_element_by_class_name('DyListCover-user').text
      item['watch_num'] = li.find_element_by_class_name('DyListCover-hot').text
      content_list.append(item)
      print(item) # 打印每次获取到的直播房间的信息
    # 获取下一页的元素,为了防止没有报错，这里用elements，翻到最后一页一定就没有了，返回一个列表
    next_url = self.driver.find_elements_by_xpath('//li[@class=" dy-Pagination-next"]')
    next_url = next_url[0] if len(next_url) > 0 else None
    return content_list, next_url

保存数据的函数：

  def save_content_list(self, content_list):
      with open("douyu.txt", "a",encoding='utf-8') as f:
       for content in content_list:
          json.dump(content, f, ensure_ascii=False, indent=2)
          f.write("\n")
          print("保存数据成功")
       f.close()

运行程序的主函数：

  def run(self): # 实现主要逻辑
    # 1.start_url
    # 2.发送请求，获取响应
    self.driver.maximize_window()
    self.driver.get(self.start_rul)
    # 3.提取数据，提取下一页的元素
    content_list, next_url = self.get_content_list()
    # 4.保存数据
    self.save_content_list(content_list)
    # 4.点击下一页元素，循环
    while next_url is not None:
      next_url.click()
      content_list, next_url = self.get_content_list()
      self.save_content_list(content_list)

运行整个程序的主函数：

if __name__ == '__main__':
  douban = DouyuSpider()
  douban.run()

这样子我们程序的代码就完成了：

完整的代码：

import time
import json
from selenium import webdriver
class DouyuSpider(object):
  def __init__(self):
    self.start_rul = 'https://www.douyu/directory/all'
    self.driver = webdriver.Chrome()

  def get_content_list(self):
    time.sleep(10) # 强制等待10秒，否则可能报错
    li_list = self.driver.find_elements_by_xpath('//ul[@class="layout-Cover-list"]/li')
    content_list = []
    for li in li_list:
      item = {}
      item['room_img'] = li.find_element_by_xpath('.//img[@class="DyImg-content is-normal "]').get_attribute('src')
      item['room_title'] = li.find_element_by_xpath('.//h3[@class="DyListCover-intro"]').text
      item['root_category'] = li.find_element_by_xpath('.//span[@class="DyListCover-zone"]').text
      item['author_name'] = li.find_element_by_class_name('DyListCover-user').text
      item['watch_num'] = li.find_element_by_class_name('DyListCover-hot').text
      content_list.append(item)
      print(item) # 打印每次获取到的直播房间的信息
    # 获取下一页的元素,为了防止没有报错，这里用elements，翻到最后一页一定就没有了，返回一个列表
    next_url = self.driver.find_elements_by_xpath('//li[@class=" dy-Pagination-next"]')
    next_url = next_url[0] if len(next_url) > 0 else None
    return content_list, next_url
  def save_content_list(self, content_list):
      with open("douyu.txt", "a",encoding='utf-8') as f:
       for content in content_list:
          json.dump(content, f, ensure_ascii=False, indent=2)
          f.write("\n")
          print("保存数据成功")
       f.close()

  def run(self): # 实现主要逻辑
    # 1.start_url
    # 2.发送请求，获取响应
    self.driver.maximize_window()
    self.driver.get(self.start_rul)
    # 3.提取数据，提取下一页的元素
    content_list, next_url = self.get_content_list()
    # 4.保存数据
    self.save_content_list(content_list)
    # 4.点击下一页元素，循环
    while next_url is not None:
      next_url.click()
      content_list, next_url = self.get_content_list()
      self.save_content_list(content_list)
if __name__ == '__main__':
  douban = DouyuSpider()
  douban.run()

运行的效果：

图1

图2

更多推荐

使用selenium自动爬取斗鱼直播平台的所有房间信息

使用selenium自动爬取斗鱼直播平台的所有房间信息

使用selenium自动爬取斗鱼直播平台的所有房间信息

文章目录

使用selenium实现动态页面模拟点击

什么是selenium？

selenium 介绍

分析翻页操作：

详情页面数据的爬取：

保存数据的函数：

发布评论取消回复

最近发表

热门文章

标签列表

使用selenium自动爬取斗鱼直播平台的所有房间信息

使用selenium自动爬取斗鱼直播平台的所有房间信息

文章目录

使用selenium实现动态页面模拟点击

什么是selenium？

selenium 介绍

分析翻页操作：

详情页面数据的爬取：

保存数据的函数：

相关文章

发布评论取消回复

最近发表

热门文章

标签列表