scrapy 中的 settings.py 文件在项目中是非常重要的,因其包含非常多的配置。
这篇博客基于官方手册为你说明 settings.py 文件相关配置,并补充一些扩展说明。

settings 的 4 个级别

  1. 优先级最高 - 命令行,例如 scrapy crawl my_spider -s LOG_LEVEL=WARNINI
  2. 优先级第二 - 爬虫文件自己的设置,例如在 xxx.py 文件中设置 custom_settings
  3. 优先级第三 - 项目模块,这里指的是 settings.py 文件中的配置;
  4. 优先级第四 - default_settings 属性配置;
  5. 优先级第五 - default_settings.py 文件中的配置。

settings 配置的读取,一般使用 spider 中的 from_crawler 方法,在中间件,管道,扩展中都可以进行调用。

settings 配置读取操作非常简单,上一篇博客已经有所涉及,命令格式如下所示:

scrapy settings --get 配置变量名称

settings 常用配置

更多推荐

20行Python scrapy 代码,去采集【蓝桥】训练营