一:scrapy框架工作原理

二:scrapy通用爬虫的创建


1)创建项目 scrapy startproject xxxx(项目名)

2)进入项目目录下创建通用爬虫  scrapy genspider crawl -t xxxx(爬虫名)   www.xxxx(域)

三:爬去之前一定要对爬虫进行最基本的伪装

1)在settings.py文件中关闭robot协议  

2)在中间件中添加随机User-Agent中间件

注意: 如果是在Windows下开发,注意User-Agent列表中一定不要有mac电脑中的user-agent,否则会报lan-之类的编码错误

 

3)在中间件文件中添加代理中间件(这个一定要添加,薅羊毛总会被发现,IP被封了很影响你分析网站的

4)注册中间件(一定不要忘记注册

四:开始编写爬虫

1)文章详情页的url一般都是有规律的用简单的正则就能匹配(但一定要写对,否则你可能无法翻页匹配到下一页的文章详情的url

2)解析数据,主要遇到的坑是文章展示到自己平台上有段落与缩进问题

五:最容易遇到的问题

1)测试爬去的时候也一定要加代理iP,否则ip被封后,无法在浏览器端分析目标网站

2)在windows下开发时User-Agent列表中一定不要有mac下的user-agent

3)匹配详情也的url正则表达式一定要写对,否则可能无法翻页匹配到下一页的文章详情url

4) 处理爬去后文章的结构,主要是有的P标签中是空的,一定要剔除这些空内容再构造文章结构

 

更多推荐

scrapy通用爬虫爬去新闻网站心得