最近群里有小伙伴询问,Python 爬虫相关的开源项目有哪些不错的呀。
这不巧了么,这题我会呀。

学习开源项目,研究开源代码,阅读大佬的代码,你能走的更快,更稳。

在选择爬虫项目时,尽量避免爬虫合计类开源项目,已工具爬虫为主,例如登录类,代理池类,框架类。

文末有不可描述的内容 🙈🙈🙈

项目一:awesome-python-login-model

该开源项目主要用于模拟登录,主要技术为 selenium,处理了很多网站的 JS 逆向问题。

整体策略围绕登录,保存 cookie,维护 cookie 进行采集实施。作者在项目描述页为大家分享了已经实现的网站,例如猎聘,CSDN,京东,拉钩,微博等爬虫经常光顾的网站。

项目开源协议为 GNU,最近一次更新时间为 11 天前(文章写作时间为 2021 年 7 月 9 日,下同)

项目地址:https://github/Kr1s77/awesome-python-login-model

项目 Star:13.5K,Fork 3K

已解决登录网站列表:

项目二:proxy_pool

Python 爬虫代理池,核心功能定时采集网上发布的免费代理,验证是否可用,然后自建代理池,提供了 API 和 CLI 两种方式。

作者非常友好的提供了 Python2.x 和 Python3.x 版本,以及项目文档 https://proxy-pool.readthedocs.io/zh/latest/

为了便于测试效果,同步开放了一个测试地址 http://demo.spiderpy

项目开源协议为 MIT,最近一次更新时间为 16 小时前。

项目地址:https://github/jhao104/proxy_pool

项目 Star:12.8K,Fork 3.6K

目前内置的免费代理源如下(手动打码):

项目三:weibo-crawler

新浪微博爬虫,它可以连续爬取一个或者多个新浪微博用户数据,该项目优秀在持续更新,对于爬取内容可以自行定制,并且可扩展为增量数据爬虫。

爬虫兼容了微博图片下载与视频下载,可学习的点非常多。

项目开源协议为 未设置,最近一次更新时间为 10 小时前。

项目地址:https://github/dataabc/weibo-crawler

项目 Star:1.2K,Fork 390

该作者贡献了很多面向微博的爬虫,可以多翻翻,非常好的学习对象,例如:https://github/dataabc/weiboSpider

作者对于功能的描述:

项目四:WechatSogou

基于搜索微信搜索的微信公众号爬虫接口,该开源项目主要用于采集微信公众号文章。

项目最近更新不频繁,是否可用有待测试,但是开源代码是非常值得学习的,由于该项目的协议不是无限制协议,所以大家以学习编码的目的看待该项目即可。

项目开源协议为 Apache-2.0 License

项目地址:https://github/chyroc/WechatSogou

项目 Star:5.1K,Fork 1.6K

基于微信公众号文章的爬虫项目,还可以参考 https://github/wnma3mz/wechat_articles_spider ,该项目也是基于 Apache-2.0 License,该项目作者标记更新于 2021年3月,参考学习还是非常有价值的。

项目 Star:1.2K,Fork 395

项目五:Image-Downloader

该项目用于从百度,谷歌,必应下载图片,核心使用到的库是 RequestsSelenium,学习该项目的原因是它提供了 GUI 和 CMD 两个版本,即你可以通过 GUI 界面操作爬虫,非常好的学习资源。

项目开源协议为 MIT License + 996ICU License,即 996 公司不可使用。

项目地址:https://github/sczhengyabin/Image-Downloader

项目 Star:1.3K,Fork 374

项目运行截图

项目六:dianping_spider

大众点评爬虫(全站可爬,解决动态字体加密,非 OCR)。作者正在更新中,可以通过开源项目学习字体反爬。因为大众点评反爬相当严格,所以作者也加上了 cookie 池,ip 代理,这都是非常好的学习素材。

项目开源协议为 GPL-3.0 License

项目地址:https://github/Sniper970119/dianping_spider

项目 Star:184,Fork 34

作者公布的已完成功能清单。

项目七:Python 爬虫 120 例

最后一个推荐位,本期就留给自己啦,Python 爬虫 120 例,从 5 月 21 日开始更新,目前已经更新到第 13 例,现在 Star 的都是老明星啦。

项目开源协议为 GPL-3.0 License

项目地址:https://codechina.csdn/hihell/python120

不可描述内容

你有想要分享的 Python 爬虫开源库吗?分享到评论区吧,也可以推荐自己的 Python 开源项目哦~

今天是持续写作的第 180 / 200 天。
可以关注我,点赞我、评论我、收藏我啦。

更多精彩

  • Python 爬虫 100 例教程导航帖(已完结)

更多推荐

加密分享,那些精彩绝绝伦的Python爬虫开源项目,先集7个吧