郑重声明:本项目旨在学习Scrapy爬虫框架和MongoDB数据库不可用于其他不正当的事情与商业。若使用不当产生任何不好的后果以及法律责任,均由个人承担!!!
在本次项目当Φ我们将会用到PornHubBot项目,该项目主要是用来爬取全球最大的小电影网站PornHub的视频标题、时长、mp4链接、封面URL和具体的PornHub链接该项目爬取的是PornHub.com,咜的结构简洁运行速度超快。爬取PornHub视频的速度可以达到500万/天以上这个爬取速度还因网络的情况来定。本项目还可多线程请求如果网速跟的上,可以启动多线程请求以达到更快的爬取速度,具体的配置方法见
- 并支持分页爬取数据并加入到待爬队列。
- 安装MongoDB,并启动不需要配置
根据自己需要修改 Scrapy 中关于 间隔时间、启动Requests线程数等得配置
数据库中保存数据的表是 PhRes。以下是字段说明:
以上就是本文的全部内容了由于代码过长,所以只给了链接希望大家多多包涵,喜欢本文的小伙伴或者觉得本文对你有帮助可以点播关注或转发
想学习Python的小伙伴们!可以
领取从0到1完整学习资料 视频 源码 精品书籍 一个月经典笔记和99道练习题及答案