用Python爬虫爬取世界上最大的小电影网站,一天可爬取500万
Python + Scrapy + MongoDB,每天爬取500万的数据以上的小电影数据。
免责声明:本项目旨在研究Scrapy Spider Framework和MongoDB数据库,它不能用于商业或其他个人意图。如果使用不当,那将是个人承担。
- 该项目主要用于抓取网站,这是世界上最大的网站。这样做可以检索视频标题,持续时间,mp4链接,封面网址和直接网站的网址。
- 该项目快速抓取PornHub.com,但结构简单。
- 该项目每天最多可以抓取5万个网站的视频,具体取决于您的个人网络。由于我的带宽慢,我的结果相对较慢。
- 爬虫一次请求10个线程,因此可以达到上述速度。如果您的网络性能更高,您可以每天请求更多线程并抓取更多视频。具体配置请参见[预启动配置]
环境配置
语言:python
python版本:python2.7
电脑配置:MacOS, 4G RAM
数据库: MongoDB
使用说明
下载源码
方式1
进入:https://github.com/xiyouMc/We...
点击下载源码,下载源码之后解答到一个文件夹
方式2
需要先安装好git
,安装好之后git clone https://github.com/xiyouMc/WebHubBot.git
就能将源码下载到本地
预启动配置
如果scrapy使用pip指令安装不上的话。建议使用anaconda进行安装,装好anaconda之后使用conda install scrapy
指令会自动解决依赖进行安装
- 安装MongoDB并在没有配置的情况下启动
- 安装Python依赖模块:Scrapy,pymongo,请求或 pip install -r requirements.txt
- 根据需要修改配置,例如间隔时间,线程数等。
启动
- cd WebHub
- python quickstart.py
运行屏幕截图
数据库配饰说明
保存数据的数据库中的表是PhRes。以下是字段说明:
PhRes表:
video_title: 视频的标题,并且不能重复 link_url: 视频的网址 image_url: 视频的一些截图 video_duration: 视频的时长,单位为秒 quality_480p: 视频的清晰度与下载视频的地址
相关推荐
夜斗不是神 2020-11-17
染血白衣 2020-11-16
YENCSDN 2020-11-17
lsjweiyi 2020-11-17
houmenghu 2020-11-17
Erick 2020-11-17
HeyShHeyou 2020-11-17
以梦为马不负韶华 2020-10-20
lhtzbj 2020-11-17
pythonjw 2020-11-17
dingwun 2020-11-16
lhxxhl 2020-11-16
坚持是一种品质 2020-11-16
huavhuahua 2020-11-20
meylovezn 2020-11-20
逍遥友 2020-11-20
weiiron 2020-11-16