新浪微博python爬虫分享（一天可抓取 1300 万条数据）,超级无敌

fangjack

2020-05-03

直接进入主题

新浪微博python爬虫分享（一天可抓取 1300 万条数据）,超级无敌
爬虫功能：
此项目和QQ空间爬虫类似，主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注（详细见此）。还要注意：不管你是为了Python就业还是兴趣爱好，记住：项目开发经验永远是核心，如果你没有2020最新python入门到高级实战视频教程，可以去小编的Python交流.裙：七衣衣九七七巴而五（数字的谐音）转换下可以找到了，里面很多新python教程项目，还可以跟老司机交流讨教！
代码获取新浪微博Cookie进行登录，可通过多账号登录来防止新浪的反扒（用来登录的账号可从淘宝购买，一块钱七个）。
项目爬的是新浪微博wap站，结构简单，速度应该会比较快，而且反扒没那么强，缺点是信息量会稍微缺少一些（可见爬虫福利：如何爬wap站）。
爬虫抓取微博的速度可以达到 1300万/天以上，具体要视网络情况，我使用的是校园网（广工大学城校区），普通的家庭网络可能才一半的速度，甚至都不到。

环境、架构：
开发语言：Python2.7
开发环境：64位Windows8系统，4G内存，i7-3612QM处理器。
数据库：MongoDB 3.2.0
（Python编辑器：Pycharm 5.0.4；MongoDB管理工具：MongoBooster 1.1.1）

主要使用 scrapy 爬虫框架。
下载中间件会从Cookie池和User-Agent池中随机抽取一个加入到spider中。
start_requests 中根据用户ID启动四个Request，同时对个人信息、微博、关注和粉丝进行爬取。
将新爬下来的关注和粉丝ID加入到待爬队列（先去重）。

使用说明：
启动前配置：

MongoDB安装好能启动即可，不需要配置。
Python需要安装好scrapy（64位的Python尽量使用64位的依赖模块）
另外用到的python模块还有：pymongo、json、base64、requests。
将你用来登录的微博账号和密码加入到 cookies.py 文件中，里面已经有两个账号作为格式参考了。
另外一些scrapy的设置（如间隔时间、日志级别、Request线程数等）可自行在setting里面调。

运行截图：

数据库说明：
SinaSpider主要爬取新浪微博的个人信息、微博数据、关注和粉丝。
数据库设置 Information、Tweets、Follows、Fans四张表，此处仅介绍前面两张表的字段。

Information 表：
_id：采用 “用户ID” 作为唯一标识。
Birthday：出生日期。
City：所在城市。
Gender：性别。
Marriage：婚姻状况。
NickName：微博昵称。
Num_Fans：粉丝数量。
Num_Follows：关注数量。
Num_Tweets：已发微博数量。
Province：所在省份。
Signature：个性签名。
URL：微博的个人首页。

Tweets 表：
_id：采用 “用户ID-微博ID” 的形式作为一条微博的唯一标识。
Co_oridinates：发微博时的定位坐标（经纬度），调用地图API可直接查看具体方位，可识别到在哪一栋楼。
Comment：微博被评论的数量。
Content：微博的内容。
ID：用户ID。
Like：微博被点赞的数量。
PubTime：微博发表时间。
Tools：发微博的工具（手机类型或者平台）
Transfer：微博被转发的数量。
————————————————

最后要注意：不管你是为了Python就业还是兴趣爱好，记住：项目开发经验永远是核心，如果你没有2020最新python入门到高级实战视频教程，可以去小编的Python交流.裙：七衣衣九七七巴而五（数字的谐音）转换下可以找到了，里面很多新python教程项目，还可以跟老司机交流讨教！
本文的文字及图片来源于网络加上自己的想法,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

python python爬虫

安科网

新浪微博python爬虫分享（一天可抓取 1300 万条数据）,超级无敌

fangjack

fangjack

相关推荐

Python爬虫破解登陆哔哩哔哩的方法

python 爬虫如何实现百度翻译

python 发送get请求接口详解

python 使用tkinter+you-get实现视频下载器

python中requests模拟登录的三种方式(携带cookie/session进行请求网站)

python开发一个解析protobuf文件的简单编译器

python 下载文件的多种方法汇总

Linux Shell 如何获取参数的方法

python跨文件使用全局变量的实现

python调用百度API实现人脸识别

Python调用ffmpeg开源视频处理库，批量处理视频

详解python os.path.exists判断文件或文件夹是否存在

python实现在列表中查找某个元素的下标示例

python如何获得list或numpy数组中最大元素对应的索引

Python实现列表索引批量删除的5种方法

致命错误！Python开发者的7个崩溃瞬间

针对Python开发人员的10个“疯狂”的项目构想

用Python内置模块处理ini配置文件

VS Code 中 Python 扩展的部分功能重构，支持 R 和 Julia

Python五个隐藏的特性，你可能从未听说过

fangjack