利用Python爬取B站千万级数据,并对其进行简单的分析
欢迎点击右上角关注小编,除了分享技术文章之外还有很多福利,私信学习资料可以领取包括不限于Python实战演练、PDF电子文档、面试集锦、学习资料等。
前言
说起热门的B站相信很多喜欢玩动漫的,看最有创意的Up主的同学一定非常熟悉。B站上面除了动漫之外也有很多有趣的视频,也有很多教学视频,是非常不错的一个网站。
本篇文章要点
- 爬取10万用户数据
- 数据存储
- 数据词云分析
基本环境配置
版本:Python3
系统:Windows
相关模块:requests
Python爬虫的基本思路
实现步骤
爬取用户数据
存入数据库
词云分析
词云效果图
代码的思路
需要找到B站用户的关注列表的json接口,因为B站的隐私设置,一个人只能爬取其他人的前5页关注,共100人。
从数据库中获取用户的名字,重复的次数越多说明越多的用户关注,然后我使用fate的一张图片作为词云的mask图片,最后生成词云图片。
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对小编的支持。
相关推荐
YENCSDN 2020-11-17
lsjweiyi 2020-11-17
houmenghu 2020-11-17
Erick 2020-11-17
HeyShHeyou 2020-11-17
以梦为马不负韶华 2020-10-20
lhtzbj 2020-11-17
夜斗不是神 2020-11-17
pythonjw 2020-11-17
dingwun 2020-11-16
lhxxhl 2020-11-16
坚持是一种品质 2020-11-16
染血白衣 2020-11-16
huavhuahua 2020-11-20
meylovezn 2020-11-20
逍遥友 2020-11-20
weiiron 2020-11-16