碉堡了！一小时爬取百万知乎用户信息的Python神器曝光

xw0

2018-12-06

欢迎点击右上角关注小编，除了分享技术文章之外还有很多福利，私信学习资料可以领取包括不限于Python实战演练、PDF电子文档、面试集锦、学习资料等。

知乎是一个真实的网络问答社区，社区氛围友好与理性，连接各行各业的精英。用户分享着彼此的专业知识、经验和见解，为中文互联网源源不断地提供高质量的信息。与此同时，知乎也是由Python开发而成，有许多的Python爱好者都愿意用知乎做一些爬虫实验。

下面我们来看看Pythoner志朋的爬虫实验。

一、使用的技术栈：

爬虫：python27 +requests+json+bs4+time

分析工具： ELK套件

开发工具：pycharm

二、数据成果

爬取了知乎部分的用户数据信息。

三、简单的可视化分析

1.性别分布

0 绿色代表的是男性 ^ . ^ ——1代表的是女性———— -1 性别不确定

可见知乎的用户男性颇多。

碉堡了！一小时爬取百万知乎用户信息的Python神器曝光

2.粉丝最多的top30

粉丝最多的前三十名：依次是张佳玮、李开复、黄继新等等，去知乎上查这些人，也差不多这个排名，说明爬取的数据具有一定的说服力。

碉堡了！一小时爬取百万知乎用户信息的Python神器曝光

3.写文章最多的top30

碉堡了！一小时爬取百万知乎用户信息的Python神器曝光

四、爬虫架构

爬虫架构图如下：

碉堡了！一小时爬取百万知乎用户信息的Python神器曝光

说明：

选择一个活跃的用户（比如李开复）的url作为入口url.并将已爬取的url存在set中。

抓取内容，并解析该用户的关注的用户的列表url，添加这些url到另一个set中，并用已爬取的url作为过滤。

解析该用户的个人信息，并存取到本地磁盘。

logstash取实时的获取本地磁盘的用户数据，并给elsticsearch

kibana和elasticsearch配合，将数据转换成用户友好的可视化图形。

五.编码

爬取一个url:

碉堡了！一小时爬取百万知乎用户信息的Python神器曝光

解析内容：

碉堡了！一小时爬取百万知乎用户信息的Python神器曝光

存本地文件：

碉堡了！一小时爬取百万知乎用户信息的Python神器曝光

代码说明：

需要修改获取requests请求头的authorization。

需要修改你的文件存储路径。

源码下载：https://github.com/forezp/ZhihuSpiderMan，记得star哦！

六.如何获取authorization

打开chorme，打开https://www.zhihu.com/，

登陆，首页随便找个用户，进入他的个人主页，F12(或鼠标右键，点检查)

点击关注，刷新页面，见图：

碉堡了！一小时爬取百万知乎用户信息的Python神器曝光

七、可改进的地方

可增加线程池，提高爬虫效率

存储url的时候我才用的set(),并且采用缓存策略，最多只存2000个url，防止内存不够，其实可以存在redis中。

存储爬取后的用户我说采取的是本地文件的方式，更好的方式应该是存在mongodb中。

对爬取的用户应该有一个信息的过滤，比如用户的粉丝数需要大与100或者参与话题数大于10等才存储。防止抓取了过多的僵尸用户。

八.关于ELK套件

关于elk的套件安装就不讨论了，具体见官网就行了。网站：https://www.elastic.co/

另外logstash的配置文件如下：

碉堡了！一小时爬取百万知乎用户信息的Python神器曝光

九、结语

从爬取的用户数据可分析的地方很多，比如地域、学历、年龄等等，我就不一一列举了。

另外，我觉得爬虫是一件非常有意思的事情，在这个内容消费升级的年代，如何在广阔的互联网的数据海洋中挖掘有价值的数据，是一件值得思考和需不断践行的事情。

最后，本文仅用作交流学习，一切数据归知乎所有。

碉堡了！一小时爬取百万知乎用户信息的Python神器曝光

知乎用户 python

xw0

0 关注 0 粉丝 0 动态

关注关注

php爬虫：知乎用户数据爬取和分析

背景说明：小拽利用php的curl写的爬虫，实验性的爬取了知乎5w用户的基本信息；同时，针对爬取的数据，进行了简单的分析呈现。php的spider代码和用户dashboard的展现代码，整理后上传github，在个人博客和公众号更新代码库，程序仅供娱乐和学

huryer 2019-06-20

PHP爬虫：百万级别知乎用户数据爬取与分析

安装Linux系统，在VMWare虚拟机下安装一个Ubuntu；安装PHP5.6或以上版本；安装curl、pcntl扩展。PHP的curl扩展是PHP支持的允许你与各种服务器使用各种类型的协议进行连接和通信的库。接下来就可以使用该cookie字符串来发送请

宋大人 2016-01-22

我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言

半粒红豆 2015-09-14

php实现爬取和分析知乎用户数据

huodianyan 2016-01-26

PHP爬虫之百万级别知乎用户数据爬取与分析

安装Linux系统，在VMWare虚拟机下安装一个Ubuntu；安装PHP5.6或以上版本；安装MySQL5.5或以上版本；安装curl、pcntl扩展。使用PHP的curl扩展抓取页面数据。PHP的curl扩展是PHP支持的允许你与各种服务器

starter0 2019-04-13

百万级别知乎用户数据抓取与分析之PHP开发

安装Linux系统，在VMWare虚拟机下安装一个Ubuntu；安装PHP5.6或以上版本；PHP的curl扩展是PHP支持的允许你与各种服务器使用各种类型的协议进行连接和通信的库。本程序是抓取知乎的用户数据，要能访问用户个人页面，需要用户登录后的才能访问

chenrongchun 2019-04-12

我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言

zuixinyan 2015-08-04

安科网

碉堡了！一小时爬取百万知乎用户信息的Python神器曝光

xw0

xw0

相关推荐

php爬虫：知乎用户数据爬取和分析

PHP爬虫：百万级别知乎用户数据爬取与分析

我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言

php实现爬取和分析知乎用户数据

PHP爬虫之百万级别知乎用户数据爬取与分析

百万级别知乎用户数据抓取与分析之PHP开发

我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言

xw0