膜拜!看大神如何用Python爬虫探究《前任3》为什么这么火爆!

《前任3》火不火?答案肯定是:火!目前为止已有18亿票房!

膜拜!看大神如何用Python爬虫探究《前任3》为什么这么火爆!

膜拜!看大神如何用Python爬虫探究《前任3》为什么这么火爆!

百度糯米实时票房

《前任3》太火,火到到处都是和《前任3》相关的消息,见面了问,看了吗?小编说:“??”《前任3》,哦哦,没看,太忙!在小编的心中,前任神马的,不应该是老实不相往来的吗???难道是小编太老了!

小编为了考究,真的想明白为什么它这么火爆!小编就看到了有意思的东东,分享给大家。

以下来自一名伟大的程序员,他分析了微信的一篇文章得出火的结论是“分手”,他想自己作为一名程序员,应该靠事实说话,于是靠Python爬虫爬取了一下豆瓣的影评?

采集豆瓣影评

插播一下,有不会爬虫的小伙伴们,可以回复文章,然后戳小编,后台回复“爬虫”即可获得爬虫框架资料及爬虫项目实战学习资料

流程如下:

  • 创建一个Scrapy项目;

  • 定义提取的Item;

  • 编写爬取网站的 spider 并提取 Item;

  • 编写 Item Pipeline 来存储提取到的Item(即数据)。

  • 提取数据库数据,处理展示

创建项目,终端输入

膜拜!看大神如何用Python爬虫探究《前任3》为什么这么火爆!

项目结构(不包括后续配置)

膜拜!看大神如何用Python爬虫探究《前任3》为什么这么火爆!

难题:scrapy实现模拟登录

这里我又重新去翻了一遍文档,发现文档中是有描述的

参考文档

scrapy中cookies的写法,可以与request中cookie的写法对比下

膜拜!看大神如何用Python爬虫探究《前任3》为什么这么火爆!

这里我用了两种方法解决这个问题,第一个是加cookie,效果不太理想,我换了第二种采用登录的方式。

由于在登录过程中可能需要输入验证码,目前采用把验证码图片保存至本地手动输入

(借助一些打码平台可以实现自动识别验证码输入,收费)

膜拜!看大神如何用Python爬虫探究《前任3》为什么这么火爆!

词云和分布图展示

膜拜!看大神如何用Python爬虫探究《前任3》为什么这么火爆!

膜拜!看大神如何用Python爬虫探究《前任3》为什么这么火爆!

本来是想用至尊宝做一个词云图的,找了好久没找到素材,就用了之前我的一张壁纸

膜拜!看大神如何用Python爬虫探究《前任3》为什么这么火爆!

话说,词云图好像并不能看出什么~而分布图表达的结果也并不直观,那就代表本次的结果没有什么卵用,个人觉得是因为数据量太小了,而且词云图本身对数据展示的结果只能看出高频词而已...我就不分析什么了(我真的尽力了(ง •̀_•́)ง)

我也想像其他大佬一样机器学习,数据分析啊

结后

其实小编真的很佩服大神们,什么都可以爬爬爬,对了,关于那位程序员爬取的源码,小编已下载来了,想要的或者想学习爬虫的,可以说出自己的看法,来获取哦!

相关推荐