膜拜!看大神如何用Python爬虫探究《前任3》为什么这么火爆!
《前任3》火不火?答案肯定是:火!目前为止已有18亿票房!
《前任3》太火,火到到处都是和《前任3》相关的消息,见面了问,看了吗?小编说:“??”《前任3》,哦哦,没看,太忙!在小编的心中,前任神马的,不应该是老实不相往来的吗???难道是小编太老了!
小编为了考究,真的想明白为什么它这么火爆!小编就看到了有意思的东东,分享给大家。
以下来自一名伟大的程序员,他分析了微信的一篇文章得出火的结论是“分手”,他想自己作为一名程序员,应该靠事实说话,于是靠Python爬虫爬取了一下豆瓣的影评?
采集豆瓣影评
插播一下,有不会爬虫的小伙伴们,可以回复文章,然后戳小编,后台回复“爬虫”即可获得爬虫框架资料及爬虫项目实战学习资料
流程如下:
创建一个Scrapy项目;
定义提取的Item;
编写爬取网站的 spider 并提取 Item;
编写 Item Pipeline 来存储提取到的Item(即数据)。
提取数据库数据,处理展示
创建项目,终端输入
项目结构(不包括后续配置)
难题:scrapy实现模拟登录
这里我又重新去翻了一遍文档,发现文档中是有描述的
参考文档
scrapy中cookies的写法,可以与request中cookie的写法对比下
这里我用了两种方法解决这个问题,第一个是加cookie,效果不太理想,我换了第二种采用登录的方式。
由于在登录过程中可能需要输入验证码,目前采用把验证码图片保存至本地手动输入
(借助一些打码平台可以实现自动识别验证码输入,收费)
词云和分布图展示
话说,词云图好像并不能看出什么~而分布图表达的结果也并不直观,那就代表本次的结果没有什么卵用,个人觉得是因为数据量太小了,而且词云图本身对数据展示的结果只能看出高频词而已...我就不分析什么了(我真的尽力了(ง •̀_•́)ง)
我也想像其他大佬一样机器学习,数据分析啊
结后
其实小编真的很佩服大神们,什么都可以爬爬爬,对了,关于那位程序员爬取的源码,小编已下载来了,想要的或者想学习爬虫的,可以说出自己的看法,来获取哦!