爬虫QQ说说并生成词云图,回忆满满!比比谁更杀马特!
无图言虚空
解析器 | 使用方法 | 优势 | 劣势 |
---|---|---|---|
Python标准库 | BeautifulSoup(markup, "html.parser") | Python的内置标准库 执行速度适中 文档容错能力强 | Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差 |
lxml HTML 解析器 | BeautifulSoup(markup, "lxml") | 速度快 文档容错能力强 | 需要安装C语言库 |
lxml XML 解析器 | BeautifulSoup(markup, ["lxml", "xml"]) BeautifulSoup(markup, "xml") | 速度快 唯一支持XML的解析器 | 需要安装C语言库 |
html5lib | BeautifulSoup(markup, "html5lib") | 最好的容错性 以浏览器的方式解析文档 生成HTML5格式的文档 | 速度慢 不依赖外部扩展 |
同理window的也一样,下载对应的驱动,解压后,将下载的**.exe 放到Python的安装目录,例如 D:\python 。 同时需要将Python的安装目录添加到系统环境变量里。
qq登录页http://i.qq.com,利用webdriver打开qq空间的登录页面
driver = webdriver.Chrome() driver.get("http://i.qq.com")
这个时候可以看到已经打开了qq说说的页面了,注意部分空间打开之后会出现一个提示框,需要先模拟点击事件关闭这个提示框
tm我以前竟然还有个黄钻,好可怕~~,空间头像也是那么的年轻、主流...
至此,爬取qq说说内容,并生成词云图。
源码github地址: github.com/taixiang/sp…
万人交流源码共享群:125240963
相关推荐
ericxieforever 2020-09-29
yonggeno 2020-08-02
zk0 2020-06-07
viewerlin 2020-05-29
iamplane 2020-05-11
ruanjiankaifa00 2020-05-01
magic00 2020-04-15
ArLinux 2020-04-09
极客研习社 2020-03-15
xiaonao00 2020-02-16
linuxhh 2020-02-14
xiaonao00 2020-01-24
poplpsure 2020-01-21
ustbclearwang 2020-01-18
86206132 2020-01-09
孙雪峰 2019-10-24
tencentopen 2019-11-10
Norsaa 2019-11-09