腾讯内部Python爬虫技术分享+python学习资料分享!

腾讯内部Python爬虫技术分享+python学习资料分享!

1、寻找数据特征

腾讯新闻的网址URL为:http://news.qq.com/

我们打开网页看看:

腾讯内部Python爬虫技术分享+python学习资料分享!

我们需要爬取这个页面每一条新闻的标题,鼠标右击一条新闻的标题,选择“审查元素”,出现下图的窗口:

腾讯内部Python爬虫技术分享+python学习资料分享!

审查元素

图片中红框的位置就是那一条新闻标题在HTML中的结构、位置和表现形式:

腾讯内部Python爬虫技术分享+python学习资料分享!

它上一级元素为:<em class=”f14 l24″>,再上一级元素为:<div class=”text”>

我们再看另一条新闻的标题,发现它的结构和之前我们分析的新闻标题的结构是一样的:

腾讯内部Python爬虫技术分享+python学习资料分享!

通过这些信息,我们就可以确定新闻标题在HTML文档中的位置。

接下来,我们开始使用Python对腾讯新闻标题进行爬取

完整的代码

腾讯内部Python爬虫技术分享+python学习资料分享!

运行程序,获取到的部分结果为如下所示:

腾讯内部Python爬虫技术分享+python学习资料分享!

虽然代码很简单,但还是做一点点讲解,方便刚刚接触的同学。

3、代码解析

腾讯内部Python爬虫技术分享+python学习资料分享!

腾讯内部Python爬虫技术分享+python学习资料分享!

对结果列表进行遍历,再从遍历的元素中提取出数据,get(“href”)表示获取属性名为“href”的属性值,get_text()表示获取标签的文本信息。

这样,一个简单的腾讯新闻爬虫就完成了,如果对requests模块和BeautifulSoup模块有更加深的学习欲望,可以查看它们的官方文档

最后,想学习Python的小伙伴们!

请关注+私信回复:“学习”就可以拿到一份我为大家准备的Python学习资料!

腾讯内部Python爬虫技术分享+python学习资料分享!

pytyhon学习资料

腾讯内部Python爬虫技术分享+python学习资料分享!

python学习资料

相关推荐