腾讯内部Python爬虫技术分享+python学习资料分享!
1、寻找数据特征
腾讯新闻的网址URL为:http://news.qq.com/
我们打开网页看看:
我们需要爬取这个页面每一条新闻的标题,鼠标右击一条新闻的标题,选择“审查元素”,出现下图的窗口:
审查元素
图片中红框的位置就是那一条新闻标题在HTML中的结构、位置和表现形式:
它上一级元素为:<em class=”f14 l24″>,再上一级元素为:<div class=”text”>
我们再看另一条新闻的标题,发现它的结构和之前我们分析的新闻标题的结构是一样的:
通过这些信息,我们就可以确定新闻标题在HTML文档中的位置。
接下来,我们开始使用Python对腾讯新闻标题进行爬取
完整的代码
运行程序,获取到的部分结果为如下所示:
虽然代码很简单,但还是做一点点讲解,方便刚刚接触的同学。
3、代码解析
对结果列表进行遍历,再从遍历的元素中提取出数据,get(“href”)表示获取属性名为“href”的属性值,get_text()表示获取标签的文本信息。
这样,一个简单的腾讯新闻爬虫就完成了,如果对requests模块和BeautifulSoup模块有更加深的学习欲望,可以查看它们的官方文档
最后,想学习Python的小伙伴们!
请关注+私信回复:“学习”就可以拿到一份我为大家准备的Python学习资料!
pytyhon学习资料
python学习资料
相关推荐
夜斗不是神 2020-11-17
染血白衣 2020-11-16
YENCSDN 2020-11-17
lsjweiyi 2020-11-17
houmenghu 2020-11-17
Erick 2020-11-17
HeyShHeyou 2020-11-17
以梦为马不负韶华 2020-10-20
lhtzbj 2020-11-17
pythonjw 2020-11-17
dingwun 2020-11-16
lhxxhl 2020-11-16
坚持是一种品质 2020-11-16
huavhuahua 2020-11-20
meylovezn 2020-11-20
逍遥友 2020-11-20
weiiron 2020-11-16