利用python爬取腾讯新闻文字内容(requests)
这个项目很简单,可作为入门用,我们利用python中的requests库试着爬取一个腾讯新闻网页中的文字内容。如图
首先,打开开发者模式,分析网页。
具体做法,按F12,并用ctrl+f对elements进行搜索,关键字为新闻内容的几个字即可。例如新闻的开头有“随着中国”四个字,我们就在源码中搜索这四个字,搜索结果如图所示:
利用这个方法,我们很轻松就找到了新闻文字内容的位置,通过分析发现其内容都为p标签下的字符串,并且其class="one-p",这可以作为定位该内容的唯一特征。
通过以上的分析,我们确定了定位关键信息的方法,接下来就可以编写python程序了:
# -*- coding:utf-8 -*-import requests
from bs4 import BeautifulSoup
url = "https://new.qq.com/omn/20190704/20190704A0EHMR00.html"r = requests.get(url)
rr = r.content
bs = BeautifulSoup(rr,"lxml")
news_contents = bs.find_all("p",{'class':'one-p'})
news_final = ""for i in news_contents:
print(i.string)
if i.string:
news_final = news_final +i.string + ""f = open("news_contents.txt",'w')
f.write(news_final)
f.close()
打开最终保存的文件,内容如下:
最后小编自己也是一个有着6年工作经验的工程师,关于python编程,自己有做材料的整合,一个完整的python编程学习路线,学习资料和工具。想要这些资料的可以关注小编,并在后台私信小编:“01”领取,希望能帮助到你。