Python练习
爬虫基础练习——抓取网页数据
题目:抓取http://www.cntour.cn/首页新闻
分析:依次找到要抓取的数据的节点
使用筛选器依次找到要抓取的节点
#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a
然后代码如下:
import requests #导入requests包 import re from bs4 import BeautifulSoup url=‘http://www.cntour.cn/‘ strhtml=requests.get(url) soup=BeautifulSoup(strhtml.text,‘lxml‘) data = soup.select(‘#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a‘) for item in data: result={ ‘ID‘:re.findall(‘\d+‘,item.get(‘href‘)), ‘title‘:item.get_text(), ‘link‘:item.get(‘href‘) } print(result)
结果如下:
相关推荐
YENCSDN 2020-11-17
lsjweiyi 2020-11-17
houmenghu 2020-11-17
Erick 2020-11-17
HeyShHeyou 2020-11-17
以梦为马不负韶华 2020-10-20
lhtzbj 2020-11-17
夜斗不是神 2020-11-17
pythonjw 2020-11-17
dingwun 2020-11-16
lhxxhl 2020-11-16
坚持是一种品质 2020-11-16
染血白衣 2020-11-16
huavhuahua 2020-11-20
meylovezn 2020-11-20
逍遥友 2020-11-20
weiiron 2020-11-16